15 mil aceleradores por data center: Alibaba Cloud falou sobre uma fábrica de rede usada para treinamento de IA

Publicidade

Alibaba Cloud divulgou uma série de informações técnicas sobre a infraestrutura de rede e o design de seus data centers que processam cargas de trabalho de IA, em particular, atendendo LLM. Um dos principais engenheiros da empresa, Ennan Zhai, publicou um relatório “Alibaba HPN: A Data Center Network for Large Language Model Training”, que será apresentado na conferência SIGCOMM em agosto deste ano. Alibaba Cloud escolheu Ethernet como base para sua estrutura de rede, em vez de, por exemplo, InfiniBand. A nova plataforma tem sido usada em treinamento LLM em larga escala há oito meses. A escolha se deve à abertura e versatilidade da pilha de tecnologia Ethernet, que permite não ficar vinculado a um fornecedor específico. Além disso, há menos probabilidade de sofrer novas sanções dos EUA.

Publicidade
Publicidade

Posts Similares

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *