O San Diego Supercomputer Center (SDSC) diz que está pronto para executar cargas de trabalho de teste em seu sistema experimental Voyager AI, que parece ser o primeiro supercomputador baseado em Intel Habana.
O supercomputador foi construído em colaboração com o Habana Labs da Intel e a Supermicro como parte de uma doação de US$ 11,25 milhões por cinco anos da Fundação Nacional de Ciências dos Estados Unidos. E embora poderosa, a Voyager não está tentando ganhar nenhum recorde de referência - não deveria.
A Voyager pretende ser um campo de testes para pesquisa e desenvolvimento de computação AI/ML em hardware especializado - neste caso, os processadores Goya e Gaudi de Habana - disse o investigador principal da Voyager, Amit Majumdar, ao The Register.
Apresentado em 2019, o Goya da Habana Lab foi projetado para acelerar cargas de trabalho de inferência de IA usando oito núcleos de processador tensor com suporte para precisão mista de FP32 a UINT8. Enquanto isso, o Gaudi, lançado alguns meses depois, era um chip de 350 W projetado com o treinamento de ML em mente. Apresentava 32 GB de memória interna operando a uma largura de banda de 1 TB/s.
A Intel adquiriu o designer de chips no final de 2019, depois de abandonar sua malfadada colaboração Nervana com a Meta (então Facebook). Uma espécie de sorte pela terceira vez para a Intel em sistemas de IA.
Os aceleradores Habana AI são implantados em 42 redes Supermicro X12 que compõem a Voyager. Cada sistema X12 é equipado com um par de processadores Xeon Scalable de terceira geração da Intel e oito processadores Habana Gaudi AI. O cluster também emprega um par de sistemas SuperServer 4029GP-T do OEM com oito placas Goya HL-100 PCIe para inferência de IA.
Como o sistema foi projetado para oferecer suporte a modelos de IA muito grandes, cada servidor é conectado em rede com seis portas de 400 Gbit/s operando no protocolo RDMA sobre Ethernet convergente para um grande comutador sem bloqueio Arista.
Pronto, definido, teste
Com o sistema Voyager operacional, o SDSC fez a transição para a fase de teste do projeto.
Durante este período, o centro de supercomputação tem três anos para trabalhar diretamente com os pesquisadores para avaliar o desempenho do sistema, peculiaridades de hardware e requisitos de compatibilidade de software, explicou Majumdar.
A pesquisa também explorará casos de uso para os chips da Habana, que tradicionalmente visam visão computacional, processamento de linguagem natural e cargas de trabalho de aprendizado profundo, disse Sree Ganeson, chefe de gerenciamento de produtos de software do Habana Labs, The Register .
"Esta comunidade de cientistas e pesquisadores vai trazer uma classe diferente de problemas e tentar aplicá-los em aprendizado profundo", disse ela. "Os tipos de padrões que eles podem trazer podem ser diferentes, então será um [processo] de aprendizado."
Os resultados desse teste serão compartilhados nos próximos anos durante workshops semestrais e fóruns de usuários.
No entanto, nem todos trabalharão no sistema. Grupos de pesquisa determinados com a ajuda de um conselho consultivo externo, e as informações coletadas serão usadas para desenvolver melhores práticas e políticas de alocação. Isso é diferente dos sistemas de categoria um, que são abertos a projetos de pesquisa revisados por pares logo após entrarem online, disse Majumdar.
Após o término dos três anos, o projeto fará a transição para uma fase de alocação de dois anos, durante a qual a equipe do SDSC recuará e permitirá que cientistas independentes conduzam pesquisas sobre o sistema.
Embora a Voyager tenha acabado de entrar no ar, Majumdar afirma que os primeiros testes foram promissores, com desempenho "melhor do que o projetado" e cargas de trabalho portadas de forma relativamente indolor para rodar em Gaudi e Goya. "A pilha de software, a portabilidade e a execução na máquina foram realmente tranquilas", disse ele.
E Gaudi2 e Greco?
A Voyager entra em operação apenas algumas semanas depois que o Habana Labs da Intel revelou seus processadores de inferência e treinamento de IA de segunda geração: Gaudi2 e Greco.
A Intel afirma que os chips oferecem um aumento substancial de desempenho em relação à geração anterior e supostamente superam as GPUs A100 da Nvidia em seus benchmarks internos.
O Gaudi2 de 600 W oferece 24 núcleos tensores baseados em um processo de fabricação de 7 nm e 96 GB de memória HBM2e de alta largura de banda operando a 2,45 TB/s. A Greco, por sua vez, oferece 16 GB - o mesmo que Goya - de LPDDR5 mais recente em uma placa PCIe menor de slot único, meia altura e meio comprimento que consome menos da metade da energia.
"O Gaudi2 é maior em muitos aspectos, com mais núcleos de processador tensor, mais HBM2e, mais portas dimensionáveis, portanto, tudo o que aprendemos com [Voyager] deve ser dimensionado ainda melhor no Gaudi2", disse Ganeson. "O trabalho de ponta está sendo feito por esta comunidade. Então, aprendemos e nos desenvolvemos para o que estará em produção no futuro." ®
Obtenha nossos recursos técnicos