Le San Diego Supercomputer Center (SDSC) déclare qu'il est prêt à exécuter des charges de travail de test sur son système expérimental d'IA Voyager, qui semble être le tout premier supercalculateur basé sur Intel Habana.
Le supercalculateur a été construit en collaboration avec les laboratoires Habana d'Intel et Supermicro dans le cadre d'une subvention de 11,25 millions de dollars sur cinq ans de la National Science Foundation américaine. Et bien que puissant, Voyager n'essaie pas de remporter des records de référence - ce n'est pas censé le faire.
Voyager est destiné à être un terrain d'essai pour la recherche et le développement informatique AI/ML sur du matériel spécialisé - dans ce cas, les processeurs Goya et Gaudi de Habana - a déclaré le chercheur principal de Voyager, Amit Majumdar, à The Register.
Introduit en 2019, Goya de Habana Lab a été conçu pour accélérer les charges de travail d'inférence IA à l'aide de huit cœurs de processeur de tenseur avec prise en charge d'une précision mixte de FP32 à UINT8. Pendant ce temps, Gaudi, présenté quelques mois plus tard, était une puce de 350 W conçue pour la formation ML. Il comportait 32 Go de mémoire embarquée fonctionnant à une bande passante de 1 To/s.
Intel a acquis le concepteur de puces fin 2019 après avoir abandonné sa malheureuse collaboration Nervana avec Meta (alors Facebook). Une sorte de troisième coup de chance pour Intel sur les systèmes d'IA.
Les accélérateurs Habana AI sont déployés sur 42 réseaux Supermicro X12 qui composent Voyager. Chaque système X12 est équipé d'une paire de processeurs Intel Xeon Scalable de troisième génération et de huit processeurs Habana Gaudi AI. Le cluster utilise également une paire de systèmes SuperServer 4029GP-T de l'OEM avec huit cartes Goya HL-100 PCIe pour l'inférence IA.
Étant donné que le système est conçu pour prendre en charge de très grands modèles d'IA, chaque serveur est mis en réseau avec six ports de 400 Gbit/s fonctionnant sur le protocole RDMA sur Ethernet convergé vers un grand commutateur non bloquant Arista.
À vos marques, prêt, testez
Avec le système Voyager opérationnel, SDSC est passé à la phase de test du projet.
Au cours de cette période, le centre de calcul intensif dispose de trois ans pour travailler directement avec les chercheurs afin de déterminer les performances du système, les bizarreries matérielles et les exigences de compatibilité logicielle, a expliqué Majumdar.
La recherche explorera également des cas d'utilisation des puces de Habana, qui ont traditionnellement ciblé la vision par ordinateur, le traitement du langage naturel et les charges de travail d'apprentissage en profondeur, a déclaré Sree Ganeson, responsable de la gestion des produits logiciels chez Habana Labs, The Register .
"Cette communauté de scientifiques et de chercheurs va apporter une classe différente de problèmes et essayer de les appliquer à un apprentissage trop approfondi", a-t-elle déclaré. "Les types de modèles qu'ils peuvent apporter peuvent être différents, donc ça va être un apprentissage [processus]."
Les résultats de ces tests seront partagés au cours des prochaines années lors d'ateliers semestriels et de forums d'utilisateurs.
Cependant, tout le monde ne pourra pas travailler sur le système. Des groupes de recherche déterminés avec l'aide d'un conseil consultatif externe, et les informations recueillies seront utilisées pour développer les meilleures pratiques et les politiques d'allocation. Ceci est différent des systèmes de catégorie 1, qui sont ouverts aux projets de recherche évalués par des pairs peu de temps après leur mise en ligne, a déclaré Majumdar.
Une fois les trois années écoulées, le projet passera à une phase d'attribution de deux ans au cours de laquelle l'équipe du SDSC prendra du recul et permettra à des scientifiques indépendants de mener des recherches sur le système.
Alors que Voyager vient tout juste d'être mis en ligne, Majumdar affirme que les premiers tests ont été prometteurs, avec des performances "meilleures que prévu" et des charges de travail relativement faciles à exécuter sur Gaudi et Goya. "La pile logicielle, le portage et l'exécution sur la machine ont été vraiment fluides", a-t-il déclaré.
Qu'en est-il de Gaudi2 et Greco ?
Voyager est mis en ligne quelques semaines seulement après que les laboratoires Habana d'Intel ont dévoilé ses processeurs d'entraînement et d'inférence d'IA de deuxième génération : Gaudi2 et Greco.
Intel affirme que les puces offrent une amélioration substantielle des performances par rapport à la génération précédente et surpasseraient les GPU A100 de Nvidia dans ses benchmarks internes.
Le Gaudi2 de 600 W offre 24 cœurs tenseurs basés sur un processus de fabrication de 7 nm et 96 Go de mémoire à large bande passante HBM2e fonctionnant à 2,45 To/s. Greco, quant à lui, propose 16 Go – le même que Goya – de LPDDR5 plus récent dans une carte PCIe plus petite à un seul emplacement, mi-hauteur et mi-longueur qui consomme moins de la moitié de l'énergie.
"Gaudi2 est plus grand à bien des égards avec plus de cœurs de processeur tenseur, plus de HBM2e, plus de ports scale-out, donc tout ce que nous apprenons de [Voyager] devrait évoluer encore mieux sur Gaudi2", a déclaré Ganeson. "Le travail de pointe est effectué par cette communauté. Ainsi, nous apprenons et nous développons pour ce qui sera en production à l'avenir." ®
Obtenez nos ressources techniques