El Centro de Supercomputadoras de San Diego (SDSC) dice que está listo para ejecutar cargas de trabajo de prueba en su sistema experimental Voyager AI, que parece ser la primera supercomputadora basada en Intel Habana.
La supercomputadora se construyó en colaboración con Habana Labs y Supermicro de Intel como parte de una subvención de $11,25 millones por cinco años de la Fundación Nacional de Ciencias de Estados Unidos. Y si bien es poderosa, la Voyager no está tratando de ganar ningún récord de referencia, no se supone que lo haga.
La Voyager está destinada a ser un campo de pruebas para la investigación y el desarrollo de computación AI/ML en hardware especializado, en este caso, los procesadores Goya y Gaudi de Habana, dijo el investigador principal de la Voyager, Amit Majumdar, a The Register.
Lanzado en 2019, Goya de Habana Lab fue diseñado para acelerar las cargas de trabajo de inferencia de IA utilizando ocho núcleos de procesador de tensor con soporte para precisión mixta de FP32 a UINT8. Mientras tanto, Gaudí, presentado unos meses después, era un chip de 350 W diseñado teniendo en cuenta el entrenamiento de ML. Presentaba 32 GB de memoria integrada que funcionaba con un ancho de banda de 1 TB/s.
Intel adquirió el diseñador de chips a fines de 2019 después de abandonar su desafortunada colaboración de Nervana con Meta (entonces Facebook). Una especie de cosa de suerte por tercera vez para Intel en sistemas de IA.
Los aceleradores Habana AI se implementan en 42 redes Supermicro X12 que componen Voyager. Cada sistema X12 está equipado con un par de procesadores escalables Xeon de tercera generación de Intel y ocho procesadores Habana Gaudi AI. El clúster también emplea un par de sistemas SuperServer 4029GP-T del OEM con ocho tarjetas Goya HL-100 PCIe para inferencia de IA.
Debido a que el sistema está diseñado para admitir modelos de IA muy grandes, cada servidor está conectado en red con seis puertos de 400 Gbit/s que funcionan a través del protocolo RDMA sobre Ethernet convergente a un gran conmutador sin bloqueo de Arista.
Listos, listos, probar
Con el sistema Voyager operativo, SDSC ha pasado a la fase de banco de pruebas del proyecto.
Durante este período, el centro de supercomputación tiene tres años para trabajar directamente con los investigadores para determinar el rendimiento del sistema, las peculiaridades del hardware y los requisitos de compatibilidad del software, explicó Majumdar.
La investigación también explorará casos de uso para los chips de Habana, que tradicionalmente se han centrado en la visión artificial, el procesamiento del lenguaje natural y las cargas de trabajo de aprendizaje profundo, dijo Sree Ganeson, jefe de gestión de productos de software en Habana Labs, a The Register .
"Esta comunidad de científicos e investigadores traerá una clase diferente de problemas y tratará de aplicarlos en un aprendizaje demasiado profundo", dijo. "Los tipos de patrones que pueden traer pueden ser diferentes, por lo que será un [proceso] de aprendizaje".
Los resultados de esta prueba se compartirán durante los próximos años durante talleres semestrales y foros de usuarios.
Sin embargo, no todos podrán trabajar en el sistema. Grupos de investigación determinados con la ayuda de un consejo asesor externo, y la información recopilada se utilizará para desarrollar mejores prácticas y políticas de asignación. Esto es diferente de los sistemas de categoría uno, que están abiertos a proyectos de investigación revisados por pares poco después de estar en línea, dijo Majumdar.
Una vez transcurridos los tres años, el proyecto pasará a una fase de asignación de dos años durante la cual el equipo de SDSC dará un paso atrás y permitirá que científicos independientes realicen investigaciones sobre el sistema.
Aunque Voyager acaba de estar en línea, Majumdar afirma que las primeras pruebas han sido prometedoras, con un rendimiento "mejor de lo proyectado" y cargas de trabajo que se transfieren relativamente sin problemas para ejecutarse en Gaudí y Goya. "La pila de software, la portabilidad y la ejecución en la máquina han sido realmente fluidas", dijo.
¿Qué pasa con Gaudi2 y Greco?
La Voyager entra en línea solo unas semanas después de que Habana Labs de Intel presentara sus procesadores de inferencia y entrenamiento de IA de segunda generación: Gaudi2 y Greco.
Intel afirma que los chips ofrecen un aumento sustancial del rendimiento con respecto a la generación anterior y supuestamente superan a las GPU A100 de Nvidia en sus puntos de referencia internos.
El Gaudi2 de 600 W ofrece 24 tensor cores basados en un proceso de fabricación de 7 nm y 96 GB de memoria HBM2e de gran ancho de banda que funcionan a 2,45 TB/s. Mientras tanto, Greco ofrece 16 GB, lo mismo que Goya, de LPDDR5 más nuevo en una tarjeta PCIe más pequeña de una sola ranura, media altura y media longitud que consume menos de la mitad de la energía.
"Gaudi2 es más grande en muchos sentidos con más núcleos de procesadores tensoriales, más HBM2e, más puertos escalables, por lo que todo lo que aprendamos de [Voyager] debería escalar aún mejor en Gaudi2", dijo Ganeson. "Esta comunidad está realizando el trabajo de vanguardia. Por lo tanto, podemos aprender y desarrollar lo que se producirá en el futuro". ®
Obtenga nuestros recursos tecnológicos