• Tecnología
  • Equipo eléctrico
  • Industria de materiales
  • vida digital
  • política de privacidad
  • oh nombre
Localización: Hogar / Tecnología / Lawrence Livermore entra en fondos para fomentar las redes omni-patas

Lawrence Livermore entra en fondos para fomentar las redes omni-patas

techserving |
1701

Décadas antes de que hubiera hiperscalers y los constructores de nubes comenzaron a crear sus propias variantes de cómputo, almacenamiento y redes para sus sistemas distribuidos masivos, los principales centros de HPC del mundo fomentaron tecnologías innovadoras que de otro modo habían muerto en la vid y nunca se han propagado en elmercado en general.

Lawrence Livermore National Laboratory, one of the HPC centers run by the US Department of Energy, is among the most important of such centers in the United States and in the world, and if you put a nuclear weapon to our head, we would concede that it is probably the most important. So when Lawrence Livermore invests in a technology or adopts one that has already been commercialized (or its adoption is an indication that it can be commercialized for those in-between cases), then it is important to listen.

Y así es con la inversión de $ 18 millones que Lawrence Livermore está convirtiendo en Cornelis Networks, la compañía de redes Omni-Path que fue expulsada de Intel en septiembre de 2020.Gracias a las muchas adquisiciones que Intel ha realizado en la última década, Cornelis está heredando los derechos de una gran cantidad de tecnología de redes innovadoras y trabajará con Lawrence Livermore no solo para crear ASICS infinibandes más rápidos, sino para reunir elementos de estas adquisiciones juntaspara fusionar una mejor implementación de Infiniband de las mejores ideas disponibles.

El reciente proyecto de redes de Aquila en Google, y su protocolo GNET, sobre el que escribimos hace unas semanas, valida muchos de los enfoques que Cornelis está tomando con Omni-Path y, creemos, está fuertemente influenciado por la idea de fusionar un Infiniband.-Lago de software definido por redes con los formatos de datos de subcacket de grano fino adoptados por Cray en la interconexión "Aries" utilizada en sus supercomputadoras XC hace una década y que ha sido reemplazado por un sistema de conmutación Ethernet "Rosetta" totalmente nuevo que también picó datos.En pedazos más pequeños que un paquete para hacer un mejor enrutamiento adaptativo y control de congestión de lo que de otra manera podría ser posible.

La cartera de Cornelis Networks tiene muchas propiedades intelectuales, y Phil Murphy, uno de los cofundadores de la compañía, tiene la intención de llevarlo todo en futuras interconexiones Omni-Path Express que se ejecutan a 400 GB/SEC y 800 GB/segundo.

Mientras hablamos cuando Cornelis Networks compró la tecnología Omni-Path de Intel, Murphy tiene raíces profundas en sistemas y redes, pero lo que podría no haber sido obvio es que la compañía tiene derechos sobre toda la propiedad intelectual relacionada con las tecnologías de Silverstorm ((Fundada por Murphy en 1999 aproximadamente al mismo tiempo que se fundó Mellanox Technologies) Infiniband Switches que son uno de los cimientos del Qlogic Truscale InfiniBand Business Business.(El otro es PathScale, también adquirido por Qlogic en 2006, que hizo adaptadores de huéspedes infiniband.) Y la forma en que se estructura el trato entre las redes Intel y Cornelis, este último también tiene derechos sobre la interconexión de supercomputador "Géminis" y "Aries", así como la interconexión omni-Path de primera generación creada por Intel como un híbridode Truscale y Aries.

La serie Omni-Path 100 (que se ejecuta a 100 GB/seg) tenía un toque de tecnología Aries, pero se suponía que Omni-Path 200 obtenía algo más y también tenía algunas diferencias que introdujeron incompatibilidades que, francamente, Cornelis Networks se iríaDetrás, ya que crea una implementación más abierta de Infiniband basada en la Biblioteca Libfabric del Grupo de Trabajo de Interfaces OpenFabrics.Hicimos una inmersión profunda en cómo Cornelis Networks está cambiando la arquitectura Omni-Path en julio de 2021 y significa dejar caer la construcción de paquetes Infiniband Verbs, así como la mensajería de escala de rendimiento alternativa, o PSM, creado por PathScale y adoptado en Truscale como unAlternativa a (pero no un reemplazo de) verbos infiniband.

Lawrence Livermore Kicks In Funds to Foster Omni-Path Networking

Como explicamos en julio pasado, esta pila de OFI pudo entregar 10 millones de mensajes por segundo por núcleo de CPU hablando sobre la red Omni-Path Express, en comparación con 3 millones a 4 millones por núcleo para la implementación Mellanox de Infiniband (eso es un factor de2.5x a 3.Mejora 3x) y un viaje de ida y vuelta de núcleo a Core a través de la red está llegando a 800 nanosegundos, aproximadamente un 20 por ciento más rápido que usar el controlador PSM en el omni-Path 100 Gear de Intel.

En cualquier caso, esta pila OFI se ejecuta en la interconexión Omni-Path existente de 100 GB/SEC, y está disponible como una actualización a los aproximadamente 500 clientes Omni-Path que Intel pudo obtener en los mercados de HPC e IA.

One of the largest such Omni-Path customers is, of course, Lawrence Livermore, and Matt Leininger, senior principal HPC strategist at the lab, tells The Next Platform that machines under the auspices of the DOE’s National Nuclear Security Administration – which includes Los Alamos National Laboratory and Sandia National Laboratories as well as Lawrence Livermore, the so-called TriLabs in DOE lingo – have used earlier InfiniBand technologies from QLogic as well as Intel Omni-Path interconnects in systems.Hoy, dice Leininger, los trilabs tienen grupos que varían en tamaño desde 100 nodos hasta tan altos como 3.000 nodos, que "sirven como caballos de batalla cotidianos" como él lo expresó, para un total de alrededor de 20,000 nodos vinculados colectivamente por Omni-Path.(No todo como un solo sistema, eso sí.) Esa es una huella bastante grande.

Los principales laboratorios de HPC tienen sus trabajos diarios de ejecución de simulaciones y modelos, pero sus otros propósitos son fomentar la innovación, impulsar la tecnología con fuerza y asegurarse de que haya múltiples proveedores y múltiples arquitecturas para elegir en el reino de la supercomputación porque nunca se sabe quién se sabe quién se sabe quién se sabe quién se sabe quién se sabe quién se sabe quién se sabe quién se sabe quién se sabe quién puede saber quién nunca sabeo lo que podría no hacerlo y no todas las tecnologías son buenas en todas las cosas.Esta es la razón por la cual Tri-Labs ha sido un gran defensor de Qlogic Infiniband e Intel Omni-Path aunque, por ejemplo, la máquina de clase de capacidad actual en Lawrence Livermore es "Sierra" con una Infiniband Interconnect de 100 GB/SEC de Mellanox y la próximaAño La máquina de reemplazo "El Capitan" construida por Hewlett Packard Enterprise usará 200 GB/seg "Rosetta" Ethernet desde su unidad.

Al gobierno de los Estados Unidos le gusta tener tres opciones y competencia para reducir el precio de las supercomputadoras, y es por eso que Lawrence Livermore está invirtiendo $ 18 millones en investigaciones y desarrollo para las tecnologías Omni-Path Express de la próxima generación de Cornelis Networks.Y se trabaja en el diseño de la futura interconexión omni-patas junto con las aplicaciones actuales que se ejecutan en los grupos de capacidad en Tri-Labs.Y mientras nadie dice esto, lo haremos: si Omni-Path expresa 400 GB/seg y 800 GB/seg puede demostrar su valía en términos de escala, baja latencia y alto ancho de banda, no hay razón para creer que este último o suEl seguimiento no se puede usar en un sistema de 10 exafultos en tri-labs en algún lugar del camino.

"Necesitamos muchas características avanzadas más allá de una latencia baja y un alto ancho de banda", explica Leininger."Cosas como el enrutamiento avanzado, el control de congestión, las características de seguridad, la configuración del tráfico, todas las cosas que se vuelven cada vez más importantes a medida que empuja a máquinas más grandes y en topologías como la libélula, por ejemplo.Todo esto está sobre la mesa, y cómo Cornelis implementa estos depende de ellos.Tienen un poco de IP propio y pueden usar IP que tienen de Intel.Pero cómo decidieron armar cosas para implementar algo que cumpla con nuestros requisitos depende de ellos."

Uno de los grandes objetivos, explica Leininger, es impulsar la competencia por las redes, que es una parte considerable del costo de un grupo de supercomputador, en algún lugar alrededor del 15 al 20 por ciento del costo es lo que normalmente escuchamos en los sistemas de HPC de alta gama, y eso es en una era en la que la memoria y las GPU son muy, muy caras en comparación con la memoria y las CPU en años pasados.

“Our committed is really to drive the US HPC marketplace to be competitive with these high performance networks," Leininger says.“Queremos múltiples soluciones.Las redes que están disponibles son buenas, pero nos preocupa parte de la consolidación que obviamente está ocurriendo en el mercado en los últimos años..Y con las dos redes que mencionó: HPE Slingshot y Nvidia Infiniband, una de ellas está vinculada a un integrador de sistema y el otro está vinculado a un proveedor de componentes.No puedo recibir tirachinas de nadie más que HPE.¿Y qué va a hacer Nvidia con el tiempo con su apoyo a las cosas que no son Nvidia?No lo sabemos.Por lo tanto, nos preocupa perder nuestra capacidad para desarrollar las mejores soluciones de raza a donde puedo ir y elegir las CPU y GPU o redes o integrador de sistemas que quiero y combinar una solución juntos.Al poner este financiamiento en Cornelis, podemos cumplir con algunos de esos objetivos.Pueden usar varias CPU y GPU, y múltiples integradores de sistemas pueden usarlos.Son independientes, y nos vuelve a encaminar a tener una buena red que brinde competencia a esos otros dos y nos permitirá continuar desarrollando las mejores soluciones de raza.."

With the current Commodity Technology Systems machine, called CTS-2, which was awarded with a $40 million contract to system integrator Dell for $40 million last year, is based on Intel’s future “Sapphire Rapids" Xeon SP processors. We did a preview on Crossroads back in February, which costs $105 million, which is being installed at Los Alamos, which is based on HPE’s “Shasta" Cray XE system design, and which like El Capitan at Lawrence Livermore will use the Slingshot interconnect from HPE.El clúster CTS-2 tendrá un par de adaptadores Omni-Path Express, uno para cada socket, por nodo y de acuerdo con Leininger tendrá la capacidad de pasar a la próxima interconexión Omni-Path Express 400 si esto tiene sentido técnico y económico.Se espera que la máquina de seguimiento de CTS-3 se ejecute a fines de 2025 hasta principios de 2026 (calendario fiscal del gobierno de los Estados Unidos, que termina en septiembre y el año, con adquisiciones que comienzan alrededor de dos años antes de la que a fines de 2023 hasta principios de 2024 años fiscales.

Esa actualización de CTS-3 veces bien, e intencionalmente, a la hoja de ruta Omni-Path Express, que según Murphy tiene los interruptores de 400 GB/seg y las tarjetas de interfaz que salen en el Calendario 2023 y los dispositivos de 800 GB/SEC al finalCalendario 2025 al calendario temprano 2026.Ese momento, como puede ver en la tabla anterior, también es bueno para el pateador de ATS-6 a El Capitan en Lawrence Livermore, cuyo ciclo de adquisición comienza a principios del año fiscal 2025 y se desplegará a principios del año fiscal 2029 (que significa a fines de 2029 hasta 2029Calendario de principios de 2030).

Cornelis Networks recaudó $ 500,000 en una ronda de riesgo y otros $ 20 millones en una ronda de financiación de la Serie A en septiembre de 2020, dirigida por las ventajas con la participación de Intel Capital, Alumni Ventures, Adit Ventures y Global Brain.Los $ 18 millones que provienen de Lawrence Livermore no involucran al gobierno de EE. UU. Tomando un estado en las redes de Cornelis, pero solo se contabilizan como ingresos contra los gastos como Cray solía hacer con el dinero que obtuvo de la Agencia de Proyectos de Investigación Avanzada de Defensa de los Estados Unidos para desarrollar variosde sus generaciones de supercomputadoras anteriores antes de Shasta.