San Diego Supercomputer Center (SDSC) říká, že je připraveno spustit testovací zátěž na svém experimentálním systému Voyager AI, který vypadá jako vůbec první superpočítač na bázi Intel Habana.
Superpočítač byl postaven ve spolupráci s Intel's Habana Labs a Supermicro jako součást pětiletého grantu 11,25 milionu dolarů od americké National Science Foundation. A i když je Voyager výkonný, nesnaží se vyhrát žádné benchmarkové rekordy – ani se to nepředpokládá.
Voyager má být zkušební základnou pro výzkum a vývoj výpočetní techniky AI/ML na specializovaném hardwaru – v tomto případě na procesorech Habana Goya a Gaudi – řekl hlavní řešitel Voyageru Amit Majumdar The Register.
Goya společnosti Habana Lab, představená v roce 2019, byla navržena tak, aby urychlila pracovní vytížení AI pomocí osmi tensor procesorových jader s podporou smíšené přesnosti od FP32 po UINT8. Mezitím Gaudi, představený o několik měsíců později, byl 350W čip navržený s ohledem na školení ML. Disponoval 32 GB vnitřní paměti pracující při šířce pásma 1 TB/s.
Intel získal návrháře čipů na konci roku 2019 poté, co opustil svou nešťastnou spolupráci Nervana s Meta (tehdy Facebook). Tak trochu potřetí štěstí pro Intel na systémech AI.
Urychlovače AI Habana jsou rozmístěny ve 42 sítích Supermicro X12, které tvoří Voyager. Každý systém X12 je vybaven dvojicí procesorů Intel Xeon Scalable třetí generace a osmi procesory Habana Gaudi AI. Cluster také využívá dvojici OEM systémů SuperServer 4029GP-T s osmi kartami Goya HL-100 PCIe pro inferencování AI.
Protože je systém navržen tak, aby podporoval velmi velké modely umělé inteligence, je každý server propojen se šesti 400 Gbit/s porty pracujícími přes protokol RDMA-over-converged-Ethernet k velkému neblokujícímu přepínači Arista.
Připraveno, nastaveno, otestováno
S operačním systémem Voyager přešlo SDSC do testovací fáze projektu.
Během tohoto období má superpočítačové centrum tři roky na to, aby přímo spolupracovalo s výzkumníky, aby vyhodnotilo výkon systému, hardwarové zvláštnosti a požadavky na kompatibilitu softwaru, vysvětlil Majumdar.
Výzkum také prozkoumá případy použití čipů Habana, které se tradičně zaměřují na počítačové vidění, zpracování přirozeného jazyka a pracovní zátěž s hlubokým učením, řekl Sree Ganeson, vedoucí softwarových produktů v Habana Labs, The Register .
"Tato komunita vědců a výzkumníků přinese jinou třídu problémů a pokusí se je aplikovat příliš hluboko do učení," řekla. "Druhy vzorů, které mohou přinést, se mohou lišit, takže to bude učení [proces]."
Výsledky tohoto testování budou sdíleny během několika příštích let během pololetních workshopů a uživatelských fór.
Ne každý se však dostane do práce se systémem. Výzkumné skupiny určené s pomocí externího poradního sboru a shromážděné informace budou použity k vývoji osvědčených postupů a alokačních politik. To se liší od systémů kategorie jedna, které jsou otevřeny pro recenzované výzkumné projekty krátce po uvedení online, řekl Majumdar.
Po uplynutí tří let projekt přejde do dvouleté alokační fáze, během níž tým SDSC ustoupí a umožní nezávislým vědcům provádět výzkum systému.
Zatímco Voyager se teprve objevil online, Majumdar tvrdí, že počáteční testování bylo slibné, s výkonem „lepším, než se předpokládalo“ a přenosem práce na Gaudi a Goya relativně bezbolestně. "Zásobník softwaru, portování a běh na počítači byly opravdu hladké," řekl.
A co Gaudi2 a Greco?
Voyager je online jen několik týdnů poté, co Intel's Habana Labs představily svou druhou generaci AI tréninkových a inferenčních procesorů: Gaudi2 a Greco.
Intel tvrdí, že čipy nabízejí podstatné zvýšení výkonu oproti předchozí generaci a údajně překonávají GPU Nvidia A100 ve svých interních benchmarcích.
600W Gaudi2 nabízí 24 tenzorových jader založených na 7nm výrobním procesu a 96 GB vysokopásmové paměti HBM2e s rychlostí 2,45 TB/s. Greco mezitím nabízí 16 GB – stejně jako Goya – novějšího LPDDR5 v menší jednoslotové, poloviční výšce a poloviční délce PCIe karty, která spotřebuje méně než polovinu energie.
"Gaudi2 je v mnoha ohledech větší s více jádry tensor procesoru, více HBM2e, více škálovatelnými porty, takže cokoli, co se naučíme od [Voyageru], by se mělo na Gaudi2 škálovat ještě lépe," řekl Ganeson. "Tato komunita provádí špičkovou práci. Takže se můžeme učit a rozvíjet to, co bude v budoucnu ve výrobě." ®
Získejte naše technické zdroje