• Technika
  • Elektrické zařízení
  • Materiálový průmysl
  • Digitální život
  • Zásady ochrany osobních údajů
  • Ó jméno
Umístění: Domov / Technika / Analýza velkých dat se setkává s velkou pamětí s Intel Optane PMem

Analýza velkých dat se setkává s velkou pamětí s Intel Optane PMem

techserving |
1971

Když se poprvé objevila perzistentní paměť Intel® Optane™ (PMem), věděli jsme, že radikálně změní způsob, jakým se podniká v datovém centru, ale nedokázali jsme plně předpovědět počet způsobů, jakými bych. Stejně jako u všech nových technologií jsme znali počáteční případy použití pro trvalou paměť, ale také jsme pochopili, že další případy použití se objeví, jakmile budou široce dostupné.

Když se poprvé objevila perzistentní paměť Intel® Optane™ (PMem), věděli jsme, že radikálně změní způsob, jakým se podniká v datovém centru, ale nedokázali jsme plně předvídat počet způsobů, jakými se to stane. Stejně jako u všech nových technologií jsme znali počáteční případy použití pro trvalou paměť, ale také jsme pochopili, že další případy použití se objeví, jakmile budou široce dostupné.

Při našich diskuzích s podniky jsme věděli, že potřebují zvýšení výkonu, které systémy in-memory poskytují, aby zůstaly konkurenceschopné. Použití DRAM k tomu mělo omezení nákladů a velikosti, což znesnadnilo vzhledem k velikosti dat, která chtěli uložit do paměti. V tomto dokumentu se podíváme na to, jak Hazelcast a MemVerge využívají Intel Optane PMem k překonání omezení DRAM k vytvoření konstrukce infrastruktury, která podporuje rychlé aplikace v reálném čase využívající velké datové sady.

Spojili jsme své síly se společnostmi MemVerge, Hazelcast, Intel a Dell Technologies, abychom ukázali, jak lze nasadit infrastrukturu pro umožnění analýzy v reálném čase. Konkrétně jsme vytvořili prostředí, které mělo rychle příchozí proud dat v reálném čase, která byla zpracována a transformována před uložením do datového trhu v paměti. Hlavním cílem bylo ukázat, jak je Intel Optane PMem zásadní pro zprovoznění rozsáhlých systémů v reálném čase a že je zapotřebí další software, aby Intel Optane PMem mohl plně využít svůj potenciál.

Než zdůrazníme testování, které jsme provedli, zde je krátké zopakování Intel Optane PMem, Hazelcast, a MemVerge.

Intel Optane PMem

Perzistentní paměť jako koncept existuje již od poloviny 80. let, ale skutečně použitelným produktem pro komerční datová centra se stala až v roce 2018, kdy Intel začal uvádět své Intel Optane Persistent Memory Modules (PMM). Intel Optane PMem je pro průmysl zásadní změnou, protože je o něco pomalejší než DRAM, ale je podstatně rychlejší než disky SSD (solid-state drive).

I když je pomalejší než DRAM, Intel Optane PMem má oproti němu určité výhody, protože je podstatně levnější a nabízí větší kapacitu paměti než tradiční DRAM; a jak název napovídá, když je povolen přímý režim v aplikaci, je trvalý – což znamená, že data v něm uložená přežijí výpadek napájení nebo restart zařízení, na kterém se nachází.

Jedním z tajemství nízké latence Intel Optane PMem je to, že je umístěn na paměťové sběrnici, což mu umožňuje přístup k datům podobný DRAM.

Zatímco DDR4 má teoretickou maximální kapacitu na modul 128 GB, nejběžněji používané kapacity jsou mezi 4 GB až 64 GB (ale i 64GB moduly, i když jsou dostupné, se běžně nepoužívají).

Intel aktuálně dodává Intel Optane PMem v modulech 128 GB, 256 GB a 512 GB. To poskytuje až 16krát větší kapacitu DRAM.

Na základě ceny za GB je Intel Optane PMem asi poloviční než DRAM. Díky své větší kapacitě a nižší ceně může mít server k dispozici více dat s nízkou latencí pro aplikace za nižší náklady než server s pouhou DRAM. A jak vidíte z našeho testování, u mnoha aplikací je rozdíl v latenci mezi DRAM a PMem v reálném použití zanedbatelný.

Přestože název technologie obsahuje slovo „persistence“, stálost dat, která žijí v Intel Optane PMem, je často přehlížena a v minulosti nebyla plně využívána. MemVerge však vymyslel způsoby, jak využít perzistenci dat a nabídnout podnikům další služby.

MemVerge

S velkým výkonem, který Intel Optane PMem poskytuje, přichází odpovědnost za jeho rozumné používání, a zde přichází na řadu MemVerge. Zatímco většina nástrojů pro monitorování a správu serverů se zaměřuje na starší hardware, jako je např. CPU, disk a síťové metriky, MemVerge® Memory Machine™ se laserově zaměřuje na monitorování, správu a využití DRAM a Intel Optane PMem.

Jednou z prvních výzev Intel Optane PMem bylo určit, jak umožnit aplikacím, aby jej mohly používat. Bez MemVerge Memory Machine můžete použít Intel Optane PMem jako alternativu k DRAM, ale ne jako náhradu, protože Intel Optane PMem používá specializované API. MemVerge toto API abstrahuje, takže Intel Optane PMem vypadá ve všech aplikacích stejně jako DRAM. Pomocí Memory Machine je Intel Optane PMem prezentován aplikacím stejně jako DRAM aplikacím. Díky tomu mohou stávající aplikace používat Intel Optane PMem, aniž by musely být předělávány, čímž společnost šetří náklady na přeprogramování aplikací, a co je důležitější, čas, který by to zabralo. Prostřednictvím své patentované technologie Memory Machine vytváří fond paměti a poté vrství Intel Optane PMem a DRAM, aby maximalizoval svůj dopad na aplikace přesouváním dat mezi těmito dvěma podle potřeby, aby se optimalizoval výkon aplikací.

Inovativní ZeroIO od Memory Machine umožňuje snímky mezipaměti (tj. snímky dat obsažených v DRAM do Intel Optane PMem), díky čemuž je DRAM perzistentní.

V minulosti jsme byli nuceni ukládat snímky v paměti na tradičním úložišti. Tento proces mohl trvat až hodinu. Pomocí ZeroIO však lze stejnou operaci provést bez přerušení během několika sekund.

MemVerge využívá ZeroIO k poskytování dalších paměťových datových služeb. Time Travel umožňuje aplikaci vrátit se k dříve pořízeným snímkům a s touto funkcí úzce souvisí funkce AutoSave, která automaticky pořizuje snímky v časových intervalech. V případech, kdy je třeba data uložená v paměti přesunout na jiný fyzický server, lze na něj přesunout snímek ZeroIO.

Monitorování paměti, stejně jako usnadnění výše uvedených služeb, se provádí prostřednictvím MemVerge Memory Machine Management Center (M3C).

Přestože jsme zmínili, že Memory Machine se používá s databázemi, podporuje také širokou škálu aplikací: od Autodesk Maya 3D pro animace a vykreslování až po TensorFlow (rámec strojového učení) a další aplikace, včetně Hazelcast, produkt, na který v tomto článku upozorníme.

Hazelcast

Hazelcast je klíčovým inovátorem a lídrem v rostoucí oblasti in-memory počítačových platforem. Jejich platforma je využívána finančními organizacemi, e-commerce a dalšími typy organizací, kde jsou důležité informace v reálném čase; například pro odhalování podvodů a pro pomoc při rozhodování o obchodování.

Hazelcast podporuje rychlé aplikace na dvou úrovních. Za prvé, nabízí úložiště v paměti, které distribuuje data mezi více serverů v clusteru, aby bylo možné vytvořit škálovatelný virtuální fond rychlé paměti. Proces přidávání dalších dat jednoduše zahrnuje přidání dalšího serveru do clusteru. Za druhé, Hazelcast obsahuje výpočetní stroj, který zpracovává aplikační logiku, která je rozdělena do dílčích úloh, které jsou pak distribuovány mezi všechna CPU v clusteru serverů. Nejen, že to využívá kolektivní výpočetní výkon clusteru, ale také umožňuje paralelní zpracování dat efektivním a vysokorychlostním způsobem (to zahrnuje transformaci, obohacení, agregaci a analýzu). Vzhledem k tomu, že Hazelcast dokáže zpracovávat data ihned po jejich vytvoření prostřednictvím svých možností streamování dat, je užitečný pro vytváření další generace aplikací v reálném čase.

Analýza dat v reálném čase

Systémy v reálném čase se primárně řídí dvěma hlavními charakteristikami: rychlostí a rozsahem. Zatímco rychlost zajišťuje, že můžete držet krok s vytvářenými daty, škálování zaručuje, že zvládnete objem těchto dat. Aby se to ještě více zkomplikovalo, data mohou pocházet z mnoha různých zdrojů. Vyšší rychlosti a větší měřítko se samozřejmě rovná vyšším nákladům, pokud nejsou využity inovativní prostředky, jako je výměna drahé DRAM za dostupnější Intel Optane PMem.

jpeg

Možnosti analýzy dat v reálném čase poskytují okamžitý přehled o různých situacích, kterým mohou podniky a organizace čelit, a poskytují jim informace, které potřebují, aby na ně mohly reagovat. Například dodržování iniciativ, jako je Basel III, kde jsou banky povinny udržovat vyšší likviditu než dříve, znamená, že mají méně peněz, které mohou využít k generování příjmů. Zároveň musí prokázat, že jejich každodenním rizikům rozumí tak, aby je auditoři a dohled nepostihovali ještě vyššími požadavky na likviditu. Díky systémům pro řízení rizik a dodržování předpisů v reálném čase mohou mít banky okamžitý přehled o svých obchodních pozicích, aby mohli efektivněji porozumět a vykazovat svou rizikovou expozici.

Abychom zdůraznili další příklad, systémy pro analýzu obchodování s akciemi sledují obchody a prezentují je v analyzovatelné formě v reálném čase. Tyto systémy mohou ospravedlnit své vysoké náklady díky jasné návratnosti investic (ROI) prostřednictvím získaných výnosů z obchodování s akciemi.

Scénář testování

Aplikace, kterou jsme se rozhodli použít k prozkoumání těchto technologií, je založena na kódové základně pro sledování obchodu vytvořené Hazelcastem, aby ukázala, jak nákladově efektivní je „analytika na vyžádání“ vhodnou alternativa k vysoce nákladným systémům pracujícím v reálném čase.

Vzhledem k tomu, že se jednalo o malý výzkumný projekt, provedli jsme několik kompromisů, díky kterým naše testovací prostředí plně neodráželo typické produkční prostředí. Například výpočetní výkon serverů Dell EMC, které jsme použili, byl mnohem výkonnější, než potřeboval náš dostupný zdroj dat, takže jsme plně nevyužili dostupný výkon CPU v nich. Z důvodu jednoduchosti jsme také neoptimalizovali externí systém doručování dat. V produkčním systému by byly všechny komponenty optimalizovány a vyladěny tak, aby se zlepšil výkon a hospodárnost tohoto nastavení.

Cíle testování

Nejkritičtějším aspektem našeho testování bylo zjistit, zda Intel Optane PMem dokáže udržet přísun dat v reálném čase.

Odchýlili jsme testování přístupových rychlostí agregovaných/indexovaných dat v datovém trhu v paměti, který byl podporován Intel Optane PMem; v předchozích testech MemVerge a Hazelcast srovnávací testy ukázaly, že rychlosti přístupu k datům byly velmi blízké rychlostem DRAM (v mnoha případech byly prokázány identické rychlosti pro čtení i zápis), a tedy mnohem rychlejší než data na disku nebo SSD. přístupy. Protože jsme věděli, že rychlost přístupu k datům poskytuje výhodu oproti jiným architektonickým konfiguracím, zaměřili jsme naše testy pouze na stranu příjmu.

Pro naše testování jsme na serveru zdroje dat vygenerovali fiktivní data. Každý datový prvek v příchozím datovém kanálu představoval obchod s akciemi. Nejkritičtějšími hodnotami byly symbol skladu, množství, cena a čas. Každý symbol akcií byl ve vygenerovaném datovém souboru použit vícekrát k simulaci více obchodů za den pro danou akcii. Tyto samostatné obchody byly poté agregovány, aby se získal průběžný součet obchodů pro daný akciový symbol.

Vygenerovaná data byla uložena v Apache Kafka kvůli její schopnosti zachytit rychlý proud dat. Každý záznam od Kafky vyžadoval 210 bajtů, včetně všech metadat v užitečném zatížení. Kafka byl nakonfigurován tak, aby provozoval tři samostatné brokery, všechny na jednom počítači se zdrojem dat a se čtyřmi oddíly na každém brokerovi. Tato konfigurace by samozřejmě nebyla použita v produkčním prostředí, protože je nereálné mít jednozdrojový stroj pro distribuovanou technologii; pro účely našeho testování však vyhovoval.

Testovací prostředí

K testování jsme použili tři servery Dell EMC PowerEdge R750 a jeden server Dell EMC PowerEdge R74xd; tři spouštěly analytické aplikace pomocí MemVerge Memory Machine a Hazelcast, zatímco čtvrtá vytvářela a ukládala testovací data.

Servery Analytics

ModelDell EMC PowerEdge R750
CPUDuální procesory Intel® Xeon® Gold 6330 @ 2 GHz (Ice Lake)

28 jader každý (celkem 56, 112 s technologií Intel® Hyper-Threading)

DRAM16 DIMM 64GB DRAM DDR4

1 TB na server

Intel Optane PMem16 DIMM 128GB Intel Optane PMem DDR-T rozhraní

2 TB na server

Síťové rozhraní10 GbE
SoftwareMemVerge Memory Machine 1.2

Platforma Hazelcast 5.0

Server zdroje dat

Model Dell EMC PowerEdge R740xd
CPUDva procesory Intel® Xeon® Gold 6140 @ 2,3 GHz (Skylake)

18 jader každý ( celkem 36; 72 s technologií Intel® Hyper-Threading)

DRAM12 DIMM 32GB DRAM DDR4 (384GB)

2 DIMM 16GB NVDIMM DDR4 (32GB)

Intel Optane PMemNení potřeba
Síťové rozhraní10 GbE
SoftwareApache Kafka 2.8

Nástroj pro generování dat od společnosti Hazelcast

Během našeho testování jsme zjistili, že množství DRAM v analytických serverech mohlo být výrazně menší; zatímco DRAM byla většinou používána operačním systémem, aplikace primárně využívala Intel Optane PMem s pouze malým množstvím DRAM. Pro optimalizaci úspor nákladů by rozumnou konfigurací bylo naprosté minimum DRAM na serveru.

Výsledky testu

Vytvořili jsme přibližně 5 miliard záznamů, které byly uloženy ve službě Kafka, abychom vytvořili zdroj dat. Přijímací aplikace běžící na třech aplikačních serverech byly poté spuštěny ke zpracování dat přes tři instance Hazelcast (jeden server Hazelcast na server Dell Technologies).

Testovali jsme aplikaci pouze při použití DRAM a porovnali jsme to s použitím Intel Optane PMem s MemVerge. Výsledky našeho testování ukázaly, že u pracovních zátěží, které byly převážně zápisy, jsme zaznamenali 32% snížení výkonu při použití pouze Intel Optane PMem oproti čisté paměti DRAM (242K vs. 357K). Ale při použití konfigurace Intel Optane PMem + DRAM jsme viděli pouze 9% penalizaci. To mohlo být dále zúženo zvýšením počtu serverů v clusteru, aby se zápisy ještě více rozšířily. Dodatečné náklady na další servery by mohly být kompenzovány pořízením procesorů s nižším výkonem, protože dané pracovní zatížení by nutně nevyužilo celý výkon procesoru této testované hardwarové konfigurace.

< td>325 000
KonfiguraceVýkon (záznamy za sekundu)
Pouze DRAM357 000
Intel Optane PMem s podporou 50 GB DRAM + Memory Machine
Pouze Intel Optane PMem + paměťový stroj242 000

Zvažovali jsme nacenění každé z testovaných konfigurací, ale odmítli jsme tak učinit vzhledem k potenciálním výkyvům nákladů a dalším faktorům, které by mohly tyto odhady brzy zastarat. Bez ohledu na nastavené náklady však bude Intel Optane PMem s podporou DRAM výrazně nižší než server založený pouze na DRAM.

Interpretace testu

Naším klíčovým závěrem z našeho testování bylo, že cluster serverů s podporou Intel Optane PMem může fungovat téměř stejnou rychlostí jako cluster, který právě používá DRAM – ale za výrazně nižší cenu. .

Dalším důležitým poznatkem pro nás bylo, že týdny nebo měsíce dat bylo možné zachycovat a ukládat pomocí Intel Optane PMem, který podnikům umožňuje nejen analyzovat data v reálném čase, ale také mít data k dispozici pro vysokorychlostní analýza historických dat. To otevírá příležitosti pro analýzu trendů a vzorců, které mohou odhalit další poznatky pomocí pokročilých analytických nástrojů, jako je strojové učení (ML).

Jinými slovy, podniky mohou nasadit analytické prostředí v reálném čase pokrývající široký časový rozsah a prozkoumávat nové formy analýzy bez kompromisů v nákladech nebo rychlosti při nasazování datových skladů nebo datových jezer.

Další testování

Zatímco jsme měli nastavené prostředí, chtěli jsme také otestovat některé další schopnosti MemVerge Memory Machine, zejména jeho funkce pro pořizování snímků a obnovení. Naštěstí má Memory Machine integraci s clusterem Hazelcast, takže snímky a obnovení snímků lze spravovat přímo v M3C.

Snímky lze pořizovat kdykoli na vyžádání nebo podle stanoveného plánu a obě metody jsme testovali během špičkových operací našeho clusteru. Snímky byly dokončeny během několika sekund bez jakýchkoli problémů nebo ovlivnění výkonu analýzy. Pokud by se s clusterem Hazelcast něco stalo, například výpadek napájení, data mohla být obnovena pomocí jednoho z našich snímků.

Funkce snímku není užitečná pouze pro ochranu, ale lze ji také použít ke zvýšení míry využití serverů. Ve finančních institucích jsou servery hojně využívány během typických obchodních hodin, ale mimo pracovní dobu jsou relativně nečinné. Použitím schématu horkého startu lze výrazně zlepšit míru využití serverů. Například na konci obchodního dne lze pořídit snímek obchodní databáze. Poté, když je obchodní databáze vypnuta, mohou být servery nastaveny na jiné úlohy zpracování dat, jako je dolování dat. Na začátku obchodního dne lze rychle obnovit obchodní databázi a obnovit obchodní operace.

Závěr

Intel Optane PMem je vzrušující a transformační technologie, která začíná přetvářet datové centrum, ale stejně jako všechny ostatní technologie naštěstí neexistuje ve vzduchoprázdnu. Přední, dopředu uvažující společnosti jako Dell Technologies, Intel, MemVerge a Hazelcast nacházejí synergie a začínají využívat tuto novou technologii k nalezení jejího skutečného potenciálu v datovém centru: moduly Intel Optane PMem jsou nabízeny za přibližně poloviční cenu než DRAM; Společnost Dell Technologies má servery, které podporují obrovské množství kapacity paměti s nízkou latencí, kterou poskytuje Intel Optane PMem; Hazelcast umožňuje aplikacím využívat tyto technologie ve velkém měřítku; a MemVerge poskytuje monitorování, správu a datové služby pro Intel Optane PMem a odebráním DRAM API umožňuje Intel Optane PMem jevit jako DRAM existujícím aplikacím, což jim umožňuje běžet bez úprav nebo přestavby.

Pokud je vše ostatní stejné, podniky by se rozhodly pro aktivity v reálném čase oproti dávkovým aktivitám. Ale protože vše není stejné, je často zvoleno dávkové zpracování, aby se předešlo nákladům spojeným se zpracováním v reálném čase. S tím, jak však očekávání zákazníků ve světě, který je stále více orientován na reálný čas, stále rostou, musí podniky hledat nové způsoby, jak vytvořit konkurenční výhodu. Díky využití rychlostí v reálném čase, aniž by trpěly tradičními náklady na výpočetní techniku ​​v paměti, mohou přední podniky udělat skok s technologiemi jako Intel Optane PMem, MemVerge a Hazelcast a vytvořit řešení, která jim pomohou reagovat na jejich požadavky a požadavky jejich zákazníků. , rychleji než kdy předtím.

Hazelcast

MemVerge

Tuto zprávu sponzoruje MemVerge. Všechny názory a názory vyjádřené v této zprávě jsou založeny na našem nezaujatém pohledu na posuzovaný produkt (produkty). Intel, logo Intel a Intel Optane jsou ochranné známky společnosti Intel Corporation nebo jejích dceřiných společností.

Zapojte se do StorageReview

Zpravodaj | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | Facebook | TikTok | RSS kanál