(cybrain/Shutterstock)
Докато пълзим напред в 2022 г., струва си да си спомним как още преди по-малко от десетилетие корпоративният потребителски пазар гледаше на решенията за данни – най-вече на съхранението на данни – като на неизбежна част от тяхната архитектура на решения. Монолит, предназначен да поеме въздействията върху разходите и производителността върху основните бизнес операции, за да задоволи нуждите на строгото отчитане и анализи. По-често, отколкото не, тези решения се разглеждат като зависими разходни центрове, изискващи значителни бюджети за поддръжка за ограничена възвръщаемост на иновациите. Това бяха само разходите за правене на бизнес.
И оттогава концепциите за и свързани с безкрайните изчисления, еластичната инфраструктура и управляваните услуги в облака съживиха цялата демографска перспектива за стойността на данните. Тази нова, наситена стойност на данните заема видно място в 5- и десетгодишните стратегии на повечето C-suites като източник на генериране на приходи, като на данните вече се приписва външна стойност.
Това завъртане на данните като стратегия едва ли се е случило във вакуум; появата на комерситизирани компютърни домейни, включително изкуствен интелект, машинно обучение, IIoT и водени от графики продуктови категории, имаха ефект както на изтеглянето на архитектурите на данни в бъдещето, така и на виждането на темпото на иновациите в архитектурата на данни, движещи напредъка на същите тези продуктови пазари .
Това доведе до камбрийска експлозия на технологии на зелено и стартиращи фирми, свежи вертикали на решения и преоткрити архитектури за обработка, които едва достигнаха 5 милиарда долара, инвестирани в пространството само през 2021 г. – по-голямата част от това е хвърлени в пръстена за анализ и съхранение.
Като се има предвид този съкратен преглед, ние също сме силно заинтересовани да се потопим по-дълбоко в това накъде се насочва пространството за данни и маркирахме тази перспектива с 5 ключови тенденции, които подозираме, че ще видим в основата на еволюцията на корпоративното управление на данни през следващите половин десетилетие.
1. Повсеместна инфраструктура за облачни данни
(sdecoret/Shutterstock)
Няма по-добро място да започнете от инфраструктурата, която позволи голяма част от растежа в това пространство. Преминаването отвъд наследените локални системи към облака и по-специално към публичния облак, отключи иначе обвързани ресурси, посветени на поддръжката на инфраструктурата, надеждността и достъпността, и изравни условията за иновативни практики. Примамливата нова парадигма с ниски подове и високи тавани за възприемане на технологии е готова да придобие по-голяма сила, като Gartner прогнозира, че разходите за публични облачни услуги ще достигнат 500 милиарда долара до 2022 г.
С пет-девет наличност (99,999%) и зашеметяваща единадесет-девет издръжливост (99,999999999%), постигнати от AWS (публичният облачен оператор, обслужващ една трета от пазара), по-малко време и ресурси могат да бъдат изразходвани за управление локални системи. Тази полза се реализира както в хардуерни капиталови разходи, така и в може би по-скъпата армия от човешки ресурси под формата на специалисти, занимаващи се с мрежи, администрация, управление на данни, сигурност, надеждност, поддръжка и т.н.
От гледна точка както на управление на данни, така и на съхранение, облачните платформи за съхранение, изградени върху нови и нововъзникващи архитектури като облачни хранилища за данни, облачни езера за данни и новите, но познати облачни езера, предоставят ефективни и лесно мащабируеми решения.
От друга страна, изобилието от безкрайно мащабируеми облачни изчисления, безсървърни облачни услуги и готови вградени в облака инструменти за интеграция насърчава здрава и богата екосистема за справяне с нуждите на корпоративното управление на данни.
2.Активно и разширено управление на метаданни
Данните, които помагат да се опишат вашите данни – метаданни – представляват основен ключ за възможността да създадете ефект върху астрономическите обеми на улавяне на организационни данни. Като стълб на пространството за каталогизиране на данни, стратегията за управление на метаданни на предприятието (EMM) е очевидна за стимулиране на навременни и ефективни стратегии за индексиране, за да помогне за справяне с общи нужди, включително:
Основна реализация на EMM е каталогът с оперативни данни, който представлява индексирана колекция от източници на корпоративни данни. Стъпка напред е концепцията за каталози с разширени данни, въведена от Gartner и дефинирана като слой за автоматизация, управляван от машинно обучение върху традиционния каталог с данни.
Автоматизацията в каталозите с разширени данни позволява рационализиране на откриването на данни, свързаността, обогатяването на метаданни, организацията и управлението. Надграждайки тази автоматизирана архитектура, Активното управление на метаданни (AMM) е скок в същата посока, позволявайки непрекъснатия анализ на различните измерения на корпоративните метаданни, за да се определи „подравняването и изключенията между данните, както са проектирани, спрямо оперативния опит“, както е определено от Gartner.
3.Data Lakehouses – най-доброто от двете парадигми
Въпреки че езерото от данни помогна за справяне със съхранението и гъвкавостта на частите от пъзела за управление на данни, предприятията се оказват в нужда от решаване на външна ETL обработка за производителност прозрения и отчитане на бизнес разузнаване, нещо, което обикновено може да се управлява от кутията в случай на склад за данни. За да рационализира този процес и да спомогне за поддържането на инфраструктурата за данни единна и самостоятелна, се появи концепцията за езера за данни. Както подсказва името, това е хибридно решение за управление на данни, съчетаващо предимствата както на езерата с данни, така и на складовете за данни в една платформа, като по този начин намалява сложността и поддръжката, като същевременно използва икономията от мащаба. Първото документирано използване на термина „Data Lakehouse“ датира от 2017 г., когато е използвано за първи път от Jellyvision Lab, клиент на Snowflake, който използва термина, за да опише платформата Snowflake.
Подобно на езерата с данни, смесено структурираните данни могат да бъдат погълнати в езерото, като отличителният аспект е възможността да се добави слой за съхранение върху езерото. Това позволява да се използва твърдостта и организираната структура на склада за традиционните отчетни нужди, като същевременно се поддържа гъвкава и гъвкава архитектура на базовото езеро за по-широк набор от други приложения.
4. Управление на качеството на данните чрез възможност за наблюдение
Тъй като инфраструктурата на техническите данни продължава да се комерситизира, съвременната система за производство на данни става все по-сложна с множество потенциални точки за проверка (или отказ). Следователно отговорът на привидно простия въпрос „какво се обърка?“ или в превантивния смисъл „как можем да сме сигурни, че нищо не се обърка?“ в тръбопровод за данни става по-трудно за адресиране. За щастие колелото на управлението на качеството в такива сложни условия не трябваше да бъде изобретявано отново. Уроците, научени от прилагането на стройни и гъвкави методологии за разработване на софтуер, пораждащи революцията DevOps, която продължава да се развива и съзрява, сега се прилагат и за управление на корпоративни данни. А един от ключовите стълбове за осигуряване на пълно и непрекъснато управление на качеството на данните е възможността за наблюдение на данните.
(kurhan/Shutterstock)
Наблюдаемостта сама по себе си не е нова концепция; за първи път е въведен през 1960 г. от Рудолф Е. Калман в контекста на линейните динамични системи. В контекста на теорията на контрола, наблюдаемостта се определя като степента, до която вътрешното състояние на дадена система може да бъде изведено въз основа на нейните резултати. Просто казано, той дава отговор на простия въпрос „какво можем да кажем за това как се представя една система въз основа на нейния изход?“.
В контекста на управлението на данни, общоприетото определение за наблюдаемост на данните включва способността да разберете изправността и състоянието на данните във вашата система, което позволява осигуряване на качеството на данните и наблюдение и контрол на жизнения цикъл на данните. Докато софтуерното инженерство има стълбове на софтуерната наблюдаемост (регистрационни файлове, показатели и следи), теоретизира се, че наблюдаемостта на данните се основава на пет стълба: свежест, разпространение, обем, схема и родословие.
5.Data Fabric като мултимодална рамка на данни
Ясно е, че централното монолитно решение за управление на данни вече не е опция за съвременните предприятия. Безбройните производители на данни, потребители и приложения и услуги между тях изискват модерна и всеобхватна рамка за управление на данни, способна да поддържа нарастването на своята сложност и мащаб.
Data fabric полага основата за архитектура на мултимодална платформа за управление на данни, която подобрява дизайна и практиките за управление на данни. Платформата за данни се корени в три ключови принципа:
Заслужава да се спомене, че този преглед на нововъзникващите тенденции в управлението на корпоративни данни се отнася основно до техническите и архитектурни аспекти на управлението на корпоративни данни. Но както исторически сме наблюдавали с други пространства и индустрии, експлозивният растеж на техническите възможности е само една част от реализирането на бизнес потенциала в пространството. Устойчивият растеж и възприемането на тези тенденции в корпоративното пространство зависят от приемането и прилагането на правилните стратегии за управление на организационните промени и наличието на правилните технически и организационни ресурси за тяхното катализиране и подкрепа.
За авторите: Халид Марбу (вляво) е старши продуктов стратег на Infor за Infor OS Data Fabric. Майк Калиновски е директор на продуктовия мениджмънт за Infor OS Data Fabric.
Свързани елементи:
Мрежа от данни срещу. Data Fabric: Разбиране на разликите
Мрежата за данни се появява в преследване на хармонията на данните
Матриците за данни се появяват, за да успокоят кошмарите за управление на облачни данни
Приложения: Технологии за корпоративни анализи: Сектори на междинен софтуер: Доставчици на финансови услуги: Infor Етикети: големи данни, облак, структура на данни, управление на данни, тенденции в данните