Cinq tendances émergentes dans la gestion des données d'entreprise

(cybrain/Shutterstock)

Alors que nous progressons vers 2022, il convient de se rappeler qu'il y a encore moins de dix ans, le marché des entreprises grand public considérait les solutions de données (principalement l'entreposage de données) comme un élément incontournable de leur architecture de solution. Un monolithe conçu pour couvrir les impacts sur les coûts et les performances des opérations commerciales de base afin de satisfaire les besoins rigides de reporting et d'analyse. Le plus souvent, ces solutions étaient perçues comme des centres de coûts dépendants nécessitant des budgets de maintenance importants pour un retour d'innovation limité. C'était juste le coût de faire des affaires.

Et depuis lors, les concepts d'informatique infinie, d'infrastructure élastique et de services gérés dans le cloud ont revitalisé la perspective de tout un groupe démographique sur la valeur des données. Cette nouvelle valeur imprégnée des données figure en bonne place dans les stratégies à 5 et 10 ans de la plupart des C-suites en tant que source de génération de revenus, les données se voyant désormais attribuer une valeur extrinsèque.

Ce pivot sur les données en tant que stratégie ne s'est guère produit dans le vide ; l'émergence de domaines informatiques banalisés, notamment l'intelligence artificielle, l'apprentissage automatique, l'IIoT et les catégories de produits basés sur des graphes, a eu pour effet à la fois de tirer les architectures de données vers l'avenir et de voir le rythme de l'innovation de l'architecture de données entraîner des avancées sur ces mêmes marchés de produits .

Cela a donné lieu à une explosion cambrienne de technologies et de start-ups nouvelles, de nouvelles solutions verticales et d'architectures de traitement réinventées qui ont tout juste vu au nord de 5 milliards de dollars investis dans l'espace rien qu'en 2021 - la majorité étant jeté dans l'anneau d'analyse et de stockage.

Compte tenu de cet examen abrégé, nous sommes également profondément intéressés à approfondir la direction que prend l'espace des données et nous avons marqué cette perspective avec 5 tendances clés que nous pensons voir au cœur de l'évolution de la gestion des données d'entreprise au cours de la prochaine demi-décennie.

1. Infrastructure de données cloud omniprésente

(sdecoret/Shutterstock)

Il n'y a pas de meilleur endroit pour commencer qu'avec l'infrastructure qui a permis une grande partie de la croissance dans cet espace. Aller au-delà des systèmes sur site hérités vers le cloud et plus particulièrement vers le cloud public, a débloqué des ressources autrement immobilisées dédiées à la maintenance, à la fiabilité et à la disponibilité de l'infrastructure et a uniformisé les règles du jeu pour les pratiques innovantes. Le nouveau paradigme attrayant du plancher bas et du plafond haut pour l'adoption de la technologie est sur le point de gagner du terrain, Gartner prévoyant que les dépenses en services de cloud public approcheront les 500 milliards de dollars d'ici 2022.

Avec cinq neuf de disponibilité (99,999 %) et une incroyable durabilité de onze neuf (99,999999999 %) atteints par AWS (l'opérateur historique de cloud public desservant un tiers du marché), moins de temps et de ressources peuvent être consacrés à la gestion systèmes sur site. Cet avantage se matérialise à la fois dans les dépenses en capital matériel ou dans l'armée sans doute plus coûteuse des ressources humaines sous la forme de spécialistes s'occupant de la mise en réseau, de l'administration, de la gestion des données, de la sécurité, de la fiabilité, de la maintenance, etc.

Du point de vue de la gestion et du stockage des données, les plates-formes de stockage cloud natives reposant sur des architectures nouvelles et émergentes telles que les entrepôts de données cloud, les lacs de données cloud et les nouveaux lacs cloud familiers offrent des solutions performantes et facilement évolutives.

D'autre part, l'abondance de cloud computing infiniment évolutif, de services cloud sans serveur et d'outils d'intégration cloud clés en main favorise un écosystème sain et riche pour répondre aux besoins de gestion des données de l'entreprise.

Cinq tendances émergentes dans la gestion des données d'entreprise

2.Gestion active et augmentée des métadonnées

Les données qui aident à décrire vos données - les métadonnées - représentent une clé fondamentale pour pouvoir créer un effet de levier sur des volumes astronomiques de capture de données organisationnelles. En tant que pilier de l'espace de catalogage des données, la stratégie de gestion des métadonnées d'entreprise (EMM) va de soi dans la conduite de stratégies d'indexation rapides et efficaces pour aider à répondre aux besoins communs, notamment :

Une implémentation de base d'EMM est le catalogue de données opérationnelles qui représente une collection indexée des sources de données d'entreprise. Le concept de catalogues de données augmentés inventé par Gartner va encore plus loin et est défini comme une couche d'automatisation basée sur l'apprentissage automatique au-dessus du catalogue de données traditionnel.

L'automatisation des catalogues de données augmentés permet de rationaliser la découverte des données, la connectivité, l'enrichissement des métadonnées, l'organisation et la gouvernance. S'appuyant sur cette architecture automatisée, Active Metadata Management (AMM), est un pas dans la même direction, permettant l'analyse continue des différentes dimensions des métadonnées d'entreprise pour déterminer "l'alignement et les exceptions entre les données telles que conçues par rapport à l'expérience opérationnelle" telles que définies par Gartner.

3. Data Lakehouses – le meilleur des deux paradigmes

Alors que le lac de données a aidé à résoudre les problèmes de stockage et de flexibilité du puzzle de la gestion des données, les entreprises ont besoin de se résoudre au traitement ETL externe pour des performances des informations et des rapports de veille stratégique, ce qui peut généralement être géré de manière prête à l'emploi dans le cas d'un entrepôt de données. Pour rationaliser ce processus et aider à maintenir l'infrastructure de données unifiée et autonome, le concept de data lakehouses a émergé. Comme son nom l'indique, il s'agit d'une solution de gestion de données hybride combinant les avantages des lacs de données et des entrepôts de données en une seule plate-forme, réduisant ainsi la complexité et la maintenance tout en tirant parti de l'économie d'échelle. La première utilisation documentée du terme « Data Lakehouse » remonte à 2017, lorsqu'il a été utilisé pour la première fois par Jellyvision Lab, un client de Snowflake qui a utilisé le terme pour décrire la plate-forme Snowflake.

Semblable aux lacs de données, les données à structure mixte peuvent être ingérées dans le Lakehouse, l'aspect différenciateur étant la possibilité d'ajouter une couche d'entreposage au-dessus du lac. Cela permet de tirer parti de la rigidité et de la structure organisée d'un entrepôt pour les besoins de reporting traditionnels tout en conservant une architecture sous-jacente flexible et polyvalente pour un plus large éventail d'autres applications.

4.Gestion de la qualité des données grâce à l'observabilité

Alors que l'infrastructure technique des données continue d'être banalisée, le système moderne de production de données devient de plus en plus complexe avec de multiples points de contrôle (ou défaillances) potentiels. Par conséquent, la réponse à la question apparemment simple de « qu'est-ce qui n'a pas fonctionné ? » ou dans le sens préventif "comment pouvons-nous nous assurer que tout va bien ?" dans un pipeline de données devient plus difficile à traiter. Heureusement, la roue de la gestion de la qualité dans des contextes aussi complexes n'a pas eu à être réinventée. Les leçons tirées de l'application de méthodologies lean et agiles au développement de logiciels, à l'origine de la révolution DevOps qui continue d'évoluer et de mûrir, sont désormais également appliquées à la gestion des données d'entreprise. Et l'un des piliers essentiels pour assurer une gestion totale et continue de la qualité des données est l'observabilité des données.

(kurhan/Shutterstock)

L'observabilité elle-même n'est pas un nouveau concept ; il a été introduit pour la première fois en 1960 par Rudolf E. Kalman dans le contexte des systèmes dynamiques linéaires. Dans le contexte de la théorie du contrôle, l'observabilité a été définie comme la mesure dans laquelle l'état interne d'un système donné peut être déduit en fonction de ses sorties. En termes simples, il fournit la réponse à la simple question de « que pouvons-nous dire sur la performance d'un système en fonction de sa sortie ? ».

Dans le contexte de la gestion des données, la définition généralement acceptée de l'observabilité des données implique la capacité de comprendre la santé et l'état des données dans votre système, ce qui permet d'assurer la qualité des données et de surveiller et contrôler le cycle de vie des données. Alors que le génie logiciel a des piliers d'observabilité logicielle (journaux, métriques et traces), l'observabilité des données est théorisée pour être basée sur cinq piliers : fraîcheur, distribution, volume, schéma et lignée.

5.Data Fabric en tant que cadre de données multimodal

Il est clair qu'une solution de gestion de données monolithique centralisée n'est plus une option pour les entreprises modernes. La myriade de producteurs de données, de consommateurs, d'applications et de services intermédiaires nécessite un cadre de gestion de données moderne et complet capable de soutenir sa croissance en complexité et en échelle.

La structure de données jette les bases d'une architecture de plate-forme de gestion de données multimodale qui améliore la conception et les pratiques de gestion des données. La Data Fabric repose sur trois principes clés :

Il convient de mentionner que cet aperçu des tendances émergentes en matière de gestion des données d'entreprise concerne principalement les aspects techniques et architecturaux de la gestion des données d'entreprise. Mais comme nous l'avons observé historiquement avec d'autres espaces et industries, la croissance explosive des capacités techniques n'est qu'un élément de la réalisation du potentiel commercial de l'espace. La croissance durable et l'adoption de ces tendances dans l'espace de l'entreprise dépendent de l'adoption et de la mise en œuvre des bonnes stratégies de gestion du changement organisationnel et de la disponibilité des bonnes ressources techniques et organisationnelles pour les catalyser et les soutenir.

À propos des auteurs : Khalid Marbou (à gauche) est le stratège produit principal d'Infor pour Infor OS Data Fabric. Mike Kalinowski est directeur de la gestion des produits pour Infor OS Data Fabric.

Éléments associés :

Maillage de données contre. Data Fabric : Comprendre les différences

Le maillage de données émerge dans la poursuite de l'harmonie des données

Les Data Fabrics émergent pour apaiser les cauchemars de la gestion des données dans le cloud

Applications :Enterprise Analytics Technologies :Middleware Secteurs :Financial Services Fournisseurs :Infor Étiquettes :big data, cloud, data fabric, data management, data trends

Cinq tendances émergentes dans la gestion des données d'entreprise

1. Infrastructure de données cloud omniprésente

2.Gestion active et augmentée des métadonnées

3. Data Lakehouses – le meilleur des deux paradigmes

4.Gestion de la qualité des données grâce à l'observabilité

5.Data Fabric en tant que cadre de données multimodal

Test du chargeur pliable Anker Prime : comment un petit format peut-il offrir une charge rapide et puissante ?

Smartphones That Support Productive Learning