Confluent a parrainé ce post
Cet article est le premier dans une série en quatre parties.
Adam BellemareAdam Bellemare is a staff technologist at Confluent and formerly a data platform engineer at Shopify, Flipp and BlackBerry. He has been working in the data space for over a decade with a successful history in big-data architecture, event-driven microservices and building streaming data in an organization. He is also the author of the O’Reilly title 'Building Event-Driven Microservices.'Les données façonnent l'organisation moderne de haut en bas, à tel point qu'un appétit vorace pour les données constitue souvent le point de départ de presque toutes les décisions commerciales.Mais comme nos ambitions axées sur les données ont grimpé en flèche, l'architecture de la façon dont les données commerciales importantes sont stockées, accessibles et utilisées dans une organisation n'ont pas suivi.
La soi-disant démocratisation des données n'a pas réussi à tenir sa promesse.Les données sont encore difficiles à accéder et ce n'est souvent qu'une chose «Rechez et saisissez-la pour vous-même».Cela a conduit à une forme d'anarchie de données.
C'est là que le maillage des données entre.
Si vous avez été près de ce site au cours de la dernière année, vous avez probablement atteint le concept de maillage de données.Il a été développé il y a plus d'un an par Zhamak Dehghani, consultant en technologie chez ThoughtWorks, pour corriger ce qu'elle considérait comme des défauts majeurs dans la façon dont les données sont générées et consommées dans le monde des affaires d'aujourd'hui.
Data Mesh est la dernière phase d'un processus en constante évolution pour accéder et utiliser plus intelligemment les données pour prendre de meilleures décisions stratégiques et mieux servir nos clients.Je crois qu'il est non seulement conçu pour devenir un élément clé du processus de renseignement des affaires, mais aussi pour servir les processus opérationnels.
D'une manière générale, il s'agit d'une construction stratégique et tactique pour concevoir une plate-forme de données plus fiable en comblant l'écart entre les plans opérationnels et analytiques de chaque domaine commercial, en réapprovisionnement à la fois comment les données sont produites et comment elles sont consommées.Il tire les idées de la conception axée sur le domaine (utilisée pour développer des microservices), DevOps (automatisation et infrastructure en libre-service) ou l'observabilité (journalisation et gouvernance) et les applique au monde des données.
Le maillage de données est une formulation de principes importants qui, lorsqu'ils sont suivis, changent fondamentalement la façon dont les organisations produisent, utilisent et distribuent des données.Cet article est le premier d'une série en quatre parties conçue pour définir le besoin de maillage de données, puis conseiller comment vous devez ajuster votre réflexion et votre flux de travail pour y arriver.Il fournit un aperçu du démarrage de votre propre projet de maillage de données, de la couverture des idées de base à l'exécution d'un système de prototype dans votre organisation.
Alors c'est quoi?
Les données sont maintenant générées en continu à presque tous les points d'une organisation.Cela a conduit à un traitement généralisé du flux d'événements (ESP), la pratique de prendre des mesures sur une série de points de données provenant d'un système qui n'arrête jamais de générer des données.(«L'événement» fait référence à chaque point de données du système, et «Stream» fait référence à la livraison continue de ces événements.)
Les événements consistent en quelque chose lié aux entreprises qui s'est produite dans l'organisation, comme l'enregistrement des utilisateurs, une vente, des changements d'inventaire ou des mises à jour des employés.Ces événements sont ensuite organisés séquentiellement en flux, qui est utilisé pour faciliter la livraison en cours.
Les flux d'événements sont mis à jour à mesure que de nouvelles données deviennent disponibles, et leurs données peuvent être générées par n'importe quelle source d'entreprise - ventes, vidéo en streaming et audio et données texte, pour n'en nommer que quelques-uns.ESP permet à toutes les formes d'informations opérationnelles, analytiques et hybrides d'être regroupées, et elle arrive sous de nombreuses formes différentes, structurées et non structurées.Les flux d'événements jouent un rôle essentiel dans la plupart des implémentations de maillage de données.
Dans de nombreuses organisations, ce flux constant de données de tous ces différents systèmes est versé dans un lac de données, un référentiel d'informations stockées dans son format naturel / brut ou des entrepôts de données, qui combinent et stockent des données à partir de sources disparates.De là, une équipe d'analystes de données nettoie les informations afin qu'elles puissent être utilisées par différentes personnes et dans de nombreux autres contextes différents.
La fusion de ces pétaoctets d'informations dans un seul système signifie, théoriquement, ces idées se développent plus rapidement.Les idées peuvent conduire à des analyses qui prédisent les événements futurs en fonction des modèles dans les données, ou comme un autre exemple, enrichissant qui combine des sources de données pour créer plus de contexte et de signification.
Un entrepôt de données typique a de nombreuses sources réparties dans une entreprise, avec différents niveaux de qualité.Il y aura de nombreux travaux ETL (extraire, transformation, chargement) exécutant dans différents systèmes et retirer les ensembles de données dans l'entrepôt central.Les équipes d'analyse nettoient et réparent de nombreuses données.L'extraction et le chargement prennent le temps restant.
Le modèle d'entrepôt de données est un système conçu pour être évolutif, fiable et durable, mais il est lourd de problèmes.Le problème est que nous avons demandé beaucoup de nos données au cours des dernières années.Nous voulons que cela réponde à toutes les exigences pour les affaires stratégiques.Mais nous en avons également besoin pour concevoir des applications, garder les clients heureux et optimiser les workflows opérationnels.
Pendant ce temps, les informations analytiques informent tous les aspects de notre entreprise, du chef de produit qui doit comprendre le comportement de leurs clients pour créer des recommandations de personnalisation aux ingénieurs qui construisent ces solutions.
Nous avons essayé de lutter contre la portée de ce volume de données croissant rapidement avec des solutions comme Apache Hadoop.Mais ceux d'entre nous dans l'espace de données sont malheureusement très familiers avec la rareté de données cohérentes, stables et bien définies.Cela apparaît souvent comme une disparité dans les rapports analytiques: par exemple, l'analyse rapporte que 1 100 engagements de produits ont eu lieu, mais le client a été facturé pour 1 123 engagements.Les systèmes opérationnels et les systèmes analytiques ne sont pas toujours d'accord, et cela est en grande partie dû à l'approvisionnement en données provenant de plusieurs sources divergentes.
L'architecture de données manque souvent de rigueur et évolue d'une manière ad hoc sans autant de discipline ou de structure que nous le souhaiteri.Les utilisateurs savent que lorsqu'ils atteignent le lac Data pour saisir des données pour un traitement et une analyse supplémentaires, les informations peuvent être fragiles.Le logiciel plus ancien peut sembler fiable mais échoue lorsqu'il est présenté avec des données inhabituels ou est modifié.Et à mesure que le logiciel d'un projet donné devient de plus en plus grand et développe une plus grande base d'utilisateurs qui le gèrent, il devient de moins en moins malléable.
L'entrepôt de données ou la stratégie Data Lake, en bref, est devenu sujet aux erreurs et non durable.Cela conduit à des producteurs de données déconnectés, à des consommateurs de données impatients et à une équipe de données dépassée qui a du mal à suivre le rythme.Plus important encore, il ne fournit tout simplement pas une structure de soutien adéquate pour où nous en sommes aujourd'hui et où nous nous dirigeons.
Si vous voulez que n'importe quel système évolue, vous devez réduire le nombre de points de couplage, les lieux de synchronisation.Suivant cette logique, les architectures de données peuvent être plus facilement mises à l'échelle en étant décomposées en composants plus petits orientés autour des domaines.D'autres équipes et produits peuvent souscrire à ces données, assuré qu'il s'agit de la source de vérité définitive, en s'approvisionnement directement de leurs pairs à la manière de peer-to-peer.Par conséquent, le maillage des données.
Un système nerveux pour les données
Le maillage est conçu pour fabriquer un produit premium des données commerciales importantes d'une organisation.Ça fait ça simplement.Data Mesh place la responsabilité de fournir des données propres, disponibles et fiables sur l'équipage qui génère, utilise et stocke les données - pas sur une équipe d'analyse centralisée.Il met la responsabilité des données propres sur ceux qui sont les plus proches des données.En d'autres termes, par ceux qui le comprennent le mieux.
Dans un maillage de données, la propriété d'un actif est donnée à l'équipe locale qui connaît le plus sa structure, son but et sa valeur et qui possède la production de celui-ci.Dans cette approche décentralisée, de nombreuses parties travaillent ensemble pour assurer d'excellentes données.Les parties qui possèdent les données doivent être de bonnes intendants de ces données et communiquer avec d'autres pour s'assurer que leurs besoins de données sont satisfaits.
Les données ne sont plus traitées comme un sous-produit des applications, mais sont plutôt envisagées comme un produit de données bien défini.Considérez le maillage de données comme l'antithèse de l'entrepôt de données.Les produits de données sont des sources de données bien formées qui sont distribuées dans votre entreprise, chacune traitée comme des produits de première classe à leur propre droite avec une propriété dédiée, une gestion du cycle de vie et des accords de niveau de service.L'idée est de les fabriquer, de les gérer et de les présenter soigneusement au reste de l'organisation en tant que produits pour les autres équipes à consommer, fournissant une source fiable et digne de confiance pour partager des données dans l'organisation.
Les flux d'événements sont la solution optimale pour alimenter la grande majorité des produits de données.Ils sont un moyen évolutif, fiable et durable de stocker et de communiquer des données commerciales importantes et de combler l'écart toujours plus bleu entre le traitement analytique et opérationnel.Ils ont mis le consommateur à contrôler une copie en lecture seule et en lecture seule de ces données pour traiter, remodeler, stocker et mettre à jour comme ils le semblent (pensez aux microservices).
Sponsor NoteConfluent, founded by the original creators of Apache Kafka®️, is pioneering a new category of data infrastructure focused on data in motion. With Confluent’s cloud native offering any organization can easily build and scale next-generation apps needed to run their business in real-time.La prévalence des produits de stockage et informatique cloud rend cela facile à accueillir;Les consommateurs d'analyse peuvent couler des données dans un magasin d'objets cloud pour un traitement parallèle massif, tandis que les utilisateurs opérationnels peuvent consommer directement les données, agissant sur les événements au fur et à mesure qu'ils se produisent.Cela élimine plusieurs sources du même ensemble de données qui causent si souvent des problèmes avec les anciennes stratégies d'acquisition de données.
Mais il y a beaucoup plus à mettre en œuvre le maillage de données, et je vais explorer les principales considérations au cours des trois prochains articles: ∙ Comment les données sont produites: les données en tant que produit et propriété de domaine ∙ Comment les données sont consommées: Données en libre-serviceet gouvernance fédérée ∙ Comment organiser la main-d'œuvre: une approche de travail d'équipe du maillage optimal
Chaque organisation constatera que sa mise en œuvre de maillage des données peut différer dans ses types de produits de données pris en charge, la conception technique, le modèle de gouvernance et la structure organisationnelle.
Mais une chose est certaine: à mesure que les exigences des consommateurs de données continuent de se diversifier et que l'ampleur de nos besoins accélère, je pense que les maillots de données - en se concentrant sur les ensembles de données de domaine distribués fournis par des flux d'événements - deviendront de plus en plus courants et critiquesune partie de notre avenir basé sur les données.
La nouvelle pile est une filiale en propriété exclusive d'Insight Partners, un investisseur dans les sociétés suivantes mentionnées dans cet article: Flipp.
Confluent est un sponsor de la nouvelle pile.
Photo de Damir Mijailovic de Pexels.