Confluente patrocinó esta publicación
Este artículo es el primero en una serie de cuatro partes..
Adam BellemareAdam Bellemare is a staff technologist at Confluent and formerly a data platform engineer at Shopify, Flipp and BlackBerry. He has been working in the data space for over a decade with a successful history in big-data architecture, event-driven microservices and building streaming data in an organization. He is also the author of the O’Reilly title 'Building Event-Driven Microservices.'Los datos dan forma a la organización moderna de arriba a abajo, tanto que un apetito voraz por los datos a menudo forma el punto de partida de casi todas las decisiones comerciales.Pero a medida que nuestras ambiciones basadas en datos se han disparado, la arquitectura de la forma en que se almacenan, acceden y usan importantes datos comerciales en una organización..
La llamada democratización de datos ha fallado en gran medida en cumplir con su promesa.Los datos aún son difíciles de acceder y, a menudo, es solo un tipo de cosa de "alcanzarlo y tomarlo por ti mismo".Esto ha llevado a una forma de anarquía de datos.
Ahí es donde entra la malla de datos.
Si ha estado cerca de este sitio en el último año más o menos, probablemente se haya topado con el concepto de malla de datos.Fue desarrollado hace más de un año por Zhamak Dehghani, una consultora de tecnología en ThoughtWorks, para corregir lo que veía como defectos importantes en la forma en que se generan y se consumen datos en el mundo de los negocios de hoy en día.
Data Mesh es la última fase de un proceso en constante evolución para acceder y usar datos de manera más inteligente para mejorar las decisiones estratégicas y servir a nuestros clientes.Creo que no solo está diseñado para convertirse en una parte clave del proceso de inteligencia empresarial, sino también para servir procesos operativos..
En términos generales, es una construcción estratégica y táctica para diseñar una plataforma de datos más confiable al cerrar la brecha entre los planos operativos y analíticos de cada dominio comercial, reajustando tanto cómo se producen los datos como cómo se consume.Extrae ideas del diseño basado en el dominio (utilizado para desarrollar microservicios), DevOps (automatización y infraestructura de autoservicio) u observabilidad (registro y gobierno) y los aplica al mundo de los datos.
La malla de datos es una formulación de principios importantes que, cuando se siguen, cambian fundamentalmente la forma en que las organizaciones producen, usan y distribuyen datos.Este artículo es la primera de una serie de cuatro partes diseñada para establecer la necesidad de una malla de datos y luego avisar sobre cómo debe ajustar su pensamiento y flujo de trabajo para que suceda.Proporciona un esquema para iniciar su propio proyecto de malla de datos, desde cubrir las ideas básicas hasta ejecutar un sistema prototipo en su organización.
¿Así que qué es lo?
Los datos ahora se generan continuamente en casi todos los puntos de una organización.Esto ha llevado a un procesamiento generalizado de flujo de eventos (ESP), la práctica de tomar medidas en una serie de puntos de datos que se originan en un sistema que nunca deja de generar datos.("Evento" se refiere a cada punto de datos en el sistema, y "Stream" se refiere a la entrega continua de esos eventos.)
Los eventos consisten en algo relacionado con el negocio que ha sucedido en la organización, como un registro de usuario, una venta, cambios de inventario o actualizaciones de empleados.Estos eventos se organizan secuencialmente en una transmisión, que se utiliza para facilitar la entrega continua..
Las transmisiones de eventos se actualizan a medida que los nuevos datos están disponibles, y sus datos pueden ser generados por cualquier fuente comercial: ventas, transmisión de video y audio y datos de texto, por nombrar solo unos pocos.ESP permite que todas las formas de información operativa, analítica e híbrida se agrupen, y llega en muchas formas diferentes, tanto estructuradas como no estructuradas..Las transmisiones de eventos juegan un papel esencial en la mayoría de las implementaciones de malla de datos.
En muchas organizaciones, ese flujo constante de datos de todos estos diversos sistemas se vierte en un lago de datos, un depósito de información almacenado en su formato natural/sin procesar, o almacenes de datos, que combinan y almacenan datos de fuentes dispares.A partir de ahí, un equipo de analistas de datos limpia la información para que puedan ser utilizada por diferentes personas y en muchos otros contextos diferentes..
Fusionar estos petabytes de información en un solo sistema significa, en teoría, esas ideas se desarrollan más rápido.Las ideas pueden conducir a análisis que predicen eventos futuros basados en patrones en los datos, o como otro ejemplo, al enriquecimiento que combina fuentes de datos para crear más contexto y significado.
Un almacén de datos típico tiene muchas fuentes distribuidas en una empresa, con diferentes niveles de calidad..Habrá muchos trabajos de ETL (extracto, transformación, carga) que se ejecutan en diferentes sistemas y extraen conjuntos de datos al almacén central.Los equipos de análisis limpian y arreglan muchos de los datos.Extraer y carga toma el tiempo restante.
El modelo de almacén de datos es un sistema diseñado para ser escalable, confiable y duradero, pero está lleno de problemas.El problema es que hemos pedido muchos de nuestros datos en los últimos años..Queremos que cumpla con todos los requisitos para la inteligencia empresarial estratégica..Pero también lo necesitamos para diseñar aplicaciones, mantener a los clientes felices y optimizar los flujos de trabajo operativos.
Mientras tanto, las ideas analíticas informan todos los aspectos de nuestro negocio, desde el gerente de producto que debe comprender el comportamiento de sus clientes para construir recomendaciones de personalización a los ingenieros que crean esas soluciones.
Hemos tratado de abordar el alcance de este volumen de datos que aumenta rápidamente con soluciones como Apache Hadoop.Pero aquellos de nosotros en el espacio de datos lamentablemente estamos muy familiarizados con la escasez de datos consistentes, estables y bien definidos.Esto a menudo aparece como una disparidad en los informes analíticos: por ejemplo, Analytics informa que se produjeron 1.100 compromisos de productos, pero el cliente fue facturado por 1.123 compromisos.Los sistemas operativos y los sistemas analíticos no siempre están de acuerdo, y esto se debe en gran parte a los datos de abastecimiento de múltiples fuentes divergentes.
La arquitectura de datos a menudo carece de rigor y evoluciona de manera ad hoc sin tanta disciplina o estructura como nos gustaría.Los usuarios saben que cuando llegan al lago de datos para obtener datos para su posterior procesamiento y análisis, la información puede ser frágil.El software anterior puede parecer confiable pero falla cuando se presenta con datos inusuales o se alteran.Y a medida que el software en un proyecto determinado se crece cada vez más y desarrolla una base más grande de usuarios que lo manejan, se vuelve cada vez menos maleable.
El almacén de datos o la estrategia del lago de datos, en resumen, se ha convertido en propenso a errores e insostenibles.Conduce a productores de datos desconectados, consumidores de datos impacientes y un equipo de datos abrumado que lucha por mantener el ritmo.Lo más importante es que simplemente no proporciona una estructura de soporte adecuada para dónde estamos hoy y hacia dónde nos dirigimos.
Si desea que se escala algún sistema, debe reducir la cantidad de puntos de acoplamiento, los lugares de sincronización.Siguiendo esa lógica, las arquitecturas de datos se pueden escalar más fácilmente al descomponerse en componentes más pequeños bien definidos orientados alrededor de dominios.Otros equipos y productos pueden suscribirse a esos datos, asegurados de que es la fuente definitiva de la verdad, que se obtiene directamente de sus pares de una manera entre pares.Por lo tanto, la malla de datos.
Un sistema nervioso para los datos
La malla está diseñada para hacer un producto premium de los datos comerciales importantes en una organización.Hace esto simplemente.La malla de datos coloca la responsabilidad de la responsabilidad de proporcionar datos limpios, disponibles y confiables en la tripulación que genera, usa y almacena los datos, no en un equipo de análisis centralizado.Pone la responsabilidad de los datos limpios sobre aquellos que están más cerca de los datos.En otras palabras, por aquellos que lo entienden mejor.
En una malla de datos, la propiedad de un activo se da al equipo local que está más familiarizado con su estructura, propósito y valor y que posee la producción de TI..En este enfoque descentralizado, muchas partes trabajan juntas para garantizar excelentes datos.Las partes que poseen los datos deben ser buenos administradores de esos datos y comunicarse con otros para asegurarse de que se satisfagan sus necesidades de datos..
Los datos ya no se tratan como un subproducto de las aplicaciones, sino que se prevé como un producto de datos bien definido.Piense en la malla de datos como la antítesis del almacén de datos.Los productos de datos son fuentes de datos bien formados que se distribuyen en torno a su empresa, cada uno tratado como productos de primera clase por derecho propio completos con la propiedad dedicada, la gestión del ciclo de vida y los acuerdos a nivel de servicio.La idea es crear, seleccionarlos y presentarlos cuidadosamente al resto de la organización como productos para que otros equipos los consuman, proporcionando una fuente confiable y confiable para compartir datos en toda la organización..
Las transmisiones de eventos son la solución óptima para alimentar la gran mayoría de los productos de datos.Son una forma escalable, confiable y duradera de almacenar y comunicar datos comerciales importantes y cerrar la brecha cada vez más agradable entre el procesamiento analítico y operativo.Pusieron al consumidor en control de una copia siempre actualizada de solo lectura de esos datos para procesar, remodelar, almacenar y actualizar según lo mejor que consideren (piense en microservicios).
Sponsor NoteConfluent, founded by the original creators of Apache Kafka®️, is pioneering a new category of data infrastructure focused on data in motion. With Confluent’s cloud native offering any organization can easily build and scale next-generation apps needed to run their business in real-time.La prevalencia del almacenamiento en la nube y los productos informáticos hace que esto sea fácil de acomodar;Los consumidores de análisis pueden hundir datos en un almacén de objetos en la nube para un procesamiento paralelo masivo, mientras que los usuarios operativos pueden consumir los datos directamente, actuando sobre los eventos a medida que ocurren.Esto elimina múltiples fuentes del mismo conjunto de datos que a menudo causan problemas con las estrategias de adquisición de datos anteriores.
Pero hay mucho más en implementar la malla de datos, y voy a explorar las principales consideraciones sobre los próximos tres artículos: ∙ Cómo se producen los datos: los datos como propiedad de producto y dominio ∙ Cómo se consumen datos: datos de autoservicioy gobernanza federada ∙ cómo organizar la fuerza laboral: un enfoque de trabajo en equipo para la malla óptima
Cada organización encontrará que su implementación de malla de datos puede diferir en sus tipos de productos de datos compatibles, diseño técnico, modelo de gobierno y estructura organizativa.
Pero una cosa es segura: a medida que las demandas de los datos de los datos continúan diversificando, y la escala de nuestras necesidades se acelera, creo que las mallas de datos, con su enfoque en conjuntos de datos de dominio distribuidos proporcionados a través de flujos de eventos, se volverán cada vez más comunes y críticasParte de nuestro futuro basado en datos.
La nueva pila es una subsidiaria de propiedad total de Insight Partners, un inversor en las siguientes compañías mencionadas en este artículo: Flipp.
Confluent es un patrocinador de la nueva pila.
Foto de Damir Mijailovic de Pexels.