(cybrain/Shutterstock)
A medida que avanzamos hacia 2022, vale la pena recordar cómo, hace menos de una década, el mercado de consumo empresarial consideraba las soluciones de datos, principalmente, el almacenamiento de datos, como un elemento inevitable de su arquitectura de soluciones. Un monolito diseñado para sufragar los impactos de costos y rendimiento en las operaciones comerciales centrales para satisfacer las necesidades rígidas de informes y análisis. La mayoría de las veces, estas soluciones se consideraban centros de costos dependientes que requerían presupuestos de mantenimiento significativos para un rendimiento de innovación limitado. Era solo el costo de hacer negocios.
Y desde entonces, los conceptos relacionados con la computación infinita, la infraestructura elástica y los servicios administrados en la nube han revitalizado toda la perspectiva demográfica sobre el valor de los datos. Este nuevo valor imbuido de los datos ocupa un lugar destacado en la mayoría de las estrategias de 5 y 10 años de C-suites como fuente de generación de ingresos y ahora se les asigna un valor extrínseco a los datos.
Este pivote sobre los datos como estrategia difícilmente ha sucedido en el vacío; El surgimiento de dominios informáticos mercantilizados, que incluyen inteligencia artificial, aprendizaje automático, IIoT y categorías de productos basados en gráficos, ha tenido el efecto de impulsar las arquitecturas de datos hacia el futuro y ver el ritmo de la innovación de la arquitectura de datos impulsando avances en esos mismos mercados de productos. .
Esto ha dado lugar a una explosión cámbrica de nuevas tecnologías y nuevas empresas, nuevas verticales de soluciones y arquitecturas de procesamiento reinventadas que solo vieron más de $ 5 mil millones invertidos en el espacio solo en 2021, la mayor parte de esto siendo arrojado al anillo de análisis y almacenamiento.
Dada esta revisión abreviada, también estamos profundamente interesados en profundizar en el rumbo del espacio de datos y hemos marcado esa perspectiva con 5 tendencias clave que sospechamos que serán fundamentales para la evolución de la administración de datos empresariales en los próximos media década.
1. Infraestructura de datos en la nube ubicua
(sdecoret/Shutterstock)
No hay mejor lugar para comenzar que con la infraestructura que permitió gran parte del crecimiento en este espacio. Ir más allá de los sistemas locales heredados a la nube y, específicamente, a la nube pública, desbloqueó recursos que de otro modo estarían atados y dedicados al mantenimiento, la confiabilidad y la disponibilidad de la infraestructura y niveló el campo de juego para prácticas innovadoras. El atractivo nuevo paradigma de piso bajo y techo alto para la adopción de tecnología está listo para ganar más tracción con Gartner pronosticando que el gasto en servicios de nube pública se acercará a $ 500 mil millones para 2022.
Con cinco nueves de disponibilidad (99,999 %) y una asombrosa durabilidad de once nueves (99,999999999 %) lograda por AWS (el titular de la nube pública que da servicio a un tercio del mercado), se puede gastar menos tiempo y recursos en administrar sistemas locales. Este beneficio se materializa tanto en gastos de capital de hardware como en el ejército de recursos humanos posiblemente más costoso en forma de especialistas que se ocupan de las redes, la administración, la gestión de datos, la seguridad, la confiabilidad, el mantenimiento, etc.
Desde la perspectiva de la gestión y el almacenamiento de datos, las plataformas de almacenamiento nativas de la nube basadas en arquitecturas nuevas y emergentes, como los almacenes de datos en la nube, los lagos de datos en la nube y los lagos en la nube nuevos pero familiares, brindan soluciones eficientes y fácilmente escalables.
Por otro lado, la abundancia de computación en la nube infinitamente escalable, servicios en la nube sin servidor y herramientas de integración nativas en la nube llave en mano fomenta un ecosistema saludable y rico para abordar las necesidades de administración de datos empresariales.
2.Gestión activa y aumentada de metadatos
Los datos que ayudan a describir sus datos (metadatos) representan una clave fundamental para poder aprovechar volúmenes astronómicos de captura de datos organizacionales. Como pilar del espacio de catalogación de datos, la estrategia de administración de metadatos empresariales (EMM) es evidente en la conducción de estrategias de indexación oportunas y eficientes para ayudar a abordar las necesidades comunes, que incluyen:
Una implementación básica de EMM es el catálogo de datos operativos que representa una colección indexada de las fuentes de datos empresariales. Un paso más allá es el concepto de catálogos de datos aumentados acuñado por Gartner y definido como una capa de automatización impulsada por el aprendizaje automático sobre el catálogo de datos tradicional.
La automatización en los catálogos de datos aumentados permite optimizar el descubrimiento de datos, la conectividad, el enriquecimiento de metadatos, la organización y la gobernanza. Sobre la base de esta arquitectura automatizada, Active Metadata Management (AMM) es un salto en la misma dirección, ya que permite el análisis continuo de las diversas dimensiones de los metadatos empresariales para determinar "la alineación y las excepciones entre los datos diseñados frente a la experiencia operativa", según lo definido por Gartner.
3. Data Lakehouses: lo mejor de ambos paradigmas
Si bien el lago de datos ayudó a abordar las piezas de almacenamiento y flexibilidad del rompecabezas de la gestión de datos, las empresas se encuentran en la necesidad de resolver el procesamiento ETL externo para lograr un rendimiento óptimo. información e informes de inteligencia comercial, algo que normalmente se puede administrar de forma inmediata en el caso de un almacén de datos. Para agilizar este proceso y ayudar a mantener la infraestructura de datos unificada y autónoma, surgió el concepto de data lakehouses. Como sugiere el nombre, se trata de una solución de gestión de datos híbrida que combina las ventajas de los lagos de datos y los almacenes de datos en una sola plataforma, lo que reduce la complejidad y el mantenimiento, al mismo tiempo que aprovecha la economía de escala. El primer uso documentado del término "Data Lakehouse" se remonta a 2017, cuando lo utilizó por primera vez Jellyvision Lab, un cliente de Snowflake que usó el término para describir la plataforma Snowflake.
De manera similar a los lagos de datos, los datos de estructura mixta se pueden ingerir en la casa del lago y el aspecto diferenciador es la capacidad de agregar una capa de almacenamiento en la parte superior del lago. Esto permite aprovechar la rigidez y la estructura organizada de un almacén para las necesidades tradicionales de generación de informes y, al mismo tiempo, mantener una arquitectura subyacente flexible y versátil para una gama más amplia de otras aplicaciones.
4.Gestión de la calidad de los datos a través de la observabilidad
A medida que la infraestructura de datos técnicos se sigue comercializando, el sistema moderno de producción de datos se vuelve cada vez más complejo con múltiples puntos potenciales de verificación (o falla). En consecuencia, la respuesta a la pregunta aparentemente simple de "¿qué salió mal?" o en el sentido preventivo "¿cómo podemos asegurarnos de que nada salga mal?" en una canalización de datos se vuelve más difícil de abordar. Afortunadamente, no fue necesario reinventar la rueda de la gestión de la calidad en entornos tan complejos. Las lecciones aprendidas de la aplicación de metodologías lean y ágiles al desarrollo de software que dieron lugar a la revolución DevOps que continúa evolucionando y madurando, ahora también se aplican a la gestión de datos empresariales. Y uno de los pilares clave para garantizar la gestión total y continua de la calidad de los datos es la observabilidad de los datos.
(kurhan/Shutterstock)
La observabilidad en sí no es un concepto nuevo; fue introducido por primera vez en 1960 por Rudolf E. Kalman en el contexto de los sistemas dinámicos lineales. En el contexto de la teoría del control, la observabilidad se definió como el grado en que se puede inferir el estado interno de un sistema dado en función de sus resultados. En pocas palabras, proporciona la respuesta a la simple pregunta de "¿qué podemos decir sobre el rendimiento de un sistema en función de su salida?".
En el contexto de la gestión de datos, la definición generalmente aceptada de observabilidad de datos implica la capacidad de comprender la salud y el estado de los datos en su sistema, lo que permite garantizar la calidad de los datos y monitorear y controlar el ciclo de vida de los datos. Si bien la ingeniería de software tiene pilares de observabilidad de software (registros, métricas y seguimientos), se teoriza que la observabilidad de datos se basa en cinco pilares: frescura, distribución, volumen, esquema y linaje.
5. Data Fabric como un marco de datos multimodal
Está claro que una solución de gestión de datos monolítica central ya no es una opción para las empresas modernas. La gran cantidad de productores de datos, consumidores y aplicaciones y servicios intermedios requieren un marco de gestión de datos moderno y completo capaz de sostener su crecimiento en complejidad y escala.
Data Fabric sienta las bases para una arquitectura de plataforma de gestión de datos multimodal que eleva el diseño y las prácticas de gestión de datos. La estructura de datos se basa en tres principios clave:
Vale la pena mencionar que esta descripción general de las tendencias emergentes en la gestión de datos empresariales se refiere principalmente a los aspectos técnicos y arquitectónicos de la gestión de datos empresariales. Pero como hemos observado históricamente con otros espacios e industrias, el crecimiento explosivo de las capacidades técnicas es solo una parte de la realización del potencial comercial en el espacio. El crecimiento sostenible y la adopción de estas tendencias en el espacio empresarial dependen de la adopción e implementación de las estrategias correctas de gestión del cambio organizacional y de contar con los recursos técnicos y organizacionales adecuados para catalizarlas y respaldarlas.
Sobre los autores: Khalid Marbou (izquierda) es estratega de productos sénior de Infor para Infor OS Data Fabric. Mike Kalinowski es el director de gestión de productos de Infor OS Data Fabric.
Artículos relacionados:
Malla de datos vs. Data Fabric: comprensión de las diferencias
La malla de datos surge en busca de la armonía de datos
Emergen estructuras de datos para calmar las pesadillas de la gestión de datos en la nube
Aplicaciones:Tecnologías de análisis empresarial:Middleware Sectores:Proveedores de servicios financieros:Infor Etiquetas:big data, nube, estructura de datos, administración de datos, tendencias de datos