¿Qué es un lago de datos? Ventajas y desventajas

Complemento de los almacenes de datos (data warehouse), en los data lakes se guardan todo tipo de datos en bruto y aportan flexibilidad para llevar a cabo análisis con big data y machine learning

Descubre qué es un lago de datos y sus características principales.
Comunicación Telefónica

Telefónica Seguir

Tiempo de lectura: 4 min

Con la evolución de la tecnología, la cantidad de datos generados en todo el mundo (sobre todo a través de teléfonos inteligentes, redes sociales y el IoT) crecerá rápidamente hasta 181 zettabytes de datos en 2025, según el estudio internacional Data Never Sleeps 10.0. En este contexto, el concepto de lago de datos (data lakes) se está poniendo de moda entre las empresas que quieren sacar el máximo partido a sus datos por sus múltiples ventajas. 

El término lago de datos fue acuñado por primera vez por James Dixon, CTO de Pentaho, una  plataforma de integración y análisis de datos, en su blog “Union of the State – A Data Lake Use Case”. Los data lakes son repositorios de almacenamiento de datos que brindan el análisis big data en forma nativa de múltiples fuentes. Ayuda a la toma de decisiones mediante la ejecución de varios tipos de análisis, como paneles, visualizaciones, procesamiento de big data, análisis en tiempo real y aprendizaje automático. No hay límite de tamaño y se almacenan varios tipos de datos.  

A diferencia con los almacenes de datos (data warehouse) en los que se guardan grandes cantidades de datos de forma estructurada, en los lagos de datos se recopilan datos brutos y sin procesar en diversos formatos para los analistas de datos. Se pueden almacenar datos estructurados, datos semiestructurados y datos no estructurados y, al almacenar datos, la búsqueda se puede acelerar vinculando identificadores y etiquetas de metadatos. Los usuarios de los lagos de datos son científicos y desarrolladores de datos, los de un almacén de datos especialistas y analistas de negocios. 

El almacén de datos es un modelo de datos ventajoso para la elaboración de informes porque utiliza datos estructurados para un propósito, pero es inapropiado en términos de costo y tiempo para recopilar y utilizar grandes cantidades de datos no estructurados necesarios para la tecnología de big data. Actualmente, la mayoría de los lagos de datos se implementan en la nube. 

Con un lago de datos, todos los datos se conservan, no se purgan ni se filtran antes de almacenarlos, y se guardan en un estado indefinido hasta que se consultan. Los datos de un lago de datos se transforman cuando se necesitan para el análisis, en cuyo caso se aplica un esquema para que los datos sean analizables. Mientras que el objetivo de los datos del data lake se acumulan sin un propósito predefinido, los del data warehouse se define de antemano. 

Este tipo de depósito de datos, aplicado al ámbito de la salud, se conoce como Data Lake Sanitario. El Plan de Recuperación, Transformación y Resiliencia Económica (PRTR) prevé fondos para desarrollar un enorme lago de datos sanitarios, llamado Espacio Nacional de Datos de Salud, que “permitirá mejorar los diagnósticos y tratamientos desde el análisis masivo de información recogida de los sistemas de salud autonómicos”, según el Ministerio de Sanidad.   

Ventajas de los data lakes

  • Brindan una recopilación más sencilla y al almacenamiento indefinido de todo tipo de datos.
  • Permiten a las empresas transformar datos sin procesar en datos estructurados adecuados para análisis basados en SQL, ciencia de datos y machine learning, y todo con menor latencia.
  • Se puede mantener actualizado más fácilmente porque es compatible con múltiples formatos de archivos y supone un lugar seguro para nuevos datos.
  • Ofrecen flexibilidad para aplicaciones de big data y machine learning. 
  • Se pueden aplicar diferentes herramientas para obtener información sobre lo que significan los datos.
  • El coste es más económico que el almacén de datos.

Desventajas de los lagos de datos

  • Al albergar todo tipo de datos puede resultar complejo gestionarlos. 
  • Si no se gestionan adecuadamente, pueden desorganizarse y resultar difíciles de conectar con herramientas de análisis e inteligencia empresarial.
  • Tienden a ser más vulnerables al desarrollo de silos de datos (datos no son accesibles para todos los departamentos o equipos de la empresa), que luego pueden convertirse en pantanos de datos (sin metadatos, sin organizar).  
  • Al contener datos confidenciales puede plantear preocupaciones de seguridad.
  • La inversión inicial y el mantenimiento pueden ser costosos, especialmente cuando con grandes volúmenes de datos. 

Data Lake House, la nueva tendencia

Dadas las diferencias entre los lagos de datos y los almacenes de datos, la mayoría de las empresas optan por operar con los dos sistemas al mismo tiempo de forma complementaria. Sin embargo, también se está abriendo paso una nueva tendencia que aúna las ventajas de ambos tipos de repositorios, los Data Lake House. Grosso modo, implementan las capacidades de estructuración y gestión de datos de un almacén de datos, pero lo hace con la flexibilidad y el bajo coste de un lago de datos.

Un informe de Adroit Market Research prevé que, con una tasa de crecimiento anual compuesta (CAGR) del 24,0%, el mercado mundial de lagos de datos alcance los 25,49 mil millones de dólares para 2029. El aumento de la demanda para la gobernanza y la seguridad de los datos, la tendencia creciente de implementaciones basadas en la nube y la creciente necesidad de soluciones de análisis y big data son factores que contribuyen al crecimiento del mercado del lago de datos. 

Compártelo en tus redes sociales


Medios de comunicación

Contacta con nuestro departamento de comunicación o solicita material adicional.