Base de datos, Data Warehouse y Data Lake, ¿cuál es la diferencia?

Antes de hablar de la diferencia entre una base de datos, un Data Warehouse y un Data Lake, primero debemos entender un concepto muy importante. Ese concepto es la diferencia entre datos estructurados y datos no estructurados.

Datos estructurados vs datos no estructurados

Los datos estructurados son datos que tienen un esquema conocido y están organizados en filas y columnas en una tabla.

Filas horizontales
Columnas verticales

Casi como el típico Excel con el que estamos acostumbrados a trabajar todos. Los datos estructurados suelen estar almacenados en bases de datos relacionales ya que los datos tienen relaciones entre sí.

Tablas con sus relaciones

Los datos no estructurados no tienen esquema, pueden ser por ejemplo texto, imágenes, diferentes tipos de archivos, etc. No están estructurados en filas y columnas como los datos estructurados. Podrían venir de cualquier aplicación que usamos como por ejemplo las redes sociales, artículos, correos electrónicos, audio y vídeo, etc.

Ahora que ya sabemos la diferencia entre datos estructurados y no estructurados vamos a hablar de lo que es una base de datos.

¿Qué es una base de datos?

Una base de datos es un almacén de datos.

Hay muchos tipos de bases de datos, pero las bases de datos más comunes son las bases de datos relacionales que trabajan con datos estructurados.  Estas suelen ser de tipo SQL con sus diferentes sabores como son MySQL, SQL Server, PostgreSQL, SQLite, Amazon Aurora etc hay muchos más.

Diferentes motores de bases de datos SQL

Todos estos son motores de bases de datos.

También existen bases de datos para datos no estructurados que solemos llamar NoSQL (Not Only SQL) No Solo SQL. Algunos de los ejemplos más comunes son MongoDB, Cassandra, DynamoDB etc.

Diferentes motores de bases de datos NoSQL

Otra cosa que debemos resaltar es que las bases de datos normalmente son para datos transaccionales y no están diseñados para analítica.

Y aquí entra el término Data Warehouse o almacén de datos.

¿Qué es un Data Warehouse o almacén de datos?

Un Data Warehouse es un sistema de almacenamiento de datos creado específicamente para el análisis de datos o BI (inteligencia de negocios). Un Data Warehouse puede tener datos de muchas fuentes, pero suelen ser datos estructurados, bien organizados y normalmente accesibles a través de SQL.

Almacén de datos (Data Warehouse en español)

El Data Warehouse suele ser construido a través de lo que llamamos Data Pipelines utilizando ETL (Extract Transform and Load) Extraer, Transformar y Cargar. De esta forma tenemos un Data Warehouse listo con los datos actualizados para nuestras tareas de análisis de datos y inteligencia de negocios.

En definitiva, un Data Warehouse está optimizado para análisis de datos e inteligencia de negocios.

Ahora que ya sabemos lo que son los datos estructurados y no estructurados, sabemos que son las bases de datos y los diferentes tipos de bases de datos que existen y hasta lo que es un Data Warehouse o un almacén de datos nos podemos hacer la siguiente pregunta.

¿Qué es un Data Lake?

Un Data Lake o lago de datos es un repositorio central donde almacenamos todo tipo de datos sin que nos importe su estructura, ni su tipo, y no le hacemos ningún tipo de transformación.

Almacenamos todo tipo de datos en su forma cruda. 

Lago de datos (Data Lake en español)

En un Data Lake se mantienen todos los datos, por si los necesitaríamos en algún momento más adelante. Una de las ventajas de tener un data lake es que son más flexibles. 

Mientras un Data Warehouse es estructurado y tiene que ser diseñado de antemano, requiere trabajo para hacer cambios y conseguir más datos de los que no estaban previstos. 

Un Data Lake es mucho más flexible porque los datos ya están ahí para poder utilizarlos cuando queramos. Eso sí, tendremos que extraer y transformarlos para nuestro uso específico.

El ejemplo típico sería S3, el servicio de almacenamiento de objetos de AWS (Amazon Web Services) en la nube más popular.

Servicio de almacenamiento de objetos Amazon S3

Ya está, ya sabéis la diferencia entre una base de datos, un Data Warehouse y un Data Lake.

Espero que te haya gustado el artículo.

Conviértete en un experto en datos con Datademia

En Datademia trabajamos para crear el mejor contenido de datos en español, incluyendo ciencia de datos, inteligencia de negocios y programación.

Nuestro objetivo es transformarte en un experto en datos, aprendiendo desde cualquier parte del mundo y a tu ritmo. 

En Datademia ofrecemos tres Bootcamps, en los que te puedes convertir en un analista, científico o ingeniero de datos.

Te invito a que veas algunos de nuestros cursos y empieces a aprender algo relacionado al mundo de los datos en Datademia, la mejor academia de datos en español.

¿Te has gustado el artículo?

Puedes verlo en formato video en nuestro canal de Youtube:

Base de datos, Data Warehouse y Data Lake, cuál es la diferencia
Comparte en tus redes

Dejar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *