En este artículo vamos a hablar de cuatro datasets que puedes utilizar para empezar a aprender ciencia de datos.
Te lo contamos en este video o puedes seguir leyendo:
1. Dataset Iris
El primero y más conocido es el dataset de Iris. Este conocido dataset es utilizado en muchos proyectos de machine learning, nosotros en Datademia también lo utilizamos.

El dataset consiste de datos de un conjunto de flores Iris, de tres tipos; Setosa, Versicolour y Virginica con los datos de la longitud y ancho de sus pétalos y su sépalos.

Es un dataset muy utilizado para aprender sobre visualización de datos, análisis exploratorio de los datos y modelos de machine learning básicos.
2. Precios de casas
El segundo dataset que deberías conocer es el del precio de las casas o (houses prices).

Este dataset consiste de casas residenciales en Estados Unidos, con 79 variables diferentes que se pueden utilizar para predecir el precio de la casas.

Es un dataset muy interesante y en Datademia también lo utilizamos en nuestros cursos.
3. Titanic
El dataset del titanic es mítico y es uno de los primeros datasets que se utiliza para aprender sobre la regresión logística, como predecir un resultado binario (los que sobreviven o no).

Este dataset consiste de datos de los sobrevivientes del titanic, si sobrevivieron o no y 10 variables asociadas que se pueden utilizar para predecir si alguien sobrevivió o no al famoso accidente del titanic.

4. MNIST dataset
El dataset de MNIST o a veces llamado dígitos, consiste en un dataset de imágenes de números escritos a mano.

Este dataset es muy útil para aprender métodos de clasificación o de visión por ordenador.
¿Quieres aprender ciencia de datos?
En el Data Scientist Bootcamp de Datademia, aprenderás ciencia de datos con Python y R y saldrás listo para convertirte en un científico de datos. Te invito a visitar nuestra web para aprender más.
Si quieres profundizar aún más, ofrecemos un MDA – Máster en Datos y Analítica donde te podrás convertir en un experto en datos.
