En el último artículo mencionamos los cuatro paquetes más importantes para el análisis de datos en Python que son NumPy, Pandas, Matplotlib y Seaborn. En este artículo vamos a hablar de los paquetes más importantes para la ciencia de datos, machine learning y aprendizaje profundo en Python.
El paquete más importante de Python para la ciencia de datos: Sickit-Learn
Si hablamos de ciencia de datos y Python, el paquete más importante que deberías conocer es sin duda Sickit-Learn.
Sickit-Learn es el paquete mas utilizado para la ciencia de datos en Python, con una gran cantidad de algoritmos de machine learning disponibles. Con scikit learn puedes crear algoritmos de regresión, clasificación, reducción de dimensionalidad.
También lo puedes usar para comparar y validar modelos y sus parámetros además de preprocesar los datos. Es el paquete más completo para la ciencia de datos en Python y si hay alguno que debes conocer, este es.
Los paquetes más importantes de Python para el aprendizaje profundo o deep learning
Si hablamos de Deep Learning o aprendizaje profundo, hay otras librerías que son muy populares.
TensorFlow
Primero tenemos TensorFlow, que fue desarrollada por Google y ahora open source, nos permite crear modelos de aprendizaje profundo modernos y de alto rendimiento. Es sin duda el paquete más popular.
Keras
Luego tenemos Keras, desarrollado por otro ingeniero de Google. Es un paquete de alto nivel que se sienta encima de Tensorflow y permite crear modelos de aprendizaje profundo de forma muy sencilla.
En nuestro curso de Python para Ciencia de datos dentro del Data Scientist Bootcamp te enseñamos como trabajar con este paquete para crear modelos de aprendizaje profundo enseguida.
PyTorch
También tenemos PyTorch, desarrollado por Facebook, que ahora también es open source que permite crear modelos de aprendizaje profundo.
NLTK
Otro paquete que deberías conocer es NLTK, Natural Language ToolKit, utilizado para el procesamiento del lenguaje natural o NLP.
Spark MLLib
Otro paquete muy utilizado también es Spark MLLib. Desarrollado por Apache, y parte de su framework de procesamiento de datos masivos, Apache Spark, Spark MLlib te permite crear modelos de aprendizaje automático escalables.
¿Por donde empezar?
Como ves hay muchos paquetes de Python que se utilizan para la ciencia de datos.
Sin duda si estás empezando en el mundo de la ciencia de datos con Python te sugiero que aprendas a trabajar con Sickit-Learn, la puerta de entrada a la ciencia de datos con Python.
En nuestro Data Scientist Bootcamp aprenderás a trabajar con paquetes básico de Python como NumPy, Pandas, Matplotlib y Seaborn y también a trabajar con el paquete Sickit-Learn para crear modelos de aprendizaje automático y Keras con Tensorflow para el aprendizaje profundo.

¿Quieres ver el artículo en formato video?