Blog Ingeniería de datos ¿Qué es Text Mining?

¿Qué es Text Mining?

También llamado análisis de textos o minería de textos, el Text Mining es una de las ramas más complicadas e interesantes de las Ciencias de Datos. Enmarcado dentro de lo que es el Procesamiento de Lenguaje Natural (NLP: Natural Language Processing), consiste en la extracción de información interesante y no obvia de un texto sin estructura.

El Text Mining se puede utilizar tanto para el análisis de libros, papers científicos, textos, tweets, redes sociales, páginas web y cualquier otra fuente que contenga texto. El motivo el cual este tipo de análisis está tomando notoriedad es más que evidente: cada vez más y más información circula por cada rincón de internet y mucha de esa información gran parte de las veces carece de estructura. Por eso, saber usar las herramientas que el Text Mining resulta fundamental en este contexto. Basta mirar las estadísticas de Twitter: 350.000 tweets son enviados por minuto cada día, 500 millones de tweets por día.

Lo que en la teoría puede resultar atractivo y fácil de realizar, en la práctica está lleno de dificultades. De hecho el análisis de texto está considerada como una de las disciplinas más complicadas de todas las que conforman las Ciencias de Datos. Errores ortográficos, errores de tipeo, abreviaturas, sinónimos, signos ortográficos, todas cuestiones y elementos que deben ser tenidos en cuenta a la hora de realizar un análisis. Una simple coma cambia el sentido de una oración. ¿Cómo hacer que el algoritmo detecte el significado?

El maestro dice: el inspector es un ignorante
El maestro, dice el inspector, es un ignorante

En este curso aprenderemos cómo lidiar con muchas de esas situaciones.

Para poder aprovechar las ventajas del análisis de texto deberemos aprender a manejar las particularidades del idioma, cómo tratar los caracteres especiales, como separar el texto en porciones útiles para poder ser analizado, cómo reunir las palabras para darles sentido y explotar al máximo sus capacidades. Cada texto tiene sus características, cada idioma sus particularidades. Deberemos entender cómo tratar a cada conjunto de datos como si fuera único para poder sacar todo el provecho posible del mismo.

En nuestro curso usaremos el lenguaje de programación R, una poderosa herramienta con muy buenas librerías que nos permitirán llevar adelante nuestro análisis. Incluso aprenderemos como funciona uno de los algoritmos más conocidos y usados para la predicción de textos.

Apúntate al curso de Text Mining con R en Datademia.

En este video te explicamos qué es Text Mining:

Sebastian Tunnell

Fundador de Datademia y formador especializado en análisis de datos, ciencia de datos, ingeniería de datos y negocios.

Ayudo a profesionales a adquirir habilidades prácticas a través de formaciones online en Datademia para impulsar sus carreras. Conecta conmigo en LinkedIn.