¿Qué es Text Mining?

También llamado análisis de textos o minería de textos, el Text Mining es una de las ramas más complicadas e interesantes de las Ciencias de Datos. Enmarcado dentro de lo que es el Procesamiento de Lenguaje Natural (NLP: Natural Language Processing), consiste en la extracción de información interesante y no obvia de un texto sin estructura.

El Text Mining se puede utilizar tanto para el análisis de libros, papers científicos, textos, tweets, redes sociales, páginas web y cualquier otra fuente que contenga texto. El motivo el cual este tipo de análisis está tomando notoriedad es más que evidente: cada vez más y más información circula por cada rincón de internet y mucha de esa información gran parte de las veces carece de estructura. Por eso, saber usar las herramientas que el Text Mining resulta fundamental en este contexto. Basta mirar las estadísticas de Twitter: 350.000 tweets son enviados por minuto cada día, 500 millones de tweets por día.

Número de Tweets

Toneladas de datos que tenemos al alcance de nuestras manos y podemos aprovechar. Otro punto interesante es el de los papers científicos. Según el reconocido portal PubMed, la cantidad de papers, citaciones y consultas vienen creciendo a pasos agigantados año tras año. Poder relacionar las citas que realizan estas publicaciones, poder relacionar el contenido de una publicación con las anteriores, poder revisar los antecedentes de un tema particular (que en gran parte de los casos se trata de investigaciones referidas a enfermedades o tratamientos médicos) resulta más que relevante para la comunidad científica y médica.

Números del portal PubMed
Números del portal PubMed

Los usos del Text Mining son infinitos: detección de correos maliciosos, detección y filtrado de comentarios ofensivos en redes sociales, análisis de sentimientos, descubrimiento de relaciones por citas, minería de opiniones, creación de mapas de tópicos y muchos más. 

Lo que en la teoría puede resultar atractivo y fácil de realizar, en la práctica está lleno de dificultades. De hecho el análisis de texto está considerada como una de las disciplinas más complicadas de todas las que conforman las Ciencias de Datos. Errores ortográficos, errores de tipeo, abreviaturas, sinónimos, signos ortográficos, todas cuestiones y elementos que deben ser tenidos en cuenta a la hora de realizar un análisis. Una simple coma cambia el sentido de una oración. ¿Cómo hacer que el algoritmo detecte el significado?

El maestro dice: el inspector es un ignorante

El maestro, dice el inspector, es un ignorante

En este curso aprenderemos cómo lidiar con muchas de esas situaciones. 

Para poder aprovechar las ventajas del análisis de texto deberemos aprender a manejar las particularidades del idioma, cómo tratar los caracteres especiales, como separar el texto en porciones útiles para poder ser analizado, cómo reunir las palabras para darles sentido y explotar al máximo sus capacidades. Cada texto tiene sus características, cada idioma sus particularidades. Deberemos entender cómo tratar a cada conjunto de datos como si fuera único para poder sacar todo el provecho posible del mismo. 

En nuestro curso usaremos el lenguaje de programación R, una poderosa herramienta con muy buenas librerías que nos permitirán llevar adelante nuestro análisis. Incluso aprenderemos como funciona uno de los algoritmos más conocidos y usados para la predicción de textos. 

Apúntate al curso de Text Mining con R en Datademia.

En este video te explicamos qué es Text Mining:

Comparte en tus redes

Dejar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *