What question did this study set out to answer?

Esta investigación tiene como objetivo comparar el rendimiento de varios métodos automatizados de clasificación de texto para analizar datos de redes sociales.

October 24, 2018Open Access

Comparación de métodos de clasificación de texto automatizada

Puntos clave

Esta investigación tiene como objetivo comparar el rendimiento de varios métodos automatizados de clasificación de texto para analizar datos de redes sociales.
Se analizaron diez métodos automatizados de clasificación de texto en 41 conjuntos de datos de redes sociales.
Incluyó cinco enfoques basados en léxico y cinco algoritmos de aprendizaje automático.
Se evaluó el rendimiento en términos de precisión en la clasificación de sentimientos y categorías de contenido.
El bosque aleatorio (RF) supera a todos los métodos en la clasificación de sentimientos de tres clases.
Naive Bayes (NB) es el más efectivo para tamaños de muestra pequeños.
Los métodos basados en léxico, particularmente LIWC, muestran un rendimiento deficiente en comparación con las técnicas de aprendizaje automático.

Resumen

Las redes sociales en línea impulsan el crecimiento de datos de texto no estructurados. Muchas aplicaciones de marketing requieren estructurar estos datos a escalas no accesibles para la codificación humana, por ejemplo, para detectar cambios en la comunicación en el sentimiento o en otras categorías de contenido definidas por el investigador. Se han propuesto varios métodos para clasificar automáticamente el texto no estructurado. Este documento compara el rendimiento de diez enfoques de este tipo (cinco basados en léxico y cinco algoritmos de aprendizaje automático) en 41 conjuntos de datos de redes sociales que cubren las principales plataformas de redes sociales, varios tamaños de muestra y lenguajes. Hasta ahora, la investigación en marketing se basa predominantemente en máquinas de soporte vectorial (SVM) y en el conteo de palabras y consultas lingüísticas (LIWC). En todas las tareas que estudiamos, ya sea el bosque aleatorio (RF) o el Bayes ingenuo (NB) son los que mejor desempeño tienen en términos de descubrir correctamente la intuición humana. En particular, RF exhibe un rendimiento consistentemente alto para el sentimiento de tres clases, y NB para tamaños de muestra pequeños. SVM nunca supera a los métodos restantes. Todos los enfoques basados en léxico, en particular LIWC, rinden mal en comparación con el aprendizaje automático. En algunas aplicaciones, las precisiones solo superan ligeramente la probabilidad. Dado que consideraciones adicionales sobre la elección de clasificación de texto también favorecen a NB y RF, nuestros resultados sugieren que la investigación en marketing puede beneficiarse de considerar estas alternativas.

Leer artículo completoexternamente

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo