Las redes sociales en línea impulsan el crecimiento de datos de texto no estructurados. Muchas aplicaciones de marketing requieren estructurar estos datos a escalas no accesibles para la codificación humana, por ejemplo, para detectar cambios en la comunicación en el sentimiento o en otras categorías de contenido definidas por el investigador. Se han propuesto varios métodos para clasificar automáticamente el texto no estructurado. Este documento compara el rendimiento de diez enfoques de este tipo (cinco basados en léxico y cinco algoritmos de aprendizaje automático) en 41 conjuntos de datos de redes sociales que cubren las principales plataformas de redes sociales, varios tamaños de muestra y lenguajes. Hasta ahora, la investigación en marketing se basa predominantemente en máquinas de soporte vectorial (SVM) y en el conteo de palabras y consultas lingüísticas (LIWC). En todas las tareas que estudiamos, ya sea el bosque aleatorio (RF) o el Bayes ingenuo (NB) son los que mejor desempeño tienen en términos de descubrir correctamente la intuición humana. En particular, RF exhibe un rendimiento consistentemente alto para el sentimiento de tres clases, y NB para tamaños de muestra pequeños. SVM nunca supera a los métodos restantes. Todos los enfoques basados en léxico, en particular LIWC, rinden mal en comparación con el aprendizaje automático. En algunas aplicaciones, las precisiones solo superan ligeramente la probabilidad. Dado que consideraciones adicionales sobre la elección de clasificación de texto también favorecen a NB y RF, nuestros resultados sugieren que la investigación en marketing puede beneficiarse de considerar estas alternativas.
Hartmann et al. (Wed,) estudiaron esta cuestión.