June 2, 2023Open Access

AnnoBERT: Representación efectiva de las elecciones de etiquetas de múltiples anotadores para mejorar la detección de discurso de odio

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Los enfoques de aprendizaje automático supervisado a menudo dependen de una etiqueta de "verdad fundamental". Sin embargo, obtener una etiqueta a través de la votación mayoritaria ignora la importante información de subjetividad en tareas como la detección de discurso de odio. Los modelos de red neuronal existentes consideran principalmente las etiquetas como variables categóricas, mientras que ignoran la información semántica en los diversos textos de etiqueta. En este documento, proponemos AnnoBERT, una arquitectura única que integra las características del anotador y el texto de la etiqueta con un modelo basado en transformadores para detectar discurso de odio, con representaciones únicas basadas en las características de cada anotador a través de la Regresión de Temas Colaborativa (CTR) e integra el texto de la etiqueta para enriquecer las representaciones textuales. Durante el entrenamiento, el modelo asocia a los anotadores con sus elecciones de etiquetas dadas a un texto; durante la evaluación, cuando la información de la etiqueta no está disponible, el modelo predice la etiqueta agregada dada por los anotadores participantes utilizando la asociación aprendida. El enfoque propuesto mostró una ventaja en la detección de discurso de odio, especialmente en la clase minoritaria y en casos límites con desacuerdo entre anotadores. La mejora en el rendimiento general es mayor cuando el conjunto de datos es más desequilibrado en etiquetas, sugiriendo su valor práctico en la identificación de discurso de odio en el mundo real, ya que el volumen de discurso de odio en el ámbito social es extremadamente pequeño en comparación con el discurso normal (no-odio). A través de estudios de ablación, mostramos las contribuciones relativas de las incrustaciones de anotador y del texto de la etiqueta al rendimiento del modelo, y probamos una variedad de combinaciones alternativas de incrustaciones de anotador y texto de etiqueta.

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo