February 24, 2024Open Access

GreenLLaMA: Un marco para la detoxificación con explicaciones

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Los trabajos previos sobre detoxificación están dispersos en el sentido de que no cubren todos los aspectos de la detoxificación necesarios en un escenario del mundo real. Notablemente, los trabajos anteriores restringen la tarea de desarrollar modelos de detoxificación a solo un subconjunto visto de plataformas, dejando sin explorar la cuestión de cómo se desempeñarían los modelos en plataformas no vistas. Además, estos trabajos no abordan la no detoxificabilidad, un fenómeno por el cual el texto tóxico no puede ser detoxificado sin alterar el significado. Proponemos GreenLLaMA, el primer marco de detoxificación integral de extremo a extremo, que intenta aliviar las limitaciones mencionadas. Primero presentamos un corpus pseudo-paralelo multiplataforma aplicando estrategias de procesamiento y generación de datos en múltiples pasos aprovechando ChatGPT. Luego entrenamos un conjunto de modelos de detoxificación con nuestro corpus multiplataforma. Mostramos que nuestros modelos de detoxificación superan al modelo SoTA entrenado con corpus paralelo anotado por humanos. Además, introducimos explicaciones para promover la transparencia y la confiabilidad. GreenLLaMA también ofrece un detector de paráfrasis único especialmente dedicado a la tarea de detoxificación para abordar los casos de no detoxificabilidad. A través de un análisis experimental, demostramos la efectividad de nuestro corpus multiplataforma y la robustez de GreenLLaMA contra la toxicidad adversarial.

Leer artículo completoexternamente

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo