Los puntos clave no están disponibles para este artículo en este momento.
En la recuperación ad-hoc, la evaluación depende en gran medida de las acciones del usuario, incluida la retroalimentación implícita. En un entorno conversacional, tales señales suelen estar ausentes debido a la naturaleza de las interacciones y, en su lugar, la evaluación a menudo se basa en etiquetas de evaluación obtenidas mediante crowdsourcing. El papel de la retroalimentación del usuario en la evaluación de los anotadores sobre los turnos en una percepción conversacional ha sido poco estudiado. Nos enfocamos en cómo la evaluación de sistemas de diálogo orientados a tareas (TDS) se ve afectada al considerar la retroalimentación del usuario, ya sea explícita o implícita, proporcionada a través de la intervención de seguimiento de un turno que se está evaluando. Exploramos y comparamos dos metodologías para evaluar TDS: una incluye la intervención de seguimiento del usuario y otra no. Utilizamos tanto trabajadores de multitud como modelos de lenguaje grande (LLM) como anotadores para evaluar las respuestas del sistema en cuatro aspectos: relevancia, utilidad, interés y calidad de explicación. Nuestros hallazgos indican que hay una diferencia clara en las calificaciones asignadas por ambos grupos de anotadores en las dos configuraciones, lo que indica que la retroalimentación del usuario sí influye en la evaluación del sistema. Los trabajadores son más susceptibles a la retroalimentación del usuario sobre utilidad e interés en comparación con los LLM en interés y relevancia. La retroalimentación del usuario lleva a una evaluación más personalizada de la utilidad por parte de los trabajadores, alineándose estrechamente con la retroalimentación explícita del usuario. Además, en casos de solicitudes ambiguas o complejas del usuario, la retroalimentación del usuario mejora el acuerdo entre los trabajadores de multitud. Estos hallazgos enfatizan la importancia de la retroalimentación del usuario en la refinación de las evaluaciones del sistema y sugieren el potencial para la integración de retroalimentación automatizada en investigaciones futuras. Liberamos públicamente los datos anotados para fomentar la investigación en esta área.
Siro et al. (Wed,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: