Los puntos clave no están disponibles para este artículo en este momento.
Los recientes avances en los modelos de lenguaje grandes (LLMs) han avanzado considerablemente las capacidades de los sistemas de resumación. Sin embargo, continúan enfrentándose a preocupaciones sobre las alucinaciones. Aunque trabajos anteriores han evaluado extensamente los LLM en dominios de noticias, la mayoría de la evaluación de la resumación de diálogos se ha centrado en modelos basados en BART, dejando una brecha en nuestra comprensión de su fidelidad. Nuestro trabajo establece un punto de referencia para la fidelidad de los LLM en la resumación de diálogos, utilizando anotaciones humanas y centrándonos en identificar y categorizar inconsistencias a nivel de segmentos. Específicamente, nos enfocamos en dos LLM prominentes: GPT-4 y Alpaca-13B. Nuestra evaluación revela matices sobre lo que constituye una alucinación: los LLM a menudo generan inferencias plausibles, respaldadas por evidencia circunstancial en la conversación, que carecen de evidencia directa, un patrón que es menos prevalente en modelos más antiguos. Proponemos una taxonomía refinada de errores, acuñando la categoría de "Inferencia Circunstancial" para agrupar estos comportamientos de los LLM y publicamos el conjunto de datos. Utilizando nuestra taxonomía, comparamos las diferencias conductuales entre los LLM y los modelos más antiguos ajustados. Además, evaluamos sistemáticamente la eficacia de los métodos automáticos de detección de errores en los resúmenes de LLM y encontramos que tienen dificultades para detectar estos errores matizados. Para abordar esto, introducimos dos enfoques basados en indicaciones para la detección de errores finos que superan las métricas existentes, particularmente para identificar "Inferencia Circunstancial."
Ramprasad et al. (Wed,) estudiaron esta cuestión.