June 25, 2024Open Access

Aproveitando LLMs para Medição da Qualidade do Diálogo

Key Points

Key points are not available for this paper at this time.

Abstract

Na avaliação de IA conversacional orientada a tarefas, métodos não supervisionados correlacionam-se mal com julgamentos humanos, e abordagens supervisionadas carecem de generalização. Avanços recentes em modelos de linguagem grandes (LLMs) mostram capacidades robustas de zero-shot e few-shot em tarefas de PLN. Este artigo explora o uso de LLMs para avaliação automatizada da qualidade do diálogo, experimentando várias configurações em conjuntos de dados públicos e proprietários. Manipulando fatores como tamanho do modelo, exemplos em contexto e técnicas de seleção, examinamos o raciocínio "cadeia de pensamento" (CoT) e procedimentos de extração de rótulos. Nossos resultados mostram que (1) modelos maiores geram rótulos de diálogo mais precisos; (2) a seleção algorítmica de exemplos em contexto supera a seleção aleatória; (3) o raciocínio CoT, em que um LLM é solicitado a fornecer justificativas antes de gerar rótulos finais, melhora o desempenho; e (4) LLMs ajustados superam aqueles prontos para uso. Nossos resultados indicam que LLMs que são adequadamente ajustados e têm capacidades de raciocínio suficientes podem ser aproveitados para avaliação automatizada de diálogos.

Read Full Paperexternally

Perguntar à IA

Bookmark

View Full Paper