Key points are not available for this paper at this time.
Na avaliação de IA conversacional orientada a tarefas, métodos não supervisionados correlacionam-se mal com julgamentos humanos, e abordagens supervisionadas carecem de generalização. Avanços recentes em modelos de linguagem grandes (LLMs) mostram capacidades robustas de zero-shot e few-shot em tarefas de PLN. Este artigo explora o uso de LLMs para avaliação automatizada da qualidade do diálogo, experimentando várias configurações em conjuntos de dados públicos e proprietários. Manipulando fatores como tamanho do modelo, exemplos em contexto e técnicas de seleção, examinamos o raciocínio "cadeia de pensamento" (CoT) e procedimentos de extração de rótulos. Nossos resultados mostram que (1) modelos maiores geram rótulos de diálogo mais precisos; (2) a seleção algorítmica de exemplos em contexto supera a seleção aleatória; (3) o raciocínio CoT, em que um LLM é solicitado a fornecer justificativas antes de gerar rótulos finais, melhora o desempenho; e (4) LLMs ajustados superam aqueles prontos para uso. Nossos resultados indicam que LLMs que são adequadamente ajustados e têm capacidades de raciocínio suficientes podem ser aproveitados para avaliação automatizada de diálogos.
Jia et al. (Ter,) estudaram esta questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: