June 15, 2024Open Access

StructBench: Um Benchmark Autogerado para Avaliar a Capacidade de Modelos de Linguagem Grande em Compreensão de Texto Rico em Estrutura

Key Points

Key points are not available for this paper at this time.

Abstract

Dado os volumes substanciais de dados estruturados mantidos por muitas empresas, permitir que Modelos de Linguagem Grande (LLMs) compreendam diretamente o texto estruturado em formas não estruturadas pode aprimorar significativamente suas capacidades em vários cenários de negócios. Para isso, propomos um método de geração de dados de avaliação para avaliar a capacidade dos LLMs em compreender texto rico em estrutura, que gera dados estruturados de complexidade controlável com base em modelos de perguntas elaborados manualmente e regras de geração. Com base neste método de geração, introduzimos o StructBench, um benchmark que compreende 6.032 perguntas em 8 diferentes linguagens estruturadas e 29 tarefas específicas. Além disso, considerando a proficiência humana em tarefas baseadas em regras, também apresentamos o StructBench-Hard, que inclui 3.016 perguntas desenhadas para examinar ainda mais a diferença entre a performance dos LLMs e a performance humana. Os resultados indicam que o LLM de melhor desempenho atualmente atinge uma precisão de 65,0% no StructBench-Hard, enquanto a precisão humana chega até 95,7%. Além disso, enquanto o ajuste fino usando o StructBench pode aprimorar a compreensão dos LLMs existentes de todas as linguagens estruturadas, isso não melhora necessariamente o desempenho em todos os tipos de tarefas. O benchmark e os códigos de geração são de código aberto em https://github.com/MikeGu721/StructBench

Read Full Paperexternally

Perguntar à IA

Bookmark

View Full Paper