Key points are not available for this paper at this time.
Dado os volumes substanciais de dados estruturados mantidos por muitas empresas, permitir que Modelos de Linguagem Grande (LLMs) compreendam diretamente o texto estruturado em formas não estruturadas pode aprimorar significativamente suas capacidades em vários cenários de negócios. Para isso, propomos um método de geração de dados de avaliação para avaliar a capacidade dos LLMs em compreender texto rico em estrutura, que gera dados estruturados de complexidade controlável com base em modelos de perguntas elaborados manualmente e regras de geração. Com base neste método de geração, introduzimos o StructBench, um benchmark que compreende 6.032 perguntas em 8 diferentes linguagens estruturadas e 29 tarefas específicas. Além disso, considerando a proficiência humana em tarefas baseadas em regras, também apresentamos o StructBench-Hard, que inclui 3.016 perguntas desenhadas para examinar ainda mais a diferença entre a performance dos LLMs e a performance humana. Os resultados indicam que o LLM de melhor desempenho atualmente atinge uma precisão de 65,0% no StructBench-Hard, enquanto a precisão humana chega até 95,7%. Além disso, enquanto o ajuste fino usando o StructBench pode aprimorar a compreensão dos LLMs existentes de todas as linguagens estruturadas, isso não melhora necessariamente o desempenho em todos os tipos de tarefas. O benchmark e os códigos de geração são de código aberto em https://github.com/MikeGu721/StructBench
Gu et al. (Sáb,) estudaram esta questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: