What type of study is this?

This is a Quantitative Study study.

October 16, 2025Open Access

XRAG: Geração Aumentada por Recuperação Bilíngue

Key Points

O XRAG revela lacunas significativas nas habilidades de raciocínio entre o desempenho humano e dos LLMs, demonstrando a complexidade das tarefas bilíngues.
A avaliação em cinco LLMs revela grandes desafios na recuperação monolíngue em relação à correção da língua da resposta e ao raciocínio sobre informações multilíngues.
O conjunto de dados foi desenvolvido a partir de artigos de notícias recentes, aumentando sua relevância e aplicabilidade a cenários bilíngues do mundo real.
Ao fornecer anotações de relevância detalhadas, o XRAG serve como uma ferramenta crítica para estudar as capacidades dos LLMs em contextos de linguagem diversos.

Abstract

Propomos o XRAG, um novo benchmark projetado para avaliar as habilidades de geração dos LLMs em configurações de Geração Aumentada por Recuperação Bilíngue (RAG), onde a língua do usuário não corresponde aos resultados da recuperação. O XRAG é construído a partir de artigos de notícias recentes para garantir que suas perguntas exijam conhecimento externo para serem respondidas. Ele cobre cenários do mundo real de recuperação monolíngue e multilíngue, e fornece anotações de relevância para cada documento recuperado. Nosso novo pipeline de construção de conjuntos de dados resulta em perguntas que requerem raciocínio complexo, como evidenciado pela diferença significativa entre o desempenho humano e de LLM. Consequentemente, o XRAG serve como um benchmark valioso para estudar as habilidades de raciocínio dos LLMs, mesmo antes de considerar a complexidade adicional bilíngue. Resultados experimentais em cinco LLMs descobrem dois desafios anteriormente não relatados na RAG bilíngue: 1) no ambiente de recuperação monolíngue, todos os modelos avaliados lutam com a correção da língua da resposta; 2) no ambiente de recuperação multilíngue, o principal desafio reside em raciocinar sobre informações recuperadas em diferentes línguas ao invés de gerar texto em língua não inglesa.

Read Full Paperexternally

Perguntar à IA

Bookmark

View Full Paper