Propomos o XRAG, um novo benchmark projetado para avaliar as habilidades de geração dos LLMs em configurações de Geração Aumentada por Recuperação Bilíngue (RAG), onde a língua do usuário não corresponde aos resultados da recuperação. O XRAG é construído a partir de artigos de notícias recentes para garantir que suas perguntas exijam conhecimento externo para serem respondidas. Ele cobre cenários do mundo real de recuperação monolíngue e multilíngue, e fornece anotações de relevância para cada documento recuperado. Nosso novo pipeline de construção de conjuntos de dados resulta em perguntas que requerem raciocínio complexo, como evidenciado pela diferença significativa entre o desempenho humano e de LLM. Consequentemente, o XRAG serve como um benchmark valioso para estudar as habilidades de raciocínio dos LLMs, mesmo antes de considerar a complexidade adicional bilíngue. Resultados experimentais em cinco LLMs descobrem dois desafios anteriormente não relatados na RAG bilíngue: 1) no ambiente de recuperação monolíngue, todos os modelos avaliados lutam com a correção da língua da resposta; 2) no ambiente de recuperação multilíngue, o principal desafio reside em raciocinar sobre informações recuperadas em diferentes línguas ao invés de gerar texto em língua não inglesa.
Liu et al. (Thu,) estudaram esta questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: