What type of study is this?

This is a Quantitative Study study (also classified as: Experimental Study).

October 5, 2025Open Access

ReSeek: Uma Estrutura de Auto-Correção para Agentes de Busca com Recompensas Instrutivas

Key Points

ReSeek melhora o desempenho do agente ao incorporar um mecanismo de auto-correção, aprimorando os processos de raciocínio.
Agentes usando ReSeek alcançaram uma taxa de sucesso em tarefas significativamente mais alta em comparação com as referências state-of-the-art existentes.
A estrutura de auto-correção aproveita uma função de recompensa densa e instrutiva para estratégias de busca aprimoradas.
FictionalHot serve como um benchmark recém-curado que desafia os agentes com tarefas de raciocínio complexo.

Abstract

Agentes de busca impulsionados por Modelos de Linguagem Grandes (LLMs) demonstraram um potencial significativo em enfrentar tarefas intensivas em conhecimento. O aprendizado por reforço (RL) emergiu como um poderoso paradigma para treinar esses agentes a realizar raciocínio complexo e em múltiplos passos. No entanto, métodos anteriores baseados em RL frequentemente dependem de recompensas escassas ou baseadas em regras, o que pode levar os agentes a comprometer-se com caminhos de raciocínio subótimos ou errôneos sem a capacidade de recuperação. Para abordar essas limitações, propomos o ReSeek, uma nova estrutura de auto-correção para treinar agentes de busca. Nossa estrutura introduz um mecanismo de auto-correção que capacita o agente a identificar dinâmica e rapidamente recuperar-se de caminhos de busca errôneos durante um episódio. Ao invocar uma ação especial JUDGE, o agente pode avaliar as informações e re-planejar sua estratégia de busca. Para guiar esse processo, projetamos uma função de recompensa densa e instrutiva, que se decompõe em uma recompensa de correção para recuperar informações factuais e uma recompensa de utilidade para encontrar informações genuinamente úteis para a consulta. Além disso, para mitigar o risco de contaminação de dados em conjuntos de dados existentes, introduzimos o FictionalHot, um novo e desafiador benchmark com perguntas recentemente curated que requerem raciocínio complexo. Sendo intuitivamente razoável e praticamente simples, experimentos extensivos mostram que agentes treinados com o ReSeek superam significativamente as referências state-of-the-art em taxa de sucesso nas tarefas e fidelidade de caminho.

Read Full Paperexternally

Perguntar à IA

Bookmark

View Full Paper