Agentes de busca impulsionados por Modelos de Linguagem Grandes (LLMs) demonstraram um potencial significativo em enfrentar tarefas intensivas em conhecimento. O aprendizado por reforço (RL) emergiu como um poderoso paradigma para treinar esses agentes a realizar raciocínio complexo e em múltiplos passos. No entanto, métodos anteriores baseados em RL frequentemente dependem de recompensas escassas ou baseadas em regras, o que pode levar os agentes a comprometer-se com caminhos de raciocínio subótimos ou errôneos sem a capacidade de recuperação. Para abordar essas limitações, propomos o ReSeek, uma nova estrutura de auto-correção para treinar agentes de busca. Nossa estrutura introduz um mecanismo de auto-correção que capacita o agente a identificar dinâmica e rapidamente recuperar-se de caminhos de busca errôneos durante um episódio. Ao invocar uma ação especial JUDGE, o agente pode avaliar as informações e re-planejar sua estratégia de busca. Para guiar esse processo, projetamos uma função de recompensa densa e instrutiva, que se decompõe em uma recompensa de correção para recuperar informações factuais e uma recompensa de utilidade para encontrar informações genuinamente úteis para a consulta. Além disso, para mitigar o risco de contaminação de dados em conjuntos de dados existentes, introduzimos o FictionalHot, um novo e desafiador benchmark com perguntas recentemente curated que requerem raciocínio complexo. Sendo intuitivamente razoável e praticamente simples, experimentos extensivos mostram que agentes treinados com o ReSeek superam significativamente as referências state-of-the-art em taxa de sucesso nas tarefas e fidelidade de caminho.
Li et al. (Wed,) estudaram esta questão.