Key points are not available for this paper at this time.
Modelos de Linguagem de Grande Escala (LLMs) tornaram-se componentes integrais em vários sistemas de agentes autônomos. Neste estudo, apresentamos uma abordagem de otimização de trajetória baseada em exploração, denominada ETO. Este método de aprendizado é projetado para melhorar o desempenho de agentes LLM abertos. Ao contrário de estudos anteriores que treinam exclusivamente em trajetórias de especialistas bem-sucedidas, nosso método permite que os agentes aprendam com suas falhas de exploração. Isso leva a um desempenho aprimorado através de uma estrutura de otimização iterativa. Durante a fase de exploração, o agente interage com o ambiente enquanto completa tarefas designadas, coletando trajetórias de falhas para criar pares de trajetórias contrastivas. Na fase de treinamento subsequente, o agente utiliza esses pares de preferência de trajetória para atualizar sua política usando métodos de aprendizado contrastivo, como DPO. Este ciclo iterativo de exploração e treinamento promove melhorias contínuas nos agentes. Nossos experimentos em três tarefas complexas demonstram que o ETO supera consistentemente o desempenho de base em uma ampla margem. Além disso, um exame da eficiência na resolução de tarefas e do potencial em cenários sem trajetória de especialistas destaca a eficácia de nossa abordagem.
Song et al. (Mon,) estudaram esta questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: