March 4, 2024Open Access

Tentativa e Erro: Otimização de Trajetória Baseada em Exploração para Agentes LLM

Key Points

Key points are not available for this paper at this time.

Abstract

Modelos de Linguagem de Grande Escala (LLMs) tornaram-se componentes integrais em vários sistemas de agentes autônomos. Neste estudo, apresentamos uma abordagem de otimização de trajetória baseada em exploração, denominada ETO. Este método de aprendizado é projetado para melhorar o desempenho de agentes LLM abertos. Ao contrário de estudos anteriores que treinam exclusivamente em trajetórias de especialistas bem-sucedidas, nosso método permite que os agentes aprendam com suas falhas de exploração. Isso leva a um desempenho aprimorado através de uma estrutura de otimização iterativa. Durante a fase de exploração, o agente interage com o ambiente enquanto completa tarefas designadas, coletando trajetórias de falhas para criar pares de trajetórias contrastivas. Na fase de treinamento subsequente, o agente utiliza esses pares de preferência de trajetória para atualizar sua política usando métodos de aprendizado contrastivo, como DPO. Este ciclo iterativo de exploração e treinamento promove melhorias contínuas nos agentes. Nossos experimentos em três tarefas complexas demonstram que o ETO supera consistentemente o desempenho de base em uma ampla margem. Além disso, um exame da eficiência na resolução de tarefas e do potencial em cenários sem trajetória de especialistas destaca a eficácia de nossa abordagem.

Tentativa e Erro: Otimização de Trajetória Baseada em Exploração para Agentes LLM

Key Points

Abstract

Cite This Study

Also Consider

Also Consider