November 28, 2024Open Access

Aprendizado de Política com um Gargalo Linguístico

Key Points

Key points are not available for this paper at this time.

Abstract

Sistemas modernos de IA, como carros autônomos e agentes que jogam, alcançam desempenho sobre-humano, mas frequentemente carecem de características humanas, como generalização, interpretabilidade e interoperabilidade humana. Inspirados pelas ricas interações entre linguagem e tomada de decisão em humanos, introduzimos o Aprendizado de Política com um Gargalo Linguístico (PLLB), uma estrutura que permite que agentes de IA gerem regras linguísticas que capturam as estratégias subjacentes aos seus comportamentos mais recompensadores. O PLLB alterna entre uma etapa de geração de regras guiada por modelos de linguagem e uma etapa de atualização onde os agentes aprendem novas políticas guiadas por regras. Em um jogo de comunicação de dois jogadores, uma tarefa de resolução de labirinto e duas tarefas de reconstrução de imagens, mostramos que os agentes PLLB não apenas conseguem aprender comportamentos mais interpretáveis e generalizáveis, mas também podem compartilhar as regras aprendidas com usuários humanos, permitindo uma coordenação mais eficaz entre humanos e IA.

Read Full Paperexternally

Perguntar à IA

Bookmark

View Full Paper