What type of study is this?

This is a Quantitative Study study (also classified as: Experimental Study).

October 20, 2025Open Access

Otimismo como Busca de Risco em Aprendizado por Reforço Multi-Agente

Key Points

O otimismo em busca de risco melhora a coordenação em aprendizado por reforço multi-agente, levando a resultados aprimorados.
Resultados empíricos indicam que o otimismo consistentemente supera tanto linhas de base neutras em risco quanto métodos heurísticos existentes.
A estrutura proposta abrange medidas de risco convexas e um teorema de gradiente de política para estabelecer fundamentação teórica.
Algoritmos descentralizados de ator-crítico otimistas foram desenvolvidos para implementar essas novas atualizações otimistas de forma eficaz.

Abstract

A sensibilidade ao risco se tornou um tema central no aprendizado por reforço (RL), onde medidas de risco convexas e formulações robustas fornecem maneiras fundamentadas de modelar preferências além do retorno esperado. Extensões recentes ao RL multi-agente (MARL) enfatizaram amplamente o cenário avesso ao risco, priorizando a robustez em relação à incerteza. No entanto, em MARL cooperativo, tal conservadorismo frequentemente leva a equilíbrios subótimos, e uma linha paralela de trabalho demonstrou que o otimismo pode promover a cooperação. Métodos otimistas existentes, embora eficazes na prática, são tipicamente heurísticos e carecem de fundamentação teórica. Baseando-se na representação dual para medidas de risco convexas, propomos uma estrutura fundamentada que interpreta objetivos de busca de risco como otimismo. Introduzimos funções de valor otimistas, que formalizam o otimismo como avaliações de busca de risco penalizadas por divergência. Com base nesta fundação, derivamos um teorema de gradiente de política para funções de valor otimistas, incluindo fórmulas explícitas para o ajuste de risco entropia/penalidade KL, e desenvolvemos algoritmos descentralizados de ator-crítico otimistas que implementam essas atualizações. Resultados empíricos em marcos cooperativos demonstram que o otimismo em busca de risco melhora consistentemente a coordenação em comparação com linhas de base neutras em risco e métodos otimistas heurísticos. Nossa estrutura, portanto, unifica o aprendizado sensível ao risco e o otimismo, oferecendo uma abordagem teoricamente fundamentada e praticamente eficaz para cooperação em MARL.

Otimismo como Busca de Risco em Aprendizado por Reforço Multi-Agente

Key Points

Abstract

Cite This Study