A sensibilidade ao risco se tornou um tema central no aprendizado por reforço (RL), onde medidas de risco convexas e formulações robustas fornecem maneiras fundamentadas de modelar preferências além do retorno esperado. Extensões recentes ao RL multi-agente (MARL) enfatizaram amplamente o cenário avesso ao risco, priorizando a robustez em relação à incerteza. No entanto, em MARL cooperativo, tal conservadorismo frequentemente leva a equilíbrios subótimos, e uma linha paralela de trabalho demonstrou que o otimismo pode promover a cooperação. Métodos otimistas existentes, embora eficazes na prática, são tipicamente heurísticos e carecem de fundamentação teórica. Baseando-se na representação dual para medidas de risco convexas, propomos uma estrutura fundamentada que interpreta objetivos de busca de risco como otimismo. Introduzimos funções de valor otimistas, que formalizam o otimismo como avaliações de busca de risco penalizadas por divergência. Com base nesta fundação, derivamos um teorema de gradiente de política para funções de valor otimistas, incluindo fórmulas explícitas para o ajuste de risco entropia/penalidade KL, e desenvolvemos algoritmos descentralizados de ator-crítico otimistas que implementam essas atualizações. Resultados empíricos em marcos cooperativos demonstram que o otimismo em busca de risco melhora consistentemente a coordenação em comparação com linhas de base neutras em risco e métodos otimistas heurísticos. Nossa estrutura, portanto, unifica o aprendizado sensível ao risco e o otimismo, oferecendo uma abordagem teoricamente fundamentada e praticamente eficaz para cooperação em MARL.
Zhang et al. (Sun,) estudaram esta questão.