July 26, 2024Open Access

Minimizando el arrepentimiento contrafactual ponderado con un descenso de espejo optimista en línea

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

La minimización del arrepentimiento contrafactual (CFR) es una familia de algoritmos para resolver de manera efectiva juegos de información imperfecta. Descompone el arrepentimiento total en arrepentimientos contrafactuales, utilizando algoritmos de minimización de arrepentimientos locales, como el Regret Matching (RM) o RM+, para minimizarlos. Investigaciones recientes establecen una conexión entre el Online Mirror Descent (OMD) y RM+, allanando el camino para una variante optimista PRM+ y su extensión PCFR+. Sin embargo, PCFR+ asigna pesos uniformes para cada iteración al determinar los arrepentimientos, lo que lleva a arrepentimientos sustanciales al enfrentar acciones dominadas. Este trabajo explora la minimización del arrepentimiento contrafactual ponderado con OMD optimista, resultando en una nueva variante CFR PDCFR+. Integra PCFR+ y CFR Descontado (DCFR) de manera principista, mitigando rápidamente los efectos negativos de las acciones dominadas y aprovechando constantemente las predicciones para acelerar la convergencia. Análisis teóricos demuestran que PDCFR+ converge a un equilibrio de Nash, particularmente bajo esquemas de ponderación distintos para los arrepentimientos y estrategias promedio. Resultados experimentales demuestran la rápida convergencia de PDCFR+ en juegos comunes de información imperfecta. El código está disponible en https://github.com/rpSebastian/PDCFRPlus.

Leer artículo completoexternamente

Me gusta

Guardar

Ver artículo completo