Key points are not available for this paper at this time.
Cette étude examine le comportement global des dynamiques d'apprentissage dans des jeux entre deux joueurs, X et Y. Nous considérons la situation la plus simple pour l'asymétrie de mémoire entre deux joueurs : X mémorise l'action précédente de l'autre, Y, et utilise des stratégies réactives, tandis que Y n'a pas de mémoire. Bien que cette mémoire complique les dynamiques d'apprentissage, nous découvrons deux quantités nouvelles qui caractérisent le comportement global de telles dynamiques complexes. L'une est une divergence de Kullback-Leibler étendue par rapport à l'équilibre de Nash, une quantité conservée bien connue des études précédentes. L'autre est une famille de fonctions de Lyapunov de la stratégie réactive de X. Ces deux quantités capturent le comportement global dans lequel la stratégie de X devient plus exploitante, et la stratégie exploitée de Y converge vers l'équilibre de Nash. En effet, nous prouvons théoriquement que la stratégie de Y converge globalement vers l'équilibre de Nash dans le jeu le plus simple équipé d'un équilibre dans l'intérieur des espaces stratégiques. De plus, nos expériences suggèrent également que cette convergence globale est universelle pour des jeux à somme nulle plus avancés que le jeu le plus simple. Cette étude fournit une nouvelle caractérisation du comportement global de l'apprentissage dans les jeux à travers quelques indicateurs.
Fujimoto et al. (Jeu,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: