What type of study is this?

This is a Quantitative Study study.

September 20, 2025

L2M2 : Un cadre hiérarchique intégrant un grand modèle de langage et l'apprentissage par renforcement multi-agent

Key Points

Le cadre de L2M2 permet la planification zéro-shot, améliorant la gestion des tâches multi-agents tout en réduisant l'utilisation des échantillons d'entraînement.
Dans les expériences, le MARL guidé par LLM de L2M2 a atteint des performances supérieures avec moins de 20 % des échantillons d'entraînement des méthodes de référence.
L'analyse indique que L2M2 peut générer automatiquement des plans de navigation, améliorant l'efficacité dans des scénarios complexes.
Le cadre démontre des capacités robustes à la fois dans les tâches définies par des sous-objectifs et celles sans objectifs prédéfinis.

Abstract

L'apprentissage par renforcement multi-agent (MARL) a démontré un succès remarquable dans les tâches collaboratives, mais rencontre des défis importants pour s'adapter à des scénarios complexes nécessitant une planification soutenue et une coordination sur de longues périodes. Bien que les approches hiérarchiques aident à décomposer ces tâches, elles reposent généralement sur des sous-tâches conçues manuellement et des connaissances spécifiques au domaine, limitant ainsi leur généralisabilité. Nous présentons L2M2, un nouveau cadre hiérarchique qui exploite les grands modèles de langage (LLMs) pour la planification stratégique de haut niveau et le MARL pour l'exécution de bas niveau. L2M2 permet une planification zéro-shot qui prend en charge l'entraînement de bout en bout ainsi que l'intégration directe avec des modèles MARL pré-entraînés. Des expériences dans l'environnement VMAS montrent que le MARL guidé par LLM de L2M2 atteint des performances supérieures tout en nécessitant moins de 20 % des échantillons d'entraînement comparé aux méthodes de référence. Dans l'environnement MOSMAC, L2M2 démontre de solides performances avec des sous-objectifs prédéfinis et conserve une efficacité substantielle sans sous-objectifs — des scénarios où les méthodes de référence échouent systématiquement. Une analyse par estimation de densité noyau révèle la capacité de L2M2 à générer automatiquement des plans de navigation appropriés, démontrant son potentiel pour relever les défis complexes de coordination multi-agent.

Demander à l'IA

Bookmark