L'apprentissage par renforcement multi-agent (MARL) a démontré un succès remarquable dans les tâches collaboratives, mais rencontre des défis importants pour s'adapter à des scénarios complexes nécessitant une planification soutenue et une coordination sur de longues périodes. Bien que les approches hiérarchiques aident à décomposer ces tâches, elles reposent généralement sur des sous-tâches conçues manuellement et des connaissances spécifiques au domaine, limitant ainsi leur généralisabilité. Nous présentons L2M2, un nouveau cadre hiérarchique qui exploite les grands modèles de langage (LLMs) pour la planification stratégique de haut niveau et le MARL pour l'exécution de bas niveau. L2M2 permet une planification zéro-shot qui prend en charge l'entraînement de bout en bout ainsi que l'intégration directe avec des modèles MARL pré-entraînés. Des expériences dans l'environnement VMAS montrent que le MARL guidé par LLM de L2M2 atteint des performances supérieures tout en nécessitant moins de 20 % des échantillons d'entraînement comparé aux méthodes de référence. Dans l'environnement MOSMAC, L2M2 démontre de solides performances avec des sous-objectifs prédéfinis et conserve une efficacité substantielle sans sous-objectifs — des scénarios où les méthodes de référence échouent systématiquement. Une analyse par estimation de densité noyau révèle la capacité de L2M2 à générer automatiquement des plans de navigation appropriés, démontrant son potentiel pour relever les défis complexes de coordination multi-agent.
Geng et al. (Mon,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: