Les agents de modèles de langage de grande taille (LLM) reçoivent généralement deux types de contexte : (i) des manuels au niveau de l'environnement qui définissent les interfaces d'interaction et les règles globales, et (ii) des directives ou démonstrations au niveau des tâches liées à des objectifs spécifiques. Dans ce travail, nous identifions un troisième type de contexte crucial mais négligé, le contexte au niveau des instances, qui consiste en des faits vérifiables et réutilisables liés à une instance d'environnement spécifique, tels que l'emplacement des objets, les recettes d'artisanat et les règles locales. Nous soutenons que l'absence de contexte au niveau des instances constitue une source courante d'échec pour les agents LLM dans des tâches complexes, car le succès dépend souvent non seulement du raisonnement sur des règles globales ou des instructions de tâches, mais aussi de la prise de décisions basée sur des faits précis et persistants. Acquérir un tel contexte nécessite plus que de la mémorisation : le défi réside dans l'exploration efficace, la validation et la mise en forme de ces faits dans des budgets d'interaction limités. Nous formaliserons ce problème comme Apprentissage du Contexte au Niveau des Instances (ILCL) et introduirons notre méthode agnostique des tâches pour le résoudre. Notre méthode réalise une exploration guidée, utilisant une forêt TODO compacte pour prioriser intelligemment ses prochaines actions et une boucle léger plan-agir-extraire pour les exécuter. Ce processus produit automatiquement un document de contexte de haute précision qui est réutilisable à travers de nombreuses tâches et agents en aval, amortissant ainsi le coût d'exploration initial. Des expériences à travers TextWorld, ALFWorld et Crafter démontrent des gains constants tant en succès qu'en efficacité : par exemple, le taux de succès moyen de ReAct dans TextWorld passe de 37 % à 95 %, tandis que celui de l'IGE s'améliore de 81 % à 95 %. En transformant une exploration ponctuelle en connaissance persistante et réutilisable, notre méthode complète les contextes existants pour permettre des agents LLM plus fiables et efficaces.
Cai et al. (Mon,) ont étudié cette question.