August 25, 2024Open Access

Améliorer les grands modèles de langage en tant que planificateurs grâce à l'alignement raisonnement-décision

Key Points

RDA-Driver améliore les performances de prise de décision et la compréhension des scènes dans la conduite autonome.
Atteindre une erreur L2 de 0,80 et un taux de collision de 0,32 sur l'ensemble de données nuScenes met en évidence son efficacité.
Cette approche utilise un modèle de prise de décision de bout en bout qui intègre efficacement les processus de raisonnement et de planification dans des scénarios en temps réel pour les systèmes AD par rapport aux méthodes existantes. Dans l'ensemble, ce travail soutient la nécessité d'un alignement du raisonnement amélioré dans des environnements complexes pour faire progresser les systèmes basés sur l'IA.

Abstract

Les approches basées sur les données pour la conduite autonome (AD) ont été largement adoptées au cours de la dernière décennie, mais se heurtent au biais des ensembles de données et à l'ininterprétabilité. Inspirées par la nature axée sur la connaissance de la conduite humaine, les approches récentes explorent le potentiel des grands modèles de langage (LLMs) pour améliorer la compréhension et la prise de décision dans les scénarios de circulation. Elles découvrent que le paradigme de pré-entraînement et de fine-tuning des LLMs sur des données en aval avec le processus de raisonnement Chain-of-Thought (CoT) peut améliorer l'explicabilité et la compréhension des scènes. Cependant, une stratégie aussi populaire souffre des problèmes bien connus de désalignement entre les CoTs élaborés et la prise de décision qui en découle, un problème qui reste inexploré par les méthodes AD basées sur des LLM précédentes. Pour remédier à ce problème, nous proposons un modèle de prise de décision de bout en bout basé sur un LLM augmenté par multimodalité, qui exécute simultanément le raisonnement CoT et réalise des résultats de planification. En outre, nous proposons une contrainte d'alignement raisonnement-décision entre les CoTs appariés et les résultats de planification, imposant la correspondance entre le raisonnement et la prise de décision. De plus, nous redéfinissons les CoTs pour permettre au modèle de comprendre des scénarios complexes et d'améliorer les performances de prise de décision. Nous dénommons nos grands planificateurs de langage proposés avec alignement raisonnement-décision RDA-Driver. Les évaluations expérimentales sur les références nuScenes et DriveLM-nuScenes démontrent l'efficacité de notre RDA-Driver dans l'amélioration des performances des systèmes AD de bout en bout. Plus précisément, notre RDA-Driver atteint des performances de planification à la pointe de la technologie sur l'ensemble de données nuScenes avec une erreur L2 de 0,80 et un taux de collision de 0,32, et obtient également des résultats de premier plan sur les références difficiles DriveLM-nuScenes avec une erreur L2 de 0,82 et un taux de collision de 0,38.

Améliorer les grands modèles de langage en tant que planificateurs grâce à l'alignement raisonnement-décision

Key Points

Abstract

Cite This Study