Les approches basées sur les données pour la conduite autonome (AD) ont été largement adoptées au cours de la dernière décennie, mais se heurtent au biais des ensembles de données et à l'ininterprétabilité. Inspirées par la nature axée sur la connaissance de la conduite humaine, les approches récentes explorent le potentiel des grands modèles de langage (LLMs) pour améliorer la compréhension et la prise de décision dans les scénarios de circulation. Elles découvrent que le paradigme de pré-entraînement et de fine-tuning des LLMs sur des données en aval avec le processus de raisonnement Chain-of-Thought (CoT) peut améliorer l'explicabilité et la compréhension des scènes. Cependant, une stratégie aussi populaire souffre des problèmes bien connus de désalignement entre les CoTs élaborés et la prise de décision qui en découle, un problème qui reste inexploré par les méthodes AD basées sur des LLM précédentes. Pour remédier à ce problème, nous proposons un modèle de prise de décision de bout en bout basé sur un LLM augmenté par multimodalité, qui exécute simultanément le raisonnement CoT et réalise des résultats de planification. En outre, nous proposons une contrainte d'alignement raisonnement-décision entre les CoTs appariés et les résultats de planification, imposant la correspondance entre le raisonnement et la prise de décision. De plus, nous redéfinissons les CoTs pour permettre au modèle de comprendre des scénarios complexes et d'améliorer les performances de prise de décision. Nous dénommons nos grands planificateurs de langage proposés avec alignement raisonnement-décision RDA-Driver. Les évaluations expérimentales sur les références nuScenes et DriveLM-nuScenes démontrent l'efficacité de notre RDA-Driver dans l'amélioration des performances des systèmes AD de bout en bout. Plus précisément, notre RDA-Driver atteint des performances de planification à la pointe de la technologie sur l'ensemble de données nuScenes avec une erreur L2 de 0,80 et un taux de collision de 0,32, et obtient également des résultats de premier plan sur les références difficiles DriveLM-nuScenes avec une erreur L2 de 0,82 et un taux de collision de 0,38.
Huang et al. (Sun,) ont étudié cette question.