Abordagens baseadas em dados para condução autônoma (AD) foram amplamente adotadas na última década, mas enfrentam preconceito de conjunto de dados e falta de interpretabilidade. Inspirados pela natureza orientada ao conhecimento da condução humana, abordagens recentes exploram o potencial de modelos de linguagem de grande escala (LLMs) para melhorar a compreensão e a tomada de decisões em cenários de trânsito. Elas descobrem que o paradigma de pré-treinamento e ajuste fino de LLMs em dados subsequentes com o processo de raciocínio Chain-of-Thought (CoT) pode aumentar a explicabilidade e a compreensão de cena. No entanto, essa estratégia popular se mostra suscetível aos problemas notórios de desalinhamento entre os CoTs elaborados e a consequente tomada de decisão, que permanece intocados pelos métodos de AD baseados em LLM anteriores. Para abordar esse problema, propomos um modelo de tomada de decisão de ponta a ponta baseado em LLMs aumentados por multimodalidade, que executa simultaneamente o raciocínio CoT e realiza os resultados de planejamento. Além disso, propomos uma restrição de alinhamento de raciocínio-decisão entre os CoTs emparelhados e os resultados de planejamento, impondo a correspondência entre raciocínio e tomada de decisão. Além disso, redesenhamos os CoTs para permitir que o modelo compreenda cenários complexos e melhore o desempenho da tomada de decisão. Chamamos nossos planejadores de linguagem de grande escala propostos com alinhamento de raciocínio-decisão de RDA-Driver. Avaliações experimentais nos benchmarks nuScenes e DriveLM-nuScenes demonstram a eficácia do nosso RDA-Driver em melhorar o desempenho de sistemas de AD de ponta a ponta. Especificamente, nosso RDA-Driver alcança desempenho de planejamento de última geração no conjunto de dados nuScenes com erro L2 de 0,80 e taxa de colisão de 0,32, e também obtém resultados líderes nos desafiadores benchmarks DriveLM-nuScenes com erro L2 de 0,82 e taxa de colisão de 0,38.
Huang et al. (Sun,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: