August 25, 2024Open Access

Tornar Modelos de Linguagem de Grande Escala Melhores Planejadores com Alinhamento de Raciocínio-Decisão

Key Points

RDA-Driver aprimora o desempenho na tomada de decisão e a compreensão de cena em condução autônoma.
Alcançar erro L2 de 0,80 e taxa de colisão de 0,32 no conjunto de dados nuScenes destaca sua eficácia.
Essa abordagem emprega um modelo de tomada de decisão de ponta a ponta que integra efetivamente os processos de raciocínio e planejamento em cenários em tempo real para sistemas de AD em relação aos métodos existentes. No geral, este trabalho apoia a necessidade de um alinhamento de raciocínio aprimorado em ambientes complexos para impulsionar avanços em sistemas impulsionados por IA.

Abstract

Abordagens baseadas em dados para condução autônoma (AD) foram amplamente adotadas na última década, mas enfrentam preconceito de conjunto de dados e falta de interpretabilidade. Inspirados pela natureza orientada ao conhecimento da condução humana, abordagens recentes exploram o potencial de modelos de linguagem de grande escala (LLMs) para melhorar a compreensão e a tomada de decisões em cenários de trânsito. Elas descobrem que o paradigma de pré-treinamento e ajuste fino de LLMs em dados subsequentes com o processo de raciocínio Chain-of-Thought (CoT) pode aumentar a explicabilidade e a compreensão de cena. No entanto, essa estratégia popular se mostra suscetível aos problemas notórios de desalinhamento entre os CoTs elaborados e a consequente tomada de decisão, que permanece intocados pelos métodos de AD baseados em LLM anteriores. Para abordar esse problema, propomos um modelo de tomada de decisão de ponta a ponta baseado em LLMs aumentados por multimodalidade, que executa simultaneamente o raciocínio CoT e realiza os resultados de planejamento. Além disso, propomos uma restrição de alinhamento de raciocínio-decisão entre os CoTs emparelhados e os resultados de planejamento, impondo a correspondência entre raciocínio e tomada de decisão. Além disso, redesenhamos os CoTs para permitir que o modelo compreenda cenários complexos e melhore o desempenho da tomada de decisão. Chamamos nossos planejadores de linguagem de grande escala propostos com alinhamento de raciocínio-decisão de RDA-Driver. Avaliações experimentais nos benchmarks nuScenes e DriveLM-nuScenes demonstram a eficácia do nosso RDA-Driver em melhorar o desempenho de sistemas de AD de ponta a ponta. Especificamente, nosso RDA-Driver alcança desempenho de planejamento de última geração no conjunto de dados nuScenes com erro L2 de 0,80 e taxa de colisão de 0,32, e também obtém resultados líderes nos desafiadores benchmarks DriveLM-nuScenes com erro L2 de 0,82 e taxa de colisão de 0,38.

Read Full Paperexternally

Perguntar à IA

Bookmark

View Full Paper