What type of study is this?

This is a Quantitative Study study.

October 10, 2025Open Access

AutoDrive-QA: Um Benchmark de Múltipla Escolha para Avaliação de Visão-Linguagem em Direção Autônoma Urbana

Key Points

AutoDrive-QA permite a avaliação reprodutível de modelos de visão-linguagem em ambientes urbanos complexos, aumentando a segurança.
O ajuste fino do LLaVA-1.5-7B levou a uma melhoria de seis pontos percentuais na precisão, demonstrando eficácia em várias tarefas.
Experimentos mostraram que o GPT-4V alcançou uma precisão máxima de 69,8% em avaliações zero-shot, superando concorrentes.
Métricas tradicionais como BLEU e CIDEr não conseguem distinguir o desempenho dos modelos, indicando a necessidade de novos padrões.

Abstract

Avaliar modelos de visão-linguagem (VLMs) em contextos de direção urbana continua desafiador, uma vez que benchmarks existentes dependem de respostas abertas que são ambíguas, intensivas em anotação e inconsistentes para pontuação. Essa falta de avaliação padronizada desacelera o progresso em direção a uma IA segura e confiável para a mobilidade urbana. Apresentamos o AutoDrive-QA, o primeiro benchmark que converte sistematicamente conjuntos de dados de QA de direção abertos (DriveLM, NuScenes-QA, LingoQA) em perguntas estruturadas de múltipla escolha (MCQs) com distratores baseados em cinco categorias realistas de erro: Conceitos Errôneos no Domínio da Direção, Inconsistências Lógicas, Entradas de Sensor Mal Interpretadas, Erros Computacionais e Ambiguidade nas Perguntas. Essa estrutura permite a avaliação reprodutível e interpretável de VLMs em tarefas de percepção, previsão e planejamento em cenas urbanas complexas. Experimentos mostram que o ajuste fino do LLaVA-1.5-7B melhora a precisão em cerca de seis pontos percentuais em tarefas, o GPT-4V alcança o melhor desempenho em zero-shot com até 69,8% de precisão, e os modelos Qwen2-VL também se destacam, particularmente em configurações de múltiplos pontos de vista. Além disso, métricas tradicionais como BLEU e CIDEr não conseguem distinguir modelos fortes de fracos. Ao fornecer um protocolo de avaliação objetivo e baseado em domínio, o AutoDrive-QA contribui para uma análise mais transparente dos sistemas de IA urbana, apoiando o desenvolvimento de tecnologias de direção autônoma mais seguras e confiáveis para cidades inteligentes.

AutoDrive-QA: Um Benchmark de Múltipla Escolha para Avaliação de Visão-Linguagem em Direção Autônoma Urbana

Key Points

Abstract

Cite This Study

Also Consider

Also Consider