Avaliar modelos de visão-linguagem (VLMs) em contextos de direção urbana continua desafiador, uma vez que benchmarks existentes dependem de respostas abertas que são ambíguas, intensivas em anotação e inconsistentes para pontuação. Essa falta de avaliação padronizada desacelera o progresso em direção a uma IA segura e confiável para a mobilidade urbana. Apresentamos o AutoDrive-QA, o primeiro benchmark que converte sistematicamente conjuntos de dados de QA de direção abertos (DriveLM, NuScenes-QA, LingoQA) em perguntas estruturadas de múltipla escolha (MCQs) com distratores baseados em cinco categorias realistas de erro: Conceitos Errôneos no Domínio da Direção, Inconsistências Lógicas, Entradas de Sensor Mal Interpretadas, Erros Computacionais e Ambiguidade nas Perguntas. Essa estrutura permite a avaliação reprodutível e interpretável de VLMs em tarefas de percepção, previsão e planejamento em cenas urbanas complexas. Experimentos mostram que o ajuste fino do LLaVA-1.5-7B melhora a precisão em cerca de seis pontos percentuais em tarefas, o GPT-4V alcança o melhor desempenho em zero-shot com até 69,8% de precisão, e os modelos Qwen2-VL também se destacam, particularmente em configurações de múltiplos pontos de vista. Além disso, métricas tradicionais como BLEU e CIDEr não conseguem distinguir modelos fortes de fracos. Ao fornecer um protocolo de avaliação objetivo e baseado em domínio, o AutoDrive-QA contribui para uma análise mais transparente dos sistemas de IA urbana, apoiando o desenvolvimento de tecnologias de direção autônoma mais seguras e confiáveis para cidades inteligentes.
Khalili et al. (Qui,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: