Melhorar a robustez dos modelos de percepção de direção autônoma depende de dados de cenários diversificados em grande escala. No entanto, os dados de estrada do mundo real enfrentam desafios, como altos custos de coleta, escassez de cenários extremos e complexidade no rotulagem de múltiplas visões. A tecnologia de síntese de cena com IA generativa emergiu como uma solução chave, com modelos de difusão gradualmente substituindo os modelos GAN como os principais. Este artigo fornece uma revisão sistemática da tecnologia de síntese de cena para direção autônoma, delineando a evolução da tecnologia, esclarecendo as características e lógicas centrais de diferentes gerações; foca na análise da solução representativa DrivingDiffusion, a primeira estrutura de geração de vídeo a alcançar “controlabilidade de layout 3D, coordenação de múltiplas visões e coerência temporal”, dissecando sua arquitetura e design de módulo central com base em modelos de difusão latente (LDM). Além disso, compara o desempenho dos métodos baseados em difusão com abordagens tradicionais baseadas em GAN em métricas-chave, como fidelidade de cena e consistência de rótulos. Além disso, extrai as questões e desafios-chave no campo atual; finalmente, olha para as direções de desenvolvimento futuro, fornecendo uma referência para pesquisas subsequentes sobre geração de dados virtuais relacionados.
Yu Liu (Mon,) estudou essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: