Key points are not available for this paper at this time.
Traditionelle Ansätze zur Analyse von Sicherheitsereignissen in autonomen Systemen haben sich auf komplexe maschinelle Lernmodelle und umfangreiche Datensätze verlassen, um hohe Genauigkeit und Zuverlässigkeit zu gewährleisten. Mit der Einführung multimodaler großer Sprachmodelle (MLLMs) ergibt sich jedoch ein neuartiger Ansatz, der textliche, visuelle und auditive Modalitäten integriert und somit automatisierte Analysen von Fahrvideos ermöglicht. Unser Framework nutzt die Denkfähigkeit von MLLMs und leitet ihre Ausgaben durch kontextspezifische Aufforderungen, um genaue, zuverlässige und umsetzbare Einblicke in die Gefahrenidentifikation zu gewährleisten. Durch die Einbeziehung von Modellen wie Gemini-Pro-Vision 1.5 und Llava zielt unsere Methodik darauf ab, sicherheitskritische Ereignisse zu automatisieren und häufige Probleme wie Halluzinationen in MLLM-Ausgaben zu mildern. Vorläufige Ergebnisse zeigen das Potenzial des Frameworks im Zero-Shot-Lernen und in der genauen Szenarioanalyse, obwohl eine weitere Validierung an größeren Datensätzen erforderlich ist. Darüber hinaus sind weitere Untersuchungen notwendig, um die Leistungssteigerungen des vorgeschlagenen Frameworks durch Few-Shot-Lernen und feinabgestimmte Modelle zu erforschen. Diese Forschung verdeutlicht die Bedeutung von MLLMs für die Weiterentwicklung der Analyse natürlicher Fahrvideos, indem sie die Erkennung sicherheitskritischer Ereignisse verbessert und das Verständnis der Interaktion mit komplexen Umgebungen fördert.
Tami et al. (Mittwoch) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: