Key points are not available for this paper at this time.
自律システムにおける安全イベント分析の従来のアプローチは、高い精度と信頼性を確保するために、複雑な機械学習モデルと広範なデータセットに依存していました。しかし、マルチモーダル大規模言語モデル(MLLMs)の登場は、テキスト、視覚、音声のモダリティを統合する新しいアプローチを提供し、運転動画の自動分析を実現します。私たちのフレームワークは、MLLMsの推論能力を活用し、リスク検出のために正確で信頼性が高く、実用的な洞察を確保するために文脈特有のプロンプトを通じて出力を導きます。Gemini-Pro-Vision 1.5やLlavaのようなモデルを取り入れることで、私たちの方法論は安全上重要なイベントの自動化を目指し、MLLMの出力における幻覚のような一般的な問題を軽減します。初期の結果は、ゼロショット学習と正確なシナリオ分析におけるフレームワークの可能性を示していますが、より大きなデータセットでのさらなる検証が必要です。さらに、少数ショット学習やファインチューニングされたモデルを通じて提案されたフレームワークの性能向上を探求するためのさらなる調査が必要です。この研究は、複雑な環境との相互作用を理解しながら、安全性に関わるイベントの検出を改善することによって、自然な運転動画の分析を進展させる上でのMLLMの重要性を強調しています。
Tami et al. (Wed,) はこの問題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: