Zusammenfassung Die Verwendung multimodaler Systeme bietet große Perspektiven zur Lösung komplexer Probleme, die mit herkömmlichen unimodalen Ansätzen nicht lösbar sind. Daher wird ein multimodales Video- und Radar-System vorgeschlagen, um ein multimodales Machine-Learning-Problem auf Edge-Geräten zu entwerfen. Die Architektur des Systems nutzt Docker-Container, um Wissen unter Modellen und Prozessen zu erfassen, was die einfache Verwaltung des Systems ermöglicht. Darüber hinaus wird die Bedeutung der Objekterkennung im vorgeschlagenen System hervorgehoben, da die Identifizierung und Lokalisierung von Objekten in verschiedenen Datenmodalitäten kritische Komponenten mehrerer multimodaler Machine-Learning-Aufgaben sind. Daher wird eine Gesamtdarstellung der Architektur sowie eine Diskussion der Datenpipeline dieses Systems präsentiert. Es wird die Herausforderung der Datenanpassung mit homografischen Transformationen unter Verwendung von Video-Kameradaten und Radardaten sowie die Systemkalibrierung zur Erreichung der Datenfusion und der damit verbundenen Vorhersagen angesprochen. Es werden die Vorteile multimodaler Systeme beim Umgang mit komplexen und dynamischen Umgebungen hervorgehoben und ein allgemeiner Ansatz für multimodale Machine-Learning-Probleme auf Edge-Geräten bereitgestellt.
Ferraz et al. (Mon,) haben diese Frage untersucht.