Eine neue Ära hat spannende Möglichkeiten eröffnet, Large Language Models (LLMs) auf 3D Vision-Sprachaufgaben auszuweiten. Die meisten bestehenden 3D-multimodalen LLMs (MLLMs) basieren jedoch darauf, entweder ganzheitliche 3D-Szeneninformationen zu komprimieren oder unabhängige Objekte zu segmentieren, um diese Aufgaben zu bewältigen, was ihr räumliches Bewusstsein aufgrund einer unzureichenden Darstellung der in 3D-Szenen inherent vorhandenen Vielfalt einschränkt. Um diese Einschränkungen zu überwinden, schlagen wir Spatial 3D-LLM vor, ein 3D MLLM, das speziell darauf ausgelegt ist, das räumliche Bewusstsein für 3D Vision-Sprachaufgaben durch Bereicherung der räumlichen Einbettungen von 3D-Szenen zu verbessern. Spatial 3D-LLM integriert ein LLM-Backbone mit einem progressiven räumlichen Bewusstseinsschema, das räumliche Informationen schrittweise erfasst, während sich das Wahrnehmungsfeld erweitert, und generiert ortsangereicherte 3D-Szeneneinbettungen, die als visuelle Eingabeaufforderungen dienen. Zudem führen wir zwei neuartige Aufgaben ein: 3D-Objektentfernungs-Messung und 3D-Layout-Bearbeitung, und erstellen einen 3D-Instruktionsdatensatz, MODEL, um die räumlichen Bewusstseinsfähigkeiten des Modells zu evaluieren. Experimentelle Ergebnisse zeigen, dass Spatial 3D-LLM bei einer breiten Palette von 3D Vision-Sprachaufgaben den Stand der Technik erreicht und dass die Verbesserungen auf unser progressives räumliches Bewusstseinsschema zurückzuführen sind, das tiefere räumliche Informationen erschließt. Unser Code ist verfügbar unter https://github.com/bjshuyuan/Spatial-3D-LLM.
Wang et al. (Tue,) untersuchten diese Fragestellung.