What type of study is this?

This is a Experimental Study study.

September 23, 2025Open Access

Spatial 3D-LLM: Erforschung des räumlichen Bewusstseins in 3D Vision-Sprachmodellen

Key Points

Spatial 3D-LLM erzielt Spitzenleistungen bei 3D Vision-Sprachaufgaben und verbessert so das räumliche Bewusstsein.
Experimentelle Ergebnisse zeigen überlegene Resultate bei 3D-Objekt-Abstandsmessung und Layout-Bearbeitung.
Die Methodik integriert ein LLM-Backbone mit einem progressiven räumlichen Bewusstseinsschema für ein besseres Verständnis von 3D-Szenen.
Diese Forschung betont die Bedeutung bereicherter räumlicher Einbettungen für eine verbesserte Leistung in 3D-multimodalen Aufgaben.

Abstract

Eine neue Ära hat spannende Möglichkeiten eröffnet, Large Language Models (LLMs) auf 3D Vision-Sprachaufgaben auszuweiten. Die meisten bestehenden 3D-multimodalen LLMs (MLLMs) basieren jedoch darauf, entweder ganzheitliche 3D-Szeneninformationen zu komprimieren oder unabhängige Objekte zu segmentieren, um diese Aufgaben zu bewältigen, was ihr räumliches Bewusstsein aufgrund einer unzureichenden Darstellung der in 3D-Szenen inherent vorhandenen Vielfalt einschränkt. Um diese Einschränkungen zu überwinden, schlagen wir Spatial 3D-LLM vor, ein 3D MLLM, das speziell darauf ausgelegt ist, das räumliche Bewusstsein für 3D Vision-Sprachaufgaben durch Bereicherung der räumlichen Einbettungen von 3D-Szenen zu verbessern. Spatial 3D-LLM integriert ein LLM-Backbone mit einem progressiven räumlichen Bewusstseinsschema, das räumliche Informationen schrittweise erfasst, während sich das Wahrnehmungsfeld erweitert, und generiert ortsangereicherte 3D-Szeneneinbettungen, die als visuelle Eingabeaufforderungen dienen. Zudem führen wir zwei neuartige Aufgaben ein: 3D-Objektentfernungs-Messung und 3D-Layout-Bearbeitung, und erstellen einen 3D-Instruktionsdatensatz, MODEL, um die räumlichen Bewusstseinsfähigkeiten des Modells zu evaluieren. Experimentelle Ergebnisse zeigen, dass Spatial 3D-LLM bei einer breiten Palette von 3D Vision-Sprachaufgaben den Stand der Technik erreicht und dass die Verbesserungen auf unser progressives räumliches Bewusstseinsschema zurückzuführen sind, das tiefere räumliche Informationen erschließt. Unser Code ist verfügbar unter https://github.com/bjshuyuan/Spatial-3D-LLM.

Read Full Paperexternally

KI fragen

Bookmark

View Full Paper