June 6, 2024Open Access

Was hören MLLMs? Untersuchung des Denkens mit Text- und Klangkomponenten in multimodalen großen Sprachmodellen

Key Points

Key points are not available for this paper at this time.

Abstract

Große Sprachmodelle (LLMs) haben bemerkenswerte Denkfähigkeiten bewiesen, insbesondere im Zusammenhang von Ideen und im Befolgen logischer Regeln zur Problemlösung. Diese Modelle haben sich weiterentwickelt, um verschiedene Datenmodalitäten zu berücksichtigen, einschließlich Geräuschen und Bildern, bekannt als multimodale LLMs (MLLMs), die in der Lage sind, Bilder oder Tonaufnahmen zu beschreiben. Frühere Arbeiten haben gezeigt, dass wenn die LLM-Komponente in MLLMs eingefroren ist, der Audio- oder visuelle Encoder dazu dient, den Klang oder das Bildinput zu beschriften und damit das textbasierte Denken mit der LLM-Komponente zu erleichtern. Wir sind daran interessiert, die Denkfähigkeiten des LLM zu nutzen, um die Klassifizierung zu erleichtern. In diesem Papier zeigen wir anhand eines Beschriftungs-/Klassifizierungsexperiments, dass ein Audio-MLLM seine textbasierten Denkfähigkeiten des LLMs bei der Generierung von Audiobeschriftungen nicht vollständig ausschöpfen kann. Wir betrachten auch, wie dies möglicherweise darauf zurückzuführen ist, dass MLLMs auditive und textuelle Informationen getrennt darstellen, sodass der Denkweg vom LLM zum Audio-Encoder unterbrochen wird.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Enis Berk Çoban

The Graduate Center, CUNY

Michael Mandel

The Graduate Center, CUNY

Johanna Devaney

The Graduate Center, CUNY

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Was hören MLLMs? Untersuchung des Denkens mit Text- und Klangkomponenten in multimodalen großen Sprachmodellen

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider

Also consider