Key points are not available for this paper at this time.
Große Sprachmodelle (LLMs) haben bemerkenswerte Denkfähigkeiten bewiesen, insbesondere im Zusammenhang von Ideen und im Befolgen logischer Regeln zur Problemlösung. Diese Modelle haben sich weiterentwickelt, um verschiedene Datenmodalitäten zu berücksichtigen, einschließlich Geräuschen und Bildern, bekannt als multimodale LLMs (MLLMs), die in der Lage sind, Bilder oder Tonaufnahmen zu beschreiben. Frühere Arbeiten haben gezeigt, dass wenn die LLM-Komponente in MLLMs eingefroren ist, der Audio- oder visuelle Encoder dazu dient, den Klang oder das Bildinput zu beschriften und damit das textbasierte Denken mit der LLM-Komponente zu erleichtern. Wir sind daran interessiert, die Denkfähigkeiten des LLM zu nutzen, um die Klassifizierung zu erleichtern. In diesem Papier zeigen wir anhand eines Beschriftungs-/Klassifizierungsexperiments, dass ein Audio-MLLM seine textbasierten Denkfähigkeiten des LLMs bei der Generierung von Audiobeschriftungen nicht vollständig ausschöpfen kann. Wir betrachten auch, wie dies möglicherweise darauf zurückzuführen ist, dass MLLMs auditive und textuelle Informationen getrennt darstellen, sodass der Denkweg vom LLM zum Audio-Encoder unterbrochen wird.
Building similarity graph...
Analyzing shared references across papers
Loading...
Enis Berk Çoban
The Graduate Center, CUNY
Michael Mandel
The Graduate Center, CUNY
Johanna Devaney
The Graduate Center, CUNY
Building similarity graph...
Analyzing shared references across papers
Loading...
Çoban et al. (Do,) haben diese Frage untersucht.
synapsesocial.com/papers/68e65e3eb6db6435875ed07f — DOI: https://doi.org/10.48550/arxiv.2406.04615
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: