What type of study is this?

This is a Quantitative Study study.

October 8, 2025Open Access

Exploration des capacités de génération audio des modèles de langage basés sur du texte

Key Points

Les LLM peuvent générer des caractéristiques audio de base, mais les performances diminuent avec la complexité accrue, indiquant des limites dans leur compréhension audio.
Les scores FAD et CLAP sont utilisés pour évaluer la qualité et l'exactitude des sorties audio générées par les modèles de langage de grande taille à partir de prompts textuels.
En utilisant une approche structurée en trois niveaux, cette recherche progresse des notes musicales aux sons environnementaux plus complexes et au discours humain.
Des améliorations dans les techniques de génération peuvent améliorer les capacités audio des LLM, fournissant une exploration plus approfondie de la combinaison du texte et de l'audio.

Abstract

Comment la représentation textuelle de l'audio est-elle liée à l'apprentissage du monde audio par les modèles de langage de grande taille (LLM) ? Cette recherche examine dans quelle mesure les LLM peuvent être incités à générer de l'audio, malgré leur formation principale sur des données textuelles. Nous utilisons une approche en trois niveaux, augmentant progressivement la complexité de la génération audio : 1) Notes musicales, 2) Sons environnementaux, et 3) Discours humain. Pour combler le fossé entre le texte et l'audio, nous utilisons le code comme intermédiaire, incitant les LLM à générer du code qui, une fois exécuté, produit la sortie audio souhaitée. Pour évaluer la qualité et l'exactitude de l'audio généré, nous utilisons les scores FAD et CLAP. Nos résultats révèlent que bien que les LLM puissent générer des caractéristiques audio de base, leur performance se détériore à mesure que la complexité de l'audio augmente. Cela suggère que bien que les LLM possèdent une compréhension latente du monde auditif, leur capacité à traduire cette compréhension en sortie audio tangible reste rudimentaire. Des recherches supplémentaires sur des techniques pouvant améliorer la qualité et la diversité de l'audio généré par les LLM peuvent conduire à une amélioration de leurs performances dans la génération d'audio basé sur du texte.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Arjun Prasaath Anbazhagan

Parteek Kumar

Indian Institute of Technology Roorkee

Ujjwal Kaur

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Exploration des capacités de génération audio des modèles de langage basés sur du texte

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider

Also consider