Comment la représentation textuelle de l'audio est-elle liée à l'apprentissage du monde audio par les modèles de langage de grande taille (LLM) ? Cette recherche examine dans quelle mesure les LLM peuvent être incités à générer de l'audio, malgré leur formation principale sur des données textuelles. Nous utilisons une approche en trois niveaux, augmentant progressivement la complexité de la génération audio : 1) Notes musicales, 2) Sons environnementaux, et 3) Discours humain. Pour combler le fossé entre le texte et l'audio, nous utilisons le code comme intermédiaire, incitant les LLM à générer du code qui, une fois exécuté, produit la sortie audio souhaitée. Pour évaluer la qualité et l'exactitude de l'audio généré, nous utilisons les scores FAD et CLAP. Nos résultats révèlent que bien que les LLM puissent générer des caractéristiques audio de base, leur performance se détériore à mesure que la complexité de l'audio augmente. Cela suggère que bien que les LLM possèdent une compréhension latente du monde auditif, leur capacité à traduire cette compréhension en sortie audio tangible reste rudimentaire. Des recherches supplémentaires sur des techniques pouvant améliorer la qualité et la diversité de l'audio généré par les LLM peuvent conduire à une amélioration de leurs performances dans la génération d'audio basé sur du texte.
Building similarity graph...
Analyzing shared references across papers
Loading...
Arjun Prasaath Anbazhagan
Parteek Kumar
Indian Institute of Technology Roorkee
Ujjwal Kaur
Building similarity graph...
Analyzing shared references across papers
Loading...
Anbazhagan et al. (Sun,) ont étudié cette question.
synapsesocial.com/papers/68e6bc5f38ca8e474d549dbb — DOI: https://doi.org/10.48550/arxiv.2506.00003
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: