Key points are not available for this paper at this time.
Modelos generativos mostraram conquistas significativas em tarefas de geração de áudio. No entanto, os modelos existentes enfrentam dificuldades com prompts complexos e detalhados, levando a uma possível degradação do desempenho. Hipotetizamos que esse problema decorre da baixa qualidade e da quantidade relativamente pequena de dados de treinamento. Neste trabalho, nosso objetivo é criar um conjunto de dados de áudio em larga escala com legendas ricas para melhorar os modelos de geração de áudio. Desenvolvemos um pipeline automatizado para gerar legendas detalhadas para conjuntos de dados audiovisuais, transformando legendas visuais previstas, legendas de áudio e rótulos de marcação em descrições abrangentes usando um Modelo de Linguagem Grande (LLM). Apresentamos o Sound-VECaps, um conjunto de dados que compreende 1,66M de pares de áudio-legenda de alta qualidade com detalhes enriquecidos, incluindo ordens de eventos de áudio, locais ocorridos e informações ambientais. Demonstramos que o treinamento com o Sound-VECaps melhora significativamente a capacidade dos modelos de geração de texto para áudio de compreender e gerar áudio a partir de prompts de entrada complexos, aprimorando o desempenho geral do sistema. Além disso, conduzimos estudos de ablação do Sound-VECaps em várias tarefas de áudio-linguagem, sugerindo seu potencial para avançar no aprendizado de representação áudio-texto. Nosso conjunto de dados e modelos estão disponíveis online.
Yuan et al. (Sex,) estudaram esta questão.