What type of study is this?

This is a Quantitative Study study.

October 15, 2025Open Access

Geração de Respostas ao Impulso de Sala Condicionada a Parâmetros Acústicos

Key Points

Os modelos propostos superam os métodos de ponta na geração de respostas ao impulso de sala.
O modelo MaskGIT alcança o maior desempenho nas avaliações objetivas e subjetivas.
A geração de RIR usando parâmetros acústicos melhora o realismo perceptual em relação aos métodos baseados em geometria.
Tanto modelos autorregressivos quanto não autorregressivos foram explorados, demonstrando flexibilidade no processo.

Abstract

A geração de respostas ao impulso de sala (RIRs) utilizando redes neurais profundas tem atraído crescente interesse de pesquisa devido às suas aplicações em realidade virtual e aumentada, pós-produção de áudio e campos relacionados. A maioria das abordagens existentes condiciona modelos generativos a descrições físicas de uma sala, como seu tamanho, forma e materiais de superfície. No entanto, essa dependência de informações geométricas limita sua usabilidade em cenários onde a disposição da sala é desconhecida ou quando o realismo perceptual (como um espaço soa para um ouvinte) é mais importante do que a precisão física estrita. Neste estudo, propomos uma estratégia alternativa: condicionar a geração de RIR diretamente a um conjunto de parâmetros acústicos de RIR. Esses parâmetros incluem várias medições de tempo de reverberação e a razão entre som direto e reverberação, tanto em banda larga quanto por faixa. Ao especificar como o espaço deve soar em vez de como deve parecer, nosso método permite uma geração de RIR mais flexível e orientada perceptualmente. Exploramos tanto modelos generativos autorregressivos quanto não autorregressivos operando no domínio do Descript Audio Codec, usando sequências de tokens discretos ou embeddings contínuos. Especificamente, selecionamos quatro modelos para avaliação: um transformador autorregressivo, o modelo MaskGIT, um modelo de correspondência de fluxo e uma abordagem baseada em classificador. Avaliações objetivas e subjetivas são realizadas para comparar esses métodos com alternativas de ponta. Os resultados mostram que os modelos propostos equivalem ou superam as alternativas de ponta, com o modelo MaskGIT alcançando o melhor desempenho.

Read Full Paperexternally

Perguntar à IA

Bookmark

View Full Paper