A geração de respostas ao impulso de sala (RIRs) utilizando redes neurais profundas tem atraído crescente interesse de pesquisa devido às suas aplicações em realidade virtual e aumentada, pós-produção de áudio e campos relacionados. A maioria das abordagens existentes condiciona modelos generativos a descrições físicas de uma sala, como seu tamanho, forma e materiais de superfície. No entanto, essa dependência de informações geométricas limita sua usabilidade em cenários onde a disposição da sala é desconhecida ou quando o realismo perceptual (como um espaço soa para um ouvinte) é mais importante do que a precisão física estrita. Neste estudo, propomos uma estratégia alternativa: condicionar a geração de RIR diretamente a um conjunto de parâmetros acústicos de RIR. Esses parâmetros incluem várias medições de tempo de reverberação e a razão entre som direto e reverberação, tanto em banda larga quanto por faixa. Ao especificar como o espaço deve soar em vez de como deve parecer, nosso método permite uma geração de RIR mais flexível e orientada perceptualmente. Exploramos tanto modelos generativos autorregressivos quanto não autorregressivos operando no domínio do Descript Audio Codec, usando sequências de tokens discretos ou embeddings contínuos. Especificamente, selecionamos quatro modelos para avaliação: um transformador autorregressivo, o modelo MaskGIT, um modelo de correspondência de fluxo e uma abordagem baseada em classificador. Avaliações objetivas e subjetivas são realizadas para comparar esses métodos com alternativas de ponta. Os resultados mostram que os modelos propostos equivalem ou superam as alternativas de ponta, com o modelo MaskGIT alcançando o melhor desempenho.
Arellano et al. (Wed,) estudaram esta questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: