April 2, 2024Open Access

Um Modelo de Separação de Fala Audiovisual Inspirado em Circuitos Cortico-Tálamo-Corticais

Key Points

Key points are not available for this paper at this time.

Abstract

Abordagens audiovisuais envolvendo entradas visuais estabeleceram a base para o progresso recente na separação de fala. No entanto, a otimização do uso simultâneo de entradas auditivas e visuais ainda é uma área de pesquisa ativa. Inspirados pelo circuito cortico-tálamo-cortical, no qual os mecanismos de processamento sensorial de diferentes modalidades modularizam-se mutuamente através do tálamo sensorial não lemniscal, propomos uma nova rede neural cortico-tálamo-cortical (CTCNet) para a separação de fala audiovisual (AVSS). Primeiro, a CTCNet aprende representações auditivas e visuais hierárquicas de maneira ascendente em sub-redes auditivas e visuais separadas, imitando as funções das áreas corticais auditivas e visuais. Em seguida, inspirado pelo grande número de conexões entre regiões corticais e o tálamo, o modelo funde as informações auditivas e visuais em uma sub-rede tálamica através de conexões de cima para baixo. Finalmente, o modelo retransmite essa informação fundida de volta para as sub-redes auditivas e visuais, e o processo acima é repetido várias vezes. Os resultados de experimentos em três conjuntos de dados de referência de separação de fala mostram que a CTCNet supera notavelmente os métodos AVSS existentes com consideravelmente menos parâmetros. Esses resultados sugerem que imitar o conectoma anatômico do cérebro mamífero tem grande potencial para avançar no desenvolvimento de redes neurais profundas.

Read Full Paperexternally

Bookmark

View Full Paper

Cite This Study

Li et al. (Ter,) estudaram esta questão.

synapsesocial.com/papers/68e70b24b6db6435876843ec https://doi.org/https://doi.org/10.1109/tpami.2024.3384034

Also Consider

Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:

Bookmark

View Full Paper