Key points are not available for this paper at this time.
Abordagens audiovisuais envolvendo entradas visuais estabeleceram a base para o progresso recente na separação de fala. No entanto, a otimização do uso simultâneo de entradas auditivas e visuais ainda é uma área de pesquisa ativa. Inspirados pelo circuito cortico-tálamo-cortical, no qual os mecanismos de processamento sensorial de diferentes modalidades modularizam-se mutuamente através do tálamo sensorial não lemniscal, propomos uma nova rede neural cortico-tálamo-cortical (CTCNet) para a separação de fala audiovisual (AVSS). Primeiro, a CTCNet aprende representações auditivas e visuais hierárquicas de maneira ascendente em sub-redes auditivas e visuais separadas, imitando as funções das áreas corticais auditivas e visuais. Em seguida, inspirado pelo grande número de conexões entre regiões corticais e o tálamo, o modelo funde as informações auditivas e visuais em uma sub-rede tálamica através de conexões de cima para baixo. Finalmente, o modelo retransmite essa informação fundida de volta para as sub-redes auditivas e visuais, e o processo acima é repetido várias vezes. Os resultados de experimentos em três conjuntos de dados de referência de separação de fala mostram que a CTCNet supera notavelmente os métodos AVSS existentes com consideravelmente menos parâmetros. Esses resultados sugerem que imitar o conectoma anatômico do cérebro mamífero tem grande potencial para avançar no desenvolvimento de redes neurais profundas.
Li et al. (Ter,) estudaram esta questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: