Key points are not available for this paper at this time.
O reconhecimento de fala audiovisual (AVSR) aproveita as informações visuais invariantes ao ruído para melhorar a robustez dos sistemas de reconhecimento automático de fala (ASR). Embora trabalhos anteriores tenham focado principalmente na condição limpa, acreditamos que a modalidade visual é mais eficaz em ambientes ruidosos. Os desafios surgem da dificuldade de fusão adaptativa das informações audiovisuais e das possíveis interferências dentro dos dados de treinamento. Neste artigo, apresentamos um novo modelo de reconhecimento de fala audiovisual com um mecanismo unificado de atenção cross-modal. Em particular, as evidências visuais auxiliares são combinadas com as características acústicas ao longo da dimensão temporal no espaço unificado antes da rede de codificação profunda. Este método fornece um contexto cross-modal flexível e não requer alinhamento forçado, de modo que o modelo pode aprender a explorar as informações audiovisuais em quadros relevantes. Em experimentos, o modelo proposto demonstrou ser robusto à possível ausência da modalidade visual ou desalinhamento em quadros audiovisuais. No grande conjunto de dados audiovisuais LRS3, nosso novo modelo reduz ainda mais o WER de ponta para enunciados limpos e melhora significativamente o desempenho em condições ruidosas.
Li et al. (Sex,) estudaram esta questão.
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: