Key points are not available for this paper at this time.
A detecção de falante ativo é uma tarefa desafiadora em cenários audiovisuais, com o objetivo de detectar quem está falando em um ou mais cenários de falantes. Essa tarefa recebeu atenção considerável porque é crucial em muitas aplicações. Estudos existentes tentaram melhorar o desempenho ao inserir informações de vários candidatos e projetar modelos complexos. Embora esses métodos tenham alcançado um desempenho excelente, seu alto consumo de memória e poder computacional dificulta sua aplicação em cenários com recursos limitados. Portanto, neste estudo, uma arquitetura leve de detecção de falante ativo é construída reduzindo o número de candidatos de entrada, dividindo convoluções 2D e 3D para extração de características áudio-visuais, e aplicando unidades recorrentes portadas com baixa complexidade computacional para modelagem cross-modal. Resultados experimentais no conjunto de dados AVA-ActiveSpeaker revelam que a estrutura proposta atinge um desempenho competitivo de mAP (94,1% vs. 94,2%), enquanto os custos de recursos são significativamente mais baixos do que o método de ponta, particularmente em parâmetros de modelo (1,0M vs. 22,5M, aproximadamente 23×) e FLOPs (0,6G vs. 2,6G, aproximadamente 4×). Além disso, a estrutura proposta também apresenta um bom desempenho no conjunto de dados Columbia, demonstrando assim boa robustez. O código e os pesos do modelo estão disponíveis em https://github.com/Junhua-Liao/Light-ASD.
Liao et al. (Qui,) estudaram essa questão.