What question did this study set out to answer?

A pesquisa visa melhorar o reconhecimento de espécies de pássaros com granularidade fina através de um método adaptativo de fusão audiovisual que aproveita a confiança de previsão.

May 22, 2026Open Access

Um Método Adaptativo de Fusão Audiovisual Baseado na Confiança de Previsão para Reconhecimento de Espécies de Pássaros com Granularidade Fina

Key Points

A pesquisa visa melhorar o reconhecimento de espécies de pássaros com granularidade fina através de um método adaptativo de fusão audiovisual que aproveita a confiança de previsão.
Desenvolveu uma estrutura de fusão audiovisual adaptativa com um ramo de classificação de imagem e um ramo de classificação de áudio.
Utilizou EfficientNet-B3 e ResNet-50 para extrair características visuais e classificar sinais de áudio, respectivamente.
Implementou um módulo de fusão adaptativa da confiança para atribuir pesos dinâmicos à previsão de cada modalidade com base na confiabilidade.
O ramo de imagem alcançou uma precisão Top-1 de 91,55%, superando ResNet-50 (89,75%) e VGG-16 (83,81%).
O ramo de áudio alcançou 68,20%, superando AST (63,29%) e VGG-16 (53,48%).
O modelo fundido atingiu uma precisão Top-1 de 95,30%, melhorando em 3,75 pontos percentuais em relação à linha de base apenas da imagem.

Abstract

Para abordar as limitações inerentes às abordagens de única modalidade no reconhecimento de espécies de pássaros com granularidade fina, este artigo propõe um método adaptativo de fusão audiovisual baseado na confiança de previsão. A estrutura proposta compreende três componentes principais: um ramo de classificação de imagem, um ramo de classificação de áudio e um módulo de fusão adaptativa da confiança. O ramo de imagem emprega EfficientNet-B3 para extrair características visuais de granularidade fina por meio de dimensionamento composto e atenção squeeze-and-excitation (SE). O ramo de áudio utiliza ResNet-50 para classificar espectrogramas Mel convertidos a partir de vocalizações de pássaros, incorporando uma estratégia de inferência de amostragem densa para explorar completamente a informação auditiva. Para integração multimodal, uma estratégia de fusão adaptativa da confiança é introduzida, considerando conjuntamente a entropia da informação e a diferença de probabilidade para avaliar dinamicamente a confiabilidade da previsão de cada modalidade, assim atribuindo pesos de fusão no nível da amostra sem qualquer parâmetro treinável adicional. Experimentos no conjunto de dados multimodal SSW60 mostram que o ramo de imagem alcançou uma precisão Top-1 de 91,55%, superando ResNet-50 (89,75%) e VGG-16 (83,81%); o ramo de áudio alcançou 68,20%, superando AST (63,29%) e VGG-16 (53,48%); e o modelo fundido atingiu 95,30% de precisão Top-1, uma melhoria de 3,75 pontos percentuais em relação à linha de base apenas da imagem e um ganho de 0,21 ponto percentual sobre a linha de base de fusão TMC baseada em aprendizado, sem introduzir parâmetros treináveis, confirmando a eficácia do método proposto.

Um Método Adaptativo de Fusão Audiovisual Baseado na Confiança de Previsão para Reconhecimento de Espécies de Pássaros com Granularidade Fina

Key Points

Abstract

Cite This Study

Also Consider

Also Consider