Para abordar as limitações inerentes às abordagens de única modalidade no reconhecimento de espécies de pássaros com granularidade fina, este artigo propõe um método adaptativo de fusão audiovisual baseado na confiança de previsão. A estrutura proposta compreende três componentes principais: um ramo de classificação de imagem, um ramo de classificação de áudio e um módulo de fusão adaptativa da confiança. O ramo de imagem emprega EfficientNet-B3 para extrair características visuais de granularidade fina por meio de dimensionamento composto e atenção squeeze-and-excitation (SE). O ramo de áudio utiliza ResNet-50 para classificar espectrogramas Mel convertidos a partir de vocalizações de pássaros, incorporando uma estratégia de inferência de amostragem densa para explorar completamente a informação auditiva. Para integração multimodal, uma estratégia de fusão adaptativa da confiança é introduzida, considerando conjuntamente a entropia da informação e a diferença de probabilidade para avaliar dinamicamente a confiabilidade da previsão de cada modalidade, assim atribuindo pesos de fusão no nível da amostra sem qualquer parâmetro treinável adicional. Experimentos no conjunto de dados multimodal SSW60 mostram que o ramo de imagem alcançou uma precisão Top-1 de 91,55%, superando ResNet-50 (89,75%) e VGG-16 (83,81%); o ramo de áudio alcançou 68,20%, superando AST (63,29%) e VGG-16 (53,48%); e o modelo fundido atingiu 95,30% de precisão Top-1, uma melhoria de 3,75 pontos percentuais em relação à linha de base apenas da imagem e um ganho de 0,21 ponto percentual sobre a linha de base de fusão TMC baseada em aprendizado, sem introduzir parâmetros treináveis, confirmando a eficácia do método proposto.
Xu et al. (Wed,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: