Dans la détection d'objets orientés à partir d'images de drones, de nombreuses méthodes de fusion RGB-infrarouge (RGB-IR) existantes dérivent les poids de modalité uniquement à partir des statistiques d'entrée, sans tenir compte des objectifs de détection en aval. Nous présentons SGFNet, un Réseau de Fusion Guidé par Sémantique qui alimente des sémantiques au niveau de la détection dans la phase de fusion via des masques d'importance appris. SGFNet se compose de trois modules : (1) un Module de Désentrelacement Sensible à la Fréquence (FDM) qui sépare les textures haute fréquence des structures thermiques basse fréquence par filtrage Laplacien et Gaussien ; (2) un Module Guidé par Sémantique (SGM) qui génère des masques sémantiques de niveau P5 pour orienter la fusion vers des régions critiques pour la détection ; et (3) une Convolution Géométrique Adaptive (AGC) dont l'échantillonnage sensible à la rotation correspond aux champs récepteurs d'objets orientés de manière arbitraire. Sur le benchmark DroneVehicle (28 439 paires RGB-IR, cinq catégories de véhicules), SGFNet atteint 82,0 % de mAP@0,5, surpassant le deuxième DMM de 3,2 points de pourcentage tout en réduisant l'erreur angulaire moyenne de 7,4° à 6,2° (-16 %). L'analyse d'ablation attribue le plus grand gain d'un module unique (+1,7 pp) au chemin de rétroaction sémantique.
Zhang et al. (Sam,) ont étudié cette question.