What question did this study set out to answer?

L'objectif est d'améliorer la détection d'objets orientés dans les images RGB-infrarouges en intégrant des informations sémantiques lors de la fusion.

March 2, 2026Open Access

SGFNet : Réseau de Fusion Guidé par Sémantique avec Rétroaction en Boucle Fermée pour la Détection d'Objets Orientés RGB-Infrared

Key Points

L'objectif est d'améliorer la détection d'objets orientés dans les images RGB-infrarouges en intégrant des informations sémantiques lors de la fusion.
Développé SGFNet avec trois modules principaux : Module de Désentrelacement Sensible à la Fréquence, Module Guidé par Sémantique, Convolution Géométrique Adaptive.
Utilisé des ensembles de données RGB-IR du benchmark DroneVehicle avec 28 439 paires d'images.
Appliqué un retour d'information au niveau de la détection pour améliorer le processus de fusion pour les objets orientés.
Atteint 82,0 % de précision moyenne (mAP) à 0,5 IoU, surpassant la méthode précédemment leader de 3,2 points de pourcentage.
Réduit l'erreur angulaire moyenne de 7,4° à 6,2°, indiquant une amélioration de 16 % de la précision.

Abstract

Dans la détection d'objets orientés à partir d'images de drones, de nombreuses méthodes de fusion RGB-infrarouge (RGB-IR) existantes dérivent les poids de modalité uniquement à partir des statistiques d'entrée, sans tenir compte des objectifs de détection en aval. Nous présentons SGFNet, un Réseau de Fusion Guidé par Sémantique qui alimente des sémantiques au niveau de la détection dans la phase de fusion via des masques d'importance appris. SGFNet se compose de trois modules : (1) un Module de Désentrelacement Sensible à la Fréquence (FDM) qui sépare les textures haute fréquence des structures thermiques basse fréquence par filtrage Laplacien et Gaussien ; (2) un Module Guidé par Sémantique (SGM) qui génère des masques sémantiques de niveau P5 pour orienter la fusion vers des régions critiques pour la détection ; et (3) une Convolution Géométrique Adaptive (AGC) dont l'échantillonnage sensible à la rotation correspond aux champs récepteurs d'objets orientés de manière arbitraire. Sur le benchmark DroneVehicle (28 439 paires RGB-IR, cinq catégories de véhicules), SGFNet atteint 82,0 % de mAP@0,5, surpassant le deuxième DMM de 3,2 points de pourcentage tout en réduisant l'erreur angulaire moyenne de 7,4° à 6,2° (-16 %). L'analyse d'ablation attribue le plus grand gain d'un module unique (+1,7 pp) au chemin de rétroaction sémantique.

SGFNet : Réseau de Fusion Guidé par Sémantique avec Rétroaction en Boucle Fermée pour la Détection d'Objets Orientés RGB-Infrared

Key Points

Abstract

Cite This Study