Key points are not available for this paper at this time.
Die Klassifikation von Bildszenen aus der Fernerkundung (RSISC) ist eine aktive Aufgabe in der Fernerkundungsgemeinschaft und hat aufgrund ihrer breiten Anwendungen große Aufmerksamkeit erregt. Kürzlich haben die auf tiefen konvolutionalen neuronalen Netzwerken (CNNs) basierenden Methoden einen bemerkenswerten Durchbruch in der Leistung der Klassifikation von Bildszenen aus der Fernerkundung erlebt. Das Problem, dass die Merkmalsdarstellung nicht ausreichend diskriminierend ist, besteht jedoch weiterhin, was hauptsächlich durch die Eigenschaften der Interklassenähnlichkeit und Intra-Klassen-Vielfalt verursacht wird. In diesem Papier schlagen wir ein effizientes End-to-End-Lokal-Global-Fusion-Feature-Extraktionsnetzwerk (LGFFE) für eine diskriminierendere Merkmalsdarstellung vor. Konkret werden globale und lokale Merkmale aus den Kanal- und räumlichen Dimensionen extrahiert, basierend auf einer Merkmalskarte aus tiefen CNNs. Für die lokalen Merkmale wird ein neuartiges auf rekurrenten neuronalen Netzwerken (RNN) basierendes Aufmerksamkeitsmodul vorgeschlagen, um die räumlichen Layoutinformationen und Kontextinformationen über verschiedene Regionen hinweg zu erfassen. Gated Recurrent Units (GRUs) werden dann genutzt, um das wichtige Gewicht jeder Region zu erzeugen, indem eine Sequenz von Merkmalen aus Bildausschnitten als Eingabe verwendet wird. Eine neu gewichtete regionale Merkmalsdarstellung kann erzielt werden, indem auf die Schlüsselregion fokussiert wird. Anschließend kann die endgültige Merkmalsdarstellung durch das Fügen der lokalen und globalen Merkmale erreicht werden. Der gesamte Prozess der Merkmals-Extraktion und Merkmalsfusion kann in einer End-to-End-Manier trainiert werden. Schließlich wurden umfangreiche Experimente an vier öffentlichen und weit verbreiteten Datensätzen durchgeführt, und die experimentellen Ergebnisse zeigen, dass unsere Methode LGFFE die Basislinienmethoden übertrifft und Ergebnisse auf dem neuesten Stand der Technik erzielt.
Lv et al. (Freitag) haben diese Frage untersucht.