What question did this study set out to answer?

Ziel dieser Forschung ist es, die Effektivität von CNNs und Transformatoren bei der Klassifizierung von Satellitenbildern zu bewerten.

March 25, 2026Open Access

Deep Learning-Paradigmen in der Fernerkundung mit einer vergleichenden Bewertung von CNNs und Transformatoren für Satellitenbilder

Key Points

Ziel dieser Forschung ist es, die Effektivität von CNNs und Transformatoren bei der Klassifizierung von Satellitenbildern zu bewerten.
Verglichen wurden sechs CNN-Modelle und ein Transformator-Modell
Verwendete UC Merced Land Use-Datensatz zur Bewertung
Modelle unter identischen Bedingungen mit NVIDIA A100-GPU trainiert
Standardisierte Vorverarbeitung auf den Datensatz angewendet
Analyse von Genauigkeit und rechnerischen Effizienz-Kompromissen
ResNet101 erreichte 96,33% Genauigkeit bei 1m18s Trainingszeit
Google ViT erreichte 98,57% Genauigkeit bei 9m28s Trainingszeit
ResNet101 zeigte eine wettbewerbsfähige Leistung und benötigte weniger als 1/7 der Trainingszeit von Google ViT

Abstract

Die Klassifizierung von Satellitenbildern ist ein Prozess in der Fernerkundung, der darauf abzielt, Pixel von Satellitenbildern in nützliche Informationen über Landnutzung und Landbedeckung zu klassifizieren. Diese Informationen beschränken sich nicht nur auf verschiedene Arten von Landbedeckungen und spezifische Merkmale, sondern sind auch ein essentielles Werkzeug für die Mustererkennung und die Speicherung von Landinformationen. Traditionell wurden in diesem Bereich konvolutionale neuronale Netzwerke (CNNs) aufgrund ihrer Fähigkeit zur Merkmalsextraktion auf gitterartigen Daten häufig verwendet. Jüngste Fortschritte im Transformator-Modell haben auch eine neue Möglichkeit eingeführt, Aufgaben durchzuführen und mit beschrifteten Daten zu arbeiten. Diese Studie vergleicht sechs CNN-Modelle (CNN, InceptionV3, VGG16, Xception, ResNet50, ResNet101) und ein Transformator-Modell (Google ViT-Base-Patch16-224-in21k) anhand des UC Merced Land Use-Datensatzes. Alle Modelle wurden unter identischen Berechnungsbedingungen mit einer einzigen NVIDIA A100-GPU bei festen Hyperparametern und standardisierter Vorverarbeitung desselben Datensatzes trainiert und evaluiert. Ziel war es, die Effektivität der Architekturen mit einem Kompromiss zwischen Genauigkeit und rechnerischer Effizienz zu bestimmen. Die Evaluierungsdurchläufe zeigten, dass ResNet101 (96,33% Genauigkeit bei 1m18s Trainingszeit) eine wettbewerbsfähige Leistung bei der Erzielung von Ergebnissen ähnlich wie Google VIT (98,57% Genauigkeit bei 9m28s Trainingszeit) erbrachte, während es weniger als 1/7 der Trainingszeit des Transformators benötigte.

Bookmark

View Full Paper

Bookmark

View Full Paper

Deep Learning-Paradigmen in der Fernerkundung mit einer vergleichenden Bewertung von CNNs und Transformatoren für Satellitenbilder

Key Points

Abstract

Cite This Study