Die Klassifizierung von Satellitenbildern ist ein Prozess in der Fernerkundung, der darauf abzielt, Pixel von Satellitenbildern in nützliche Informationen über Landnutzung und Landbedeckung zu klassifizieren. Diese Informationen beschränken sich nicht nur auf verschiedene Arten von Landbedeckungen und spezifische Merkmale, sondern sind auch ein essentielles Werkzeug für die Mustererkennung und die Speicherung von Landinformationen. Traditionell wurden in diesem Bereich konvolutionale neuronale Netzwerke (CNNs) aufgrund ihrer Fähigkeit zur Merkmalsextraktion auf gitterartigen Daten häufig verwendet. Jüngste Fortschritte im Transformator-Modell haben auch eine neue Möglichkeit eingeführt, Aufgaben durchzuführen und mit beschrifteten Daten zu arbeiten. Diese Studie vergleicht sechs CNN-Modelle (CNN, InceptionV3, VGG16, Xception, ResNet50, ResNet101) und ein Transformator-Modell (Google ViT-Base-Patch16-224-in21k) anhand des UC Merced Land Use-Datensatzes. Alle Modelle wurden unter identischen Berechnungsbedingungen mit einer einzigen NVIDIA A100-GPU bei festen Hyperparametern und standardisierter Vorverarbeitung desselben Datensatzes trainiert und evaluiert. Ziel war es, die Effektivität der Architekturen mit einem Kompromiss zwischen Genauigkeit und rechnerischer Effizienz zu bestimmen. Die Evaluierungsdurchläufe zeigten, dass ResNet101 (96,33% Genauigkeit bei 1m18s Trainingszeit) eine wettbewerbsfähige Leistung bei der Erzielung von Ergebnissen ähnlich wie Google VIT (98,57% Genauigkeit bei 9m28s Trainingszeit) erbrachte, während es weniger als 1/7 der Trainingszeit des Transformators benötigte.
Nigam et al. (Mon,) haben diese Frage untersucht.