Ursprünglich waren konventionelle Faltungsneuronale Netzwerke der primäre Ansatz zur Objekterkennung, einer zentralen Aufgabe der Computer Vision. Die Einführung der Transformer-Architektur hat jedoch die Erkennungsgenauigkeit und Generalisierungsfähigkeiten erheblich verbessert und spielt eine entscheidende Rolle bei der Weiterentwicklung intelligenter Systeme in verschiedenen Bereichen. Kürzlich ist die Integration von CNN- und Transformer-Architekturen als ein wichtiges Untersuchungsfeld zur Objekterkennung aufgetaucht. Durch die Kombination der komplementären Vorteile von CNNs und Transformern verbessern diese Hybridarchitekturen die Genauigkeit in verschiedenen Szenarien der Objekterkennung. Diese Studie beginnt mit einem kurzen Überblick über CNNs und Transformer, in dem ihre jeweiligen Vorteile und Einschränkungen kritisch analysiert werden. Anschließend führen wir eine systematische Untersuchung der hochmodernen Hybridarchitekturen und ihrer Optimierungsstrategien durch. Schließlich wird ein umfassender Vergleich und eine Zusammenfassung in tabellarischer Form präsentiert, um eine klare Leistungsbewertung zu erleichtern. Diese Ansätze sind darauf ausgelegt, die Überlegenheit der CNNs bei der lokalen Merkmals-extraktion zu nutzen und gleichzeitig die Fähigkeit der Transformer zur Modellierung des globalen Kontexts auszuschöpfen. Am Ende des Papiers werden die Perspektiven von Hybridmodellen bei der Objekterkennung und die Erkenntnisse zur Anleitung weiterer Forschungen diskutiert.
Lijuan Gao (Tue,) hat diese Frage untersucht.