Die Mangorkrankheit stellt eine erhebliche Bedrohung für die Obstqualität und -erträge dar und erfordert hochgenaue Echtzeiterkennungssysteme. Bestehende Ansätze des Deep Learning, insbesondere transformerbasierte Modelle, leiden jedoch oft unter prohibitiver rechnerischer Komplexität (quadratische Skalierung), was deren Einsatz auf ressourcenbeschränkten Edge-Geräten einschränkt. Um diese Herausforderung zu bewältigen, führt diese Studie MangoMamba ein, eine neuartige leichtgewichtige hybride Architektur, die speziell für mobile Einsätze optimiert ist. Das vorgeschlagene Modell integriert Multi-Scale Mamba Mixers mit Large-Kernel Attention-Mechanismen innerhalb eines hierarchischen vierstufigen Rahmens, wodurch eine lineare rechnerische Komplexität bei gleichzeitiger Beibehaltung globaler rezeptiver Felder ermöglicht wird. Experimentelle Evaluierungen wurden an den Datensätzen MangoLeafBD und dem neu kuratierten VN-MangoLeaf-Datensatz durchgeführt, der 7000 Bilder verschiedener vietnamesischer Mangosorten umfasst. Die Ergebnisse zeigen, dass MangoMamba wettbewerbsfähige Klassifikationsgenauigkeiten von 99,75 % und 98,71 % auf den jeweiligen Datensätzen erreicht. Von entscheidender Bedeutung ist, dass das Modell eine außergewöhnliche Effizienz mit nur 5,8 Millionen Parametern und einer Inferenzlatenz von 1,46 ms pro Bild auf der T4-GPU zeigt, was ungefähr 80 mal schneller ist als die aktuellen ViX-MangoEFormer-Architekturen. Darüber hinaus wird die praktische Umsetzbarkeit des vorgeschlagenen Ansatzes durch eine funktionale Android-Anwendung validiert, die Offline-Inferenz (100–300 ms Latenz) auf Standard-Smartphones ermöglicht. Diese Ergebnisse bestätigen, dass MangoMamba einen neuen wettbewerbsfähigen Kompromiss zwischen Genauigkeit und Effizienz für Anwendungen in der intelligenten Landwirtschaft schafft. • MangoMamba erreicht ≤ 1,52 ms GPU-Inferenz mit wettbewerbsfähiger Genauigkeit. • Hybrid Mamba-Attention-Modell bietet lineare Komplexität für die Krankheitsdetektion. • VN-MangoLeaf-Datensatz eingeführt: 7000 Bilder aus Vietnam mit Rostkrankheit. • Dreiphasige Curriculum-Lernmethode ermöglicht den geografischen Wissens transfer. • Leichtgewichtiges Modell ≤ 25 MB ermöglicht die Erkennung auf Smartphones in 100–300 ms.
Nguyen-Tat et al. (Sat,) haben diese Frage untersucht.