Die fein abgestufte visuelle Klassifikation (FGVC) ist aufgrund der von Natur aus subtilen intra-klassigen Objektvariationen deutlich herausfordernder als traditionelle Klassifikationsaufgaben. Aktuelle Arbeiten basieren hauptsächlich auf Teilen (entweder explizit oder implizit), mit der Annahme, dass feinkörnige Informationen natürlich in den Teilen liegen. In diesem Beitrag vertreten wir einen anderen Standpunkt und zeigen, dass Teileoperationen nicht strikt notwendig sind – der Schlüssel liegt darin, das Netzwerk zu ermutigen, auf unterschiedlichen Granularitätsebenen zu lernen und mehrstufige Merkmale schrittweise zusammenzuführen. Insbesondere schlagen wir vor: (i) eine progressive Trainingsstrategie, die Merkmale aus unterschiedlichen Granularitäten effektiv fusioniert, und (ii) eine konsistente Block-Faltung, die das Netzwerk dazu anregt, kategorie-konsistente Merkmale auf spezifischen Granularitäten zu lernen. Wir evaluieren an mehreren standardisierten FGVC-Benchmark-Datensätzen und zeigen, dass die vorgeschlagene Methode durchweg bestehende Alternativen übertrifft oder konkurrenzfähige Ergebnisse erzielt. Der Code ist verfügbar unter https://github.com/PRIS-CV/PMG-V2.
Du et al. (Tue,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: