Key points are not available for this paper at this time.
Die aktuellen Studien zur Generierung von Szenen-Grafiken (SGG) konzentrieren sich darauf, das Problem der langen Schwänze bei der Erzeugung unvoreingenommener Szenen-Grafiken zu lösen. Allerdings betonen die meisten Entbiasing-Methoden die Schwanz-Prädikate und unterschätzen die Kopf-Prädikate während des gesamten Trainings, wodurch die Repräsentationsfähigkeit der Merkmale der Kopf-Prädikate beeinträchtigt wird. Darüber hinaus schädigen diese beeinträchtigten Merkmale der Kopf-Prädikate das Lernen der Schwanz-Prädikate. Tatsächlich hängt die Inferenz der Schwanz-Prädikate stark von den allgemeinen Mustern ab, die von den Kopf-Prädikaten gelernt wurden, z. B. hängt "stehen auf" von "auf" ab. Daher können diese Entbiasing-SGG-Methoden weder hervorragende Leistungen bei den Schwanz-Prädikaten noch zufriedenstellende Ergebnisse bei den Kopf-Prädikaten erzielen. Um dieses Problem anzugehen, schlagen wir ein Dual-Branch-Hybrid-Lernnetzwerk (DHL) vor, das sowohl die Kopf-Prädikate als auch die Schwanz-Prädikate für SGG berücksichtigt, einschließlich eines Coarse-grained Learning Branch (CLB) und eines Fine-grained Learning Branch (FLB). Konkret ist der CLB verantwortlich für das Lernen von Fachwissen und robusten Merkmalen der Kopf-Prädikate, während der FLB informativen Schwanz-Prädikaten vorhersagen sollte. Darüber hinaus ist DHL mit einem Branch Curriculum Schedule (BCS) ausgestattet, um sicherzustellen, dass die beiden Zweige gut zusammenarbeiten. Experimente zeigen, dass unser Ansatz eine neue Spitzenleistung auf den VG- und GQA-Datensätzen erreicht und einen Kompromiss zwischen der Leistung der Schwanz-Prädikate und der Kopf-Prädikate eingeht. Darüber hinaus bestätigen umfassende Experimente zu zwei nachgelagerten Aufgaben (d. h. Bildbeschriftung und Satz-zu-Grafik-Retrieval) weiter die Verallgemeinerung und Praktikabilität unserer Methode.
Zheng et al. (Sa,) haben diese Frage untersucht.