What does this research mean for the field?

The proposed Dual-branch Hybrid Learning network (DHL) achieves state-of-the-art performance in unbiased Scene Graph Generation by utilizing separate learning branches to balance the representation of both head and tail predicates. Novelty: ClaimNovelty.METHODOLOGICAL. Consensus alignment: ConsensusAlignment.NEUTRAL.

July 16, 2022Open Access

Dual-Branch-Hybrid-Lernnetzwerk zur unvoreingenommenen Generierung von Szenen-Grafiken

Key Points

Key points are not available for this paper at this time.

Abstract

Die aktuellen Studien zur Generierung von Szenen-Grafiken (SGG) konzentrieren sich darauf, das Problem der langen Schwänze bei der Erzeugung unvoreingenommener Szenen-Grafiken zu lösen. Allerdings betonen die meisten Entbiasing-Methoden die Schwanz-Prädikate und unterschätzen die Kopf-Prädikate während des gesamten Trainings, wodurch die Repräsentationsfähigkeit der Merkmale der Kopf-Prädikate beeinträchtigt wird. Darüber hinaus schädigen diese beeinträchtigten Merkmale der Kopf-Prädikate das Lernen der Schwanz-Prädikate. Tatsächlich hängt die Inferenz der Schwanz-Prädikate stark von den allgemeinen Mustern ab, die von den Kopf-Prädikaten gelernt wurden, z. B. hängt "stehen auf" von "auf" ab. Daher können diese Entbiasing-SGG-Methoden weder hervorragende Leistungen bei den Schwanz-Prädikaten noch zufriedenstellende Ergebnisse bei den Kopf-Prädikaten erzielen. Um dieses Problem anzugehen, schlagen wir ein Dual-Branch-Hybrid-Lernnetzwerk (DHL) vor, das sowohl die Kopf-Prädikate als auch die Schwanz-Prädikate für SGG berücksichtigt, einschließlich eines Coarse-grained Learning Branch (CLB) und eines Fine-grained Learning Branch (FLB). Konkret ist der CLB verantwortlich für das Lernen von Fachwissen und robusten Merkmalen der Kopf-Prädikate, während der FLB informativen Schwanz-Prädikaten vorhersagen sollte. Darüber hinaus ist DHL mit einem Branch Curriculum Schedule (BCS) ausgestattet, um sicherzustellen, dass die beiden Zweige gut zusammenarbeiten. Experimente zeigen, dass unser Ansatz eine neue Spitzenleistung auf den VG- und GQA-Datensätzen erreicht und einen Kompromiss zwischen der Leistung der Schwanz-Prädikate und der Kopf-Prädikate eingeht. Darüber hinaus bestätigen umfassende Experimente zu zwei nachgelagerten Aufgaben (d. h. Bildbeschriftung und Satz-zu-Grafik-Retrieval) weiter die Verallgemeinerung und Praktikabilität unserer Methode.

Bookmark

View Full Paper

Bookmark

View Full Paper

Dual-Branch-Hybrid-Lernnetzwerk zur unvoreingenommenen Generierung von Szenen-Grafiken

Key Points

Abstract

Cite This Study