Key points are not available for this paper at this time.
Die Erzeugung von strichbasierten, nicht fotorealistischen Bildern ist ein wichtiges Problem in der Computer Vision-Community. Als Bestreben in diese Richtung haben sich erhebliche aktuelle Forschungsanstrengungen darauf konzentriert, Maschinen "zu lehren, wie man malt", auf eine ähnliche Weise wie ein menschlicher Maler. Die Anwendbarkeit früherer Methoden war jedoch auf Datensätze mit wenig Variation in Position, Maßstab und Auffälligkeit des Vordergrundobjekts beschränkt. Infolgedessen stellen wir fest, dass diese Methoden Schwierigkeiten haben, die Granularität und Vielfalt realer Bilder abzudecken. Zu diesem Zweck schlagen wir eine semantische Führungs-Pipeline vor mit 1) einem bi-level Malverfahren, um den Unterschied zwischen Vordergrund- und Hintergrundpinseln während des Trainings zu lernen. 2) Wir führen auch Invarianz gegenüber Position und Maßstab des Vordergrundobjekts durch ein neuronales Ausrichtungsmodell ein, das Objektlokalisierung und räumliche Transformatornetzwerke in einer End-to-End-Manier kombiniert, um auf eine bestimmte semantische Instanz zu zoomen. 3) Die unterscheidenden Merkmale des im Fokus befindlichen Objekts werden dann verstärkt, indem eine neuartige, auf geführter Rückpropagation basierende Fokussierungsbelohnung maximiert wird. Der vorgeschlagene Agent benötigt keine Aufsicht über menschliche Strichdaten und bewältigt erfolgreich Variationen in den Attributen des Vordergrundobjekts, wodurch er deutlich hochwertigere Leinwände für die Datensätze CUB-200 Birds 29 und Stanford Cars-196 17 erzeugt. Schließlich demonstrieren wir die weitere Wirksamkeit unserer Methode auf komplexen Datensätzen mit mehreren Vordergrundobjektinstanzen, indem wir eine Erweiterung unserer Methode auf dem herausfordernden Virtual-KITTI 2-Datensatz auswerten. Quellcode und Modelle sind unter https://github.com/1jsingh/semantic-guidance verfügbar.
Singh et al. (Tue,) untersuchten diese Frage.