Key points are not available for this paper at this time.
In dieser Arbeit schlagen wir ein neues rechnerisches Framework vor, basierend auf generativen tiefen Modellen, zur Synthese von fotorealistischen Essensbildern aus einer textuellen Liste von Zutaten. Frühere Arbeiten zur Synthese von Bildern aus Text stützten sich typischerweise auf vortrainierte Textmodelle zur Extraktion von Textmerkmalen, gefolgt von generativen neuronalen Netzwerken (GAN), die darauf abzielen, realistische Bilder zu erzeugen, die auf den Textmerkmalen basieren. Diese Arbeiten konzentrieren sich hauptsächlich darauf, räumlich kompakte und gut definierte Kategorien von Objekten zu erzeugen, wie Vögel oder Blumen, aber Essensbilder sind erheblich komplexer, da sie aus mehreren Zutaten bestehen, deren Erscheinung und räumliche Eigenschaften zudem durch Kochmethoden weiter modifiziert werden. Um realistische Essensbilder aus Zutaten zu erzeugen, schlagen wir Cook Generative Adversarial Networks (CookGAN) vor. CookGAN baut zuerst ein auf Aufmerksamkeit basierendes Modell zur Assoziation von Zutaten und Bildern auf, das dann verwendet wird, um ein generatives neuronales Netzwerk zu konditionieren, das mit der Synthese von Essensbildern beauftragt ist. Darüber hinaus wird eine zyklusbewahrende Einschränkung hinzugefügt, um die Bildqualität weiter zu verbessern und das Aussehen zu kontrollieren. Experimente zeigen, dass unser Modell in der Lage ist, Essensbilder zu generieren, die den Zutaten entsprechen.
Han et al. (Sun,) haben diese Frage untersucht.
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: