August 2, 2022Open Access

الصورة تساوي كلمة واحدة: تخصيص توليد النص إلى صورة باستخدام الانعكاس النصي

Key Points

Key points are not available for this paper at this time.

Abstract

تقدم نماذج النص إلى الصورة حرية غير مسبوقة في توجيه الإبداع من خلال اللغة الطبيعية. ومع ذلك، فإنه من غير الواضح كيف يمكن ممارسة هذه الحرية لتوليد صور لمفاهيم فريدة ومحددة، أو تعديل مظهرها، أو تكوينها في أدوار جديدة ومشاهد جديدة. بعبارة أخرى، نسأل: كيف يمكننا استخدام النماذج الموجهة باللغة لتحويل قطتنا إلى لوحة، أو تخيل منتج جديد بناءً على لعبتنا المفضلة؟ هنا نقدم نهجًا بسيطًا يسمح بهذه الحرية الإبداعية. باستخدام 3-5 صور فقط لمفهوم يقدمه المستخدم، مثل كائن أو نمط، نتعلم تمثيله من خلال "كلمات" جديدة في فضاء التضمين لنموذج النص إلى الصورة المجمد. يمكن دمج هذه "الكلمات" في جمل باللغة الطبيعية، مما يوجه الإبداع المخصص بطريقة بديهية. ومن الملاحظ أننا نجد دليلًا على أن تضمين كلمة واحدة كافٍ لالتقاط مفاهيم فريدة ومتنوعة. نقارن نهجنا بمجموعة واسعة من المعايير، ونظهر أنه يمكنه تصوير المفاهيم بدقة أكبر عبر مجموعة من التطبيقات والمهام. سيكون كودنا وبياناتنا وكلماتنا الجديدة متاحة على: https://textual-inversion.github.io

Bookmark

View Full Paper

Bookmark

View Full Paper

الصورة تساوي كلمة واحدة: تخصيص توليد النص إلى صورة باستخدام الانعكاس النصي

Key Points

Abstract

Cite This Study