Key points are not available for this paper at this time.
تقدم نماذج النص إلى الصورة حرية غير مسبوقة في توجيه الإبداع من خلال اللغة الطبيعية. ومع ذلك، فإنه من غير الواضح كيف يمكن ممارسة هذه الحرية لتوليد صور لمفاهيم فريدة ومحددة، أو تعديل مظهرها، أو تكوينها في أدوار جديدة ومشاهد جديدة. بعبارة أخرى، نسأل: كيف يمكننا استخدام النماذج الموجهة باللغة لتحويل قطتنا إلى لوحة، أو تخيل منتج جديد بناءً على لعبتنا المفضلة؟ هنا نقدم نهجًا بسيطًا يسمح بهذه الحرية الإبداعية. باستخدام 3-5 صور فقط لمفهوم يقدمه المستخدم، مثل كائن أو نمط، نتعلم تمثيله من خلال "كلمات" جديدة في فضاء التضمين لنموذج النص إلى الصورة المجمد. يمكن دمج هذه "الكلمات" في جمل باللغة الطبيعية، مما يوجه الإبداع المخصص بطريقة بديهية. ومن الملاحظ أننا نجد دليلًا على أن تضمين كلمة واحدة كافٍ لالتقاط مفاهيم فريدة ومتنوعة. نقارن نهجنا بمجموعة واسعة من المعايير، ونظهر أنه يمكنه تصوير المفاهيم بدقة أكبر عبر مجموعة من التطبيقات والمهام. سيكون كودنا وبياناتنا وكلماتنا الجديدة متاحة على: https://textual-inversion.github.io
قد درس غال وآخرون هذا السؤال.