Key points are not available for this paper at this time.
نقدم نموذج Prompt Diffusion، وهو إطار يمكّن التعلم في السياق في نماذج الإنتاج القائمة على الانتشار. نظرًا لوجود زوج من صور أمثلة محددة للمهمة، مثل العمق من/إلى الصورة و الرسم من/إلى الصورة، و توجيه نصي، يفهم نموذجنا تلقائيًا المهمة الأساسية ويقوم بأداء نفس المهمة على صورة استعلام جديدة وفقًا للتوجيه النصي. لتحقيق ذلك، نقترح توجيه رؤية-لغة يمكنه نمذجة مجموعة واسعة من المهام المتعلقة بالرؤية واللغة ونموذج انتشار يستقبله كمدخل. يتم تدريب نموذج الانتشار بشكل مشترك على ست مهام مختلفة باستخدام هذه التوجيهات. نموذج Prompt Diffusion الناتج هو أول نموذج أساسي للرؤية واللغة قائم على الانتشار قادر على التعلم في السياق. يوضح نموذجنا جودة عالية في التوليد داخل السياق على المهام المدربة ويتعمم بفعالية على مهام الرؤية الجديدة وغير المرئية مع توجيهاتها الخاصة. يظهر نموذجنا أيضًا نتائج تأثير صورة مثيرة للاستجابة للنص. يهدف إطارنا إلى تسهيل البحث في التعلم في السياق لرؤية الكمبيوتر. نشارك الشفرة والنماذج المدربة مسبقًا على https://github.com/Zhendong-Wang/Prompt-Diffusion.
دراسة وانغ وآخرون (Mon،) هذا السؤال.