لقد حققت نماذج الانتشار نجاحًا كبيرًا في مجال توليد النص إلى الصورة. ومع ذلك، فإن تخفيف عدم التوافق بين العبارات النصية والصور لا يزال يمثل تحديًا. لم يتم التحقيق بشكل واسع في السبب الجذري وراء عدم التوافق. نحن نلاحظ أن عدم التوافق ناتج عن عدم كفاية تفعيل انتباه الرموز. وننسب هذا الظاهرة إلى عدم كفاية استخدام ظروف نموذج الانتشار، والذي يسببه نمط تدريبه. لمعالجة هذه المشكلة، نقترح CoMat، استراتيجية ضبط نموذج انتشار شامل مع آلية مطابقة مفهوم الصورة إلى النص. نحن نستفيد من نموذج وصف الصورة لقياس محاذاة الصورة إلى النص وإرشاد نموذج الانتشار لإعادة زيارة الرموز المهملة. كما نقترح وحدة تركيز سمات جديدة لمعالجة مشكلة ارتباط السمات. دون أي بيانات تفضيل صورة أو إنسان، نستخدم فقط 20 ألف عبارة نصية لضبط SDXL للحصول على CoMat-SDXL. تظهر التجارب الشاملة أن CoMat-SDXL تتفوق بشكل كبير على نموذج الأساس SDXL في معيارين لمحاذاة النص إلى الصورة وتحقق أداءً رائدًا.
درس جيانغ وآخرون (الخميس) هذا السؤال.