April 4, 2024Open Access

CoMat: محاذاة نموذج انتشار النص إلى الصورة مع مطابقة مفهوم الصورة إلى النص

Key Points

تحسن CoMat-SDXL بشكل كبير في محاذاة النص إلى الصورة مقارنةً بنموذج الأساس SDXL.
في معيارين، حققت CoMat-SDXL أداءً رائدًا مع تحقيق validation تجريبي شامل.
استخدم التقييم استراتيجية ضبط شامل تعتمد على نموذج وصف الصورة كإرشاد لقضايا تفعيل انتباه الرموز والمحاذاة. يساعد إضافة وحدة تركيز سمات جديدة في معالجة مشكلة ارتباط السمات، مما يؤدي إلى تكامل أكثر اتساقًا بين البيانات البصرية والنصية.

Abstract

لقد حققت نماذج الانتشار نجاحًا كبيرًا في مجال توليد النص إلى الصورة. ومع ذلك، فإن تخفيف عدم التوافق بين العبارات النصية والصور لا يزال يمثل تحديًا. لم يتم التحقيق بشكل واسع في السبب الجذري وراء عدم التوافق. نحن نلاحظ أن عدم التوافق ناتج عن عدم كفاية تفعيل انتباه الرموز. وننسب هذا الظاهرة إلى عدم كفاية استخدام ظروف نموذج الانتشار، والذي يسببه نمط تدريبه. لمعالجة هذه المشكلة، نقترح CoMat، استراتيجية ضبط نموذج انتشار شامل مع آلية مطابقة مفهوم الصورة إلى النص. نحن نستفيد من نموذج وصف الصورة لقياس محاذاة الصورة إلى النص وإرشاد نموذج الانتشار لإعادة زيارة الرموز المهملة. كما نقترح وحدة تركيز سمات جديدة لمعالجة مشكلة ارتباط السمات. دون أي بيانات تفضيل صورة أو إنسان، نستخدم فقط 20 ألف عبارة نصية لضبط SDXL للحصول على CoMat-SDXL. تظهر التجارب الشاملة أن CoMat-SDXL تتفوق بشكل كبير على نموذج الأساس SDXL في معيارين لمحاذاة النص إلى الصورة وتحقق أداءً رائدًا.

CoMat: محاذاة نموذج انتشار النص إلى الصورة مع مطابقة مفهوم الصورة إلى النص

Key Points

Abstract

Cite This Study