Key points are not available for this paper at this time.
شهد توليد الصور من النصوص مؤخراً إنجازات ملحوظة. نقدم نموذج انتشار الصور المشروطة بالنص، والذي يسمى RAPHAEL، لتوليد صور فنية عالية تعكس بدقة النصوص المدخلة، وتشمل العديد من الأسماء والصفات والأفعال. يتم تحقيق ذلك عن طريق تجميع عشرات من طبقات مزيج الخبراء (MoEs)، أي طبقات space-MoE و time-MoE، مما يتيح المليارات من مسارات الانتشار (طرق) من المدخلات إلى المخرجات. تعمل كل مسار بحدس كـ "رسام" لتصوير مفهوم نصي معين على منطقة معينة من الصورة في خطوة زمنية معينة للانتشار. تكشف التجارب الشاملة أن RAPHAEL تتفوق على النماذج الرائدة الحديثة، مثل Stable Diffusion وERNIE-ViLG 2.0 وDeepFloyd وDALL-E 2، من حيث جودة الصورة والجاذبية الجمالية. أولاً، تظهر RAPHAEL أداءً متفوقاً في تغيير الصور عبر أنماط متنوعة، مثل الرسوم المتحركة اليابانية، والواقعية، والخيال العلمي، والتوضيح بالحبر. ثانياً، نموذج واحد يحتوي على ثلاثة مليارات من المعلمات، تم تدريبه على 1,000 A100 من وحدات معالجة الرسوميات لمدة شهرين، يحقق درجة FID صفرية رائدة تبلغ 6.61 على مجموعة بيانات COCO. علاوة على ذلك، تتفوق RAPHAEL بشكل كبير على نظرائها في التقييم البشري في مؤشر ViLG-300. نحن نعتقد أن RAPHAEL لديها القدرة على دفع حدود البحث في توليد الصور في كل من الأوساط الأكاديمية والصناعية، مما يمهد الطريق للاختراقات المستقبلية في هذا المجال المتطور بسرعة. يمكن العثور على مزيد من التفاصيل على صفحة ويب: https://raphael-painter.github.io/
درس شيو وزملاؤه (الإثنين) هذا السؤال.