Key points are not available for this paper at this time.
أدت التقدمات الحديثة في نماذج متابعة التعليمات إلى جعل تفاعلات المستخدمين مع النماذج أكثر سهولة وكفاءة، مما وسع من تطبيقاتها. في تصميم الرسوم، غالبًا ما يكافح المستخدمون غير المحترفين لإنشاء تخيلات بصرية جذابة بسبب المهارات والموارد المحدودة. في هذا العمل، نقدم إطار عمل جديد متعدد الوسائط لمتابعة التعليمات لتخطيط التخطيطات، مما يسمح للمستخدمين بترتيب العناصر البصرية بسهولة في تخطيطات مخصصة من خلال تحديد حجم اللوحة والغرض من التصميم، مثل أغلفة الكتب والملصقات والكتيبات أو القوائم. قمنا بتطوير ثلاث مهام لاستدلال التخطيط لتدريب النموذج على فهم وتنفيذ تعليمات التخطيط. تُظهر التجارب على معيارين أن طريقتنا لا تبسط فقط عملية التصميم لغير المحترفين ولكنها تتجاوز أيضًا أداء نماذج GPT-4V ذات اللقطات القليلة، مع زيادة المIoU بنسبة 12% على Crello. يبرز هذا التقدم إمكانيات نماذج متابعة التعليمات متعددة الوسائط لأتمتة وتبسيط عملية التصميم، مما يوفر حلاً قابلاً للوصول لمجموعة واسعة من مهام التصميم على المستندات الغنية بصريًا.
درس زهو وآخرون (الثلاثاء) هذا السؤال.