April 5, 2024Open Access

Diffusion-RWKV: توسيع الهياكل الشبيهة بـ RWKV لنماذج الانتشار

Key Points

Key points are not available for this paper at this time.

Abstract

لقد حفزت المحولات التقدمات في مجالات الرؤية الحاسوبية ومعالجة اللغة الطبيعية (NLP). ومع ذلك، فإن التعقيد الحسابي الكبير يمثل قيودًا على تطبيقاتها في المهام ذات السياقات الطويلة، مثل توليد الصور عالية الدقة. تقدم هذه الورقة سلسلة من الهياكل المعدلة من نموذج RWKV المستخدم في NLP، مع التعديلات المطلوبة التي تناسب نموذج الانتشار المطبق على مهام توليد الصور، والذي يُطلق عليه اسم Diffusion-RWKV. مثل نموذج الانتشار باستخدام المحولات، تم تصميم نموذجنا لمعالجة الإدخالات المقطعة بكفاءة في تسلسل مع شروط إضافية، بينما يتوسع بشكل فعّال، مستوعبًا كل من المعلمات واسعة النطاق ومجموعات البيانات الكبيرة. يتمثل ميزته المميزة في تقليل تعقيد التجميع المكاني، مما يجعله فعالاً بشكل استثنائي في معالجة الصور عالية الدقة، وبالتالي يقضي على ضرورة استخدام عمليات النوافذ أو التجميع المؤقت. تظهر النتائج التجريبية على مهام توليد الصور الشرطية وغير الشرطية أن Diffusion-RWKV يحقق أداءً يماثل أو يتفوق على نماذج الانتشار القائمة على CNN أو المحولات في مقاييس FID وIS، بينما يقلل بشكل كبير من إجمالي استخدام FLOP الحسابي.

Read Full Paperexternally

اسأل الذكاء الاصطناعي

Bookmark

View Full Paper