What type of study is this?

This is a Quantitative Study study.

October 3, 2025Open Access

LRQ-DiT: التكميم بعد التدريب بالدوران اللوغاريتمي لمحوّلات الانتشار لتوليد الصور والفيديو

Key Points

يحسّن LRQ-DiT التكميم بعد التدريب منخفض البت، محافظًا بفعالية على جودة توليد عالية.
تحسن طريقة التكميم اللوغاريتمي التوأم توزيع الأوزان، مما يقلل من أخطاء التكميم في محولات الانتشار.
يقوم نظام الدوران التكيفي بضبط التكميم ديناميكيًا لتقليل تأثير القيم الشاذة في التنشيط، مما يعزز دقة النموذج.
تظهر التجارب أن LRQ-DiT يتفوق على الطرق الحالية في السيناريوهات المحدودة الموارد، داعمًا الوصول الأوسع.

Abstract

حققت محولات الانتشار (DiTs) أداءً رائعًا في توليد الصور والفيديو من النصوص. ومع ذلك، فإن تكلفتها الحسابية العالية وحجم معلماتها الكبير يشكلان تحديات كبيرة للاستخدام في السيناريوهات التي تقتصر على موارد محدودة. أصبح الضغط الفعّال للنماذج مسألة حاسمة تحتاج إلى معالجة عاجلة. التكميم بعد التدريب (PTQ) هو حل واعد لتقليل استخدام الذاكرة وتسريع الاستدلال، لكن طرق PTQ الحالية تعاني من تدهور شديد في الأداء تحت إعدادات بت منخفضة للغاية. بعد التجارب والتحليل، حددنا عقبتين رئيسيتين أمام PTQ منخفض البت لمحوّلات الانتشار: (1) تتابع أوزان نماذج DiT توزيعًا يشبه التوزيع الغاوسي مع ذيول طويلة، مما يجعل التكميم الموحد يخصص فترات بشكل سيء ويؤدي إلى أخطاء تكميم كبيرة. لوحظت هذه المشكلة في أوزان الطبقات الخطية لنماذج DiT المختلفة، مما يحد بشكل عميق من الأداء. (2) نوعان من القيم الشاذة في التنشيط بنماذج DiT: (ط) القيم الشاذة البسيطة ذات القيم المرتفعة قليلًا، و(2) القيم الشاذة البارزة ذات المقادير الكبيرة والمركزة في قنوات محددة، مما يعطل تكميم التنشيط. لمعالجة هذه القضايا، نقترح LRQ-DiT، إطار عمل فعّال ودقيق للتكميم بعد التدريب لتوليد الصور والفيديو. أولًا، نقدم التكميم اللوغاريتمي التوأم (TLQ)، الطريقة المعتمدة على اللوغاريتم التي تخصّص مزيدًا من فترات التكميم للمناطق الكثيفة المتوسطة، مما يحقق توافقًا فعالًا مع توزيع الأوزان ويقلل من أخطاء التكميم. ثانيًا، نقترح نظام الدوران التكيفي (ARS) الذي يطبق بشكل ديناميكي دوران هادامارد أو دوران متيقظ للقيم الشاذة اعتمادًا على تقلب التنشيط، مما يخفف بشكل فعال من تأثير كلا النوعين من القيم الشاذة. أظهرت التجارب الشاملة على نماذج DiT المختلفة لتوليد الصور والفيديو من النصوص أن LRQ-DiT يحافظ على جودة توليد عالية.

LRQ-DiT: التكميم بعد التدريب بالدوران اللوغاريتمي لمحوّلات الانتشار لتوليد الصور والفيديو

Key Points

Abstract

Cite This Study

Also Consider

Also Consider