حققت محولات الانتشار (DiTs) أداءً رائعًا في توليد الصور والفيديو من النصوص. ومع ذلك، فإن تكلفتها الحسابية العالية وحجم معلماتها الكبير يشكلان تحديات كبيرة للاستخدام في السيناريوهات التي تقتصر على موارد محدودة. أصبح الضغط الفعّال للنماذج مسألة حاسمة تحتاج إلى معالجة عاجلة. التكميم بعد التدريب (PTQ) هو حل واعد لتقليل استخدام الذاكرة وتسريع الاستدلال، لكن طرق PTQ الحالية تعاني من تدهور شديد في الأداء تحت إعدادات بت منخفضة للغاية. بعد التجارب والتحليل، حددنا عقبتين رئيسيتين أمام PTQ منخفض البت لمحوّلات الانتشار: (1) تتابع أوزان نماذج DiT توزيعًا يشبه التوزيع الغاوسي مع ذيول طويلة، مما يجعل التكميم الموحد يخصص فترات بشكل سيء ويؤدي إلى أخطاء تكميم كبيرة. لوحظت هذه المشكلة في أوزان الطبقات الخطية لنماذج DiT المختلفة، مما يحد بشكل عميق من الأداء. (2) نوعان من القيم الشاذة في التنشيط بنماذج DiT: (ط) القيم الشاذة البسيطة ذات القيم المرتفعة قليلًا، و(2) القيم الشاذة البارزة ذات المقادير الكبيرة والمركزة في قنوات محددة، مما يعطل تكميم التنشيط. لمعالجة هذه القضايا، نقترح LRQ-DiT، إطار عمل فعّال ودقيق للتكميم بعد التدريب لتوليد الصور والفيديو. أولًا، نقدم التكميم اللوغاريتمي التوأم (TLQ)، الطريقة المعتمدة على اللوغاريتم التي تخصّص مزيدًا من فترات التكميم للمناطق الكثيفة المتوسطة، مما يحقق توافقًا فعالًا مع توزيع الأوزان ويقلل من أخطاء التكميم. ثانيًا، نقترح نظام الدوران التكيفي (ARS) الذي يطبق بشكل ديناميكي دوران هادامارد أو دوران متيقظ للقيم الشاذة اعتمادًا على تقلب التنشيط، مما يخفف بشكل فعال من تأثير كلا النوعين من القيم الشاذة. أظهرت التجارب الشاملة على نماذج DiT المختلفة لتوليد الصور والفيديو من النصوص أن LRQ-DiT يحافظ على جودة توليد عالية.
درس يانغ وآخرون (الثلاثاء) هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: