تتطلب نماذج التعلم العميق الحديثة في رؤية الكمبيوتر مجموعات بيانات كبيرة من الصور الحقيقية، والتي يصعب تنسيقها وتثير مخاوف تتعلق بالخصوصية والقانون، مما يحد من استخدامها التجاري. تشير الأعمال الأخيرة إلى البيانات الاصطناعية كبديل، ومع ذلك، فإن النماذج المدربة عليها غالبًا ما تكون أدائها أقل. تقترح هذه الورقة نهجًا من خطوتين لسد هذه الفجوة. أولاً، نقترح صياغة فراكتالية عصبية محسنة نقدم من خلالها فئة جديدة من البيانات الاصطناعية. ثانيًا، نقترح تقنيات النمط العكسي، وهي تقنية تنقل الميزات المرئية من مجموعة صغيرة من الصور الحقيقية بلا ترخيص إلى مجموعات بيانات اصطناعية، مما يعزز فعاليتها. نقوم بتحليل فجوة المجال بين مجموعات البيانات الاصطناعية لدينا والصور الحقيقية باستخدام مسافة البداية kernel Inception Distance (KID) ونعرض أن طريقتنا تحقق فجوة توزيعية أقل بكثير بالمقارنة مع مجموعات البيانات الاصطناعية الموجودة. علاوة على ذلك، تظهر تجاربنا عبر مهام مختلفة التأثير العملي لهذه الفجوة المنخفضة. نظهر أن إعداد نموذج انتشار EDM2 على مجموعتنا الاصطناعية يؤدي إلى تقليل بنسبة 11% في FID أثناء توليد الصور، مقارنة بالنماذج المدربة على مجموعات البيانات الاصطناعية الموجودة، وانخفاض بنسبة 20% في خطأ إعادة بناء نموذج التعليم الذاتي، مما يشير إلى تحسين الأداء في تمثيل البيانات. علاوة على ذلك، حقق نموذج ViT-S المدرب للتصنيف على هذه البيانات الاصطناعية أكثر من 10% تحسين في دقة ImageNet-100. يفتح عملنا آفاقًا مثيرة لتدريب نماذج عملية عندما لا تكون مجموعات بيانات التدريب الحقيقية الكبيرة متاحة.
درس سلاحي وآخرون (الثلاثاء) هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: