June 1, 2020Open Access

G3AN: فصل الشكل والحركة لتوليد الفيديو

Key Points

Key points are not available for this paper at this time.

Abstract

تتطلب إنشاء فيديوهات بشرية واقعية مواجهة التحدي المتمثل في القدرة على توليد الشكل والحركة في آن واحد. لمواجهة هذا التحدي، نقدم G3AN، نموذج توليدي زمني مكاني جديد، يسعى لالتقاط توزيع بيانات الفيديو عالية الأبعاد ونمذجة الشكل والحركة بشكل مفصول. يتم تحقيق ذلك عن طريق تفكيك الشكل والحركة في مولد ثلاثي المعايير، حيث يهدف المعيار الرئيسي إلى نمذجة الاتساق الزمني المكاني، بينما تعزز المعياران المساعدان المعيار الرئيسي مع ميزات الشكل والحركة على مقاييس متعددة على التوالي. تُظهر تحليلات كمية ونوعية شاملة أن نموذجنا يتفوق بشكل منهجي وملحوظ على أحدث الأساليب في مجموعات بيانات تعبير الوجه MUG و UvA-NEMO، وكذلك في مجموعات بيانات Weizmann و UCF101 المتعلقة بالإجراءات البشرية. تؤكد تحليلات إضافية على التمثيلات الكامنة التي تم تعلمها التفكيك الناجح للشكل والحركة.

Read Full Paperexternally

اسأل الذكاء الاصطناعي

Bookmark

View Full Paper