Key points are not available for this paper at this time.
تتطلب إنشاء فيديوهات بشرية واقعية مواجهة التحدي المتمثل في القدرة على توليد الشكل والحركة في آن واحد. لمواجهة هذا التحدي، نقدم G3AN، نموذج توليدي زمني مكاني جديد، يسعى لالتقاط توزيع بيانات الفيديو عالية الأبعاد ونمذجة الشكل والحركة بشكل مفصول. يتم تحقيق ذلك عن طريق تفكيك الشكل والحركة في مولد ثلاثي المعايير، حيث يهدف المعيار الرئيسي إلى نمذجة الاتساق الزمني المكاني، بينما تعزز المعياران المساعدان المعيار الرئيسي مع ميزات الشكل والحركة على مقاييس متعددة على التوالي. تُظهر تحليلات كمية ونوعية شاملة أن نموذجنا يتفوق بشكل منهجي وملحوظ على أحدث الأساليب في مجموعات بيانات تعبير الوجه MUG و UvA-NEMO، وكذلك في مجموعات بيانات Weizmann و UCF101 المتعلقة بالإجراءات البشرية. تؤكد تحليلات إضافية على التمثيلات الكامنة التي تم تعلمها التفكيك الناجح للشكل والحركة.
درس وانغ وزملاؤه (Mon,) هذا السؤال.