January 7, 2022

استغلال السياقات الزمنية مع المحولات المتدرجة لتقدير وضع الإنسان ثلاثي الأبعاد

Key Points

Key points are not available for this paper at this time.

Abstract

على الرغم من التقدم الكبير في تقدير وضع الإنسان ثلاثي الأبعاد من مقاطع الفيديو، لا يزال من الضروري الاستفادة الكاملة من تسلسل الوضع ثنائي الأبعاد الزائد لتعلم تمثيلات تمثيلية لتوليد وضع ثلاثي الأبعاد واحد. لهذا الغرض، نقترح بنية محسنة قائمة على المحولات، تُسمى المحول المتدرج، التي ترفع ببساطة وفعالية تسلسلًا طويلاً من مواقع المفاصل ثنائية الأبعاد إلى وضع ثلاثي الأبعاد واحد. على وجه التحديد، تم اعتماد مشفر المحول التقليدي (VTE) لنمذجة التبعيات بعيدة المدى لتسلسلات الوضع ثنائي الأبعاد. لتقليل تكرار التسلسل، تم استبدال الطبقات المتصلة بالكامل في شبكة التغذية الأمامية الخاصة بـ VTE بالتفافات متدرجة لتقليص طول التسلسل بشكل تدريجي وتجمع المعلومات من السياقات المحلية. يُسمى VTE المعدل بمشفر المحول المتدرج (STE)، والذي يتم بناؤه على مخرجات VTE. لا يساهم STE فقط في تجميع المعلومات بعيدة المدى إلى تمثيل متجه واحد بطريقة هرمية على المستويين العالمي والمحلي، ولكنه يقلل أيضًا بشكل كبير من تكلفة الحساب. علاوة على ذلك، تم تصميم Scheme للإشراف من كامل إلى مفرد على كل من مقاييس التسلسل الكامل وإطار الهدف الواحد المطبقة على مخرجات VTE وSTE، على التوالي. يفرض هذا النظام قيودًا إضافية على السلاسة الزمنية بالتزامن مع إشراف إطار الهدف المفرد، وبالتالي يساعد على إنتاج أوضاع ثلاثية الأبعاد أكثر سلاسة ودقة. تم تقييم المحول المتدرج المقترح على مجموعتين من البيانات المرجعية الصعبة، Human3.6 M وHumanEva-I، وحقق نتائج متطورة مع عدد أقل من المعلمات. الشيفرات والنماذج متاحة على https://github.com/Vegetebird/StridedTransformer-Pose3D.

Bookmark

استغلال السياقات الزمنية مع المحولات المتدرجة لتقدير وضع الإنسان ثلاثي الأبعاد

Key Points

Abstract

Cite This Study

Also Consider

Also Consider