Key points are not available for this paper at this time.
على الرغم من التقدم الكبير في تقدير وضع الإنسان ثلاثي الأبعاد من مقاطع الفيديو، لا يزال من الضروري الاستفادة الكاملة من تسلسل الوضع ثنائي الأبعاد الزائد لتعلم تمثيلات تمثيلية لتوليد وضع ثلاثي الأبعاد واحد. لهذا الغرض، نقترح بنية محسنة قائمة على المحولات، تُسمى المحول المتدرج، التي ترفع ببساطة وفعالية تسلسلًا طويلاً من مواقع المفاصل ثنائية الأبعاد إلى وضع ثلاثي الأبعاد واحد. على وجه التحديد، تم اعتماد مشفر المحول التقليدي (VTE) لنمذجة التبعيات بعيدة المدى لتسلسلات الوضع ثنائي الأبعاد. لتقليل تكرار التسلسل، تم استبدال الطبقات المتصلة بالكامل في شبكة التغذية الأمامية الخاصة بـ VTE بالتفافات متدرجة لتقليص طول التسلسل بشكل تدريجي وتجمع المعلومات من السياقات المحلية. يُسمى VTE المعدل بمشفر المحول المتدرج (STE)، والذي يتم بناؤه على مخرجات VTE. لا يساهم STE فقط في تجميع المعلومات بعيدة المدى إلى تمثيل متجه واحد بطريقة هرمية على المستويين العالمي والمحلي، ولكنه يقلل أيضًا بشكل كبير من تكلفة الحساب. علاوة على ذلك، تم تصميم Scheme للإشراف من كامل إلى مفرد على كل من مقاييس التسلسل الكامل وإطار الهدف الواحد المطبقة على مخرجات VTE وSTE، على التوالي. يفرض هذا النظام قيودًا إضافية على السلاسة الزمنية بالتزامن مع إشراف إطار الهدف المفرد، وبالتالي يساعد على إنتاج أوضاع ثلاثية الأبعاد أكثر سلاسة ودقة. تم تقييم المحول المتدرج المقترح على مجموعتين من البيانات المرجعية الصعبة، Human3.6 M وHumanEva-I، وحقق نتائج متطورة مع عدد أقل من المعلمات. الشيفرات والنماذج متاحة على https://github.com/Vegetebird/StridedTransformer-Pose3D.
دراسة Li وآخرون (الجمعة) هذا السؤال.
Synapse has enriched 2 closely related papers on similar clinical questions. Consider them for comparative context: