Key points are not available for this paper at this time.
بالنسبة للمركبات الذاتية القيادة (AVs)، فإن القدرة على الإدراك الفعال من النهاية إلى النهاية وتوقع المسار المستقبلي أمر حيوي في التخطيط لمناورة آلية آمنة. في نظم المركبات الذاتية الحالية، يعد الإدراك والتوقع وحدتين منفصلتين. يتلقى وحدة التوقع كمية محدودة فقط من المعلومات من وحدة الإدراك. علاوة على ذلك، ستتفاقم أخطاء الإدراك في وحدة التوقع، مما يؤثر سلبًا على دقة نتائج التوقع. في هذه الورقة، نقدم إطارًا جديدًا يُعرف باسم BEV-TP، وهو شبكة محول مركزية موجهة بالسياق البصري للتصور ثلاثي الأبعاد المشترك وتوقع المسار. يستغل BEV-TP المعلومات البصرية من الصور متعددة المناظر المتتابعة ومعلومات السياق من الخرائط الدلالية عالية الدقة، للتنبؤ بمراكز أفضل للأجسام التي تُستخدم مواقعها للاسترشاد بالميزات البصرية وميزات السياق عبر آلية الانتباه. تسهل استعلامات الوكيل المستخرجة واستعلامات الخريطة تعلم وحدة المحول لتجميع الميزات بشكل أكبر. أخيرًا، تُستخدم رؤوس الانحدار المتعددة لأداء الكشف عن صناديق ثلاثية الأبعاد وتوقع السرعة المستقبلية. يُحقق هذا النهج المركزي إطارًا للتوقع يتسم بالتمييز والبساطة والكفاءة في التوقع من النهاية إلى النهاية. تُظهر التجارب الموسعة التي أُجريت على مجموعة بيانات nuScenes فعالية BEV-TP مقارنةً بخطوط الإنتاج التقليدية مع النماذج المتسلسلة.
قام لанг وآخرون (الإثنين) بدراسة هذا السؤال.