April 26, 2024Open Access

شبكة محول جديدة لتقدير العمق من كاميرات الأحداث عبر التقطير المعرفي بين النماذج.

Key Points

Key points are not available for this paper at this time.

Abstract

تقدير العمق أمر بالغ الأهمية لفهم البيئات المعقدة، خاصة في مجالات مثل الملاحة في المركبات ذاتية القيادة والروبوتات. ومع ذلك، تظل عملية الحصول على قراءات عمق دقيقة من بيانات كاميرات الأحداث تحديًا كبيرًا. تعمل كاميرات الأحداث بشكل مختلف عن الكاميرات الرقمية التقليدية، حيث تلتقط البيانات بشكل مستمر وتولد نبضات ثنائية غير متزامنة تشفر الوقت والموقع وشدة الضوء. ومع ذلك، فإن آليات أخذ العينات الفريدة في كاميرات الأحداث تجعل الخوارزميات القائمة على الصور القياسية غير كافية لمعالجة بيانات النبضات. وهذا يتطلب تطوير خوارزميات مبتكرة موجهة للنبضات مصممة خصيصًا لكاميرات الأحداث، وهي مهمة تتعقد بسبب عدم الانتظام، والاستمرارية، والضوضاء، والخصائص المكانية والزمانية الموروثة في بيانات النبضات. من خلال استغلال قدرات التعميم القوية لشبكات المحولات العصبية للبيانات الزمكانية، نقترح شبكة محول مدفوعة بالكامل بالنبضات لتقدير العمق من بيانات كاميرات النبضات. للتعامل مع القيود في الأداء مع الشبكات العصبية النابضة، نقدم إطار عمل جديد لنقل المعرفة عبر مراحل متعددة يستفيد من المعرفة من نموذج أساسي واسع للرؤية عن الشبكات العصبية الاصطناعية (ANN) (DINOv2) لتعزيز أداء الشبكات العصبية النابضة مع بيانات محدودة. تظهر نتائج تجاربنا على كل من البيانات الاصطناعية والحقيقية تحسينات كبيرة مقارنة بالنماذج الحالية، مع مكاسب ملحوظة في الأخطاء المطلقة النسبية والخطأ النسبي التربيعي (تحسينات بنسبة 49% و39.77% مقارنة بالنموذج المرجعي Spike-T، على التوالي). بالإضافة إلى الدقة، يظهر النموذج المقترح أيضًا تقليلًا في استهلاك الطاقة، وهو عامل حاسم للتطبيقات العملية.

Read Full Paperexternally

اسأل الذكاء الاصطناعي

Bookmark

View Full Paper