Key points are not available for this paper at this time.
مع نجاح الهياكل الحسابية الجديدة لمعالجة الصور، مثل الشبكات العصبية التلافيفية (CNN) والوصول إلى قواعد بيانات الصور التي تحتوي على ملايين من الأمثلة المصنفة (مثل ImageNet وPlaces)، فإن حالة الفن في رؤية الكمبيوتر تتقدم بسرعة. أحد العوامل المهمة لاستمرار التقدم هو فهم التمثيلات التي يتم تعلمها من الطبقات الداخلية لهذه الهياكل العميقة. هنا نوضح أن كاشفات الأجسام تظهر من تدريب الشبكات العصبية التلافيفية على أداء تصنيف المشاهد. حيث أن المشاهد تتكون من أجسام، تكتشف الشبكة العصبية التلافيفية لتصنيف المشاهد تلقائيًا كاشفات أجسام ذات معنى، تمثل فئات المشاهد المتعلمة. مع ظهور كاشفات الأجسام نتيجة التعلم للتعرف على المشاهد، يظهر عملنا أن نفس الشبكة يمكن أن تؤدي كل من التعرف على المشهد وتحديد موقع الجسم في تمريرة واحدة للأمام، دون أن يتم تعليمها صراحة مفهوم الأجسام.
درس زهو وآخرون (Mon,) هذا السؤال.