Key points are not available for this paper at this time.
إن الانفجار في بيانات الصورة على الإنترنت له القدرة على تعزيز نماذج وخوارزميات أكثر تطورًا وملاءمة لفهرسة واسترجاع وتنظيم والتفاعل مع الصور وبيانات الوسائط المتعددة. ولكن كيف يمكن استغلال هذه البيانات وتنظيمها لا يزال يمثل مشكلة حاسمة. نقدم هنا قاعدة بيانات جديدة تسمى "ImageNet"، وهي أونتولوجيا للصور على نطاق واسع مبنية على الهيكل الأساسي لـ WordNet. يهدف ImageNet إلى ملء معظم الـ 80,000 مجموعة مترادفات من WordNet بمعدل 500–1000 صورة نظيفة وكاملة الدقة. سيؤدي ذلك إلى عشرات الملايين من الصور المعلَّمة المنظمة حسب التسلسل الهرمي الدلالي لـ WordNet. تقدم هذه الورقة تحليلًا مفصلًا لـ ImageNet في حالته الحالية: 12 شجرة فرعية مع 5247 مجموعة مترادفات و3.2 مليون صورة في المجموع. نوضح أن ImageNet أكبر بكثير من حيث الحجم والتنوع وأكثر دقة من مجموعات البيانات الصور الحالية. إن إنشاء قاعدة بيانات على نطاق واسع من هذا القبيل هو مهمة تحدٍ. نصف خطة جمع البيانات باستخدام Amazon Mechanical Turk. أخيرًا، نوضح فائدة ImageNet من خلال ثلاثة تطبيقات بسيطة في التعرف على الأجسام، وتصنيف الصور، والتجميع التلقائي للأجسام. نأمل أن يوفر حجم ImageNet، ودقته، وتنوعه، وبنيته الهرمية فرصًا لا مثيل لها للباحثين في مجتمع رؤية الكمبيوتر وما وراءه.
درس Deng وآخرون (Mon ،) هذا السؤال.