March 17, 2017Open Access

نحو أوصاف تصويرية متنوعة وطبيعية عبر شبكة الخصومة التوليدية الشرطية

Key Points

Key points are not available for this paper at this time.

Abstract

على الرغم من التقدم الكبير في السنوات الأخيرة، فإن تقنيات كتابة العناوين حول الصور لا تزال بعيدة عن الكمال. الجمل التي تنتجها الطرق الحالية، على سبيل المثال تلك القائمة على الشبكات العصبية المتكررة، غالباً ما تكون rigid و تنقصها المتغيرات. هذه المشكلة مرتبطة بمبدأ تعليمي يُستخدم على نطاق واسع في الممارسة، وهو تعظيم احتمالية العينات التدريبية. هذا المبدأ يشجع على التشابه العالي مع التسميات "الحقيقية" بينما يكبح الأوصاف المعقولة الأخرى. كما أن مقاييس التقييم التقليدية، مثل BLEU و METEOR، تفضل هذه الطرق التقييدية. في هذه الورقة، نستكشف نهجاً بديلاً، بهدف تحسين الطبيعة والتنوع - وهما خاصيتان أساسيتان في التعبير البشري. على وجه التحديد، نقترح إطاراً جديداً يعتمد على الشبكات التنافسية التوليدية الشرطية (CGAN)، والذي يتعلم بشكل مشترك مولداً لإنتاج الأوصاف المشروطة على الصور ومقيماً لتقييم مدى ملاءمة الوصف للمحتوى البصري. من الجدير بالذكر أن تدريب مولد تسلسلي ليس بالأمر البسيط. نتغلب على الصعوبة باستخدام سياسة الانحدار، وهي استراتيجية تنبع من التعلم المعزز، تسمح للمولد بتلقي تعليقات مبكرة على طول الطريق. اختبرنا طريقتنا على مجموعتين كبيرتين من البيانات، حيث أدت بشكل تنافسي ضد أشخاص حقيقيين في دراستنا للمستخدمين وتفوقت على طرق أخرى في مهام متنوعة.

Bookmark

View Full Paper