Key points are not available for this paper at this time.
يوفر السياق البصري معلومات تأسيسية للترجمة الآلية متعددة الوسائط (MMT). ومع ذلك، تشير النماذج السابقة لـ MMT والدراسات الاستكشافية حول الميزات البصرية إلى أن المعلومات البصرية لم تُستكشف كثيرًا في MMT حيث غالبًا ما تكون مكررة للمعلومات النصية. في هذه الورقة، نقترح إطار نموذج سياق بصري على مستوى الكائنات (OVC) لالتقاط واستكشاف المعلومات البصرية بكفاءة لترجمة الآلة متعددة الوسائط. مع الكائنات المكتشفة، يشجع OVC المقترح MMT على تأسيس الترجمة على الكائنات البصرية المرغوبة من خلال إخفاء الكائنات غير ذات الصلة في النمط البصري. نحن نجهز المقترح بخسارة إضافية لإخفاء الكائنات لتحقيق هذا الهدف. يتم تقدير خسارة إخفاء الكائنات وفقًا للتشابه بين الكائنات المخفية والنصوص المصدرية لتشجيع إخفاء الكائنات غير ذات الصلة بالمصدر. بالإضافة إلى ذلك، من أجل توليد كلمات مستهدفة متناسقة بصريًا، نقترح أيضًا خسارة ترجمة موزونة بصريًا لـ OVC. تظهر التجارب على مجموعات بيانات MMT أن نموذج OVC المقترح يتفوق على نماذج MMT الأكثر تقدمًا، وتظهر التحليلات أن إخفاء الكائنات غير ذات الصلة يساعد في التأسيس في MMT.
درس وانغ وآخرون (الثلاثاء) هذا السؤال.