May 18, 2021Open Access

نموذج سياق بصري على مستوى الكائنات بكفاءة للترجمة الآلية متعددة الوسائط: يساعد إخفاء الكائنات غير ذات الصلة في التأسيس

Key Points

Key points are not available for this paper at this time.

Abstract

يوفر السياق البصري معلومات تأسيسية للترجمة الآلية متعددة الوسائط (MMT). ومع ذلك، تشير النماذج السابقة لـ MMT والدراسات الاستكشافية حول الميزات البصرية إلى أن المعلومات البصرية لم تُستكشف كثيرًا في MMT حيث غالبًا ما تكون مكررة للمعلومات النصية. في هذه الورقة، نقترح إطار نموذج سياق بصري على مستوى الكائنات (OVC) لالتقاط واستكشاف المعلومات البصرية بكفاءة لترجمة الآلة متعددة الوسائط. مع الكائنات المكتشفة، يشجع OVC المقترح MMT على تأسيس الترجمة على الكائنات البصرية المرغوبة من خلال إخفاء الكائنات غير ذات الصلة في النمط البصري. نحن نجهز المقترح بخسارة إضافية لإخفاء الكائنات لتحقيق هذا الهدف. يتم تقدير خسارة إخفاء الكائنات وفقًا للتشابه بين الكائنات المخفية والنصوص المصدرية لتشجيع إخفاء الكائنات غير ذات الصلة بالمصدر. بالإضافة إلى ذلك، من أجل توليد كلمات مستهدفة متناسقة بصريًا، نقترح أيضًا خسارة ترجمة موزونة بصريًا لـ OVC. تظهر التجارب على مجموعات بيانات MMT أن نموذج OVC المقترح يتفوق على نماذج MMT الأكثر تقدمًا، وتظهر التحليلات أن إخفاء الكائنات غير ذات الصلة يساعد في التأسيس في MMT.

اسأل الذكاء الاصطناعي

Bookmark

View Full Paper