Key points are not available for this paper at this time.
استغلال المعلومات من كل من الرؤية واللغة بشكل كامل أمر حاسم لمهمة تسميات الفيديو. النماذج الحالية تفتقر إلى تمثيل بصري ملائم بسبب إغفال التفاعل بين الكائنات، وتدريب غير كاف للكلمات المتعلقة بالمحتوى بسبب مشكلة الذيل الطويل. في هذه الورقة، نقترح نظامًا كاملاً لتسميات الفيديو يتضمن نموذجًا جديدًا واستراتيجية تدريب فعالة. وبشكل محدد، نقترح مشفرًا يعتمد على رسم بياني للعلاقات الكائنية (ORG)، والذي يلتقط ميزات التفاعل التفصيلية لإثراء التمثيل البصري. في الوقت نفسه، نصمم طريقة التعلم الموصى به من المعلم (TRL) للاستفادة الكاملة من نموذج اللغة الخارجي الناجح (ELM) لدمج المعرفة اللغوية الوفيرة في نموذج التسمية. ينتج ELM مقترحات كلمات أكثر تشابهًا من الناحية الدلالية، مما يوسع الكلمات الحقيقية المستخدمة في التدريب للتعامل مع مشكلة الذيل الطويل. التقييمات التجريبية على ثلاثة مرجعيات: MSVD وMSR-VTT وVATEX تظهر أن نظام ORG-TRL المقترحachieves يحقق أداءً متقدماً. الدراسات الاستقصائية الشاملة والتصورات توضح فعالية نظامنا.
درس زانغ وآخرون (مون،) هذا السؤال.
Synapse has enriched 3 closely related papers on similar clinical questions. Consider them for comparative context: