Key points are not available for this paper at this time.
توقع الأفعال هو مهمة التنبؤ بالنشاط المستقبلي من تسلسل جزئي الملاحظة للأحداث. مع ذلك، تواجه هذه المهمة عدم اليقين الجوهرية المتعلق بالمستقبل وصعوبة التفكير في الأفعال المترابطة. بخلاف الأعمال السابقة التي تركز على استقراء معلومات بصرية وزمنية أفضل، نركز على تعلم تمثيلات الأفعال التي تدرك الترابط الدلالي بينها استنادًا إلى أنماط الأفعال النموذجية والتكرارات السياقية المشتركة. لهذا الغرض، نقترح إطار العمل الجديد "التعلم التمثيلي الموجه دلاليًا" (S-GEAR). يتعلم S-GEAR نماذج بصرية للأفعال ويستفيد من نماذج اللغة لبناء علاقاتها، مما يحفز الدلالية. لجمع رؤى حول فعالية S-GEAR، اختبرناه على أربعة معايير لتوقع الأفعال، محققين نتائج محسنة مقارنة بالأعمال السابقة: +3.5، +2.7، و +3.5 نقاط مطلقة في دقة الأعلى-1 على Epic-Kitchen 55، EGTEA Gaze+ و50 Salads على التوالي، و +0.8 في استدعاء الأعلى-5 على Epic-Kitchens 100. لاحظنا أيضًا أن S-GEAR ينقل بفعالية الارتباطات الهندسية بين الأفعال من اللغة إلى النماذج البصرية. أخيرًا، يفتح S-GEAR آفاق بحثية جديدة في مهام التوقع من خلال إظهار التأثير المعقد للترابط الدلالي بين الأفعال.
Building similarity graph...
Analyzing shared references across papers
Loading...
Anxhelo Diko
Danilo Avola
Bardh Prenkaj
Building similarity graph...
Analyzing shared references across papers
Loading...
درس ديكو وآخرون (Tue,) هذا السؤال.
www.synapsesocial.com/papers/68e61b7fb6db6435875ae52d — DOI: https://doi.org/10.48550/arxiv.2407.02309