Key points are not available for this paper at this time.
ندرس التعلم المشترك لشبكة الأعصاب التلافيفية (CNN) والمحولات من أجل التدريب المسبق للرؤية واللغة (VLPT) الذي يهدف إلى تعلم المحاذاة عبر الأنماط من ملايين أزواج الصورة والنص. الأساليب الرائدة تستخرج مناطق الصورة البارزة وتقوم بمحاذاة المناطق مع الكلمات خطوة بخطوة. نظرًا لأن الميزات البصرية المعتمدة على المناطق عادةً ما تمثل أجزاءً من الصورة، فإن من الصعب على النماذج الموجودة للرؤية واللغة فهم الدلالات تمامًا من اللغات الطبيعية المترابطة. في هذه الورقة، نقترح SOHO "رؤية خارج الصندوق" التي تأخذ صورة كاملة كمدخل، وتتعلم تمثيل الرؤية واللغة بطريقة من النهاية إلى النهاية. لا تتطلب SOHO وسم مناطق الحدود مما يتيح الاستدلال بسرعة 10 مرات أسرع من الأساليب المعتمدة على المناطق. على وجه الخصوص، تتعلم SOHO استخراج ميزات صورة شاملة ولكنها مضغوطة من خلال قاموس بصري (VD) يسهل الفهم عبر الأنماط. تم تصميم VD لتمثيل التجريدات البصرية المتسقة للدلالات المشابهة. يتم تحديثه في الوقت الفعلي ويستخدم في مهمة التدريب المسبق المقترحة لدينا نمذجة بصرية مقنعة (MVM). نجري تجارب على أربع مهام معروفة للرؤية واللغة من خلال اتباع إعدادات VLPT القياسية. على وجه الخصوص، تحقق SOHO مكاسب مطلقة بنسبة 2.0% في درجة R@1 على مجموعة اختبار استرجاع النصوص MSCOCO 5k، و1.5% دقة على تحليل NLVR 2، و6.7% دقة على مجموعة اختبار SNLI-VE، على التوالي.
درس هوانغ وآخرون (الثلاثاء) هذا السؤال.
Synapse has enriched 2 closely related papers on similar clinical questions. Consider them for comparative context: