تعد البيانات متعددة الوسائط شائعة في مجالات مختلفة، وتعتبر تعلم تمثيلات قوية لهذه البيانات أمرًا بالغ الأهمية لتعزيز جودة التوليد وأداء المهام اللاحقة. للتعامل مع التباين والترابط بين الوسائط المختلفة، تستخرج نماذج التوليدية متعددة الوسائط الحديثة المعلومات المشتركة والخاصة (المحددة للوسائط) باستخدام متغيرين منفصلين. على الرغم من المحاولات لفرض فصل بين هذين المتغيرين، تكافح هذه الطرق مع مجموعات البيانات الصعبة حيث تكون نموذج الاحتمال غير كافٍ. في هذه الورقة، نقترح نموذج VAE متعدد الوسائط مع فصل المعلومات (IDMVAE) للتعامل مع هذه القضية بشكل صريح، مع تنظيمات قائمة على معلومات مشتركة صارمة، بما في ذلك تعظيم المعلومات المتبادلة بين الرؤى لاستخراج المتغيرات المشتركة، وخسارة بأسلوب التناسق الدوري لإزالة التكرار باستخدام augmentations توليدية. نحن نقدم أيضًا نماذج الانتشار لتحسين قدرة القواعد الكامنة. هذه المكونات المقترحة حديثًا تكمل بعضها البعض. بالمقارنة مع الطرق الموجودة، يظهر IDMVAE فصلًا واضحًا بين المعلومات المشتركة والخاصة، مما يُظهر جودة توليد فائقة وتناسق دلالي على مجموعات البيانات الصعبة.
درس Zhang et al. (Sun) هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: