Key points are not available for this paper at this time.
نقدم إكس-فيلا، نموذج الأنماط المتعددة المصمم لتوسيع قدرات نماذج اللغة الكبيرة (LLMs) من خلال دمج الأنماط البصرية والفيديو والصوت. من خلال محاذاة وحدات الترميز الخاصة بالأنماط مع مدخلات LLMs ووحدات فك الترميز ذات الانتشار مع مخرجات LLMs، تحقق إكس-فيلا فهمًا وتحليلًا وتوليدًا عبر الأنماط. لتسهيل هذه المحاذاة عبر الأنماط، نقوم بتنسيق مجموعة بيانات فعالة تتبع تعليمات أي إلى أي نمط.علاوة على ذلك، نحدد مشكلة كبيرة في طريقة المحاذاة الحالية عبر الأنماط، والتي تؤدي إلى فقدان المعلومات البصرية. لمعالجة هذه القضية، نقترح آلية محاذاة بصرية مع وحدة طريق التعبئة البصرية. ثم نقدم وصفة فعالة من حيث الموارد لتدريب إكس-فيلا، التي تظهر كفاءة في محادثة أي إلى أي نمط، متفوقة على الأساليب السابقة بفارق كبير. كما أن إكس-فيلا تعرض خصائص ناشئة عبر الأنماط حتى في غياب بيانات تدريب مماثلة. سيتم جعل المشروع مفتوح المصدر.
درس يي وزملاؤه (الأربعاء) هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: