May 29, 2024Open Access

إكس-فيلا: محاذاة عبر الأنماط لنماذج اللغة الكبيرة

Key Points

Key points are not available for this paper at this time.

Abstract

نقدم إكس-فيلا، نموذج الأنماط المتعددة المصمم لتوسيع قدرات نماذج اللغة الكبيرة (LLMs) من خلال دمج الأنماط البصرية والفيديو والصوت. من خلال محاذاة وحدات الترميز الخاصة بالأنماط مع مدخلات LLMs ووحدات فك الترميز ذات الانتشار مع مخرجات LLMs، تحقق إكس-فيلا فهمًا وتحليلًا وتوليدًا عبر الأنماط. لتسهيل هذه المحاذاة عبر الأنماط، نقوم بتنسيق مجموعة بيانات فعالة تتبع تعليمات أي إلى أي نمط.علاوة على ذلك، نحدد مشكلة كبيرة في طريقة المحاذاة الحالية عبر الأنماط، والتي تؤدي إلى فقدان المعلومات البصرية. لمعالجة هذه القضية، نقترح آلية محاذاة بصرية مع وحدة طريق التعبئة البصرية. ثم نقدم وصفة فعالة من حيث الموارد لتدريب إكس-فيلا، التي تظهر كفاءة في محادثة أي إلى أي نمط، متفوقة على الأساليب السابقة بفارق كبير. كما أن إكس-فيلا تعرض خصائص ناشئة عبر الأنماط حتى في غياب بيانات تدريب مماثلة. سيتم جعل المشروع مفتوح المصدر.

إكس-فيلا: محاذاة عبر الأنماط لنماذج اللغة الكبيرة

Key Points

Abstract

Cite This Study

Also Consider

Also Consider