July 29, 2024Open Access

Cool-Fusion: دمج نماذج اللغة الكبيرة بدون تدريب

Key Points

Key points are not available for this paper at this time.

Abstract

نركز على مشكلة دمج نموذجين أو أكثر من نماذج اللغة الكبيرة غير المتجانسة (LLMs) لتعزيز نقاط قوتها التكميلية. واحدة من التحديات في دمج النماذج هي الحمل الحسابي العالي، أي ضبط أو محاذاة المفردات من خلال التحسين التوافقي. لتحقيق هذه الغاية، نقترح Cool-Fusion، وهي طريقة بسيطة ولكن فعالة تدمج معرفة نماذج اللغة الكبيرة الغير متجانسة للاستفادة من نقاط قوتها التكميلية. يعتبر Cool-Fusion هو الطريقة الأولى التي لا تتطلب أي نوع من التدريب مثل طرق التجميع. ولكن على عكس طرق التجميع، فهي قابلة للتطبيق على أي مجموعة من نماذج اللغة الكبيرة المصدر التي تحتوي على مفردات مختلفة. الفكرة الأساسية هي أن يقوم كل نموذج لغة مصدر بتوليد الرموز بشكل فردي حتى يمكن فك تشفير الرموز إلى مقطع نصي ينتهي عند حدود الكلمات المشتركة بين جميع نماذج اللغة الكبيرة المصدر. بعد ذلك، تقوم نماذج اللغة الكبيرة المصدر بإعادة تصنيف المقطع النصي المولد بشكل مشترك واختيار الأفضل، وهو الجيل النصي المدمج في خطوة واحدة. تم إجراء تجارب مكثفة عبر مجموعة متنوعة من مجموعات البيانات المرجعية. على GSM8K، يزيد Cool-Fusion من الدقة من ثلاث نماذج لغة كبيرة قوية بنسبة ملحوظة تتراوح بين 8\% - 17.8\%.

Read Full Paperexternally

اسأل الذكاء الاصطناعي

Bookmark

View Full Paper