Key points are not available for this paper at this time.
تمتلك نماذج اللغة الكبيرة (LLMs) أداءً محدودًا عند حل مهام الاستدلال الحسابي وغالبًا ما تقدم إجابات غير صحيحة. على عكس فهم اللغة الطبيعية، فإن مسائل الرياضيات عادةً ما تحتوي على إجابة صحيحة واحدة فقط، مما يجعل مهمة توليد حلول دقيقة أكثر تحديًا لنماذج LLMs. على حد علمنا، نحن غير مدركين لأي نموذج LLM يشير إلى مستوى ثقته في ردوده، مما يثير نقص الثقة في هذه النماذج التي تعيق اعتمادها. لمعالجة هذا النقص، نقترح 'MathPrompter'، وهي تقنية تعمل على تحسين أداء نماذج LLMs في المسائل الحسابية مع زيادة الاعتماد على التنبؤات. تستخدم MathPrompter تقنية الدفع بفكرتين من دون أمثلة لتوليد تعبيرات جبرية متعددة أو دوال بايثون لحل نفس المسألة الرياضية بطرق مختلفة وبالتالي رفع مستوى الثقة في النتائج النهائية. هذا يتناقض مع الطرق الأخرى المعتمدة على الدفع، حيث لا يوجد فحص لصحة الخطوات الوسيطة المتبعة. تحسن تقنيتنا الأداء مقارنة بأفضل الأنظمة المستخدمة حاليًا على مجموعة بيانات 'MultiArith' (78.7% - 92.5%) تم تقييمها باستخدام نموذج GPT المستند إلى 175 مليار معلمة.
إيماني وآخرون (صن) درسوا هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: