May 26, 2024Open Access

توليد سياسات التعلم المعزز البرمجي باستخدام بحث موجه بواسطة نماذج اللغة الكبيرة

Key Points

Key points are not available for this paper at this time.

Abstract

تم استكشاف التعلم المعزز البرمجي (PRL) لتمثيل السياسات من خلال البرامج كوسيلة لتحقيق القابلية للتفسير والتعميم. على الرغم من النتائج الواعدة، فإن الأساليب الحالية للتعلم المعزز البرمجي تواجه صعوبة في كفاءة العينة، مما يتطلب تفاعلات بيئية-برمجية تصل إلى عشرات الملايين. لمواجهة هذه التحديات، نقدم إطار عمل جديد للبحث الموجه بواسطة نماذج اللغة الكبيرة (LLM-GS). إن بصيرتنا الرئيسية هي الاستفادة من الخبرة البرمجية والتفكير المنطقي لنماذج اللغة الكبيرة لتعزيز كفاءة طرق البحث العشوائية التي لا تعتمد على الافتراضات. نتناول تحدي عدم قدرة نماذج اللغة الكبيرة على إنتاج برامج دقيقة وصحيحة نحويًا في لغات محددة المجال (DSLs) من خلال اقتراح استراتيجية Pythonic-DSL - حيث يتم توجيه نموذج اللغة الكبيرة لإنشاء أكواد بايثون في البداية ثم تحويلها إلى برامج DSL. لتحسين البرامج الناتجة من نموذج اللغة الكبيرة، نطور خوارزمية بحث تسمى تسلق التل المجدول، تهدف لاستكشاف مساحة البحث البرمجي بكفاءة لتحسين البرامج باستمرار. تظهر النتائج التجريبية في مجال كارييل فعالية وكفاءة إطار عمل LLM-GS لدينا. كما تؤكد الدراسات الواسعة للتحقق من الأثر الحاسم لاستراتيجيتنا Pythonic-DSL وخوارزمية تسلق التل المجدول.

توليد سياسات التعلم المعزز البرمجي باستخدام بحث موجه بواسطة نماذج اللغة الكبيرة

Key Points

Abstract

Cite This Study

Also Consider

Also Consider