Key points are not available for this paper at this time.
ملخص abstractلقد حسنت نماذج اللغة الكبيرة المدربة مسبقاً (LLMs) بشكل كبير من توليد الكود. مع زيادة حجم هذه النماذج، تزداد الحاجة إلى التعامل مع مهام أكثر تعقيدًا وأن تكون متخصصة بشكل مناسب في مجالات معينة. هنا، نستهدف المعلومات البيولوجية نظرًا للمعرفة الخاصة بالمجال، والخوارزميات، وعمليات البيانات التي تتطلبها هذه التخصص. نقدم BioCoder، معيار تم تطويره لتقييم نماذج اللغة الكبيرة في توليد كود خاص بالمعلومات البيولوجية. يغطي BioCoder جزءاً كبيراً من هذا المجال، متضمناً الاعتمادات بين الملفات، وإعلانات الفئات، والمتغيرات العالمية. يتضمن 1026 دالة بلغة بايثون و1243 أسلوب بلغة جافا مستخرجة من GitHub، بالإضافة إلى 253 مثالاً من مشروع Rosalind، جميعها تتعلق بالمعلومات البيولوجية. باستخدام نمذجة الموضوع، نظهر أن التغطية العامة للكود المدرج تمثل مجموعة كاملة من حسابات المعلومات البيولوجية. يشتمل BioCoder على إطار اختبار فوضوي للتقييم. لقد طبقنا ذلك لتقييم نماذج مختلفة بما في ذلك InCoder وCodeGen وCodeGen2 وSantaCoder وStarCoder وStarCoder+ وInstructCodeT5+ وGPT-3.5 وGPT-4. علاوة على ذلك، قمنا بتحسين نموذج واحد (StarCoder)، مما يوضح أن مجموعة بيانات التدريب الخاصة بنا يمكن أن تعزز الأداء على معيار اختبارنا (بنسبة 15% من حيث Pass@K تحت تكوينات معينة من المطالبات ودائمًا 3%). تسلط النتائج الضوء على جانبين رئيسيين للنماذج الناجحة: (i) تستوعب النماذج الناجحة مطالب طويلة (2600 رمز) مع السياق الكامل، بما في ذلك الاعتماديات الوظيفية. (ii) تحتوي على معرفة خاصة بالمجال في المعلومات البيولوجية، تتجاوز مجرد القدرة على الترميز العامة. يتضح ذلك من زيادة الأداء لـ GPT-3.5/4 مقارنة بالنماذج الأصغر على معيارنا (50% مقابل حتى 25%). التوافر والتنفيذ جميع مجموعات البيانات، والمعيار، وصور Docker، والسكربتات المطلوبة للاختبار متاحة على: https://github.com/gersteinlab/biocoder و https://biocoder-benchmark.github.io/.
درس تانغ وآخرون (جمعة) هذا السؤال.