April 12, 2024Open Access

CreativEval: تقييم إبداع توليد الشفرات المعتمدة على نماذج اللغة الكبيرة

Key Points

Key points are not available for this paper at this time.

Abstract

أثبتت نماذج اللغة الكبيرة (LLMs) فعاليتها وكفاءتها في توليد الشفرات، مما أدى إلى استخدامها في عملية تصميم الأجهزة. الأعمال السابقة التي تقيم قدرات نماذج اللغة الكبيرة في توليد الشفرات على مستوى نقل السجلات تركز فقط على الصحة الوظيفية. ومع ذلك، فإن الإبداع المرتبط بهذه النماذج، أو القدرة على توليد حلول جديدة وفريدة، هو متغير لا يُفهم جيدًا، جزئيًا بسبب تحدي قياس هذه الجودة. لمعالجة هذه الفجوة البحثية، نقدم CreativeEval، إطارًا لتقييم إبداع نماذج اللغة الكبيرة في سياق توليد تصاميم الأجهزة. نقوم بقياس أربعة مكونات فرعية إبداعية، الطلاقة، المرونة، الأصالة، والتفصيل، من خلال تقنيات مختلفة للدفع والمعالجة اللاحقة. ثم نقيم عدة نماذج لغة كبيرة شائعة (بما في ذلك نماذج GPT، CodeLlama، و VeriGen) بناءً على هذا المقياس الإبداعي، مع نتائج تشير إلى أن نموذج GPT-3.5 هو النموذج الأكثر إبداعًا في توليد تصاميم الأجهزة.

CreativEval: تقييم إبداع توليد الشفرات المعتمدة على نماذج اللغة الكبيرة

Key Points

Abstract

Cite This Study