대형 언어 모델(LLMs)의 최근 발전은 소스 코드를 생성할 수 있는 자동 생성 도구의 신속한 배치를 이끌어냈습니다. 이러한 모델들이 실험 도구에서 소프트웨어 개발의 정립된 요소로 점차 전환됨에 따라, 중요한 질문이 제기됩니다: 이러한 모델과 그들이 생성한 코드가 얼마나 전문적이고 실제적인 엔지니어링을 요구하는 엄격하고 다면적인 품질 기준을 충족하는가, 또는 충족할 수 있는가? 이 연구의 주된 목적은 LLMs 및 그들이 생성하는 코드에 대한 기존의 평가 프레임워크와 향상 전략을 탐색하여 이 질문에 대한 답을 찾는 것입니다. 생성된 코드 품질이 현재 어떻게 평가되고 개선되는지를 조사함으로써, 우리는 현재의 연구 방법론이 소프트웨어 품질 스펙트럼을 균형 있게 다루고 있는지 또는 중요한 불균형이 존재하는지를 파악하고자 합니다. 우리는 ISO/IEC 25010 표준에서 수정한 코드 품질 차원 분류법을 제안하며, 여기에는 네 가지 주요 속성: 기능적 정확성(FC), 보안(SE), 성능 효율성(PE), 유지보수성(MA)이 포함됩니다. 이 프레임워크를 사용하여, 우리는 이러한 차원들에서 평가 프레임워크 및 향상 전략에 대한 기존 연구를 분석하는 문헌 조사를 실시합니다. 우리의 분석은 연구 초점에서 상당한 불균형이 있음을 드러냅니다. FC와 점점 더 SE는 잘 정립된 평가 프레임워크와 개선 전략을 가지고 있습니다. 반면, PE와 MA는 여전히 상당히 저조하게 조사되고 있으며, 이러한 중요한 소프트웨어 품질 차원에 대한 표준화된 벤치마크와 타겟 세부 조정 접근 방법이 부족합니다. 이 조사는 PE 및 MA 중심의 평가 및 향상에 대한 광범위한 연구 필요성을 확인합니다. 우리는 여러 가지 유망한 방향을 제안합니다: (i) 공식 벤치마크의 생성; (ii) 정적 및 동적 코드 피드백을 활용한 강화 학습 기법 개발; 그리고 (iii) 검증 가능한 진단 아티팩트에 기반한 비판적 개선을 위한 다중 에이전트 프레임워크의 활용.
Truong et al. (Tue,)는 이 질문을 연구했습니다.