March 3, 2026Open Access

LLM4ATS: 자동차 자동 테스트 스크립트 작성을 위한 대형 언어 모델 적용

Key Points

LLM4ATS 프레임워크는 자연어 설명으로부터 자동화 테스트 스크립트를 생성하여 생성 품질을 향상시킨다.
GPT-4는 다양한 모델 중 LLM4ATS 사용 시 91%의 통과율을 기록하여 제로샷 모드의 42%에서 크게 향상되었다.
규칙 기반 메커니즘 통합으로 엄격한 구문 검증과 의미 준수 검사가 보장된다.
전문가 평가 결과 생성된 스크립트가 정확성과 가독성 측면에서 산업 표준을 충족함을 확인했다.

Abstract

이 논문은 대형 언어 모델, RAG, 그리고 폐쇄형 검증을 통합하여 자연어 설명에서 고신뢰도의 자동차 자동화 테스트 스크립트를 자동 생성하는 프레임워크인 LLM4ATS를 소개한다. ATS 스크립트에 내재한 복잡한 언어 구조, 엄격한 규칙 및 차량 내 통신 데이터베이스에 대한 강한 의존성을 해결하기 위해 LLM4ATS는 세분화된 라인 수준 생성과 규칙 기반의 반복 정제 메커니즘을 혁신적으로 활용한다. 이 프레임워크는 먼저 RAG를 통해 구축된 구문 및 사례 지식 베이스에서 관련 정보를 검색하여 프롬프트 컨텍스트를 향상시킨다. 이후 생성된 각 스크립트 라인은 두 단계의 검증기를 통해 엄격히 검증된다: 초기 구문 검증과 신호 경로 및 값 도메인에 대한 통신 데이터베이스의 의미적 준수 검사 순서다. 오류가 발생하면 구조화된 피드백이 제공되어 대형 언어 모델이 완전히 준수하는 스크립트가 생성될 때까지 반복적으로 정제한다. 본 논문은 실제 ATS 데이터셋을 대상으로 이 프레임워크의 효과를 평가했으며, GPT-3.5, GPT-4, Qwen2.5-7B, Qwen2.5-72B-Instruct 모델들을 테스트했다. 실험 결과, 제로샷과 몇 샷 기준 방법들 대비 LLM4ATS 프레임워크가 모든 모델에 걸쳐 생성 품질과 통과율을 크게 향상시켰음을 보여준다. 특히 가장 강력한 GPT-4 모델은 LLM4ATS 사용 시 스크립트 통과율이 91%에 달해 제로샷 모드의 42%에서 크게 증가했으며, 지정된 차량 내 하드웨어 플랫폼(Chery Fengyun T28 대시보드)에서 기능적 효과도 검증되었다. 동시에 전문가의 수작업 평가 결과 생성된 스크립트가 정확성, 가독성, 산업 표준 준수에서 우수한 성능을 보임을 확인했다.

LLM4ATS: 자동차 자동 테스트 스크립트 작성을 위한 대형 언어 모델 적용

Key Points

Abstract

Cite This Study