본 연구는 대규모 언어모델(llm)을 활용한 자동 채점 시스템이 대학 글쓰기 교육에서 실질적인 평가 도구로 기능할 수 있는지와 생성된 피드백의 교육적 가치를 검증하고자 하였다. 이를 위해 GPT-Oss 20b 모델을 로컬 환경에서 활용하여 자동 채점 시스템을 구현하고, 페르소나, 사고연쇄, 쌍대비교 방식의 세 가지 채점 전략을 동일한 데이터에 적용하여 결과를 비교·분석하였다. 또한 점수 일치도뿐 아니라 생성된 피드백을 전문가가 평가함으로써 질적 타당성을 함께 검토하였다. 연구 결과, 사고연쇄 방식은 인간 채점과 가장 높은 정합성을 보였으며, 페르소나 방식은 보수적, 쌍대비교 방식은 관대한 채점 경향을 나타냈다. 또한 Llm은 하위권 과제 판별에는 높은 일관성을 보였으나, 상위권 글의 미세한 질적 차이를 변별하는 데에는 한계를 보였다. 생성된 피드백은 내용 구성과 표현 개선을 중심으로 제시되어 교육적 활용 가능성을 확인할 수 있었다. 한편, 채점 방식에 따라 계산 비용에 차이가 나타났으며, 특히 쌍대비교 방식은 높은 연산 부담으로 인해 실제 적용에 제약이 있을 수 있다. 이러한 결과는 LLM 기반 자동 채점이 인간 평가자를 대체하기보다는 피드백 제공을 보조하는 협력적 도구로 활용될 때 교육적 효과를 가질 수 있음을 시사한다.
Jo et al. (Thu,) studied this question.