Key points are not available for this paper at this time.
초록 생성적 AI 도구의 고등 교육에서의 가치에 상당한 관심을 받고 있다. 학습 도구로서 그 가치에 대한 지지자가 많지만, 학생들이 서면 평가를 작성하는 데 사용하는 것과 관련된 학문적 진실성 문제에 대해 우려하는 사람들도 많다. 본 연구는 일반적으로 사용되는 세 가지 생성적 AI 도구(ChatGPT, Bing 및 Bard)의 출력을 평가하고 비교한다. 각 AI 도구는 학부(UG) 수준 4(1학년), 수준 5(2학년), 수준 6(3학년) 및 대학원(PG) 수준 7 생물 의학 과학 과정의 에세이 질문으로 프롬프트를 받았다. 익명화된 AI 생성 출하는 네 명의 독립적인 평가자의 평가를 받았으며, 지정된 평가 기준에 따라 영국 고등 교육 자격 체계(FHEQ)의 수준 설명과 일치시켰다. AI 생성 논문별로 각 평가 기준에 대해 비율 점수와 서열 등급이 부여되었으며, 평가자 간 신뢰도는 Kendall의 일치 계수를 사용하여 계산되었고 생성적 AI 성능이 순위화되었다. 모든 UG 및 PG 수준에서 ChatGPT는 과학적 정확성, 과학적 세부 사항 및 맥락의 영역에서 Bing 또는 Bard보다 더 나은 성능을 보였다. 모든 AI 도구는 UG 수준에 비해 PG 수준에서 일관되게 잘 수행되었지만, 오직 ChatGPT만 모든 UG 수준에서 높은 성취 수준을 일관되게 충족하였다. ChatGPT와 Bing은 적절한 참고 문헌을 제공하지 않았고, Bing은 참고 문헌을 위조하였다. 결론적으로, 생성적 AI 도구는 학생들이 서면 과제에서 요구되는 학문적 기준에 일치하는 과학 정보를 제공하는 데 유용하다. 이 발견은 고등 교육에서 서면 평가의 설계, 실행 및 채점에 광범위한 의미를 가진다.
앤드류 E. 윌리엄스(Thu,)가 이 질문을 연구했다.