Key points are not available for this paper at this time.
이 논문은 ChatGPT와 같은 상호작용하는 대규모 언어 모델(LLM)을 공개적으로 이용 가능한 데이터 세트를 사용하여 정량적으로 평가하기 위한 프레임워크를 제안합니다. 우리는 8개의 다양한 일반 NLP 응용 작업을 포함하는 23개의 데이터 세트를 사용하여 ChatGPT에 대한 광범위한 기술적 평가를 수행합니다. 우리는 이러한 데이터 세트와 새로 설계된 다중 모드 데이터 세트를 기반으로 ChatGPT의 다중 작업, 다중 언어 및 다중 모드 측면을 평가합니다. 대부분의 작업에서 ChatGPT가 제로샷 학습을 통해 LLM을 능가하며, 일부 작업에서는 미세 조정된 모델보다 더 나은 성능을 발휘한다는 것을 발견했습니다. 또한, ChatGPT가 비라틴 문자 언어를 생성하는 것보다 이해하는 데 더 뛰어난 것으로 나타났습니다. 텍스트 프롬프트에서 다중 모드 콘텐츠를 생성할 수 있으며, 중간 코드 생성 단계를 거칩니다. 더구나, ChatGPT는 논리적 추론, 비텍스트 추론 및 상식 추론 하에서 10개의 서로 다른 추론 범주에서 평균 63.41%의 정확도를 보이며, 따라서 신뢰할 수 없는 추론기로 평가됩니다. 예를 들어, 귀납적 추론보다 연역적 추론에 더 뛰어납니다. ChatGPT는 다른 LLM과 마찬가지로 환각 문제를 겪으며, 외부 지식 기반에 접근할 수 없기 때문에 더 많은 외재적 환각을 생성합니다. 마지막으로, ChatGPT의 상호작용 기능은 이를 개선하기 위해 기반 LLM과의 인간 협업을 가능하게 하며, 요약에서 8% ROUGE-1, 기계 번역에서 2% ChrF++의 성능을 다중턴 "프롬프트 엔지니어링" 방식으로 향상시킵니다. 우리는 평가 세트 추출을 위한 코드베이스도 배포합니다.
Bang et al. (수요일)은 이 질문을 연구하였습니다.