Key points are not available for this paper at this time.
기계 학습 연구에서 일반적인 관행은 성능을 기준으로 최고 성능 모델을 평가하는 것입니다. 그러나 이는 종종 주의 깊게 고려해야 할 다른 중요한 측면을 간과하게 만듭니다. 경우에 따라 다양한 접근 방식 간의 성능 차이는 미미할 수 있으며, 생산 비용, 에너지 소비 및 탄소 발자국과 같은 요소도 고려해야 합니다. 대규모 언어 모델(LLM)은 NLP 문제를 해결하기 위해 학계와 산업에서 널리 사용됩니다. 본 연구에서는 LexGLUE 벤치마크를 사용하여 전통적인 접근 방식(SVM 기반)과 LLM(BERT 계열 모델) 및 생성 모델(GPT2 및 LLAMA2)과 같은 최신 접근 방식 간의 포괄적인 정량적 비교를 제시합니다. 우리의 평가는 성능 지표(표준 지수)뿐만 아니라 타이밍, 에너지 소비 및 비용과 같은 대체 측정도 고려하여 총체적으로 탄소 발자국에 기여합니다. 완전한 분석을 보장하기 위해 우리는 프로토타입 단계(훈련-검증-테스트 반복을 통한 모델 선택 포함)와 생산 중 단계 각각을 별도로 고려했습니다. 이 단계는 고유한 구현 절차를 따르며 다른 자원을 필요로 합니다. 결과는 더 간단한 알고리즘이 복잡한 모델(LLM 및 생성 모델)과 유사한 성능 수준을 달성하면서 훨씬 적은 에너지를 소비하고 더 적은 자원을 요구한다는 것을 나타냅니다. 이러한 발견은 기업이 기계 학습(ML) 솔루션을 선택할 때 추가적인 고려 사항을 고려해야 함을 시사합니다. 이 분석은 또한 과학계가 모델 평가에서 에너지 소비 측면을 고려하기 시작해야 할 필요성이 증가하고 있음을 보여줍니다. 이는 표준 메트릭(정확도, 재현율, F1 등)을 사용하여 얻은 결과에 실제 의미를 부여할 수 있도록 합니다.
Rigutini et al. (수요일) 이 문제를 연구했습니다.