June 5, 2024Open Access

LLMEmbed: 경량 LLM의 진정한 기능을 텍스트 분류에서 재고하다

Key Points

Key points are not available for this paper at this time.

Abstract

대규모 언어 모델(LLMs)이 급성장함에 따라, 프롬프트 학습이 여러 연구 분야에서 주로 연구되는 유망한 방법이 되었습니다. 최근에는 텍스트 분류 성능을 개선하기 위해 프롬프트 학습에 기반한 많은 시도가 이루어졌습니다. 그러나 이러한 방법의 대부분은 휴리스틱 사고의 연쇄(Chain-of-Thought, CoT)에 기반하고 있으며 더 복잡하지만 효율성이 떨어지는 경향이 있습니다. 본 논문에서는 LLM 기반 텍스트 분류 방법론을 재고하고, 이 고전적이지만 도전적인 작업을 해결하기 위해 간단하고 효과적인 전이 학습 전략인 LLMEmbed을 제안합니다. 이를 설명하기 위해, 우리는 먼저 다양한 경량 LLM에서 여러 네트워크 깊이로 텍스트 임베딩을 적절히 추출하고 융합하는 방법을 연구하여 그 강건성과 구분 능력을 개선한 다음, 이러한 임베딩을 적합시켜 분류기를 훈련합니다. 우리는 공개적으로 사용 가능한 데이터셋에서 광범위한 실험을 수행하였으며, 그 결과 LLMEmbed가 최근의 더 큰 LLM인 GPT-3과 복잡한 프롬프트 기반 전략에 비해 낮은 훈련 오버헤드를 사용하면서 강력한 성능을 달성함을 보여줍니다. LLMEmbed는 공개적으로 사용 가능한 벤치마크에서 추가적인 튜닝 없이 적절한 정확성을 달성하며, 단지 4%의 모델 파라미터, 1.8%의 전력 소비 및 1.5%의 런타임을 사용합니다. 코드는 다음 링크에서 확인할 수 있습니다: https://github.com/ChunLiu-cs/LLMEmbed-ACL2024.

Read Full Paperexternally

AI에게 질문

Bookmark

View Full Paper