What type of study is this?

This is a Quantitative Study study.

October 8, 2025Open Access

압축된 LLM이 진정으로 행동할 수 있을까? LLM 압축에서 에이전트 능력에 대한 실증적 평가

Key Points

압축된 대형 언어 모델도 최소한의 정확도 하락으로 작업흐름 생성을 유지할 수 있습니다.
4비트 양자화는 도구 사용 효율성은 유지하는 반면 실제 응용에서 10%-15%의 정확도 손실을 초래했습니다.
에이전트 압축 벤치마크는 LLM에 대한 압축 영향 평가를 위해 4가지 능력에 걸친 12개 과제를 제공합니다.
ERank는 에이전트 시나리오에서 압축 절충을 체계적으로 분석하여 배포를 개선하는 데 도움을 줍니다.

Abstract

사전 훈련 후 압축은 대형 언어 모델(LLM)의 계산 및 메모리 비용을 줄여 자원 효율적인 배포를 가능하게 합니다. 그러나 기존 압축 벤치마크는 언어 모델링(예: 당혹도)과 자연어 이해 과제(예: GLUE 정확도)에만 집중하여 작업흐름, 도구 사용/함수 호출, 긴 문맥 이해 및 실제 응용과 같은 에이전트 능력을 무시합니다. 본 연구에서는 LLM 압축이 에이전트 능력에 미치는 영향을 평가하는 최초의 종합 벤치마크인 에이전트 압축 벤치마크(ACBench)를 소개합니다. ACBench는 (1) 4가지 능력에 걸친 12개 과제(예: 작업흐름 생성을 위한 WorfBench, 긴 문맥 검색을 위한 Needle-in-Haystack), (2) 양자화(GPTQ, AWQ) 및 가지치기(Wanda, SparseGPT), 그리고 (3) 소형(Gemma-2B), 표준(Qwen2.5 7B-32B), 추론 증류(DeepSeek-R1-Distill) 등 15개 모델을 포함합니다. 실험 결과, 4비트 양자화는 작업흐름 생성 및 도구 사용은 1%-3% 정도 정확도 하락으로 유지하지만, 실제 응용 정확도는 10%-15% 감소하는 절충을 나타냈습니다. 본 연구에서는 ERank, Top-k 순위 상관 및 에너지를 도입하여 분석을 체계화했습니다. ACBench는 에이전트 시나리오에서 LLM 압축 최적화를 위한 실질적인 통찰을 제공합니다. 코드의 자세한 내용은 https://github.com/pprp/ACBench 에서 확인할 수 있습니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Peijie Dong

National University of Defense Technology

Zhenheng Tang

Hong Kong University of Science and Technology

Xiang Liu

Zhejiang DongFang Vocational and Technical College

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

압축된 LLM이 진정으로 행동할 수 있을까? LLM 압축에서 에이전트 능력에 대한 실증적 평가

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider

Also consider