사전 훈련 후 압축은 대형 언어 모델(LLM)의 계산 및 메모리 비용을 줄여 자원 효율적인 배포를 가능하게 합니다. 그러나 기존 압축 벤치마크는 언어 모델링(예: 당혹도)과 자연어 이해 과제(예: GLUE 정확도)에만 집중하여 작업흐름, 도구 사용/함수 호출, 긴 문맥 이해 및 실제 응용과 같은 에이전트 능력을 무시합니다. 본 연구에서는 LLM 압축이 에이전트 능력에 미치는 영향을 평가하는 최초의 종합 벤치마크인 에이전트 압축 벤치마크(ACBench)를 소개합니다. ACBench는 (1) 4가지 능력에 걸친 12개 과제(예: 작업흐름 생성을 위한 WorfBench, 긴 문맥 검색을 위한 Needle-in-Haystack), (2) 양자화(GPTQ, AWQ) 및 가지치기(Wanda, SparseGPT), 그리고 (3) 소형(Gemma-2B), 표준(Qwen2.5 7B-32B), 추론 증류(DeepSeek-R1-Distill) 등 15개 모델을 포함합니다. 실험 결과, 4비트 양자화는 작업흐름 생성 및 도구 사용은 1%-3% 정도 정확도 하락으로 유지하지만, 실제 응용 정확도는 10%-15% 감소하는 절충을 나타냈습니다. 본 연구에서는 ERank, Top-k 순위 상관 및 에너지를 도입하여 분석을 체계화했습니다. ACBench는 에이전트 시나리오에서 LLM 압축 최적화를 위한 실질적인 통찰을 제공합니다. 코드의 자세한 내용은 https://github.com/pprp/ACBench 에서 확인할 수 있습니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Peijie Dong
National University of Defense Technology
Zhenheng Tang
Hong Kong University of Science and Technology
Xiang Liu
Zhejiang DongFang Vocational and Technical College
Building similarity graph...
Analyzing shared references across papers
Loading...
Dong 등(Sun,)이 이 질문을 연구했습니다.
synapsesocial.com/papers/68e6bc5f38ca8e474d549d00 — DOI: https://doi.org/10.48550/arxiv.2505.19433
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: