Key points are not available for this paper at this time.
대규모 언어 모델(LLMs)의 급속한 발전은 텍스트 이해 및 생성을 개선했으나 계산 자원에 대한 도전을 야기합니다. 본 연구는 프롬프트 길이, 어텐션 점수, 손실 값 등 기준으로 학습 데이터를 구성하여 더 간단한 작업에서 시작해 점차 복잡한 작업으로 진행하는 교육과정 학습 영감을 받은 데이터 중심 훈련 전략을 제안합니다. Mistral-7B(Jiang et al., 2023)와 Gemma-7B(Team et al., 2024) 모델 실험에서 교육과정 학습은 전통적 무작위 데이터 셔플링에 비해 성능을 약간 향상시켰습니다. 특히, 제안한 어텐션 기준에 따라 데이터를 정렬하는 것이 대체로 더 나은 성능을 보였습니다. 이 방법은 모델 크기나 데이터셋 양을 늘리지 않고 LLM 성능을 향상시킬 수 있는 지속 가능한 방안을 제시하며, LLM 훈련의 확장성 문제를 해결합니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jisu Kim
Ju-Hwan Lee
Building similarity graph...
Analyzing shared references across papers
Loading...
Kim et al. (Mon,) 이 이 질문을 연구했습니다.
www.synapsesocial.com/papers/68e6a745b6db64358762a3e6 — DOI: https://doi.org/10.48550/arxiv.2405.07490