Key points are not available for this paper at this time.
우리는 약 1조 개의 토큰으로 약 3 에포크 동안 사전 학습된 1.1B 컴팩트 언어 모델인 타이니라마를 소개합니다. Llama 2의 아키텍처와 토크나이저를 기반으로 하여, 타이니라마는 오픈 소스 커뮤니티가 기여한 다양한 발전(예: FlashAttention 및 Lit-GPT)을 활용하여 더 나은 계산 효율성을 달성합니다. 상대적으로 작은 크기에도 불구하고, 타이니라마는 일련의 다운스트림 작업에서 놀라운 성능을 보여줍니다. 유사한 크기의 기존 오픈 소스 언어 모델보다 현저하게 더 우수한 성능을 발휘합니다. 우리의 모델 체크포인트와 코드는 https://github.com/jzhang38/TinyLlama에서 공개적으로 이용 가능합니다.
Zhang et al. (Thu,)는 이 질문을 연구했습니다.