Key points are not available for this paper at this time.
mRNA 기반의 백신 및 치료제가 다양한 질병에서 인기를 얻고 사용되고 있습니다. 이러한 mRNA를 설계할 때의 주요 문제 중 하나는 염기서열 최적화입니다. 작은 단백질이나 펩타이드조차도 엄청나게 많은 수의 mRNA로 인코딩될 수 있습니다. 실제 mRNA 염기서열은 발현, 안정성, 면역원성 등 여러 속성에 큰 영향을 미칠 수 있습니다. 최적의 염기서열 선택을 가능하게 하기 위해, 우리는 mRNA를 위한 대형 언어 모델(LLM)인 CodonBERT를 개발했습니다. 이전 모델들과 달리, CodonBERT는 입력값으로 코돈을 사용하여 더 나은 표현을 학습할 수 있도록 합니다. CodonBERT는 다양한 생물체로부터의 1000만 개 이상의 mRNA 염기서열로 훈련되었습니다. 거기서 나온 모델은 중요한 생물학적 개념을 포착합니다. CodonBERT는 또한 다양한 mRNA 속성에 대한 예측 작업을 수행하도록 확장할 수 있습니다. CodonBERT는 새로운 독감 백신 데이터 세트에서도 이전의 mRNA 예측 방법들을 초월합니다.
Li et al. (Mon,)는 이 질문을 연구했습니다.