Key points are not available for this paper at this time.
최근 언어 표현 모델은 놀라운 결과로 인해 자연어 처리 분야에서 많은 주목을 받고 있습니다. 그 중에서도, 변환기에서의 양방향 인코더 표현(BERT)은 새로운 최첨단 성능을 달성한 간단하지만 강력한 언어 모델로 입증되었습니다. BERT는 단어가 나타나는 맥락과 의미를 포착하기 위해 맥락화된 단어 임베딩 개념을 채택했습니다. 본 연구에서는 생물정보학에서 DNA 염기서열 정보를 표현하기 위해 BERT 기반의 다국어 모델을 통합하여 새로운 기술을 제시합니다. 우리는 DNA 염기서열을 자연 문장으로 취급하고 BERT 모델을 사용하여 이를 고정 길이의 숫자 행렬로 변환했습니다. 사례 연구로, 우리는 DNA 강화 인자 예측에 우리의 방법을 적용했는데, 이는 이 분야에서 잘 알려져 있고 도전적인 문제입니다. 그런 다음 우리의 BERT 기반 특성이 생물정보학에서 현재 최첨단 특성과 비교할 때 민감도, 특이도, 정확도 및 Matthews 상관 계수 측면에서 5-10% 이상 향상된 것을 관찰했습니다. 또한, 심화 실험은 심층 학습(2D 합성곱 신경망(CNN)으로 표현됨)이 다른 전통적인 기계 학습 기술보다 BERT 특성을 더 잘 학습할 수 있는 잠재력을 지니고 있음을 보여줍니다. 결론적으로, 우리는 BERT와 2D CNN이 염기서열 정보를 사용한 생물학적 모델링의 새로운 길을 열 수 있을 것이라고 제안합니다.
Le 외 연구진(Mon,)은 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: