February 18, 2024

과학 문헌에서 LLM 기반 생물학적 명명 개체 인식

Key Points

Key points are not available for this paper at this time.

Abstract

최근 대규모 언어 모델(LLM)의 자연어 처리 분야에서의 적용이 눈에 띄는 성장세를 보이며, 생물정보학 분야를 혁신적으로 변화시키고 있습니다. 이 연구에서는 프롬프트 엔지니어링을 통해 정제된 사전 훈련된 대규모 언어 모델(LLM)을 사용하여 생물학적 명명 개체 인식기(BNER)의 개발 및 평가를 제시합니다. BNER는 p53 단백질 관련 연구의 맥락을 구체적으로 목표로 하여 과학적 텍스트 내에서 단백질, 유전자 및 소분자를 식별하도록 조정되었습니다. BNER의 효능을 평가하기 위해 다섯 개의 고관련 과학 논문의 초록 및 중요한 섹션에서 추출한 열 개의 단락으로 구성된 데이터셋을 구축했습니다. 시스템의 성능은 개체 인식 작업을 통해 정량화되었으며, 51개의 진짜 양성(TP), 10개의 가짜 양성(FP), 3개의 가짜 음성(FN)을 기록했습니다. BNER는 0.887의 F1 점수를 달성하였으며, 이는 높은 정밀도와 재현율을 보여줍니다. 이러한 결과는 생물정보학에서 LLM의 유용성을 검증하며, BNER가 정확하고 구조화된 데이터 출력을 제공하여 포괄적 분석에 적합함으로써 과학적 발견을 지원하고 가속화할 수 있는 잠재력을 강조합니다.

Bookmark

과학 문헌에서 LLM 기반 생물학적 명명 개체 인식

Key Points

Abstract

Cite This Study

Also Consider

Also Consider