사전 기반 단백질 이름 인식의 정밀도와 재현율 향상

Key Points

Key points are not available for this paper at this time.

Abstract

사전 기반 단백질 이름 인식은 생물 의학 문서에서 실제 정보 추출을 위한 첫 번째 단계로, 기계 학습 기반 접근 방식과는 달리 인식된 용어의 ID 정보를 제공합니다. 그러나 사전 기반 접근 방식에는 두 가지 심각한 문제가 있습니다: (1) 짧은 이름으로 인한 많은 허위 인식과 (2) 철자 변형으로 인한 낮은 재현율. 본 논문에서는 기계 학습 방법을 사용하여 허위 긍정을 필터링하여 첫 번째 문제를 해결합니다. 또한 후자의 문제를 완화하기 위해 근사 문자열 검색 방법을 제시합니다. GE-NIA 말뭉치를 사용한 실험 결과, 나이브 베이즈 분류기를 사용한 필터링이 재현율의 소폭 손실로 정밀도를 크게 향상시켜 훨씬 개선된 F-score를 달성하는 것을 보여줍니다.

Bookmark

View Full Paper

Bookmark

View Full Paper

사전 기반 단백질 이름 인식의 정밀도와 재현율 향상

Key Points

Abstract

Cite This Study

Also Consider

Also Consider