Key points are not available for this paper at this time.
사전 기반 단백질 이름 인식은 생물 의학 문서에서 실제 정보 추출을 위한 첫 번째 단계로, 기계 학습 기반 접근 방식과는 달리 인식된 용어의 ID 정보를 제공합니다. 그러나 사전 기반 접근 방식에는 두 가지 심각한 문제가 있습니다: (1) 짧은 이름으로 인한 많은 허위 인식과 (2) 철자 변형으로 인한 낮은 재현율. 본 논문에서는 기계 학습 방법을 사용하여 허위 긍정을 필터링하여 첫 번째 문제를 해결합니다. 또한 후자의 문제를 완화하기 위해 근사 문자열 검색 방법을 제시합니다. GE-NIA 말뭉치를 사용한 실험 결과, 나이브 베이즈 분류기를 사용한 필터링이 재현율의 소폭 손실로 정밀도를 크게 향상시켜 훨씬 개선된 F-score를 달성하는 것을 보여줍니다.
Tsuruoka et al. (Wed,)은 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: