Key points are not available for this paper at this time.
동기: MEDLINE 생물 의학 초록 데이터베이스는 수천 개의 상호 작용하는 유전자 및 단백질에 대한 과학적 지식을 포함하고 있습니다. 자동화된 텍스트 처리는 이 귀중한 정보를 이해하고 통합하는 데 도움이 될 수 있습니다. 유전자 및 단백질 이름을 식별하는 기본 작업은 생물 의학 텍스트에 암호화된 정보를 완전히 활용하기 위한 첫 번째 필수 단계입니다. 유전자 및 단백질 명명법의 불규칙성과 모호성 때문에 여전히 도전적인 작업입니다. 우리는 과학적 초록에서 유전자 및 단백질 이름의 감지를 품사 태깅의 일환으로 접근할 것을 제안합니다. 결과: 우리는 통계적 전략과 지식 기반 전략을 결합하여 생물 의학 텍스트에서 유전자 및 단백질 이름을 태깅하는 방법을 제시합니다. 이 방법은 변환 기반 품사 태거에서 자동으로 생성된 규칙과 형태학적 단서, 저빈도 삼그램, 지시어, 접미사 및 품사 정보를 통한 수동으로 생성된 규칙을 통합합니다. 56K MEDLINE 문서로 구성된 테스트 코퍼스에 대한 실험 결과, 우리의 유전자 및 단백질 이름 추출 방법은 특별한 조건이나 인간 전문가가 관련 하위 집합을 미리 결정할 필요 없이 대량의 MEDLINE 초록에 적용될 수 있음을 입증합니다. 가용성: 프로그램은 저자로부터 요청 시 제공됩니다.
Tanabe et al. (목요일)는 이 질문을 연구했습니다.