Key points are not available for this paper at this time.
서열 동종성을 기반으로 알려진 단백질 3차원 구조의 데이터베이스는 다음과 같은 관찰을 통해 크게 증가할 수 있습니다. (1) 현재 12,000개 이상의 단백질로 이루어진 알려진 서열 데이터베이스는 알려진 구조 데이터베이스보다 두 배 더 큽니다. (2) 단백질 구조를 예측하는 현재 가장 강력한 방법은 동종성에 의한 모델 구축입니다. (3) 구조적 동종성은 서열 유사성의 수준에서 추론할 수 있습니다. (4) 구조적 동종성에 충분한 서열 유사성의 임계값은 정렬의 길이에 크게 의존합니다. 여기서 우리는 알려진 구조의 단백질 간의 정렬에 대한 철저한 조사를 통해 서열 유사성, 구조 유사성 및 정렬 길이 간의 관계를 정량화하며, 정렬 길이의 함수로서 동종성 임계값 곡선을 보고합니다. 그 다음, 우리는 임계값 곡선을 기반으로 동종으로 간주되는 모든 서열과 알려진 구조의 각 단백질에 정렬하여 단백질의 동종 유래 이차 구조 데이터베이스(HSSP)를 생성합니다. 각 알려진 단백질 구조에 대해, 파생된 데이터베이스는 정렬된 서열, 이차 구조, 서열 변이성 및 서열 프로필을 포함합니다. 정렬된 서열의 3차 구조는 암시되지만 명시적으로 모델링되지는 않습니다. 이 데이터베이스는 알려진 단백질 구조의 수를 5배 이상, 즉 1800개 이상으로 효과적으로 증가시킵니다. 결과는 서열 데이터베이스 검색에서의 일치의 구조적 의미를 평가하거나, 구조 예측을 위한 선호도와 패턴을 도출하며, 보존된 잔류물의 구조적 역할을 설명하고, 동종성에 의해 3차원 세부 사항을 모델링하는 데 유용할 수 있습니다.
Sander et al. (화,)은 이 질문을 연구했습니다.