Los puntos clave no están disponibles para este artículo en este momento.
Priorizar variantes missense para una investigación experimental adicional es un desafío clave en los estudios de secuenciación actuales para explorar enfermedades complejas y mendelianas. Se han empleado una gran cantidad de herramientas en silico para la tarea de predicción de patogenicidad, incluyendo PolyPhen-2, SIFT, FatHMM, MutationTaster-2, MutationAssessor, Combined Annotation Dependent Depletion, LRT, phyloP y GERP++, así como métodos optimizados de combinación de puntajes de herramientas, como Condel y Logit. Debido a la abundancia de estos métodos, una pregunta práctica importante a responder es cuál de estas herramientas generaliza mejor, es decir, predice correctamente el carácter patogénico de nuevas variantes. Aquí demostramos en un estudio de 10 herramientas sobre cinco conjuntos de datos que tal evaluación comparativa de estas herramientas se ve obstaculizada por dos tipos de circularidad: surgen debido a (1) las mismas variantes o (2) diferentes variantes de la misma proteína que ocurren tanto en los conjuntos de datos utilizados para el entrenamiento como para la evaluación de estas herramientas, lo cual puede llevar a resultados excesivamente optimistas. Mostramos que las evaluaciones comparativas de predictores que no abordan estos tipos de circularidad pueden concluir erróneamente que las herramientas con circularidad confundida son las más precisas entre todas las herramientas, e incluso pueden superar combinaciones optimizadas de herramientas.
Grimm et al. (Sat,) estudiaron esta cuestión.