Key points are not available for this paper at this time.
Le séquençage de nouvelle génération (NGS) est une méthode populaire pour évaluer la diversité moléculaire des communautés microbiennes sans culture, pour identifier des polymorphismes dans les populations et pour comparer les génomes et transcriptomes. Cependant, les erreurs spécifiques de séquence (SSE) générées par les systèmes NGS peuvent entraîner une mauvaise assemblée du génome, une surestimation de la diversité dans les analyses de communautés microbiennes et une découverte incorrecte de polymorphismes. Les SSE peuvent être particulièrement problématiques en raison de la riche biodiversité microbienne et des génomes contenant des répétitions fréquentes. Dans cette étude, les SSE dans des données publiques provenant de tous les systèmes NGS populaires ont été découvertes en utilisant un modèle de chaîne de Markov et des points chauds pour les erreurs de séquence ont été identifiés. Les erreurs de suppression étaient souvent précédées par des homopolymères dans les systèmes NGS non Illumina, tels que GS FLX+. Les erreurs de substitution étaient souvent liées à des contenus élevés en GC et à de longs homopolymères G/C dans les systèmes de séquençage Illumina tels que HiSeq. Après suppression des longs homopolymères G/C dans HiSeq, les longueurs moyennes des contigs et la qualité moyenne des SNP ont augmenté. Les SSE ont été éliminées sélectivement de nos données de communauté factice par le filtrage de qualité, et un biais contre des microbes spécifiques a été identifié. Nos résultats fournissent une base scientifique pour filtrer les lectures de mauvaise qualité, corriger les erreurs de suppression, prévenir les mauvaises assemblages de génomes et évaluer avec précision les compositions des communautés microbiennes et les polymorphismes.
Shin et al. (jeu,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: