Nous décrivons un programme d'assemblage du génome entier nommé PCAP pour le traitement de dizaines de millions de lectures. Le programme PCAP présente plusieurs caractéristiques pour répondre aux problèmes d'efficacité et de précision dans l'assemblage. Plusieurs processeurs sont utilisés pour effectuer la plupart des calculs les plus longs dans l'assemblage. Une méthode plus sensible est utilisée pour éviter de manquer des recouvrements causés par des erreurs de séquençage. Les régions répétitives des lectures sont détectées sur la base de nombreux recouvrements avec d'autres lectures, au lieu de nombreux appariements de mots plus courts avec d'autres lectures. Les régions terminales contaminées des lectures sont identifiées et supprimées. La génération d'une séquence consensus pour un contig est basée sur un alignement des lectures dans le contig, dans lequel les valeurs de qualité des bases ainsi que les informations de couverture sont utilisées pour déterminer chaque base du consensus. Le programme PCAP a été testé sur un ensemble de données du génome entier de souris de 30 millions de lectures et un ensemble de données du Chr 20 humain de 1,7 million de lectures. Le programme est disponible gratuitement pour un usage académique.
Huang et al. (Mon,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: