July 17, 2014Open Access

تحسين تنبؤ تسلسل التنظيم باستخدام ميزات كمر المتباعدة

Key Points

Key points are not available for this paper at this time.

Abstract

تُعد أوليغومرات بطول k، أو k-mers، ميزات ملائمة و مستخدمة على نطاق واسع لنمذجة خصائص ووظائف تسلسلات الحمض النووي والبروتين. ومع ذلك، تعاني k-mers من القيد الفطري بأنه إذا تم زيادة المعامل k لحل ميزات أطول، فإن احتمال ملاحظة أي k-mer محدد يصبح ضئيلًا للغاية، وتقترب حسابات k-mer من متغير ثنائي، حيث تكون غالبية k-mers غائبة وقليل منها موجود مرة واحدة. وبالتالي، يصبح أي نهج تعليمي إحصائي يستخدم k-mers كميزات عرضة لترددات k-mer في مجموعة التدريب المزعجة عندما يصبح k كبيرًا. لمعالجة هذه المشكلة، نقدم مجموعات ميزات بديلة باستخدام k-mers المتباعدة، ومصنف جديد، gkm-SVM، وطريقة عامة للتقدير القوي لترددات k-mer. لجعل الطريقة قابلة للتطبيق على تطبيقات واسعة النطاق عبر الجينوم، نقوم بتطوير بنية بيانات شجرية فعالة لحساب مصفوفة النواة. ونظهر أنه مقارنةً بمصنف kmer-SVM الأصلي لدينا وطرق بديلة، يتنبأ gkm-SVM بعناصر تنظيم الجينوم الوظيفي ومعززات محددة لأنسجة بشكل يحسن الدقة بشكل كبير، مما يزيد الدقة حتى مرتين. ثم نوضح أن gkm-SVM يتفوق باستمرار على kmer-SVM في مجموعات بيانات ChIP-seq الخاصة بإنسان ENCODE، ونظهر أيضًا الفائدة العامة لطريقتنا باستخدام مصنف Naïve-Bayes. على الرغم من تطويرها لتحليل تسلسل التنظيم، يمكن تطبيق هذه الطرق على أي مشكلة تصنيف تسلسلات.

Bookmark

View Full Paper