Key points are not available for this paper at this time.
تُعد أوليغومرات بطول k، أو k-mers، ميزات ملائمة و مستخدمة على نطاق واسع لنمذجة خصائص ووظائف تسلسلات الحمض النووي والبروتين. ومع ذلك، تعاني k-mers من القيد الفطري بأنه إذا تم زيادة المعامل k لحل ميزات أطول، فإن احتمال ملاحظة أي k-mer محدد يصبح ضئيلًا للغاية، وتقترب حسابات k-mer من متغير ثنائي، حيث تكون غالبية k-mers غائبة وقليل منها موجود مرة واحدة. وبالتالي، يصبح أي نهج تعليمي إحصائي يستخدم k-mers كميزات عرضة لترددات k-mer في مجموعة التدريب المزعجة عندما يصبح k كبيرًا. لمعالجة هذه المشكلة، نقدم مجموعات ميزات بديلة باستخدام k-mers المتباعدة، ومصنف جديد، gkm-SVM، وطريقة عامة للتقدير القوي لترددات k-mer. لجعل الطريقة قابلة للتطبيق على تطبيقات واسعة النطاق عبر الجينوم، نقوم بتطوير بنية بيانات شجرية فعالة لحساب مصفوفة النواة. ونظهر أنه مقارنةً بمصنف kmer-SVM الأصلي لدينا وطرق بديلة، يتنبأ gkm-SVM بعناصر تنظيم الجينوم الوظيفي ومعززات محددة لأنسجة بشكل يحسن الدقة بشكل كبير، مما يزيد الدقة حتى مرتين. ثم نوضح أن gkm-SVM يتفوق باستمرار على kmer-SVM في مجموعات بيانات ChIP-seq الخاصة بإنسان ENCODE، ونظهر أيضًا الفائدة العامة لطريقتنا باستخدام مصنف Naïve-Bayes. على الرغم من تطويرها لتحليل تسلسل التنظيم، يمكن تطبيق هذه الطرق على أي مشكلة تصنيف تسلسلات.
دراسة غاندي وآخرون (الخميس) هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: