Key points are not available for this paper at this time.
MOTIVATION : Nous avons récemment introduit une approche multivariée qui sélectionne un sous-ensemble de gènes prédictifs de manière conjointe pour la classification d'échantillons basée sur des données d'expression. Nous avons testé l'algorithme sur des ensembles de données de colon et de leucémie. En tant qu'extension de nos travaux antérieurs, nous examinons systématiquement la sensibilité, la reproductibilité et la stabilité de la sélection de gènes/classification des échantillons par rapport au choix des paramètres de l'algorithme. MÉTHODES : Notre approche combine un Algorithme Génétique (GA) et la méthode des k-plus Proches Voisins (KNN) pour identifier des gènes qui peuvent discriminer conjointement entre différentes classes d'échantillons (par exemple, normal versus tumeur). La méthode GA/KNN est une méthode de reconnaissance de motifs supervisée stochastique. Les gènes identifiés sont ensuite utilisés pour classer des échantillons de test indépendants. RÉSULTATS : La méthode GA/KNN est capable de sélectionner un sous-ensemble de gènes prédictifs à partir d'un grand ensemble de données bruyantes pour la classification d'échantillons. C'est une approche multivariée qui peut capturer la structure corrélée dans les données. Nous constatons que pour un ensemble de données donné, la sélection de gènes est hautement répétable lors de courses indépendantes utilisant la méthode GA/KNN. En général, cependant, la sélection de gènes peut être moins robuste que la classification. ACCESSIBILITÉ : La méthode est disponible sur http://dir.niehs.nih.gov/microarray/datamining CONTACT : LI3@niehs.nih.gov
Li et al. (Samedi,) ont étudié cette question.