April 27, 2011Open Access

Sur la classification des étoiles variables par apprentissage automatique avec des données de séries temporelles clairsemées et bruyantes

Key Points

Key points are not available for this paper at this time.

Abstract

Avec l'arrivée du déluge de données provenant des enquêtes synoptiques, il y a un besoin croissant de cadres capables de produire rapidement et automatiquement des probabilités de classification étalonnées pour les variables nouvellement observées, basées sur un petit nombre de mesures de séries temporelles. Dans cet article, nous introduisons une méthodologie pour la classification des étoiles variables, s'appuyant sur des techniques modernes d'apprentissage automatique. Nous décrivons comment homogénéiser l'information extraite des courbes de lumière par la sélection et le calcul de métriques à nombres réels ("caractéristiques"), détaillons des méthodes pour estimer de manière robuste les caractéristiques périodiques des courbes de lumière, présentons des méthodes d'ensembles d'arbres pour une classification précise des étoiles variables, et montrons comment évaluer rigoureusement les résultats de classification en utilisant la validation croisée. Sur un ensemble de données de 25 classes contenant 1542 étoiles variables bien étudiées, nous atteignons un taux d'erreur de classification global de 22,8 % en utilisant le classificateur de forêt aléatoire ; cela représente une amélioration de 24 % par rapport au meilleur classificateur précédent sur ces données. Cette méthodologie est efficace pour identifier des échantillons de classes scientifiques spécifiques : pour les variables pulsationnelles utilisées dans la tomographie de la Voie lactée, nous obtenons une efficacité de découverte de 98,2 %, et pour les systèmes éclipsants, nous trouvons une efficacité de 99,1 %, les deux à 95 % de pureté. Nous montrons que le classificateur de forêt aléatoire (RF) est supérieur à d'autres méthodes d'apprentissage automatique en termes de précision, de rapidité et d'immunité relative aux caractéristiques ne contenant aucune information de classe utile ; le classificateur RF peut également être utilisé pour estimer l'importance de chaque caractéristique dans la classification. De plus, nous présentons la première utilisation astronomique des méthodes de classification hiérarchique pour intégrer une taxonomie de classe connue dans le classificateur, ce qui réduit encore le taux d'erreur catastrophique à 7,8 %. En excluant les sources à faible amplitude, notre taux d'erreur global s'améliore à 14 %, avec un taux d'erreur catastrophique de 3,5 %.

Demander à l'IA

Bookmark

View Full Paper