Key points are not available for this paper at this time.
Résumé Cet article concerne la sélection de sous-ensembles de variables prédictives dans un modèle de régression linéaire pour la prédiction d'une variable dépendante. Il est basé sur une approche bayésienne, destinée à être aussi objective que possible. Une distribution de probabilité est d'abord assignée à la variable dépendante par la spécification d'une famille de distributions a priori pour les paramètres inconnus dans le modèle de régression. La méthode n'est cependant pas entièrement bayésienne, car le choix final de la distribution a priori dans cette famille est influencé par les données. On suppose que les prédicteurs représentent des observables distinctes ; les coefficients de régression correspondants se voient assigner des distributions a priori indépendantes. Pour chaque coefficient de régression susceptible d'être supprimé du modèle, la distribution a priori est un mélange d'une masse ponctuelle à 0 et d'une distribution uniforme diffuse ailleurs, c'est-à-dire une distribution « spike and slab ». Le composant d'erreur aléatoire est assigné une distribution normale avec une moyenne de 0 et un écart-type σ, où ln(σ) a une distribution a priori non informative localement uniforme. Les probabilités a posteriori appropriées sont dérivées pour chaque sous-modèle. Si les coefficients de régression ont des a priori identiques, la distribution a posteriori dépend uniquement des données et du paramètre γ, qui est la hauteur du pic divisée par la hauteur de la plaque pour la distribution a priori commune. Ce paramètre n'est pas assigné une distribution de probabilité ; au lieu de cela, il est considéré comme un paramètre qui indexe les membres d'une classe de méthodes bayésiennes. Des méthodes graphiques sont proposées comme guides informels pour choisir γ, évaluer la complexité de la fonction de réponse et la force des variables prédictives individuelles, et évaluer le degré d'incertitude concernant le meilleur sous-modèle. Les plots suivants contre γ sont suggérés : (a) probabilité a posteriori qu'un coefficient de régression particulier soit 0 ; (b) nombre attendu de termes dans le modèle ; (c) entropie a posteriori de la distribution du sous-modèle ; (d) erreur prédictive a posteriori ; et (e) probabilité a posteriori de conformité au modèle. Les plots (d) et (e) sont suggérés comme moyens de choisir y. L'erreur prédictive est déterminée à l'aide d'une approche de validation croisée bayésienne qui génère une densité prédictive pour chaque observation, étant donné toutes les données sauf cette observation, c'est-à-dire un type d'approche « leave one out ». La mesure de la conformité au modèle est la somme des probabilités a posteriori de tous les sous-modèles qui passent un test F standard de conformité au modèle par rapport au modèle complet, à un niveau de signification spécifié. La dépendance des résultats à l'échelle des variables est discutée, et quelques moyens de choisir les constantes d'échelle sont suggérés. Des exemples basés sur un grand ensemble de données provenant d'une étude sur la conservation de l'énergie sont donnés pour démontrer l'application des méthodes.
Mitchell et al. (Jeu,) ont étudié cette question.