Variable clustering in high dimensional linear regression models
Résumé
For the last three decades, the advent of technologies for massive data collection have brought deep changes in many scientific fields. What was first seen as a blessing, rapidly turned out to be termed as the curse of dimensionality. Reducing the dimensionality has therefore become a challenge in statistical learning. In high dimensional linear regression models, the quest for parsimony has long been driven by the idea that a few relevant variables may be sufficient to describe the modeled phenomenon. Recently, a new paradigm was introduced in a series of articles from which the present work derives.We propose here a model that simultaneously performs variable clustering and regression. Our approach no longer considers the regression coefficients as fixed parameters to be estimated, but as unobserved random variables following a Gaussian mixture model. The latent partition is then determined by maximum likelihood and predictions are obtained from the conditional distribution of the regression coefficients given the data. The number of latent components is chosen using a BIC criterion. Our model has very competitive predictive performances compared to standard approaches and brings significant improvements in interpretability.
Publiée
2014-04-12
Numéro
Rubrique
Numéro spécial : analyse des données en grande dimension
Les auteurs dont l'article est accepté pour publication sont invités à télécharger, compléter soigneusement et signer le formulaire de transfert de copyright à la Société Française de Statistique.
Instructions
- Pour les articles à plusieurs auteurs, un seul des auteurs est tenu de signer ce formulaire. Cet auteur est présumé avoir consulté ses co-auteurs et avoir reçu leur accord quant au contenu du formulaire.
- Le formulaire complété et signé est scanné (au format JPEG ou PDF) et envoyé par courriel, comme fichier attaché, à Gilles Celeux
Remarques
- En transférant le copyright d'un article à la Société Française de Statistique (SFdS) pour sa publication dans le Journal de la SFdS, l'(es) auteur(s) conserve(nt) les trois droits de propriété suivants:
- le droit de reproduire et d'utiliser l'article à des fins non lucratives dans un contexte éducatif, professionnel ou académique (par exemple, faire circuler des copies sous format papier ou électronique, déposer l'article complet sur un site internet), pour autant que, dans le corps du fichier électronique ou de la copie de l'article, le Journal de la Société Française de Statistique soit clairement citée comme source originale de publication et que les références bibliographiques complètes de l'article soient mentionnées (année, volume, numéro du fascicule, nombre de pages et adresse web/URL du J-SFdS), comme c'est le cas dans la version électronique originale;
- le droit d'accorder l'autorisation de reproduire des tableaux, graphiques ou illustrations qui apparaissent dans l'article, pour autant que le Journal de la SFdS soit clairement citée comme source originale de publication et que les références bibliographiques complètes de l'article soient mentionnées;
- la propriété intellectuelle.
- Les auteurs peuvent contacter l'un des rédacteurs en chef du J-SFdS s'ils désirent obtenir l'autorisation pour d'autres formes de distribution de l'article.