On Model Selection Curves
Summary
enMany popular methods of model selection involve minimizing a penalized function of the data (such as the maximized log‐likelihood or the residual sum of squares) over a set of models. The penalty in the criterion function is controlled by a penalty multiplier λ which determines the properties of the procedure. In this paper, we first review model selection criteria of the simple form “Loss + Penalty” and then propose studying such model selection criteria as functions of the penalty multiplier. This approach can be interpreted as exploring the stability of model selection criteria through what we call model selection curves. It leads to new insights into model selection and new proposals on how to select models. We use the bootstrap to enhance the basic model selection curve and develop convenient numerical and graphical summaries of the results. The methodology is illustrated on two data sets and supported by a small simulation. We show that the new methodology can outperform methods such as AIC and BIC which correspond to single points on a model selection curve.
Résumé
esBeaucoup de méthodes populaires de sélection de variables impliquent la minimisation d'une fonction pénalisée des données (comme la vraisemblance maximisée ou la somme résiduelle carrés) sur un jeu de modèles. La pénalité dans la fonction de critère est contrôlée par un multiplicateur de pénalitéλ qui détermine les propriétés de la procédure. Nous reconsidérons d'abord des critères de sélection modèles de la forme simple ‘Perte + Pénalité’ et proposons ensuite d'étudier de telles fonctions comme les fonctions du multiplicateur de pénalité. Cette approche peut être interprétée comme l'exploration de la stabilité de fonctions de critère par ce que nous appelons des courbes de choix modèles. Il mène à de nouvelles compréhensions dans le sélection de variables et de nouvelles propositions de la façon d'utiliser ces fonctions de critère pour sélectionner de variables. Nous utilisons le bootstrap pour augmenter des courbes de choix modèle et développent les résumés numériques et graphiques des résultats. La méthodologie est illustrée sur deux jeux de données et soutenue par une petite simulation. Nous montrons que la nouvelle méthodologie peut surpasser des méthodes comme AIC et BIC qui correspond aux points simples sur une courbe de choix modèle.
Citing Literature
Number of times cited according to CrossRef: 9
- Kevin YX Wang, Garth Tarr, Jean YH Yang, Samuel Mueller, Fast and approximate exhaustive variable selection for generalised linear models with APES, Australian & New Zealand Journal of Statistics, 10.1111/anzs.12276, 61, 4, (445-465), (2019).
- Francis K. C. Hui, Samuel Müller, A. H. Welsh, Sparse Pairwise Likelihood Estimation for Multivariate Longitudinal Mixed Models, Journal of the American Statistical Association, 10.1080/01621459.2017.1371026, 113, 524, (1759-1769), (2018).
- Ellis Patrick, Sarah-Jane Schramm, John T Ormerod, Richard A Scolyer, Graham J Mann, Samuel Mueller, Jean Y.H. Yang, A multi-step classifier addressing cohort heterogeneity improves performance of prognostic biomarkers in three cancer types, Oncotarget, 10.18632/oncotarget.13203, 8, 2, (2807-2815), (2016).
- Nils Ternès, Federico Rotolo, Stefan Michiels, Empirical extensions of the lasso penalty to reduce the false discovery rate in high‐dimensional Cox regression models, Statistics in Medicine, 10.1002/sim.6927, 35, 15, (2561-2573), (2016).
- Florian Rohart, Multiple Hypothesis Testing for Variable Selection, Australian & New Zealand Journal of Statistics, 10.1111/anzs.12157, 58, 2, (245-267), (2016).
- Jiming Jiang, Thuan Nguyen, J. Sunil Rao, The E-MS Algorithm: Model Selection With Incomplete Data, Journal of the American Statistical Association, 10.1080/01621459.2014.948545, 110, 511, (1136-1147), (2015).
- Tanya P. Garcia, Samuel Müller, Raymond J. Carroll, Rosemary L. Walzem, Identification of important regressor groups, subgroups and individuals via regularization methods: application to gut microbiome data, Bioinformatics, 10.1093/bioinformatics/btt608, 30, 6, (831-837), (2013).
- K. Murray, S. Heritier, S. Müller, Graphical tools for model selection in generalized linear models, Statistics in Medicine, 10.1002/sim.5855, 32, 25, (4438-4451), (2013).
- T. P. Garcia, S. Muller, R. J. Carroll, T. N. Dunn, A. P. Thomas, S. H. Adams, S. D. Pillai, R. L. Walzem, Structured variable selection with q-values, Biostatistics, 10.1093/biostatistics/kxt012, 14, 4, (695-707), (2013).




