Get access

Variable selection and estimation in generalized linear models with the seamless equation image penalty

Authors


Abstract

In this paper, we propose variable selection and estimation in generalized linear models using the seamless equation image (SELO) penalized likelihood approach. The SELO penalty is a smooth function that very closely resembles the discontinuous equation image penalty. We develop an efficient algorithm to fit the model, and show that the SELO-GLM procedure has the oracle property in the presence of a diverging number of variables. We propose a Bayesian information criterion (BIC) to select the tuning parameter. We show that under some regularity conditions, the proposed SELO-GLM/BIC procedure consistently selects the true model. We perform simulation studies to evaluate the finite sample performance of the proposed methods. Our simulation studies show that the proposed SELO-GLM procedure has a better finite sample performance than several existing methods, especially when the number of variables is large and the signals are weak. We apply the SELO-GLM to analyze a breast cancer genetic dataset to identify the SNPs that are associated with breast cancer risk. The Canadian Journal of Statistics 40: 745–769; 2012 © 2012 Statistical Society of Canada

Abstract

Dans cet article, nous proposons une méthode de sélection de variables et d'estimation pour les modèles linéaires généralisés en utilisant l'approche de vraisemblance pénalisée equation image continue (SELO). La pénalité SELO est une fonction lisse très similaire à la pénalité equation image discontinue. Nous développons un algorithme efficace pour ajuster ce modèle et nous montrons que la procédure SELO-GLM possède des propriétés d'oracle en présence d'un nombre de variables divergeant. Nous proposons un critère d'information bayésien (BIC) pour choisir le paramètre de réglage. Nous montrons que, sous certaines conditions de régularité, la procédure SELO-GLM/BIC que nous proposons sélectionne le vrai modèle de façon constante. Des études de simulation ont été faites pour évaluer ses performances pour de petits échantillons. Ces études montrent que, pour les petits échantillons, la procédure SELO-GLM performe mieux que beaucoup de méthodes déjà existantes, principalement lorsque le nombre de variables est grand et que les signaux sont faibles. Nous appliquons la procédure SELO-GLM pour analyser un jeu de données génétiques sur le cancer du sein et pour identifier les snips associés au risque de développer un cancer du sein. La revue canadienne de statistique 40: 745–769; 2012 © 2012 Société statistique du Canada

Ancillary