Get access

Estimating prediction error in microarray classification: Modifications of the 0.632+ bootstrap when equation image

Authors

  • Wenyu Jiang,

    Corresponding author
    1. Department of Mathematics and Statistics, Queen's University, 48 University Avenue, Kingston, ON, Canada K7L 3N6
    • Department of Mathematics and Statistics, Queen's University, 48 University Avenue, Kingston, ON, Canada K7L 3N6.
    Search for more papers by this author
  • Bingshu E. Chen

    1. NCIC Clinical Trials Group and Department of Community Health and Epidemiology, Queen's University, 10 Stuart Street, Kingston, Ontario, Canada K7L 3N6
    Search for more papers by this author

Abstract

We are interested in estimating prediction error for a classification model built on high dimensional genomic data when the number of genes (p) greatly exceeds the number of subjects (n). We examine a distance argument supporting the conventional 0.632+ bootstrap proposed for the equation image scenario, modify it for the equation image situation and develop learning curves to describe how the true prediction error varies with the number of subjects in the training set. The curves are then applied to define adjusted resampling estimates for the prediction error in order to achieve a balance in terms of bias and variability. The adjusted resampling methods are proposed as counterparts of the 0.632+ bootstrap when equation image, and are found to improve on the 0.632+ bootstrap and other existing methods in the microarray study scenario when the sample size is small and there is some level of differential expression. The Canadian Journal of Statistics 41: 133–150; 2013 © 2012 Statistical Society of Canada

Abstract

Nous sommes intéressés à estimer l'erreur de prédiction pour un modèle de classification basé sur des données génomiques de grande dimension lorsque le nombre de gènes (p) dépasse largement le nombre de sujets (n). Nous examinons un argument de distance appuyant la méthode de rééchantillonnage .632+ proposé pour le scénario equation image, et nous la modifions pour le cas equation image. De plus, nous développons les courbes d'apprentissage pour décrire comment la vraie erreur de prédictions varie en fonction du nombre de sujets dans l'échantillon de travail. Ces courbes sont alors utilisées pour définir les estimations de rééchantillonnage ajustés pour l'erreur de prédiction de façon à obtenir un compromis entre le biais et la variabilité. Les méthodes de rééchantillonnage ajustées sont proposées en contrepartie de la méthode .632+ lorsque equation image. De plus, celles-ci et les autres méthodes existantes dans les études de puces à ADN sont améliorées lorsque la taille échantillonnale est petite et qu'il y a quelques niveaux dans l'expression différentielle. La revue canadienne de statistique 41: 133–150; 2013 © 2012 Société statistique du Canada

Ancillary