SEARCH

SEARCH BY CITATION

Keywords:

  • Indirect evidence;
  • information criteria;
  • information for discrimination;
  • minimum description length;
  • model selection;
  • multiple comparison procedure;
  • multiple testing;
  • normalized maximum likelihood;
  • penalized likelihood;
  • reduced likelihood;
  • side information;
  • weighted likelihood;
  • worst-case inference
  • MSC 2010;
  • 62F03;
  • 62F12;
  • 62F15;
  • 62A01;
  • 94A24;
  • 94A45

Abstract

The normalized maximum likelihood (NML) is a recent penalized likelihood that has properties that justify defining the amount of discrimination information (DI) in the data supporting an alternative hypothesis over a null hypothesis as the logarithm of an NML ratio, namely, the alternative hypothesis NML divided by the null hypothesis NML. The resulting DI, like the Bayes factor but unlike the P-value, measures the strength of evidence for an alternative hypothesis over a null hypothesis such that the probability of misleading evidence vanishes asymptotically under weak regularity conditions and such that evidence can support a simple null hypothesis. Instead of requiring a prior distribution, the DI satisfies a worst-case minimax prediction criterion. Replacing a (possibly pseudo-) likelihood function with its weighted counterpart extends the scope of the DI to models for which the unweighted NML is undefined. The likelihood weights leverage side information, either in data associated with comparisons other than the comparison at hand or in the parameter value of a simple null hypothesis. Two case studies, one involving multiple populations and the other involving multiple biological features, indicate that the DI is robust to the type of side information used when that information is assigned the weight of a single observation. Such robustness suggests that very little adjustment for multiple comparisons is warranted if the sample size is at least moderate. The Canadian Journal of Statistics 39: 610–631; 2011. © 2011 Statistical Society of Canada

La fonction de vraisemblance maximale normalisée (NML) est une nouvelle fonction de vraisemblance pénalisée dont les propriétés justifient la définition de la quantité d'information de discrimination (DI) contenue dans les observations supportant l'hypothèse alternative par rapport à l'hypothèse nulle. Celle-ci s'exprime comme le logarithme du rapport NML, c'est-à-dire, la fonction NML sous l'hypothèse alternative divisée par la fonction NML sous l'hypothèse nulle. La DI résultante, tout comme la cote de Bayes, mais contrairement aux valeurs-p, mesure l'importance de l'évidence en faveur de l'hypothèse alternative par rapport à l'hypothèse nulle de façon à ce que la probabilité d'évidence trompeuse tend asymptotiquement vers 0 sous des conditions de régularité faibles et que l'évidence puisse supporter l'hypothèse nulle simple. Au lieu d'avoir besoin d'une distribution a priori, la DI satisfait le critère de prédiction minimax du cas le plus défavorable. En remplaçant une fonction de vraisemblance (possiblement de pseudovraisemblance) par sa contrepartie pondérée nous pouvons généraliser l'application de la DI aux modèles où la NML non pondérée n'est pas définie. La fonction de vraisemblance pondère l'influence d'information auxiliaire contenue dans les données associées avec des comparaisons autres que celle d'intérêt ou encore dans la valeur du paramètre spécifié sous l'hypothèse nulle simple. Deux études de cas, l'une impliquant des populations multiples et l'autre des caractéristiques biologiques multiples, indiquent que la DI est robuste pour le type d'information auxiliaire utilisée lorsque le poids de cette information correspond au poids d'une seule observation. Une telle robustesse suggère qu'il y a peu d'ajustement à faire pour les comparaisons multiples lorsque les échantillons sont au moms de taille modérée. La revue canadienne de statistique 39: 610–631; 2011. © 2011 Société statistique du Canada