Minimum profile Hellinger distance estimation for a semiparametric mixture model

Authors


Abstract

In this paper, we propose a new effective estimator for a class of semiparametric mixture models where one component has known distribution with possibly unknown parameters while the other component density and the mixing proportion are unknown. Such semiparametric mixture models have been often used in multiple hypothesis testing and the sequential clustering algorithm. The proposed estimator is based on the minimum profile Hellinger distance (MPHD), and its theoretical properties are investigated. In addition, we use simulation studies to illustrate the finite sample performance of the MPHD estimator and compare it with some other existing approaches. The empirical studies demonstrate that the new method outperforms existing estimators when data are generated under contamination and works comparably to existing estimators when data are not contaminated. Applications to two real data sets are also provided to illustrate the effectiveness of the new methodology. The Canadian Journal of Statistics 42: 246–267; 2014 © 2014 Statistical Society of Canada

Résumé

Les auteurs proposent un nouvel estimateur efficace pour une classe de modèles de mélange semi-paramétriques où l'une des composantes provient d'une distribution connue dont les paramètres peuvent être inconnus, mais où la distribution des autres composantes et les poids sont inconnus. De tels modèles de mélange semi-paramétriques sont souvent utilisés pour les tests d'hypothèse multiples et pour l'algorithme séquentiel de mise en grappe. L'estimateur proposé est basé sur le profil de distance de Hellinger minimal. Les auteurs étudient les propriétés théoriques de l'estimateur proposé et illustrent sa performance sur des échantillons de taille finie à l'aide de simulations en le comparant aux approches existantes. Cette étude empirique montre que la nouvelle méthode offre des performances supérieures aux méthodes existantes lorsque les données sont générées avec de la contamination, et des performances semblables aux méthodes classiques en absence de contamination. Les auteurs illustrent l'efficacité de la nouvelle méthode en l'appliquant à deux jeux de données réelles. La revue canadienne de statistique 42: 246–267; 2014 © 2014 Société statistique du Canada

Ancillary