Robust location estimation with missing data

Authors

  • Mariela Sued,

    Corresponding author
    1. Instituto de Cálculo, Facultad de Ciencias Exactas y Naturales, University of Buenos Aires and CONICET, Buenos Aires, Argentina
    • Instituto de Cálculo, Facultad de Ciencias Exactas y Naturales, University of Buenos Aires and CONICET, Buenos Aires, Argentina.
    Search for more papers by this author
  • Victor J. Yohai

    1. Departamento de Matemáticas, Facultad de Ciencias Exactas y Naturales, University of Buenos Aires and CONICET, Buenos Aires, Argentina
    Search for more papers by this author

Abstract

In a missing data setting, we have a sample in which a vector of explanatory variables equation image is observed for every subject i, while scalar responses equation image are missing by happenstance on some individuals. In this work we propose robust estimators of the distribution of the responses assuming missing at random (MAR) data, under a semiparametric regression model. Our approach allows the consistent estimation of any weakly continuous functional of the response's distribution. In particular, strongly consistent estimators of any continuous location functional, such as the median, L-functionals and M-functionals, are proposed. A robust fit for the regression model combined with the robust properties of the location functional gives rise to a robust recipe for estimating the location parameter. Robustness is quantified through the breakdown point of the proposed procedure. The asymptotic distribution of the location estimators is also derived. The proofs of the theorems are presented in Supplementary Material available online. The Canadian Journal of Statistics 41: 111–132; 2013 © 2012 Statistical Society of Canada

Abstract

Avec les données manquantes, nous avons un échantillon pour lequel les variables explicatives equation image sont observées pour chaque sujet i, tandis que les variables réponses equation image sont manquantes au hasard pour quelques individus. Dans ce travail, nous proposons des estimateurs robustes pour la fonction de distribution des variables réponses en supposant que les données soient manquantes au hasard (MAR), sous un modèle de régression non paramétrique. Notre approche permet l'estimation cohérente de n'importe quelle fonctionnelle faiblement continue de la distribution des variables réponses. Plus particulièrement, nous proposons des L-et M-fonctionnelles qui sont des estimateurs fortement cohérents de n'importe quelle fonctionnelle continue du paramètre de position (par exemple, la médiane). Une méthode d'ajustement robuste du modèle de régression combinée aux propriétés de robustesse des fonctionnelles de tendance centrale fournissent une méthode robuste pour l'estimation du paramètre de position. La robustesse de notre procédure est mesurée à l'aide du point de rupture. Nous obtenons aussi la fonction de distribution asymptotique des estimateurs du paramètre de position. Des suppléments, contenant les démonstrations des théorèmes, sont disponibles en ligne. La revue canadienne de statistique 41: 111–132; 2013 © 2012 Société statistique du Canada

Ancillary