SEARCH

SEARCH BY CITATION

Keywords:

  • Balanced imputation;
  • coefficient of correlation;
  • imputation;
  • bootstrap variance estimation;
  • MSC 2010: Primary 62D05;
  • secondary 62G09

Abstract

Marginal imputation, that consists of imputing items separately, generally leads to biased estimators of bivariate parameters such as finite population coefficients of correlation. To overcome this problem, two main approaches have been considered in the literature: the first consists of using customary imputation methods such as random hot-deck imputation and adjusting for the bias at the estimation stage. This approach was studied in Skinner & Rao 2002. In this paper, we extend the results of Skinner & Rao 2002 to the case of arbitrary sampling designs and three variants of random hot-deck imputation. The second approach consists of using an imputation method, which preserves the relationship between variables. Shao & Wang 2002 proposed a joint random regression imputation procedure that succeeds in preserving the relationships between two study variables. One drawback of the Shao–Wang procedure is that it suffers from an additional variability (called the imputation variance) due to the random selection of residuals, resulting in potentially inefficient estimators. Following Chauvet, Deville, & Haziza 2011, we propose a fully efficient version of the Shao–Wang procedure that preserves the relationship between two study variables, while virtually eliminating the imputation variance. Results of a simulation study support our findings. An application using data from the Workplace and Employees Survey is also presented. The Canadian Journal of Statistics 40: 124–149; 2012 © 2011 Statistical Society of Canada

L'imputation marginale, qui consiste à imputer les variables séparément, conduit généralement à une estimation biaisée pour un paramètre bivarié tel que le coefficient de corrélation. Pour traiter ce problème, deux approches principales ont été considérées dans la littérature: la première consiste à utiliser des méthodes d'imputation habituelles telles que le hot-deck aléatoire, et à ajuster pour le biais à l'étape de l'estimation. Cette approche a été étudiée par Skinner & Rao 2002. Dans ce papier, nous étendons les résultats de Skinner & Rao 2002 au cas d'un plan de sondage quelconque et pour trois variantes de l'imputation par hot-deck aléatoire. La seconde approche consiste à utiliser une méthode d'imputation qui préserve la relation entre les variables. Shao & Wang 2002 ont proposé une procédure d'imputation aléatoire jointe qui permet de préserver le lien entre deux variables d'intérêt. Un inconvénient de la procédure de Shao–Wang est qu'elle engendre une variabilité supplémentaire (appelée variance d'imputation), en raison de la sélection aléatoire de résidus, conduisant à des estimateurs potentiellement inefficaces. A la suite de Chauvet, Deville, & Haziza 2011, nous proposons une version de la procédure de Shao–Wang qui préserve le lien entre deux variables d'intérêt, tout en éliminant virtuellement la variance d'imputation. Les résultats d'une étude par simulation confirment les bonnes propriétés de la méthode proposée. Nous présentons également une application à des données issues de l'Enquête Canadienne sur le milieu de travail et les employés. La revue canadienne de statistique 40: 124–149; 2012 © 2011 Société statistique du Canada