SEARCH

SEARCH BY CITATION

Keywords:

  • Domain estimation;
  • outlier robust;
  • threshold sample;
  • Winsorization;
  • prediction
  • Primary 62D05;
  • secondary 62G35

Abstract

Outliers that commonly occur in business sample surveys can have large impacts on domain estimates. The authors consider an outlier-robust design and smooth estimation approach, which can be related to the so-called “Surprise stratum” technique [Kish, “Survey Sampling,” Wiley, New York (1965)]. The sampling design utilizes a threshold sample consisting of previously observed outliers that are selected with probability one, together with stratified simple random sampling from the rest of the population. The domain predictor is an extension of the Winsorization-based estimator proposed by Rivest and Hidiroglou [Rivest and Hidiroglou, “Outlier Treatment for Disaggregated Estimates,” in “Proceedings of the Section on Survey Research Methods,” American Statistical Association (2004), pp. 4248–4256], and is similar to the estimator for skewed populations suggested by Fuller [Fuller, Statistica Sinica 1991;1:137–158]. It makes use of a domain Winsorized sample mean plus a domain-specific adjustment of the estimated overall mean of the excess values on top of that. The methods are studied in theory from a design-based perspective and by simulations based on the Norwegian Research and Development Survey data. Guidelines for choosing the threshold values are provided. The Canadian Journal of Statistics 39: 147–164; 2011 © 2010 Statistical Society of Canada

Il est fréquent d'observer des valeurs aberrantes dans les enquêtes d'entreprises et celles-ci peuvent avoir des impacts majeurs dans les estimations d'un domaine. Les auteurs considèrent un plan de sondage robuste par rapport à la présence de valeurs aberrantes et une approche d'estimation lisse qui peuvent être reliées à la technique dite de la << strate surprise >> (voir Kish, 1965). Le plan de sondage utilise un échantillon à seuil qui consiste à combiner toutes les valeurs aberrantes déjà observées à un échantillon aléatoire simple stratiflé pour le reste de la population. Le prédicteur du domaine est une généralisation de l'estimateur avec regroupement frontalier proposé par Rivest et Hidiroglou (2004) et il est similaire à l'estimateur pour les populations asymétriques suggéré par Fuller (1991). Il utilise la moyenne échantillonnage avec regroupement frontalier en plus d'un ajustement, spécifique au domaine, de la valeur estimée de la moyenne globale des valeurs excédentaires. Ces méthodes sont étudiées théoriquement d'un point de vue du plan de sondage et par des simulations basées sur les données provenant d'une enquete norvégienne sur la recherche et le développement. Des recommandations pour choisir les valeurs de seuillage sont aussi proposées. La revue canadienne de statistique 39: 147–164; 2011 © 2010 Société statistique du Canada