Get access

Confidence intervals for the mean of a population containing many zero values under unequal-probability sampling

Authors


Abstract

In many applications, a finite population contains a large proportion of zero values that make the population distribution severely skewed. An unequal-probability sampling plan compounds the problem, and as a result the normal approximation to the distribution of various estimators has poor precision. The central-limit-theorem-based confidence intervals for the population mean are hence unsatisfactory. Complex designs also make it hard to pin down useful likelihood functions, hence a direct likelihood approach is not an option. In this paper, we propose a pseudo-likelihood approach. The proposed pseudo-log-likelihood function is an unbiased estimator of the log-likelihood function when the entire population is sampled. Simulations have been carried out. When the inclusion probabilities are related to the unit values, the pseudo-likelihood intervals are superior to existing methods in terms of the coverage probability, the balance of non-coverage rates on the lower and upper sides, and the interval length. An application with a data set from the Canadian Labour Force Survey-2000 also shows that the pseudo-likelihood method performs more appropriately than other methods. The Canadian Journal of Statistics 38: 582–597; 2010 © 2010 Statistical Society of Canada

Abstract

Dans de nombreuses applications, une population finie a une grande proportion de valeurs égale à zéro ce qui rend la distribution de la population extrêmement asymétrique. Si en plus, un plan d'échantillonnage avec poids inégaux est utilisé, il résulte que l'approximation normale de la distribution de différents estimateurs a une faible précision. Les intervalles de confiance pour la moyenne de la population basée sur le théorème de la limite centrale sont alors insatisfaisants. L'usage de plans d'échantillonnage complexes rend la spécification de la fonction de vraisemblance difficile rendant impossible l'utilisation directe de cette fonction de vraisemblance. Dans cet article, nous suggérons l'utilisation de l'approche par la pseudovraisemblance. La fonction de pseudolog-vraisemblance proposée est un estimateur sans biais de la fonction de log-vraisemblance lorsque l'ensemble de la population est échantillonné. Des simulations ont été faites. Lorsque les probabilités d'inclusion sont reliées à la valeur des unités, les intervalles basés sur la fonction de pseudovraisemblance sont supérieurs aux méthodes déjà existantes en termes de propriétés de couverture, de l'équilibre entre les taux de non-couverture de chaque côté des intervalles et de la longueur des intervalles. Une application avec un jeu de données provenant de l'enquête canadienne sur la population active (EPA-2000) montre aussi que la méthode de pseudovraisemblance a un meilleur comportement que les autres méthodes. La revue canadienne de statistique 38: 582–597; 2010 © 2010 Société statistique du Canada

Ancillary