SEARCH

SEARCH BY CITATION

Keywords:

  • Association parameters;
  • clustered data;
  • mean parameters;
  • missing data;
  • pairwise likelihood;
  • repeated measurements

Abstract

Clustered longitudinal data feature cross-sectional associations within clusters, serial dependence within subjects, and associations between responses at different time points from different subjects within the same cluster. Generalized estimating equations are often used for inference with data of this sort since they do not require full specification of the response model. When data are incomplete, however, they require data to be missing completely at random unless inverse probability weights are introduced based on a model for the missing data process. The authors propose a robust approach for incomplete clustered longitudinal data using composite likelihood. Specifically, pairwise likelihood methods are described for conducting robust estimation with minimal model assumptions made. The authors also show that the resulting estimates remain valid for a wide variety of missing data problems including missing at random mechanisms and so in such cases there is no need to model the missing data process. In addition to describing the asymptotic properties of the resulting estimators, it is shown that the method performs well empirically through simulation studies for complete and incomplete data. Pairwise likelihood estimators are also compared with estimators obtained from inverse probability weighted alternating logistic regression. An application to data from the Waterloo Smoking Prevention Project is provided for illustration. The Canadian Journal of Statistics 39: 34–51; 2011 © 2010 Statistical Society of Canada

Les données longitudinales regroupées en grappes sont caractérisées par des associations transversales à l'intérieur des grappes, une dépendance sérielle chez les sujets et des associations entre les réponses à différents temps pour des sujets différents appartenant à la même grappe. Des équations d'estimation généralisées sont souvent utilisées pour faire l'inférence avec de telles données puisqu'elles n'exigent pas la spécification complète du modèle de réponse. Cependant, lorsque les données sont incomplètes, elles exigent d'avoir des données manquant complètement au hasard à moins que les poids de probabilité inverse, calculés à l'aide d'un modèle pour les données manquantes, soient utilisés. Les auteurs proposent une approche robuste pour les données longitudinales incomplètes regroupées en grappes en utilisant une vraisemblance composite. En particulier, en utilisant une vraisemblance deux-à-deux, des méthodes sont décrites pour obtenir une estimation robuste sous le moins possible de présupposés sur la moyenne et les structures d'association. Les auteurs montrent aussi que les valeurs estimées demeurent valides pour beaucoup de problèmes de données manquantes incluant les mécanismes pour celles manquant au hasard. Ainsi, dans de tels cas, le modèle de données manquantes n'a plus besoin d'être spécifié. Des études de simulation pour les données complètes et incomplètes ont été faites afin de décrire le comportement asymptotique des estimateurs obtenus et de montrer leurs bonnes performances empiriques. Des estimateurs basés sur la vraisemblance deux-à-deux sont aussi comparés à ceux provenant d'une régression logistique sur les rapports de cotes (¡¡ alternating logistic regression¿¿) pondérée par les probabilités inverses. Les données provenant du projet de prévention contre le tabac de Waterloo servent à illustrer la méthode. La revue canadienne de statistique 39: 34–51; 2011 © 2010 Société statistique du Canada