Get access

The effect of misspecification of random effects distributions in clustered data settings with outcome-dependent sampling

Authors


Abstract

Genetic epidemiologists often gather outcome-dependent samples of family data to measure within-family associations of genetic factors with disease outcomes. Generalized linear mixed models provide effective methods to estimate within-family associations but typically require parametric specification of the random effects distribution. Although misspecification of the random effects distribution often leads to little bias in estimated regression coefficients in standard, prospective clustered data settings, some recent studies suggest that such misspecification will impact parameter estimates from outcome-dependent cluster sampling designs. Using analytic results, simulation studies and fits to example data, this study examines the effect of misspecification of random effects distributions on parameter estimates in clustered data settings with outcome-dependent sampling. We show that the effects are consistent with results from prospective cluster sampling settings. In particular, ascertainment corrected mixed model methods that assume normally distributed random intercepts and conditional likelihood approaches provide accurate estimates of within-family covariate effects even under a misspecified random effects distribution. The Canadian Journal of Statistics 39: 488–497; 2011 © 2011 Statistical Society of Canada

Abstract

Les épidémiologistes généticiens utilisent souvent des échantillons de familles d'après les valeurs que prend une variable maladie chez des membres de la famille afin de mesurer l'association intrafamiliale entre des facteurs génétiques et cette variable maladie. Les modèles linéaires mixtes généralisés sont un moyen efficace d'estimer les associations intrafamiliales, mais ils requièrent typiquement la spécification d'une distribution paramétrique des effets aléatoires. Bien qu'une spécification erronée de la distribution des effets aléatoires n'occasionne souvent qu'un biais minime des dans les estimations des coefficients de régression dans les contextes prospectifs standards des données en grappes, des études récentes suggèrent qu'une telle erreur de spécification aura un impact sur les estimations de paramètres dans les plans d'échantillonnage dépendant d'une variable maladie. À l'aide de résultats analytiques, d'études de simulation et de l'ajustement de modèles à des exemples de jeux de données, cette étude examine l'effet de l'erreur de spécification de la distribution des effets aléatoires sur les estimations de paramètres dans des contextes de données en grappes dont l'échantillonnage dépend d'une variable maladie. Nous montrons que les effets obtenus sont cohérents avec les résultats des contextes prospectifs d'échantillonnage par grappes. En particulier, des modèles mixtes avec correction pour le biais d'échantillonnage, dont l'ordonnée à l'origine est supposée normalement distribuée et les approches de vraisemblance conditionnelle produisent des estimations fiables des effets intrafamiliaux de covariables même avec une distribution incorrecte des effets aléatoires. La revue canadienne de statistique 39:488–497;2011 © 2011 Société statistique du Canada

Get access to the full text of this article

Ancillary