A distribution free test to detect general dependence between a response variable and a covariate in the presence of heteroscedastic treatment effects

Authors


Abstract

In this paper, we present a test of independence between the response variable, which can be discrete or continuous, and a continuous covariate after adjusting for heteroscedastic treatment effects. The method involves first augmenting each pair of the data for all treatments with a fixed number of nearest neighbours as pseudo-replicates. Then a test statistic is constructed by taking the difference of two quadratic forms. The statistic is equivalent to the average lagged correlations between the response and nearest neighbour local estimates of the conditional mean of response given the covariate for each treatment group. This approach effectively eliminates the need to estimate the nonlinear regression function. The asymptotic distribution of the proposed test statistic is obtained under the null and local alternatives. Although using a fixed number of nearest neighbours pose significant difficulty in the inference compared to that allowing the number of nearest neighbours to go to infinity, the parametric standardizing rate for our test statistics is obtained. Numerical studies show that the new test procedure has robust power to detect nonlinear dependency in the presence of outliers that might result from highly skewed distributions. The Canadian Journal of Statistics 38: 408–433; 2010 © 2010 Statistical Society of Canada

Abstract

Dans cet article, nous présentons un test d'indépendance entre la variable réponse qui peut être discrète ou continue, et une covariable continue après avoir pris en compte l'hétéroscédasticité des effets de traitements. La méthode commence en ajoutant à chaque paire de données de tous les traitements un nombre fixe de plus proches voisins comme pseudo-réplicats. Par la suite, un test statistique est obtenu en prenant la différence de deux formes quadratiques. Cette statistique est équivalente à la corrélation décalée moyenne entre la variable réponse et l'estimation de sa moyenne conditionnelle, étant donné les covariances pour chacun des groupes de traitements, basée sur les plus proches voisins. Cette approche élimine effectivement le besoin d'estimer une fonction de régression non linéaire. La distribution asymptotique de la statistique de test proposée est obtenue sous l'hypothèse nulle et sous des hypothèses alternatives locales. Quoique l'utilisation d'un nombre fixe de plus proches voisins pose une difficulté majeure dans l'inférence, comparativement à laisser le nombre de plus proches voisins aller à l'infini, le taux paramétrique standardisé de nos statistiques de tests est atteint. Des études numériques montrent que la nouvelle procédure de test a une puissance robuste pour détecter la dépendance non linéaire en présence de valeurs aberrantes qui peuvent résulter de distributions très asymétriques. La revue canadienne de statistique 38: 408–433; 2010 © 2010 Société statistique du Canada

Ancillary