A statistical test for mixture detection with application to component identification in multidimensional biomolecular NMR studies

Authors


Abstract

We introduce a statistical hypothesis test for detecting mixtures in a nonlinear regression model with mean regression function defined by a weighted sum of two multidimensional unimodal functions, where each unimodal function in the summation representing a component. Two regression components are mixed when the distance between their centres is small or the proportion of their contribution to the mean regression function is close to zero or one. Two challenges in model estimation under the null hypothesis of one regression component are that the proportion parameter describing the weighed contribution of each component lies on the boundary of the parameter space and that the model parameters are nonidentifiable. Therefore, the parameter estimators derived from standard nonlinear estimation approaches are inconsistent and unstable. To overcome these challenges, we study a penalized regression test statistic with a relatively simple quadratic approximation which can be used to simulate the quantiles of the test statistic under the null hypothesis. One leading application of the mixture testing procedure is the detection of mixed or overlapped components in multidimensional data generated from nuclear magnetic resonance (NMR) experiments for protein structure determination. It is important to de-mix the components since each regression component provides specific information about the structure of the protein. In certain cases, the lack of a small number of essential components can lead to a significant deviation in the predicted structure. The Canadian Journal of Statistics 42: 36–60; 2014 © 2013 Statistical Society of Canada

Résumé

Les auteurs présentent un test d'hypothèse statistique pour la détection de mélanges dans un modèle de régression non linéaire dont la fonction de régression pour la moyenne est définie par la somme pondérée de deux fonctions unimodales multidimentionnelles, où chaque fonction unimodale représente une composante. Les deux composantes de la régression sont mélangées lorsque la distance entre leur centre est petite, ou lorsque leur poids dans la fonction de régression approche zéro ou un. Sous l'hypothèse nulle que la régression ne compte qu'une composante, l'estimation du modèle comporte deux défis. En effet, le paramètre de pondération décrivant la contribution de chaque composante se trouve alors sur la frontière de l'espace des paramètres, et les paramètres du modèle ne sont pas identifiables. Par conséquent, les estimateurs obtenus à l'aide des méthodes classiques d'estimation non linéaire sont instables et ne convergent pas. Pour résoudre ces problèmes, les auteurs étudient une statistique de test d'une régression pénalisée dont une approximation quadratique relativement simple permet de simuler les quantiles de la statistique de test sous l'hypothèse nulle. L'une des principales applications de cette procédure de test de mélange est la détection de composantes mélangées ou superposées dans des données multidimentionnelles générées à partir d'expériences de résonnance magnétique nucléaire (RMN) pour la détermination de la structure de protéines. Dans certains cas, l'absence de quelques composantes essentielles peut mener à un écart significatif dans la structure prévue. La revue canadienne de statistique 42: 36–60; 2014 © 2013 Société statistique du Canada

Ancillary