Get access

New aspects of Bregman divergence in regression and classification with parametric and nonparametric estimation

Authors


Abstract

In statistical learning, regression and classification concern different types of the output variables, and the predictive accuracy is quantified by different loss functions. This article explores new aspects of Bregman divergence (BD), a notion which unifies nearly all of the commonly used loss functions in regression and classification. The authors investigate the duality between BD and its generating function. They further establish, under the framework of BD, asymptotic consistency and normality of parametric and nonparametric regression estimators, derive the lower bound of their asymptotic covariance matrices, and demonstrate the role that parametric and nonparametric regression estimation play in the performance of classification procedures and related machine learning techniques. These theoretical results and new numerical evidence show that the choice of loss function affects estimation procedures, whereas has an asymptotically relatively negligible impact on classification performance. Applications of BD to statistical model building and selection with non-Gaussian responses are also illustrated. The Canadian Journal of Statistics 37: 119-139; 2009 © 2009 Statistical Society of Canada

Abstract

En apprentissage statistique, la régression et la classification demandent différents types de variables de sortie et la précision prédictive est quantifiée par des fonctions de perte différentes. Cet article explore des nouveaux aspects de la divergence de Bregman (DB), une notion qui unifie presque toutes les fonctions de perte usuelles utilisées en régression et en classification. Les auteurs étudient la dualité entre la divergence de Bregman et sa fonction génératrice. De plus, ils établissent, dans le cadre DB, la cohérence asymptotique et la normalité des estimateurs de régression paramétrique et non paramétrique. Ils ont aussi obtenu une borne inférieure de leur matrice de variance-covariance asymptotique et ils ont démontré le rôle que les estimateurs de régression paramétrique et non paramétrique jouent dans la performance des procédures de classification et les techniques d'apprentissage machine. Ces résultats théoriques et de nouvelles évidences numériques semblent indiquer que le choix de la fonction de perte affecte les procédures d'estimation tandis qu'il a un impact non significatif sur les performance de classification. Cet article présente aussi des applications de la divergence de Bregman à la construction de modèles statistiques et à la sélection avec des variables non gaussiennes. La revue canadienne de statistique 37: 119-139; 2009 © 2009 Société statistique du Canada

Ancillary