Get access

New estimation and feature selection methods in mixture-of-experts models

Authors

  • Abbas Khalili

    Corresponding author
    1. Department of Mathematics and Statistics, McGill University, Montreal, Quebec, Canada H3A 2K6
    • Department of Mathematics and Statistics, McGill University, Montreal, Quebec, Canada H3A 2K6.
    Search for more papers by this author

Abstract

We study estimation and feature selection problems in mixture-of-experts models. An equation image-penalized maximum likelihood estimator is proposed as an alternative to the ordinary maximum likelihood estimator. The estimator is particularly advantageous when fitting a mixture-of-experts model to data with many correlated features. It is shown that the proposed estimator is root-equation image consistent, and simulations show its superior finite sample behaviour compared to that of the maximum likelihood estimator. For feature selection, two extra penalty functions are applied to the equation image-penalized log-likelihood function. The proposed feature selection method is computationally much more efficient than the popular all-subset selection methods. Theoretically it is shown that the method is consistent in feature selection, and simulations support our theoretical results. A real-data example is presented to demonstrate the method. The Canadian Journal of Statistics 38: 519–539; 2010 © 2010 Statistical Society of Canada

Abstract

Nous étudions l'estimation et le problème de sélection des caractéristiques dans des modèles de mélange d'experts. Un estimateur du maximum de vraisemblance l2-pénalisé est proposé comme alternative à l'estimateur du maximum de vraisemblance usuel. L'estimateur est particulièrement avantageux lorsqu'un modèle de mélange d'experts est ajusté sur des données ayant plusieurs caractéristiques corrélées. Dans cet article, nous montrons la convergence d'ordre racine de equation image de l'estimateur proposé et des simulations montrent qu'il est supérieur à l'estimateur du maximum de vraisemblance pour de petits échantillons. Pour faire de la sélection de caractéristiques, deux fonctions de pénalité supplémentaires sont ajoutées à la fonction de vraisemblance l2-pénalisée. La méthode de sélection de caractéristiques proposée est beaucoup plus efficace à calculer que la méthode populaire de sélection de tous les sous-ensembles. Nous montrons théoriquement qu'elle est convergente pour la sélection de caractéristiques et les simulations sont en accord avec les résultats théoriques. Un ensemble de données réelles est présenté afin d'illustrer la méthode proposée. La revue canadienne de statistique 38: 519–539; 2010 © 2010 Société statistique du Canada

Get access to the full text of this article

Ancillary