Get access

Model-based linear clustering

Authors


Abstract

The authors propose a profile likelihood approach to linear clustering which explores potential linear clusters in a data set. For each linear cluster, an errors-in-variables model is assumed. The optimization of the derived profile likelihood can be achieved by an EM algorithm. Its asymptotic properties and its relationships with several existing clustering methods are discussed. Methods to determine the number of components in a data set are adapted to this linear clustering setting. Several simulated and real data sets are analyzed for comparison and illustration purposes. The Canadian Journal of Statistics 38: 716–737; 2010 © 2010 Statistical Society of Canada

Abstract

Les auteurs proposent une approche basée sur la vraisemblance de profil pour le regroupement linéaire qui explore les groupes linéaires potentiels dans un jeu de données. Pour chaque groupe linéaire, ils supposent un modèle où les variables sont entachées d'erreurs. L'optimisation de la fonction de vraisemblance de profil est faite à l'aide de l'algorithme EM. Ses propriétés asymptotiques ainsi que les relations entre les différentes méthodes de regroupement déjà existantes sont présentées. Les méthodes pour déterminer le nombre de groupes dans un jeu de données sont adaptées à ce cadre de regroupements linéaires. Dans le but de comparer et d'illustrer ces méthodes, plusieurs jeux de données simulés et réels sont analysés. La revue canadienne de statistique 38: 716–737; 2010 © 2010 Société statistique du Canada

Get access to the full text of this article

Ancillary