Get access

Proportional Odds Models with High-Dimensional Data Structure

Authors


Summary

The proportional odds model is the most widely used model when the response has ordered categories. In the case of high-dimensional predictor structure, the common maximum likelihood approach typically fails when all predictors are included. A boosting technique pomBoost is proposed to fit the model by implicitly selecting the influential predictors. The approach distinguishes between metric and categorical predictors. In the case of categorical predictors, where each predictor relates to a set of parameters, the objective is to select simultaneously all the associated parameters. In addition, the approach distinguishes between nominal and ordinal predictors. In the case of ordinal predictors, the proposed technique uses the ordering of the ordinal predictors by penalizing the difference between the parameters of adjacent categories. The technique has also a provision to consider some mandatory predictors (if any) that must be part of the final sparse model. The performance of the proposed boosting algorithm is evaluated in a simulation study and applications with respect to mean squared error and prediction error. Hit rates and false alarm rates are used to judge the performance of pomBoost for selection of the relevant predictors.

Résumé

Le modèle des odds proportionnels (rapports des chances proportionnels) est le modèle le plus couramment utilisé dans l'analyse de réponses de type ordinal. En présence d'un grand nombre de covariables possibles, l'approche par maximum de vraisemblance usuelle est typiquement mise en échec si toutes les covariables sont prises en compte. Une méthode de type boosting, pomBoost, est proposée, par laquelle le modèle est estimé via une sélection implicite des prédicteurs les plus pertinentes. Cette approche fait la distinction entre variables métriques et catégorielles. Dans le cas de variables catégorielles, l'objectif est une sélection simultanée d'un ensemble de prédicteurs. La méthode fait la distinction, de surcroït, entre variables nominales et ordinales. Dans ce dernier cas, la relation d'ordre intervient dans le calcul de la pénalisation. La méthode permet également d'imposer la présence de certaines covariables dans le modèle final. Les performances de l'algorithme de boosting sont évaluées, du point de vue de l'erreur quadratique moyenne et de l'erreur de prédiction, au moyen d'une étude de simulation et d'applications à des données empiriques. Les taux de succès et de fausse alarme sont considérés pour l'évaluation des performances de pomBoost dans la sélection des prédicteurs.

Ancillary