SEARCH

SEARCH BY CITATION

Keywords:

  • AUC;
  • diagnosis;
  • error rate;
  • H measure;
  • performance evaluation;
  • ROC curve;
  • sensitivity;
  • signal detection;
  • specificity;
  • supervised classification

Summary

A large number of measures have been developed for evaluating the performance of classification rules. Some of these have been developed to meet the practical requirements of specific applications, but many others—which here we call “classification accuracy” criteria—represent different ways of balancing the different kinds of misclassification which may be made. This paper reviews classification accuracy criteria. However, the literature is now so large and diverse that a comprehensive list, covering all the measures and their variants, would probably be impossible. Instead, this paper embeds such measures in general framework, spanning the possibilities, and draws attention to relationships between them. Important points to note are, firstly, that different performance measures, by definition, measure different aspects of performance; secondly, that one should therefore carefully choose a measure to match the objectives of one's study; and, thirdly, that empirical comparisons between instruments measuring different aspects are of limited value.

Résumé

De nombreuses mesures d'évaluation de performance ont été proposées pour les procédures de classification. Certaines d'entre elles visent à rencontrer les besoins spécifiques de certaines applications, mais la plupart—que nous appellerons ici critères de “précision de classification”—correspondent à des façons diverses de pondérer les diverses formes possibles des erreurs de classification. Cet article passe en revue ces critères. La littérature sur ce sujet est tellement vaste et diverse, toutefois, qu'un recensement exhaustif est impossible. Nous procédons donc en englobant ces critères dans une typologie générale couvrant l'ensemble des possibilités, et mettons l'accent sur les différences et les relations entre les divers types. Il est important de noter que des critères distincts, par définition, mesurent des aspects différents de la performance. Il s'en suit que le choix d'un critère particulier doit être effectué en fonction des besoins et des objectifs de l'étude effectuée. Enfin, il ne faut pas perdre de vue que la comparaison empirique de mesures relatives à des aspects différents du problème sont sans grande signification réelle.