SEARCH

SEARCH BY CITATION

Keywords:

  • Agreement;
  • Cohen's kappa;
  • crossed random effects;
  • generalized linear mixed model;
  • model-based kappa;
  • prevalence;
  • reliability;
  • Scott's pi

Abstract

The authors describe a model-based kappa statistic for binary classifications which is interpretable in the same manner as Scott's pi and Cohen's kappa, yet does not suffer from the same flaws. They compare this statistic with the data-driven and population-based forms of Scott's pi in a population-based setting where many raters and subjects are involved, and inference regarding the underlying diagnostic procedure is of interest. The authors show that Cohen's kappa and Scott's pi seriously underestimate agreement between experts classifying subjects for a rare disease; in contrast, the new statistic is robust to changes in prevalence. The performance of the three statistics is illustrated with simulations and prostate cancer data.

Sur les mesures théoriques d'accord pour les classements binaires

Partant d'un modèle de classification binaire, les auteurs proposent une statistique kappa qui s'interprète comme le pi de Scott et le kappa de Cohen, mais qui ne souffre pas des mêmes défauts. Ils comparent cette statistique aux versions théorique et expérimentale du pi de Scott dans le cas oú l'inférence sur une procédure diagnostic est faite à partir de données issues de plusieurs évaluateurs et de plusieurs sujets. Les auteurs montrent que le kappa de Cohen et le pi de Scott sous-estiment considérablement l'accord entre les experts lorsque ceux-ci sont appelés à classer des sujets comme atteints ou non d'une maladie rare; en revanche, la nouvelle statistique est robuste aux changements de prévalence. La performance des trois statistiques est illustrée au moyen de simulations et de données sur le cancer de la prostate.