Automated Outcome Classification of Emergency Department Computed Tomography Imaging Reports

Authors


  • Presented at The SHARPn Summit on Secondary Use, Rochester, MN, June 2012; The NLM/NIBIB Natural Language Processing: State of the Art, Future Directions and Applications for Enhancing Clinical Decision-Making Workshop, Bethesda, MD, April 2012; The ACRT/AFMR/SCTS Translational Science Meeting, Washington, DC, April 2012; The 2012 AMIA Clinical Research Informatics Summit, San Francisco, CA, March 2012; and The Workshop for Women in Machine Learning, Granada, Spain, December 2011.
  • This publication was supported through the National Institutes of Health (NIH) Clinical and Translational Science Award (CTSA) program, grants UL1TR000075 and KL2TR000076. The CTSA program is led by the NIH's National Center for Advancing Translational Sciences (NCATS). Its contents are solely the responsibility of the authors and do not necessarily represent the official views of the NIH. Medical Language Extraction and Encoding (MedLEE) was developed with support from the National Library of Medicine (R01LM010016 and R01LM008635). The authors have no conflicts of interest to declare.

Address for correspondence and reprints: Kabir Yadav, MDCM, MS, MSHS; e-mail: kyadav@gwu.edu.

Abstract

Background

Reliably abstracting outcomes from free-text electronic health records remains a challenge. While automated classification of free text has been a popular medical informatics topic, performance validation using real-world clinical data has been limited. The two main approaches are linguistic (natural language processing [NLP]) and statistical (machine learning). The authors have developed a hybrid system for abstracting computed tomography (CT) reports for specified outcomes.

Objectives

The objective was to measure performance of a hybrid NLP and machine learning system for automated outcome classification of emergency department (ED) CT imaging reports. The hypothesis was that such a system is comparable to medical personnel doing the data abstraction.

Methods

A secondary analysis was performed on a prior diagnostic imaging study on 3,710 blunt facial trauma victims. Staff radiologists dictated CT reports as free text, which were then deidentified. A trained data abstractor manually coded the reference standard outcome of acute orbital fracture, with a random subset double-coded for reliability. The data set was randomly split evenly into training and testing sets. Training patient reports were used as input to the Medical Language Extraction and Encoding (MedLEE) NLP tool to create structured output containing standardized medical terms and modifiers for certainty and temporal status. Findings were filtered for low certainty and past/future modifiers and then combined with the manual reference standard to generate decision tree classifiers using data mining tools Waikato Environment for Knowledge Analysis (WEKA) 3.7.5 and Salford Predictive Miner 6.6. Performance of decision tree classifiers was evaluated on the testing set with or without NLP processing.

Results

The performance of machine learning alone was comparable to prior NLP studies (sensitivity = 0.92, specificity = 0.93, precision = 0.95, recall = 0.93, f-score = 0.94), and the combined use of NLP and machine learning showed further improvement (sensitivity = 0.93, specificity = 0.97, precision = 0.97, recall = 0.96, f-score = 0.97). This performance is similar to, or better than, that of medical personnel in previous studies.

Conclusions

A hybrid NLP and machine learning automated classification system shows promise in coding free-text electronic clinical data.

Resumen

Clasificación Automatizada del Resultado de los Informes de Imagen de la Tomografía Computarizada en el Servicio de Urgencias

Introducción

La fiabilidad de los resultados resumidos de texto libre de las historias clínicas electrónicas sigue siendo un reto. Mientras que la clasificación automatizada de texto libre ha sido un tema frecuente en informática médica, la validación del rendimiento usando datos clínicos del mundo real ha sido limitada. Las dos principales aproximaciones son la lingüística (procesamiento de lenguaje natural, PLN) y la estadística (aprendizaje de máquina, AM). Los autores han desarrollado un sistema híbrido para resumir los informes de la tomografía computarizada (TC) para resultados específicados.

Objetivos

Medir el rendimiento de un sistema híbrido de PLN y AM para la clasificación automatizada de resultados de los informes de imagen de la TC en el servicio de urgencias (SU). La hipótesis fue que un sistema es comparable a un médico resumiendo los datos.

Metodología

Se realizó un análisis secundario de un estudio previo de diagnóstico por imagen en 3.710 víctimas de traumatismo facial cerrado. Los radiólogos dictaron los informes de la TC como un texto libre, que fue después disociado. Un experto en resumen de datos codificó manualmente el resultado de referencia estándar de la fractura de órbita aguda, con una aleatorización de los grupos doblemente codificada para la fiabilidad. El conjunto de datos fue dividido de forma aleatoria en formación e instrumentos de validación. Los informes del paciente de entrenamiento se usaron como entrada a la herramienta de PLN (Medical Language Extraction and Encoding [MedLEE]) para crear una salida estructurada que contuviera términos médicos estandarizados y modificadores para certeza y estado temporal. Los resultados se filtraron para modificadores de baja certeza y pasado/futuro, y después se combinaron con la referencia estándar manual para generar clasificadores de árbol de decisión usando las herramientas de extracción de datos WEKA 3.7.5 y Salford Predictive Miner 6.6. El rendimiento de los clasificadores del árbol de decisión se evaluó con un instrumento de validación con y sin procesador de PLN.

Resultados

El rendimiento del AM aislado fue comparable a estudios previos de PLN (sensibilidad = 0,92, especificidad = 0.93, precisión = 0,95, recuerdo = 0,93, f-score = 0,94) y el uso combinado de PLN y AM muestra una mejoría (sensibilidad = 0,93, especificidad = 0,97, precisión = 0,97, recuerdo = 0.96, f-score = 0,97). Este rendimiento es similar a, o mayor que, el del personal médico en estudios previos.

Conclusiones

Un sistema de clasificación automático de un híbrido de PLN y AM se muestra prometedor en la codificación de datos clínicos electrónicos de texto libre.

Ancillary