Treatment of missing values in process data analysis

Authors


Abstract

Process data suffer from many different types of imperfections. For example, bad data due to sensor problems, multi-rate sampling, outliers, compressed data etc. Since most modelling and data analysis methods are developed to analyze regularly sampled and well conditioned data sets there is a need for pre-treatment of data. Traditionally data conditioning or pre-treatment has been done without taking into account the end use of the data, for example, univariate methods have been used to interpolate bad data even when the intended end use of data is for multivariate analysis. In this paper we consider the pre-treatment and data analysis as a collective problem and propose data conditioning methods in a multivariate framework. We first review classical process data analysis methods and acclaimed missing data handling techniques used in statistical surveys and biostatistics. The applications of these acclaimed missing data techniques are demonstrated in three different instances: (i) principal components analysis (PCA) is extended in data augmentation (DA) framework for dealing with missing values, (ii) iterative missing data technique is used to synchronize uneven length batch process data, and (iii) PCA based iterative missing data technique is used to restore the correlation structure of compressed data.

Abstract

Les données de procédé souffrent de nombreux types d'imperfections. Par exemple, de mauvaises données dues à des problèmes de détecteur, les données à taux multiples, les données anormales, les données comprimées, etc. Étant donné que la plupart des méthodes de modélisation et d'analyse des données sont développées pour l'analyse régulière des ensembles de données échantillonnées et bien conditionnées, il existe un besoin de prétraitement des données. Traditionnellement, le conditionnement ou le prétraitement des données a été réalisé sans tenir compte de l'utilisation finale des données, c'est-à-dire que des méthodes univariées ont été utilisées pour interpoler les mauvaises données même si les données finales étaient destinées à l'analyse multivariée. Dans cet article, on considère le pré-traitement et l'analyse des données comme un problème collectif et on propose des méthodes de conditionnement de données compatibles avec les techniques d'analyse de données. On a d'abord examiné les méthodes classiques d'analyse des données de procédés et les techniques de manipulation des données reconnues utilisées dans les études statistiques et les biostatistiques. Les applications de ces techniques de données manquantes reconnues ont été démontrées dans trois exemples: (i) l'analyse des composantes principales (PCA) a été étendue au cadre de la méthode d'augmentation des données (DA) pour traiter les valeurs manquantes; (ii) la technique itérative des données manquantes a été utilisée pour synchroniser les données de procédés discontinus de longueurs inégales; et (iii) la technique itérative des données manquantes basée sur la PCA a été utilisée pour restaurer la structure de corrélation des données comprimées.

Ancillary