A Bayesian Formulation of Exploratory Data Analysis and Goodness-of-fit Testing

Authors


  • Based on a paper presented at the Seventh Valencia Meeting on Bayesian Statistics.

Summary

Exploratory data analysis (EDA) and Bayesian inference (or, more generally, complex statistical modeling)—which are generally considered as unrelated statistical paradigms—can be particularly effective in combination. In this paper, we present a Bayesian framework for EDA based on posterior predictive checks. We explain how posterior predictive simulations can be used to create reference distributions for EDA graphs, and how this approach resolves some theoretical problems in Bayesian data analysis. We show how the generalization of Bayesian inference to include replicated data yrep and replicated parameters θrep follows a long tradition of generalizations in Bayesian theory.

On the theoretical level, we present a predictive Bayesian formulation of goodness-of-fit testing, distinguishing between p-values (posterior probabilities that specified antisymmetric discrepancy measures will exceed 0) and u-values (data summaries with uniform sampling distributions). We explain that p-values, unlike u-values, are Bayesian probability statements in that they condition on observed data.

Having reviewed the general theoretical framework, we discuss the implications for statistical graphics and exploratory data analysis, with the goal being to unify exploratory data analysis with more formal statistical methods based on probability models. We interpret various graphical displays as posterior predictive checks and discuss how Bayesian inference can be used to determine reference distributions.

The goal of this work is not to downgrade descriptive statistics, or to suggest they be replaced by Bayesian modeling, but rather to suggest how exploratory data analysis fits into the probability-modeling paradigm.

We conclude with a discussion of the implications for practical Bayesian inference. In particular, we anticipate that Bayesian software can be generalized to draw simulations of replicated data and parameters from their posterior predictive distribution, and these can in turn be used to calibrate EDA graphs.

Résumé

Analyse de données exploratrices et inférence (EDA) Bayésienne (ou, en large, modélisation de statistiques complexes)—qui sont généralement considérées comme étant des paradigmes statistiques non relies. Dans cet article, nous présentons un cadre pour l'EDA, base sur des vérifications prédictives a posteriori. Nous expliquons comment les simulations prédictives a posteriori peuvent être utilises pour créer des distributions de référence pour des graphiques d'EDA, et la façon dont cette approche recoud quelques problèmes de l'analyse de données Bayésienne. Nous démontrons comment la généralisation de l'inférence Bayésienne qui inclut des données répliquées et des paramètres répliques suit une longue tradition de généralisation dans la théorie Bayésienne.

D'un point de vue théorique, nous présentons une formule Bayésienne prédictive de test d'ajustement, en distinguant entre les “p-values”(probabilités postérieures que la mesure de la différence de l'antisymetrie spécifiée n'excede pas la valeur 0) et les “u-values”(résumes de données avec une distribution d'échantillonnage uniforme). Nous expliquons que les “p-values”, non comme les “u-values” sont des formules de probabilité Bayesienne car les conditions de données observées sont les mêmes.

Ayant revu le cadre général de la théorie, nous discutons des implications pour des graphiques statistiques et des analyses de données exploratrices, en ayant pour but d'unifier les analyses de données exploratrices avec des méthodes de statistiques plus officiels bases sur des modèles de probabilités. Nous interprétons des graphiques vérification prédictive a posteriori, et nous discutons de la façon dont les inférences Bayésiennes peuvent être utilisées ou déterminer des distributions de références.

Le but de ce travail n'est pas de renier les statistiques descriptives, ou de suggérer qu'elles soient replacées par des modèles Bayésiens, mais plutôt de suggérer la façon dont les analyses de données exploratrices se rangent dans le modèle probabilitémodelisation.

Nous concluons avec une discussion des implications des pratiques des inférences Bayésiennes. En l'occurrence, nous anticipons que les logiciels Bayésiens peuvent tre generalises pour tirer des simulations et répliquer des données et des paramètres de leur distribution prédictive a posteriori, qui peuvent être a leur tour utilisées pour calibrer des graphiques d'EDA.

Ancillary