SEARCH

SEARCH BY CITATION

Keywords:

  • Confidentiality;
  • privacy;
  • remote analysis;
  • statistical disclosure control;
  • analysis output checking

Summary

This paper presents a summary of the current state of research on reducing the risk of disclosure related to what may be called “non-traditional” outputs for statistical agencies. Whereas traditional outputs include frequency tables, magnitude tables and public use microdata files, non-traditional outputs include outputs associated with user-defined exploratory data analysis and statistical modelling offered through a remote analysis system. In remote analysis, a system accepts a query from an analyst, runs it on data held in a secure environment, and then returns the results to the analyst. There is a considerable current interest in fully automated remote analysis systems, because these have the potential to enable agencies to respond to growing researcher demand for more and more detailed data. In practice, a range of protective measures is most effective in remote analysis, and the choice of this range depends heavily on the context including the regulatory environment, the dataset itself, and the purpose of the access.

This paper provides a summary of known attack methods on remote analysis system outputs, focussing on exploratory data analysis and linear regression. The paper also summarizes the associated suggested protective measures designed to prevent disclosures and thwart attacks in fully automated remote analysis systems. Some commentary on the attacks and measures is provided.

Résumé

Cet article présente l'état actuel des connaissances dans les problèmes de risque de divulgation d'information sensible via ce que l'on pourrait appeler les “produits non-traditionnels” des agences statistiques. Alors que la production traditionnelle de ces agences prend la forme de tables de fréquences, de tables de grandeurs, et de fichiers de micro-données, les activités nouvelles incluent l'accès à distance à des analyses de données et des modélisations statistiques définies par l'usager lui-même. Les systèmes permettant l'accès à ces analyses à distance acceptent les demandes d'analyses des utilisateurs, exécutent celles-ci dans un environnement sécurisé, et renvoient les résultats aux utilisateurs. Les systèmes d'analyse à distance entièrement automatisés sont depuis peu l'objet d'une attention considérable, car ils permettent aux agences de répondre à une demande sans cesse croissante. En pratique, un ensemble de mesures de protection de données efficaces dans ce domaine des analyses à distance dépend du contexte: environnement réglementaire, nature des données, et motifs de l'accès demandé. Cet article fournit un aperçu sommaire des attaques connues, en mettant l'accent sur les analyse exploratoires de données et la régression linéaire. Il décrit et commente également les moyens de se protéger contre la divulgation d'information et de repousser les attaques dans le cadre des systèmes d'analyse à distance entièrement automatisés.