SEARCH

SEARCH BY CITATION

Keywords:

  • Bias;
  • confounding;
  • dynamic treatment regime;
  • inverse probability of treatment weighting;
  • non-regularity;
  • propensity scores;
  • MSC 2010: Primary 62L12;
  • secondary 92B15

Abstract

The area of dynamic treatment regimes (DTR) aims to make inference about adaptive, multistage decision-making in clinical practice. A DTR is a set of decision rules, one per interval of treatment, where each decision is a function of treatment and covariate history that returns a recommended treatment. Q-learning is a popular method from the reinforcement learning literature that has recently been applied to estimate DTRs. While, in principle, Q-learning can be used for both randomized and observational data, the focus in the literature thus far has been exclusively on the randomized treatment setting. We extend the method to incorporate measured confounding covariates, using direct adjustment and a variety of propensity score approaches. The methods are examined under various settings including non-regular scenarios. We illustrate the methods in examining the effect of breastfeeding on vocabulary testing, based on data from the Promotion of Breastfeeding Intervention Trial. The Canadian Journal of Statistics 40: 629–645; 2012 © 2012 Statistical Society of Canada

Le domaine des régimes dynamiques de traitement (DTR) a pour but l'inférence sur la prise de décision échelonnée adaptative en exercice clinique. Un DTR est un ensemble de règles de décision, avec une règle par intervalle de traitement, pour lequel chaque décision est une fonction donnant le traitement recommandé en se basant sur le traitement en cours et sur l'historique des covariables. L'apprentissage par renforcement de type Q peut être utilisé avec des données hasardisées ou observées même si l'emphase dans la littérature a été jusqu'à maintenant mise exclusivement sur les traitements hasardisés. Nous généralisons cette méthode pour inclure les covariables parasites mesurées en utilisant un ajustement direct et plusieurs approches utilisant des cotes de propension. Ces méthodes sont étudiées sous différents scénarios dont certains sont non réguliers. Nous illustrons ces méthodes en étudiant l'effet de l'allaitement naturel sur les tests de vocabulaire à l'aide de données provenant d'un essai clinique sur la promotion de l'allaitement naturel (PROBIT). La revue canadienne de statistique 40: 629–645; 2012 © 2012 Société statistique du Canada