Capítulo 4 Resultados potenciais

No capítulo passado, vimos que f(y|do(x))f(y|do(x)) nos permite entender o comportamento de YY em um cenário distinto dos dados observados. Por exemplo, se XX é a indicadora de um tratamento e YY é a indicadora de cura, então f(y|do(X=1))f(y|do(X=1)) nos permite entender a proporção de cura em um cenário hipotético em que administramos o tratamento a todos os indivíduos. Esta distribuição nos permite investigar questões causais que não eram acessíveis usando apenas a distribuição observacional, f(y,x)f(y,x).

Contudo, algumas perguntas causais não são respondidas utilizando apenas os mecanismos desenvolvidos no capítulo 3. Por exemplo, qual a probabilidade de que um indivíduo se cure quando recebe o tratamento e não se cure quando não o recebe. Quando tentamos traduzir esta questão, notamos que partes dela envolvem Y=1Y=1 e do(X=1)do(X=1) e outras partes envolvem Y=0Y=0 e do(X=0)do(X=0). Se tentarmos uma tradução ingênua, podemos obter uma expressão como (Y=1,Y=0|do(X=1),do(X=0)){\mathbb{P}}(Y=1,Y=0|do(X=1),do(X=0)). Contudo, a probabilidade acima não responde à pergunta colocada. Em primeiro lugar, não está definido fazermos as intervenções do(X=1)do(X=1) e do(X=0)do(X=0) na mesma unidade amostral. Além disso, mesmo que a probabilidade estivesse definida, é impossível que o mesmo YY assuma tanto o valor 11 quanto 0. Isto é, (Y=1,Y=0|)=0{\mathbb{P}}(Y=1,Y=0|\ldots)=0.

A última constatação nos revela que o modelo no capítulo 3 não tem variáveis suficientes para traduzir a pergunta levantada. Se imaginamos que é possível que um indivíduo se cure ao receber o tratamento e não se cure quando não o recebe, isto ocorre pois as ocorrências de cura em cada cenário hipotético não são logicamente equivalentes. Em outras palavras, é como se houvessem resultados potenciais22 2 Esta é uma tradução livre da expressão “potential outcomes” usada em inglês., Y1Y_{1} e Y0Y_{0}, para indicar a ocorrência de cura em cada cenário considerado. Com o uso destas variáveis, poderíamos escrever (Y1=1,Y0=0){\mathbb{P}}(Y_{1}=1,Y_{0}=0).

O objetivo desta seção é incluir este tipo de variável de forma a preservar as ferramentas desenvolvidas no capítulo 3.33 3 Para tal, adotaremos uma construção baseada em Galles1998. Neste quesito, a maior dificuldade será estabelecer a distribuição conjunta entre os resultados potenciais. Para tal, será útil relembrar um lema fundamental em simulação:

Lema 4.1.

Considere que F(v|Pa(V))F(v|Pa(V)) é uma função de densidade acumulada condicional arbitrária e UU(0,1)U\sim U(0,1). Se definirmos, VF1(U|Pa(V))V\equiv F^{-1}(U|Pa(V)), então V|Pa(V)FV|Pa(V)\sim F.

O Lema 4.1 traz várias interpretações que nos serão úteis. A primeira interpretação, de caráter técnico, é que podemos simular de qualquer distribuição multivariada utilizando apenas variáveis i.i.d. e funções determinísticas. Em particular, podemos reescrever um SCM de tal forma que cada vértice, VV, seja função determinística de seus pais e uma variável de ruído, UVU_{V}. Esta abordagem, que está ligada a modelos de equações estruturais, é apresentada nas Definições 4.2 e 4.3.

Definição 4.2.

Seja 𝒢=(𝒱,){\mathcal{G}}=({\mathcal{V}},{\mathcal{E}}) um grafo causal. O grafo causal estrutural, 𝒢+=(𝒱+,+){\mathcal{G}}^{+}=({\mathcal{V}}^{+},{\mathcal{E}}^{+}), é tal que 𝒱+=𝒱(UV)V𝒱{\mathcal{V}}^{+}={\mathcal{V}}\cup(U_{V})_{V\in{\mathcal{V}}} e +={(UV,V):V𝒱}{\mathcal{E}}^{+}={\mathcal{E}}\cup\{(U_{V},V):V\in{\mathcal{V}}\}. Isto é, para cada V𝒱V\in{\mathcal{V}}, 𝒢+{\mathcal{G}}^{+} adiciona uma nova variável UVU_{V} e uma aresta de UVU_{V} a VV.

Definição 4.3.

Seja (𝒢,f)({\mathcal{G}},f) um CM. O Modelo Estrutural Causal (SCM) para (𝒢,f)({\mathcal{G}},f), (𝒢+,f+)({\mathcal{G}}^{+},f^{+}), é tal que 𝒢+{\mathcal{G}}^{+} é o grafo causal estrutural de 𝒢{\mathcal{G}}, (UV)V𝒱(U_{V})_{V\in{\mathcal{V}}} são independentes segundo f+f^{+} e, para cada V𝒱V\in{\mathcal{V}}, existe uma função determinística, gV:UV×Pa(V)g_{V}:U_{V}\times Pa(V)\rightarrow\Re, tal que f+(V|UV,Pa(V))=𝕀(V=gV(UV,Pa(V)))f^{+}(V|U_{V},Pa(V))={\mathbb{I}}(V=g_{V}(U_{V},Pa(V))) e f+(𝒱)=f(𝒱)f^{+}({\mathcal{V}})=f({\mathcal{V}}).

O Exemplo 4.4 ilustra uma forma de obter um SCM em equações estruturais a partir de um SCM com dois vértices.

Exemplo 4.4.

Considere que XYX\rightarrow Y, XExp(1)X\sim\text{Exp}(1) e Y|XExp(X)Y|X\sim\text{Exp}(X). Neste caso, o grafo estrutural causal é dado por UXXYUYU_{X}\rightarrow X\rightarrow Y\leftarrow U_{Y}. Além disso, existem várias representações do SCM em equações estruturais. Uma possibilidade é definir que UXU_{X} e UYU_{Y} são i.i.d. e U(0,1)U(0,1), Xlog(UX)X\equiv-\log(U_{X}) e Ylog(UY)/XY\equiv-\log(U_{Y})/X.

O Lema 4.1 também permite uma interpretação de caráter mais filosófico. Podemos imaginar que toda variável em um SCM, VV, é uma função determinística de seus pais e de condições locais não-observadas, UVU_{V}. A expressão “condições locais” indica que cada UVU_{V} é usada somente para gerar VV e que as variáveis em UU são independentes, isto é, não trazem informação umas sobre as outras.

A interpretação acima é usada na definição de resultados potenciais. A ideia principal é que as mesmas funções determínistas e variáveis de ruído locais são usadas para gerar todos os resultados potenciais. A única diferença é que, para cada resultado potencial, o valor das variáveis em que houve intervenção é fixado. Esta definição é compatível com a ideia de que não é possível modificar os ruídos locais por meio da intervenção. Em outras palavras, o resultado potencial é o mais próximo possível do resultado observado sob a restrição que fixamos os valores das variáveis em que houve intervenção.

Definição 4.5.

Seja (𝒢,f)({\mathcal{G}},f) um CM de grafo causal 𝒢=(𝒱,){\mathcal{G}}=({\mathcal{V}},{\mathcal{E}}) e (𝒢+,f+)({\mathcal{G}}^{+},f^{+}) o seu SCM. O grafo de resultados potenciais dado por intervenções em 𝐗𝒱{\mathbf{X}}\subseteq{\mathcal{V}}, 𝒢=(𝒱,){\mathcal{G}}^{*}=({\mathcal{V}}^{*},{\mathcal{E}}^{*}) é tal que

𝒱\displaystyle{\mathcal{V}}^{*} ={W𝕍=𝐯:W𝒱,𝕍𝐗,𝐯supp(𝕍)}{UW:W𝒱},\displaystyle=\{W_{{\mathbb{V}}={\mathbf{v}}}:W\in{\mathcal{V}},{\mathbb{V}}% \subseteq{\mathbf{X}},{\mathbf{v}}\in supp({\mathbb{V}})\}\cup\{U_{W}:W\in{% \mathcal{V}}\},
\displaystyle{\mathcal{E}}^{*} ={(W𝕍=𝐯,Z𝕍=𝐯):𝕍𝐗,𝐯supp(𝕍),(W,Z)+,Z𝕍}.\displaystyle=\{(W_{{\mathbb{V}}={\mathbf{v}}},Z_{{\mathbb{V}}={\mathbf{v}}}):% {\mathbb{V}}\subseteq{\mathbf{X}},{\mathbf{v}}\in supp({\mathbb{V}}),(W,Z)\in{% \mathcal{E}}^{+},Z\notin{\mathbb{V}}\}.

Para todo W𝒱W\in{\mathcal{V}}, abreviamos W∅︀W_{\emptyset} por WW.

Em palavras, o grafo de resultados potenciais cria uma cópia de 𝒢{\mathcal{G}} para cada possível intervenção, 𝕍=𝐯{\mathbb{V}}={\mathbf{v}}. Além disso, adiciona-se uma aresta de UWU_{W} para cada cópia de WW. Esta construção indica que as mesmas variáveis em UU geram todos os resultados potenciais. Também, para cada vértice em que houve uma intervenção, W𝕍=𝐯𝕍𝕍=𝐯W_{{\mathbb{V}}={\mathbf{v}}}\in{\mathbb{V}}_{{\mathbb{V}}={\mathbf{v}}}, removem-se todas as arestas que apontam para W𝕍=𝐯W_{{\mathbb{V}}={\mathbf{v}}}. Esta remoção ocorre porque, quando realizamos uma intervenção em 𝕍{\mathbb{V}} o valor desta variável é fixado e, assim, não é gerado por suas causas em 𝒢{\mathcal{G}}.

Exemplo 4.6.

Considere que (X,Y){0,1}2(X,Y)\in\{0,1\}^{2} e o grafo causal é XYX\rightarrow Y. Vimos no Exemplo 4.4 que o grafo causal estrutural é dado por UXXYUYU_{X}\rightarrow X\rightarrow Y\leftarrow U_{Y}. Vamos construir o grafo de resultados potenciais dadas intervenções em XX. Neste caso, além dos vértices UX,UY,X,YU_{X},U_{Y},X,Y, temos também XX=0,YX=0,XX=1,YX=1X_{X=0},Y_{X=0},X_{X=1},Y_{X=1}. Como não há ambiguidade neste caso, podemos abreviar os últimos quatro vértices por X0,Y0,X1,Y1X_{0},Y_{0},X_{1},Y_{1}.

O grafo de resultados potenciais é ilustrado na figur 16. O grafo causal estrutural é a reta horizontal de UXU_{X} a UYU_{Y}. Os resultados potenciais são cópias deste grafo que usam as mesmas variáveis UU e em que removemos as arestas que apontam para a intervenções, X0X_{0} e X1X_{1}.

Refer to caption
Figura 16: Grafo de resultados potenciais dadas intervenções em X{0,1}X\in\{0,1\}.

Uma vez definido o grafo de resultados potenciais, podemos extender a distribuição do modelo de equações estruturais para este grafo. Esta extensão envolve três etapas. Primeiramente, a distribuição de UU continua a mesma. Em segundo lugar, para todo vértice do grafo de resultados potenciais, W𝕍=𝐯W_{{\mathbb{V}}={\mathbf{v}}}, em que não houve uma intervenção, este vértice é gerado pelo mesmo mecanismo que WW. Isto é, W𝕍=𝐯=𝕀(gW(UW,Pa(W𝕍=𝐯)))W_{{\mathbb{V}}={\mathbf{v}}}={\mathbb{I}}(g_{W}(U_{W},Pa^{*}(W_{{\mathbb{V}}=% {\mathbf{v}}}))). Finalmente, se houve uma intervenção em W𝕍=𝐯W_{{\mathbb{V}}={\mathbf{v}}}, então ela é uma variável degenerada no valor desta intervenção. Esta construção é formalizada na Definição 4.7.

Definição 4.7.

Seja (𝒢+,f+)({\mathcal{G}}^{+},f^{+}) um SCM para (𝒢,f)({\mathcal{G}},f) com funções determinísticas, gg. O modelo de resultados potenciais (POM)44 4 utilizamos a sigla POM em referência ao termo em inglês “potential outcomes model” dado por intervenções em 𝐗{\mathbf{X}}, é um modelo probabilístico em um DAG, (𝒢,f)({\mathcal{G}}^{*},f^{*}), tal que 𝒢{\mathcal{G}}^{*} é o grafo de resultados potenciais dado por intervenções em 𝐗{\mathbf{X}} (Definição 4.5) e

f(UW)\displaystyle f^{*}(U_{W}) =f(UW)\displaystyle=f(U_{W}) , para todo W𝒱,\displaystyle\text{, para todo }W\in{\mathcal{V}},
f(W𝕍=𝐯|Pa(W𝕍=𝐯))\displaystyle f^{*}(W_{{\mathbb{V}}={\mathbf{v}}}|Pa^{*}(W_{{\mathbb{V}}={% \mathbf{v}}})) ={𝕀(W𝕍=𝐯=𝐯i), se W𝕍i𝕀(W𝕍=𝐯=gW(UW,Pa(W𝕍=𝐯))), caso contrário.\displaystyle=\begin{cases}{\mathbb{I}}(W_{{\mathbb{V}}={\mathbf{v}}}={\mathbf% {v}}_{i})&\text{, se }W\equiv{\mathbb{V}}_{i}\\ {\mathbb{I}}(W_{{\mathbb{V}}={\mathbf{v}}}=g_{W}(U_{W},Pa^{*}(W_{{\mathbb{V}}=% {\mathbf{v}}})))&\text{, caso contrário.}\end{cases}

O Exemplo 4.8 ilustra um modelo de resultados potenciais.

Exemplo 4.8.

Considere o SCM em equações estruturais em Exemplo 4.4. Na construção do modelo de resultados potenciais, definimos X,Y,UX,UYX,Y,U_{X},U_{Y} igualmente a em Exemplo 4.4. Além disso, para cada x>0x>0, XxxX_{x}\equiv x e Yxlog(UY)/XxY_{x}\equiv-log(U_{Y})/X_{x}.