4 O modelo de probabilidade para intervenções

Com base no modelo estrutural causal discutido no capítulo 2, agora estabeleceremos um significado para o efeito causal de uma variável em outra.

Refer to caption
Figura 7: Grafo que representa as relações causais entre Z (Sexo), X (Tratamento), e Y (Cura).

Para iniciar esta discussão, considere as variáveis ZZ (Sexo), XX (Tratamento), e YY (Cura), discutidas no capítulo 1. Podemos considerar que ZZ é uma causa tanto de XX quanto de YY e que XX é uma causa de YY. Assim, podemos representar as relações causais entre estas variáveis por meio do grafo na figur 7. Usando este grafo, podemos discutir mais a fundo porque a probabilidade condicional de cura dado tratamento é distinta do efeito causal do tratamento na cura.

Quando calculamos a probabilidade condicional de cura dado o tratamento, estamos perguntando: “Qual é a probabilidade de que um indivíduo selecionado aleatoriamente da população se cure dado que aprendemos que recebeu o tratamento?” Para responder a esta pergunta, propagamos a informação do tratamento usado em todos os caminhos do tratamento para a cura. Assim, além do efeito direto que o tratamento tem na cura, o tratamento também está associado ao sexo do paciente, o que indiretamente traz mais informação sobre a cura deste. Isto é, neste caso o tratamento traz informação tanto sobre seus efeitos (cura), quanto sobre suas causas (sexo). Uma outra maneira de verificar estas afirmações é calculando diretamente f(y|x)f(y|x):

f(y|x)\displaystyle f(y|x) =sf(z,y|x)\displaystyle=\sum_{s}f(z,y|x)
=sf(z,y,x)f(x)\displaystyle=\sum_{s}\frac{f(z,y,x)}{f(x)}
=sf(z,x)f(y|z,x)f(x)\displaystyle=\sum_{s}\frac{f(z,x)f(y|z,x)}{f(x)}
=sf(z|x)f(y|z,x)\displaystyle=\sum_{s}f(z|x)f(y|z,x) (2)

Notamos na Seção 4 que f(y|x)f(y|x) é a média das probabilidades de cura em cada sexo, f(y|z,x)f(y|z,x), ponderadas pela distribuição do sexo após aprender o tratamento do indivíduo, f(z|x)f(z|x).

A probabilidade condicional de cura dado tratamento não corresponde àquilo que entendemos por efeito causal de tratamento em cura. Este efeito é a resposta para a pergunta: “Qual a probabilidade de que um indivíduo selecionado aleatoriamente da população se cure dado que prescrevemos a ele o tratamento?”. Ao contrário da primeira pergunta, em que apenas observamos a população, nesta segunda fazemos uma intervenção sobre o comportamento do indivíduo. Assim, estamos fazendo uma pergunta sobre uma distribuição de probabilidade diferente, em que estamos agindo sobre a unidade amostral. Por exemplo, suponha que prescreveríamos o tratamento a qualquer indivíduo que fosse amostrado. Neste caso, saber qual tratamento foi aplicado não traria qualquer informação sobre o sexo do indivíduo. Em outras palavras, se chamarmos f(y|do(x))f(y|do(x)) como a probabilidade de cura dado que fazemos uma intervenção no tratamento, faria sentido obtermos:

f(y|do(x))\displaystyle f(y|do(x)) =sf(z)f(y|z,x)\displaystyle=\sum_{s}f(z)f(y|z,x) (3)

Na likning 3 temos que o efeito causal do tratamento na cura é a média ponderada das probabilidades de cura em cada sexo ponderada pelas probabilidades de sexo de um indivíduo retirado aleatoriamente da população. Isto é, ao contrário da Seção 4, a distribuição do sexo do indivíduo não é alterada quando fazemos uma intervenção sobre o tratamento.

Refer to caption
Figura 8: Grafo que representa as relações causais entre S (Sexo), T (Tratamento), e C (Cura) quando há uma intervenção sobre T.

Com base neste exemplo, podemos generalizar o que entendemos por intervenção. Quando fazemos uma intervenção em uma variável, V1V_{1}, tomamos uma ação para que V1V_{1} assuma um determinado valor. Assim, as demais variáveis que comumente seriam causas de V1V_{1} deixam de sê-lo. Por exemplo, para o caso na figur 7, o modelo de intervenção removeria a aresta de Sexo para Tratamento, resultado na figur 8.

Com base nas observações acima, finalmente podemos definir o modelo de probabilidade sob intervenção:

Definição 3.1.

Seja 𝒢=(𝒱,){\mathcal{G}}=({\mathcal{V}},{\mathcal{E}}) um DAG, (𝒢,f)({\mathcal{G}},f) um CM (Definição 2.24), e 𝕍1𝒱{\mathbb{V}}_{1}\subseteq{\mathcal{V}}. O modelo de probabilidade obtido após uma intervenção em 𝕍1{\mathbb{V}}_{1} é dado por:

f(𝒱|do(𝕍1))\displaystyle f({\mathcal{V}}|do({\mathbb{V}}_{1})) :=V2𝕍2f(V2|Pa(V2))\displaystyle:=\prod_{V_{2}\in{\mathbb{V}}_{2}}f(V_{2}|Pa(V_{2})) , ou equivalentemente
f(𝒱|do(𝕍1=𝐯1))\displaystyle f({\mathcal{V}}|do({\mathbb{V}}_{1}={\mathbf{v}}_{1})) :=((v1,V1)(𝐯1,𝕍1)𝕀(V1=v1))(V2𝕍1f(V2|Pa(V2)))\displaystyle:=\left(\prod_{(v_{1},V_{1})\in({\mathbf{v}}_{1},{\mathbb{V}}_{1}% )}{\mathbb{I}}(V_{1}=v_{1})\right)\cdot\left(\prod_{V_{2}\notin{\mathbb{V}}_{1% }}f(V_{2}|Pa(V_{2}))\right)

Para compreender a Definição 3.1, podemos comparar o modelo de intervenção com o modelo observacional:

f(𝕍2|𝕍1)\displaystyle f({\mathbb{V}}_{2}|{\mathbb{V}}_{1}) f(𝕍1,𝕍2)=(V1𝕍1f(V1|Pa(V1))(V2𝕍2f(V2|Pa(V2))\displaystyle\propto f({\mathbb{V}}_{1},{\mathbb{V}}_{2})=\left(\prod_{V_{1}% \in{\mathbb{V}}_{1}}f(V_{1}|Pa(V_{1})\right)\cdot\left(\prod_{V_{2}\in{\mathbb% {V}}_{2}}f(V_{2}|Pa(V_{2})\right)

No modelo observacional, a densidade de 𝕍2{\mathbb{V}}_{2} dado 𝕍1{\mathbb{V}}_{1} é proporcional ao produto, para todos os vértices, da densidade do vértice dadas suas causas. Ao contrário, no modelo de intervenção supomos que os vértices em 𝕍1{\mathbb{V}}_{1} são pré-fixados e, assim, não são gerados por suas causas usuais. Assim, na Definição 3.1, a densidade de 𝕍2{\mathbb{V}}_{2} dada uma intervenção em 𝕍1{\mathbb{V}}_{1} é dada o produto somente nos vértices de 𝕍2{\mathbb{V}}_{2} das densidades do vértice dadas suas causas.

Esta análise é formalizada no Lema 3.2:

Lema 3.2.

Seja 𝒢(𝐗¯){\mathcal{G}}(\bar{{\mathbf{X}}}) o grafo obtido retirando-se de 𝒢{\mathcal{G}} todas as arestas que apontam para algum vértice em 𝐗{\mathbf{X}}. A densidade ff(𝒱|do(𝐗=𝐱))f^{*}\equiv f({\mathcal{V}}|do({\mathbf{X}}={\mathbf{x}})) é compatível com 𝒢(𝐗¯){\mathcal{G}}(\bar{{\mathbf{X}}}). Além disso, 𝐗{\mathbf{X}} é degenerada em 𝐱{\mathbf{x}} segundo ff^{*}.

Com base na discussão acima, podemos definir o efeito causal que um conjunto de variáveis, 𝐗{\mathbf{X}}, tem em outro conjunto, 𝐘{\mathbf{Y}}:

Definição 3.3.

𝔼[𝐘|do(𝐗)]:=𝐲f(𝐲|do(𝐗))𝑑𝐲{\mathbb{E}}[{\mathbf{Y}}|do({\mathbf{X}})]:=\int{\mathbf{y}}\cdot f({\mathbf{% y}}|do({\mathbf{X}}))d{\mathbf{y}}.

Definição 3.4.

O efeito causal médio, ACEX,Y,11 1 A sigla ACE tem como origem a expressão em inglês, Average Causal Effect. Optamos por manter a sigla sem tradução para facilitar a comparação com artigos da área. Em outros contextos, este termo também é chamado de Average Treatment Effect e recebe o acrônimo ATE. de XX\in\Re em YY\in\Re é dado por:

ACEX,Y\displaystyle{ACE}_{X,Y} ={𝔼[Y|do(X=1)]𝔼[Y|do(X=0)], se X é binário,d𝔼[Y|do(X=x)]dx, se X é contínuo.\displaystyle=\begin{cases}{\mathbb{E}}[Y|do(X=1)]-{\mathbb{E}}[Y|do(X=0)]&% \text{, se $X$ é binário},\\ \frac{d{\mathbb{E}}[Y|do(X=x)]}{dx}&\text{, se $X$ é contínuo}.\end{cases}

Quando não há ambiguidade, escrevemos simplesmente ACE{ACE} ao invés de ACEX,Y{ACE}_{X,Y}.

Com a Definição 3.4 podemos finalmente desvendar o Paradoxo de Simpson discutido no capítulo 1. Veremos que o método que desenvolvemos resolve a questão com simplicidade, assim trazendo clareza ao Paradoxo.

Exemplo 3.5.

Considere que (X,Y,Z)3(X,Y,Z)\in\Re^{3} são tais que XX e YY são as indicadores de que, respectivamente, o paciente recebeu o tratamento e se curou. Além disso, suponha que a distribuição conjunta de (X,Y,Z)(X,Y,Z) é dada pelas frequências na tabela 1. Isto é:

(Z=1)=25+55+71+1927000.49\displaystyle{\mathbb{P}}(Z=1)=\frac{25+55+71+192}{700}\approx 0.49
(Z=0)=1(Z=1)0.51\displaystyle{\mathbb{P}}(Z=0)=1-{\mathbb{P}}(Z=1)\approx 0.51
(Z=1|X=0)=25+5525+55+36+2340.23\displaystyle{\mathbb{P}}(Z=1|X=0)=\frac{25+55}{25+55+36+234}\approx 0.23
(Z=1|X=1)=71+19271+192+6+810.75\displaystyle{\mathbb{P}}(Z=1|X=1)=\frac{71+192}{71+192+6+81}\approx 0.75
(Y=1|X=0,Z=0)=234234+360.87\displaystyle{\mathbb{P}}(Y=1|X=0,Z=0)=\frac{234}{234+36}\approx 0.87
(Y=1|X=1,Z=0)=8181+60.93\displaystyle{\mathbb{P}}(Y=1|X=1,Z=0)=\frac{81}{81+6}\approx 0.93
(Y=1|X=0,Z=1)=5525+550.69\displaystyle{\mathbb{P}}(Y=1|X=0,Z=1)=\frac{55}{25+55}\approx 0.69
(Y=1|X=1,Z=1)=19271+1920.73\displaystyle{\mathbb{P}}(Y=1|X=1,Z=1)=\frac{192}{71+192}\approx 0.73

Agora, veremos que a probabilidade de YY dada uma intervenção em XX depende do DAG usado no modelo causal estrutural.

Suponha que ZZ é a indicadora de que o sexo do paciente é masculino. Neste caso, utilizaremos como grafo causal aquele em figur 7. este grafo, obtemos:

1(Y=i,Z=j|do(X=k))\displaystyle{\mathbb{P}}_{1}(Y=i,Z=j|do(X=k)) =(Z=j)(Y=i|X=k,Z=j)\displaystyle={\mathbb{P}}(Z=j){\mathbb{P}}(Y=i|X=k,Z=j) (4)

Assim,

1(Y=1|do(X=1))\displaystyle{\mathbb{P}}_{1}(Y=1|do(X=1)) =1(Y=1,Z=0|do(X=1))+1(Y=1,Z=1|do(X=1))\displaystyle={\mathbb{P}}_{1}(Y=1,Z=0|do(X=1))+{\mathbb{P}}_{1}(Y=1,Z=1|do(X=% 1))
=(Z=0)(Y=1|X=1,Z=0)+(Z=1)(Y=1|X=1,Z=1)\displaystyle={\mathbb{P}}(Z=0){\mathbb{P}}(Y=1|X=1,Z=0)+{\mathbb{P}}(Z=1){% \mathbb{P}}(Y=1|X=1,Z=1)
0.510.93+0.490.730.83\displaystyle\approx 0.51\cdot 0.93+0.49\cdot 0.73\approx 0.83
1(Y=1|do(X=0))\displaystyle{\mathbb{P}}_{1}(Y=1|do(X=0)) =1(Y=1,Z=0|do(X=0))+1(Y=1,Z=1|do(X=0))\displaystyle={\mathbb{P}}_{1}(Y=1,Z=0|do(X=0))+{\mathbb{P}}_{1}(Y=1,Z=1|do(X=% 0))
=(Z=0)(Y=1|X=0,Z=0)+(Z=1)(Y=1|X=0,Z=1)\displaystyle={\mathbb{P}}(Z=0){\mathbb{P}}(Y=1|X=0,Z=0)+{\mathbb{P}}(Z=1){% \mathbb{P}}(Y=1|X=0,Z=1)
0.510.87+0.490.690.78\displaystyle\approx 0.51\cdot 0.87+0.49\cdot 0.69\approx 0.78

Portanto, o efeito causal do tratamento na cura quando ZZ é o sexo do paciente é obtido abaixo:

ACE1\displaystyle{ACE}_{1} =𝔼1[Y|do(X=1)]𝔼1[Y|do(X=0)]\displaystyle={\mathbb{E}}_{1}[Y|do(X=1)]-{\mathbb{E}}_{1}[Y|do(X=0)]
=1(Y=1|do(X=1))1(Y=1|do(X=0))0.05\displaystyle={\mathbb{P}}_{1}(Y=1|do(X=1))-{\mathbb{P}}_{1}(Y=1|do(X=0))% \approx 0.05

Como esperado da discussão na Seção 1, o tratamento tem efeito causal médio positivo, isto é, ele aumenta a probabilidade de cura do paciente.

Refer to caption
Figura 9: Grafo que representa as relações causais entre Z (Pressão sanguínea elevada), X (Tratamento), e Y (Cura).

A seguir, consideramos que ZZ é a indicadora de pressão sanguínea elevada do paciente. Assim, tomamos o grafo causal como aquele na figur 9. Utilizando este grafo, obtemos:

2(Y=i,Z=j|do(X=k))\displaystyle{\mathbb{P}}_{2}(Y=i,Z=j|do(X=k)) =(Z=j|X=k)1(Y=i|X=k,Z=j)\displaystyle={\mathbb{P}}(Z=j|X=k){\mathbb{P}}_{1}(Y=i|X=k,Z=j) (5)

Assim,

2(Y=1|do(X=1))\displaystyle{\mathbb{P}}_{2}(Y=1|do(X=1)) =2(Y=1,Z=0|do(X=1))+2(Y=1,Z=1|do(X=1))\displaystyle={\mathbb{P}}_{2}(Y=1,Z=0|do(X=1))+{\mathbb{P}}_{2}(Y=1,Z=1|do(X=% 1))
=(Z=0|X=1)(Y=1|X=1,Z=0)+(Z=1|X=1)(Y=1|X=1,Z=1)\displaystyle={\mathbb{P}}(Z=0|X=1){\mathbb{P}}(Y=1|X=1,Z=0)+{\mathbb{P}}(Z=1|% X=1){\mathbb{P}}(Y=1|X=1,Z=1)
0.250.93+0.750.730.78\displaystyle\approx 0.25\cdot 0.93+0.75\cdot 0.73\approx 0.78
2(Y=1|do(X=0))\displaystyle{\mathbb{P}}_{2}(Y=1|do(X=0)) =2(Y=1,Z=0|do(X=0))+2(Y=1,Z=1|do(X=0))\displaystyle={\mathbb{P}}_{2}(Y=1,Z=0|do(X=0))+{\mathbb{P}}_{2}(Y=1,Z=1|do(X=% 0))
=(Z=0|X=0)(Y=1|X=0,Z=0)+(Z=1|X=0)(Y=1|X=0,Z=1)\displaystyle={\mathbb{P}}(Z=0|X=0){\mathbb{P}}(Y=1|X=0,Z=0)+{\mathbb{P}}(Z=1|% X=0){\mathbb{P}}(Y=1|X=0,Z=1)
0.770.87+0.230.690.83\displaystyle\approx 0.77\cdot 0.87+0.23\cdot 0.69\approx 0.83

Portanto, o efeito causal do tratamento na cura quando ZZ é a pressão sanguínea do paciente é obtido abaixo:

ACE1\displaystyle{ACE}_{1} =𝔼2[Y|do(X=1)]𝔼2[Y|do(X=0)]\displaystyle={\mathbb{E}}_{2}[Y|do(X=1)]-{\mathbb{E}}_{2}[Y|do(X=0)]
=2(Y=1|do(X=1))2(Y=1|do(X=0))0.05\displaystyle={\mathbb{P}}_{2}(Y=1|do(X=1))-{\mathbb{P}}_{2}(Y=1|do(X=0))% \approx-0.05

Como esperado da discussão na Seção 1, o tratamento tem efeito causal médio negativo, isto é, ele tem como efeito colateral grave a elevação da pressão sanguínea do paciente, reduzindo a probabilidade de cura deste.

Comparando as expressões obtidas em ACE1{ACE}_{1} e ACE2{ACE}_{2}, verificamos que o grafo causal desempenha papel fundamental na determinação do modelo de probabilidade sob intervenção. Ademais, o uso do grafo causal adequado em cada situação formaliza a discussão qualitativa desenvolvida na Seção 1. Não há paradoxo!

Se (𝒢,f)({\mathcal{G}},f) é um CM linear Gaussiano, então é possível obter uma equação direta para o ACE{ACE}. Este resultado é apresentado no Teorema 3.6 abaixo.

Teorema 3.6.

Se (𝒢,f)({\mathcal{G}},f) é um CM linear Gaussiano de parâmetros μ\mu e β\beta e X,Y\mathbb{C}_{X,Y} é o conjunto de todos os caminhos direcionados de XX a YY, então

ACEX,Y\displaystyle{ACE}_{X,Y} =CX,Yi=1|C|1βCi+1,Ci.\displaystyle=\sum_{C\in\mathbb{C}_{X,Y}}\prod_{i=1}^{|C|-1}\beta_{C_{i+1},C_{% i}}.

O Teorema 3.6 indica um algoritmo para calcular o ACEX,Y{ACE}_{X,Y} em um CM linear Gaussiano. Primeiramente, para cada caminho direcionado de XX em YY calcula-se o produto dos coeficientes de regressão ligados a este caminho. Se imaginarmos os vértices no meio do caminho como mediadores, então estamos combinando o efeito de XX em C2C_{2}, de C2C_{2} em C3C_{3} …e de Cm1C_{m-1} em YY para obter o efeito total de XX em YY por este caminho. Ao final, somamos os efeitos totais obtidos por todos os caminhos. Cada caminho direcionado indica uma forma em que XX pode ter efeito sobre YY. Ao levarmos todoas as formas em consideração, obtemos o efeito causal médio.

Além do efeito causal médio, às vezes desejamos determinar o efeito causal de XX em YY quando observamos que a unidade amostral faz parte de determinado estrato da população. Em outras palavras, desejamos saber o efeito causal de XX em YY quando observamos que outras variáveis, 𝐙{\mathbf{Z}}, assumem um determinado valor.

Definição 3.7.

O efeito causal médio condicional, CACE, de XX\in\Re em YY\in\Re dado 𝐙{\mathbf{Z}} é:

CACE(𝐙)\displaystyle{CACE}({\mathbf{Z}}) ={𝔼[Y|do(X=1),𝐙]𝔼[Y|do(X=0),𝐙], se X é binário,d𝔼[Y|do(X=x),𝐙]dx, se X é contínuo.\displaystyle=\begin{cases}{\mathbb{E}}[Y|do(X=1),{\mathbf{Z}}]-{\mathbb{E}}[Y% |do(X=0),{\mathbf{Z}}]&\text{, se $X$ é binário},\\ \frac{d{\mathbb{E}}[Y|do(X=x),{\mathbf{Z}}]}{dx}&\text{, se $X$ é contínuo}.% \end{cases}

Uma vez estabelecido o modelo de probabilidade utilizado quando estudamos intervenções, agora podemos fazer inferência sobre o efeito causal. Para realizar tal inferência, em geral teremos de abordar duas questões:

  1. 1.

    Identificação causal: Temos acesso a dados que são gerados segundo a distribuição observacional. Como é possível determinar o efeito causal em termos da distribuição observacional?

  2. 2.

    Estimação: Uma vez estabelecida uma ligação entre a distribuição observacional dos dados e o efeito causal, como é possível estimá-lo?

Nas próximas seções estudaremos algumas estratégias gerais para a resolução destas questões. Consideraremos que desejamos medir o efeito causal de XX em YY, onde X,Y𝒱X,Y\in{\mathcal{V}}.

4.1 Exercícios

Exercício 3.8.

Considere que X1X_{1} e X2X_{2} são variáveis binárias. Também considere as seguintes definições: ACE := (X2=1|do(X1=1))(X2=1|do(X1=0)){\mathbb{P}}(X_{2}=1|do(X_{1}=1))-{\mathbb{P}}(X_{2}=1|do(X_{1}=0)), e RD := (X2=1|X1=1)(X2=1|X1=0){\mathbb{P}}(X_{2}=1|X_{1}=1)-{\mathbb{P}}(X_{2}=1|X_{1}=0). Explique em palavras a diferença entre ACE e RD e apresente um exemplo em que essa diferença ocorre.

Exercício 3.9 (Glymour2016[p.32]).

(X1,X2,X3,X4)(X_{1},X_{2},X_{3},X_{4}) são variáveis binárias tais que Xi1X_{i-1} é a única causa imediata de XiX_{i}. Além disso, (X1=1)=0.5{\mathbb{P}}(X_{1}=1)=0.5, (Xi=1|Xi1=1)=p11{\mathbb{P}}(X_{i}=1|X_{i-1}=1)=p_{11} e (Xi=1|Xi1=0)=p01{\mathbb{P}}(X_{i}=1|X_{i-1}=0)=p_{01}. Calcule:

  1. (a)

    (X1=1,X2=0,X3=1,X4=0){\mathbb{P}}(X_{1}=1,X_{2}=0,X_{3}=1,X_{4}=0),

  2. (b)

    (X4=1|X1=1){\mathbb{P}}(X_{4}=1|X_{1}=1), (X4=1|do(X1=1){\mathbb{P}}(X_{4}=1|do(X_{1}=1),

  3. (c)

    (X1=1|X4=1){\mathbb{P}}(X_{1}=1|X_{4}=1), (X1=1|do(X4=1){\mathbb{P}}(X_{1}=1|do(X_{4}=1), e

  4. (d)

    (X3=1|X1=0,X4=1){\mathbb{P}}(X_{3}=1|X_{1}=0,X_{4}=1)

Exercício 3.10 (Glymour2016[p.29]).

Considere que (U1,U2,U3)(U_{1},U_{2},U_{3}) são independentes e tais que UiN(0,1)U_{i}\sim N(0,1). Também, X1U1X_{1}\equiv U_{1}, X231X1+U2X_{2}\equiv 3^{-1}X_{1}+U_{2}, e X324X2+U3X_{3}\equiv 2^{-4}X_{2}+U_{3}. Considere que X1X_{1} é a causa imediata de X2X_{2}, que por sua vez é a causa imediata de X3X_{3}. Além disso, cada UiU_{i} influencia diretamente somente XiX_{i}.

  1. (a)

    Desenhe o DAG que representa a estrutura causal indicada no enunciado.

  2. (b)

    Calcule 𝔼[X2|X1=3]{\mathbb{E}}[X_{2}|X_{1}=3] e 𝔼[X2|do(X1=3)]{\mathbb{E}}[X_{2}|do(X_{1}=3)].

  3. (c)

    Calcule 𝔼[X3|X1=6]{\mathbb{E}}[X_{3}|X_{1}=6] e 𝔼[X3|do(X1=6)]{\mathbb{E}}[X_{3}|do(X_{1}=6)].

  4. (d)

    Calcule 𝔼[X1|X2=1]{\mathbb{E}}[X_{1}|X_{2}=1] e 𝔼[X1|do(X2=1)]{\mathbb{E}}[X_{1}|do(X_{2}=1)].

  5. (e)

    Calcule 𝔼[X2|X1=1,X3=3]{\mathbb{E}}[X_{2}|X_{1}=1,X_{3}=3], 𝔼[X2|X1=1,do(X3=3)]{\mathbb{E}}[X_{2}|X_{1}=1,do(X_{3}=3)], e 𝔼[X2|do(X1=1),X3=3]{\mathbb{E}}[X_{2}|do(X_{1}=1),X_{3}=3].