2 Elementos de Modelos Probabilísticos em Grafos

2.1 Grafo Direcionado

Definição 2.1.

Um grafo direcionado, 𝒢=(𝒱,){\mathcal{G}}=({\mathcal{V}},{\mathcal{E}}), é composto por um conjunto de vértices, 𝒱={V1,,Vn}{\mathcal{V}}=\{V_{1},\ldots,V_{n}\}, e e um conjunto de arestas, ={E1,,Em}{\mathcal{E}}=\{E_{1},\ldots,E_{m}\}, onde cada aresta é um par ordenado de vértices, isto é, Ei𝒱2E_{i}\in{\mathcal{V}}^{2}.

Para auxiliar nossa intuição sobre a Definição 2.1, é comum representarmos o grafo por meio de uma figura. Nesta, representamos cada vértice por meio de um ponto. Além disso, para cada aresta, (Vi,Vj)(V_{i},V_{j}), traçamos uma seta que aponta de ViV_{i} para VjV_{j}.

Por exemplo, considere que os vértices são 𝒱={V1,V2,V3}{\mathcal{V}}=\{V_{1},V_{2},V_{3}\} e as arestas são ={(V1,V2),(V1,V3),(V2,V3)}{\mathcal{E}}=\{(V_{1},V_{2}),(V_{1},V_{3}),(V_{2},V_{3})\}. Neste caso, teremos os 33 pontos como vértices e, além disso, traçaremos setas de V1V_{1} para V2V_{2} e para V3V_{3} e, também, de V2V_{2} para V3V_{3}. Podemos desenhar este grafo utilizando os pacotes dagitty e ggdag (Barrett2022, Textor2016):

\MakeFramed
library(dagitty)
library(ggdag)
library(ggplot2)

# Especificar o grafo
grafo <- dagitty("dag {
    V1 -> { V2 V3 }
    V2 -> V3
}")

# Exibir a figura do grafo
ggdag(grafo, layout = "circle") +
  theme(axis.text.x = element˙blank(),
        axis.ticks.x = element˙blank(),
        axis.text.y = element˙blank(),
        axis.ticks.y = element˙blank()) +
  xlab() + ylab()
\endMakeFramed
Refer to caption
Figura 1: Exemplo de grafo.

Grafos direcionados serão úteis para representar causalidade pois seus vértices serão variáveis e suas arestas irão apontar de cada causa imediata para seu efeito. Por exemplo, no Capítulo 1 consideramos um caso em que Sexo e Tratamento são causas imediatas de recuperação e, além disso, Sexo é causa imediata de Tratamento. O grafo na figur 1 poderia representar estas relações se definirmos que V1V_{1} é Sexo, V2V_{2} é Tratamento e V3V_{3} é Recuperação.

Usando a representação de um grafo, podemos imaginar caminhos sobre ele. Um caminho direcionado inicia-se em um determinado vértice e, seguindo a direção das setas, vai de um vértice para outro. Por exemplo, (V1,V2,V3)(V_{1},V_{2},V_{3}) é um caminho direcionado na figur 1, pois existe uma seta de V1V_{1} para V2V_{2} e de V2V_{2} para V3V_{3}. É comum denotarmos este caminho direcionado por V1V2V3V_{1}\rightarrow V_{2}\rightarrow V_{3}. Similarmente, (V1,V3,V2)(V_{1},V_{3},V_{2}) não é um caminho direcionado, pois não existe seta de V3V_{3} para V2V_{2}. A definição de caminho direcionado é formalizada a seguir:

Definição 2.2.

Um caminho direcionado é uma sequência de vértices em um grafo direcionado, C={C1,,Cn}C=\{C_{1},\ldots,C_{n}\} tal que, para cada 1i<n1\leq i<n, (Ci,Ci+1)(C_{i},C_{i+1})\in{\mathcal{E}}.

Definição 2.3.

Dizemos que V2V_{2} é descendente de V1V_{1} se existe um caminho direcionado de V1V_{1} em V2V_{2}.

Um caminho é uma generalização de caminho direcionado. Em um caminho, começamos em um vértice e, seguindo por setas, mas não necessariamente na direção em que elas apontam, vamos de um vértice para outro. Por exemplo, na figur 1 vimos que (V1,V3,V2)(V_{1},V_{3},V_{2}) não é um caminho direcionado pois não existe seta de V3V_{3} para V2V_{2}. Contudo, (V1,V3,V2)(V_{1},V_{3},V_{2}) é um caminho pois existe uma seta ligando V3V_{3} e V2V_{2}, a seta que aponta de V2V_{2} para V3V_{3}. É comum representarmos este caminho por V1V3V2V_{1}\rightarrow V_{3}\leftarrow V_{2}. Caminho é formalizado a seguir:

Definição 2.4.

Dizemos que vértices V1V_{1} e V2V_{2} são adjacentes se (V1,V2)(V_{1},V_{2})\in{\mathcal{E}} ou (V2,V1)(V_{2},V_{1})\in{\mathcal{E}}.

Definição 2.5.

Um caminho é uma sequência de vértices, C={C1,,Cn}C=\{C_{1},\ldots,C_{n}\} tal que, para cada 1i<n1\leq i<n, CiC_{i} e Ci+1)C_{i+1}) são adjacentes.

2.2 Grafo Direcionado Acíclico (DAG)

Um DAG é um grafo direcionado tal que, para todo vértice, VV, não é possível seguir setas partindo de VV e voltar para VV. Este conceito é formalizado a seguir:

Definição 2.6.

Um grafo direcionado acíclico (DAG) é um grafo direcionado, 𝒢=(𝒱,){\mathcal{G}}=({\mathcal{V}},{\mathcal{E}}), tal que, para todo vértice, V𝒱V\in{\mathcal{V}}, não existe um caminho direcionado, C={C1,,Cn}C=\{C_{1},\ldots,C_{n}\} tal que C1=V=CnC_{1}=V=C_{n}.

Usualmente representaremos as relações causais por meio de um DAG. Especificamente, existirá uma aresta de V1V_{1} para V2V_{2} para indicar que V1V_{1} é causa imediata de V2V_{2}. Caso um grafo direcionado não seja um DAG, então existe um caminho de VV em VV, isto é, VV seria uma causa de si mesma, o que desejamos evitar.

Um DAG induz uma ordem parcial entre os seus vértices. Isto é, se existe uma aresta de V1V_{1} para V2V_{2}, então podemos interpretar que V1V_{1} antecede V2V_{2} causalmente. Com base nesta ordem parcial, é possível construir diversas definições que nos serão úteis.

Dizemos que V1V_{1} é pai de V2V_{2} em um DAG, 𝒢{\mathcal{G}}, se existe uma aresta de V1V_{1} a V2V_{2}, isto é, (V1,V2)(V_{1},V_{2})\in{\mathcal{E}}. Denotamos por Pa(V)Pa(V) o conjunto de todos os pais de VV. Similarmente Pa(𝕍)Pa({\mathbb{V}}) é o conjunto de vértices que são pais de algum vértice em 𝕍{\mathbb{V}}:

Definição 2.7.

O conjunto de pais de 𝕍𝒱{\mathbb{V}}\subseteq{\mathcal{V}} em um DAG, 𝒢=(𝒱,){\mathcal{G}}=({\mathcal{V}},{\mathcal{E}}), é:

Pa(𝕍):={V𝒱:V𝕍 tal que (V,V)}.Pa({\mathbb{V}}):=\{V^{*}\in{\mathcal{V}}:\exists V\in{\mathbb{V}}\text{ tal % que }(V^{*},V)\in{\mathcal{E}}\}.

Similarmente, dizemos que V1V_{1} é um ancestral de V2V_{2} em um DAG, se V1V_{1} antecede V2V_{2} causalmente. Isto é, se V1V_{1} é pai de V2V_{2} ou, pai de pai de V2V_{2}, ou pai de pai de pai de V2V_{2}, e assim por diante \ldots Denotamos por Anc(𝕍)Anc({\mathbb{V}}) o conjunto de todos os ancestrais de elementos de 𝕍{\mathbb{V}}:

Definição 2.8.

Em um DAG, 𝒢=(𝒱,){\mathcal{G}}=({\mathcal{V}},{\mathcal{E}}), o conjunto de ancestrais de 𝕍𝒱{\mathbb{V}}\subseteq{\mathcal{V}}, Anc(𝕍)Anc({\mathbb{V}}), é tal que Anc(𝕍)𝒱Anc({\mathbb{V}})\subseteq{\mathcal{V}} e VAnc(𝕍)V^{*}\in Anc({\mathbb{V}}) se e somente se existe V𝕍V\in{\mathbb{V}} e um caminho direcionado, C, tal que C1=VC_{1}=V^{*} e Ci=VC_{i}=V.

Note que podemos interpretar Anc(𝕍)Anc({\mathbb{V}}) como o conjunto de todas as causas diretas e indiretas de 𝕍{\mathbb{V}}.

Finalmente, diremos que um conjunto de vértices, 𝒜𝒱{\mathcal{A}}\subseteq{\mathcal{V}} é ancestral em um DAG, se não existe algum vértice fora de 𝒜{\mathcal{A}} que seja pai de algum vértice em 𝒜{\mathcal{A}}. Segundo nossa interpretação causal, 𝒜{\mathcal{A}} será ancestral quando nenhum vértice fora de 𝒜{\mathcal{A}} é causa direta de algum vértice em 𝒜{\mathcal{A}}:

Definição 2.9.

Dizemos que 𝒜𝒱{\mathcal{A}}\subseteq{\mathcal{V}} é ancestral em um DAG se, para todo vértice V𝒜V\in{\mathcal{A}}, temos que Pa(V)𝒜Pa(V)\subseteq{\mathcal{A}}.

Lema 2.10.

Em um DAG, 𝒢{\mathcal{G}}, para todo 𝕍𝒱{\mathbb{V}}\subseteq{\mathcal{V}}, Anc(𝕍)Anc({\mathbb{V}}) é ancestral.

2.3 Modelo Probabilístico em um DAG

Um modelo probabilístico em um DAG é tal que cada um dos vértices é uma variável aleatória. O DAG será usado para descrever relações de independência condicional existentes entre estas variáveis. Mais especificamente, cada vértice será independente dos demais vértices dados os seus pais. Uma maneira alternativa de pensar sobre esta afirmação é imaginar que cada vértice é gerado somente pelos seus pais. Esta intuição é formalizada em Definição 2.11:

Definição 2.11.

Para 𝒱{\mathcal{V}} um conjunto de variáveis aleatórias, dizemos que uma função de densidade sobre 𝒱{\mathcal{V}}, ff, é compatível com um DAG, 𝒢{\mathcal{G}}, se:

f(v1,,vn)=i=1nf(vi|Pa(vi)).f(v_{1},\ldots,v_{n})=\prod_{i=1}^{n}f(v_{i}|Pa(v_{i})).

Quando não há ambiguidade, também dizemos que 𝒢{\mathcal{G}} é compatível com ff neste caso.

Exemplo 2.12.

Considere que XBernoulli(0.5)X\sim\text{Bernoulli}(0.5), Y|X=1Bernoulli(0.99)Y|X=1\sim\text{Bernoulli}(0.99) e Y|X=0Bernoulli(0.01)Y|X=0\sim\text{Bernoulli}(0.01). Neste caso,

f(Y=1)\displaystyle f(Y=1) =f(X=0,Y=1)+f(X=1,Y=1)\displaystyle=f(X=0,Y=1)+f(X=1,Y=1)
=f(X=0)f(Y=1|X=0)+f(X=1)f(Y=1|X=1)\displaystyle=f(X=0)f(Y=1|X=0)+f(X=1)f(Y=1|X=1)
=0.50.01+0.50.99=0.5\displaystyle=0.5\cdot 0.01+0.5\cdot 0.99=0.5

Como f(X=1,Y=1)=0.50.990.50.5=f(X=1)f(Y=1)f(X=1,Y=1)=0.5\cdot 0.99\neq 0.5\cdot 0.5=f(X=1)f(Y=1), decorre da Definição 2.11 que ff não é compatível com o DAG sem arestas em que 𝒱={X,Y}{\mathcal{V}}=\{X,Y\}. Em outras palavras, XX e YY não são independentes. Como sempre é verdade que f(x,y)=f(x)f(y|x)f(x,y)=f(x)f(y|x) e que f(x,y)=f(y)f(x|y)f(x,y)=f(y)f(x|y), ff é compatível com os DAGs XYX\rightarrow Y e com XYX\leftarrow Y.

Exemplo 2.13.

Considere que f(x,y)=f(x)f(y)f(x,y)=f(x)f(y). Isto é, (X,Y)(X,Y) são independentes segundo ff. Neste caso, ff é compatível com qualquer DAG sobre 𝒱={X,Y}{\mathcal{V}}=\{X,Y\}.

Quando 𝒱{\mathcal{V}} tem muitos elementos, pode ser difícil verificar se a Definição 2.11 está satisfeita Para esses casos, pode ser útil aplicar o Lema 2.14:

Lema 2.14.

Uma função de densidade, ff, é compatível com um DAG, 𝒢{\mathcal{G}}, se e somente se, existem funções, g1,,gng_{1},\ldots,g_{n} tais que:

f(v1,,vn)\displaystyle f(v_{1},\ldots,v_{n}) =i=1ngi(vi,Pa(vi)), e\displaystyle=\prod_{i=1}^{n}g_{i}(v_{i},Pa(v_{i}))\text{, e} gi(vi,Pa(vi))𝑑vi=1\displaystyle\int g_{i}(v_{i},Pa(v_{i}))dv_{i}=1
Exemplo 2.15.

Considere que

f(x1,x2,x3)\displaystyle f(x_{1},x_{2},x_{3}) =0.50.9𝕀(x1=x2)0.1𝕀(x1x2)0.8𝕀(x2=x3)0.2𝕀(x2x3).\displaystyle=0.5\cdot 0.9^{{\mathbb{I}}(x_{1}=x_{2})}\cdot 0.1^{{\mathbb{I}}(% x_{1}\neq x_{2})}\cdot 0.8^{{\mathbb{I}}(x_{2}=x_{3})}\cdot 0.2^{{\mathbb{I}}(% x_{2}\neq x_{3})}.

Tome 𝒢=X1X2X3{\mathcal{G}}=X_{1}\rightarrow X_{2}\rightarrow X_{3}. Para 𝒢{\mathcal{G}}, Pa(X1)=∅︀Pa(X_{1})=\emptyset, Pa(X2)={X1}Pa(X_{2})=\{X_{1}\} e Pa(X3)={X2}Pa(X_{3})=\{X_{2}\}. Assim, tomando g1(x1,Pa(x1))=0.5g_{1}(x_{1},Pa(x_{1}))=0.5, g2(x2,Pa(x2))=0.9𝕀(x1=x2)0.1𝕀(x1x2)g_{2}(x_{2},Pa(x_{2}))=0.9^{{\mathbb{I}}(x_{1}=x_{2})}\cdot 0.1^{{\mathbb{I}}(% x_{1}\neq x_{2})} e g3(x3,Pa(x3))=0.8𝕀(x2=x3)0.2𝕀(x2x3)g_{3}(x_{3},Pa(x_{3}))=0.8^{{\mathbb{I}}(x_{2}=x_{3})}\cdot 0.2^{{\mathbb{I}}(% x_{2}\neq x_{3})}, temos que

f(x1,x2,x3)\displaystyle f(x_{1},x_{2},x_{3}) =g1(x1,Pa(x1))g2(x2,Pa(x2))g3(x3,Pa(x3))\displaystyle=g_{1}(x_{1},Pa(x_{1}))\cdot g_{2}(x_{2},Pa(x_{2}))\cdot g_{3}(x_% {3},Pa(x_{3}))

Isto é, decorre do Lema 2.14 que ff é compatível com 𝒢{\mathcal{G}}.

Exercício 2.16.

Usando a mesma ff do Exemplo 2.15, prove que ff é compatível com o DAG X1X2X3X_{1}\leftarrow X_{2}\leftarrow X_{3}. Temos que ff é compatível com quais outros DAG’s?

Se 𝒜{\mathcal{A}} é ancestral em um DAG, então f(𝒜)f({\mathcal{A}}) pode ser decomposto de forma similar a f(𝒱)f({\mathcal{V}}). Este fato será útil e é formalizado no Lema 2.17.

Lema 2.17.

Seja 𝒢=(𝒱,){\mathcal{G}}=({\mathcal{V}},{\mathcal{E}}) um DAG. Se 𝒜{\mathcal{A}} é ancestral e ff é compatível com 𝒢{\mathcal{G}}, então

f(𝒜)=V𝒜f(V|Pa(V))\displaystyle f({\mathcal{A}})=\prod_{V\in{\mathcal{A}}}f(V|Pa(V))

A seguir, estudaremos três tipos fundamentais de modelos probabilísticos em DAG’s com 33 vértices. A intuição obtida a partir destes exemplos continuará valendo quando estudarmos grafos mais gerais.

2.4 Exemplos de Modelo Probabilístico em um DAG

Nos exemplos a seguir, considere que 𝒱=(V1,V2,V3){\mathcal{V}}=(V_{1},V_{2},V_{3}).

2.4.1 Confundidor (Confounder)

No modelo de confundidor, as únicas duas arestas são (V2,V1)(V_{2},V_{1}) e (V2,V3)(V_{2},V_{3}). Uma ilustração de um confundidor pode ser encontrada na figur 2. O modelo de confundidor pode ser usado quando acreditamos que V2V_{2} é uma causa comum a V1V_{1} e a V3V_{3}. Além disso, V1V_{1} não é causa imediata de V3V_{3} nem vice-versa.

Refer to caption
Figura 2: Ilustração de confundidor.

Em um modelo de confundidor a relação de dependência entre V1V_{1} e V3V_{3} é explicada pelos resultados a seguir:

Lema 2.18.

Para qualquer probabilidade compatível com o DAG na figur 2, V1V3|V2V_{1}\perp\!\!\!\!\perp V_{3}|V_{2}.

Lema 2.19.

Existe ao menos uma probabilidade compatível com o DAG na figur 2 tal que V1⟂̸V3V_{1}\not\perp\!\!\!\!\perp V_{3}.

Combinando os Lemas 2.18 e 2.19 é possível compreender melhor como usaremos confundidores num contexto causal. Nestes casos, V2V_{2} será uma causa comum a V1V_{1} e a V3V_{3}. Esta causa comum torna V1V_{1} e V3V_{3} associados, ainda que nenhum seja causa direta ou indireta do outro.

Podemos contextualizar estas ideias em um caso de diagnóstico de dengue. Considere que V2V_{2} é a indicadora de que um indivíduo tem dengue, e V1V_{1} e V3V_{3} são indicadoras de sintomas típicos de dengue, como dor atrás dos olhos e febre. Neste caso, V1V_{1} e V3V_{3} tipicamente são associados: caso um paciente tenha febre, aumenta a probabilidade de que tenha dengue e, portanto, aumenta a probabilidade de que tenha dor atrás dos olhos. Contudo, apesar dessa associação V3V_{3} não tem influência causal sobre V1V_{1}. Se aumentarmos a temperatura corporal do indivíduo, não aumentará a probabilidade de que ele tenha dor atrás dos olhos. A dengue que causa febre, não o contrário.

2.4.2 Cadeia (Chain)

No modelo de cadeia, as únicas duas arestas são (V1,V2)(V_{1},V_{2}) e (V2,V3)(V_{2},V_{3}). Uma ilustração de uma cadeia pode ser encontrada na figur 3. Neste modelo, acreditamos que V1V_{1} é causa de V2V_{2} que, por sua vez, é causa de V3V_{3}. Assim, V1V_{1} é ancestral de V3V_{3}, isto é, o primeiro é causa indireta do segundo.

Refer to caption
Figura 3: Ilustração de cadeia.

Em um modelo de cadeia a relação de dependência entre V1V_{1} e V3V_{3} é explicada pelos resultados a seguir:

Lema 2.20.

Para qualquer probabilidade compatível com o DAG na figur 3, V1V3|V2V_{1}\perp\!\!\!\!\perp V_{3}|V_{2}.

Lema 2.21.

Existe ao menos uma probabilidade compatível com o DAG na figur 3 tal que V1⟂̸V3V_{1}\not\perp\!\!\!\!\perp V_{3}.

Combinando os Lemas 2.20 e 2.21 é possível compreender melhor como usaremos cadeias num contexto causal. Nestes casos, V2V_{2} será uma consequência de V1V_{1} e uma causa de V3V_{3}. Assim, a cadeia torna V1V_{1} e V3V_{3} e associados, ainda que nenhum seja causa direta do outro. Contudo, ao contrário do confundidor, neste caso V1V_{1} é uma causa indireta de V3V_{3}, isto é, tem influência causal sobre V3V_{3}.

Para contextualizar estas ideias, considere que V1V_{1} é a indicadora de consumo elevado de sal, V2V_{2} é a indicadora de pressão alta, e V3V_{3} é a indicadora de ocorrência de um derrame. Como consumo elevado de sal causa pressão alta e pressão alta tem influência causal sobre a ocorrência de um derrame, pressão alta é uma cadeia que é um mediador entre consumo elevado de sal e ocorrência de derrame. Assim, consumo elevado de sal tem influência causal sobre a ocorrência de derrame.

2.4.3 Colisor (Collider)

O último exemplo de DAG com 33 vértices que estudaremos é o de modelo de colisor, em que as únicas duas arestas são (V1,V2)(V_{1},V_{2}) e (V3,V2)(V_{3},V_{2}). Uma ilustração de um colisor pode ser encontrada na figur 4. O modelo de colisor pode ser usado quando acreditamos que V1V_{1} e V3V_{3} são causas comuns a V2V_{2}. Além disso, V1V_{1} não é causa imediata de V3V_{3} nem vice-versa.

Refer to caption
Figura 4: Ilustração de colisor.

Em um modelo de colisor a relação de dependência entre V1V_{1} e V3V_{3} é explicada pelos resultados a seguir:

Lema 2.22.

Para qualquer probabilidade compatível com o DAG na figur 4, V1V3V_{1}\perp\!\!\!\!\perp V_{3}.

Lema 2.23.

Existe ao menos uma probabilidade compatível com o DAG na figur 4 tal que V1⟂̸V3|V2V_{1}\not\perp\!\!\!\!\perp V_{3}|V_{2}.

Combinando os Lemas 2.22 e 2.23 vemos como utilizaremos confundidores num contexto causal. Nestes casos, V1V_{1} e V3V_{3} serão causas comuns e independentes de V2V_{2}. Uma vez que obtemos informação sobre o efeito comum, V2V_{2}, V1V_{1} e V3V_{3} passam a ser associados.

Esse modelo pode ser contextualizado observando a prevalência de doenças em uma determinada população (Sackett1979). Considere que V1V_{1} e V3V_{3} são indicadoras de que um indivíduo tem doenças que ocorrem independentemente na população. Além disso, V2V_{2} é a indicadora de que o indíviduo foi hospitalizado, isto é, V2V_{2} é influeciado causalmente tanto por V1V_{1} quanto por V3V_{3}. Para facilitar as contas envolvidas, desenvolveremos o exemplo com distribuições fictícias. Considere que V1V_{1} e V3V_{3} são independentes e tem distribuição Bernoulli(0.05). Além disso, quanto maior o número de doenças, maior a probabilidade de o indíviduo ser hospitalizado. Por exemplo, (V2=1|V1=0,V3=0)=0.01{\mathbb{P}}(V_{2}=1|V_{1}=0,V_{3}=0)=0.01, (V2=1|V1=0,V3=1)=0.1{\mathbb{P}}(V_{2}=1|V_{1}=0,V_{3}=1)=0.1, (V2=1|V1=1,V3=0)=0.1{\mathbb{P}}(V_{2}=1|V_{1}=1,V_{3}=0)=0.1, e (V2=1|V1=1,V3=1)=0.5{\mathbb{P}}(V_{2}=1|V_{1}=1,V_{3}=1)=0.5.

Com base nestas especificações, podemos verificar se V1V_{1} e V3V_{3} estão associados quando V2=1V_{2}=1. Para tal, primeiramente calcularemos algumas probabilidades conjuntas que serão úteis:

{(V1=0,V2=1,V3=0)=0.950.010.95=0.009025(V1=0,V2=1,V3=1)=0.950.10.05=0.0475(V1=1,V2=1,V3=0)=0.050.10.95=0.0475(V1=1,V2=1,V3=1)=0.050.50.05=0.00125\displaystyle\begin{cases}{\mathbb{P}}(V_{1}=0,V_{2}=1,V_{3}=0)&=0.95\cdot 0.0% 1\cdot 0.95=0.009025\\ {\mathbb{P}}(V_{1}=0,V_{2}=1,V_{3}=1)&=0.95\cdot 0.1\cdot 0.05=0.0475\\ {\mathbb{P}}(V_{1}=1,V_{2}=1,V_{3}=0)&=0.05\cdot 0.1\cdot 0.95=0.0475\\ {\mathbb{P}}(V_{1}=1,V_{2}=1,V_{3}=1)&=0.05\cdot 0.5\cdot 0.05=0.00125\end{cases} (1)

Com base nestes cálculos é possível obter a prevalência da doença dentre os indivíduos hospitalizados:

(V1=1|V2=1)\displaystyle{\mathbb{P}}(V_{1}=1|V_{2}=1) =(V1=1,V2=1)(V2=1)\displaystyle=\frac{{\mathbb{P}}(V_{1}=1,V_{2}=1)}{{\mathbb{P}}(V_{2}=1)}
=0.0475+0.001250.009025+0.0475+0.0475+0.00125\displaystyle=\frac{0.0475+0.00125}{0.009025+0.0475+0.0475+0.00125}
0.46\displaystyle\approx 0.46

Finalmente,

(V1=1|V2=1,V3=1)\displaystyle{\mathbb{P}}(V_{1}=1|V_{2}=1,V_{3}=1) =(V1=1,V2=1,V3=1)(V2=1,V3=1)\displaystyle=\frac{{\mathbb{P}}(V_{1}=1,V_{2}=1,V_{3}=1)}{{\mathbb{P}}(V_{2}=% 1,V_{3}=1)}
=(V1=1,V2=1,V3=1)(V1=0,V2=1,V3=1)+(V1=1,V2=1,V3=1)\displaystyle=\frac{{\mathbb{P}}(V_{1}=1,V_{2}=1,V_{3}=1)}{{\mathbb{P}}(V_{1}=% 0,V_{2}=1,V_{3}=1)+{\mathbb{P}}(V_{1}=1,V_{2}=1,V_{3}=1)}
=0.001250.0475+0.00125\displaystyle=\frac{0.00125}{0.0475+0.00125}
0.26\displaystyle\approx 0.26

Como (V1=1|V2=1)=0.460.26(V1=1|V2=1,V3=1){\mathbb{P}}(V_{1}=1|V_{2}=1)=0.46\neq 0.26\approx{\mathbb{P}}(V_{1}=1|V_{2}=1% ,V_{3}=1), verificamos que V1V_{1} não é independente de V3V_{3} dado V2V_{2}. De fato, ao observar que um indivíduo está hospitalizado e tem uma das doenças, a probabilidade de que ele tenha a outra doença é inferior àquela obtida se soubéssemos apenas que o indivíduo está hospitalizado.

Esta observação não implica que uma doença tenha influência causal sobre a outra. Note que a frequência de hospitalização aumenta drasticamente quando um indivíduo tem ao menos uma das doenças. Além disso, cada uma das doenças é relativamente rara na população geral. Assim, dentre os indíviduos hospitalizados, a frequência daqueles que tem somente uma das doenças é maior do que seria caso as doenças não estivessem associadas. Quando fixamos o valor de uma consequência comum (hospitalização), as causas (doenças) passam a ser associadas. Esta associação não significa que infectar um indivíduo com uma das doenças reduz a probabilidade que ele tenha a outra.

2.5 Modelo Causal (Causal Model)

Com base nos conceitos abordados anteriormente, finalmente podemos definir o Modelo Causal (CM ):

Definição 2.24.

Um CM é um par (𝒢,f)({\mathcal{G}},f) tal que 𝒢=(𝒱,){\mathcal{G}}=({\mathcal{V}},{\mathcal{E}}) é um DAG (Definição 2.6) e ff é uma função de densidade sobre 𝒱{\mathcal{V}} compatível com 𝒢{\mathcal{G}} (Definição 2.11). Neste caso, é comum chamarmos 𝒢{\mathcal{G}} de grafo causal do CM (𝒢,f)({\mathcal{G}},f).

Note pela Definição 2.24 que um CM é formalmente um modelo probabilístico em um DAG. O principal atributo de um CM que o diferencia de um modelo probabilístico genérico em um DAG é como o interpretamos. Existe uma aresta de V1V_{1} em V2V_{2} em um CM se e somente se V1V_{1} é uma causa direta de V2V_{2}.

Dentre os modelos causais, é de particular interesse o modelo linear Gaussiano.

Definição 2.25.

Dizemos que (𝒢,f)({\mathcal{G}},f) é um CM linear Gaussiano de parâmetros μ\mu e β\beta se, existe matriz diagonal positiva, Σ\Sigma, μ|𝒱|\mu\in\Re^{|{\mathcal{V}}|}, e β|𝒱|×|𝒱|\beta\in\Re^{|{\mathcal{V}}|\times|{\mathcal{V}}|} tal que, para todo vértice VV, βV,W=0\beta_{V,W}=0 quando WPa(V)W\notin Pa(V) e

V|Pa(V)\displaystyle V|Pa(V) N(μV+WPa(V)βV,WW,Σi,i)\displaystyle\sim N\left(\mu_{V}+\sum_{W\in Pa(V)}\beta_{V,W}\cdot W,\Sigma_{i% ,i}\right)

O modelo causal linear Gaussiano tem algumas propriedades especiais, que tornam mais simples suas compreensão. Algumas destas são apresentadas abaixo:

Lema 2.26.

Se (𝒢,f)({\mathcal{G}},f) é um CM linear Gaussiano, então 𝒱{\mathcal{V}} segue distribuição normal multivariada.

Lema 2.27.

Seja (𝒢,f)({\mathcal{G}},f) um CM linear Gaussiano com coeficientes β\beta. Para cada V,Y𝒱V,Y\in{\mathcal{V}}, defina V,Y\mathbb{C}_{V,Y} como o conjunto de todos os caminhos direcionados de VV a YY.

𝔼[Y]\displaystyle{\mathbb{E}}[Y] =V𝒱CV,YμVi=1|C|1βCi+1,Ci\displaystyle=\sum_{V\in\mathbb{{\mathcal{V}}}}\sum_{C\in\mathbb{C}_{V,Y}}\mu_% {V}\cdot\prod_{i=1}^{|C|-1}\beta_{C_{i+1},C_{i}}

No próximo capítulo estudaremos consequências desta interpretação causal. Contudo, antes disso, a próxima seção desenvolverá um resultado fundamental de modelos probabilísticos em DAGs que será fundamental nos capítulos posteriores.

2.6 Exercícios

Exercício 2.28.

Em um DAG, 𝒢=(𝒱,){\mathcal{G}}=({\mathcal{V}},{\mathcal{E}}), Considere que Anc(𝕍)𝒱Anc^{*}({\mathbb{V}})\subseteq{\mathcal{V}} é definido como o menor conjunto tal que 𝕍Anc(𝕍){\mathbb{V}}\subseteq Anc^{*}({\mathbb{V}}) e, se VAnc(𝕍)V\in Anc^{*}({\mathbb{V}}), então Pa(V)Anc(𝕍)Pa(V)\subseteq Anc^{*}({\mathbb{V}}). Prove que Anc(𝕍)Anc(𝕍)Anc({\mathbb{V}})\equiv Anc^{*}({\mathbb{V}}).

Exercício 2.29.

Prove o Lema 2.10.

Exercício 2.30.

Prove que se 𝐙{\mathbf{Z}} é ancestral, então f(𝐙)=Z𝐙f(Z|Pa(Z))f({\mathbf{Z}})=\prod_{Z\in{\mathbf{Z}}}f(Z|Pa(Z)).

Exercício 2.31.

Sejam 𝒢1=(𝒱,1){\mathcal{G}}_{1}=({\mathcal{V}},{\mathcal{E}}_{1}) e 𝒢2=(𝒱,2){\mathcal{G}}_{2}=({\mathcal{V}},{\mathcal{E}}_{2}) grafos tais que 12{\mathcal{E}}_{1}\subseteq{\mathcal{E}}_{2}. Prove que se ff é compatível com 𝒢1{\mathcal{G}}_{1}, então ff é compatível com 𝒢2{\mathcal{G}}_{2}.

Exercício 2.32.

Prove o Lema 2.14.

Exercício 2.33.

Prove o Lema 2.17.

Exercício 2.34.

Prove que, para qualquer 𝕍𝒱{\mathbb{V}}\subseteq{\mathcal{V}}, Anc(𝕍)=Anc(Anc(𝕍))Anc({\mathbb{V}})=Anc(Anc({\mathbb{V}})).

Exercício 2.35.

Prove que 𝕍{\mathbb{V}} é ancestral se e somente se Anc(𝕍)=𝕍Anc({\mathbb{V}})={\mathbb{V}}.

Exercício 2.36.

Considere que (X1,X2)(X_{1},X_{2}) são independentes e tais que (Xi=1)=(Xi=1)=0.5{\mathbb{P}}(X_{i}=1)={\mathbb{P}}(X_{i}=-1)=0.5. Além disso, YX1X2Y\equiv X_{1}\cdot X_{2}.

  1. (a)

    Desenhe um DAG compatível com as relações de independência dadas pelo enunciado.

  2. (b)

    Prove que YY e X1X_{1} são independentes. Isso contradiz sua resposta para o item anterior?

Exercício 2.37.

Para cada um dos modelos de confundidor, cadeia e colisor, dê exemplos de situações práticas em que este modelo é razoável.

Exercício 2.38.

Considere que, dado TT, X1,,XnX_{1},\ldots,X_{n} são i.i.d. e Xi|TBernoulli(T)X_{i}|T\sim\text{Bernoulli}(T). Além disso, TBeta(a,b)T\sim\text{Beta}(a,b).

  1. (a)

    Seja f(t,x1,,xn)f(t,x_{1},\ldots,x_{n}) dada pelo enunciado. Exiba um DAG, 𝒢{\mathcal{G}}, tal que ff é compatível com 𝒢{\mathcal{G}}.

  2. (b)

    (X1,,Xn)(X_{1},\ldots,X_{n}) são independentes?

  3. (c)

    Determine f(x1,,xn)f(x_{1},\ldots,x_{n}).

Exercício 2.39.

Exiba um exemplo em que V1V_{1}, V2V_{2}, V3V_{3} sejam binárias, que V2V_{2} seja um colisor e que, além disso, Corr[V1,V3|V2=1]>0Corr[V_{1},V_{3}|V_{2}=1]>0.

Exercício 2.40.

Seja 𝒱=(V1,V2,V3){\mathcal{V}}=(V_{1},V_{2},V_{3}) Exiba um exemplo de ff sobre 𝒱{\mathcal{V}} e grafos 𝒢1{\mathcal{G}}_{1} e 𝒢2{\mathcal{G}}_{2} sobre 𝒱{\mathcal{V}} tais que 𝒢1𝒢2{\mathcal{G}}_{1}\neq{\mathcal{G}}_{2} e ff é compatível tanto com 𝒢1{\mathcal{G}}_{1} quanto com 𝒢2{\mathcal{G}}_{2}.

Exercício 2.41.

Seja ff uma densidade arbitrária sobre 𝒱=(V1,,Vn){\mathcal{V}}=(V_{1},\ldots,V_{n}). Exiba um DAG sobre 𝒱{\mathcal{V}}, 𝒢{\mathcal{G}}, tal que ff é compatível com 𝒢{\mathcal{G}}.

Exercício 2.42.

Exiba um exemplo em que V2V_{2} é um colisor entre V1V_{1} e V2V_{2}, V4V_{4} tem como único pai V2V_{2} e V1V_{1} e V3V_{3} são dependentes dado V4V_{4}.

Exercício 2.43.

Prove o Lema 2.26.