4.3 Probabilidade Condicional Regular

Já sabemos definir por exemplo E(\1A|X=x)E(\1_{A}|X=x). Gostaríamos porém de garantir que essa expressão definisse uma probabilidade em AA, e chamaríamos essa probabilidade de P(A|X=x)P(A|X=x). Mas certamente gostaríamos que P(|X=x)P(\cdot|X=x) fosse uma função σ\sigma-aditiva. Essa especulação parece promissora, por exemplo se AA e BB são disjuntos,

P(AB|)=E(\1AB|)=E(\1A|)+E(\1B|)=P(A|)+P(B|).P(A\cup B|\mathcal{F}^{\prime})=E(\1_{A\cup B}|\mathcal{F}^{\prime})=E(\1_{A}|% \mathcal{F}^{\prime})+E(\1_{B}|\mathcal{F}^{\prime})=P(A|\mathcal{F}^{\prime})% +P(B|\mathcal{F}^{\prime}).

Ótimo, mas ainda temos o seguinte problema.

Lembramos que a equação acima está bem definida apenas quase certamente. Poderíamos portanto garantir que para uma classe enumerável de conjuntos AA\in\mathcal{F}, essa aditividade fosse satisfeita. Porém, a σ\sigma-álgebra \mathcal{F} é frequentemente não enumerável, portanto não conseguimos a σ\sigma-aditividade plena. Isso pode ser contornado se o espaço for canônico, como afirma o nosso próximo resultado.

Ele nos ajudará bastante ao fazermos cálculos usando condicionais, de maneira semelhante à Lei da Probabilidade Total. Esse é o conteúdo do seguinte resultado.

{theorem}

[Teorema da Desintegração] Sejam espaços mensuráveis (Ω,)(\Omega,\mathcal{F}) e (E,𝒜)(E,\mathcal{A}), com EE canônico. Se PP é uma probabilidade no espaço produto (Ω×E,𝒜)(\Omega\times E,\mathcal{F}\otimes\mathcal{A}) e denotamos por PΩ=PX1P_{\Omega}=P\circ X_{1} a primeira distribuição marginal de PP, então existe um núcleo de transição K:Ω×𝒜[0,1]K:\Omega\times\mathcal{A}\to[0,1] satisfazendo

P=PΩK,P=P_{\Omega}\star K, (4.35)

Em particular,

P(A×B)=AK(ω,B)PΩ(ω) para todo AB𝒜.P(A\times B)=\int_{A}K(\omega,B)P_{\Omega}(\d{\omega})\text{ para todo $A\in% \mathcal{F}$, $B\in\mathcal{A}$}. (4.36)

Nesse caso denotamos K(ω,B)K(\omega,B) por P[X2B|X1=ω]P[X_{2}\in B|X_{1}=\omega] (como de costume XiX_{i} denota a ii-ésima coordenada canônica).

Demonstração.

Como de costume, basta resolver o caso (E,𝒜)=(,())(E,\mathcal{A})=(\mathbb{R},\mathcal{B}(\mathbb{R})). De fato, se assumimos a validade do teorema para a reta, podemos usar a função bi-mensurável ϕ:EB()\phi:E\to B\in\mathcal{B}(\mathbb{R}) para concluir o caso geral.

Nos restringiremos agora ao espaço (Ω×,(),P)(\Omega\times\mathbb{R},\mathcal{F}\otimes\mathcal{B}(\mathbb{R}),P). Para cada qq\in\mathbb{Q}, definimos PΩq:[0,1]P^{q}_{\Omega}:\mathcal{F}\to[0,1] por

PΩq(A)=P((,q]×A).P^{q}_{\Omega}(A)=P\big{(}(-\infty,q]\times A\big{)}. (4.37)

Observando que PΩqP^{q}_{\Omega} é absolutamente contínua com respeito a PΩP_{\Omega}, podemos definir

F(ω,q)=PΩqPΩ(ω).F(\omega,q)=\frac{\d{P}^{q}_{\Omega}}{\d{P}_{\Omega}}(\omega). (4.38)

Observamos as seguintes propriedades de FF:

  1.  a)

    para cada qq\in\mathbb{Q}, F(,q)[0,1]F(\cdot,q)\in[0,1], PΩP_{\Omega}-quase certamente, pois PΩq(A)PΩ(A)P^{q}_{\Omega}(A)\leq P_{\Omega}(A) para todo AA\in\mathcal{F},

  2.  b)

    para q<qq<q^{\prime}\in\mathbb{Q}, F(,q)F(,q)F(\cdot,q)\leq F(\cdot,q^{\prime}), PΩP_{\Omega}-quase certamente, pois PΩq(A)PΩq(A)P^{q}_{\Omega}(A)\leq P^{q^{\prime}}_{\Omega}(A) para todo AA\in\mathcal{F} e

  3.  c)

    F(,n)1F(\cdot,n)\to 1 (analogamente F(,n)0F(\cdot,-n)\to 0) quando nn tende a infinito, PΩP_{\Omega}-quase certamente. Para ver isso, note que a sequência de variáveis aleatórias F(,n)F(\cdot,n) é quase certamente monótona não decrescente, logo converge PΩP_{\Omega}-quase certamente. Sendo limitada, converge em 1\mathcal{L}^{1} e como sua integral em PΩP_{\Omega} converge para um, F(,n)1F(\cdot,n)\to 1, quase certamente (analogamente para F(,n)F(\cdot,-n)).

Existe pois um conjunto Ω\Omega^{\prime}\in\mathcal{F} com PΩ(Ω)=1P_{\Omega}(\Omega^{\prime})=1 no qual as três hipóteses acima são satisfeitas. Definimos F^(ω,q)\hat{F}(\omega,q) como sendo igual a F(ω,q)F(\omega,q) em Ω\Omega^{\prime} e igual a F0(q)F_{0}(q) (uma função de distribuição fixa) caso contrário (que claramente será mensurável). Finalmente podemos definir F~(ω,x)=infq;qxF^(ω,q)\tilde{F}(\omega,x)=\inf_{q\in\mathbb{Q};q\downarrow x}\hat{F}(\omega,q), que satisfaz para todo ω\omega as hipóteses do Teorema 2.3. Logo, existe para cada ωΩ\omega\in\Omega uma medida K(ω,)K(\omega,\cdot) em (,())(\mathbb{R},\mathcal{B}(\mathbb{R})) satisfazendo K(ω,(,q])=F(ω,q)K(\omega,(-\infty,q])=F(\omega,q) PΩP_{\Omega}-quase certamente.

Precisamos mostrar que KK é um núcleo, e para isso basta observar que F(ω,q)F(\omega,q) são mensuráveis e a família {(,q];q}\{(-\infty,q];q\in\mathbb{Q}\} forma um π\pi-sistema que gera ()\mathcal{B}(\mathbb{R}).

Finalmente, vamos verificar (4.36), notando que se AA\in\mathcal{F} e B=(,q]B=(-\infty,q],

AK(ω,B)PΩ(ω)=AF(ω,q)PΩ(ω)=PΩq(A)=P(A×B).\int_{A}K(\omega,B)P_{\Omega}(\d{\omega})=\int_{A}F(\omega,q)P_{\Omega}(\d{% \omega})=P^{q}_{\Omega}(A)=P(A\times B). (4.39)

Como a classe BB é um π\pi-sistema gerando ()\mathcal{B}(\mathbb{R}) terminamos a prova. ∎

Interpretamos P[X2B|X1=ω]P[X_{2}\in B|X_{1}=\omega] da seguinte forma. Se alguém tiver acesso à σ\sigma-álgebra σ(X1)\sigma(X_{1}), ou seja, essa pessoa é capaz de observar o valor de ω\omega, ela pode não saber o valor de X2X_{2}, mas já pode atualizar sua distribuição para P(X2|X1=ω)P(X_{2}\in\cdot|X_{1}=\omega).

Uma das grandes vantagens de ter um núcleo de transição a determinar uma distribuição conjunta, como foi feito acima, é que podemos usar a versão generalizada de Fubini. Antes, nós somente podiamos usar Fubini para espaços construídos através de um núcleo.

{exercise}

Se Ω=E1×E2\Omega=E_{1}\times E_{2} com E2E_{2} canônico é dotado da probabilidade P=ρ(x1,x2)μ1μ2(x1x2)\d{P}=\rho(x_{1},x_{2})\mu_{1}\otimes\mu_{2}(\d{x}_{1}\d{x}_{2}), mostre que

P(X2A|X1=x1)=Aρ(x1,x2)μ2(x2)ρ(x1,x2)μ2(x2),P(X_{2}\in A|X_{1}=x_{1})=\frac{\int_{A}\rho(x_{1},x_{2})\mu_{2}(\d{x}_{2})}{% \int\rho(x_{1},x_{2})\mu_{2}(\d{x}_{2})}, (4.40)

(X1P)(X_{1}\circ P)-quase certamtente.

{exercise}

Sejam X1X_{1} e X2X_{2} as projeções canônicas em um espaço produto Ω×E\Omega\times E, com EE canônico. Então, se X1X_{1} e X2X_{2} são independentes com respeito a PP, vale

P[X2B|X1=ω]=P[X2B] para (X1P)-quase todo ω.P[X_{2}\in B|X_{1}=\omega]=P[X_{2}\in B]\text{ para $(X_{1}\circ P)$-quase % todo $\omega$}. (4.41)
{exercise}

Considere em (2,(2))(\mathbb{R}^{2},\mathcal{B}(\mathbb{R}^{2})) as projeções canônicas X1X_{1} e X2X_{2}. Calcule, em cada um dos exemplos abaixo, a probabilidade condicional regular P[X1|X2=x2]P[X_{1}\in\cdot|X_{2}=x_{2}], justificando sua resposta,

  1.  a)

    Quando PP é a medida uniforme em T={(x,y)[0,1]2;xy}T=\{(x,y)\in[0,1]^{2};x\leq y\} (ou seja, a medida de Lebesgue em 2\mathbb{R}^{2} restrita a TT e normalizada para ser uma probabilidade).

  2.  b)

    Quando PP é a medida US1U_{S^{1}} (uniforme em S1S^{1}).