4.2 Propriedades básicas da esperança condicional

Nessa seção justificaremos, em certa medida, a nomenclatura “esperança condicional”. Faremos isso mostrando que ela satisfaz várias propriedades que já conhecemos para a esperança tradicional.

Mas como podemos mostrar propriedades simples tais como a linearidade da esperança condicional? Vamos começar com um exemplo

{proposition}

Se X,X1(P)X,X^{\prime}\in\mathcal{L}^{1}(P), então

E(X+X|)=E(X|)+E(X|), P-quase certamente.E(X+X^{\prime}|\mathcal{F}^{\prime})=E(X|\mathcal{F}^{\prime})+E(X^{\prime}|% \mathcal{F}^{\prime}),\text{ $P$-quase certamente.} (4.7)

Note que a igualdade acima é uma igualdade entre variáveis aleatórias.

Demonstração.

Sabemos que Y=E(X|)+E(X|)Y=E(X|\mathcal{F}^{\prime})+E(X^{\prime}|\mathcal{F}^{\prime}) é uma variável aleatória bem definida. Mais do que isso, sabemos que ela é uma candidata muito boa a E(X+X|)E(X+X^{\prime}|\mathcal{F}^{\prime}). Logo, por unicidade da esperança condicional, basta verificar que YY satisfaz as condições da Definição 4.1 com respeito a X+XX+X^{\prime}. De fato

  1.  a)

    YY é \mathcal{F}^{\prime}-mensurável, por ser uma soma de duas variáveis \mathcal{F}^{\prime}-mensuráveis e

  2.  b)

    por linearidade da esperança (não da esperança condicional), temos

    E(Y\1A)=E(E(X|)\1A+E(X|)\1A)=E(E(X|)\1A)+E(E(X|)\1A)=E(X\1A)+E(X\1A)=E((X+X)\1A).\begin{split}E(Y\1_{A})&=E\big{(}E(X|\mathcal{F}^{\prime})\1_{A}+E(X^{\prime}|% \mathcal{F}^{\prime})\1_{A}\big{)}\\ &=E\big{(}E(X|\mathcal{F}^{\prime})\1_{A}\big{)}+E\big{(}E(X^{\prime}|\mathcal% {F}^{\prime})\1_{A}\big{)}\\ &=E(X\1_{A})+E(X^{\prime}\1_{A})=E\big{(}(X+X^{\prime})\1_{A}\big{)}.\end{split} (4.8)

Isso termina a prova do proposição. ∎

{exercise}

Dados X1X\in\mathcal{L}^{1} e α\alpha\in\mathbb{R}, mostre que E(αX|)=αE(X|)E(\alpha X|\mathcal{F}^{\prime})=\alpha E(X|\mathcal{F}^{\prime}).

Uma outra propriedade bem simples da esperança condicional é a monotonicidade.

{lemma}

Se XXX\geq X^{\prime} em 1(P)\mathcal{L}^{1}(P), então

E(X|)E(X|),P-quase certamente.E(X|\mathcal{F}^{\prime})\geq E(X^{\prime}|\mathcal{F}^{\prime}),\text{$P$-% quase certamente.} (4.9)

Em particular, se X0X\geq 0, então E(X|)0E(X|\mathcal{F}^{\prime})\geq 0 quase certamente.

Demonstração.

Seja A=[E(X|)E(X|)>0]A=[E(X^{\prime}|\mathcal{F}^{\prime})-E(X|\mathcal{F}^{\prime})>0], que pertence a \mathcal{F}^{\prime}. Então

0E((E(X|)E(X|))\1A)=E((XX)\1A)0,0\leq E\big{(}(E(X^{\prime}|\mathcal{F}^{\prime})-E(X|\mathcal{F}^{\prime}))\1% _{A}\big{)}=E\big{(}(X^{\prime}-X)\1_{A}\big{)}\leq 0, (4.10)

o que implica que P(A)=0P(A)=0. ∎

{proposition}

Se X,ZX1(P)X,ZX\in\mathcal{L}^{1}(P), com ZZ\in\mathcal{F}^{\prime}, temos

E(XZ|)=ZE(X|) P-quase certamente.E(XZ|\mathcal{F}^{\prime})=ZE(X|\mathcal{F}^{\prime})\text{ $P$-quase % certamente}. (4.11)

Em particular, E(αX|)=αE(X|)E(\alpha X|\mathcal{F}^{\prime})=\alpha E(X|\mathcal{F}^{\prime}), para todo α\alpha\in\mathbb{R}. Uma outra consequência interessante é que ZE(X|)ZE(X|\mathcal{F}^{\prime}) estará automaticamente em 1\mathcal{L}^{1}.

De maneira bastante informal, vamos dar uma intuição para o resultado acima. Ao considerarmos a esperança condicional dada \mathcal{F}^{\prime}, nós já conhecemos as variáveis aleatórias \mathcal{F}^{\prime}-mensuráveis, portanto elas se comportam como constantes.

Demonstração.

Mais uma vez, basta verificar que ZE(X|)ZE(X|\mathcal{F}^{\prime}) satisfaz as condições que definem a esperança condicional. A primeira é trivial, pois ZE(X|)ZE(X|\mathcal{F}^{\prime}) é \mathcal{F}^{\prime}-mensurável por ser um produto de funções \mathcal{F}^{\prime}-mensuráveis.

Para provar a segunda condição, começamos com o caso Z=\1BZ=\1_{B}, implicando que BB\in\mathcal{F}^{\prime}, donde

E(ZE(X|)\1A)=E(E(X|)\1AB)=E(X\1AB)=E(ZX\1A).E\big{(}ZE(X|\mathcal{F}^{\prime})\1_{A}\big{)}=E\big{(}E(X|\mathcal{F}^{% \prime})\1_{A\cap B}\big{)}=E(X\1_{A\cap B})=E(ZX\1_{A}).

Por linearidade, já sabemos que o resultado vale para funções ZZ simples e gostaríamos de extender para quaisquer ZZ positivas via Teorema da Convergência Monótona. Um problema aqui é que mesmo que ZZ seja positiva, não sabemos se E(X|)E(X|\mathcal{F}^{\prime}) também será positiva.

Portanto, trataremos primeiramente do caso X0X\geq 0. Para tais XX, sabemos pelo Lema 4.2 que E(X|)0E(X|\mathcal{F}^{\prime})\geq 0 quase certamente. Daí, podemos concluir que ZE(X|)=E(ZX|)ZE(X|\mathcal{F}^{\prime})=E(ZX|\mathcal{F}^{\prime}) para toda Z0Z\geq 0, podemos aproximá-la por baixo por ZnZ_{n} simples e, pelo Teorema da Convergência Monótona,

E(ZE(X|))=TCMlimnE(ZnE(X|))=limnE(E(ZnX|))=TCME(E(ZX|)).\begin{array}[]{e}E\big{(}ZE(X|\mathcal{F}^{\prime})\big{)}&\overset{\text{TCM% }}{=}&\lim_{n}E\big{(}Z_{n}E(X|\mathcal{F}^{\prime})\big{)}\\ &=&\lim_{n}E\big{(}E(Z_{n}X|\mathcal{F}^{\prime})\big{)}\overset{\text{TCM}}{=% }E\big{(}E(ZX|\mathcal{F}^{\prime})\big{)}.\end{array} (4.12)

O que mostra o resultado sempre que X0X\geq 0.

Além disso, pela Proposição 4.1, sabemos que ZE(X|)1ZE(X|\mathcal{F}^{\prime})\in\mathcal{L}^{1}. Podemos finalmente concluir a prova por linearidade decompondo X=X+XX=X_{+}-X_{-}. ∎

O próximo resultado tenta corroborar nossa afirmação que a esperança condicional é uma boa maneira de aproximar uma variável aleatória.

{lemma}

Se X2(P)X\in\mathcal{L}^{2}(P) e \mathcal{F}^{\prime}\subseteq\mathcal{F}, então E(X|)E(X|\mathcal{F}^{\prime}) é a projeção ortogonal de XX no espaço vetorial HH_{\mathcal{F}^{\prime}}. Onde H={Y2;Y é -mensurável}H_{\mathcal{F}^{\prime}}=\{Y\in\mathcal{L}^{2};Y\text{ \'{e} $\mathcal{F}^{% \prime}$-mensur\'{a}vel}\}.

Demonstração.

Temos que verificar que XE(X|)X-E(X|\mathcal{F}^{\prime}) é ortogonal a HH_{\mathcal{F}^{\prime}}. Ou seja, mostrar que para todo ZHZ\in H_{\mathcal{F}^{\prime}}, temos

E(XZE(X|)Z)=0.E\big{(}XZ-E(X|\mathcal{F}^{\prime})Z\big{)}=0. (4.13)

Note que não é claro que essa esperança faz sentido, pois não sabemos que ZE(X|)1ZE(X|\mathcal{F}^{\prime})\in\mathcal{L}^{1}. Mas isso segue facilmente da Proposição 4.2.

Mas E(E(X|)Z)=ZE(E(X|)\1Ω)=ZE(X\1Ω)E\big{(}E(X|\mathcal{F}^{\prime})Z\big{)}=ZE\big{(}E(X|\mathcal{F}^{\prime})\1% _{\Omega}\big{)}=ZE\big{(}X\1_{\Omega}\big{)}, provando o resultado. 66todo: 6 Adicionar footnote.

Vimos acima uma metodologia que se repete frequentemente. Digamos que queremos provar que uma determinada expressão nos dá a esperança condicional de algo. Podemos começar provando esse resultado para funções indicadoras, depois para funções simples usando a linearidade provada acima.

Porém ainda falta um ingrediente bastante importante para construir ou verificar que determinadas variáveis são esperanças condicionais.

{theorem}

[Convergência Monótona para Esperanças Condicionais] Se as variáveis XnX_{n} satisfazem XnXX_{n}\uparrow X e estão todas em 1(P)\mathcal{L}^{1}(P), então

limnE(Xn|)=E(X|).\lim_{n}E(X_{n}|\mathcal{F}^{\prime})=E(X|\mathcal{F}^{\prime}). (4.14)
Demonstração do Teorema 4.2.

Sabemos que E(Xn+1|)E(Xn|)E(X_{n+1}|\mathcal{F}^{\prime})\geq E(X_{n}|\mathcal{F}^{\prime}), donde concluímos que E(Xn|)YE(X_{n}|\mathcal{F}^{\prime})\uparrow Y. Vamos demosntrar que Y=E(X|)Y=E(X|\mathcal{F}^{\prime}).

  1.  a)

    Por ser um limite de funções \mathcal{F}^{\prime} mensuráveis, YY é \mathcal{F}^{\prime}-mensurável.

  2.  b)

    Dado AA\in\mathcal{F}^{\prime}, temos

    E(Y\1A)=E(limnE(Xn|)\1A)=TCMlimnE(E(Xn|)\1A)=limnE(Xn\1A)=TCME(X\1A).\begin{split}E(Y\1_{A})&=E(\lim_{n}E(X_{n}|\mathcal{F}^{\prime})\1_{A})% \overset{\text{TCM}}{=}\lim_{n}E\big{(}E(X_{n}|\mathcal{F}^{\prime})\1_{A}\big% {)}\\ &=\lim_{n}E(X_{n}\1_{A})\overset{\text{TCM}}{=}E(X\1_{A}).\end{split} (4.15)

O que termina a prova do teorema. ∎

No que segue, muitas vezes escreveremos E(X|Z)E(X|Z) para representar a esperança condicional E(X|σ(Z))E(X|\sigma(Z)).

{exercise}

Sejam X1X_{1} e X2X_{2} as coordenadas canônicas em ×E\mathbb{R}\times E e definimos a probabilidade P=ρ(x,y)μ1μ2\d{P}=\rho(x,y)\d{\mu}_{1}\d{\mu}_{2}, onde ρ:×E+\rho:\mathbb{R}\times E\to\mathbb{R}_{+} é uma densidade. Dê sentido à expressão abaixo e mostre que elá é E(X1|X2)E(X_{1}|X_{2}):

xρ(x,X2)μ1(x)ρ(x,X2)μ1(x).\frac{\int x\rho(x,X_{2})\mu_{1}(\d{x})}{\int\rho(x,X_{2})\mu_{1}(\d{x})}. (4.16)
{exercise}

Seja EE enumerável com uma σ\sigma-álgebra \mathcal{F}^{\prime}. Mostre que

=σ(Ai,i1), com AiE disjuntos.\mathcal{F}^{\prime}=\sigma(A_{i},i\geq 1),\text{ com $A_{i}\subseteq E$ % disjuntos}. (4.17)

Suponha que todos conjuntos AiA_{i} tem probabilidade positiva e mostre que

E(X|)=iEi(X)\1Ai,E(X|\mathcal{F}^{\prime})=\sum_{i}E^{i}(X)\1_{A_{i}}, (4.18)

onde EiE^{i} é a esperança com respeito à probabilidade P(|Ai)P(\cdot|A_{i}). Em breve extenderemos esse tipo de resultado a espaços quaisquer.

Uma outra propriedade que a esperança condicional herda da integral é a

{proposition}

[Desigualdade de Jensen] Se ϕ:\phi:\mathbb{R}\to\mathbb{R} é convexa, X,ϕ(X)1(P)X,\phi(X)\in\mathcal{L}^{1}(P), então

ϕ(E(X|))E(ϕ(X)|).\phi\big{(}E(X|\mathcal{F}^{\prime})\big{)}\leq E\big{(}\phi(X)|\mathcal{F}^{% \prime}\big{)}. (4.19)
Demonstração.

Se ϕ\phi for uma função linear, o resultado segue da linearidade que já provamos para a esperança condicional. Além disso, se temos uma função ψ:\psi:\mathbb{R}\to\mathbb{R} linear e tal que ψ(x)ϕ(x)\psi(x)\leq\phi(x) para todo xx\in\mathbb{R}, então

E(ϕ(X)|)E(ψ(X)|)=ψ(E(X|)).E\big{(}\phi(X)|\mathcal{F}^{\prime}\big{)}\geq E\big{(}\psi(X)|\mathcal{F}^{% \prime}\big{)}=\psi\big{(}E(X|\mathcal{F}^{\prime})\big{)}. (4.20)

Tomamos finalmente o supremo em todas as ψ\psi lineares com ψϕ\psi\leq\phi dos dois lados da desigualdade acima, obtendo

E(ϕ(X)|)supψϕψ linearψ(E(X|))=ϕ(E(X|)),E\big{(}\phi(X)|\mathcal{F}^{\prime}\big{)}\geq\sup_{\begin{subarray}{c}\psi% \leq\phi\\ \psi\text{ linear}\end{subarray}}\psi\big{(}E(X|\mathcal{F}^{\prime})\big{)}=% \phi\big{(}E(X|\mathcal{F}^{\prime})\big{)}, (4.21)

terminando a prova da proposição. ∎

{corollary}

Se X1(P)X\in\mathcal{L}^{1}(P), então |E(X|)|E(|X||)\big{|}E(X|\mathcal{F}^{\prime})\big{|}\leq E\big{(}|X|\big{|}\mathcal{F}^{% \prime}\big{)}.

Uma outra propriedade interessante da esperança condicional diz respeito a sua relação com independência.

{proposition}

Se X1(P)X\in\mathcal{L}^{1}(P) é independente de \mathcal{F}^{\prime}, então

E(X|)=E(X) P-quase certamente.E(X|\mathcal{F}^{\prime})=E(X)\text{ $P$-quase certamente.} (4.22)
Demonstração.

Funções constantes são sempre mensuráveis. Além disso, se AA\in\mathcal{F}^{\prime}, então

E(X\1A)=E(X)P(A)=E(E(X)\1A),E(X\1_{A})=E(X)P(A)=E\big{(}E(X)\1_{A}\big{)}, (4.23)

concluindo a prova. ∎

Terminamos essa seção com o que chamamos da propriedade de torre da esperança condicional.

{proposition}

Se ′′\mathcal{F}^{\prime}\subseteq\mathcal{F}^{\prime\prime} são ambas sub-σ\sigma-álgebras de \mathcal{F}, então para X1(P)X\in\mathcal{L}^{1}(P), temos

E(E(X|)|′′)=E(X|)=E(E(X|′′)|),E\big{(}E(X|\mathcal{F}^{\prime})\big{|}\mathcal{F}^{\prime\prime}\big{)}=E(X|% \mathcal{F}^{\prime})=E\big{(}E(X|\mathcal{F}^{\prime\prime})\big{|}\mathcal{F% }^{\prime}\big{)}, (4.24)

ou em outras palavras, independentemente da ordem, prevalece a condição na menor σ\sigma-álgebra. Consequentemente, E(E(X|))=E(X)E\big{(}E(X|\mathcal{F}^{\prime})\big{)}=E(X).

Demonstração.

Como E(X|)E(X|\mathcal{F}^{\prime}) é ′′\mathcal{F}^{\prime\prime}-mensurável, a Proposição 4.2, aplicada com X=1X=1, mostra a primeira igualdade em (4.24).

Falta mostrar que E(E(X|′′)|)E\big{(}E(X|\mathcal{F}^{\prime\prime})\big{|}\mathcal{F}^{\prime}\big{)} é a esperança condicional de XX dada \mathcal{F}^{\prime}. Obviamente ela é \mathcal{F}^{\prime}-mensurável, e nos resta verificar a segunda condição. Mas para todo AA\in\mathcal{F}^{\prime}, lembrando que AA também pertence a ′′\mathcal{F}^{\prime\prime} e usando a definição de esperança condicional duas vezes,

E(E(E(X|′′)|)\1A)=E(E(X|′′)\1A)=E(X\1A).E\Big{(}E\big{(}E(X|\mathcal{F}^{\prime\prime})\big{|}\mathcal{F}^{\prime}\big% {)}\1_{A}\Big{)}=E\big{(}E(X|\mathcal{F}^{\prime\prime})\1_{A}\big{)}=E(X\1_{A% }). (4.25)

O que termina a prova da proposição. ∎

{lemma}

Se X:ΩEX:\Omega\to E é um elemento aleatório e f:Ωf:\Omega\to\mathbb{R} é σ(X)\sigma(X)-mensurável, então existe uma g:Eg:E\to\mathbb{R} mensurável tal que f=gXf=g\circ X.

Demonstração.

Como de costume, consideramos primeiramente o caso f=\1Af=\1_{A} Claramente AA tem que pertencer a σ(X)\sigma(X), ou seja A=X1(B)A=X^{-1}(B) para algum B𝒜B\in\mathcal{A}. Neste caso colocamos g=\1Bg=\1_{B}, donde obtemos f(ω)=1ωAX(ω)BgX=1f(\omega)=1\Leftrightarrow\omega\in A\Leftrightarrow X(\omega)\in B% \Leftrightarrow g\circ X=1.

No caso em que ff é simples, temos f=iai(giX)=(iaigi)Xf=\sum_{i}a_{i}(g_{i}\circ X)=(\sum_{i}a_{i}g_{i})\circ X. Se ff é positiva, então ela é um limite crescente de funções do tipo gnXg_{n}\circ X, além disso podemos tomar gng_{n} crescentes, pois

fn+1=fn+1fn=(gn+1X)(gnX)=(gngn+1)X.f_{n+1}=f_{n+1}\vee f_{n}=(g_{n+1}\circ X)\vee(g_{n}\circ X)=(g_{n}\vee g_{n+1% })\circ X. (4.26)

Finalmente usamos a linearidade da composição novamente para resolver o caso geral f=f+ff=f_{+}-f_{-}. ∎

Se X:ΩEX:\Omega\to E é elemento aleatório, então E(Y|σ(X))E(Y|\sigma(X)) é obviamente σ(X)\sigma(X)-mensurável. Pelo lema anterior, E(Y|σ(X))=gXE(Y|\sigma(X))=g\circ X para alguma g:Eg:E\to\mathbb{R}. Nesse caso denotamos

E(Y|X=x)=g(x).E(Y|X=x)=g(x). (4.27)
{exercise}

Mostre que gg é única XPX\circ P-quase certamente.

Gostaríamos de dizer que E(Y|X=x)E(Y|X=x) satisfaz alguma propriedade que justifique essa notação. Apesar de que apenas na próxima seção poderemos justificar completamente essa nomenclatura, nesse momento já podemos mostrar a seguinte relação

E(Y)=E(E(Y|X))=E(E(Y|X=x)X)=E(Y|X=x)(XP)(x).E(Y)=E\big{(}E(Y|X)\big{)}=E\big{(}E(Y|X=x)\circ X\big{)}=\int E(Y|X=x)(X\circ P% )(\d{x}).

Em outras palavras, para integrar YY, basta conhecermos a distribuição de XX e a esperança condicional de YY, dado que X=xX=x.

{exercise}

Sejam XX e YY as coordenadas canônicas em E1×E2E_{1}\times E_{2}, com a probabilidade P=μ1μ2P=\mu_{1}\otimes\mu_{2} e seja f:E1×E2f:E_{1}\times E_{2}\to\mathbb{R} em 1(P)\mathcal{L}^{1}(P). Mostre que

E(f|X=x)=f(x,y)μ2(y).E(f|X=x)=\int f(x,y)\mu_{2}(\d{y}). (4.28)
{exercise}

Se KK é um núcleo de transição entre E1E_{1} e \mathbb{R} e P1P_{1} é uma probabilidade em E1E_{1}, mostre que em P1KP_{1}\star K temos

E(X2|X1=x1)=x2K(x1,x2).E(X_{2}|X_{1}=x_{1})=\int x_{2}K(x_{1},\d{x}_{2}). (4.29)

Um outro resultado bastante importante é o seguinte

{theorem}

[Teorema da Convergência Dominada para Esperanças Condicionais] Se XnXX_{n}\to X e existe Y1(P)Y\in\mathcal{L}^{1}(P) tal que |Xn|Y|X_{n}|\leq Y para todo nn, então

E(Xn|)E(X|) P-quase certamente.E(X_{n}|\mathcal{F})\to E(X|\mathcal{F})\text{ $P$-quase certamente.} (4.30)
Demonstração.

Seja Zn=supkn|XkX|Z_{n}=\sup_{k\geq n}|X_{k}-X| o erro máximo à partir de nn. Claramente, Zn0Z_{n}\downarrow 0 quase certamente e além disso

|Zn|supk1|Xk|+|X|2Y,|Z_{n}|\leq\sup_{k\geq 1}|X_{k}|+|X|\leq 2Y, (4.31)

donde E(Zn)E(0)=0E(Z_{n})\to E(0)=0, quase certamente pelo Teorema da Convergência Dominada.

Obviamente E(Zn|)E(Z_{n}|\mathcal{F}) é uma sequência positiva e não-crescente, logo decresce quase certamtente para algum ZZ. Daí,

|E(Xn|)E(X|)|E(Zn|)Z0.\big{|}E(X_{n}|\mathcal{F})-E(X|\mathcal{F})\big{|}\leq E(Z_{n}|\mathcal{F})% \downarrow Z\geq 0. (4.32)

Mas E(Z)E(E(Zn|))=E(Zn)E(Z)\leq E\big{(}E(Z_{n}|\mathcal{F})\big{)}=E(Z_{n}). Como E(Zn)E(Z_{n}) vai a zero pelo Teorema da Convergência Dominada, temos que Z=0Z=0 quase certamente como gostaríamos. ∎

{exercise}

Sejam Z1,Z2,Z_{1},Z_{2},\dots variáveis aleatórias \iidem 1(P)\mathcal{L}^{1}(P) com E(Z1)=0E(Z_{1})=0.

  1.  a)

    Defina X0=0X_{0}=0 e

    Xn=i=1nZi, para n1.X_{n}=\sum_{i=1}^{n}Z_{i},\text{ para $n\geq 1$.} (4.33)

    Mostre que E(Xn+1|Z1,,Zn)=XnE(X_{n+1}|Z_{1},\dots,Z_{n})=X_{n}.

  2.  b)

    Supondo agora que Z12(P)Z_{1}\in\mathcal{L}^{2}(P) e E(Z)=0E(Z)=0, defina Y0=0Y_{0}=0 e

    Yn=(i=1nZi)2nE(Z12)Y_{n}=\Big{(}\sum_{i=1}^{n}Z_{i}\Big{)}^{2}-nE(Z_{1}^{2}) (4.34)

    Mostre que E(Yn+1|Z1,,Zn)=YnE(Y_{n+1}|Z_{1},\dots,Z_{n})=Y_{n}.

\todosec

Tópico: Martingais a tempo discretofazer…

\todosec

Tópico: Propriedade fraca de Markovmostrar que cadeias = processos…

\todosec

Tópico: Recorrência e transiênciamarkov recorrência/transiência + periodicidade…