3.7 Princípio de Grandes Desvios

A primeira tarefa nossa será otimizar a estimativa grosseira feita na seção anterior. Essas estimativas são chamadas de estimativas de grandes desvios, pois se referem a probabilidades que a média empírica de XiX_{i} se desvie de sua esperança por um valor constante aa. Futuramente no curso estudaremos as probabilidades de que esse desvio seja de ordem an0a_{n}\to 0 que são chamados de desvios moderados ou flutuações, dependendo se a probabilidade de desvio converge a zero ou não.

{theorem}

[Princípio de Grandes Desvios - cota superior] Consideramos variáveis aleatórias \iidX1,X2,X_{1},X_{2},\dots tais que ϕX1(s)<\phi_{X_{1}}(s)<\infty, para todo s(δ,δ)s\in(-\delta,\delta). Então, para a>0a>0,

P[X1++Xn(m+a)n]\exψX1(m+a)n,P\big{[}X_{1}+\dots+X_{n}\geq\big{(}m+a\big{)}n\big{]}\leq\ex{-\psi_{X_{1}}(m+% a)n}, (3.75)

onde m=E(X1)m=E(X_{1}) e

ψX1(x)=sups0{xslog(ϕX1(s))}\psi_{X_{1}}(x)=\sup_{s\geq 0}\big{\{}xs-\log\big{(}\phi_{X_{1}}(s)\big{)}\big% {\}} (3.76)

é chamada função taxa.

É importante observar que para estimar P[X1++Xn(ma)n]P\big{[}X_{1}+\dots+X_{n}\leq(m-a)n\big{]}, basta considerarmos Xi=XiX^{\prime}_{i}=-X_{i} ao utilizar o teorema acima.

Demonstração.

Já sabemos que, para todo s0s\geq 0,

P[X1++Xn(m+a)n]ϕX1n(s)\exs(m+a)n=\exlog(ϕX1(s))ns(m+a)n=\ex((m+a)slog(ϕX1(s)))n\begin{split}P\big{[}X_{1}&+\dots+X_{n}\geq\big{(}m+a\big{)}n\big{]}\leq\phi_{% X_{1}}^{n}(s)\ex{-s(m+a)n}\\[2.84526pt] &=\ex{\log\big{(}\phi_{X_{1}}(s)\big{)}n-s(m+a)n}\\ &=\ex{-\big{(}(m+a)s-\log\big{(}\phi_{X_{1}}(s)\big{)}\big{)}n}\\ \end{split} (3.77)

O que termina a prova do teorema se tomamos o ínfimo em s0s\geq 0. ∎

{exercise}

Calcule ψX(a)\psi_{X}(a) quando XX é distribuída como \Ber(p)\Ber(p), U[0,1]U_{[0,1]} e \Exp(λ)\Exp(\lambda).

{exercise}

Na Nova Caledônia, temos kk habitantes. Seja f:{1,,k}{0,1}f:\{1,\dots,k\}\to\{0,1\} uma função que indica a intenção de voto de cada cidadão. Mais precisamente, para cada habitante i{1,,k}i\in\{1,\dots,k\}, se f(i)=0f(i)=0, então ii vota no candidato 0, enquanto se f(i)=1f(i)=1, o cidadão ii vota no candidato 11. Para estimar o número k1=#f1({1})k_{1}=\#f^{-1}(\{1\}) de pessoas que votam em 11, nós escolhemos variáveis aleatórias YiY_{i} i.i.d. com distribuição uniforme em {1,,k}\{1,\dots,k\} e queremos estimar

Errn(ϵ)=P[|1ni=1nf(Yi)k1k|>ϵ].\text{Err}_{n}(\epsilon)=P\Big{[}\Big{|}\frac{1}{n}\sum_{i=1}^{n}f(Y_{i})-% \frac{k_{1}}{k}\Big{|}>\epsilon\Big{]}. (3.78)

Sabendo que kk é par e k1=k/2k_{1}=k/2, então

  1.  a)

    use o método do segundo momento para obter um nn tal que Errn(0.01)<0.02\text{Err}_{n}(0.01)<0.02 e um nn tal que Errn(0.01)<1012\text{Err}_{n}(0.01)<10^{-12},

  2.  b)

    use o método do momento exponencial para obter resolver o ítem acima.

Compare os quatro resultados obtidos acima.

Vamos agora tomar um exemplo concreto para análise. Sejam X1,X2,X_{1},X_{2},\dots variáveis aleatórias \iidcom distribuição \Ber(1/2)\Ber(1/2), donde

ϕX1(s)=12(1+es)eψX1(x)=sups0{xslog(1+es)+log(2)}.\phi_{X_{1}}(s)=\frac{1}{2}(1+e^{s})\quad\text{e}\quad\psi_{X_{1}}(x)=\sup_{s% \geq 0}\{xs-\log(1+e^{s})+\log(2)\}. (3.79)

Um cálculo simples nos mostra que, se x<1x<1, o mínimo acima é atingido no único ponto smax=log(x1x)s_{\text{max}}=\log(\tfrac{x}{1-x}). Portanto, podemos concluir do Teorema 3.7 que

P[X1+&+Xn>1/2+a]\exψX1(smax)n=exp{n(blog(b)+(1b)log(1b)+log(2))}\begin{split}P[X_{1}+\dots&+X_{n}>1/2+a]\leq\ex{-\psi_{X_{1}}(s_{\text{max}})n% }\\ &=\exp\Big{\{}-n\Big{(}b\log(b)+(1-b)\log(1-b)+\log(2)\Big{)}\Big{\}}\end{split} (3.80)

Note que P[X1++Xn=n]=2n=\exlog(2)n=\exψX1(1)nP[X_{1}+\dots+X_{n}=n]=2^{-n}=\ex{-\log(2)n}=\ex{-\psi_{X_{1}}(1-)n}. Isso nos dá um forte indício de que talvez nossas cotas superiores não estejam tão longe de ser precisas. Para confirmar essa hipótese, precisamos obter cotas inferiores parecidas.

bb11log(2)\log(2)0ψX(b)\psi_{X}(b)bb110ψX(b)\psi_{X^{\prime}}(b)log(4/3)\log(4/3)log(4)\log(4)
Figura 3.1: Funções taxa ψX(b)\psi_{X}(b) de uma variável XX com distribuição \Ber(1/2)\Ber(1/2), e ψX(b)\psi_{X^{\prime}}(b) de uma variável com distribuição \Ber(3/4)\Ber(3/4), para b(0,1)b\in(0,1).

Antes de buscar cotas inferiores para as probabilidades de desvio, vamos estabelecer algumas propriedades da função ψX(b)\psi_{X}(b). Primeiramente, quando podemos dizer que o supremo na definição de ψX\psi_{X} é atingido em algum smaxs_{\text{max}}? Certamente, esse nem sempre é o caso, por exemplo se X=mX=m quase certamente, então ϕX(s)=esm\phi_{X}(s)=e^{sm} e o supremo definindo ψX(b)\psi_{X}(b) não é atingido se bmb\neq m.

{lemma}

Seja XX uma variável aleatória tal que ϕX(s)<\phi_{X}(s)<\infty para todo s(δ,δ)s\in(-\delta,\delta). Supondo a0a\geq 0 é tal que P[X>m+a]>0P[X>m+a]>0, então existe smax0s_{\text{max}}\geq 0 tal que

ψX(m+a)=(m+a)smaxlog(ϕX(smax)).\psi_{X}(m+a)=(m+a)s_{\text{max}}-\log\big{(}\phi_{X}(s_{\text{max}})\big{)}. (3.81)
Demonstração.

Por hipótese, existe x>m+ax>m+a tal que p=P[Xx]>0p=P[X\geq x]>0, donde ϕX(s)pes(m+a)\phi_{X}(s)\geq pe^{s(m+a)}. Dessa forma, (m+a)slog(ϕX(s))(m+ax)slog(p)(m+a)s-\log\big{(}\phi_{X}(s)\big{)}\leq(m+a-x)s-\log(p), que converge a menos infinito quando ss diverge. Isso, junto com a continuidade de ϕX\phi_{X} implica a existência do smaxs_{\text{max}} desejado. ∎

{lemma}

Seja XX uma variável aleatória tal que ϕX(s)<\phi_{X}(s)<\infty para todo s(δ,δ)s\in(-\delta,\delta). Então o conjunto onde a função ψX(s)\psi_{X}(s) é finita é um intervalo, na qual ψX\psi_{X} é convexa e portanto contínua.

Demonstração.

Primeiramente, supomos que a<ba<b são tais que ψX(a)\psi_{X}(a) e ψX(b)\psi_{X}(b) são finitas. Logo, para todo c(a,b)c\in(a,b), temos que a função linear cscs é menor ou igual a asbsas\vee bs, daí

ψX(c)=sups0{cslog(ϕX(s))}sups0{(asbs)log(ϕX(s))}sups0{aslog(ϕX(s))}sups0{bslog(ϕX(s))}<.\begin{split}\psi_{X}(c)&=\sup_{s\geq 0}\{cs-\log(\phi_{X}(s))\}\leq\sup_{s% \geq 0}\{(as\vee bs)-\log(\phi_{X}(s))\}\\ &\leq\sup_{s\geq 0}\{as-\log(\phi_{X}(s))\}\vee\sup_{s\geq 0}\{bs-\log(\phi_{X% }(s))\}<\infty.\end{split} (3.82)

Para mostrar que ψX\psi_{X} é convexa, observe que ψX(x)\psi_{X}(x) é dada pelo supremo (para s0s\geq 0) das funções afins xxsψX(s)x\mapsto xs-\psi_{X}(s). Como o supremo de funções convexas é também convexo, obtemos o enunciado do lemma. ∎

{exercise}

Suponha que se ϕX(s)\phi_{X}(s) é finita para todo s(δ,δ)s\in(-\delta,\delta) e mostre que

  1.  a)

    na definição de ψX(a)\psi_{X}(a), poderíamos tomar o ínfimo em todos ss\in\mathbb{R} (ao invéz de s0s\geq 0) sem mudar o valor de ψX(a)\psi_{X}(a),

  2.  b)

    a função ψX(s)\psi_{X}(s) é não negativa, semi-contínua inferior e convexa em seu domínio

  3.  c)

    ψX(a)\psi_{X}(a) se anula somente em a=0a=0 e ψX\psi_{X} é crescente no seu domínio.

Buscaremos agora cotas inferiores para a probabilidade de obter um grande desvio. Gostaríamos que essas estimativas fossem o mais próximas possíveis das estimativas superiores obtidas acima. Certamente não podemos obter algo como

``P[X1++Xn(m+a)n]exp{ψX1(a)n}",``P\big{[}X_{1}+\dots+X_{n}\geq\big{(}m+a\big{)}n\big{]}\geq\exp\{-\psi_{X_{1}% }(a)n\}", (3.83)

pois senão isso nos daria uma igualdade o que é impossível, pois perdemos um pouco de precisão ao utilizar a desigualdade de Markov na cota superior.

Contudo, gostaríamos de entender se ao menos o expoente ψX1(a)\psi_{X_{1}}(a) na cota superior também possui algum papel na cota inferior. Isso é confirmado no seguinte resultado.

{theorem}

[Princípio de Grandes Desvios - cota inferior] Sejam X1,X2,X_{1},X_{2},\dots variáveis aleatórias \iidcom ϕX1(s)<\phi_{X_{1}}(s)<\infty, para todo ss\in\mathbb{R}. Então, para todo a>0a>0,

lim infn1nlogP[X1++Xn(m+a)n]ψX1(m+a),\liminf_{n\to\infty}\frac{1}{n}\log P\big{[}X_{1}+\dots+X_{n}\geq\big{(}m+a% \big{)}n\big{]}\geq-\psi_{X_{1}}(m+a), (3.84)

onde novamente m=E(X1)m=E(X_{1}) e ψX1(x)\psi_{X_{1}}(x) é definida como no Teorema 3.7.

Note que o resultado do teorema acima é mais fraco que o que vemos na equação (3.83), mas mostra que ψX1(a)\psi_{X_{1}}(a) é realmente o expoente correto no decaimento da probabilidade de grandes desvios.

Um corolário dos Teoremas 3.7 e 3.1 é o seguinte

{corollary}

Se X1,X2,X_{1},X_{2},\dots variáveis aleatórias \iidcom ϕX1(s)<\phi_{X_{1}}(s)<\infty, para todo ss\in\mathbb{R}, então

limn1nlogP[X1++Xn(m+a)n]=ψX1(m+a).\lim_{n\to\infty}\frac{1}{n}\log P\big{[}X_{1}+\dots+X_{n}\geq\big{(}m+a\big{)% }n\big{]}=-\psi_{X_{1}}(m+a). (3.85)

A idéia da prova é transformar a distribuição de XiX_{i}, usando uma exponencial como derivada de Radon-Nikodim. Essa nova distribuição possuirá esperança maior que m+am+a, de forma que se tomamos a média de variáveis \iidX1,,XnX^{\prime}_{1},\dots,X^{\prime}_{n} distribuídas dessa forma, obteremos algo que se concentra acima de m+am+a. Finalmente, o preço pago para que as variáveis XiX_{i} se comportem como as XiX^{\prime}_{i} será aproximadamente exp{ψX1(m+a)}\exp\{-\psi_{X_{1}}(m+a)\}, como desejado para nossa cota inferior.

Demonstração.

Primeiramente, consideraremos o caso P[X1m+a]=1P[X_{1}\leq m+a]=1, que se assemelha ao caso que analizamos acima (\Ber(1/2)1)(\Ber(1/2)\leq 1). Nesse caso, temos

P[X1++Xn(m+a)n]=P[Xi=m+a, para todo in]=P[X1=m+a]n.\begin{split}P\big{[}X_{1}+\dots+X_{n}\geq\big{(}m+a\big{)}n\big{]}&=P[X_{i}=m% +a,\text{ para todo $i\leq n$}]\\ &=P[X_{1}=m+a]^{n}.\end{split}

Donde o limite acima é igual a log(P[X1=m+a])\log(P[X_{1}=m+a]). Mas por outro lado,

ψX1(m+a)=infs0{log(E(\exs(X1)))(m+a)s}=infs0{log(E(\exs(X1ma)))}lim infslog(E(\exs(X1ma)))=log(P[X1=m+a]),\begin{split}-\psi_{X_{1}}(m+a)&=\inf_{s\geq 0}\big{\{}\log\big{(}E(\ex{s(X_{1% })})\big{)}-(m+a)s\big{\}}=\inf_{s\geq 0}\big{\{}\log\big{(}E(\ex{s(X_{1}-m-a)% })\big{)}\big{\}}\\ &\leq\liminf_{s\to\infty}\;\log\big{(}E(\ex{s(X_{1}-m-a)})\big{)}=\log\big{(}P% [X_{1}=m+a]\big{)},\end{split}

pelo Teorema da Convergência Dominada, demonstrando o teorema nesse caso especial.

Suponhamos agora que P[X1>m+a]>0P[X_{1}>m+a]>0, o que implica que para b>m+ab>m+a suficientemente próximo de m+am+a, temos P[X1>b]>0P[X_{1}>b]>0. Observe que basta mostrar que para todo b>ab>a satisfazendo P[X1>b]>0P[X_{1}>b]>0 e para todo δ>0\delta>0, temos

lim infn1nlog(P[X1++Xnn(bδ,b+δ)])ψX1(b),\liminf_{n}\frac{1}{n}\log\Big{(}P\Big{[}\frac{X_{1}+\dots+X_{n}}{n}\in(b-% \delta,b+\delta)\Big{]}\Big{)}\geq-\psi_{X_{1}}(b), (3.86)

pois a função ψX1(x)\psi_{X_{1}}(x) é convexa, portanto contínua.

Vamos definir uma nova distribuição ν\nu com derivada de Radon-Nikodim

νPX1=1Zσ\exσx.\frac{\d{\nu}}{\d{P}_{X_{1}}}=\frac{1}{Z_{\sigma}}\ex{\sigma x}. (3.87)

Observamos primeiramente que o valor de σ\sigma ainda não foi escolhido. Além disso após escolhido σ\sigma, teremos que calcular a constante de normalização ZσZ_{\sigma} de forma que ν\nu seja uma probabilidade.

Escolheremos σ0\sigma\geq 0 como no Lema 3.7, isto é, tal que ψX1(b)=bσlog(ϕX1(σ))\psi_{X_{1}}(b)=b\sigma-\log\big{(}\phi_{X_{1}}(\sigma)\big{)}. Isso nos dá imediatamente que Zσ=E[\exσX1]=ϕX1(σ)Z_{\sigma}=E[\ex{\sigma X_{1}}]=\phi_{X_{1}}(\sigma) por definição.

Por diferenciabilidade de ϕX1\phi_{X_{1}}, o máximo deve ser assumido em um ponto de derivada zero para a função ψX1\psi_{X_{1}}, ou seja

b=ϕX1(σ)ϕX1(σ)=Prop. 3.6E(X\exσX)E(\exσX)=E(X\exσX)Zσ=xν(x).b=\frac{\phi_{X_{1}}^{\prime}(\sigma)}{\phi_{X_{1}}(\sigma)}\overset{\text{% Prop.\leavevmode\nobreak\ \ref{p:propried_phi}}}{=}\frac{E(X\ex{\sigma X})}{E(% \ex{\sigma X})}=\frac{E(X\ex{\sigma X})}{Z_{\sigma}}=\int x\nu(\d{x}). (3.88)

Isso implica que se uma variável aleatória tem distribuição ν\nu, sua esperança é bb. É possível verificar que uma tal variável aleatória XX^{\prime} satisfaz obrigatoriamente ϕX(s)<\phi_{X^{\prime}}(s)<\infty para todo s0s\geq 0, donde XpX^{\prime}\in\mathcal{L}^{p} para todo p>1p>1.

Como prometido, consideramos variáveis X1,X2,X_{1}^{\prime},X_{2}^{\prime},\dots \iidcom distribuição ν\nu. Pela lei fraca dos grandes números, para qualquer δ>0\delta>0,

limnP[X1++Xnn(bδ,b+δ)]=1.\lim_{n}P\Big{[}\frac{X_{1}^{\prime}+\dots+X_{n}^{\prime}}{n}\in(b-\delta,b+% \delta)\Big{]}=1. (3.89)

Finalmente vamos relacionar essa probabilidade à probabilidade definida em termos de XiX_{i}, na qual estamos interessados.

P[X1++Xnn(bδ,b+δ)]=xi;|1ninxib|<δi=1n(X1P)(xi)=Zσnxi;|1ninxib|<δ\exσi=1nxii=1n(X1P)(xi)Zσnexp{(b+δ)σn}P[X1++Xnn(bδ,b+δ)].\begin{split}P\Big{[}&\frac{X_{1}+\dots+X_{n}}{n}\in(b-\delta,b+\delta)\Big{]}% =\int_{x_{i};\big{|}\tfrac{1}{n}\sum_{i\leq n}x_{i}-b\big{|}<\delta}\;\;% \bigotimes_{i=1}^{n}(X_{1}\circ P)(\d{x}_{i})\\ &=Z_{\sigma}^{n}\int_{x_{i};\big{|}\tfrac{1}{n}\sum_{i\leq n}x_{i}-b\big{|}<% \delta}\;\;\ex{-\sigma\textstyle{\sum_{i=1}^{n}x_{i}}}\bigotimes_{i=1}^{n}(X_{% 1}^{\prime}\circ P)(\d{x}_{i})\\[5.69054pt] &\geq Z_{\sigma}^{n}\exp\{-(b+\delta)\sigma n\}P\Big{[}\frac{X_{1}^{\prime}+% \dots+X_{n}^{\prime}}{n}\in(b-\delta,b+\delta)\Big{]}.\end{split}

Tomando o logarítmo, dividindo por nn e tomando o liminf quando nn vai a infinito, recuperamos

limn1nlog(P[X1++Xnn(bδ,b+δ)])log(Zσ)(b+δ)σ=log(ϕX1(σ))(b+δ)σ=ψX1(σ)δσ.\begin{split}\lim_{n}\frac{1}{n}\log\Big{(}P\Big{[}&\frac{X_{1}+\dots+X_{n}}{n% }\in(b-\delta,b+\delta)\Big{]}\Big{)}\geq\log(Z_{\sigma})-(b+\delta)\sigma\\ &=\log(\phi_{X_{1}}(\sigma))-(b+\delta)\sigma=-\psi_{X_{1}}(\sigma)-\delta% \sigma.\end{split} (3.90)

Como isso vale para todo δ>0\delta>0, provamos (3.86) o que conclui a prova do teorema. ∎

{exercise}

Mostre o Teorema 3.1 no caso em que ϕX1(s)<\phi_{X_{1}}(s)<\infty, para todo s(δ,δ)s\in(-\delta,\delta).