3.8 O Teorema Central do Limite

Até o presente momento, já sabemos por exemplo que médias de variáveis aleatórias \iid, suficientemente regulares convergem para sua esperança quase certamente. Vamos fazer contudo um experimento para visualizar esse fenômeno.

Nesse experimento, jogamos 100100 moedas e contamos quantas caras obtivemos. Pelo que discutimos anteriormente, esperamos que esse número se encontre por volta de 5050, que é a esperança desta soma de variáveis \iid. Vamos portanto repetir esse experimento mil vezes e observar quantas vezes obtemos algo próximo de 5050, veja Figura 3.2.

10102020303040405050606070705050100100150150200200250250300300
Figura 3.2: Vários ensaios de uma variável \Bin(100,0.5)\Bin(100,0.5), pra ser mais preciso 10001000 ensaios. Cada barra representa o número de ensaios que caíram no intervalo determinado pela base da barra. Note que apesar dos experimentos se concentrarem em torno da média, alguns se afastam um pouco (obviamente pois o experimento é aleatório). Nessa seção estudaremos esses desvios espontâneos, que são chamados de flutuaçãoes.

Nosso objetivo nessa seção será obter qual é o tamanho típico das flutuações em torno da média dessa soma de variáveis aleatórias. Ao contrário do que fizemos ao estudar Grandes Desvios, nós agora estamos buscando flutuações menores, que acontecem espontaneamente e não com baixa probabilidade.

Note também que apesar de observarmos uma aleatoriedade na Figura 3.2, também notamos uma certa regularidade que muitas vezes é chamada de ’forma de sino’ no histograma apresentado.

3.8.1 A distribuição normal

Começaremos estudando qual poderia ser uma possível forma limite para o histograma da Figura 3.2.

Como uma primeira tentativa, suponha que i=1Zi\sum_{i=1}^{\infty}Z_{i} possui uma certa distribuição μ\mu (veremos posteriormente que isso somente pode acontecer em casos triviais). Mas se esse fosse o caso, poderíamos dividir a soma nos termos pares e ímpares X=i parZiX=\sum_{i\text{ par}}Z_{i} e Y=i ímparZiY=\sum_{i\text{ \'{\i}mpar}}Z_{i}. Nesse caso teríamos XX e YY independentes e também distribuídos como μ\mu (pois são dados por uma soma que tem a mesma distribuição daquela que define μ\mu).

O seguinte lema mostra que isso somente pode acontecer na situação trivial em que μ=δ0\mu=\delta_{0}.

{lemma}

Sejam XX e YY variáveis aleatórias em 2\mathcal{L}^{2}, \iidcom distribuição μ\mu. Nesse caso, se X+YX+Y também tem distribuição μ\mu, então μ=δ0\mu=\delta_{0}.

Demonstração.

Sabemos que

E(X+Y)=E(X)+E(Y)=2E(X) e\Var(X+Y)=\Var(X)+\Var(Y)=2\Var(X).\begin{split}E(X+Y)&=E(X)+E(Y)=2E(X)\text{ e}\\ \Var(X+Y)&=\Var(X)+\Var(Y)=2\Var(X).\end{split} (3.95)

Mas como X+YX+Y tem a mesma distribuição de XX, então E(X)=2E(X)E(X)=2E(X) e \Var(X)=2\Var(X)\Var(X)=2\Var(X), donde ambas são zero. Usando o método dos segundo momento, para todo a>0a>0,

P[|X|a]\Var(X)a2=0,P[|X|\geq a]\leq\frac{\Var(X)}{a^{2}}=0, (3.96)

terminando a prova de que X=0X=0 quase certamente. ∎

A intuição dessa prova é que quando somamos duas variáveis não determinísticas, a incerteza da soma (medida através da variância) tende a aumentar. Dessa forma não podemos obter a mesma distribuição após a soma.

Mas existe uma maneira simples de tornar esse problema interessante novamente. Digamos que XX e YY pertencem a 2\mathcal{L}^{2} e são i.i.d. Então

\Var(X+Y2)=2\Var(X2)=\Var(X).\Var\Big{(}\frac{X+Y}{\sqrt{2}}\Big{)}=2\Var\Big{(}\frac{X}{\sqrt{2}}\Big{)}=% \Var(X). (3.97)

Então podemos nos perguntar se

{question}

Existe alguma distribuição não trivial μ\mu em 2\mathcal{L}^{2} tal que, se XX e YY são independentes e distribuídas de acordo com μ\mu, temos

X+Y2\distrμ?\frac{X+Y}{\sqrt{2}}\distr\mu\;? (3.98)

Pelo menos sabemos agora que a variância não se altera através dessa operação.

Ou em outras palavras, queremos saber se existe algum ponto fixo para o operador Γ\Gamma que toma uma distribuição μ\mu em \mathbb{R} e retorna

Γ(μ)=(X1+X22)μμ.\Gamma(\mu)=\Big{(}\frac{X_{1}+X_{2}}{\sqrt{2}}\Big{)}\circ\mu\otimes\mu. (3.99)

Para tentar responder a essa questão, vamos estudar mais a fundo qual é a distribuição da soma de duas variáveis aleatórias independentes. Para isso, considere a distribuição (X,Y)P(X,Y)\circ P do par, que coincide com μμ\mu\otimes\mu, nos dando

P[X+Y2z]=μμ({(x,y);x+y2z}).P\Big{[}\frac{X+Y}{\sqrt{2}}\leq z\Big{]}=\mu\otimes\mu\big{(}\big{\{}(x,y);% \tfrac{x+y}{\sqrt{2}}\leq z\big{\}}\big{)}. (3.100)

Note também que a transformação linear (x,y)12(x+y,xy)(x,y)\mapsto\tfrac{1}{\sqrt{2}}\big{(}x+y,x-y\big{)} é uma rotação rígida em 2\mathbb{R}^{2}, o que nos motiva a propor a pergunta mais simples.

{question}

Existe alguma distribuição não trivial μ\mu em 2\mathcal{L}^{2} tal que, se XX e YY são independentes e distribuídas de acordo com μ\mu, a distribuição do par (X,Y)(X,Y) é invariante por rotações?

Ainda estamos numa busca não rigorosa de tal distribuição, então vamos supor algumas outras propriedades, como por exemplo que μ\mu seja absolutamente contínua com respeito a Lebesgue, isto é μ=f(x)x\d{\mu}=f(x)\d{x}. Nesse caso, já vimos que (X,Y)\distrf(x)f(y)xy(X,Y)\distr f(x)f(y)\d{x}\d{y} e no fundo estamos procurando uma função ff tal que

f(x)f(y)=h(x2+y2), para todo x,y e alguma h:++.f(x)f(y)=h(x^{2}+y^{2}),\text{ para todo $x,y\in\mathbb{R}$ e alguma $h:% \mathbb{R}_{+}\to\mathbb{R}_{+}$.} (3.101)

Para trasformar o produto f(x)f(y)f(x)f(y) em uma soma, definimos g=logfg=\log f e k=loghk=\log h e o que gostaríamos que acontecesse é g(x)+g(y)=k(x2+y2)g(x)+g(y)=k(x^{2}+y^{2}). Como ainda não estamos preocupados com unicidade de μ\mu e apenas com a existência, já podemos encontrar nossa resposta para nossa pergunta, escolhendo uma função quadrática, tal como g(x)=αx2βg(x)=\alpha x^{2}-\beta.

Mas temos ainda que cuidar para que f(x)=\exαx2βf(x)=\ex{\alpha x^{2}-\beta} seja uma densidade, ou seja fx=1\int f\d{x}=1. Para isso, precisamos que α\alpha seja negativo e, fixado α\alpha, o valor de β\beta já estará determinado por normalização. Tudo isso motiva finalmente a seguinte definição.

{definition}

Dizemos que XX tem distibuição normal canônica, se

X\distr12πexp{x2/2}x.X\distr\frac{1}{\sqrt{2\pi}}\exp\big{\{}-x^{2}/2\big{\}}\d{x}. (3.102)

Além disso, para mm\in\mathbb{R} e σ0\sigma\geq 0, dizemos que Y\distr𝒩(m,σ2)Y\distr\mathcal{N}(m,\sigma^{2}) se YY tem a mesma distribuição de σX+m\sigma X+m, onde XX tem distribuição normal canônica 𝒩(0,1)\mathcal{N}(0,1). Note que 𝒩(m,0)=δm\mathcal{N}(m,0)=\delta_{m}. Muitas vezes chamamos essa distribuição de gaussiana, obviamente em homenagem a Gauss.

Vamos rapidamente observar que a definição acima realmente descreve uma distribuição de probabilidade, ou seja que a integral dessa densidade é um. Para tanto, vamos usar um truque conhecido, que consiste em retornar ao plano. Obviamente,

(exp{x2/2}x)2=exp{(x2+y2)/2}xy=02π0exp{r2/2}rrθ=2s=r22π.\begin{split}\Big{(}\int\exp\big{\{}-x^{2}/2\big{\}}\d{x}\Big{)}^{2}&=\int\int% \exp\big{\{}-(x^{2}+y^{2})/2\big{\}}\d{x}\d{y}\\ &=\int_{0}^{2\pi}\int_{0}^{\infty}\exp\{-r^{2}/2\}r\d{r}\d{\theta}\overset{2s% \;=\;r^{2}}{=}2\pi.\end{split} (3.103)

Donde a constante em (3.102) está de fato correta.

{exercise}

Mostre que a distribuição 𝒩(m,σ2)\mathcal{N}(m,\sigma^{2}), tem densidade

1σ2π\ex(xm)2/(2σ2).\frac{1}{\sigma\sqrt{2\pi}}\ex{-(x-m)^{2}/(2\sigma^{2})}. (3.104)
{exercise}

Mostre que Y\distr𝒩(m,σ2)Y\distr\mathcal{N}(m,\sigma^{2}) tem esperança mm e variância σ2\sigma^{2}.

Para confirmar que de fato as distribuições normais se comportam bem com respeito a somas independentes, apresentamos o seguinte resultado.

{proposition}

Se X\distr𝒩(m,σ2)X\distr\mathcal{N}(m,\sigma^{2}) e Y\distr𝒩(m¯,σ¯2)Y\distr\mathcal{N}(\bar{m},\bar{\sigma}^{2}) são independentes, então X+YX+Y tem distribuição 𝒩(m+m¯,σ2+σ¯2)\mathcal{N}(m+\bar{m},\sigma^{2}+\bar{\sigma}^{2}). Em particular, μ\mu é um ponto fixo do operador Γ\Gamma definido em (3.99).

Demonstração.

O caso em que σ\sigma ou σ¯\bar{\sigma} se anulam é trivial, portanto vamos considerar que ambas são positivas. Não é difícil ver que podemos também supor que m=m¯=0m=\bar{m}=0. Podemos então calcular

P[X+Ya]=P[σW+σ¯Za],P[X+Y\leq a]=P[\sigma W+\bar{\sigma}Z\leq a], (3.105)

onde WW e ZZ são independentes com distribuição 𝒩(0,1)\mathcal{N}(0,1). Assim, a probabilidade acima pode ser escrita como

𝒩(0,1)𝒩(0,1)({(w,z)2;σw+σ¯za}).\mathcal{N}(0,1)\otimes\mathcal{N}(0,1)\Big{(}\big{\{}(w,z)\in\mathbb{R}^{2};% \sigma w+\bar{\sigma}z\leq a\big{\}}\Big{)}. (3.106)

Agora aplicaremos a rotação rígida A:22A:\mathbb{R}^{2}\to\mathbb{R}^{2} dada por

A(w,z)=1σ2+σ¯2(σw+σ¯z,σ¯wσz).A(w,z)=\frac{1}{\sqrt{\sigma^{2}+\bar{\sigma}^{2}}}\big{(}\sigma w+\bar{\sigma% }z,\bar{\sigma}w-\sigma z\big{)}. (3.107)

Como sabemos que a densidade ff de (W,Z)(W,Z) é invariante por AA, ou seja fA=ff\circ A=f, então podemos escrever (3.106) como

𝒩(0,1)𝒩(0,1)(A({(w,z)2;σw+σ¯za}))=𝒩(0,1)𝒩(0,1)({(w,z);1σ2+σ¯2wa})=𝒩(0,1)((,aσ2+σ¯2])=𝒩(0,σ2+σ¯2)((,a]),\begin{split}\mathcal{N}(0,1)&\otimes\mathcal{N}(0,1)\Big{(}A\big{(}\big{\{}(w% ,z)\in\mathbb{R}^{2};\sigma w+\bar{\sigma}z\leq a\big{\}}\big{)}\Big{)}\\ &=\mathcal{N}(0,1)\otimes\mathcal{N}(0,1)\Big{(}\Big{\{}(w,z);\frac{1}{\sqrt{% \sigma^{2}+\bar{\sigma}^{2}}}w\leq a\Big{\}}\Big{)}\\ &=\mathcal{N}(0,1)\big{(}(-\infty,a\sqrt{\sigma^{2}+\bar{\sigma}^{2}}\big{]}% \big{)}=\mathcal{N}(0,\sigma^{2}+\bar{\sigma}^{2})\big{(}(-\infty,a\big{]}\big% {)},\end{split}

terminando a prova da proposição. ∎

Podemos obter um corolário interessante sobre a soma de normais i.i.d. {corollary} Sejam X1,X2,X_{1},X_{2},\dots variáveis \iidcom distribuição 𝒩(m,σ2)\mathcal{N}(m,\sigma^{2}), então

X1++Xn\distr𝒩(nm,nσ2).X_{1}+\dots+X_{n}\distr\mathcal{N}(nm,n\sigma^{2}). (3.108)

Como consequência

i=1nXinE(X1)σn\distr𝒩(0,1).\frac{\sum_{i=1}^{n}X_{i}-nE(X_{1})}{\sigma\sqrt{n}}\distr\mathcal{N}(0,1). (3.109)

Lembrando da Lei dos Grandes Números, se dividimos a soma dos XiE(Xi)X_{i}-E(X_{i}) por nn, essa fração vai a zero quase certamente. O que concluímos acima é que ao dividir por n\sqrt{n} obtemos um limite não trivial (nem zero, nem infinito) e aleatório (não determinístico).

Mais uma observação curiosa: nossa motivação para a definição da distribuição normal passou por invariância por rotações e podemos extender essa invariância para nn normais independentes. Note que somar as coordenadas canônicas é equivalente a tomar o produdo escalar com o vetor (1,1,,1)(1,1,\dots,1), que tem norma euclideana n\sqrt{n}.

Uma outra maneira de entender o corolário acima é que a normal é um ponto fixo da operação seguinte

  1.  a)

    tome uma distribuição μ2\mu\in\mathcal{L}^{2},

  2.  b)

    considere X1,,XnX_{1},\dots,X_{n} \iidcom distribuição μ\mu e

  3.  c)

    retorne a distribuição de

    X1++XnnE(X1)n.\frac{X_{1}+\dots+X_{n}-nE(X_{1})}{\sqrt{n}}. (3.110)

Na Questão 3.8.1, nos perguntamos quais seriam os outros possíveis pontos fixos de Γ\Gamma e isso será considerado depois. Mas uma outra questão bastante importante é se o ponto fixo 𝒩(0,1)\mathcal{N}(0,1) é atrator, ou seja se começando com outras distribuições poderíamos nos aproximar de 𝒩(0,1)\mathcal{N}(0,1) à medida que iteramos Γ\Gamma.

Isso é estudado no Teorema Central do Limite (TCL) que provaremos posteriormente. Mas antes, precisamos desenvolver uma boa definição de convergência para distribuições, ou em outras palavras definir uma topologia. Esse será o nosso próximo tópico.

3.8.2 Convergência fraca

Em muitos casos é importante termos bem definida uma noção de convergência de medidas de probabilidade. Supondo por exemplo no espaço mensurável (E,𝒜)(E,\mathcal{A}), tenhamos uma sequência de probabilidades μn\mu_{n} e gostaríamos de saber se ela converge a uma determinada μ\mu.

Um candidato natural para dara sentido a essa convergência poderia se a distância de variação total entre duas medidas

d\VT(μ,ν)=supA𝒜|μ(A)ν(A)|.d_{\VT}(\mu,\nu)=\sup_{A\in\mathcal{A}}|\mu(A)-\nu(A)|. (3.111)

Não é difícil mostrar que a definição acima induz uma métrica, mas ela possui alguns problemas que descreveremos a seguir.

{exercise}

Mostre que d\VTd_{\VT} define uma métrica.

{exercise}

Sejam μ\mu e ν\nu absolutamente contínuas com respeito a uma medida fixa η\eta, tendo densidades ρ\rho e π\pi respectivamente. Encontre uma fórmula para d\VT(μ,ν)d_{\VT}(\mu,\nu) em termos das densidades. Essa fórmula nos remete a qual distância entre funções?

Digamos que o espaço amostral EE já seja provido de uma métrica dd e 𝒜\mathcal{A} seja a σ\sigma-álgebra dos borelianos em EE. Qualquer que seja a noção de convergência que iremos considerar, gostaríamos de dizer que δxn\delta_{x_{n}} converge a δx\delta_{x} sempre que xnxx_{n}\to x em EE. Esse porém não é o caso para d\VTd_{\VT}, pois se xnxx_{n}\neq x para todo nn e {x}𝒜\{x\}\in\mathcal{A}, teríamos

d\VT(δxn,δx)|δxn({x})δx({x})|=|01|=1.d_{\VT}(\delta_{x_{n}},\delta_{x})\geq|\delta_{x_{n}}(\{x\})-\delta_{x}(\{x\})% |=|0-1|=1. (3.112)

Aqueles que já viram o conceito de convergência fraca acharão natural que a convergência de μn\mu_{n} para μ\mu seja definida em termos da convergência das integrais fμn\int f\d{\mu}_{n} para fμ\int f\d{\mu}. Porém, como mencionamos no exemplo das medidas δxn\delta_{x_{n}} acima, gostaríamos também de a convergência respeitasse a topologia original do espaço EE, o que torna natural o seguinte conceito.

{definition}

Dizemos que uma sequência de medidas de probabilidade μn\mu_{n} converge fracamente (ou converge em distribuição) para uma probabilidade μ\mu se

limnfμn=fμ, para toda f:E contínua e limitada.\lim_{n\to\infty}\int f\d{\mu}_{n}=\int f\d{\mu},\text{ para toda $f:E\to% \mathbb{R}$ cont\'{\i}nua e limitada.} (3.113)

Essa convergência muitas vezes é denotada por μnμ\mu_{n}\Rightarrow\mu.

Essa definição fica ainda mais natural para aqueles que conhecem o Teorema da Representação de Riesz. Com isso em mente, podemos relacionar a convergência em distribuição com a convergência fraca-\star no espaço de medidas finitas.

{exercise}

Mostre que em (,())(\mathbb{R},\mathcal{B}(\mathbb{R})), temos que 1ni=1nδi/nU[0,1]\tfrac{1}{n}\sum_{i=1}^{n}\delta_{i/n}\Rightarrow U_{[0,1]}.

{exercise}

Considere a função ϕ\phi do espaço de medidas em ([0,1],([0,1]))([0,1],\mathcal{B}([0,1])) nele mesmo, dada por:

ϕ(μ)(A)=12(μ(3A)+μ(3A2)).\phi(\mu)(A)=\tfrac{1}{2}\big{(}\mu(3A)+\mu(3A-2)\big{)}. (3.114)

Identifique o limite em distribuição de ϕ(n)(δ0)\phi^{(n)}(\delta_{0}). Mostre que

  1.  a)

    a função de distribuição acumulada associada ao limite é contínua,

  2.  b)

    o limite não é absolutamente contínuo com respeito à medida de Lebesgue.

{exercise}

Sejam X1,X2,X_{1},X_{2},\dots i.i.d. distribuidas como Exp(1)\text{Exp}(1) e defina

Mn=maxi=1,,nXi.M_{n}=\max_{i=1,\dots,n}X_{i}. (3.115)

Mostre que Mnlog(n)M_{n}-\log(n) converge fracamente e identifique o limite. Observe que não precisamos dividir Mnlog(n)M_{n}-\log(n) por nada para obter a convergência.

Nós algumas vezes denotamos XnXX_{n}\Rightarrow X quando XnX_{n} e XX são elementos aleatórios de (Ω,,P)(\Omega,\mathcal{F},P) para descrever a convergência fraca de suas respectivas distribuições. Mais precisamente, XnPXPX_{n}\circ P\Rightarrow X\circ P.

3.8.3 Convergência fraca em \mathbb{R}

No caso especial em que E=E=\mathbb{R}, temos vários outras maneiras de caracterizar convergência em distribuição. A primeira é dada pela seguinte

{proposition}

Se gμn\int g\d{\mu}_{n} converge para gμ\int g\d{\mu} para toda gC3g\in C^{3} limitada e com as três primeiras derivadas limitadas, então μnμ\mu_{n}\Rightarrow\mu.

Demonstração.

Primeiramente, vamos ver que podemos nos concentrar em um conjunto compacto da reta.

Para isso fixe um ε>0\varepsilon>0 e tome MM^{\prime} tal que μ([M,M])>1ε/3\mu\big{(}[-M^{\prime},M^{\prime}]\big{)}>1-\varepsilon/3. Tomando uma função gg satisfazendo as hipóteses do teorema e tal que

\1[M,M]g\1[M1,M+1],\1{[-M^{\prime},M^{\prime}]}\leq g\leq\1{[-M^{\prime}-1,M^{\prime}+1]}, (3.116)

concluimos que

μn([M1,M+1])1ε/2,\mu_{n}\big{(}[-M^{\prime}-1,M^{\prime}+1]\big{)}\geq 1-\varepsilon/2, (3.117)

para todo nn suficientemente grande. Se tomamos MMM\geq M^{\prime} suficientemente grande, podemos obter a cota acima para todo nn (com MM no lugar de M+1M^{\prime}+1 e ε\varepsilon no lugar de ε/2\varepsilon/2).

Fixamos agora uma f:f:\mathbb{R}\to\mathbb{R} contínua e limitada. Sabemos que é possível aproximar ff por uma função gC3g\in C^{3} de suporte compacto, com g2f\lVert g\rVert_{\infty}\leq 2\lVert f\rVert_{\infty} e |gf|ε/M|g-f|\leq\varepsilon/M uniformemente no intervalo [M,M][-M,M]. Essa gg certamente satisfaz as hipóteses do teorema.

Portanto,

|fμnfμ|2εf+|MMfμnMMfμ|2εf+εM2M+|MMgμnMMgμ|2εf+2ε+|gμnμ|.\begin{split}\Big{|}\int f\d{\mu}_{n}-\int f\d{\mu}\Big{|}&\leq 2\varepsilon% \lVert f\rVert_{\infty}+\Big{|}\int_{-M}^{M}f\d{\mu}_{n}-\int_{-M}^{M}f\d{\mu}% \Big{|}\\ &\leq 2\varepsilon\lVert f\rVert_{\infty}+\frac{\varepsilon}{M}2M+\Big{|}\int_% {-M}^{M}g\d{\mu}_{n}-\int_{-M}^{M}g\d{\mu}\Big{|}\\ &\leq 2\varepsilon\lVert f\rVert_{\infty}+2\varepsilon+\Big{|}\int g\d{\mu}_{n% }-\int\d{\mu}\Big{|}.\end{split}

Como o último termo converge a zero e ε\varepsilon foi escolhido arbitrariamente, isso conclui a prova da proposição. ∎

3.8.4 O TCL para uma sequência i.i.d.

{theorem}

[Teorema Central do Limite] Considere em (Ω,,P)(\Omega,\mathcal{F},P), uma sequência X1,X2,X_{1},X_{2},\dots de variáveis aleatórias \iidem 3\mathcal{L}^{3}. Nesse caso, se definimos m=E(X1)m=E(X_{1}) e σ2=\Var(X1)\sigma^{2}=\Var(X_{1}), temos

i=1n(Xim)σn𝒩(0,1).\frac{\sum_{i=1}^{n}(X_{i}-m)}{\sigma\sqrt{n}}\Rightarrow\mathcal{N}(0,1). (3.118)
Demonstração.

Primeiramente, observe que podemos supor que m=0m=0, pois de qualquer forma iremos subtrair a média da distribuição na qual nos interessamos. Uma outra observação importante é que podemos supor σ=1\sigma=1, pois no caso geral de qualquer forma estamos somando Xi/σX_{i}/\sigma no enunciado.

Como vimos na Proposição 3.8.3, basta mostrar a convergência das integrais de funções gC3g\in C^{3}, que possuam todas as três primeiras derivadas limitadas. Considerando a função

ϕn(x1,,xn):=g(x1++xnn),\phi^{n}(x_{1},\dots,x_{n}):=g\Big{(}\frac{x_{1}+\dots+x_{n}}{\sqrt{n}}\Big{)}, (3.119)

nos basta provar a convergência das sequências de números reais

limnϕn(X1,,Xn)P=g(s)𝒩(0,1)(s).\lim_{n}\int\phi^{n}(X_{1},\dots,X_{n})\d{P}=\int g(s)\mathcal{N}(0,1)(\d{s}). (3.120)

Vale lembrar que no Corolário 3.8.1 já estabelecemos algo mais forte para variáveis normais. Mais precisamente, suponha que extendemos nosso espaço de probabilidade para (Ω,,P)(\Omega^{\prime},\mathcal{F}^{\prime},P^{\prime}), onde exista uma sequência Y1,Y2,Y_{1},Y_{2},\dots de variáveis aleatórias \iidcom distribuição 𝒩(0,1)\mathcal{N}(0,1) independente de X1,X2,X_{1},X_{2},\dots Então, para todo n1n\geq 1,

ϕn(Y1,,Yn)P=g(s)𝒩(0,1)(s),\int\phi^{n}(Y_{1},\dots,Y_{n})\d{P}^{\prime}=\int g(s)\mathcal{N}(0,1)(\d{s}), (3.121)

o que tornaria o limite em (3.120) trivial para tais variáveis. A nossa estratégia será aproximar ϕn(X1,,Xn)\phi^{n}(X_{1},\dots,X_{n}) por ϕ(Y1,,Yn)\phi(Y_{1},\dots,Y_{n}), e faremos isso trocando uma variável de cada vez.

Para entender o que acontece quando trocamos uma das variáveis XiX_{i} por YiY_{i}, temos que expandir gg em série de potências, isto é, escrever

g(s)=g(s0)+g(s0)(ss0)+g′′(so)(ss0)2/2+rs0(ss0),g(s)=g(s_{0})+g^{\prime}(s_{0})(s-s_{0})+g^{\prime\prime}(s_{o})(s-s_{0})^{2}/% 2+r_{s_{0}}(s-s_{0}), (3.122)

onde rs0(h)/h3r_{s_{0}}(h)/h^{3} é limitada por MM, uniformemente em hh e s0s_{0} em consequência das nossas suposições sobre gg.

Denotando zi=(y1,,yi1,xi,xn)z_{i}=(y_{1},\dots,y_{i-1},x_{i},\dots x_{n}), zio:=(y1,,yn1,0,xn+1,,xn)z_{i}^{o}:=(y_{1},\dots,y_{n-1},0,x_{n+1},\dots,x_{n}) e sio=y1++yn1+xn+1+xns_{i}^{o}=y_{1}+\dots+y_{n-1}+x_{n+1}+\dots x_{n}, temos

ϕn(zi)=ϕn(zio)+g(sion)xin+g′′(sion)xi22n+rsion(xin),\phi^{n}(z_{i})=\phi^{n}(z_{i}^{o})+g^{\prime}\Big{(}\frac{s_{i}^{o}}{\sqrt{n}% }\Big{)}\frac{x_{i}}{\sqrt{n}}+g^{\prime\prime}\Big{(}\frac{s_{i}^{o}}{\sqrt{n% }}\Big{)}\frac{x_{i}^{2}}{2n}+r_{\frac{s_{i}^{o}}{\sqrt{n}}}\Big{(}\frac{x_{i}% }{\sqrt{n}}\Big{)}, (3.123)

Nós propositalmente expandimos ϕn\phi^{n} até ordem dois, pois XiX_{i} e YiY_{i} possuem os mesmos momentos de ordem um (m=0m=0) e dois (σ2=1\sigma^{2}=1).

Integrando os dois lados da igualdade acima com respeito a ZiPZ_{i}\circ P (denotamos como antes, Zi=(Y1,,Yi1,Xi,,Xn)Z_{i}=(Y_{1},\dots,Y_{i-1},X_{i},\dots,X_{n}) e ZioZ_{i}^{o}, SioS_{i}^{o} analogamente), teremos

ϕn(Zi)P=ϕn(Zio)P+12nvi+ki,\int\phi^{n}(Z_{i})\d{P}^{\prime}=\int\phi^{n}(Z_{i}^{o})\d{P}^{\prime}+\frac{% 1}{2n}v_{i}+k_{i}, (3.124)

onde as quantidades vv e kk, se escrevem como

vi=g′′(Sion)P e ki=rSio/n(Xin)P.v_{i}=\int g^{\prime\prime}\Big{(}\frac{S_{i}^{o}}{\sqrt{n}}\Big{)}\d{P}^{% \prime}\quad\text{ e }\quad k_{i}=\int r_{S_{i}^{o}/\sqrt{n}}\Big{(}\frac{X_{i% }}{\sqrt{n}}\Big{)}\d{P}^{\prime}. (3.125)

Note que viv_{i} não depende de XiX_{i} e que

|ki||(Xi3n3/2)(n3/2Xi3)rSio/n(Xin)P|Mn3/2E(|Xi3|).|k_{i}|\leq\Big{|}\int\Big{(}\frac{X_{i}^{3}}{n^{3/2}}\Big{)}\Big{(}\frac{n^{3% /2}}{X_{i}^{3}}\Big{)}r_{S_{i}^{o}/\sqrt{n}}\Big{(}\frac{X_{i}}{\sqrt{n}}\Big{% )}\d{P}^{\prime}\Big{|}\leq\frac{M}{n^{3/2}}E(|X_{i}^{3}|). (3.126)

As observações acima são o ponto mais importante da prova de que essa aproximação funciona e uma outra maneira de colocá-las é a seguinte. Como XiX_{i} e YiY_{i} possuem os dois primeiros momentos iguais, os dois primeiros termos de Taylor coincidem após a integração (o primeiro se anula e o segundo é viv_{i} tanto para XiX_{i} quanto para YiY_{i}). O resto é de ordem muito pequena para influir no limite.

De fato, se retiramos o termo YiY_{i} de Zi+1Z_{i+1}, fazendo a mesma expansão que para XiX_{i}, obtemos

ϕn(Zi+1)P=ϕn(Zio)P+12nvi+ki,\int\phi^{n}(Z_{i+1})\d{P}^{\prime}=\int\phi^{n}(Z_{i}^{o})\d{P}^{\prime}+% \frac{1}{2n}v_{i}+k^{\prime}_{i}, (3.127)

com o termo de ordem superior kik^{\prime}_{i} sendo definido exatamente como kik_{i}, mas com YiY_{i} no lugar de XiX_{i}.

Estamos prontos agora para a computação final

|ϕn(X1,,Xn)Pg(s)𝒩(0,1)(s)|=|ϕn(Z0)Pϕn(Zn)P|i=0n1|ϕn(Zi)Pϕn(Zi+1)P|=i=0n1|kiki|nMn3/2(E(|X1|3)+E(|Y1|3)),\begin{split}\Big{|}\int\phi^{n}&(X_{1},\dots,X_{n})\d{P}-\int g(s)\mathcal{N}% (0,1)(\d{s})\Big{|}\\ &=\Big{|}\int\phi^{n}(Z_{0})\d{P}^{\prime}-\int\phi^{n}(Z_{n})\d{P}^{\prime}% \Big{|}\\ &\leq\sum_{i=0}^{n-1}\Big{|}\int\phi^{n}(Z_{i})\d{P}^{\prime}-\int\phi^{n}(Z_{% i+1})\d{P}^{\prime}\Big{|}=\sum_{i=0}^{n-1}|k_{i}-k^{\prime}_{i}|\\ &\leq n\frac{M}{n^{3/2}}\big{(}E(|X_{1}|^{3})+E(|Y_{1}|^{3})\big{)},\end{split}

que claramente converge a zero, provando o teorema. ∎

{corollary}

A 𝒩(0,1)\mathcal{N}(0,1) é a única distribuição μ\mu que possui esperança zero, variância 11 e é tal que se X,YX,Y são \iidcom distribuição μ\mu, então (X+Y)/2(X+Y)/\sqrt{2} também possuem distribuição μ\mu. Em outras palavras, 𝒩(0,σ2)\mathcal{N}(0,\sigma^{2}), para σ0\sigma\geq 0, são os únicos pontos fixos de Γ\Gamma em 3\mathcal{L}^{3}.

Demonstração.

Usando a invariância enunciada acima, temos que

X1++X2k2k\distrμ.\frac{X_{1}+\dots+X_{2^{k}}}{\sqrt{2^{k}}}\distr\mu. (3.128)

Mas pelo Teorema central do limite, a distribuição dessa combinação de XiX_{i} deve convergir a 𝒩(0,1)\mathcal{N}(0,1), logo temos μ=𝒩(0,1)\mu=\mathcal{N}(0,1). ∎

Vamos terminar essa seção com uma aplicação do teorema acima.

{exercise}

Digamos que jogamos 100100 moedas honestas e independentes, como foi proposto no início da seção, obtendo finalmente uma variável aleatória Y\distr\Bin(100,1/2)Y\distr\Bin(100,1/2). Usando o O TCL para uma sequência i.i.d., estime P[Y55]P[Y\geq 55] usando uma aproximação por uma 𝒩(0,1)\mathcal{N}(0,1). Calcule numericamente o valor real desta probabilidade e compare ambas as estimativas.

55todo: 5 falar de Tao Vu, se os momentos batem a distrib de auto-val é proxima + funcao zeta.
\todosec

Tópico: Mecânica estatística do gás idealMostrar a equivalência de ensembles.

\todosec

Tópico: Funções características???funcoes caracteristicas e tomografia…