Tópico: Lei dos pequenos números

Nessa seção estudaremos como se comportam limites de algumas variáveis aleatórias bastante importantes, mas primeiramente, uma breve intuição.

Apesar de que descreveremos a nossa motivação a partir desse exemplo do estudo de um material radioativo, podemos encontrar aplicações com justificativas bastante semelhantes para outros problemas, como: chegada de carros em um sinal de trânsito, número de mutações em um gene, número de mortes por ano em uma faixa etária…

Digamos que estamos observando um material radioativo que esporadicamente emite fótons que podemos detectar através de um aparelho. A razão dessas emissões pode ser aproximada pelo seguinte modelo. Na amostra temos um número nn grande de átomos instáveis (n1023n\sim 10^{23}) e em um determinado tempo de observação, cada um deles tem probabilidade muito baixa de decair emitindo um fóton (digamos p1023p\sim 10^{-23}). Nesse caso, supondo que todos decidam emitir de maneira independente, temos para p[0,1]p\in[0,1],

Ωn={0,1}n,n=𝒫(Ω)ePp=i=1nBer(p).\Omega_{n}=\{0,1\}^{n},\quad\mathcal{F}_{n}=\mathcal{P}(\Omega)\quad\text{e}% \quad P_{p}=\otimes_{i=1}^{n}Ber(p). (2.30)

Dessa forma, o número total de emissões observadas para ω=(ω1,,ωn)Ω\omega=(\omega_{1},\dots,\omega_{n})\in\Omega é

Xn(ω)=i=1nωi.X_{n}(\omega)=\sum_{i=1}^{n}\omega_{i}. (2.31)

E gostaríamos de entender como se comporta essa distribuição, que nada mais é que \Bin(n,p)\Bin(n,p).

Uma primeira tentativa seria modelar esse processo dizendo que o número de átomos nn é tão grande, que somente estamos interessados no comportamento assintótico quando nn vai para infinito. Mas para manter o número de emissões sob controle, também gostaríamos que p=pnp=p_{n}, que converge a zero. Poderíamos por exemplo escolher

pn=λn.p_{n}=\frac{\lambda}{n}. (2.32)

Mas a discussão que se segue é muito mais geral que essa escolha específica.

Como estaremos interessados em um regime assintótico da distribuição de XpX_{p} (lembre que apesar do espaço amostral de XnX_{n} variar com nn, sua distribuição é sempre uma probabilidade em \mathbb{N}), precisamos de definir uma noção de distância entre duas distribuições em \mathbb{N}.

{definition}

Dadas duas distribuições μ1\mu_{1} e μ2\mu_{2} em (Ω,𝒜)(\Omega,\mathcal{A}), definimos

μ1μ2\VT=supA𝒜|μ1(A)μ2(A)|,\lVert\mu_{1}-\mu_{2}\rVert_{\VT}=\sup_{A\in\mathcal{A}}|\mu_{1}(A)-\mu_{2}(A)|, (2.33)

chamada de distância em variação total entre μ1\mu_{1} e μ2\mu_{2}.

No nosso caso, Ω\Omega é enumerável. Vamos ver que nesse caso é possível reescrever a definição acima de modo a ver mais facilmente que se trata de uma distância no espaço de probabilidades em Ω\Omega.

{lemma}

Se Ω\Omega for finito ou enumerável, então podemos escrever

μ1μ2\VT=12xΩ|μ1(x)μ2(x)|.\lVert\mu_{1}-\mu_{2}\rVert_{\VT}=\frac{1}{2}\sum_{x\in\Omega}|\mu_{1}(x)-\mu_% {2}(x)|. (2.34)
Demonstração.

Para mostrar que o lado esquerdo é maior ou igual ao direito, escolhemos A={xΩ:μ2(x)μ1(x)}A=\{x\in\Omega\,:\,\mu_{2}(x)\leq\mu_{1}(x)\}. Assim

xAμ1(x)μ2(x)=|μ1(A)μ2(A)|=|μ1(Ac)μ2(Ac)|=xAcμ2(x)μ1(x),\begin{split}\sum_{x\in A}\mu_{1}(x)-\mu_{2}(x)&=|\mu_{1}(A)-\mu_{2}(A)|\\ &=|\mu_{1}(A^{c})-\mu_{2}(A^{c})|=\sum_{x\in A^{c}}\mu_{2}(x)-\mu_{1}(x),\end{split} (2.35)

donde

μ1μ2\VT|μ1(A)μ2(A)|=12i|μ1(xi)μ2(xi)|.\lVert\mu_{1}-\mu_{2}\rVert_{\VT}\geq|\mu_{1}(A)-\mu_{2}(A)|=\frac{1}{2}\sum_{% i}|\mu_{1}(x_{i})-\mu_{2}(x_{i})|. (2.36)

Na outra direção, observe que para todo BΩB\subseteq\Omega,

i|μ1(xi)μ2(xi)|xBμ1(x)μ2(x)+xBcμ2(x)μ1(x)=μ1(B)μ2(B)+(1μ2(B))(1μ1(B))=2(μ1(B)μ2(B)).\begin{split}\sum_{i}|\mu_{1}(x_{i})-\mu_{2}(x_{i})|&\geq\sum_{x\in B}\mu_{1}(% x)-\mu_{2}(x)+\sum_{x\in B^{c}}\mu_{2}(x)-\mu_{1}(x)\\ &=\mu_{1}(B)-\mu_{2}(B)+(1-\mu_{2}(B))-(1-\mu_{1}(B))\\ &=2(\mu_{1}(B)-\mu_{2}(B)).\end{split} (2.37)

O que termina a prova do lema. ∎

Fica agora claro que μ1μ2\VT\lVert\mu_{1}-\mu_{2}\rVert_{\VT} determina uma distância.

{exercise}

Mostre um lema análogo ao anterior para (Ω,𝒜)(\Omega,\mathcal{A}) qualquer, desde que μ1\mu_{1} e μ2\mu_{2} sejam absolutamente contínuas com relação à uma medida fixa nesse espaço mensurável. Nesse caso utilizaremos as derivadas de Radon–Nikodym.

Como estaremos interessados em variáveis independentes, precisamos de um resultado que relacione a distância em variação total com produtos de medida. Isso é parte do seguinte

{lemma}

Sejam μ1,μ2\mu_{1},\mu_{2} distribuições em Ω\Omega e ν1,ν2\nu_{1},\nu_{2} distribuições em Ω\Omega^{\prime} ambos enumeráveis. Então

μ1ν1μ2ν2\VTμ1μ2\VT+ν1ν2\VT.\lVert\mu_{1}\otimes\nu_{1}-\mu_{2}\otimes\nu_{2}\rVert_{\VT}\leq\lVert\mu_{1}% -\mu_{2}\rVert_{\VT}+\lVert\nu_{1}-\nu_{2}\rVert_{\VT}. (2.38)
Demonstração.

Basta expandir

2μ1ν1μ2ν2\VT=xΩ,yΩ|μ1(x)ν1(y)μ2(x)ν2(y)|xΩ,yΩ|μ1(x)ν1(y)μ1(x)ν2(y)|+|μ1(x)ν2(y)μ2(x)ν2(y)|2μ1μ2\VT+2ν1ν2\VT,\begin{split}2\lVert\mu_{1}&\otimes\nu_{1}-\mu_{2}\otimes\nu_{2}\rVert_{\VT}=% \sum_{x\in\Omega,y\in\Omega^{\prime}}|\mu_{1}(x)\nu_{1}(y)-\mu_{2}(x)\nu_{2}(y% )|\\ &\leq\sum_{x\in\Omega,y\in\Omega^{\prime}}|\mu_{1}(x)\nu_{1}(y)-\mu_{1}(x)\nu_% {2}(y)|+|\mu_{1}(x)\nu_{2}(y)-\mu_{2}(x)\nu_{2}(y)|\\ &\leq 2\lVert\mu_{1}-\mu_{2}\rVert_{\VT}+2\lVert\nu_{1}-\nu_{2}\rVert_{\VT},% \end{split} (2.39)

onde acima usamos que μ1\mu_{1} e ν2\nu_{2} são probabilidades. Isso termina a prova do lema. ∎

Finalmente, gostaríamos de entender como a distância de variação total se comporta com respeito à soma de variáveis independentes. Isso estará ligado à convolução de distribuições:

{definition}

Dadas, μ\mu e ν\nu distribuições em \mathbb{Z}, definimos a distribuição

(μν)(x):=yμ(xy)ν(y).(\mu\star\nu)(x):=\sum_{y\in\mathbb{Z}}\mu(x-y)\nu(y). (2.40)

Essa definição se relaciona com a soma de variáveis independentes graças ao seguinte {exercise} Se X𝑑μX\overset{d}{\sim}\mu e Y𝑑νY\overset{d}{\sim}\nu são variáveis aleatórias inteiras e independentes, então X+Y𝑑μνX+Y\overset{d}{\sim}\mu\star\nu. Dica: particione o espaço amostral nos eventos [X=j][X=j], para jj\in\mathbb{Z}, como na prova do Lema 2 abaixo.

{corollary}

Se μ\mu e ν\nu são distribuições em \mathbb{Z}, então μν=νμ\mu\star\nu=\nu\star\mu.

Como prometido, obtemos a seguinte relação entre a convolução e a distância de variação total. {lemma} Sejam μ\mu, ν\nu duas medidas em Ω\Omega enumerável e X:(Ω,𝒫(Ω))(E,𝒜)X:\ (\Omega,\mathcal{P}(\Omega))\to(E,\mathcal{A}) um elemento aleatorio

XμXν\VTμν\VT.\lVert X_{*}\mu-X_{*}\nu\rVert_{\VT}\leq\lVert\mu-\nu\rVert_{\VT}. (2.41)

Em particular se μ1,μ2,ν1,ν2\mu_{1},\mu_{2},\nu_{1},\nu_{2} são distribuições em \mathbb{Z}, então

μ1ν1μ2ν2\VTμ1ν1μ2ν2\VT\lVert\mu_{1}\star\nu_{1}-\mu_{2}\star\nu_{2}\rVert_{\VT}\leq\lVert\mu_{1}% \otimes\nu_{1}-\mu_{2}\otimes\nu_{2}\rVert_{\VT} (2.42)
Demonstração.

O segundo ponto segue do primeiro aplicado ao caso Ω=2\Omega=\mathbb{Z}^{2}, E=E=\mathbb{Z} e X:(x,y)(x+y)X:\ (x,y)\mapsto(x+y). Para o primeiro, observamos

2XμXν\VT=xX(Ω)|μ(X(ω)=x)ν(X(ω)=x)|=xX(Ω)|ωΩ:X(ω)=xμ(ω)ν(ω)|ωΩ|μ(ω)ν(ω)|=2μν\VT,\begin{split}2\lVert X_{*}\mu-X_{*}\nu\rVert_{\VT}&=\sum_{x\in X(\Omega)}\Big{% |}\mu(X(\omega)=x)-\nu(X(\omega)=x)\Big{|}\\ &=\sum_{x\in X(\Omega)}\Big{|}\sum_{\omega\in\Omega\ :\ X(\omega)=x}\mu(\omega% )-\nu(\omega)\Big{|}\\ &\leq\sum_{\omega\in\Omega}\big{|}\mu(\omega)-\nu(\omega)\big{|}\\ &=2\lVert\mu-\nu\rVert_{\VT},\end{split} (2.43)

provando o lema. ∎

Para enunciar o resultado principal dessa seção, vamos apresentar uma distribuição em \mathbb{N} bastane importante, que em particular se comporta muito bem com respeito a somas de variáveis independentes, como veremos.

{definition}

Uma variável aleatória XX é dita ter distribuição de Poisson com parâmetro λ\lambda, se

P[X=k]=λkeλk!, para k0 inteiro.P[X=k]=\frac{\lambda^{k}e^{-\lambda}}{k!},\text{ para $k\geq 0$ inteiro.} (2.44)

Denotamos isso por X𝑑\Poisson(λ)X\overset{d}{\sim}\Poisson(\lambda).

A distribuição de Poisson se comporta bem com respeito a somas independentes, como mostra o seguinte {lemma} Sejam X𝑑\Poisson(λ1)X\overset{d}{\sim}\Poisson(\lambda_{1}) e Y𝑑\Poisson(λ2)Y\overset{d}{\sim}\Poisson(\lambda_{2}) independentes, então X+Y𝑑\Poisson(λ1+λ2)X+Y\overset{d}{\sim}\Poisson(\lambda_{1}+\lambda_{2}).

Demonstração.

Basta calcular

P[X+Y=k]=j=0kP[X=j,Y=kj]=j=0kλ1jeλ1λ2kjeλ2j!(kj)!=e(λ1+λ2)1k!j=0kk!j!(kj)!λ1jλ2kj=e(λ1+λ2)(λ1+λ2)kk!,\begin{split}P[X+Y=k]&=\sum_{j=0}^{k}P[X=j,Y=k-j]=\sum_{j=0}^{k}\frac{\lambda_% {1}^{j}e^{-\lambda_{1}}\lambda_{2}^{k-j}e^{-\lambda_{2}}}{j!(k-j)!}\\ &=e^{-(\lambda_{1}+\lambda_{2})}\frac{1}{k!}\sum_{j=0}^{k}\frac{k!}{j!(k-j)!}% \lambda_{1}^{j}\lambda_{2}^{k-j}=\frac{e^{(\lambda_{1}+\lambda_{2})}(\lambda_{% 1}+\lambda_{2})^{k}}{k!},\end{split} (2.45)

mostrando o resultado. ∎

Nossa próxima tarefa é estimar a distância entre uma variável aleatória com distribuição \Ber(p)\Ber(p) e uma \Poisson(p)\Poisson(p), como segue.

{lemma}

Para p[0,1]p\in[0,1], seja μ1=\Ber(p)\mu_{1}=\Ber(p) e μ2=\Poisson(p)\mu_{2}=\Poisson(p), então,

μ1μ2\VTp2.\lVert\mu_{1}-\mu_{2}\rVert_{\VT}\leq p^{2}. (2.46)
Demonstração.

Sabemos que

μ1μ2\VT=12x|μ1(x)μ2(x)|=12(|μ1(0)μ2(0)|+|μ1(1)μ2(1)|+x2μ2(x))=12(ep(1p)+p(1ep)+(1eppep))=22p(1ep)p2,\begin{split}\lVert\mu_{1}-\mu_{2}\rVert_{\VT}&=\frac{1}{2}\sum_{x}|\mu_{1}(x)% -\mu_{2}(x)|\\ &=\frac{1}{2}\Big{(}|\mu_{1}(0)-\mu_{2}(0)|+|\mu_{1}(1)-\mu_{2}(1)|+\sum_{x% \geq 2}\mu_{2}(x)\Big{)}\\ &=\frac{1}{2}\Big{(}e^{-p}-(1-p)+p(1-e^{-p})+(1-e^{-p}-pe^{-p})\Big{)}\\ &=\frac{2}{2}p(1-e^{-p})\leq p^{2},\end{split} (2.47)

terminando a prova. ∎

O teorema principal de convergência dessa seção concerne a soma de variáveis Bernoulli.

{theorem}

[Lei dos Pequenos Números] Dado, n1n\geq 1 e p[0,1]p\in[0,1], suponha que Ωn\Omega_{n}, n\mathcal{F}_{n} e PpP_{p} sejam dados como em (2.30). Então,

\Bin(n,p)\Poisson(pn)\VTnp2.\lVert\Bin(n,p)-\Poisson(pn)\rVert_{\VT}\leq np^{2}. (2.48)
Demonstração.

Basta observar que

XnPp\Poisson(pn)\VT=Lema 2\Ber(p)n\Poisson(p)n\VTLema 2\Ber(p)n\Poisson(p)n\VTLema 2n\Ber(p)\Poisson(p)\VTLema 2np2,\begin{split}\lVert X_{n}\circ P_{p}-\Poisson(pn)\rVert_{\VT}&\overset{\text{% Lema\leavevmode\nobreak\ \ref{l:soma_poisson}}}{=}\lVert\Ber(p)^{\star n}-% \Poisson(p)^{\star n}\rVert_{\VT}\\ \overset{\text{Lema\leavevmode\nobreak\ \ref{l:vt_conv}}}{\leq}&\lVert\Ber(p)^% {\otimes n}-\Poisson(p)^{\otimes n}\rVert_{\VT}\\ \overset{\text{Lema\leavevmode\nobreak\ \ref{l:vt_produto}}}{\leq}&n\lVert\Ber% (p)-\Poisson(p)\rVert_{\VT}\overset{\text{Lema\leavevmode\nobreak\ \ref{l:vt_% ber_poiss}}}{\leq}np^{2},\end{split} (2.49)

provando o teorema. ∎

{corollary}

No mesmo contexto do teorema acima, se p=λ/np=\lambda/n, então temos

\Bin(n,p)\Poisson(pn)\VTλ2/n,\lVert\Bin(n,p)-\Poisson(pn)\rVert_{\VT}\leq\lambda^{2}/n, (2.50)

que converge a zero com nn. Veremos mais tarde que existem outros tipos de convergência.

{exercise}

Fixado λ>0\lambda>0, seja NN uma variável aleatória com distribuição Poisson(λ\lambda), isto é

P[N=k]=λkeλk! para k=0,1,P[N=k]=\frac{\lambda^{k}e^{-\lambda}}{k!}\text{ para $k=0,1,\dots$} (2.51)

Considere no mesmo espaço de probabilidade uma sequência de variáveis aleatórias X1,X2,X_{1},X_{2},\dots que sejam \iid, com distribuição \Ber(1/2)\Ber(1/2) e independentes de NN.

  1.  a)

    Calcule a distribuição de Z=i=1NXiZ=\sum_{i=1}^{N}X_{i}.

  2.  b)

    Mostre que ZZ e NZN-Z são independentes.