3.6 Momentos exponenciais

Nessa seção desenvolveremos uma outra técnica para estimar a probabilidade de uma variável aleatória se desviar de sua esperança.

Já vimos o método do primeiro, segundo e quarto momento para controlar uma soma de variáveis independentes. Um exemplo disso foi visto na estimativa

P[i=1n(XiE(Xi))a]i\Var(Xi)a2.P\Big{[}\sum_{i=1}^{n}(X_{i}-E(X_{i}))\geq a\Big{]}\leq\frac{\sum_{i}\Var(X_{i% })}{a^{2}}. (3.68)

Em geral, quanto maior o momento, melhor a estimativa do decaimento para a probabilidade de que uma variável se desvie de sua esperança. Nessa seção iremos para momentos exponenciais, que em um certo sentido produzem estimativas ótimas para o comportamento assintótico da probabilidade de desvio.

Note que se quisermos uma pequena probabilidade de erro (como por exemplo 0.01\sim 0.01), o método do segundo momento é muito bom, como veremos posteriormente. Mas se quisermos uma probabilidade de erro minúscula (em situações concretas, algo como 101210^{-12} por exemplo), certamente teremos que aumentar bastante o valor de nn, mas quanto? As cotas de segundo momento são muito ruins para esse tipo de estimativa, nos levando a escolher um nn maior que o necessário. Abaixo, desenvolveremos um método mais eficiente para responder a essa pergunta, obviamente sob certas hipóteses na distribuição das variáveis aleatórias.

{definition}

Dada uma variável aleatória XX, definimos sua transformada de Laplace como

ϕX(s)=E(\exsX)(0,],\phi_{X}(s)=E(\ex{sX})\in(0,\infty], (3.69)

para todos ss\in\mathbb{R}. Essa transformada também é chamada função geradora de momentos de XX.

{exercise}

Calcule a função geradora de momentos das distribuições \Ber(p)\Ber(p), \Exp(λ)\Exp(\lambda) e U[0,1]U_{[0,1]}.

{proposition}

Se E(\exδ|X|)<E(\ex{\delta|X|})<\infty, então

  1.  a)

    XpX\in\mathcal{L}^{p} para todo 1p<1\leq p<\infty,

  2.  b)

    ϕX(s)<\phi_{X}(s)<\infty para todo s(δ,δ)s\in(-\delta,\delta),

  3.  c)

    ϕX(s)\phi_{X}(s) é CC^{\infty} em (δ,δ)(-\delta,\delta) e

  4.  d)

    ϕX(n)(s)=E(Xn\exsX)\phi_{X}^{(n)}(s)=E(X^{n}\ex{sX}).

A última conclusão da proposição acima justifica a nomenclatura função geradora de momentos pois ϕX(n)(0)=E(Xn)\phi_{X}^{(n)}(0)=E(X^{n}).

Demonstração.

Obviamente, para todo p1p\geq 1 existe c>0c>0 tal que \exδ|x|c|x|p\ex{\delta|x|}\geq c|x|^{p}, donde XpX\in\mathcal{L}^{p}. Além disso, para todo s(δ,δ)s\in(-\delta,\delta), temos ϕX(s)=E(\exsX)E(\exδ|X|)<\phi_{X}(s)=E(\ex{sX})\leq E(\ex{\delta|X|})<\infty, donde 2. segue imediatamente.

Fixando ss\in\mathbb{R}, vamos agora calcular

ϕX(s+h)ϕX(s)h=E(\ex(s+h)X\exsX)h=E(\exsX\exhX1h).\frac{\phi_{X}(s+h)-\phi_{X}(s)}{h}=\frac{E\big{(}\ex{(s+h)X}-\ex{sX}\big{)}}{% h}=E\Big{(}\ex{sX}\frac{\ex{hX}-1}{h}\Big{)}. (3.70)

Lembrando que |1y(ey1)|e|y||\tfrac{1}{y}(e^{y}-1)|\leq e^{|y|}, para todo yy\in\mathbb{R}, temos que para todos os h<(δ|s|)/2h<(\delta-|s|)/2, o integrando acima é dominado por |X|\ex(|s|+h)|X||X|\exδ+|s|2|X||X|\ex{(|s|+h)|X|}\leq|X|\ex{\smash{\tfrac{\delta+|s|}{2}|X|}} que pertence a 1\mathcal{L}^{1}. Logo podemos usar o Teorema da Convergência Dominada para trocar o limite h0h\to 0 com a esperança, obtendo

ϕX(s)=E(X\exsX).\phi_{X}^{\prime}(s)=E(X\ex{sX}). (3.71)

Note que para todo ε>0\varepsilon>0 e k1k\geq 1, |x|kc(k)\exε|x||x|^{k}\leq c(k)\ex{\varepsilon|x|}, isso nos permite repetir o argumento acima indutivamente para obter c) e d). ∎

Lembramos que ao usar o método do segundo momento, nos foi bastante útil o fato que a variância se comporta bem com relação a somas independentes. Mais precisamente, \Var(X1++Xk)=\Var(X1)++\Var(Xk)\Var(X_{1}+\dots+X_{k})=\Var(X_{1})+\dots+\Var(X_{k}).

Uma outra propriedade importante da função geradora de momentos é que ela também se comporta bem com respeito à somas independentes. {proposition} Se X1,,XnX_{1},\dots,X_{n} são variáveis independentes com ϕXi(s)<\phi_{X_{i}}(s)<\infty para todo iki\leq k e |s|<δ|s|<\delta, então

ϕX1++Xk(s)=ϕX1(s)ϕXk(s), para todos |s|<δ.\phi_{X_{1}+\dots+X_{k}}(s)=\phi_{X_{1}}(s)\dotsm\phi_{X_{k}}(s),\text{ para % todos $|s|<\delta$.} (3.72)
Demonstração.

Basta observar que

E(exp{s(X1++Xk)})=E(\exsX1\exsXk))=E(\exsX1)E(\exsXk)=ϕX1(s)ϕXk(s),\begin{split}E(\exp&\{s(X_{1}+\dots+X_{k})\})=E(\ex{sX_{1}}\dotsm\ex{sX_{k}}))% \\ &=E\big{(}\ex{sX_{1}})\dotsm E(\ex{sX_{k}}\big{)}=\phi_{X_{1}}(s)\dotsm\phi_{X% _{k}}(s),\end{split} (3.73)

usando Fubini. ∎

Consideraremos agora uma sequência X1,X2,X_{1},X_{2},\dots de variáveis \iidcom ϕX1(s)<\phi_{X_{1}}(s)<\infty para |s|<δ|s|<\delta. Então podemos tentar estimar, para a>0a>0 e |s|<δ|s|<\delta,

P[X1++XnnE(X1)a]=P[X1++Xn(a+E(X1))n]=P[\exs(X1++Xn)\exs(a+E(X1))n]ϕX1++Xn(s)\exs(a+E(X1))n=ϕX1n(s)\exs(a+E(X1))n.\begin{split}P\Big{[}&\frac{X_{1}+\dots+X_{n}}{n}-E(X_{1})\geq a\Big{]}=P\Big{% [}X_{1}+\dots+X_{n}\geq(a+E(X_{1}))n\Big{]}\\ &\quad=P\Big{[}\ex{s(X_{1}+\dots+X_{n})}\geq\ex{s(a+E(X_{1}))n}\Big{]}\\ &\quad\leq\phi_{X_{1}+\dots+X_{n}}(s)\ex{-s(a+E(X_{1}))n}=\phi_{X_{1}}^{n}(s)% \ex{-s(a+E(X_{1}))n}.\end{split}

O primeiro fator na estimativa acima pode crescer exponencialmente com nn, enquanto o segundo decresce. Gostaríamos que o comportamento do segundo predominasse, o que podemos concluir do seguinte argumento.

Sabemos que ϕX1(s)\phi_{X_{1}}(s) é diferenciável em zero e que ϕX1(0)=E(X1)\phi^{\prime}_{X_{1}}(0)=E(X_{1}). Logo, existe s>0s>0 tal que ϕX1(s)<1+(E(X1)+a2)s\phi_{X_{1}}(s)<1+(E(X_{1})+\tfrac{a}{2})s, donde

P[X1++XnnE(X1)a]ϕX1n(s)\exs(a+E(X1))n(1+(E(X1)+a2)s)n\exs(E(X1)+a)nexp{s(E(X1+a2E(X1)a)n)}=\exsan/2.\begin{split}P\Big{[}&\frac{X_{1}+\dots+X_{n}}{n}-E(X_{1})\geq a\Big{]}\leq% \phi_{X_{1}}^{n}(s)\ex{-s(a+E(X_{1}))n}\\ &\quad\leq\big{(}1+(E(X_{1})+\frac{a}{2})s\big{)}^{n}\ex{-s(E(X_{1})+a)n}\\ &\quad\leq\exp\Big{\{}s\Big{(}E(X_{1}+\frac{a}{2}-E(X_{1})-a)n\Big{)}\Big{\}}=% \ex{-san/2}.\end{split}

Isso nos garante um decaimento exponencial da probabilidade da média dos XiX_{i} se desviar da esperança.

{exercise}

Aplique o método acima para variáveis XiX_{i} \iidcom distribuição \Ber(1/2)\Ber(1/2) e encontre s(a)s(a) que otimize o decaimento da probabilidade P[i=1nXi>(1/2+a)n]P\big{[}\sum_{i=1}^{n}X_{i}>(1/2+a)n\big{]}.

Poderíamos nos perguntar se a cota acima é suficientemente boa. Talvez pudéssemos esperar um decaimento ainda melhor que exponencial. Para responder a essa pergunta, vamos considerar o seguinte exemplo. Sejam (Xi)i1(X_{i})_{i\geq 1} variáveis \iidcom X1\distr\Ber(1/2)X_{1}\distr\Ber(1/2). Nesse caso temos por exemplo

P[|X1++Xnn12|14]P[Xi=1,in]=2n.P\Big{[}\big{|}\frac{X_{1}+\dots+X_{n}}{n}-\frac{1}{2}\big{|}\geq\frac{1}{4}% \Big{]}\geq P[X_{i}=1,\forall i\leq n]=2^{-n}. (3.74)

Dessa forma, sabemos que não podemos esperar um decaimento melhor que exponencial, mesmo para variáveis bem simples (como Bernoulli) que satisfazem ϕX(s)<\phi_{X}(s)<\infty para todo ss\in\mathbb{R}.

Note que para variáveis com distribuição \Ber(1/2)\Ber(1/2), obtivemos acima cotas exponenciais em nn (superior e inferior), mas elas possuem expoentes diferentes. Resta agora tentar entender qual é o expoente correto para o decaimento da probabilidade P[X1++Xnn(E(X1)+a)]P[X_{1}+\dots+X_{n}\geq n(E(X_{1})+a)], o que será feito na próxima seção.

\todosec

Tópico: Processos de ramificaçãofazer…