A primeira tarefa nossa será otimizar a estimativa grosseira feita na seção anterior.
Essas estimativas são chamadas de estimativas de grandes desvios, pois se referem a probabilidades que a média empírica de se desvie de sua esperança por um valor constante .
Futuramente no curso estudaremos as probabilidades de que esse desvio seja de ordem que são chamados de desvios moderados ou flutuações, dependendo se a probabilidade de desvio converge a zero ou não.
{theorem}
[Princípio de Grandes Desvios - cota superior]
Consideramos variáveis aleatórias \iid tais que , para todo .
Então, para ,
(3.75)
onde e
(3.76)
é chamada função taxa.
É importante observar que para estimar , basta considerarmos ao utilizar o teorema acima.
Demonstração.
Já sabemos que, para todo ,
(3.77)
O que termina a prova do teorema se tomamos o ínfimo em .
∎
{exercise}
Calcule quando é distribuída como , e .
{exercise}
Na Nova Caledônia, temos habitantes.
Seja uma função que indica a intenção de voto de cada cidadão.
Mais precisamente, para cada habitante , se , então vota no candidato , enquanto se , o cidadão vota no candidato .
Para estimar o número de pessoas que votam em , nós escolhemos variáveis aleatórias i.i.d. com distribuição uniforme em e queremos estimar
(3.78)
Sabendo que é par e , então
a)
use o método do segundo momento para obter um tal que e um tal que ,
b)
use o método do momento exponencial para obter resolver o ítem acima.
Compare os quatro resultados obtidos acima.
Vamos agora tomar um exemplo concreto para análise.
Sejam variáveis aleatórias \iidcom distribuição , donde
(3.79)
Um cálculo simples nos mostra que, se , o mínimo acima é atingido no único ponto .
Portanto, podemos concluir do Teorema 3.7 que
(3.80)
Note que .
Isso nos dá um forte indício de que talvez nossas cotas superiores não estejam tão longe de ser precisas.
Para confirmar essa hipótese, precisamos obter cotas inferiores parecidas.
Figura 3.1: Funções taxa de uma variável com distribuição , e de uma variável com distribuição , para .
Antes de buscar cotas inferiores para as probabilidades de desvio, vamos estabelecer algumas propriedades da função .
Primeiramente, quando podemos dizer que o supremo na definição de é atingido em algum ?
Certamente, esse nem sempre é o caso, por exemplo se quase certamente, então e o supremo definindo não é atingido se .
{lemma}
Seja uma variável aleatória tal que para todo .
Supondo é tal que , então existe tal que
(3.81)
Demonstração.
Por hipótese, existe tal que , donde .
Dessa forma, , que converge a menos infinito quando diverge.
Isso, junto com a continuidade de implica a existência do desejado.
∎
{lemma}
Seja uma variável aleatória tal que para todo .
Então o conjunto onde a função é finita é um intervalo, na qual é convexa e portanto contínua.
Demonstração.
Primeiramente, supomos que são tais que e são finitas.
Logo, para todo , temos que a função linear é menor ou igual a , daí
(3.82)
Para mostrar que é convexa, observe que é dada pelo supremo (para ) das funções afins .
Como o supremo de funções convexas é também convexo, obtemos o enunciado do lemma.
∎
{exercise}
Suponha que se é finita para todo e mostre que
a)
na definição de , poderíamos tomar o ínfimo em todos (ao invéz de ) sem mudar o valor de ,
b)
a função é não negativa, semi-contínua inferior e convexa em seu domínio
c)
se anula somente em e é crescente no seu domínio.
Buscaremos agora cotas inferiores para a probabilidade de obter um grande desvio.
Gostaríamos que essas estimativas fossem o mais próximas possíveis das estimativas superiores obtidas acima.
Certamente não podemos obter algo como
(3.83)
pois senão isso nos daria uma igualdade o que é impossível, pois perdemos um pouco de precisão ao utilizar a desigualdade de Markov na cota superior.
Contudo, gostaríamos de entender se ao menos o expoente na cota superior também possui algum papel na cota inferior.
Isso é confirmado no seguinte resultado.
{theorem}
[Princípio de Grandes Desvios - cota inferior]
Sejam variáveis aleatórias \iidcom , para todo .
Então, para todo ,
(3.84)
onde novamente e é definida como no Teorema 3.7.
Note que o resultado do teorema acima é mais fraco que o que vemos na equação (3.83), mas mostra que é realmente o expoente correto no decaimento da probabilidade de grandes desvios.
Se variáveis aleatórias \iidcom , para todo , então
(3.85)
A idéia da prova é transformar a distribuição de , usando uma exponencial como derivada de Radon-Nikodim.
Essa nova distribuição possuirá esperança maior que , de forma que se tomamos a média de variáveis \iid distribuídas dessa forma, obteremos algo que se concentra acima de .
Finalmente, o preço pago para que as variáveis se comportem como as será aproximadamente , como desejado para nossa cota inferior.
Demonstração.
Primeiramente, consideraremos o caso , que se assemelha ao caso que analizamos acima .
Nesse caso, temos
Donde o limite acima é igual a .
Mas por outro lado,
pelo Teorema da Convergência Dominada, demonstrando o teorema nesse caso especial.
Suponhamos agora que , o que implica que para suficientemente próximo de , temos .
Observe que basta mostrar que para todo satisfazendo e para todo , temos
(3.86)
pois a função é convexa, portanto contínua.
Vamos definir uma nova distribuição com derivada de Radon-Nikodim
(3.87)
Observamos primeiramente que o valor de ainda não foi escolhido.
Além disso após escolhido , teremos que calcular a constante de normalização de forma que seja uma probabilidade.
Escolheremos como no Lema 3.7, isto é, tal que .
Isso nos dá imediatamente que por definição.
Por diferenciabilidade de , o máximo deve ser assumido em um ponto de derivada zero para a função , ou seja
(3.88)
Isso implica que se uma variável aleatória tem distribuição , sua esperança é .
É possível verificar que uma tal variável aleatória satisfaz obrigatoriamente para todo , donde para todo .
Como prometido, consideramos variáveis \iidcom distribuição .
Pela lei fraca dos grandes números, para qualquer ,
(3.89)
Finalmente vamos relacionar essa probabilidade à probabilidade definida em termos de , na qual estamos interessados.
Tomando o logarítmo, dividindo por e tomando o liminf quando vai a infinito, recuperamos
(3.90)
Como isso vale para todo , provamos (3.86) o que conclui a prova do teorema.
∎