3.2 Variância

Na seção anterior, limitamos P[X>a]P[X>a] usando E(X)E(X) (se X0X\geq 0). Esse método é chamado de método do primeiro momento, de acordo com a seguinte {definition} Dada uma variável aleatória XX, definimos o seu kk-ésimo momento como E(Xk)E(X^{k}), para k=1,2,k=1,2,\dots

Então, por exemplo, se XkX\in\mathcal{L}^{k} e X0X\geq 0, podemos estimar

P[Xx]=P[Xkxk]E(Xk)xk, para quaisquer k1.P[X\geq x]=P[X^{k}\geq x^{k}]\leq\frac{E(X^{k})}{x^{k}},\text{ para quaisquer % $k\geq 1$.} (3.20)

Observe que quando o kk-ésimo momento de XX é finito, a razão acima decai mais rápido quando xx diverge.

{exercise}

Mostre uma fórmula análoga à da Proposição 3.1.

{exercise}

Mostre que se a distribuição de XX tem densidade ρ\rho e E(|f(X)|)<E(|f(X)|)<\infty, então

E(f(X))=f(x)ρ(x)x.E(f(X))=\int f(x)\rho(x)\d{x}. (3.21)

Um caso bastante importante ocorre quando k=2k=2, por várias razões que descreveremos abaixo.

Digamos que estamos interessados em aproximar uma variável aleatória por uma constante de forma a minimizar o erro da aproximação. Uma possível formulação desse problema é encontrar aa de forma a minimizar

E((Xa)2)=E(X2)2aE(X)+a2.E\Big{(}(X-a)^{2}\Big{)}=E(X^{2})-2aE(X)+a^{2}. (3.22)

Essa equação obviamente possui um único mínimo em a=E(X)a=E(X). Ao erro da aproximação acima damos o nome de variância

{definition}

Dada uma variável aleatória X2X\in\mathcal{L}^{2}, definimos sua variância como

\Var(X)=E((XE(X))2)=E(X2)E(X)2.\Var(X)=E\Big{(}\big{(}X-E(X)\big{)}^{2}\Big{)}=E(X^{2})-E(X)^{2}. (3.23)

Observe pelas definições alternativas dadas acima que

  1.  a)

    \Var(X)0\Var(X)\geq 0 e

  2.  b)

    E(X2)E(X)2E(X^{2})\geq E(X)^{2}.

{exercise}

Mostre que se X2X\in\mathcal{L}^{2}, então \Var(X)=0\Var(X)=0 se e somente se X=aX=a quase certamente.

Obviamente

\Var(aX)=E(a2X2)E(aX)2=a2\Var(X).\Var(aX)=E(a^{2}X^{2})-E(aX)^{2}=a^{2}\Var(X). (3.24)

Podemos alternativamente entender a variância da seguinte meneira. Sejam XX e YY variáveis aleatórias independentes em 2\mathcal{L}^{2} de mesma distribuição. Então,

E((XY)2)=E(X2)2E(XY)+E(X2)=E(X2)E(X)2=\Var(X).E\big{(}(X-Y)^{2}\big{)}=E(X^{2})-2E(XY)+E(X^{2})=E(X^{2})-E(X)^{2}=\Var(X). (3.25)
{exercise}

Mostre que se X2X\in\mathcal{L}^{2}, então \Var(X+b)=\Var(X)\Var(X+b)=\Var(X).

{exercise}

Calcule Var(X)Var(X) quando XX tem distribuições \Ber(p)\Ber(p), U[0,1]U[0,1] ou \Exp(λ)\Exp(\lambda).

A seguinte proposição mostra que a variância é uma maneira de estimar o quanto uma variável aleatória se desvia de sua média. {proposition} Se X2X\in\mathcal{L}^{2} e a>0a>0, então

P[|XE(X)|>a]\Var(X)a2.P[|X-E(X)|>a]\leq\frac{\Var(X)}{a^{2}}. (3.26)
Demonstração.

A desigualdade segue trivialmente da cota de Markov, ao observarmos que

  1.  a)

    |XE(X)|0|X-E(X)|\geq 0,

  2.  b)

    |XE(X)|>a|X-E(X)|>a se e somente se |XE(X)|2>a2|X-E(X)|^{2}>a^{2} e

  3.  c)

    E(|XE(X)|2)=E((XE(X))2)=\Var(X)E\big{(}|X-E(X)|^{2}\big{)}=E\big{(}(X-E(X))^{2}\big{)}=\Var(X),

mostrando a proposição. ∎

Para variáveis aleatórias de média zero, a variância nada mais é que E(X2)E(X^{2}), ou em outras palavras X22\lVert X\rVert^{2}_{2}, o quadrado de sua norma em 2\mathcal{L}^{2}. Isso nos motiva a olhar mais de perto para o produto interno em 2\mathcal{L}^{2}, que se traduz a E(XY)E(XY). Mas para não nos restringirmos a variáveis de média zero, introduzimos a seguinte

{definition}

Se X,YX,Y são variáveis em 2\mathcal{L}^{2}, definimos

\Cov(X,Y)=E((XE(X))(YE(Y)))=E(XY)E(X)E(Y).\Cov(X,Y)=E\Big{(}\big{(}X-E(X)\big{)}\big{(}Y-E(Y)\big{)}\Big{)}=E(XY)-E(X)E(% Y). (3.27)

Uma observação importante é que

se XX e YY em 2\mathcal{L}^{2} são independentes, então \Cov(X,Y)=0\Cov(X,Y)=0. (3.28)
{exercise}

Sejam X1X_{1} e X2X_{2} as coordenadas canônicas em 2\mathbb{R}^{2}. Já vimos que elas não são independentes sob a distribuição US1U_{S^{1}}. Mostre que mesmo assim temos \Cov(X1,X2)=0\Cov(X_{1},X_{2})=0.

Uma outra propriedade bastante importante da variância é que ela se comporta bem com somas, no seguinte sentido {proposition} Se X1,,XnX_{1},\dots,X_{n} são variáveis em 2\mathcal{L}^{2}, então

\Var(X1++Xn)=i=1n\Var(Xi)+ij\Cov(Xi,Xj).\Var(X_{1}+\dots+X_{n})=\sum_{i=1}^{n}\Var(X_{i})+\sum_{i\neq j}\Cov(X_{i},X_{% j}). (3.29)

Em particular, se as variáveis XiX_{i} forem independentes duas a duas, então

\Var(X1++Xn)=i=1n\Var(Xi).\Var(X_{1}+\dots+X_{n})=\sum_{i=1}^{n}\Var(X_{i}). (3.30)
Demonstração.

Basta fazer o tedioso desenvolvimento

\Var(iXi)=E((iXiE(iXi))2)=E((iXiE(Xi))2)=i,j=1nE(XiE(Xi))E(XjE(Xj)),\begin{split}\Var\Big{(}\sum_{i}X_{i}\Big{)}&=E\Big{(}\Big{(}\sum_{i}X_{i}-E% \Big{(}\sum_{i}X_{i}\Big{)}\Big{)}^{2}\Big{)}\\ &=E\Big{(}\Big{(}\sum_{i}X_{i}-E(X_{i})\Big{)}^{2}\Big{)}\\ &=\sum_{i,j=1}^{n}E\big{(}X_{i}-E(X_{i})\big{)}E\big{(}X_{j}-E(X_{j})\big{)},% \end{split} (3.31)

o que termina a prova ao separarmos i=ji=j de iji\neq j. ∎

{exercise}

Calcule \Var(X)\Var(X) quando X𝑑\Bin(n,p)X\overset{d}{\sim}\Bin(n,p).

{exercise}

Calcule E(X)E(X) quando X𝑑\Geo(p)X\overset{d}{\sim}\Geo(p).

Um dito popular muito comum no Brasil é que não devemos deixar todos os “ovos no mesmo cesto”, o que nos remete à possibilidade de perdermos todos eles caso o cesto caia. Uma outra maneira de pensar nas vantagens de se dividir nossos riscos entre várias fontes independentes de incerteza, vem da equação (3.30), melhor explicada no exercício abaixo.

{exercise}

Imagine que X1,,XnX_{1},\dots,X_{n} são variáveis \iid, tomando valores em [0,1][0,1] e que temos um certo valor s+s\in\mathbb{R}_{+} que temos que guardar em nn caixas (dividindo como quisermos em s1,,sns_{1},\dots,s_{n}). Ao fim da semana, obteremos S=isiXiS=\sum_{i}s_{i}X_{i}.

Calcule E(S)E(S) e \Var(S)\Var(S),

  1.  a)

    se s1=ss_{1}=s e si=0s_{i}=0 para todo i2i\geq 2 e

  2.  b)

    se si=s/ns_{i}=s/n para todo ii.

Compare os resultados.

{exercise}

Calcule limp0Fp(x)\lim_{p\to 0}F_{p}(x) onde FpF_{p} é a função de distribuição acumulada de pXppX_{p} com Xp𝑑\Geo(p)X_{p}\overset{d}{\sim}\Geo(p). Você reconhece esse limite?