11 Coeficiente de Correlação
A covariância é uma quantidade útil que descreve como duas variáveis aleatórias variam juntas. No entanto, ela tem uma desvantagem: não é invariante à escala. Para explicar o que isso significa, suponha que e sejam duas variáveis aleatórias, ambas medindo comprimentos em metros. Vamos assumir que e fornecem as mesmas medidas que e , respectivamente, mas em centímetros, ou seja, e . Então,
Isso significa que alterar a escala também altera a covariância. Para obter uma quantidade invariante à escala, fazemos a seguinte definição.
Definição (Coeficiente de Correlação).
Sejam e variáveis aleatórias discretas quadrado-integráveis com variância positiva. O coeficiente de correlação entre e é definido como
Conforme prometido, o coeficiente de correlação não muda quando escalamos ou deslocamos as variáveis aleatórias.
Proposição.
Sejam e variáveis aleatórias quadrado-integráveis com variância positiva. Para qualquer com , temos
Demonstração.
Primeiro, observamos que a covariância entre uma constante e qualquer outra variável aleatória é igual a zero. De fato,
Portanto,
Substituindo isso na fórmula do coeficiente de correlação,
Além disso, como e , o coeficiente de correlação também satisfaz.
A próxima proposição descreve ainda mais em que sentido o coeficiente de correlação é um índice adimensional que quantifica o quão bem e estão alinhados, veja a Figura 11.1 para uma descrição visual.
Proposição.
Sejam e variáveis aleatórias quadrado-integráveis com variância positiva. Então
Nos casos extremos, e .
Demonstração.
Observe que
Tomando a expectativa e expandindo, obtemos
o que significa
logo . O mesmo argumento com no lugar de nos dá , portanto . Finalmente,
e . ∎