11 Coeficiente de Correlação

A covariância é uma quantidade útil que descreve como duas variáveis aleatórias variam juntas. No entanto, ela tem uma desvantagem: não é invariante à escala. Para explicar o que isso significa, suponha que XX e YY sejam duas variáveis aleatórias, ambas medindo comprimentos em metros. Vamos assumir que UU e VV fornecem as mesmas medidas que XX e YY, respectivamente, mas em centímetros, ou seja, U=100XU=100X e V=100YV=100Y. Então,

Cov(U,V)=Cov(100X,100Y)=100100Cov(X,Y)=104Cov(U,V).\mathrm{Cov}(U,V)=\mathrm{Cov}(100X,100Y)=100\cdot 100\cdot\mathrm{Cov}(X,Y)=1% 0^{4}\cdot\mathrm{Cov}(U,V).

Isso significa que alterar a escala também altera a covariância. Para obter uma quantidade invariante à escala, fazemos a seguinte definição.

Definição (Coeficiente de Correlação).

Sejam XX e YY variáveis aleatórias discretas quadrado-integráveis com variância positiva. O coeficiente de correlação entre XX e YY é definido como

ρ(X,Y)=Cov(X,Y)σ(X)σ(Y).\rho(X,Y)=\frac{\mathrm{Cov}(X,Y)}{\sigma(X)\cdot\sigma(Y)}.

Conforme prometido, o coeficiente de correlação não muda quando escalamos ou deslocamos as variáveis aleatórias.

Proposição.

Sejam XX e YY variáveis aleatórias quadrado-integráveis com variância positiva. Para qualquer a,b,c,da,b,c,d\in\mathbb{R} com a,c>0a,c>0, temos

ρ(aX+b,cY+d)=ρ(X,Y).\rho(aX+b,cY+d)=\rho(X,Y).
Demonstração.

Primeiro, observamos que a covariância entre uma constante e qualquer outra variável aleatória é igual a zero. De fato,

Cov(b,Y)=𝔼[bY]𝔼[b]𝔼[Y]=b𝔼[Y]b𝔼[Y]=0.\mathrm{Cov}(b,Y)=\mathbb{E}[bY]-\mathbb{E}[b]\cdot\mathbb{E}[Y]=b\cdot\mathbb% {E}[Y]-b\cdot\mathbb{E}[Y]=0.

Portanto,

Cov(aX+b,cY+d)=acCov(X,Y).\mathrm{Cov}(aX+b,cY+d)=ac\cdot\mathrm{Cov}(X,Y).

Substituindo isso na fórmula do coeficiente de correlação,

ρ(aX+b,cY+d)\displaystyle\rho(aX+b,cY+d) =Cov(aX+b,cY+d)σ(aX+b)σ(cY+d)\displaystyle=\frac{\mathrm{Cov}(aX+b,cY+d)}{{\sigma(aX+b)\cdot\sigma(cY+d)}}
=acCov(X,Y)aσ(X)cσ(Y)\displaystyle=\frac{ac\cdot\mathrm{Cov}(X,Y)}{{a\cdot\sigma(X)\cdot c\cdot% \sigma(Y)}}
=Cov(X,Y)σ(X)σ(Y)=ρ(X,Y).\displaystyle=\frac{\mathrm{Cov}(X,Y)}{{\sigma(X)\cdot\sigma(Y)}}=\rho(X,Y).\qed

Além disso, como σ(Y)=σ(Y)\sigma(-Y)=\sigma(Y) e Cov(X,Y)=Cov(Y,X)\mathrm{Cov}(X,Y)=\mathrm{Cov}(Y,X), o coeficiente de correlação também satisfaz.

ρ(X,Y)=ρ(Y,X) e ρ(X,Y)=ρ(X,Y).\rho(X,Y)=\rho(Y,X)\text{ e }\rho(X,-Y)=-\rho(X,Y).

A próxima proposição descreve ainda mais em que sentido o coeficiente de correlação ρ(X,Y)\rho(X,Y) é um índice adimensional que quantifica o quão bem XX e YY estão alinhados, veja a Figura 11.1 para uma descrição visual.

Ilustração de
Figura 11.1: Ilustração de ρ(X,Y)\rho(X,Y) assumindo que o par (X,Y)(X,Y) tem a mesma probabilidade de estar em cada ponto na nuvem representada. (retirado da Wikipedia)
Proposição.

Sejam XX e YY variáveis aleatórias quadrado-integráveis com variância positiva. Então

1ρ(X,Y)1.-1\leqslant\rho(X,Y)\leqslant 1.

Nos casos extremos, ρ(X,X)=1\rho(X,X)=1 e ρ(X,X)=1\rho(X,-X)=-1.

Demonstração.

Observe que

(X𝔼[X]σ(X)Y𝔼[Y]σ(Y))20\left(\frac{X-\mathbb{E}[X]}{\sigma(X)}-\frac{Y-\mathbb{E}[Y]}{\sigma(Y)}% \right)^{2}\geqslant 0

Tomando a expectativa e expandindo, obtemos

𝔼[(X𝔼[X])2]σ2(X)+𝔼[(Y𝔼[Y])2]σ2(Y)2𝔼[(X𝔼[X])(Y𝔼[Y])]σ(X)σ(Y)0,\frac{\mathbb{E}[(X-\mathbb{E}[X])^{2}]}{\sigma^{2}(X)}+\frac{\mathbb{E}[(Y-% \mathbb{E}[Y])^{2}]}{\sigma^{2}(Y)}-2\frac{\mathbb{E}[(X-\mathbb{E}[X])(Y-% \mathbb{E}[Y])]}{\sigma(X)\sigma(Y)}\geqslant 0,

o que significa

2ρ(X,Y)2,2\rho(X,Y)\leqslant 2,

logo ρ(X,Y)1\rho(X,Y)\leqslant 1. O mesmo argumento com Y-Y no lugar de YY nos dá ρ(X,Y)=ρ(X,Y)1\rho(X,Y)=-\rho(X,-Y)\leqslant 1, portanto ρ(X,Y)1\rho(X,Y)\geqslant-1. Finalmente,

ρ(X,X)=Cov(X,Y)σ(X)σ(X)=1\rho(X,X)=\frac{\mathrm{Cov}(X,Y)}{\sigma(X)\cdot\sigma(X)}=1

e ρ(X,X)=ρ(X,X)=1\rho(X,-X)=-\rho(X,X)=-1. ∎