2.8 Probabilidades condicionais

Uma outra maneira de se construir espaços de probabilidade é através de condicionamento, como mostra a seguinte definição. {definition} Se (Ω,,P)(\Omega,\mathcal{F},P) é espaço de probabilidade e BB\in\mathcal{F} é tal que P(B)>0P(B)>0, então definimos a probabilidade P(|B):[0,1]P(\cdot|B):\mathcal{F}\to[0,1] por

P(A|B)=P(AB)P(B),P(A|B)=\frac{P(A\cap B)}{P(B)}, (2.78)

chamada probabilidade condicional dado o evento BB.

Obviamente P(|B)P(\cdot|B) é uma probabilidade em (Ω,)(\Omega,\mathcal{F}) e podemos entendê-la de duas formas: como uma normalização ou como uma tentativa de sucesso. Explicaremos abaixo cada uma dessas interpretações.

Quando restringimos o espaço amostral Ω\Omega ao conjunto BB (e associamos a AA\in\mathcal{F} o valor P(AB)P(A\cap B)), temos uma sub-probabilidade, isto é, possivelmente P(ΩB)<1P(\Omega\cap B)<1. Logo podemos entender o denominador de (2.78) como uma normalização para obtermos novamente uma probabilidade.

Mas a interpretação mais natural de (2.78) é dada pela seguinte proposição. Para enunciá-la, considere (Ω,,P)(\Omega,\mathcal{F},P) um espaço de probabilidade e defina o produto infinito

\widebarΩ=Ω,\widebar=e\widebarP=P.\widebar{\Omega}=\Omega^{\mathbb{N}},\qquad\widebar{\mathcal{F}}=\mathcal{F}^{% \otimes\mathbb{N}}\quad\text{e}\quad\widebar P=P^{\otimes\mathbb{N}}. (2.79)

Na verdade somente definimos esse produto para Ω=\Omega=\mathbb{R}, mas como mencionamos abaixo do Teorema da Extensão de Kolmogorov, isso pode ser facilmente generalizado e o faremos posteriormente.

{proposition}

Na situação acima, seja BB\in\mathcal{F} com P(B)>0P(B)>0 e defina T:\widebarΩT:\widebar{\Omega}\to\mathbb{N} por T(ω)=inf{n1:Xn(ω)B}T(\omega)=\inf\{n\geq 1\,:\,X_{n}(\omega)\in B\}, onde os XnX_{n} são as coordenadas canônicas. Então T<T<\infty quase certamente e

XT(ω)(ω)X_{T(\omega)}(\omega) é um elemento aleatório em Ω\Omega com distribuição P(|B)P(\cdot|B). (2.80)

A intuição desta proposição é que se repetimos o experimento (Ω,,P)(\Omega,\mathcal{F},P) independentemente até obter uma amostra em BB, essa terá a distribuição condicional.

Demonstração.

Sejam os eventos An=[XnB]A_{n}=[X_{n}\in B], n1n\geq 1 que são claramente independentes segundo \widebarP\widebar{P}. Logo, como n\widebarP(An)=nP(B)=\sum_{n}\widebar{P}(A_{n})=\sum_{n}P(B)=\infty, temos pelo Lema de Borel-Cantelli (segunda parte) que \widebarP(An infinitas vezes)=1\widebar{P}(\text{$A_{n}$ infinitas vezes})=1, logo T<T<\infty quase certamente.

Para ver que XT(ω)(ω)X_{T(\omega)}(\omega) é um elemento aletório, basta escrever

[XTA]=\mcupt=1[XtA,T=t],[X_{T}\in A]=\mcup_{t=1}^{\infty}[X_{t}\in A,T=t], (2.81)

e observar que tanto [XtA][X_{t}\in A] quanto [T=t]=[X1B,,Xt1B,XtB][T=t]=[X_{1}\not\in B,\dots,X_{t-1}\not\in B,X_{t}\in B] são mensuráveis.

Finalmente podemos usar a decomposição (disjunta) acima para calcular

\widebarP[XTA]=t=1\widebarP[XtA,T=t]=t=1\widebarP[XtA,XtB,XsB for s<t]=t=1P(AB)P(Bc)t1=P(AB)1P(Bc)=P(A|B),\begin{split}\widebar{P}[X_{T}\in A]&=\sum_{t=1}^{\infty}\widebar{P}[X_{t}\in A% ,T=t]\\ &=\sum_{t=1}^{\infty}\widebar{P}[X_{t}\in A,X_{t}\in B,X_{s}\not\in B\text{ % for $s<t$}]\\ &=\sum_{t=1}^{\infty}P(A\cap B)P(B^{c})^{t-1}=\frac{P(A\cap B)}{1-P(B^{c})}=P(% A|B),\end{split} (2.82)

terminando a prova da proposição. ∎

{exercise}

Sejam λ>0\lambda>0 e X\distr\Exp(λ)X\distr\Exp(\lambda) (lembrando a definição da distribuição exponencial: \Exp(λ)(x)=λexp{λx}x\Exp(\lambda)(\d{x})=\lambda\exp\{-\lambda x\}\d{x}). Mostre que as variáveis com distribuição exponencial não possuem memória, ou seja:

P[X>t+s|X>t]=P[X>s], para todo s,t>0.P[X>t+s\,|\,X>t]=P[X>s],\text{ para todo $s,t>0$}. (2.83)

Ou em outras palavras, sabendo que XX é maior que tt, a distribuição condicional de XtX-t ainda é \Exp(λ)\Exp(\lambda).

Definimos a distribuição geométrica de parâmetro p(0,1]p\in(0,1] por

\Geo(p)=i=1(1p)i1pδi.\Geo(p)=\sum_{i=1}^{\infty}(1-p)^{i-1}p\delta_{i}. (2.84)
{exercise}

Inspirado no exercício anterior, mostre que a distribuição geométrica \Geo(p)\Geo(p) também satisfaz (2.83) para todos t,st,s\in\mathbb{N}. Mostre que essas são as únicas distribuições com suporte em \mathbb{N} satisfazendo tal propriedade

{exercise}

Sejam YiY_{i}, para i1i\geq 1, \iidcom distribuição \Ber(p)\Ber(p) e defina

T=inf{i:Yi=1}.T=\inf\{i\,:\,Y_{i}=1\}. (2.85)

Mostre que T𝑑\Geo(p)T\overset{d}{\sim}\Geo(p).

{exercise}

Barry James: Cap. 2-5, Ex: 5, 10, 21, 22 (a) e (b).

{exercise}

[Porta dos desesperados] Nas tardes da década de 80, as crianças tinham poucas opções de entretenimento além de assistir Sérgio Malandro, que todos os dias apresentava o seguinte jogo. O participante era apresentado a três portas (Ω={1,2,3}\Omega=\{1,2,3\}) e apenas uma delas (chamada de XX) continha um prêmio X\distrUΩX\distr U_{\Omega} e o jogo seguia três fases:

  1.  a)

    O participante escolhia uma porta arbitrariamente (digamos yΩy\in\Omega),

  2.  b)

    o Sérgio Malandro abria uma porta XX^{\prime} que não fosse a escolhida nem a premiada (X\distrUΩ{y,X}X^{\prime}\distr U_{\Omega\setminus\{y,X\}})

  3.  c)

    ao participante era dada a oportunidade de trocar sua porta XX pela porta restante em Ω{X,X}\Omega\setminus\{X,X^{\prime}\}.

Mostre que o participante sempre aumenta suas chances ao trocar sua escolha. Tente interpretar esse aparente paradoxo tomando o número de portas para infinito.

{exercise}

Emílio e Cristina tiveram dois filhos cujos sexos X,XX,X^{\prime} são \iide distribuidos como U{,}U_{\{\male,\female\}}. Enunciando hipóteses adequadas se for necessario, calcule

  1.  a)

    P[X,X=| pelo menos um é ]P[X,X^{\prime}=\male|\text{ pelo menos um \'{e} $\male$}] e

  2.  b)

    P[X,X=| pelo menos um é  e nasceu em uma segunda-feira]P[X,X^{\prime}=\male|\text{ pelo menos um \'{e} $\male$ e nasceu em uma % segunda-feira}].

Interprete esses resultados trocando “segunda-feira” por “primeiro de abril”. 22 2 Gratos ao Ricardo Misturini por sugerir esse problema

{exercise}

Supondo que P(AB)>0P(A\cap B)>0, mostre que “P(|A|B)=P(|B|A)P(\cdot|A|B)=P(\cdot|B|A)”. Mais precisamente, podemos condicionar PP em BB e depois a probabilidade resultante em AA ou vice-versa.

{exercise}

Sejam X,YX,Y variáveis aleatórias em um espaço (Ω,,P)(\Omega,\mathcal{F},P), independentes e com distribuição U[0,1]U_{[0,1]}.

  1.  a)

    Calcule PX+YP_{X+Y}.

  2.  b)

    Considere P()=P(|X+Y1)P^{\prime}(\cdot)=P\big{(}\cdot\,|\,X+Y\leq 1\big{)} e calcule XPX_{*}P^{\prime}.

44todo: 4 Falar de Lei da Probabilidade Total, com exemplos.

2.8.1 Regra de Bayes

Frequentemente definimos um espaço de probabilidade através de probabilidades condicionais. Consideramos por exemplo um exame médico para detectar uma doença, caso em que temos

Ω={(doente,+),(doente,),(saudável,+),(saudável,)},\Omega=\{(\text{doente},+),(\text{doente},-),(\text{saud\'{a}vel},+),(\text{% saud\'{a}vel},-)\}, (2.86)

com obviamente a σ\sigma-álgebra das partes.

Contudo, ao contrário do que fizemos anteriormente, não daremos probabilidades pω[0,1]p_{\omega}\in[0,1] para cada ωΩ\omega\in\Omega. Poderíamos por exemplo fornecer

P(doente)=0.005,P(+|saudável)=0.01,P(|doente)=0.05.P(\text{doente})=0.005,\quad P(+|\text{saud\'{a}vel})=0.01,\quad P(-|\text{% doente})=0.05. (2.87)

Obviamente podemos obter as probabilidades dos complementos dos eventos acima. As probabilidades acima podem ser facilmente estimadas num laboratório e as duas últimas são chamadas respectivamente de probabilidades de falso positivo e falso negativo. Outra vantagem da representação em (2.87) é que as probabilidades descritas são mais “compartimentadas” no seguinte sentido. Note que P(doente)P(\text{doente}) somente depende da população em questão, enquanto as outras duas dependem apenas do exame e não da população. Isso não pode ser dito das probabilidades de pontos individuais em Ω\Omega.

Agora fica fácil construir nosso espaço de probabilidade escrevendo, para r{+,}r\in\{+,-\} e e{saudável,doente}e\in\{\text{saud\'{a}vel},\text{doente}\},

P(re)=P(r|e)P(e).P(r\cap e)=P(r|e)P(e). (2.88)

E as probabilidades do lado direito da equação acima estão todas determinadas em (2.87) (possivelmente tomando complementos).

Contudo, o que estamos interessado muitas vezes é em como interpretar resultados de um exame. Por exemplo, quanto vele P(doente|+)P(\text{doente}|+)? Isso nos é fornecido em geral pela regra de Bayes enunciada na seguinte proposição.

{proposition}

Se (Aj)jI(A_{j})_{j\in I} formam uma partição (finita o enumeável) de Ω\Omega e BB\in\mathcal{F} tem probabilidade positiva, então

P(Ai|B)=P(Ai)P(B|Ai)jIP(Aj)P(B|Aj).P(A_{i}|B)=\frac{P(A_{i})P(B|A_{i})}{\sum_{j\in I}P(A_{j})P(B|A_{j})}. (2.89)
Demonstração.

Basta notar que

P(Ai|B)=P(Ai)P(B|Ai)P(B)=P(Ai)P(B|Ai)jIP(BAj)=P(Ai)P(B|Ai)jIP(Aj)P(B|Aj).P(A_{i}|B)=\frac{P(A_{i})P(B|A_{i})}{P(B)}=\frac{P(A_{i})P(B|A_{i})}{\sum_{j% \in I}P(B\cap A_{j})}=\frac{P(A_{i})P(B|A_{i})}{\sum_{j\in I}P(A_{j})P(B|A_{j}% )}. (2.90)

{exercise}

Utilize a fórmula acima para calcular P(doente|+)P(\text{doente}|+) com os dados em (2.87). Comente o resultado.

{exercise}

Barry James: Cap. 1, Ex: 18 e 19.

\todosec

Tópico: Distribuições de Extremosfazer…

\todosec

AcoplamentosTalvez valha a pena escrever sobre acoplamentos de maneira geral. Talvez pegando algo do Pascal Massart. Vale a pena tentar escrever algo sobre: composiçao de acoplamentos, quando um acoplamento “dá errado”…