4 Probabilidade Condicional e Independência

4.1 Probabilidade Condicional

Exemplo 4.1.

Suponha que antes de lançar um dado justo, você faz uma aposta de uma libra que o resultado será 33. Seu amigo vê o resultado antes de você e lhe diz que o dado mostrou um número par. Você continuaria com a aposta ou desistiria dela? E se você fosse informado de que o resultado é ímpar? Como essas informações parciais sobre o resultado mudam a probabilidade?

Modelamos o espaço de probabilidade correspondente ao lançamento de um dado justo tomando Ω={1,2,,6}\Omega=\{1,2,\dots,6\}, \mathcal{F} como o conjunto de todos os subconjuntos e \mathbb{P} como a probabilidade uniforme sobre ele. Então, o evento que nosso amigo nos diz que ocorreu é

B={2,4,6},\displaystyle B=\{2,4,6\}, e sua probabilidade é(B)=36=12>0\displaystyle\quad\text{e sua probabilidade \'{e}}\qquad\mathbb{P}(B)=\frac{3}% {6}=\frac{1}{2}>0 (4.2)

O evento favorável para nós é

A={3}e sua probabilidade é(A)=16.A=\{3\}\quad\text{e sua probabilidade \'{e}}\qquad\mathbb{P}(A)=\frac{1}{6}\,.

Saber que o resultado é par pode ser interpretado como mudar o espaço amostral de Ω\Omega para BB. Intuitivamente, assumiríamos que a probabilidade no novo espaço amostral permanece uniforme, mas a probabilidade de cada resultado muda de 16\frac{1}{6} para 13\frac{1}{3}, pois agora existem apenas 33 resultados possíveis. Dado que nosso resultado preferido, o 33, não está no novo espaço amostral, esperaríamos que a probabilidade de obter 33 seja 0 e, portanto, faria sentido desistir da aposta. Se, por outro lado, nos dissessem que o resultado é ímpar, poderíamos reformular o espaço de probabilidade como um com espaço amostral Bc={1,3,5}B^{c}=\{1,3,5\} e esperaríamos que a probabilidade de vencer a aposta fosse 13\frac{1}{3}, pois é um dos 33 resultados possíveis.

E se apostássemos em {2,3}\{2,3\}? Então estaríamos olhando para a quantidade de maneiras pelas quais ainda podemos vencer, dividida pela quantidade de resultados possíveis. Portanto, de acordo com nossa intuição, esperaríamos que a probabilidade atualizada, dada que o evento BB ocorreu, fosse

𝐏B(A)=|AB||B|=(|AB||Ω|)(|B||Ω|)=(AB)(B).\mathbf{P}_{B}(A)=\frac{|A\cap B|}{|B|}=\frac{(\frac{|A\cap B|}{|\Omega|})}{(% \frac{|B|}{|\Omega|})}=\frac{\mathbb{P}(A\cap B)}{\mathbb{P}(B)}.

Mas isso é uma probabilidade bem definida?

Proposição 4.3.

Seja (Ω,,)(\Omega,\mathcal{F},\mathbb{P}) um espaço de probabilidade e BB\in\mathcal{F} tal que (B)>0\mathbb{P}(B)>0. Seja 𝐏B:\mathbf{P}_{B}:\mathcal{F}\rightarrow\mathbb{R} tal que

𝐏B(A)=(A|B)=(AB)(B).\mathbf{P}_{B}(A)=\mathbb{P}(A|B)=\frac{\mathbb{P}(A\cap B)}{\mathbb{P}(B)}\,. (4.4)

Então, 𝐏B\mathbf{P}_{B} é uma medida de probabilidade.

Demonstração.

Precisamos verificar se todas as propriedades das medidas de probabilidade são satisfeitas.

  1. (a)

    Primeiro, precisamos mostrar que 𝐏B\mathbf{P}_{B} está definido para todo AA\in\mathcal{F} e assume valores em [0,1][0,1], ou seja, 𝐏B\mathbf{P}_{B} é um mapeamento de \mathcal{F} para [0,1][0,1], como deveria ser.

    • Seja AA\in\mathcal{F}. Assumimos que BB\in\mathcal{F} e, portanto, ABA\cap B\in\mathcal{F}, pois o espaço de eventos é fechado sob interseções. Portanto, (AB)\mathbb{P}(A\cap B) está bem definido e, como (B)>0\mathbb{P}(B)>0, sua razão 𝐏B(A)=(AB)(B)\mathbf{P}_{B}(A)=\frac{\mathbb{P}(A\cap B)}{\mathbb{P}(B)} está bem definida.

    • ABBA\cap B\subseteq B e, portanto, (AB)(B)\mathbb{P}(A\cap B)\leqslant\mathbb{P}(B) (proposição  3.25). Segue que 𝐏B(A)1\mathbf{P}_{B}(A)\leqslant 1. Da mesma forma, como (AB)>0\mathbb{P}(A\cap B)>0 e (B)>0\mathbb{P}(B)>0, segue que 𝐏B(A)>0\mathbf{P}_{B}(A)>0. Portanto, 𝐏B(A)[0,1]\mathbf{P}_{B}(A)\in[0,1].

  2. (b)
    𝐏B(Ω)=(ΩB)(B)=(B)(B)=1,\mathbf{P}_{B}(\Omega)=\frac{\mathbb{P}(\Omega\cap B)}{\mathbb{P}(B)}=\frac{% \mathbb{P}(B)}{\mathbb{P}(B)}=1\,, (4.5)

    conforme requerido.

  3. (c)

    (aditividade contável) Seja AnA_{n}\in\mathcal{F} para todo n1n\geqslant 1, de modo que AnAm=∅︀A_{n}\cap A_{m}=\emptyset para todos nmn\neq m (eventos disjuntos). Então

    𝐏B(n=1An)\displaystyle\mathbf{P}_{B}\left(\bigcup_{n=1}^{\infty}A_{n}\right) =1(B)((n=1An)B)\displaystyle=\frac{1}{\mathbb{P}(B)}\mathbb{P}\left(\left(\bigcup_{n=1}^{% \infty}A_{n}\right)\cap B\right) (4.6)
    =1(B)(n=1(AnB))(**)\displaystyle=\frac{1}{\mathbb{P}(B)}\mathbb{P}\left(\bigcup_{n=1}^{\infty}(A_% {n}\cap B)\right)\quad\text{(**)} (4.7)

Agora, como AnA_{n}\in\mathcal{F} e BB\in\mathcal{F} para todos n1n\geqslant 1, segue que AnBA_{n}\cap B\in\mathcal{F} para todos n1n\geqslant 1. Além disso, os eventos AnBA_{n}\cap B são disjuntos. De fato, para nmn\neq m

(AnB)(AmB)AnAm=∅︀.(A_{n}\cap B)\cap(A_{m}\cap B)\subseteq A_{n}\cap A_{m}=\emptyset\,. (4.8)

Uma vez que \mathbb{P} é uma medida de probabilidade, ela é aditiva contável, o que implica que

(**)=1(B)n=1(AnB)=n=1(AnB)(B)=n=1(An|B)=n=1𝐏B(An).\text{(**)}=\quad\frac{1}{\mathbb{P}(B)}\sum_{n=1}^{\infty}\mathbb{P}(A_{n}% \cap B)=\sum_{n=1}^{\infty}\frac{\mathbb{P}(A_{n}\cap B)}{\mathbb{P}(B)}=\sum_% {n=1}^{\infty}\mathbb{P}(A_{n}|B)=\sum_{n=1}^{\infty}\mathbf{P}_{B}(A_{n})\,. (4.9)

Definição 4.10.

Seja (Ω,,)(\Omega,\mathcal{F},\mathbb{P}) um espaço de probabilidade e BB\in\mathcal{F} tal que (B)>0\mathbb{P}(B)>0. Para AA\in\mathcal{F}, a probabilidade condicional de AA dado BB é denotada por (A|B)\mathbb{P}(A|B) e é definida como

(A|B)=(AB)(B)(*)\mathbb{P}(A|B)=\frac{\mathbb{P}(A\cap B)}{\mathbb{P}(B)}\quad\text{(*)} (4.11)
Exercício 4.1.

Um experimento consiste em lançar uma moeda justa 7 vezes.

  • (a)

    Descreva o espaço de probabilidade associado a ele.

  • (b)

    Seja EE o evento correspondente a obter um número primo de caras. Qual é (E)\mathbb{P}(E)?

  • (c)

    Seja BB o evento "Cara ocorre pelo menos 6 vezes". Qual é (E|B)\mathbb{P}(E|B)?

Solução.
  • (a)

    Ω={(a1,,a7):ai{H,T}}=S2,7({H,T})\Omega=\{(a_{1},\dots,a_{7}):a_{i}\in\{H,T\}\}=S_{2,7}(\{H,T\}), \mathcal{F} é o conjunto das partes de Ω\Omega e \mathbb{P} é a probabilidade uniforme, ou seja, \mathbb{P} é tal que

    A(A)=|A||Ω|.\forall\,A\in\mathcal{F}\quad\mathbb{P}(A)=\frac{|A|}{|\Omega|}\,. (4.12)

    Lembrando que |Ω|=|S2,7({H,T})|=27.|\Omega|=|S_{2,7}(\{H,T\})|=2^{7}.

  • (b)

    Para i=1,,7i=1,\dots,7, seja AiA_{i} o evento "obtemos exatamente ii caras". Os elementos de AiA_{i} podem ser caracterizados de forma única pela posição de H na sequência. Portanto, pelo princípio fundamental da contagem, |Ai|=(7i)|A_{i}|=\binom{7}{i}. Assim,

    (Ai)=127(7i)\mathbb{P}(A_{i})=\frac{1}{2^{7}}\binom{7}{i}

    Agora, observe que AiAj=∅︀A_{i}\cap A_{j}=\emptyset para iji\neq j (nenhum resultado tem tanto ii quanto jj caras) e

    E=A2A3A5A7.E=A_{2}\cup A_{3}\cup A_{5}\cup A_{7}\,. (4.13)

    Então, pela aditividade finita

    (E)\displaystyle\mathbb{P}(E) =(A2)+(A3)+(A5)+(A7)\displaystyle=\mathbb{P}(A_{2})+\mathbb{P}(A_{3})+\mathbb{P}(A_{5})+\mathbb{P}% (A_{7}) (4.14)
    =(72)127+(73)127+(75)127+(77)127=78128.\displaystyle=\binom{7}{2}\frac{1}{2^{7}}+\binom{7}{3}\frac{1}{2^{7}}+\binom{7% }{5}\frac{1}{2^{7}}+\binom{7}{7}\frac{1}{2^{7}}=\frac{78}{128}\,. (4.15)
  • (c)

    BB é o evento "H aparece pelo menos 6 vezes", então B=A6A7B=A_{6}\cup A_{7}. Observe que,

    (B)\displaystyle\mathbb{P}(B) =(A6)+(A7)=(76)127+(77)127\displaystyle=\mathbb{P}(A_{6})+\mathbb{P}(A_{7})=\binom{7}{6}\frac{1}{2^{7}}+% \binom{7}{7}\frac{1}{2^{7}} (4.16)
    =7!6!1!127+7!6!0!127=7+127=7+127=827=124>0.\displaystyle=\frac{7!}{6!1!}\cdot\frac{1}{2^{7}}+\frac{7!}{6!0!}\cdot\frac{1}% {2^{7}}=\frac{7+1}{2^{7}}=\frac{7+1}{2^{7}}=\frac{8}{2^{7}}=\frac{1}{2^{4}}>0\,. (4.17)

    Agora, podemos calcular (E|B)\mathbb{P}(E|B). Pela definição,

    (E|B)\displaystyle\mathbb{P}(E|B) =(EB)(B)\displaystyle=\frac{\mathbb{P}(E\cap B)}{\mathbb{P}(B)} (4.18)

    Como EB=(A2A3A5A7)(A6A7)=A7E\cap B=(A_{2}\cup A_{3}\cup A_{5}\cup A_{7})\cap(A_{6}\cup A_{7})=A_{7}, temos

    (E|B)=(A7)(B)=1/271/24=2427=18.\mathbb{P}(E|B)=\frac{\mathbb{P}(A_{7})}{\mathbb{P}(B)}=\frac{1/2^{7}}{1/2^{4}% }=\frac{2^{4}}{2^{7}}=\frac{1}{8}\,.
Exemplo 4.19.

Um estudante compra 2 maçãs, 3 bananas e 5 cocos. Todos os dias o estudante escolhe uma fruta uniformemente ao acaso e a come.

O espaço amostral é o conjunto de todas as tríades que podem ser construídas com as frutas disponíveis, em que cada resultado corresponde à fruta comida em cada dia. Como no final dos três dias temos todas as informações, o espaço de eventos é o conjunto das partes do espaço amostral. Definimos os eventos Ai={A_{i}=\{o estudante come uma maçã no dia i}\}, Bi={B_{i}=\{o estudante come uma banana no dia i}\} e Ci={C_{i}=\{o estudante come um coco no dia i}\}.

  • (a)

    Qual é a probabilidade de o estudante comer um coco no dia 1 e uma banana no dia 2? O evento ’o estudante come um coco no dia 1 e uma banana no dia 2’ corresponde ao evento C1B2C_{1}\cap B_{2}. Observe que a maneira como a informação sobre a probabilidade é codificada é por meio de probabilidades condicionais: a afirmação ’todos os dias o estudante escolhe uma fruta uniformemente ao acaso e a come’ pode ser interpretada como a probabilidade condicional de escolher qualquer uma das frutas restantes uniformemente ao acaso, então sabemos que

    (B2|C1)=39.\mathbb{P}(B_{2}|C_{1})=\frac{3}{9}.

    Segue da definição de probabilidade condicional que

    (C1B2)=(B2|C1)(C1)=39510=16.\mathbb{P}(C_{1}\cap B_{2})=\mathbb{P}(B_{2}|C_{1})\mathbb{P}(C_{1})=\frac{3}{% 9}\frac{5}{10}=\frac{1}{6}.

    Escrever a probabilidade de interseção de dois eventos como um produto de uma probabilidade condicional e uma probabilidade é chamado de ’regra da multiplicação’ e pode ser estendido para interseções de mais de dois eventos. Por exemplo, consideremos a seguinte pergunta.

  • (b)

    Qual é a probabilidade de no terceiro dia o estudante comer a última maçã? Como existem exatamente duas maçãs, isso significa que o estudante comerá a primeira maçã no dia 1 ou no dia 2. Portanto, se AA é o evento ’estudante come a última maçã no terceiro dia’, podemos escrever

    A=(A1A2cA3)(A1cA2A3).A=(A_{1}\cap A_{2}^{c}\cap A_{3})\cup(A_{1}^{c}\cap A_{2}\cap A_{3})\,. (4.20)

    Observe que os eventos A1A2cA3A_{1}\cap A_{2}^{c}\cap A_{3} e A1cA2A3A_{1}^{c}\cap A_{2}\cap A_{3} são disjuntos, portanto

    (A)\displaystyle\mathbb{P}(A) =(A1A2cA3)+(A1cA2A3)\displaystyle=\mathbb{P}(A_{1}\cap A_{2}^{c}\cap A_{3})+\mathbb{P}(A_{1}^{c}% \cap A_{2}\cap A_{3}) (4.21)
    =(A1)(A2c|A1)(A3|A1A2c)+(A1c)(A2|A1)(A3|A1cA2)\displaystyle=\mathbb{P}(A_{1})\mathbb{P}(A_{2}^{c}|A_{1})\mathbb{P}(A_{3}|A_{% 1}\cap A_{2}^{c})+\mathbb{P}(A_{1}^{c})\mathbb{P}(A_{2}|A_{1})\mathbb{P}(A_{3}% |A_{1}^{c}\cap A_{2}) (4.22)
    =2108918+8102918=145+145=245,\displaystyle=\frac{2}{10}\cdot\frac{8}{9}\cdot\frac{1}{8}+\frac{8}{10}\cdot% \frac{2}{9}\cdot\frac{1}{8}=\frac{1}{45}+\frac{1}{45}=\frac{2}{45}\,, (4.23)

    usando a regra da multiplicação duas vezes.

Proposição 4.24 (Regra da Multiplicação).

Seja (Ω,,)(\Omega,\mathcal{F},\mathbb{P}) um espaço de probabilidade e A1,,AnA_{1},\dots,A_{n}\in\mathcal{F} de modo que (A1An1)>0.\mathbb{P}(A_{1}\cap\dots\cap A_{n-1})>0. Então,

(A1An)=(A1)(A2|A1)(A3|A1A2)(An|A1An1).\mathbb{P}(A_{1}\cap\dots\cap A_{n})=\mathbb{P}(A_{1})\mathbb{P}(A_{2}|A_{1})% \mathbb{P}(A_{3}|A_{1}\cap A_{2})\dots\mathbb{P}(A_{n}|A_{1}\cap\dots\cap A_{n% -1})\,. (4.25)
Demonstração.

Observe que para k=1,,n1k=1,\dots,n-1, A1AkA1An1.A_{1}\cap\dots\cap A_{k}\supseteq A_{1}\cap\dots\cap A_{n-1}. Portanto, pela Proposição  3.25 e pela hipótese

(A1A2Ak)(A1An1)>0.\mathbb{P}(A_{1}\cap A_{2}\cap\dots\cap A_{k})\geqslant\mathbb{P}(A_{1}\cap% \dots\cap A_{n-1})>0\,. (4.26)

que garante que todas as probabilidades condicionais no lado direito sejam bem definidas. O resultado segue de uma aplicação direta da definição de probabilidade condicional no lado direito:

(A1)(A2|A1)(A3|A1A2)(An|A1An1)\displaystyle\mathbb{P}(A_{1})\mathbb{P}(A_{2}|A_{1})\mathbb{P}(A_{3}|A_{1}% \cap A_{2})\dots\mathbb{P}(A_{n}|A_{1}\cap\dots\cap A_{n-1}) (4.27)
=(A1)(A1A2)(A1)(A3A1A2)(A1A2)(A1An)(A1An1)\displaystyle=\mathbb{P}(A_{1})\frac{\mathbb{P}(A_{1}\cap A_{2})}{\mathbb{P}(A% _{1})}\frac{\mathbb{P}(A_{3}\cap A_{1}\cap A_{2})}{\mathbb{P}(A_{1}\cap A_{2})% }\dots\frac{\mathbb{P}(A_{1}\cap\dots\cap A_{n})}{\mathbb{P}(A_{1}\cap\dots% \cap A_{n-1})} (4.28)
=(A1An).\displaystyle=\mathbb{P}(A_{1}\cap\dots\cap A_{n})\,.\qed (4.29)

4.2 Lei da Probabilidade Total

Exemplo 4.30 (4.19 continuado).

Suponha que agora nos seja perguntado para calcular a probabilidade de o estudante comer um coco no dia 2. Para calcular a probabilidade, precisamos condicionar o que aconteceu no dia 1, percorrendo todas as opções possíveis. Neste caso, existem duas opções que afetam o cálculo da probabilidade condicional: se o estudante também comeu um coco no dia 1 (evento C1C_{1}) ou não (evento C1cC_{1}^{c}). Portanto,

(C2)=(C2|C1)(C1)+(C2|C1c)(C1c)=49510+59510=12.\mathbb{P}(C_{2})=\mathbb{P}(C_{2}|C_{1})\cdot\mathbb{P}(C_{1})+\mathbb{P}(C_{% 2}|C_{1}^{c})\cdot\mathbb{P}(C_{1}^{c})=\frac{4}{9}\cdot\frac{5}{10}+\frac{5}{% 9}\cdot\frac{5}{10}=\frac{1}{2}.

De onde vem esta fórmula? Nós escrevemos

C2=(C2C1)(C2C1c).C_{2}=(C_{2}\cap C_{1})\cup(C_{2}\cap C_{1}^{c}).

Assim, a partir da aditividade finita, segue que

(C2)=(C2C1)+(C2C1c).\mathbb{P}(C_{2})=\mathbb{P}(C_{2}\cap C_{1})+\mathbb{P}(C_{2}\cap C_{1}^{c}).

Ao aplicar a regra da multiplicação às probabilidades condicionais acima, obtemos a fórmula que é um exemplo específico da lei da probabilidade total.

A lei da probabilidade total nos permite calcular a probabilidade de um evento, condicionando em todas as instâncias possíveis de um ’evento diferente’, ou, de forma mais formal, em todos os conjuntos de uma partição do espaço amostral.

Definição 4.31.

Seja (Ω,,)(\Omega,\mathcal{F},\mathbb{P}) um espaço de probabilidade. Seja BnB_{n}\in\mathcal{F} para todos n=1,,N}n=1,\dots,N\} (onde NN é finito ou infinito). Então, a coleção de todos os BnB_{n}, {Bn:n=1,,N}\{B_{n}:n=1,\dots,N\}, é chamada de partição de Ω\Omega se

  • Bn∅︀n=1,,NB_{n}\neq\emptyset\quad\forall\,\,n=1,\dots,N.

  • BnBm=∅︀nmB_{n}\cap B_{m}=\emptyset\qquad\forall n\neq m

  • n=1NBn=Ω\bigcup_{n=1}^{N}B_{n}=\Omega.

Portanto, uma partição é uma coleção de eventos não vazios e disjuntos que abrange todo o espaço.

Proposição 4.32 (Lei da Probabilidade Total).

Seja (Ω,,)(\Omega,\mathcal{F},\mathbb{P}) um espaço de probabilidade e {Bn:n=1,,N}\{B_{n}:n=1,\dots,N\} com NN finito ou infinito, seja uma partição de Ω\Omega tal que (Bn)>0,n=1,,N\mathbb{P}(B_{n})>0,\quad\forall\,\,n=1,\dots,N. Então, para todo AA\in\mathcal{F}

(A)=n=1N(A|Bn)(Bn).\mathbb{P}(A)=\sum_{n=1}^{N}\mathbb{P}(A|B_{n})\mathbb{P}(B_{n})\,. (4.33)
Demonstração.

Observe que, uma vez que {Bn:n=1,,N}\{B_{n}:n=1,\dots,N\} forma uma partição de Ω\Omega, temos

A=AΩ=An=1NBn=n=1N(ABn).A=A\cap\Omega=A\cap\bigcup_{n=1}^{N}B_{n}=\bigcup_{n=1}^{N}(A\cap B_{n})\,. (4.34)

Além disso, uma vez que os BnB_{n}’s são disjuntos, os conjuntos {ABn:n=1N}\{A\cap B_{n}:n=1\dots N\} também são disjuntos, portanto, pela aditividade finita/contável, temos

(A)=(n=1NABn)=n=1N(ABn)=n=1N(A|Bn)(Bn).\mathbb{P}(A)=\mathbb{P}\left(\bigcup_{n=1}^{N}{A\cap B_{n}}\right)=\sum_{n=1}% ^{N}\mathbb{P}(A\cap B_{n})=\sum_{n=1}^{N}\mathbb{P}(A|B_{n})\mathbb{P}(B_{n})\,. (4.35)

Na última igualdade, usamos a definição de probabilidade condicional com a suposição de que (Bn)>0n=1,,N\mathbb{P}(B_{n})>0\quad\forall\,\,n=1,\dots,N. ∎

Exemplo 4.36.

Um estudante enfrenta uma pergunta de múltipla escolha, com 4 opções. O estudante ou sabe a resposta ou escolhe uma das respostas de forma uniforme e aleatória. A probabilidade de o estudante saber a resposta é 23\frac{2}{3}.

  • (a)

    O estudante deseja calcular a probabilidade de responder corretamente. Vamos começar definindo os eventos de interesse:

    A\displaystyle A ={o estudante responde corretamente}\displaystyle=\{\text{o estudante responde corretamente}\} (4.37)
    B\displaystyle B ={o estudante sabe a resposta}\displaystyle=\{\text{o estudante sabe a resposta}\} (4.38)

    As informações que temos sobre a probabilidade são que ’o estudante ou sabe a resposta (e, portanto, responde corretamente)’ ou ’escolhe uma das respostas de forma uniforme e aleatória’. Isso pode ser expresso como (A|B)=1\mathbb{P}(A|B)=1 e (A|Bc)=14\mathbb{P}(A|B^{c})=\frac{1}{4}. Também nos foi dito que a probabilidade de o estudante saber a resposta é 23\frac{2}{3}. Portanto, (B)=23\mathbb{P}(B)=\frac{2}{3}. Dadas essas informações, nos é pedido para encontrar (A)\mathbb{P}(A).

    Uma vez que BB e BcB^{c} formam uma partição do espaço amostral, aplicando a lei da probabilidade total obtemos

    (A)=(A|B)(B)+(A|Bc)(Bc)=123+1413=34.\mathbb{P}(A)=\mathbb{P}(A|B)\mathbb{P}(B)+\mathbb{P}(A|B^{c})\mathbb{P}(B^{c}% )=1\cdot\frac{2}{3}+\frac{1}{4}\cdot\frac{1}{3}=\frac{3}{4}.

O professor gostaria de saber a probabilidade de o estudante saber a resposta se ele respondeu corretamente, ou seja, (B|A)\mathbb{P}(B|A). Como podemos usar as informações que temos para calcular isso? Escrevemos

(B|A)=(AB)(A)=(A|B)(B)(A)=2/33/4=89.\mathbb{P}(B|A)=\frac{\mathbb{P}(A\cap B)}{\mathbb{P}(A)}=\frac{\mathbb{P}(A|B% )\mathbb{P}(B)}{\mathbb{P}(A)}=\frac{2/3}{3/4}=\frac{8}{9}.

Isso é um exemplo específico do que é conhecido como a fórmula de Bayes.

4.3 Teorema de Bayes

Teorema 4.39 (Teorema de Bayes).

Seja (Ω,,)(\Omega,\mathcal{F},\mathbb{P}) um espaço de probabilidade e {Bn:n=1,,N}\{B_{n}:n=1,\dots,N\}, com NN finito ou infinito, seja uma partição de Ω\Omega tal que (Bn)>0n=1,,N\mathbb{P}(B_{n})>0\quad\forall\,\,n=1,\dots,N. Então, para AA\in\mathcal{F} tal que (A)>0\mathbb{P}(A)>0

(Bn|A)=(A|Bn)(Bn)j=1N(A|Bj)(Bj)n=1,,N.\mathbb{P}(B_{n}|A)=\frac{\mathbb{P}(A|B_{n})\mathbb{P}(B_{n})}{\sum_{j=1}^{N}% \mathbb{P}(A|B_{j})\mathbb{P}(B_{j})}\quad\forall\,\,n=1,\dots,N\,. (4.40)
Demonstração.

Pela definição de probabilidade condicional e como AA é tal que (A)>0\mathbb{P}(A)>0, então pela definição de probabilidade condicional e pela lei da probabilidade total:

(Bn|A)=(BnA)(A)\displaystyle\mathbb{P}(B_{n}|A)=\frac{\mathbb{P}(B_{n}\cap A)}{\mathbb{P}(A)} =(A|Bn)(Bn)(A)=(A|Bn)(Bn)j=1N(A|Bj)(Bj).\displaystyle=\frac{\mathbb{P}(A|B_{n})\mathbb{P}(B_{n})}{\mathbb{P}(A)}=\frac% {\mathbb{P}(A|B_{n})\mathbb{P}(B_{n})}{\sum_{j=1}^{N}\mathbb{P}(A|B_{j})% \mathbb{P}(B_{j})}\,.\qed (4.41)
Exemplo 4.42 (Falsos Positivos).

Uma doença tem uma incidência de 11 em 100100 na população. O teste diagnóstico disponível é tal que

  • se você tem a doença, o teste é positivo com probabilidade 72100\frac{72}{100}

  • se você não tem a doença, o teste é positivo com probabilidade 51000\frac{5}{1000}.

Uma pessoa recebe um resultado positivo. Qual é a probabilidade de ela realmente ter a doença?

Os dois eventos de interesse são D={D=\{a pessoa tem a doença}\} e P={P=\{a pessoa tem um teste positivo}\}. Estamos interessados em (D|P)\mathbb{P}(D|P). As informações que temos são (D)=1100\mathbb{P}(D)=\frac{1}{100}, (P|D)=72100\mathbb{P}(P|D)=\frac{72}{100} e (P|Dc)=51000\mathbb{P}(P|D^{c})=\frac{5}{1000}. Pelo Teorema de Bayes

(D|P)\displaystyle\mathbb{P}(D|P) =(P|D)(D)(P|D)(D)+(P|Dc)(Dc)0.59.\displaystyle=\frac{\mathbb{P}(P|D)\mathbb{P}(D)}{\mathbb{P}(P|D)\mathbb{P}(D)% +\mathbb{P}(P|D^{c})\mathbb{P}(D^{c})}\approx 0.59\,. (4.43)

O Teorema de Bayes nos permite calcular a probabilidade condicional de um evento, dado outro, em termos das probabilidades condicionais inversas. É particularmente útil em Estatística, levando a uma área inteira chamada Estatística Bayesiana: enquanto na probabilidade, estamos interessados em calcular probabilidades dadas um ’modelo’ (ou seja, informações suficientes que determinam as probabilidades), na estatística, estamos interessados em escolher um modelo, dadas as observações que fazemos. O Teorema de Bayes nos permite conectar os dois.

4.4 Independência

Definição 4.44.

Seja (Ω,,)(\Omega,\mathcal{F},\mathbb{P}) um espaço de probabilidade. Dizemos que os eventos AA e BB são independentes se (AB)=(A)(B).\mathbb{P}(A\cap B)=\mathbb{P}(A)\cdot\mathbb{P}(B).

Uma maneira de pensar na independência é que o conhecimento sobre a ocorrência de um dos eventos não aumentará nem diminuirá a chance de o outro ocorrer. De fato, assumindo que (B)>0\mathbb{P}(B)>0, você pode verificar que AA e BB são independentes se e somente se (A|B)=(A)\mathbb{P}(A|B)=\mathbb{P}(A) (exercício!). Em particular, se AA e BB são independentes, então AcA^{c} e BB também são independentes.

Observação 3.

As noções de eventos "independentes"e "disjuntos"são muito diferentes. Na verdade, essas noções são normalmente incompatíveis: dois eventos disjuntos são independentes se e somente se a probabilidade de um deles for 0 (exercício!).

Definição 4.45.

Seja (Ω,,)(\Omega,\mathcal{F},\mathbb{P}) um espaço de probabilidade e A1,A2,,AnA_{1},A_{2},\dots,A_{n} sejam eventos. Dizemos que os eventos A1,,AnA_{1},\dots,A_{n} são mutuamente independentes aos pares se AjA_{j} e AkA_{k} forem independentes para todas as escolhas de jj e kk distintos. Dizemos que os eventos A1,,AnA_{1},\dots,A_{n} são mutuamente independentes, se

(Aj1Aj2Ajk)=(Aj1)(Aj2)(Ajk)\mathbb{P}(A_{j_{1}}\cap A_{j_{2}}\cap\dots\cap A_{j_{k}})=\mathbb{P}(A_{j_{1}% })\mathbb{P}(A_{j_{2}})\cdots\mathbb{P}(A_{j_{k}})

para todo k=2,,nk=2,\dots,n e para todas as escolhas de 1j1<j2<<jkn1\leqslant j_{1}<j_{2}<\dots<j_{k}\leqslant n.

No caso em que n=2n=2, independência aos pares é obviamente o mesmo que independência mútua. No caso em que n=3n=3, independência aos pares significa

(A1A2)=(A1)(A2)\displaystyle\mathbb{P}(A_{1}\cap A_{2})=\mathbb{P}(A_{1})\cdot\mathbb{P}(A_{2}) (4.46)
(A1A3)=(A1)(A3)\displaystyle\mathbb{P}(A_{1}\cap A_{3})=\mathbb{P}(A_{1})\cdot\mathbb{P}(A_{3}) (4.47)
(A2A3)=(A2)(A3).\displaystyle\mathbb{P}(A_{2}\cap A_{3})=\mathbb{P}(A_{2})\cdot\mathbb{P}(A_{3% }). (4.48)

enquanto independência mútua significa

(A1A2)=(A1)(A2)\displaystyle\mathbb{P}(A_{1}\cap A_{2})=\mathbb{P}(A_{1})\cdot\mathbb{P}(A_{2}) (4.49)
(A1A3)=(A1)(A3)\displaystyle\mathbb{P}(A_{1}\cap A_{3})=\mathbb{P}(A_{1})\cdot\mathbb{P}(A_{3}) (4.50)
(A2A3)=(A2)(A3)\displaystyle\mathbb{P}(A_{2}\cap A_{3})=\mathbb{P}(A_{2})\cdot\mathbb{P}(A_{3}) (4.51)
(A1A2A3)=(A1)(A2)(A3).\displaystyle\mathbb{P}(A_{1}\cap A_{2}\cap A_{3})=\mathbb{P}(A_{1})\cdot% \mathbb{P}(A_{2})\cdot\mathbb{P}(A_{3}). (4.52)

Isso ilustra que a independência mútua é mais forte do que a independência aos pares. É difícil listar as condições para valores maiores de nn. Por exemplo, se n=5n=5, a independência aos pares envolve (52)=10\binom{5}{2}=10 condições a serem verificadas, e a independência mútua envolve 2551=262^{5}-5-1=26 condições a serem verificadas.

Exemplo 4.53.

Dois dados são lançados. Sejam

A1\displaystyle A_{1} ={o primeiro dado é par}\displaystyle=\{\text{o primeiro dado \'{e} par}\} (4.54)
A2\displaystyle A_{2} ={o segundo dado é ímpar}\displaystyle=\{\text{o segundo dado \'{e} \'{\i}mpar}\} (4.55)
A3\displaystyle A_{3} ={soma dos dados é 7}.\displaystyle=\{\text{soma dos dados \'{e} }7\}. (4.56)

Esses eventos são independentes aos pares, pois

(A1A2)=14=(A1)(A2)\displaystyle\mathbb{P}(A_{1}\cap A_{2})=\frac{1}{4}=\mathbb{P}(A_{1})\cdot% \mathbb{P}(A_{2}) (4.57)
(A1A3)=112=(A1)(A3)\displaystyle\mathbb{P}(A_{1}\cap A_{3})=\frac{1}{12}=\mathbb{P}(A_{1})\cdot% \mathbb{P}(A_{3}) (4.58)
(A2A3)=112=(A2)(A3).\displaystyle\mathbb{P}(A_{2}\cap A_{3})=\frac{1}{12}=\mathbb{P}(A_{2})\cdot% \mathbb{P}(A_{3}). (4.59)

Isso significa que, para cada par de eventos dessa família, o conhecimento sobre a ocorrência de um deles não afetará as chances de que os outros dois ocorram. Em particular, nem A1A_{1} nem A2A_{2} isoladamente afetarão as chances de A3A_{3}. No entanto, saber que A1A_{1} e A2A_{2} ocorrem aumentará de fato a chance de que A3A_{3} ocorra, como

(A3|A1A2)=1316=(A3).\mathbb{P}(A_{3}|A_{1}\cap A_{2})=\frac{1}{3}\neq\frac{1}{6}=\mathbb{P}(A_{3}).

De maneira mais formal,

(A1A2A3)=112124=(A1A2A3)=(A1)(A2)(A3).\mathbb{P}(A_{1}\cap A_{2}\cap A_{3})=\frac{1}{12}\neq\frac{1}{24}=\mathbb{P}(% A_{1}\cap A_{2}\cap A_{3})=\mathbb{P}(A_{1})\cdot\mathbb{P}(A_{2})\cdot\mathbb% {P}(A_{3}).
Exemplo 4.60.

Lance três moedas justas. Considere os eventos:

A1=Primeira moeda dá Cara\displaystyle A_{1}=\text{Primeira moeda d\'{a} Cara} (4.61)
A2=Segunda moeda dá o mesmo que a primeira moeda\displaystyle A_{2}=\text{Segunda moeda d\'{a} o mesmo que a primeira moeda} (4.62)
A3=Segunda moeda dá o mesmo que a terceira moeda\displaystyle A_{3}=\text{Segunda moeda d\'{a} o mesmo que a terceira moeda} (4.63)
A4=Terceira dá Coroa\displaystyle A_{4}=\text{Terceira d\'{a} Coroa} (4.64)

Então:
Esses eventos são independentes aos pares.
A1A_{1}, A2A_{2} e A3A_{3} são mutuamente independentes.
A1A_{1}, A2A_{2}, A3A_{3} e A4A_{4} não são mutuamente independentes.