1 O Paradoxo de Simpson

\MakeFramed
##     C   0   1
## Z T
## 0 0    36 234
##   1     6  81
## 1 0    25  55
##   1    71 192
\endMakeFramed
Tabela 1: Frequência conjunta das variáveis binárias TT, CC, e ZZ.

Considere que observamos em 700700 pacientes 33 variáveis: TT e CC são as indicadoras de que, respectivamente, o paciente recebeu um tratamento e o paciente curou de uma doença, e ZZ é uma variável binária cujo significado será discutido mais tarde. Os dados foram resumidos na tabela 1.

Em uma primeira análise desta tabela, podemos verificar a efetividade do tratamento dentro de cada valor de ZZ. Por exemplo, quando Z=0Z=0, a frequência de recuperação dentre aqueles que receberam e não receberam o tratamento são, respectivamente: 816+810.93\frac{81}{6+81}\approx 0.93 e 23436+2340.87\frac{234}{36+234}\approx 0.87. Similarmente, quando Z=1Z=1, as respectivas frequências são: 19271+1920.73\frac{192}{71+192}\approx 0.73 e 5525+550.69\frac{55}{25+55}\approx 0.69. À primeira vista, para todos os valores de ZZ, a taxa de recuperação é maior com o tratamento do que sem ele. Isso nos traz informação de que o tratamento é efetivo na recuperação do paciente?

Em uma segunda análise, podemos considerar apenas as contagens para as variáveis TT e CC, sem estratificar por ZZ. Dentre os pacientes que receberam e não receberam o tratamento as taxas de recuperação são, respectivamente: 81+1926+71+81+1920.78\frac{81+192}{6+71+81+192}\approx 0.78 e 234+5536+25+234+550.83\frac{234+55}{36+25+234+55}\approx 0.83. Isto é, sem estratificar por ZZ, a frequência de recuperação é maior dentre aqueles que não receberam o tratamento do que dentre aqueles que o receberam.

O que é possível concluir destas análises? Uma conclusão ingênua poderia ser a de que, se ZZ não for observada, então o tratamento não é recomendado. Por outro lado, se ZZ é observada, não importa qual seja o seu valor, o tratamento será recomendado. A falta de sentido desta conclusão ingênua é o que tornou este tipo de dado famoso como sendo um caso de Paradoxo de Simpson (Simpson1951).

Contudo, se a conclusão ingênua é paradoxal e incorreta, então qual conclusão pode ser obtida destes dados? A primeira lição que verificaremos é que não é possível obter uma conclusão sobre o efeito causal do tratamento usando apenas a informação na tabela, isto é, associações. Para tal, analisaremos a tabela dando dois nomes distintos para a variável ZZ. Veremos que, usando exatamente os mesmos dados, uma conclusão válida diferente é obtida para cada nome de ZZ. Em outras palavras, o efeito causal depende de mais informação do que somente aquela disponível na tabela.

Em um primeiro cenário, considere que ZZ é a indicadora de que o sexo do paciente é masculino. Observando a tabela, notamos que, proporcionalmente, mais homens receberam o tratamento do que mulheres. Como o tratamento não tem qualquer influência sobre o sexo do paciente, podemos imaginar um cenário em que, proporcionalmente, mais homens escolheram receber o tratamento do que mulheres.

Usando esta observação, podemos fazer sentido do Paradoxo anteriormente obtido. Quando agregamos os dados, notamos que o primeiro grupo de pacientes que receberam o tratamento é predominantemente composto por homens e, similarmente, o segundo grupo de pacientes que não receberam o tratamento é predominantemente composto por mulheres. Isto é, na análise dos dados agregados estamos essencialmente comparando a taxa de recuperação de homens que receberam o tratamento com a de mulheres que não receberam o tratamento. Se assumirmos que, independentemente do tratamento, mulheres tem uma probabilidade de recuperação maior do que homens, então a taxa de recuperação menor no primeiro grupo pode ser explicada pelo fato de ele ser composto predominantemente por homens e não pelo fato de ser o grupo de pacientes que recebeu o tratamento. Também, da análise anterior, obtemos que para cada sexo, a taxa de recuperação é maior com o tratamento do que sem ele. Isto é, neste cenário, o tratamento parece efetivo para a recuperação dos pacientes. Isto significa que a análise estratificando ZZ é sempre a correta?

Caso o significado da variável ZZ seja outro, veremos que esta conclusão é incorreta. Considere que ZZ é a indicadora de que a pressão sanguínea do paciente está elevada. Além disso, é sabido que o tratamento tem como efeito colateral aumentar o risco de pressão elevada nos pacientes. Neste caso, o fato de que há mais indivíduos com pressão elevada dentre aqueles que receberam o tratamento é um efeito direto do tratamento.

Usando esta observação, podemos chegar a outras conclusões sobre o efeito do tratamento sobre a recuperação dos pacientes. Para tal, considere que o tratamento tem um efeito positivo moderado sobre a recuperação dos pacientes, mas que a pressão sanguínea elevada prejudica gravemente a recuperação. Quando fazemos comparações apenas dentre indivíduos com pressão alta ou apenas dentre indivíduos sem pressão alta, não é possível identificar o efeito coletaral do tratamento. Isto é, observamos apenas o efeito positivo moderado que o tratamento tem sobre a recuperação. Por outro lado, quando fazemos a análise agregada, observamos que a frequência de recuperação é maior dentre os indivíduos que não receberam o tratamento do que dentre os que o receberam. Isso ocorre pois o efeito colateral negativo tem um impacto maior sobre a recuperação do paciente do que o efeito geral benéfico. Assim, neste cenário, o tratamento não é eficiente para levar à recuperação do paciente.

Como nossas conclusões dependem de qual história adotamos, podemos ver que a mera apresentação da tabela é insuficiente para determinar a eficiência do tratamento. Observando com cuidado os cenários, identificamos uma explicação geral para as diferentes conclusões. No primeiro cenário, quando ZZ é sexo, ZZ é uma causa do indivíduo receber ou não o tratamento. Já no segundo cenário, quando ZZ é pressão elevada, o tratamento é causa de ZZ. Isto é, a diferença nas relações entre as variáveis explica as diferenças entre as conclusões obtidas.

Ao longo do curso, desenvolveremos ferramentas para formalizar a diferença entre estes cenários e, com base nisso, conseguir estimar o efeito causal que uma variável XX tem sobre outra variável YY. Contudo, para tal, será necessário desenvolver um modelo em que seja possível descrever relações causais. Esta questão será tratada no capítulo 2.

1.1 Exercícios

Exercício 1.1 (Glymour2016[p.6]).

Há evidência de que há correlação positiva entre uma pessoa estar atrasada e estar apressada. Isso significa que uma pessoa pode evitar atrasos se não tiver pressa? Justifique sua resposta em palavras.