1 O Paradoxo de Simpson
## C 0 1 ## Z T ## 0 0 36 234 ## 1 6 81 ## 1 0 25 55 ## 1 71 192
Considere que observamos em pacientes variáveis: e são as indicadoras de que, respectivamente, o paciente recebeu um tratamento e o paciente curou de uma doença, e é uma variável binária cujo significado será discutido mais tarde. Os dados foram resumidos na tabela 1.
Em uma primeira análise desta tabela, podemos verificar a efetividade do tratamento dentro de cada valor de . Por exemplo, quando , a frequência de recuperação dentre aqueles que receberam e não receberam o tratamento são, respectivamente: e . Similarmente, quando , as respectivas frequências são: e . À primeira vista, para todos os valores de , a taxa de recuperação é maior com o tratamento do que sem ele. Isso nos traz informação de que o tratamento é efetivo na recuperação do paciente?
Em uma segunda análise, podemos considerar apenas as contagens para as variáveis e , sem estratificar por . Dentre os pacientes que receberam e não receberam o tratamento as taxas de recuperação são, respectivamente: e . Isto é, sem estratificar por , a frequência de recuperação é maior dentre aqueles que não receberam o tratamento do que dentre aqueles que o receberam.
O que é possível concluir destas análises? Uma conclusão ingênua poderia ser a de que, se não for observada, então o tratamento não é recomendado. Por outro lado, se é observada, não importa qual seja o seu valor, o tratamento será recomendado. A falta de sentido desta conclusão ingênua é o que tornou este tipo de dado famoso como sendo um caso de Paradoxo de Simpson (Simpson1951).
Contudo, se a conclusão ingênua é paradoxal e incorreta, então qual conclusão pode ser obtida destes dados? A primeira lição que verificaremos é que não é possível obter uma conclusão sobre o efeito causal do tratamento usando apenas a informação na tabela, isto é, associações. Para tal, analisaremos a tabela dando dois nomes distintos para a variável . Veremos que, usando exatamente os mesmos dados, uma conclusão válida diferente é obtida para cada nome de . Em outras palavras, o efeito causal depende de mais informação do que somente aquela disponível na tabela.
Em um primeiro cenário, considere que é a indicadora de que o sexo do paciente é masculino. Observando a tabela, notamos que, proporcionalmente, mais homens receberam o tratamento do que mulheres. Como o tratamento não tem qualquer influência sobre o sexo do paciente, podemos imaginar um cenário em que, proporcionalmente, mais homens escolheram receber o tratamento do que mulheres.
Usando esta observação, podemos fazer sentido do Paradoxo anteriormente obtido. Quando agregamos os dados, notamos que o primeiro grupo de pacientes que receberam o tratamento é predominantemente composto por homens e, similarmente, o segundo grupo de pacientes que não receberam o tratamento é predominantemente composto por mulheres. Isto é, na análise dos dados agregados estamos essencialmente comparando a taxa de recuperação de homens que receberam o tratamento com a de mulheres que não receberam o tratamento. Se assumirmos que, independentemente do tratamento, mulheres tem uma probabilidade de recuperação maior do que homens, então a taxa de recuperação menor no primeiro grupo pode ser explicada pelo fato de ele ser composto predominantemente por homens e não pelo fato de ser o grupo de pacientes que recebeu o tratamento. Também, da análise anterior, obtemos que para cada sexo, a taxa de recuperação é maior com o tratamento do que sem ele. Isto é, neste cenário, o tratamento parece efetivo para a recuperação dos pacientes. Isto significa que a análise estratificando é sempre a correta?
Caso o significado da variável seja outro, veremos que esta conclusão é incorreta. Considere que é a indicadora de que a pressão sanguínea do paciente está elevada. Além disso, é sabido que o tratamento tem como efeito colateral aumentar o risco de pressão elevada nos pacientes. Neste caso, o fato de que há mais indivíduos com pressão elevada dentre aqueles que receberam o tratamento é um efeito direto do tratamento.
Usando esta observação, podemos chegar a outras conclusões sobre o efeito do tratamento sobre a recuperação dos pacientes. Para tal, considere que o tratamento tem um efeito positivo moderado sobre a recuperação dos pacientes, mas que a pressão sanguínea elevada prejudica gravemente a recuperação. Quando fazemos comparações apenas dentre indivíduos com pressão alta ou apenas dentre indivíduos sem pressão alta, não é possível identificar o efeito coletaral do tratamento. Isto é, observamos apenas o efeito positivo moderado que o tratamento tem sobre a recuperação. Por outro lado, quando fazemos a análise agregada, observamos que a frequência de recuperação é maior dentre os indivíduos que não receberam o tratamento do que dentre os que o receberam. Isso ocorre pois o efeito colateral negativo tem um impacto maior sobre a recuperação do paciente do que o efeito geral benéfico. Assim, neste cenário, o tratamento não é eficiente para levar à recuperação do paciente.
Como nossas conclusões dependem de qual história adotamos, podemos ver que a mera apresentação da tabela é insuficiente para determinar a eficiência do tratamento. Observando com cuidado os cenários, identificamos uma explicação geral para as diferentes conclusões. No primeiro cenário, quando é sexo, é uma causa do indivíduo receber ou não o tratamento. Já no segundo cenário, quando é pressão elevada, o tratamento é causa de . Isto é, a diferença nas relações entre as variáveis explica as diferenças entre as conclusões obtidas.
Ao longo do curso, desenvolveremos ferramentas para formalizar a diferença entre estes cenários e, com base nisso, conseguir estimar o efeito causal que uma variável tem sobre outra variável . Contudo, para tal, será necessário desenvolver um modelo em que seja possível descrever relações causais. Esta questão será tratada no capítulo 2.
1.1 Exercícios
Exercício 1.1 (Glymour2016[p.6]).
Há evidência de que há correlação positiva entre uma pessoa estar atrasada e estar apressada. Isso significa que uma pessoa pode evitar atrasos se não tiver pressa? Justifique sua resposta em palavras.