Significância estatística, correlação e causalidade

Significância estatística, correlação e causalidade

Após tudo que publicamos, insistimos que o problema da Crise Estatística não pode ser solucionado apenas a partir de uma interpretação técnica dos resultados, sendo um problema epistemológico que aponta para uma crise de paradigmas.

O Modus Tollens é a forma de abstração presente na formulação de Popper, que acreditava ter resolvido o problema da indução conforme apresentado por Hume. É importante notar que, na sua forma estatística, ele não nos permite nunca afirmar, com certeza, que a hipótese alternativa está correta, apenas que há uma grande probabilidade de podermos descartar a hipótese nula (ROSA, 2005, p. 220).

Mesmo que pudéssemos ter certeza estatística de que os dados coletados representarem uma correlação (digamos, além de 99,999999% de confiabilidade), a natureza dessa correlação constitui um outro problema sobre o qual o teste de significância pouco pode nos dizer. Para ilustrar esse ponto, Gould abre um ensaio perguntando-se:

Por acaso pregadores batistas causam bebedeiras? Eu levanto este questionamento inusual porque uma velha e famosa tabela demonstra uma clara correlação positiva entre o número de pregadores e a frequência da prisão por embriaguez durante a segunda metade do século XIX nos Estados Unidos (Gould, 1995, p. 296).

Gould responde que não, afinal existem diversas outras hipóteses alternativas, que não a relação causal de que os pregadores causam bebedeiras, que condizem com a negação da hipótese nula: pode-se sugerir que “um aumento no consumo de álcool promove a contratação de mais pregadores”. Ou ainda a possibilidade mais provável de que pregar e beber não tenham uma relação causal entre si, mas que “seu incremento simultâneo reflita uma ligação em comum a um terceiro fator, verdadeiramente determinante. O aumento da população estadunidense durante o século XIX promoveu um aumento em milhares de fenômenos de outra forma não relacionados”. (GOULD, 1995, p. 296).

O fato de se ter um dado objetivo, um resultado estatisticamente significante implica, como vimos em duas opções, a hipótese nula ser verdadeira e estarmos diante de um fenômeno altamente improvável, ou dela ser falsa. A escolha entre essas duas respostas que os dados nos apresentam necessita de uma análise qualitativa que ultrapassa o escopo da estatística e que muitas vezes parte de crenças que existem antes e fora do experimento modelo. No limite, esta abordagem conhecida como frequentismo leva a um problema de definição circular, pois a medida do erro de uma medida de probabilidade só pode ser expressa como uma probabilidade.

Os neutrinos mais rápidos que a luz

Os neutrinos mais rápidos que a luz

O uso da significância estatística não garante a eliminação dos erros. Vejamos o caso da anomalia dos neutrinos mais rápidos do que a luz. Em março de 2011, uma observação do experimento OPERA, realizado com a colaboração de dois laboratórios, o CERN e o LNGS, supostamente teria observado neutrinos se deslocarem a velocidades superiores à da luz com uma significância de 6 sigma, ou seja, um grau de certeza estatística ainda maior que o já consagrado padrão 5 sigma.

O resultado foi, oito meses depois, novamente replicado pela mesma equipe de pesquisadores, desta vez com um nível de significância ainda maior, 6.2 sigma. Isso causou um furor na imprensa, pois a constância da velocidade da luz no vácuo e o fato desta ser o limite para todo o deslocamento de matéria ou de informação é um dos pilares da física.

Cabe ressaltar que neste caso os físicos ligados ao experimento se abstiveram de interpretar os resultados, adotando uma postura cautelosa, ao afirmarem em seu artigo que:

Apesar da grande significância da medida aqui relatada e da estabilidade da análise, o impacto potencialmente grande do resultado motiva a continuação de nossos estudos para investigar possíveis efeitos sistemáticos ainda desconhecidos que poderiam explicar a anomalia observada. Nós deliberadamente não tentamos qualquer interpretação teórica ou fenomenológica dos resultados (ADAM, 2012).

No final das contas, após tentativas infrutíferas de replicações externas, percebeu-se que a verdadeira causa deste resultado era um cabo de fibra ótico mal atarraxado, além do mal funcionamento de um componente eletrônico. Contudo, a imprensa já havia publicado suas manchetes sensacionalistas de que os físicos haviam detectados partículas viajando acima da velocidade da luz e que Einstein estava errado.

Valor-p, falsos positivos e falsos negativos: um exemplo

Valor-p, falsos positivos e falsos negativos: um exemplo

Pensemos, no seguinte problema: uma versão simplificada da simulação apresentada por Colquhoun (2014), cujo código fonte do script foi disponibilizado para reprodução.

Em um determinado campo, um total de mil hipóteses estão sendo investigadas. Estabelecemos arbitrariamente que, dentre essas, 100 refletem relações verdadeiras presentes na realidade, ainda que ninguém saiba quais sejam. Digamos que os experimentos, quando diante das hipóteses verdadeiras, identifiquem 80% delas. Neste caso, a taxa de falso-negativo β é de 20%. Imaginemos uma taxa de falso-positivo α mais baixa, de apenas 5%. Como temos um grande número de hipóteses falsas a serem testadas, o que é natural, descartamos corretamente 855 hipóteses falsas, mas geramos 45 falsos positivos.

A nova verdade estabelecida neste campo compreenderá 125 hipóteses alternativas, das quais mais de um terço é falsa. Desta forma, mesmo seguindo-se todos os procedimentos padrões, quase um terço das descobertas anunciadas são falsas.

Algumas soluções foram apresentadas por estatísticos para que esses enganos sejam sanados. Uma delas é a adoção de valores de p mais baixos, como é o caso da física de partículas, que adota o valor de p = 0.0000003, o que também é conhecido como cinco sigma.

Neste caso, os erros de falso positivo seriam muito mais raros do que quando se adota o p valendo 0.5. A probabilidade de que, com a hipótese nula verdadeira os resultados obtidos, ou outros mais extremos, teoricamente será de 1 em 3,5 milhões.

Equilibrando-se entre falsos-positivos e falsos-negativos

Equilibrando-se entre falsos-positivos e falsos-negativos

A própria ideia de certeza probabilística, se tomada mecanicamente, como comumente o é, pode ser considerada uma aporia. Pela própria natureza do conhecimento estatístico, ele nunca é livre de erro, ainda que teoricamente (e em alguns casos muito excepcionais) possamos fazer com que a possibilidade de um erro seja tão remota que não fosse plausível sua ocorrência, nem que o nosso universo fosse de ordens de magnitude mais velho do que se acredita que ele seja. Contudo, os modelos com os quais os pesquisadores lidam na prática sempre contêm a possibilidade real da ocorrência de dois tipos de erros que coexistem em uma relação dialética.

O Erro de tipo 1, também conhecido como falso-positivo, ocorre quando a hipótese nula (H0) é verdadeira, mas a rejeitamos. Dessa forma enxergamos uma relação que não existe na realidade. O Erro de tipo 2, ou falso-negativo, ocorre quando a hipótese nula (H0) é falsa, mas não é rejeitada. Isso significa que deixamos de perceber uma relação presente na realidade. As taxas de erros dos tipos 1 e 2 são denominadas, respectivamente, α e β. Apesar de muitas vezes serem tomadas como tal, nenhuma delas é o valor-p.

Um dos equívocos conceituais acerca do valor-p é de que este seria a probabilidade da hipótese nula de um teste ser verdadeira, ou a probabilidade de um dado resultado ter sido obtido por acaso, ou mesmo que o valor-p seria a probabilidade da hipótese nula ter sido equivocadamente rejeitada.

De forma bem objetiva, o valor-p é a probabilidade do resultado obtido, ou algum mais extremo que ele (no sentido de reforçar a correlação) ter sido obtido dado que a hipótese nula seja verdadeira1. Desta forma, se o valor de p, que é calculado apenas ao final do experimento, de posse de todos os dados, for baixo, isso deve significar duas coisas: ou que a hipótese nula é verdadeira e que um evento altamente improvável ocorreu (gerando um falso-positivo), ou que a hipótese nula é falsa (confirmação da hipótese alternativa). O quão improvável é este falso positivo e se a resposta para essa questão está toda contida dentro do modelo matemático é um dos dilemas associados à Crise Estatística.

Se aumentarmos a sensibilidade da nossa detecção, de forma a minimizar a ocorrência de erros de falso-negativo (tipo 2), no qual deixarmos de perceber uma relação existente, consequentemente aumentaremos a incidência de erros de falso-positivo (tipo 1), no qual enxergamos uma relação quando ela não está presente na realidade. Se diminuirmos a sensibilidade, teremos menos erros de falso-positivo (tipo 1), mas deixaremos passar um número maior de efeitos não percebidos, logo, um aumento dos erros de falso-negativo (tipo 2).

Essa calibração do experimento pode se dar de várias formas, seja efetivamente calibrando um sensor de detecção em um equipamento, seja matematicamente, estabelecendo os tipos de controle de erros. Por exemplo, se for apresentado, para decidir se foi forjado ou efetivamente aleatório, que o resultado de 40 lances de uma moeda seja uma série com 20 caras seguidas depois de 20 coroas, pode-se chutar, com uma grande probabilidade de acerto, que este resultado não foi efetivamente gerado por um processo aleatório. Poderíamos excluir tal resultado das nossas medições, mas, mesmo pertencendo a um conjunto raro de resultados, ele em si é tão possível quanto qualquer outro resultado.

No caso de exames de detecções de doenças, como o HIV, a calibração é favorável à ocorrência de erros de tipo 1, pois é preferível dar uma notícia ruim erroneamente a uma pessoa que ao final descobrirá com testes confirmatórios (que fazem parte do protocolo) não ter a doença, do que deixar de detectar a doença em uma pessoa que precisa de tratamento.

1Existe uma diferença de interpretação sobre o significado do valor-p de acordo com o modelo de teste de hipóteses escolhido, o modelo de Neyman-Pearson, ou o de Fisher. Trata-se de um dissenso que perdura há décadas que tem como base uma questão filosófica acerca do papel dos modelos em inferência estatística. A base da controvérsia é a relação entre probabilidade e estatística. Os livros-texto atualmente utilizam um modelo híbrido dos dois métodos, mas esta alternativa também é alvo de críticas, por serem as duas abordagens incongruentes entre si.

O valor-p, além da confusão em torno de si

O valor-p, além da confusão em torno de si

Um quadrinho bastante popular, e que trata de diversos temas científicos, chamado XKCD ironiza essa situação. Na tirinha, os cientistas pesquisam se jujubas causam acne. Após um resultado negativo, os cientistas são novamente instigados a investigar a relação entre acne e as jujubas de diferentes cores. Eles realizam 20 testes e finalmente acreditam ter descoberto uma relação entre jujubas verdes e acne, o que é publicado com destaque pelos jornais. O que a charge ilustra é a debilidade de um experimento projetado erroneamente, pois diante de tantos testes, é esperada a ocorrência de um falso positivo com uma probabilidade muito maior do que os 5% que um valor de p igual a 0.05 intuitivamente pareceria indicar.

Este problema não advém apenas de uma incompreensão acerca das ferramentas e técnicas estatísticas por parte dos pesquisadores que as utilizam e da comunidade científica em geral, o que transcende apenas a questão de como um experimento foi projetado. Existe uma questão epistemológica subjacente, que alimenta as chamas desse debate e divide os estatísticos há décadas.

O conceito de valor-p não é intuitivo e são comuns muito equívocos sobre seu significado. A falta de compreensão acerca do significado do valor-p é um dos desafios metodológicos do que ficou conhecido como Crise Estatística da Ciência. Para entender-se o conceito de valor-p é necessário, antes de tudo, entender o conceito de hipótese nula, hipótese alternativa, e dos erros de tipo 1 e 2.

A hipótese nula (H0) nada mais é que a asserção de que não existe um efeito entre dois fenômenos considerados. Sejam eles a ingestão de um medicamente e um determinado efeito, entre idade e peso, ou um efeito entre a resistência de um edifício e o material utilizado em sua estrutura. A outra hipótese, chamada de hipótese alternativa (H1) é a de que existe uma correlação entre os fenômenos, justamente o que os cientistas buscam saber.

Do ponto de vista lógico, o teste de significância estatística, baseado na disjunção de Fisher, pode ser comparado com o argumento do modus tollendo tollens do método dedutivo, ou negação do consequente, que foi descrito primeiramente pelos estoicos e formalizado como:

Se P, então Q.
Q é falso.
Logo, P é falso.

Um exemplo concreto, para ilustrar:

Se eu comer em demasia, eu passo mal.
Eu não passei mal.
Então não comi em demasia

De forma similar, a disjunção apresentada por Fisher afirma que se a hipótese nula (H0) for falsa, não deve ser observada uma correlação y, e pode ser escrita como:

Se H0, então y é muito improvável;
y;
H0 é muito improvável.

Um exemplo, se estivermos estudando a correlação entre o tabagismo e o desenvolvimento de um câncer pulmonar e não pudermos observar um aumento da incidência de câncer entre os fumantes, a hipótese nula se afirmaria, caso contrário, negamos a hipótese nula, o que é considerado uma confirmação indireta e probabilística da hipótese alternativa. Porém, o simples fato de tratarmos com a ideia de probabilidade, a rigor, faz com que essa disjunção não seja considerada logicamente válida. Ou seja, ao optar-se por esse método de se buscar a verdade, abdica-se da tentativa de se comprovar a hipótese alternativa, contentando-se em falsear-se a hipótese nula com um certo grau de certeza probabilística.

A Crise estatística

A Crise estatística

Em 2011, o prestigioso Journal of Personality and Social Psychology, da Associação Americana de Psicologia, publicou um artigo com o curioso título Sentindo o futuro: evidência experimental de influências anômalas retroativas sobre a cognição e o afeto. O artigo, publicado após revisão pelos pares, trata sobre o psi, um suposto “processo anômalo de transferência de informação e energia que não pode ser explicado pelos mecanismos físicos ou biológicos conhecidos” (BEM, 2011).

O autor Daryl Bem relata nove experimentos nos quais eram pedidos que os participantes adivinhassem qual das duas cortinas exibidas na tela de um computador esconderia uma imagem e qual apenas cobriria um muro. Somente após o processo de escolha, o computador aleatoriamente posicionava uma imagem (que provinha de um desses três conjuntos: neutras, eróticas e negativas) atrás de uma das cortinas e, finalmente, exibia o que estava por trás das cortinas. Se a imagem estivesse atrás da escolhida pelo participante, o resultado era considerado um acerto.

Para um número cada vez maior de realizações do teste, espera-se que as porcentagens de erros e acertos convergissem para 50 por cento cada. Afinal, trata-se de um chute entre duas possibilidades. O resultado final não foi longe disso, após 100 sessões, nas quais reportaram haver realizado 3.600 testes, os pesquisadores relatavam 53% de acerto para as imagens eróticas e negativas, contra 49.8% de acertos para as imagens neutras.

Apoiando-se no critério técnico de significância estatística, Bem concluiu estar diante de indícios concretos de que as pessoas podem sentir fenômenos que ainda não aconteceram, o que viola completamente o conceito de causalidade.

Não alheios à polêmica que o artigo poderia provocar, afinal, trata-se de uma defesa da parapsicologia no interior de uma publicação de psicologia, os editores o publicaram conjuntamente com uma nota na qual reconhecem que

a afirmação presente no estudo, de que as respostas dos participantes eram influenciadas por estímulos gerados aleatoriamente após as respostas representa um desafio muito sério à visão tradicional de causalidade. Não é necessário dizer que tal desafio a convicções tão firmemente mantidas tem como destino inflamar uma grande controvérsia. (JUDD, 2011)

Em sua nota, os editorialistas minimizam sua importância como avaliadores: “podemos apenas tomar a palavra do autor de que seus dados são genuínos e que as descobertas relatadas não advém de um grande conjunto de estudos não publicados que mostram efeitos nulos” (JUDD, 2011).

Fica a pergunta se a intenção dos editorialistas, ao aceitarem o artigo, era apenas “inflamar uma grande controvérsia”, até porque, além desta nota editorial, foi publicada na mesma edição da revista uma refutação certeira da descoberta de Bem. Trata-se do comentário de Wagenmakers, que poderia ter sido melhor aproveitado como argumentação de um parecer negando a publicação do artigo, já que demonstra cabalmente que esses estranhos resultados obtidos advém de flutuações estatísticas interpretadas erroneamente:

Discutimos graves limitações nos experimentos de Bem sobre o psi. […] Reanalisamos os dados de Bem com um teste t padrão bayesiano e mostramos que a evidência para psi é de fraca para não existente.[…] Concluímos que o valores-p de Bem não representam uma evidência favorável à precognição, ao invés disso, indicam que os psicólogos experimentais precisam mudar a maneira com a qual conduzem os experimentos e analisam seus dados. (WAGENMAKERS, 2011)

Wagenmakers identificou um erro cometido por Bem que é extremamente comum entre os pesquisadores que utilizam equivocadamente o critério de significância estatística para validar suas descobertas. Esse problema, que remonta às grandes desavenças entre os fundadores do método estatístico no início do século XX, vem sendo percebido, há algumas décadas, como algo sério e generalizado na produção científica, sem uma resolução e cujos efeitos ainda são muito subestimados.

A experiência empírica comprova que a utilização mais criteriosa das ferramentas estatísticas pode apenas amenizar problemas reais, que teimam em se afirmar com maior frequência e consequências do que o comumente assumido pelos pesquisadores. Por mais importante e urgente que seja, um aprimoramento das técnicas matemáticas não é suficiente para resolver impasses que tem a ver com a subjetividade geral da sociedade, como é o caso do viés de publicação, causado pela tendência de se engavetar estudos com resultados negativos, enquanto que há mais holofotes e interesse em se publicar os resultados positivos, viciando as amostras.

No caso de Bem, fica claro seu pertencimento a uma visão de mundo que tão facilmente lhe autoriza, diante da obtenção de um dado valor-p em seu experimento, a lançar por terra todas as leis da física e da lógica. Pode-se considerar aqui a relevância da crítica feita ao misticismo de Newton por Marx em seus Manuscritos Matemáticos. A matemática, como ciência das medidas e grandezas, se senta sobre elementos objetivos. A tentativa de usá-la para explicar movimentos orgânicos e subjetivos conduz a matemática ao misticismo; é como atribuir-lhe um papel quase demiurgo, a exemplo da concepção de que as aplicações matemáticas poderiam resolver problemas de caráter social ou a essência das relações sociais (MARX, 1983).