O p-hacking na prática

O p-hacking na prática

Para demonstrar que a mera identificação de um problema, que se arrasta há décadas, não representa sua superação prática, em 2015, o jornalista especializado em ciência John Bohannon, que também é doutor em biologia molecular de bactérias, realizou uma espécie de experimento trote que em seus objetivos se assemelha ao artigo deliberadamente falso que Sokal publicou na revista Social Text, da editora da universidade de Duke, em 1996, de forma a provar a falta de critério das publicações de ciências humanas influenciadas pelo pós-modernismo.

No caso de Bohannon, sua falsa descoberta de que comer chocolate amargo ajuda a emagrecer foi publicada na International Archives of Medicine, sob o pseudônimo Johannes Bohannon. A mudança no seu primeiro nome foi para soar como um nome alemão e reforçar a falsa biografia que ele criou na internet, inclusive com a confecção de um site do inexistente Instituto de Dieta e Saúde. O estudo foi então enviado para diversas publicações e em menos de 24 horas Bohannon já havia recebido diversos e-mails de aceitação, algo inacreditável se tratando de publicações que se autodefinem como revisadas por pares. Ele então escolheu a International Archives of Medicine após um e-mail do editor Carlos Vasquez no qual este afirmava se tratar de um manuscrito extraordinário que poderia ser publicado após o pagamento de uma taxa de 600 euros.

Cabe notar que, além dessas invenções biográficas e de currículo, o estudo seguiu todas as práticas correntes. Nada do que foi publicado era inventado, diferente do caso Sokal. Conforme descreve Bohannon:

Meus colegas e eu recrutamos cobaias humanas reais na Alemanha. Realizamos um ensaio clínico real, com cada um dos participantes aleatoriamente designados para diferentes regimes de dieta. E os benefícios estatisticamente significativos do chocolate que relatamos são baseados nos dados reais (BOHANNON, 2016).

Como o autor coloca, tratou-se de um “típico estudo no campo da pesquisa em nutrição. O que é o mesmo que dizer: era uma ciência terrível”. Isto porque a formatação da pesquisa era uma “receita para falsos positivos”. O estudo acompanhou 18 diferentes medidas, entre elas peso, colesterol, sódio, níveis de proteína no sangue, qualidade do sono e bem-estar geral, de 15 pessoas que receberam 150 euros para seguir uma dieta durante 3 semanas. Como coloca Bohannon:

Eis um pequeno segredo sujo da ciência: Se você medir um grande número de coisas sobre um pequeno número de pessoas, você quase certamente obterá um resultado ‘estatisticamente significativo’ (BOHANNON, 2016).

Bohannon apresenta uma metáfora para ilustrar como a aleatoriedade está na base da má utilização dos conceitos estatísticos, que ficou conhecida como p-hacking. Como vimos, o valor de p igual a 0.05 significa que existe 5% de chance de que os resultados, ou resultados mais extremos, tenham sido obtidos sob a hipótese nula.

Imagine então cada um destes teses como um bilhete de loteria ao inverso, pois ser sorteado significaria a ocorrência de um erro do tipo I (falso positivo). Cada bilhete que você comprar implica numa chance maior desse erro ocorrer. Logo, se eu testar diversas variáveis, o problema das comparações múltiplas sejam elas parâmetros de saúde ou cores de jujubas, provavelmente algum ruído estatístico aparecerá como um falso positivo. É o caso deste gráfico que demonstraria uma estreita ligação entre as letras na palavra vencedora utilizada em uma competição de soletrar e o número de pessoas nos Estados Unidos mortas por aranhas venenosas.

Além do questionamento acerca do critério utilizado para considerar um resultado estatisticamente significante, Bohannon quis também demonstrar o papel de fatores exteriores, como o papel da grande imprensa ao potencializar e retroalimentar más práticas científicas, o que torna esta uma questão de sociológica. A conversão da produção científica em mercadoria, e seu papel na manutenção de paradigmas superados ajuda a sustentar a hipótese desse trabalho de que existe uma crise na ciência, e que está é determinada pela crise do capital.

Com a ajuda de um release de imprensa publicado no site do falso instituto, deliberadamente criado para explorar a “incrível preguiça” dos jornalistas, ou seja, com um “título sexy, um lide claro, algumas citações incisivas e um subtítulo (kicker)”, logo o artigo virou notícia em grandes meios de comunicação, que por sua vez apresentaram sua própria versão da história. O Bild, da Alemanha, sem contatar Bohannon intitulou sua matéria sobre a descoberta como “Aqueles que comem chocolate permanecem magros”. Outros jornais que deram relevância ao achado foram o Daily Star, o Irish Examiner, o site alemão do Cosmopolitan, o Times da India, os sites em alemão e indiano do Huffington Post, uma emissora de televisão no Texas e outra na Austrália.

Gunter Frank1, parceiro de Bohannon e autor de um livro no qual denuncia a pseudociência presente em muitos estudos da nutrição, foi o responsável pela escolha do chocolate amargo, segundo ele uma preferência dos fanáticos por alimentos integrais. “Chocolate amargo tem um gosto ruim, por isso deve ser bom para você”, afirmou, e concluiu: “é quase uma religião”.

Em suas reflexões sobre o caso, Bohannon culpa o modelo das publicações de acesso livre, que cobram taxas dos interessados em publicar os artigos, “um lucrativo e rapidamente crescente novo setor do negócio de publicações acadêmicas”, algo que essa dissertação tratará mais adiante. Para ele, “muitos cientistas são honestos e o fazem inconscientemente. Eles obtém resultados negativos, se autoconvencem de que cometeram algum erro e repetem o experimento até que eles ‘funcionem’.”

Essa constatação, da existência de uma crise estatística, ao generalizar-se no presente, levou os editores da prestigiosa revista Basic and Applied Social Psychology, a banirem, em fevereiro de 2015, o uso do conceito matemático de significância estatística, o valor-p. (WOOLSTON, 2015) Entretanto, esta medida também se mostrou envolta em polêmica. Um psicólogo da Universidade de Oregon em Eugene, Sanjay Srivastava, que falou à revista Nature sobre o assunto, afirmou que o próximo passo seria banir as conclusões. Jan de Ruiter, cientista cognitivo da Universidade de Bielefeld, na Alemanha, também em declarações à Nature afirma não ser possível fazer ciência sem alguma forma de inferência estatística (WOOLSTON, 2015).

Novas formulações estão sendo propostas para sair deste impasse e elas não se limitam a uma discussão metodológica, mas sim remetem aos paradigmas da própria ciência estatística (WAGENMAKERS, 2015)2.

Jacob Cohen, imporante estatístico estadunidense, já havia argumentado, em um bastante citado artigo publicado ainda em 1994 na American Psychologist, com o sarcástico título A Terra é redonda (P < .05) que para “generalização, os psicólogos [e aqui podemos estender o raciocínio para outros campos] devem se fiar, como tem sido feito em todas as antigas ciências, na replicação” (COHEN, 1994).

1Não confundir com Andre Gunder Frank, seu quase homônimo.

2Ver a nota de rodapé anterior

Um pouco sobre a Inferência Bayesiana

Um pouco sobre a Inferência Bayesiana

Caso observássemos a caixa de correio dos vizinhos para saber mais informações acerca do bebê que eles esperam, poderíamos testar nossas hipóteses partindo de uma provável correlação entre a cor das roupas e o sexo do bebê. Se em vez de um enxoval encontrássemos caixas com ração de gatos, arranhadores e areia para gatos, isso não nos permitiria testar a hipótese de que os vizinhos deram a luz a um gato. O fato de descartarmos essa hipótese, apesar da “evidência” dos dados colhidos, se deve ao fato desta hipótese ser a priori considerada muito, muito pequena. Essa é a ideia de outro quadrinho do XKCD, que mostra o absurdo permitido pela abordagem frequentista de se estar vivo e ainda assim acreditar que o sol explodiu como uma supernova. Mesmo que se argumentasse que os neutrinos medidos tivessem chegado antes do plasma da explosão e estivéssemos vivos neste intervalo, nunca foi observada uma estrela com a massa do sol explodir como uma supernova. É a falácia da frequência de base, quando uma explicação improvável é descartada, mesmo que a alternativa seja ainda mais improvável.

É por isso que Wagenmakers se utilizou da inferência Bayesiana para refutar os dados da pesquisa que trazia evidências sobre a possibilidade de se prever o futuro. Esse método de inferência estatística é baseada no teorema de Bayes e consiste na atualização da probabilidade de uma hipótese conforme mais evidência ou informação se tornam disponíveis.

A inferência Bayesiana, em oposição à interpretação frequentista (utilizada por Fisher) busca o cálculo de uma probabilidade com base na probabilidade de um conhecimento prévio ser verdadeiro. Este método foi formalizado e generalizado por Laplace, mas ele foi exposto pela primeira fez pelo matemático e pastor presbiteriano Thomas Bayes, no século XVIII. Em 1763, após a morte de Bayes, foi publicado pela Royal Society seu ensaio An Essay towards solving a Problem in the Doctrine of Chances no qual ele descreve um experimento mental que apresenta uma solução para a questão da probabilidade inversa.

Neste experimento, Bayes imagina uma bola que é atirada sobre uma mesa sem que um observador possa ver em qual das duas metades nas quais a mesa foi dividida a bola parou (a mesa é construída de forma que a bola tem a mesma chance de parar em qualquer ponto).

Para descobrir onde a bola está, sem olhar, Bayes pede a seu assistente que atire uma segunda bola e lhe diga se essa bola está a esquerda ou a direita da primeira. Se ela estiver à esquerda da primeira bola, por exemplo, existe uma possibilidade um pouco maior de que a primeira bola esteja do lado direito da mesa. O processo é então repetido diversas vezes e Bayes pode então ir triangulando a área na qual a primeira bola se encontra. Cada novo teste lhe permite uma aproximação melhor do resultado. Desta forma, seu sistema pode ser descrito como: crença inicial + novos dados → crença melhorada.

Contudo, também existem controvérsias sobre a utilização dos métodos Bayesianos, porque eles implicam

abandonar a definição fácil de probabilidade como uma frequência a longo prazo, e ao invés disso, considerá-la como probabilidades de apostas subjetivas. O outro [ponto controverso] é a necessidade de especificar quão forte é a sua crença no resultado antes que o experimento seja feito (uma probabilidade anterior), um exercício que pode chegar perigosamente perto a você alimentar seus preconceitos no resultado (COLQUHOUN, 2014).

Significância estatística, correlação e causalidade

Significância estatística, correlação e causalidade

Após tudo que publicamos, insistimos que o problema da Crise Estatística não pode ser solucionado apenas a partir de uma interpretação técnica dos resultados, sendo um problema epistemológico que aponta para uma crise de paradigmas.

O Modus Tollens é a forma de abstração presente na formulação de Popper, que acreditava ter resolvido o problema da indução conforme apresentado por Hume. É importante notar que, na sua forma estatística, ele não nos permite nunca afirmar, com certeza, que a hipótese alternativa está correta, apenas que há uma grande probabilidade de podermos descartar a hipótese nula (ROSA, 2005, p. 220).

Mesmo que pudéssemos ter certeza estatística de que os dados coletados representarem uma correlação (digamos, além de 99,999999% de confiabilidade), a natureza dessa correlação constitui um outro problema sobre o qual o teste de significância pouco pode nos dizer. Para ilustrar esse ponto, Gould abre um ensaio perguntando-se:

Por acaso pregadores batistas causam bebedeiras? Eu levanto este questionamento inusual porque uma velha e famosa tabela demonstra uma clara correlação positiva entre o número de pregadores e a frequência da prisão por embriaguez durante a segunda metade do século XIX nos Estados Unidos (Gould, 1995, p. 296).

Gould responde que não, afinal existem diversas outras hipóteses alternativas, que não a relação causal de que os pregadores causam bebedeiras, que condizem com a negação da hipótese nula: pode-se sugerir que “um aumento no consumo de álcool promove a contratação de mais pregadores”. Ou ainda a possibilidade mais provável de que pregar e beber não tenham uma relação causal entre si, mas que “seu incremento simultâneo reflita uma ligação em comum a um terceiro fator, verdadeiramente determinante. O aumento da população estadunidense durante o século XIX promoveu um aumento em milhares de fenômenos de outra forma não relacionados”. (GOULD, 1995, p. 296).

O fato de se ter um dado objetivo, um resultado estatisticamente significante implica, como vimos em duas opções, a hipótese nula ser verdadeira e estarmos diante de um fenômeno altamente improvável, ou dela ser falsa. A escolha entre essas duas respostas que os dados nos apresentam necessita de uma análise qualitativa que ultrapassa o escopo da estatística e que muitas vezes parte de crenças que existem antes e fora do experimento modelo. No limite, esta abordagem conhecida como frequentismo leva a um problema de definição circular, pois a medida do erro de uma medida de probabilidade só pode ser expressa como uma probabilidade.

Os neutrinos mais rápidos que a luz

Os neutrinos mais rápidos que a luz

O uso da significância estatística não garante a eliminação dos erros. Vejamos o caso da anomalia dos neutrinos mais rápidos do que a luz. Em março de 2011, uma observação do experimento OPERA, realizado com a colaboração de dois laboratórios, o CERN e o LNGS, supostamente teria observado neutrinos se deslocarem a velocidades superiores à da luz com uma significância de 6 sigma, ou seja, um grau de certeza estatística ainda maior que o já consagrado padrão 5 sigma.

O resultado foi, oito meses depois, novamente replicado pela mesma equipe de pesquisadores, desta vez com um nível de significância ainda maior, 6.2 sigma. Isso causou um furor na imprensa, pois a constância da velocidade da luz no vácuo e o fato desta ser o limite para todo o deslocamento de matéria ou de informação é um dos pilares da física.

Cabe ressaltar que neste caso os físicos ligados ao experimento se abstiveram de interpretar os resultados, adotando uma postura cautelosa, ao afirmarem em seu artigo que:

Apesar da grande significância da medida aqui relatada e da estabilidade da análise, o impacto potencialmente grande do resultado motiva a continuação de nossos estudos para investigar possíveis efeitos sistemáticos ainda desconhecidos que poderiam explicar a anomalia observada. Nós deliberadamente não tentamos qualquer interpretação teórica ou fenomenológica dos resultados (ADAM, 2012).

No final das contas, após tentativas infrutíferas de replicações externas, percebeu-se que a verdadeira causa deste resultado era um cabo de fibra ótico mal atarraxado, além do mal funcionamento de um componente eletrônico. Contudo, a imprensa já havia publicado suas manchetes sensacionalistas de que os físicos haviam detectados partículas viajando acima da velocidade da luz e que Einstein estava errado.

Valor-p, falsos positivos e falsos negativos: um exemplo

Valor-p, falsos positivos e falsos negativos: um exemplo

Pensemos, no seguinte problema: uma versão simplificada da simulação apresentada por Colquhoun (2014), cujo código fonte do script foi disponibilizado para reprodução.

Em um determinado campo, um total de mil hipóteses estão sendo investigadas. Estabelecemos arbitrariamente que, dentre essas, 100 refletem relações verdadeiras presentes na realidade, ainda que ninguém saiba quais sejam. Digamos que os experimentos, quando diante das hipóteses verdadeiras, identifiquem 80% delas. Neste caso, a taxa de falso-negativo β é de 20%. Imaginemos uma taxa de falso-positivo α mais baixa, de apenas 5%. Como temos um grande número de hipóteses falsas a serem testadas, o que é natural, descartamos corretamente 855 hipóteses falsas, mas geramos 45 falsos positivos.

A nova verdade estabelecida neste campo compreenderá 125 hipóteses alternativas, das quais mais de um terço é falsa. Desta forma, mesmo seguindo-se todos os procedimentos padrões, quase um terço das descobertas anunciadas são falsas.

Algumas soluções foram apresentadas por estatísticos para que esses enganos sejam sanados. Uma delas é a adoção de valores de p mais baixos, como é o caso da física de partículas, que adota o valor de p = 0.0000003, o que também é conhecido como cinco sigma.

Neste caso, os erros de falso positivo seriam muito mais raros do que quando se adota o p valendo 0.5. A probabilidade de que, com a hipótese nula verdadeira os resultados obtidos, ou outros mais extremos, teoricamente será de 1 em 3,5 milhões.