Para demonstrar que a mera identificação de um problema, que se arrasta há décadas, não representa sua superação prática, em 2015, o jornalista especializado em ciência John Bohannon, que também é doutor em biologia molecular de bactérias, realizou uma espécie de experimento trote que em seus objetivos se assemelha ao artigo deliberadamente falso que Sokal publicou na revista Social Text, da editora da universidade de Duke, em 1996, de forma a provar a falta de critério das publicações de ciências humanas influenciadas pelo pós-modernismo.
No caso de Bohannon, sua falsa descoberta de que comer chocolate amargo ajuda a emagrecer foi publicada na International Archives of Medicine, sob o pseudônimo Johannes Bohannon. A mudança no seu primeiro nome foi para soar como um nome alemão e reforçar a falsa biografia que ele criou na internet, inclusive com a confecção de um site do inexistente Instituto de Dieta e Saúde. O estudo foi então enviado para diversas publicações e em menos de 24 horas Bohannon já havia recebido diversos e-mails de aceitação, algo inacreditável se tratando de publicações que se autodefinem como revisadas por pares. Ele então escolheu a International Archives of Medicine após um e-mail do editor Carlos Vasquez no qual este afirmava se tratar de um manuscrito extraordinário que poderia ser publicado após o pagamento de uma taxa de 600 euros.
Cabe notar que, além dessas invenções biográficas e de currículo, o estudo seguiu todas as práticas correntes. Nada do que foi publicado era inventado, diferente do caso Sokal. Conforme descreve Bohannon:
Meus colegas e eu recrutamos cobaias humanas reais na Alemanha. Realizamos um ensaio clínico real, com cada um dos participantes aleatoriamente designados para diferentes regimes de dieta. E os benefícios estatisticamente significativos do chocolate que relatamos são baseados nos dados reais (BOHANNON, 2016).
Como o autor coloca, tratou-se de um “típico estudo no campo da pesquisa em nutrição. O que é o mesmo que dizer: era uma ciência terrível”. Isto porque a formatação da pesquisa era uma “receita para falsos positivos”. O estudo acompanhou 18 diferentes medidas, entre elas peso, colesterol, sódio, níveis de proteína no sangue, qualidade do sono e bem-estar geral, de 15 pessoas que receberam 150 euros para seguir uma dieta durante 3 semanas. Como coloca Bohannon:
Eis um pequeno segredo sujo da ciência: Se você medir um grande número de coisas sobre um pequeno número de pessoas, você quase certamente obterá um resultado ‘estatisticamente significativo’ (BOHANNON, 2016).
Bohannon apresenta uma metáfora para ilustrar como a aleatoriedade está na base da má utilização dos conceitos estatísticos, que ficou conhecida como p-hacking. Como vimos, o valor de p igual a 0.05 significa que existe 5% de chance de que os resultados, ou resultados mais extremos, tenham sido obtidos sob a hipótese nula.
Imagine então cada um destes teses como um bilhete de loteria ao inverso, pois ser sorteado significaria a ocorrência de um erro do tipo I (falso positivo). Cada bilhete que você comprar implica numa chance maior desse erro ocorrer. Logo, se eu testar diversas variáveis, o problema das comparações múltiplas sejam elas parâmetros de saúde ou cores de jujubas, provavelmente algum ruído estatístico aparecerá como um falso positivo. É o caso deste gráfico que demonstraria uma estreita ligação entre as letras na palavra vencedora utilizada em uma competição de soletrar e o número de pessoas nos Estados Unidos mortas por aranhas venenosas.
Além do questionamento acerca do critério utilizado para considerar um resultado estatisticamente significante, Bohannon quis também demonstrar o papel de fatores exteriores, como o papel da grande imprensa ao potencializar e retroalimentar más práticas científicas, o que torna esta uma questão de sociológica. A conversão da produção científica em mercadoria, e seu papel na manutenção de paradigmas superados ajuda a sustentar a hipótese desse trabalho de que existe uma crise na ciência, e que está é determinada pela crise do capital.
Com a ajuda de um release de imprensa publicado no site do falso instituto, deliberadamente criado para explorar a “incrível preguiça” dos jornalistas, ou seja, com um “título sexy, um lide claro, algumas citações incisivas e um subtítulo (kicker)”, logo o artigo virou notícia em grandes meios de comunicação, que por sua vez apresentaram sua própria versão da história. O Bild, da Alemanha, sem contatar Bohannon intitulou sua matéria sobre a descoberta como “Aqueles que comem chocolate permanecem magros”. Outros jornais que deram relevância ao achado foram o Daily Star, o Irish Examiner, o site alemão do Cosmopolitan, o Times da India, os sites em alemão e indiano do Huffington Post, uma emissora de televisão no Texas e outra na Austrália.
Gunter Frank1, parceiro de Bohannon e autor de um livro no qual denuncia a pseudociência presente em muitos estudos da nutrição, foi o responsável pela escolha do chocolate amargo, segundo ele uma preferência dos fanáticos por alimentos integrais. “Chocolate amargo tem um gosto ruim, por isso deve ser bom para você”, afirmou, e concluiu: “é quase uma religião”.
Em suas reflexões sobre o caso, Bohannon culpa o modelo das publicações de acesso livre, que cobram taxas dos interessados em publicar os artigos, “um lucrativo e rapidamente crescente novo setor do negócio de publicações acadêmicas”, algo que essa dissertação tratará mais adiante. Para ele, “muitos cientistas são honestos e o fazem inconscientemente. Eles obtém resultados negativos, se autoconvencem de que cometeram algum erro e repetem o experimento até que eles ‘funcionem’.”
Essa constatação, da existência de uma crise estatística, ao generalizar-se no presente, levou os editores da prestigiosa revista Basic and Applied Social Psychology, a banirem, em fevereiro de 2015, o uso do conceito matemático de significância estatística, o valor-p. (WOOLSTON, 2015) Entretanto, esta medida também se mostrou envolta em polêmica. Um psicólogo da Universidade de Oregon em Eugene, Sanjay Srivastava, que falou à revista Nature sobre o assunto, afirmou que o próximo passo seria banir as conclusões. Jan de Ruiter, cientista cognitivo da Universidade de Bielefeld, na Alemanha, também em declarações à Nature afirma não ser possível fazer ciência sem alguma forma de inferência estatística (WOOLSTON, 2015).
Novas formulações estão sendo propostas para sair deste impasse e elas não se limitam a uma discussão metodológica, mas sim remetem aos paradigmas da própria ciência estatística (WAGENMAKERS, 2015)2.
Jacob Cohen, imporante estatístico estadunidense, já havia argumentado, em um bastante citado artigo publicado ainda em 1994 na American Psychologist, com o sarcástico título A Terra é redonda (P < .05) que para “generalização, os psicólogos [e aqui podemos estender o raciocínio para outros campos] devem se fiar, como tem sido feito em todas as antigas ciências, na replicação” (COHEN, 1994).
1Não confundir com Andre Gunder Frank, seu quase homônimo.
Pensemos, no seguinte problema: uma versão simplificada da simulação apresentada por Colquhoun (2014), cujo código fonte do script foi disponibilizado para reprodução.
Em um determinado campo, um total de mil hipóteses estão sendo investigadas. Estabelecemos arbitrariamente que, dentre essas, 100 refletem relações verdadeiras presentes na realidade, ainda que ninguém saiba quais sejam. Digamos que os experimentos, quando diante das hipóteses verdadeiras, identifiquem 80% delas. Neste caso, a taxa de falso-negativo β é de 20%. Imaginemos uma taxa de falso-positivo α mais baixa, de apenas 5%. Como temos um grande número de hipóteses falsas a serem testadas, o que é natural, descartamos corretamente 855 hipóteses falsas, mas geramos 45 falsos positivos.
A nova verdade estabelecida neste campo compreenderá 125 hipóteses alternativas, das quais mais de um terço é falsa. Desta forma, mesmo seguindo-se todos os procedimentos padrões, quase um terço das descobertas anunciadas são falsas.
Algumas soluções foram apresentadas por estatísticos para que esses enganos sejam sanados. Uma delas é a adoção de valores de p mais baixos, como é o caso da física de partículas, que adota o valor de p = 0.0000003, o que também é conhecido como cinco sigma.
Neste caso, os erros de falso positivo seriam muito mais raros do que quando se adota o p valendo 0.5. A probabilidade de que, com a hipótese nula verdadeira os resultados obtidos, ou outros mais extremos, teoricamente será de 1 em 3,5 milhões.
A própria ideia de certeza probabilística, se tomada mecanicamente, como comumente o é, pode ser considerada uma aporia. Pela própria natureza do conhecimento estatístico, ele nunca é livre de erro, ainda que teoricamente (e em alguns casos muito excepcionais) possamos fazer com que a possibilidade de um erro seja tão remota que não fosse plausível sua ocorrência, nem que o nosso universo fosse de ordens de magnitude mais velho do que se acredita que ele seja. Contudo, os modelos com os quais os pesquisadores lidam na prática sempre contêm a possibilidade real da ocorrência de dois tipos de erros que coexistem em uma relação dialética.
O Erro de tipo 1, também conhecido como falso-positivo, ocorre quando a hipótese nula (H0) é verdadeira, mas a rejeitamos. Dessa forma enxergamos uma relação que não existe na realidade. O Erro de tipo 2, ou falso-negativo, ocorre quando a hipótese nula (H0) é falsa, mas não é rejeitada. Isso significa que deixamos de perceber uma relação presente na realidade. As taxas de erros dos tipos 1 e 2 são denominadas, respectivamente, α e β. Apesar de muitas vezes serem tomadas como tal, nenhuma delas é o valor-p.
Um dos equívocos conceituais acerca do valor-p é de que este seria a probabilidade da hipótese nula de um teste ser verdadeira, ou a probabilidade de um dado resultado ter sido obtido por acaso, ou mesmo que o valor-p seria a probabilidade da hipótese nula ter sido equivocadamente rejeitada.
De forma bem objetiva, o valor-p é a probabilidade do resultado obtido, ou algum mais extremo que ele (no sentido de reforçar a correlação) ter sido obtido dado que a hipótese nula seja verdadeira1. Desta forma, se o valor de p, que é calculado apenas ao final do experimento, de posse de todos os dados, for baixo, isso deve significar duas coisas: ou que a hipótese nula é verdadeira e que um evento altamente improvável ocorreu (gerando um falso-positivo), ou que a hipótese nula é falsa (confirmação da hipótese alternativa). O quão improvável é este falso positivo e se a resposta para essa questão está toda contida dentro do modelo matemático é um dos dilemas associados à Crise Estatística.
Se aumentarmos a sensibilidade da nossa detecção, de forma a minimizar a ocorrência de erros de falso-negativo (tipo 2), no qual deixarmos de perceber uma relação existente, consequentemente aumentaremos a incidência de erros de falso-positivo (tipo 1), no qual enxergamos uma relação quando ela não está presente na realidade. Se diminuirmos a sensibilidade, teremos menos erros de falso-positivo (tipo 1), mas deixaremos passar um número maior de efeitos não percebidos, logo, um aumento dos erros de falso-negativo (tipo 2).
Essa calibração do experimento pode se dar de várias formas, seja efetivamente calibrando um sensor de detecção em um equipamento, seja matematicamente, estabelecendo os tipos de controle de erros. Por exemplo, se for apresentado, para decidir se foi forjado ou efetivamente aleatório, que o resultado de 40 lances de uma moeda seja uma série com 20 caras seguidas depois de 20 coroas, pode-se chutar, com uma grande probabilidade de acerto, que este resultado não foi efetivamente gerado por um processo aleatório. Poderíamos excluir tal resultado das nossas medições, mas, mesmo pertencendo a um conjunto raro de resultados, ele em si é tão possível quanto qualquer outro resultado.
No caso de exames de detecções de doenças, como o HIV, a calibração é favorável à ocorrência de erros de tipo 1, pois é preferível dar uma notícia ruim erroneamente a uma pessoa que ao final descobrirá com testes confirmatórios (que fazem parte do protocolo) não ter a doença, do que deixar de detectar a doença em uma pessoa que precisa de tratamento.
1Existe uma diferença de interpretação sobre o significado do valor-p de acordo com o modelo de teste de hipóteses escolhido, o modelo de Neyman-Pearson, ou o de Fisher. Trata-se de um dissenso que perdura há décadas que tem como base uma questão filosófica acerca do papel dos modelos em inferência estatística. A base da controvérsia é a relação entre probabilidade e estatística. Os livros-texto atualmente utilizam um modelo híbrido dos dois métodos, mas esta alternativa também é alvo de críticas, por serem as duas abordagens incongruentes entre si.
Um quadrinho bastante popular, e que trata de diversos temas científicos, chamado XKCD ironiza essa situação. Na tirinha, os cientistas pesquisam se jujubas causam acne. Após um resultado negativo, os cientistas são novamente instigados a investigar a relação entre acne e as jujubas de diferentes cores. Eles realizam 20 testes e finalmente acreditam ter descoberto uma relação entre jujubas verdes e acne, o que é publicado com destaque pelos jornais. O que a charge ilustra é a debilidade de um experimento projetado erroneamente, pois diante de tantos testes, é esperada a ocorrência de um falso positivo com uma probabilidade muito maior do que os 5% que um valor de p igual a 0.05 intuitivamente pareceria indicar.
Este problema não advém apenas de uma incompreensão acerca das ferramentas e técnicas estatísticas por parte dos pesquisadores que as utilizam e da comunidade científica em geral, o que transcende apenas a questão de como um experimento foi projetado. Existe uma questão epistemológica subjacente, que alimenta as chamas desse debate e divide os estatísticos há décadas.
O conceito de valor-p não é intuitivo e são comuns muito equívocos sobre seu significado. A falta de compreensão acerca do significado do valor-p é um dos desafios metodológicos do que ficou conhecido como Crise Estatística da Ciência. Para entender-se o conceito de valor-p é necessário, antes de tudo, entender o conceito de hipótese nula, hipótese alternativa, e dos erros de tipo 1 e 2.
A hipótese nula (H0) nada mais é que a asserção de que não existe um efeito entre dois fenômenos considerados. Sejam eles a ingestão de um medicamente e um determinado efeito, entre idade e peso, ou um efeito entre a resistência de um edifício e o material utilizado em sua estrutura. A outra hipótese, chamada de hipótese alternativa (H1) é a de que existe uma correlação entre os fenômenos, justamente o que os cientistas buscam saber.
Do ponto de vista lógico, o teste de significância estatística, baseado na disjunção de Fisher, pode ser comparado com o argumento do modus tollendo tollens do método dedutivo, ou negação do consequente, que foi descrito primeiramente pelos estoicos e formalizado como:
Se P, então Q. Q é falso. Logo, P é falso.
Um exemplo concreto, para ilustrar:
Se eu comer em demasia, eu passo mal. Eu não passei mal. Então não comi em demasia
De forma similar, a disjunção apresentada por Fisher afirma que se a hipótese nula (H0) for falsa, não deve ser observada uma correlação y, e pode ser escrita como:
Se H0, então y é muito improvável; y; H0 é muito improvável.
Um exemplo, se estivermos estudando a correlação entre o tabagismo e o desenvolvimento de um câncer pulmonar e não pudermos observar um aumento da incidência de câncer entre os fumantes, a hipótese nula se afirmaria, caso contrário, negamos a hipótese nula, o que é considerado uma confirmação indireta e probabilística da hipótese alternativa. Porém, o simples fato de tratarmos com a ideia de probabilidade, a rigor, faz com que essa disjunção não seja considerada logicamente válida. Ou seja, ao optar-se por esse método de se buscar a verdade, abdica-se da tentativa de se comprovar a hipótese alternativa, contentando-se em falsear-se a hipótese nula com um certo grau de certeza probabilística.
Comentários