A solução das publicações de livre acesso e o novo problema das predatórias

Respondendo aos problemas do processo de publicação de artigos científicos, surgiu um novo tipo de periódico científico conhecido como publicação de acesso aberto. É o caso, por exemplo, da biblioteca de periódicos do projeto PLOS, que além de promover o livre acesso, não endossa os fatores de impacto como métricas úteis para avaliar a performance de artigos individuais. Para sustentar esse modelo, as publicações deste projeto cobram entre US$1.450 e U$2.900 dos autores por artigo, com a ressalva de que a impossibilidade do autor em pagar não impede a publicação, que é revisada por pares. Este modelo logo se revelou um sucesso e experimentou um crescimento exponencial. Um estudo estimou um salto de 19.500 artigos em publicações de acesso livre no ano 2000 para 191.850 em 2009, um aumento de 1.000% (LAAKSO, 2011).

Contudo, entre essas publicações de acesso livre, surgiram diversas tidas como predatórias, ou seja, dirigidas por grupos interessados apenas em recolher as taxas cobradas aos autores, sem oferecer os serviços editoriais e de publicação associados aos periódicos legítimos. O processo de revisão por pares dessas revistas muitas vezes se revelaram totalmente fraudulentos com o aceite chegando algumas vezes poucas horas após a submissão e correspondente pagamento da taxa. Jeffrey Beall, bibliotecário e professor-associado da Universidade de Colorado, defensor do modelo tradicional de publicação e um crítico do acesso livre, manteve durante muitos anos uma lista, na qual, em dezembro de 2016, constavam 1163 editoras responsáveis por publicações tidas como predatórias. Ele estimou que cerca de 25% dos periódicos de livre acesso tinham essas características. Similarmente, ele também notou o surgimento de conferências predatórias, organizadas por grupos interessados apenas na cobrança das altas taxas de inscrição (BEALL, 2017).

Beall foi duramente criticado por aqueles que consideram que ele, em nome da defesa do modelo tradicional, excedeu-se nas generalizações e caluniou publicações sérias, misturando-as com outras fraudulentas. Em janeiro de 2017, a lista de Beall e a página pessoal dele foram retiradas do site da Universidade do Colorado por conta das múltiplas notificações legais e ameaças de processo.

Iniciativa recente associada à de Beall foi realizada no Brasil pelos pesquisadores Paulo Inácio Prado, do Instituto de Biociências da USP, Roberto André Kraenkel, do Instituto de Física Teórica da Unesp, e Renato Mendes Coutinho, do Centro de Matemática, Computação e Cognição da UFABC. Eles criaram um banco de dados com o título de Preda Qualis, no qual cruzaram a lista de publicações tidas como predatórias com as listadas no Qualis, chegando a um total de 485 periódicos, sendo que 67% classificados nos estratos A e B, em, pelo menos, uma área de conhecimento. Eles chegaram à conclusão de que, ainda que a

baixa proporção de títulos potencialmente predatórios no QUALIS indica que o uso destes periódicos não é prática comum nos programas de pós-graduação brasileiros (…) há uma grande vulnerabilidade do sistema de avaliação da CAPES à invasão por este tipo de publicação (PRADO, P, 2017).

O fato é que a adoção de um ou outro dos modelos de publicação opostos, per si, não muda em nada a natureza mercantil da produção científica e sua apropriação, de uma forma ou de outra, pela lógica de autovalorização do capital, da mesma forma que o cooperativismo, o software livre, os alimentos orgânicos, os mutirões de habitação e tantos outros movimentos que se originaram de uma perspectiva anticapitalista, acabaram sendo usados pelo capital, de uma forma ou de outra, para oxigenar seu corpo moribundo. Sem uma transição para outro modo de produção, que resulte em outro fundamento sobre o qual se organize a sociedade, é ingênuo pensarmos na possibilidade de mediarmos ou mesmo impedirmos que a ciência seja imbuída da lógica mercantil.

Publicar, publicar, lucrar

O produtivismo na academia, que se expande por todo o globo, impõe-se pelo entrelaçamento da concessão de financiamento com a adoção de métricas de avaliação majoritariamente quantitativas e enviesadas.

No Brasil, esta pressão é responsável, por exemplo, pelo fato de que ocupemos, no ranking entre os diferentes países, a 12ª posição em quantidade de artigos indexados, enquanto que o número de citações a esses tenha caído para a 27ª posição. Como bem coloca Keneth de Cargo Jr, professor do Departamento de Planejamento e Administração em Saúde do Centro Biomédico da Universidade do Estado do Rio de Janeiro:

Espalham-se subterfúgios para incrementar a quantidade de artigos e capítulos publicados, e mesmo de citações: a produção em série de artigos sem maior interesse ou inovação, ainda que fundamentalmente corretos, a multiplicação do número de autores para cada texto sem que se considere adequadamente a atribuição de autoria, a distribuição de conteúdos entre diversas publicações (conhecida como publicação salame) e a criação de verdadeiros clubes de citação mútua são fenômenos há muito conhecidos na literatura mundial e que começam a se manifestar em nosso meio (DE CAMARGO JR, 2013).

Além das questões do financiamento condicionado a métricas quantitativas, a própria atividade de publicação se converteu em um ramo altamente lucrativo, com o acesso a artigos custando dezenas ou mesmo centenas de dólares. A mercantilização da ciência subsumida ao capital restringe a circulação das ideias científicas pelas cobranças efetuadas aos leitores dessas publicações.

Para Waters, há que se combater “a ideia de que as editoras universitárias deveriam se transformar em ‘centros lucrativos’ e contribuir para o orçamento geral da universidade” (WATERS, 2004, p. 2 tradução nossa). Esta teratologia, restringir a divulgação de resultados científicos com o intuito de lucro, utilizando-se do dissimulado argumento de valorização do trabalho do autor, foi alvo do questionamento de John Perry Barlow, um dos fundadores da Electronic Frontier Foundation:

É um consolo saber que a espécie humana conseguiu produzir um trabalho criativo decente durante 5000 anos que precederam 1710, quando o Estatuto de Anne, a primeira lei moderna de direitos autorais, foi aprovado pelo Parlamento Britânico. Sófocles, Dante, da Vinci, Botticelli, Michelangelo, Shakespeare, Newton, Cervantes, Bach – todos encontraram motivos para sair da cama pela manhã, sem esperar pela propriedade das obras que criaram (BARLOW, 2000).

Em 2004, os governos do Brasil e da Argentina foram responsáveis por promover A Declaração de Genebra Sobre o Futuro da OMPI, no marco do desenvolvimento de uma agenda para a Organização Mundial da Propriedade Intelectual, que afirma que “o mundo está enfrentando uma crise na governança do conhecimento, tecnologia e cultura” pelo acesso desigual a remédios e educação, pelas práticas anticompetitivas que levam à concentração de propriedade, impedindo o acesso ao domínio público por conta de interesses privados (DECLARATION, 2004). Na Europa uma iniciativa semelhante resultou na Declaração de Berlim sobre Acesso Livre ao Conhecimento nas Ciências e Humanidades que resultou em 2003 de uma conferência organizada pela Sociedade Max Plank (DECLARATION, 2003).

A Crise da Responsabilidade Acadêmica e a Crise do produtivismo

Do ponto de vista da sociologia, uma outra voz que se soma à percepção de uma crise generalizada na produção científica é a de Lindsay Waters, editor de humanidades da Harvard University Press, uma dais mais importantes editoras acadêmicas dos Estados Unidos.

Em seu provocativo ensaio Inimigos da Esperança Publicar, Perecer e o Eclipse da Erudição, ele traça um complexo cenário de deterioração da produção do saber, referindo-se à “crise da responsabilidade (accountability) acadêmica1”, “eclipse do valor”, “crise das monografias”, crise de “superprodução”, “crise generalizada da avaliação” (judgment) (WATERS, 2004, passim, tradução nossa). Para ele, a erosão do sistema de publicações com o boom de produção, caracterizado por um forte crescimento no número de artigos publicados a partir dos anos 1960, resulta de uma cultura de hiperinflação (WATERS, 2004, p. 22, tradução nossa).

O “problema é basear o mandato na quantidade de publicações, publicações que poucos leem” (WATERS, 2004, p. 7, tradução nossa). “Nos últimos 30 anos, passamos de vender um mínimo de 1.250 livros de cada título de humanidades para 275 livros” (WATERS, 2004, p. 16, tradução nossa).

Em sua ácida crítica ao modelo vigente, Waters alerta para o momento em “que o mercado se torne nossa prisão e que o valor do livro seja minado” (WATERS, 2004, p. 4, tradução nossa). Também chama atenção para o fato de que este problema não se restringe apenas à área das humanidades (WATERS, 2004, p. 18, tradução nossa) e diagnostica:

Adentramos a Zona Cinzenta (Twilight Zone) da pesquisa acadêmica, e agora a demanda por produtividade está levando à produção de muito mais nonsense. Em tempos como estes, pesquisadores inescrupulosos e confusos realizam falsas assertivas que guardam aparência de interessantíssimas, mas também inverificáveis assertivas. Podemos ver em toda parte ao redor de nós o eclipse do valor em uma cultura de hiperinflação. Editores de periódicos, especialmente, estão percebendo que eles não têm o tempo necessário para avaliar porque eles precisam manter a linha de montagem em movimento. (WATERS, 2004, p. 22, tradução nossa)

É neste contexto que o paradigma de publicar ou perecer leva ao que é chamado de ciência salame, quando se busca fatiar os resultados de uma pesquisa na menor unidade publicável, o menor quantum possível de conhecimento em uma publicação, de forma a inflar o número de publicações, maximizando o ranking do pesquisador de acordo com as métricas quantitativas. As publicações circulam em um ritmo cada vez maior, contudo carregando em si cada vez menos resultados inovadores cientificamente relevantes.

Fica evidente que esta velocidade de circulação das publicações não corresponde aos interesses do acúmulo de conhecimento e sim à própria velocidade de rotação do capital, que precisa ser ainda mais acelerada quando a crise se manifesta. Até neste aspecto, de uma crise na qual o sistema tem que girar a uma velocidade cada vez maior, pois a cada ciclo o valor incorporado é menor, a ciência da ciência se assemelha à do capital em geral.

Esse descompasso levou em 2011 um grupo de pesquisadores alemães, entre eles o neurocientista Jonas Obleser, da Sociedade Max Planck, a publicar o Manifesto Ciência Lenta, no qual relembram que:

A ciência precisa de tempo para pensar. A ciência precisa de tempo para ler e tempo para falhar. A ciência nem sempre sabe sobre o que pode estar neste momento. A ciência se desenvolve de forma instável, com movimentos bruscos e saltos imprevisíveis para a frente – ao mesmo tempo, no entanto, arrasta-se em uma escala de tempo muito lenta (SLOW SCIENCE MANIFESTO, 2010, tradução nossa).

1 O termo em inglês accountability pode ser apenas parcialmente traduzido para responsabilidade, pois o conceito traz outras cargas semânticas como prestação de contas, ação ética, transparência e credibilidade.

O significado do experimento científico

Contrariando a visão dos autores que desestimam a importância da replicabilidade dos experimentos, argumentamos que a mesma é uma exigência lógica que não apenas constitui um princípio do método científico, mas é uma exigência da filosofia materialista. Ela parte do pressuposto de que cada fenômeno tem a sua verdade material, de uma forma muito semelhante à qual este conceito é utilizado na ciência do direito. Se existe sangue derramado, este pode, ou não, ser o indício de que este local foi o cenário de um homicídio. Mas, de alguma forma o sangue apareceu ali, e deve-se buscar uma explicação material para isto.

Um dos primeiros cientistas a tratar do problema da reprodutibilidade dos experimentos abertamente foi o químico inglês Robert Boyle em obra publicada em 1675. Este autor trabalha com uma analogia entre a investigação científica e a investigação criminal:

Pois, embora o depoimento de uma única testemunha não seja suficiente para provar a culpa do acusado de assassinato; já o depoimento de duas testemunhas, mesmo que de igual crédito (…) normalmente basta para provar a culpa de um homem; porque é considerado razoável supor que, embora cada testemunho individual seja provável, a concorrência destas probabilidades, (o que na razão deve ser atribuído à verdade do que eles tendem a provar conjuntamente) podem equivaler a uma certeza moral, isto é, uma certeza, que possa garantir que o juiz proceda à sentença de morte contra a parte indiciada. (BOYLE apud SHAPIN 1985).

Como vimos, alguns pesquisadores tendem a buscar a explicação para este fenômeno se restringindo apenas a questões técnicas. Um exemplo, a recente pesquisa que responsabiliza a qualidade dos anticorpos empregados nos laboratórios (que os consomem de produtores especializados) pela verificada tendência à irreprodutibilidade dos experimentos na área das pesquisas imunológicas. Segundo este estudo, os cientistas falharam em não antever a necessidade de se certificar a qualidade de um dado insumo (BAKER, 2015).

Conhecer alegações como a de Bissel permitem uma aproximação ao real problema, que trataremos ao longo desta dissertação, nem tanto por seus argumentos, ao estilo de “a mão da boleira e não a receita impede o bolo de solar”, mas por sua motivação declarada: ela chama atenção para a suposta injustiça envolvida na interrupção de pesquisas milionárias, seja para as carreiras envolvidas, seja para os interesses associados aos financiamentos.

Contrariamente a esta proposição, argumentamos nesta dissertação que a quantidade de estudos irreplicáveis aponta a um problema mais essencial que não se trata simplesmente de uma guerra de egos, ou por recursos, ou mesmo um amplo charlatanismo entre os cientistas. Aventamos que, se aplicarmos a dialética da quantidade como acumulação de evidências de uma transformação na qualidade, na essência da crise de reprodutibilidade/replicabilidade pode estar uma crise de paradigmas na ciência, relacionada por sua vez à crise orgânica do capital.

O p-hacking na prática

Para demonstrar que a mera identificação de um problema, que se arrasta há décadas, não representa sua superação prática, em 2015, o jornalista especializado em ciência John Bohannon, que também é doutor em biologia molecular de bactérias, realizou uma espécie de experimento trote que em seus objetivos se assemelha ao artigo deliberadamente falso que Sokal publicou na revista Social Text, da editora da universidade de Duke, em 1996, de forma a provar a falta de critério das publicações de ciências humanas influenciadas pelo pós-modernismo.

No caso de Bohannon, sua falsa descoberta de que comer chocolate amargo ajuda a emagrecer foi publicada na International Archives of Medicine, sob o pseudônimo Johannes Bohannon. A mudança no seu primeiro nome foi para soar como um nome alemão e reforçar a falsa biografia que ele criou na internet, inclusive com a confecção de um site do inexistente Instituto de Dieta e Saúde. O estudo foi então enviado para diversas publicações e em menos de 24 horas Bohannon já havia recebido diversos e-mails de aceitação, algo inacreditável se tratando de publicações que se autodefinem como revisadas por pares. Ele então escolheu a International Archives of Medicine após um e-mail do editor Carlos Vasquez no qual este afirmava se tratar de um manuscrito extraordinário que poderia ser publicado após o pagamento de uma taxa de 600 euros.

Cabe notar que, além dessas invenções biográficas e de currículo, o estudo seguiu todas as práticas correntes. Nada do que foi publicado era inventado, diferente do caso Sokal. Conforme descreve Bohannon:

Meus colegas e eu recrutamos cobaias humanas reais na Alemanha. Realizamos um ensaio clínico real, com cada um dos participantes aleatoriamente designados para diferentes regimes de dieta. E os benefícios estatisticamente significativos do chocolate que relatamos são baseados nos dados reais (BOHANNON, 2016).

Como o autor coloca, tratou-se de um “típico estudo no campo da pesquisa em nutrição. O que é o mesmo que dizer: era uma ciência terrível”. Isto porque a formatação da pesquisa era uma “receita para falsos positivos”. O estudo acompanhou 18 diferentes medidas, entre elas peso, colesterol, sódio, níveis de proteína no sangue, qualidade do sono e bem-estar geral, de 15 pessoas que receberam 150 euros para seguir uma dieta durante 3 semanas. Como coloca Bohannon:

Eis um pequeno segredo sujo da ciência: Se você medir um grande número de coisas sobre um pequeno número de pessoas, você quase certamente obterá um resultado ‘estatisticamente significativo’ (BOHANNON, 2016).

Bohannon apresenta uma metáfora para ilustrar como a aleatoriedade está na base da má utilização dos conceitos estatísticos, que ficou conhecida como p-hacking. Como vimos, o valor de p igual a 0.05 significa que existe 5% de chance de que os resultados, ou resultados mais extremos, tenham sido obtidos sob a hipótese nula.

Imagine então cada um destes teses como um bilhete de loteria ao inverso, pois ser sorteado significaria a ocorrência de um erro do tipo I (falso positivo). Cada bilhete que você comprar implica numa chance maior desse erro ocorrer. Logo, se eu testar diversas variáveis, o problema das comparações múltiplas sejam elas parâmetros de saúde ou cores de jujubas, provavelmente algum ruído estatístico aparecerá como um falso positivo. É o caso deste gráfico que demonstraria uma estreita ligação entre as letras na palavra vencedora utilizada em uma competição de soletrar e o número de pessoas nos Estados Unidos mortas por aranhas venenosas.

Além do questionamento acerca do critério utilizado para considerar um resultado estatisticamente significante, Bohannon quis também demonstrar o papel de fatores exteriores, como o papel da grande imprensa ao potencializar e retroalimentar más práticas científicas, o que torna esta uma questão de sociológica. A conversão da produção científica em mercadoria, e seu papel na manutenção de paradigmas superados ajuda a sustentar a hipótese desse trabalho de que existe uma crise na ciência, e que está é determinada pela crise do capital.

Com a ajuda de um release de imprensa publicado no site do falso instituto, deliberadamente criado para explorar a “incrível preguiça” dos jornalistas, ou seja, com um “título sexy, um lide claro, algumas citações incisivas e um subtítulo (kicker)”, logo o artigo virou notícia em grandes meios de comunicação, que por sua vez apresentaram sua própria versão da história. O Bild, da Alemanha, sem contatar Bohannon intitulou sua matéria sobre a descoberta como “Aqueles que comem chocolate permanecem magros”. Outros jornais que deram relevância ao achado foram o Daily Star, o Irish Examiner, o site alemão do Cosmopolitan, o Times da India, os sites em alemão e indiano do Huffington Post, uma emissora de televisão no Texas e outra na Austrália.

Gunter Frank1, parceiro de Bohannon e autor de um livro no qual denuncia a pseudociência presente em muitos estudos da nutrição, foi o responsável pela escolha do chocolate amargo, segundo ele uma preferência dos fanáticos por alimentos integrais. “Chocolate amargo tem um gosto ruim, por isso deve ser bom para você”, afirmou, e concluiu: “é quase uma religião”.

Em suas reflexões sobre o caso, Bohannon culpa o modelo das publicações de acesso livre, que cobram taxas dos interessados em publicar os artigos, “um lucrativo e rapidamente crescente novo setor do negócio de publicações acadêmicas”, algo que essa dissertação tratará mais adiante. Para ele, “muitos cientistas são honestos e o fazem inconscientemente. Eles obtém resultados negativos, se autoconvencem de que cometeram algum erro e repetem o experimento até que eles ‘funcionem’.”

Essa constatação, da existência de uma crise estatística, ao generalizar-se no presente, levou os editores da prestigiosa revista Basic and Applied Social Psychology, a banirem, em fevereiro de 2015, o uso do conceito matemático de significância estatística, o valor-p. (WOOLSTON, 2015) Entretanto, esta medida também se mostrou envolta em polêmica. Um psicólogo da Universidade de Oregon em Eugene, Sanjay Srivastava, que falou à revista Nature sobre o assunto, afirmou que o próximo passo seria banir as conclusões. Jan de Ruiter, cientista cognitivo da Universidade de Bielefeld, na Alemanha, também em declarações à Nature afirma não ser possível fazer ciência sem alguma forma de inferência estatística (WOOLSTON, 2015).

Novas formulações estão sendo propostas para sair deste impasse e elas não se limitam a uma discussão metodológica, mas sim remetem aos paradigmas da própria ciência estatística (WAGENMAKERS, 2015)2.

Jacob Cohen, imporante estatístico estadunidense, já havia argumentado, em um bastante citado artigo publicado ainda em 1994 na American Psychologist, com o sarcástico título A Terra é redonda (P < .05) que para “generalização, os psicólogos [e aqui podemos estender o raciocínio para outros campos] devem se fiar, como tem sido feito em todas as antigas ciências, na replicação” (COHEN, 1994).

1Não confundir com Andre Gunder Frank, seu quase homônimo.

2Ver a nota de rodapé anterior

Um pouco sobre a Inferência Bayesiana

Caso observássemos a caixa de correio dos vizinhos para saber mais informações acerca do bebê que eles esperam, poderíamos testar nossas hipóteses partindo de uma provável correlação entre a cor das roupas e o sexo do bebê. Se em vez de um enxoval encontrássemos caixas com ração de gatos, arranhadores e areia para gatos, isso não nos permitiria testar a hipótese de que os vizinhos deram a luz a um gato. O fato de descartarmos essa hipótese, apesar da “evidência” dos dados colhidos, se deve ao fato desta hipótese ser a priori considerada muito, muito pequena. Essa é a ideia de outro quadrinho do XKCD, que mostra o absurdo permitido pela abordagem frequentista de se estar vivo e ainda assim acreditar que o sol explodiu como uma supernova. Mesmo que se argumentasse que os neutrinos medidos tivessem chegado antes do plasma da explosão e estivéssemos vivos neste intervalo, nunca foi observada uma estrela com a massa do sol explodir como uma supernova. É a falácia da frequência de base, quando uma explicação improvável é descartada, mesmo que a alternativa seja ainda mais improvável.

É por isso que Wagenmakers se utilizou da inferência Bayesiana para refutar os dados da pesquisa que trazia evidências sobre a possibilidade de se prever o futuro. Esse método de inferência estatística é baseada no teorema de Bayes e consiste na atualização da probabilidade de uma hipótese conforme mais evidência ou informação se tornam disponíveis.

A inferência Bayesiana, em oposição à interpretação frequentista (utilizada por Fisher) busca o cálculo de uma probabilidade com base na probabilidade de um conhecimento prévio ser verdadeiro. Este método foi formalizado e generalizado por Laplace, mas ele foi exposto pela primeira fez pelo matemático e pastor presbiteriano Thomas Bayes, no século XVIII. Em 1763, após a morte de Bayes, foi publicado pela Royal Society seu ensaio An Essay towards solving a Problem in the Doctrine of Chances no qual ele descreve um experimento mental que apresenta uma solução para a questão da probabilidade inversa.

Neste experimento, Bayes imagina uma bola que é atirada sobre uma mesa sem que um observador possa ver em qual das duas metades nas quais a mesa foi dividida a bola parou (a mesa é construída de forma que a bola tem a mesma chance de parar em qualquer ponto).

Para descobrir onde a bola está, sem olhar, Bayes pede a seu assistente que atire uma segunda bola e lhe diga se essa bola está a esquerda ou a direita da primeira. Se ela estiver à esquerda da primeira bola, por exemplo, existe uma possibilidade um pouco maior de que a primeira bola esteja do lado direito da mesa. O processo é então repetido diversas vezes e Bayes pode então ir triangulando a área na qual a primeira bola se encontra. Cada novo teste lhe permite uma aproximação melhor do resultado. Desta forma, seu sistema pode ser descrito como: crença inicial + novos dados → crença melhorada.

Contudo, também existem controvérsias sobre a utilização dos métodos Bayesianos, porque eles implicam

abandonar a definição fácil de probabilidade como uma frequência a longo prazo, e ao invés disso, considerá-la como probabilidades de apostas subjetivas. O outro [ponto controverso] é a necessidade de especificar quão forte é a sua crença no resultado antes que o experimento seja feito (uma probabilidade anterior), um exercício que pode chegar perigosamente perto a você alimentar seus preconceitos no resultado (COLQUHOUN, 2014).

Significância estatística, correlação e causalidade

Após tudo que publicamos, insistimos que o problema da Crise Estatística não pode ser solucionado apenas a partir de uma interpretação técnica dos resultados, sendo um problema epistemológico que aponta para uma crise de paradigmas.

O Modus Tollens é a forma de abstração presente na formulação de Popper, que acreditava ter resolvido o problema da indução conforme apresentado por Hume. É importante notar que, na sua forma estatística, ele não nos permite nunca afirmar, com certeza, que a hipótese alternativa está correta, apenas que há uma grande probabilidade de podermos descartar a hipótese nula (ROSA, 2005, p. 220).

Mesmo que pudéssemos ter certeza estatística de que os dados coletados representarem uma correlação (digamos, além de 99,999999% de confiabilidade), a natureza dessa correlação constitui um outro problema sobre o qual o teste de significância pouco pode nos dizer. Para ilustrar esse ponto, Gould abre um ensaio perguntando-se:

Por acaso pregadores batistas causam bebedeiras? Eu levanto este questionamento inusual porque uma velha e famosa tabela demonstra uma clara correlação positiva entre o número de pregadores e a frequência da prisão por embriaguez durante a segunda metade do século XIX nos Estados Unidos (Gould, 1995, p. 296).

Gould responde que não, afinal existem diversas outras hipóteses alternativas, que não a relação causal de que os pregadores causam bebedeiras, que condizem com a negação da hipótese nula: pode-se sugerir que “um aumento no consumo de álcool promove a contratação de mais pregadores”. Ou ainda a possibilidade mais provável de que pregar e beber não tenham uma relação causal entre si, mas que “seu incremento simultâneo reflita uma ligação em comum a um terceiro fator, verdadeiramente determinante. O aumento da população estadunidense durante o século XIX promoveu um aumento em milhares de fenômenos de outra forma não relacionados”. (GOULD, 1995, p. 296).

O fato de se ter um dado objetivo, um resultado estatisticamente significante implica, como vimos em duas opções, a hipótese nula ser verdadeira e estarmos diante de um fenômeno altamente improvável, ou dela ser falsa. A escolha entre essas duas respostas que os dados nos apresentam necessita de uma análise qualitativa que ultrapassa o escopo da estatística e que muitas vezes parte de crenças que existem antes e fora do experimento modelo. No limite, esta abordagem conhecida como frequentismo leva a um problema de definição circular, pois a medida do erro de uma medida de probabilidade só pode ser expressa como uma probabilidade.

Os neutrinos mais rápidos que a luz

O uso da significância estatística não garante a eliminação dos erros. Vejamos o caso da anomalia dos neutrinos mais rápidos do que a luz. Em março de 2011, uma observação do experimento OPERA, realizado com a colaboração de dois laboratórios, o CERN e o LNGS, supostamente teria observado neutrinos se deslocarem a velocidades superiores à da luz com uma significância de 6 sigma, ou seja, um grau de certeza estatística ainda maior que o já consagrado padrão 5 sigma.

O resultado foi, oito meses depois, novamente replicado pela mesma equipe de pesquisadores, desta vez com um nível de significância ainda maior, 6.2 sigma. Isso causou um furor na imprensa, pois a constância da velocidade da luz no vácuo e o fato desta ser o limite para todo o deslocamento de matéria ou de informação é um dos pilares da física.

Cabe ressaltar que neste caso os físicos ligados ao experimento se abstiveram de interpretar os resultados, adotando uma postura cautelosa, ao afirmarem em seu artigo que:

Apesar da grande significância da medida aqui relatada e da estabilidade da análise, o impacto potencialmente grande do resultado motiva a continuação de nossos estudos para investigar possíveis efeitos sistemáticos ainda desconhecidos que poderiam explicar a anomalia observada. Nós deliberadamente não tentamos qualquer interpretação teórica ou fenomenológica dos resultados (ADAM, 2012).

No final das contas, após tentativas infrutíferas de replicações externas, percebeu-se que a verdadeira causa deste resultado era um cabo de fibra ótico mal atarraxado, além do mal funcionamento de um componente eletrônico. Contudo, a imprensa já havia publicado suas manchetes sensacionalistas de que os físicos haviam detectados partículas viajando acima da velocidade da luz e que Einstein estava errado.

Valor-p, falsos positivos e falsos negativos: um exemplo

Pensemos, no seguinte problema: uma versão simplificada da simulação apresentada por Colquhoun (2014), cujo código fonte do script foi disponibilizado para reprodução.

Em um determinado campo, um total de mil hipóteses estão sendo investigadas. Estabelecemos arbitrariamente que, dentre essas, 100 refletem relações verdadeiras presentes na realidade, ainda que ninguém saiba quais sejam. Digamos que os experimentos, quando diante das hipóteses verdadeiras, identifiquem 80% delas. Neste caso, a taxa de falso-negativo β é de 20%. Imaginemos uma taxa de falso-positivo α mais baixa, de apenas 5%. Como temos um grande número de hipóteses falsas a serem testadas, o que é natural, descartamos corretamente 855 hipóteses falsas, mas geramos 45 falsos positivos.

A nova verdade estabelecida neste campo compreenderá 125 hipóteses alternativas, das quais mais de um terço é falsa. Desta forma, mesmo seguindo-se todos os procedimentos padrões, quase um terço das descobertas anunciadas são falsas.

Algumas soluções foram apresentadas por estatísticos para que esses enganos sejam sanados. Uma delas é a adoção de valores de p mais baixos, como é o caso da física de partículas, que adota o valor de p = 0.0000003, o que também é conhecido como cinco sigma.

Neste caso, os erros de falso positivo seriam muito mais raros do que quando se adota o p valendo 0.5. A probabilidade de que, com a hipótese nula verdadeira os resultados obtidos, ou outros mais extremos, teoricamente será de 1 em 3,5 milhões.

Equilibrando-se entre falsos-positivos e falsos-negativos

A própria ideia de certeza probabilística, se tomada mecanicamente, como comumente o é, pode ser considerada uma aporia. Pela própria natureza do conhecimento estatístico, ele nunca é livre de erro, ainda que teoricamente (e em alguns casos muito excepcionais) possamos fazer com que a possibilidade de um erro seja tão remota que não fosse plausível sua ocorrência, nem que o nosso universo fosse de ordens de magnitude mais velho do que se acredita que ele seja. Contudo, os modelos com os quais os pesquisadores lidam na prática sempre contêm a possibilidade real da ocorrência de dois tipos de erros que coexistem em uma relação dialética.

O Erro de tipo 1, também conhecido como falso-positivo, ocorre quando a hipótese nula (H0) é verdadeira, mas a rejeitamos. Dessa forma enxergamos uma relação que não existe na realidade. O Erro de tipo 2, ou falso-negativo, ocorre quando a hipótese nula (H0) é falsa, mas não é rejeitada. Isso significa que deixamos de perceber uma relação presente na realidade. As taxas de erros dos tipos 1 e 2 são denominadas, respectivamente, α e β. Apesar de muitas vezes serem tomadas como tal, nenhuma delas é o valor-p.

Um dos equívocos conceituais acerca do valor-p é de que este seria a probabilidade da hipótese nula de um teste ser verdadeira, ou a probabilidade de um dado resultado ter sido obtido por acaso, ou mesmo que o valor-p seria a probabilidade da hipótese nula ter sido equivocadamente rejeitada.

De forma bem objetiva, o valor-p é a probabilidade do resultado obtido, ou algum mais extremo que ele (no sentido de reforçar a correlação) ter sido obtido dado que a hipótese nula seja verdadeira1. Desta forma, se o valor de p, que é calculado apenas ao final do experimento, de posse de todos os dados, for baixo, isso deve significar duas coisas: ou que a hipótese nula é verdadeira e que um evento altamente improvável ocorreu (gerando um falso-positivo), ou que a hipótese nula é falsa (confirmação da hipótese alternativa). O quão improvável é este falso positivo e se a resposta para essa questão está toda contida dentro do modelo matemático é um dos dilemas associados à Crise Estatística.

Se aumentarmos a sensibilidade da nossa detecção, de forma a minimizar a ocorrência de erros de falso-negativo (tipo 2), no qual deixarmos de perceber uma relação existente, consequentemente aumentaremos a incidência de erros de falso-positivo (tipo 1), no qual enxergamos uma relação quando ela não está presente na realidade. Se diminuirmos a sensibilidade, teremos menos erros de falso-positivo (tipo 1), mas deixaremos passar um número maior de efeitos não percebidos, logo, um aumento dos erros de falso-negativo (tipo 2).

Essa calibração do experimento pode se dar de várias formas, seja efetivamente calibrando um sensor de detecção em um equipamento, seja matematicamente, estabelecendo os tipos de controle de erros. Por exemplo, se for apresentado, para decidir se foi forjado ou efetivamente aleatório, que o resultado de 40 lances de uma moeda seja uma série com 20 caras seguidas depois de 20 coroas, pode-se chutar, com uma grande probabilidade de acerto, que este resultado não foi efetivamente gerado por um processo aleatório. Poderíamos excluir tal resultado das nossas medições, mas, mesmo pertencendo a um conjunto raro de resultados, ele em si é tão possível quanto qualquer outro resultado.

No caso de exames de detecções de doenças, como o HIV, a calibração é favorável à ocorrência de erros de tipo 1, pois é preferível dar uma notícia ruim erroneamente a uma pessoa que ao final descobrirá com testes confirmatórios (que fazem parte do protocolo) não ter a doença, do que deixar de detectar a doença em uma pessoa que precisa de tratamento.

1Existe uma diferença de interpretação sobre o significado do valor-p de acordo com o modelo de teste de hipóteses escolhido, o modelo de Neyman-Pearson, ou o de Fisher. Trata-se de um dissenso que perdura há décadas que tem como base uma questão filosófica acerca do papel dos modelos em inferência estatística. A base da controvérsia é a relação entre probabilidade e estatística. Os livros-texto atualmente utilizam um modelo híbrido dos dois métodos, mas esta alternativa também é alvo de críticas, por serem as duas abordagens incongruentes entre si.