Os neutrinos mais rápidos que a luz

O uso da significância estatística não garante a eliminação dos erros. Vejamos o caso da anomalia dos neutrinos mais rápidos do que a luz. Em março de 2011, uma observação do experimento OPERA, realizado com a colaboração de dois laboratórios, o CERN e o LNGS, supostamente teria observado neutrinos se deslocarem a velocidades superiores à da luz com uma significância de 6 sigma, ou seja, um grau de certeza estatística ainda maior que o já consagrado padrão 5 sigma.

O resultado foi, oito meses depois, novamente replicado pela mesma equipe de pesquisadores, desta vez com um nível de significância ainda maior, 6.2 sigma. Isso causou um furor na imprensa, pois a constância da velocidade da luz no vácuo e o fato desta ser o limite para todo o deslocamento de matéria ou de informação é um dos pilares da física.

Cabe ressaltar que neste caso os físicos ligados ao experimento se abstiveram de interpretar os resultados, adotando uma postura cautelosa, ao afirmarem em seu artigo que:

Apesar da grande significância da medida aqui relatada e da estabilidade da análise, o impacto potencialmente grande do resultado motiva a continuação de nossos estudos para investigar possíveis efeitos sistemáticos ainda desconhecidos que poderiam explicar a anomalia observada. Nós deliberadamente não tentamos qualquer interpretação teórica ou fenomenológica dos resultados (ADAM, 2012).

No final das contas, após tentativas infrutíferas de replicações externas, percebeu-se que a verdadeira causa deste resultado era um cabo de fibra ótico mal atarraxado, além do mal funcionamento de um componente eletrônico. Contudo, a imprensa já havia publicado suas manchetes sensacionalistas de que os físicos haviam detectados partículas viajando acima da velocidade da luz e que Einstein estava errado.

Valor-p, falsos positivos e falsos negativos: um exemplo

Pensemos, no seguinte problema: uma versão simplificada da simulação apresentada por Colquhoun (2014), cujo código fonte do script foi disponibilizado para reprodução.

Em um determinado campo, um total de mil hipóteses estão sendo investigadas. Estabelecemos arbitrariamente que, dentre essas, 100 refletem relações verdadeiras presentes na realidade, ainda que ninguém saiba quais sejam. Digamos que os experimentos, quando diante das hipóteses verdadeiras, identifiquem 80% delas. Neste caso, a taxa de falso-negativo β é de 20%. Imaginemos uma taxa de falso-positivo α mais baixa, de apenas 5%. Como temos um grande número de hipóteses falsas a serem testadas, o que é natural, descartamos corretamente 855 hipóteses falsas, mas geramos 45 falsos positivos.

A nova verdade estabelecida neste campo compreenderá 125 hipóteses alternativas, das quais mais de um terço é falsa. Desta forma, mesmo seguindo-se todos os procedimentos padrões, quase um terço das descobertas anunciadas são falsas.

Algumas soluções foram apresentadas por estatísticos para que esses enganos sejam sanados. Uma delas é a adoção de valores de p mais baixos, como é o caso da física de partículas, que adota o valor de p = 0.0000003, o que também é conhecido como cinco sigma.

Neste caso, os erros de falso positivo seriam muito mais raros do que quando se adota o p valendo 0.5. A probabilidade de que, com a hipótese nula verdadeira os resultados obtidos, ou outros mais extremos, teoricamente será de 1 em 3,5 milhões.

Equilibrando-se entre falsos-positivos e falsos-negativos

A própria ideia de certeza probabilística, se tomada mecanicamente, como comumente o é, pode ser considerada uma aporia. Pela própria natureza do conhecimento estatístico, ele nunca é livre de erro, ainda que teoricamente (e em alguns casos muito excepcionais) possamos fazer com que a possibilidade de um erro seja tão remota que não fosse plausível sua ocorrência, nem que o nosso universo fosse de ordens de magnitude mais velho do que se acredita que ele seja. Contudo, os modelos com os quais os pesquisadores lidam na prática sempre contêm a possibilidade real da ocorrência de dois tipos de erros que coexistem em uma relação dialética.

O Erro de tipo 1, também conhecido como falso-positivo, ocorre quando a hipótese nula (H0) é verdadeira, mas a rejeitamos. Dessa forma enxergamos uma relação que não existe na realidade. O Erro de tipo 2, ou falso-negativo, ocorre quando a hipótese nula (H0) é falsa, mas não é rejeitada. Isso significa que deixamos de perceber uma relação presente na realidade. As taxas de erros dos tipos 1 e 2 são denominadas, respectivamente, α e β. Apesar de muitas vezes serem tomadas como tal, nenhuma delas é o valor-p.

Um dos equívocos conceituais acerca do valor-p é de que este seria a probabilidade da hipótese nula de um teste ser verdadeira, ou a probabilidade de um dado resultado ter sido obtido por acaso, ou mesmo que o valor-p seria a probabilidade da hipótese nula ter sido equivocadamente rejeitada.

De forma bem objetiva, o valor-p é a probabilidade do resultado obtido, ou algum mais extremo que ele (no sentido de reforçar a correlação) ter sido obtido dado que a hipótese nula seja verdadeira1. Desta forma, se o valor de p, que é calculado apenas ao final do experimento, de posse de todos os dados, for baixo, isso deve significar duas coisas: ou que a hipótese nula é verdadeira e que um evento altamente improvável ocorreu (gerando um falso-positivo), ou que a hipótese nula é falsa (confirmação da hipótese alternativa). O quão improvável é este falso positivo e se a resposta para essa questão está toda contida dentro do modelo matemático é um dos dilemas associados à Crise Estatística.

Se aumentarmos a sensibilidade da nossa detecção, de forma a minimizar a ocorrência de erros de falso-negativo (tipo 2), no qual deixarmos de perceber uma relação existente, consequentemente aumentaremos a incidência de erros de falso-positivo (tipo 1), no qual enxergamos uma relação quando ela não está presente na realidade. Se diminuirmos a sensibilidade, teremos menos erros de falso-positivo (tipo 1), mas deixaremos passar um número maior de efeitos não percebidos, logo, um aumento dos erros de falso-negativo (tipo 2).

Essa calibração do experimento pode se dar de várias formas, seja efetivamente calibrando um sensor de detecção em um equipamento, seja matematicamente, estabelecendo os tipos de controle de erros. Por exemplo, se for apresentado, para decidir se foi forjado ou efetivamente aleatório, que o resultado de 40 lances de uma moeda seja uma série com 20 caras seguidas depois de 20 coroas, pode-se chutar, com uma grande probabilidade de acerto, que este resultado não foi efetivamente gerado por um processo aleatório. Poderíamos excluir tal resultado das nossas medições, mas, mesmo pertencendo a um conjunto raro de resultados, ele em si é tão possível quanto qualquer outro resultado.

No caso de exames de detecções de doenças, como o HIV, a calibração é favorável à ocorrência de erros de tipo 1, pois é preferível dar uma notícia ruim erroneamente a uma pessoa que ao final descobrirá com testes confirmatórios (que fazem parte do protocolo) não ter a doença, do que deixar de detectar a doença em uma pessoa que precisa de tratamento.

1Existe uma diferença de interpretação sobre o significado do valor-p de acordo com o modelo de teste de hipóteses escolhido, o modelo de Neyman-Pearson, ou o de Fisher. Trata-se de um dissenso que perdura há décadas que tem como base uma questão filosófica acerca do papel dos modelos em inferência estatística. A base da controvérsia é a relação entre probabilidade e estatística. Os livros-texto atualmente utilizam um modelo híbrido dos dois métodos, mas esta alternativa também é alvo de críticas, por serem as duas abordagens incongruentes entre si.

O valor-p, além da confusão em torno de si

Um quadrinho bastante popular, e que trata de diversos temas científicos, chamado XKCD ironiza essa situação. Na tirinha, os cientistas pesquisam se jujubas causam acne. Após um resultado negativo, os cientistas são novamente instigados a investigar a relação entre acne e as jujubas de diferentes cores. Eles realizam 20 testes e finalmente acreditam ter descoberto uma relação entre jujubas verdes e acne, o que é publicado com destaque pelos jornais. O que a charge ilustra é a debilidade de um experimento projetado erroneamente, pois diante de tantos testes, é esperada a ocorrência de um falso positivo com uma probabilidade muito maior do que os 5% que um valor de p igual a 0.05 intuitivamente pareceria indicar.

Este problema não advém apenas de uma incompreensão acerca das ferramentas e técnicas estatísticas por parte dos pesquisadores que as utilizam e da comunidade científica em geral, o que transcende apenas a questão de como um experimento foi projetado. Existe uma questão epistemológica subjacente, que alimenta as chamas desse debate e divide os estatísticos há décadas.

O conceito de valor-p não é intuitivo e são comuns muito equívocos sobre seu significado. A falta de compreensão acerca do significado do valor-p é um dos desafios metodológicos do que ficou conhecido como Crise Estatística da Ciência. Para entender-se o conceito de valor-p é necessário, antes de tudo, entender o conceito de hipótese nula, hipótese alternativa, e dos erros de tipo 1 e 2.

A hipótese nula (H0) nada mais é que a asserção de que não existe um efeito entre dois fenômenos considerados. Sejam eles a ingestão de um medicamente e um determinado efeito, entre idade e peso, ou um efeito entre a resistência de um edifício e o material utilizado em sua estrutura. A outra hipótese, chamada de hipótese alternativa (H1) é a de que existe uma correlação entre os fenômenos, justamente o que os cientistas buscam saber.

Do ponto de vista lógico, o teste de significância estatística, baseado na disjunção de Fisher, pode ser comparado com o argumento do modus tollendo tollens do método dedutivo, ou negação do consequente, que foi descrito primeiramente pelos estoicos e formalizado como:

Se P, então Q.
Q é falso.
Logo, P é falso.

Um exemplo concreto, para ilustrar:

Se eu comer em demasia, eu passo mal.
Eu não passei mal.
Então não comi em demasia

De forma similar, a disjunção apresentada por Fisher afirma que se a hipótese nula (H0) for falsa, não deve ser observada uma correlação y, e pode ser escrita como:

Se H0, então y é muito improvável;
y;
H0 é muito improvável.

Um exemplo, se estivermos estudando a correlação entre o tabagismo e o desenvolvimento de um câncer pulmonar e não pudermos observar um aumento da incidência de câncer entre os fumantes, a hipótese nula se afirmaria, caso contrário, negamos a hipótese nula, o que é considerado uma confirmação indireta e probabilística da hipótese alternativa. Porém, o simples fato de tratarmos com a ideia de probabilidade, a rigor, faz com que essa disjunção não seja considerada logicamente válida. Ou seja, ao optar-se por esse método de se buscar a verdade, abdica-se da tentativa de se comprovar a hipótese alternativa, contentando-se em falsear-se a hipótese nula com um certo grau de certeza probabilística.

A Crise estatística

Em 2011, o prestigioso Journal of Personality and Social Psychology, da Associação Americana de Psicologia, publicou um artigo com o curioso título Sentindo o futuro: evidência experimental de influências anômalas retroativas sobre a cognição e o afeto. O artigo, publicado após revisão pelos pares, trata sobre o psi, um suposto “processo anômalo de transferência de informação e energia que não pode ser explicado pelos mecanismos físicos ou biológicos conhecidos” (BEM, 2011).

O autor Daryl Bem relata nove experimentos nos quais eram pedidos que os participantes adivinhassem qual das duas cortinas exibidas na tela de um computador esconderia uma imagem e qual apenas cobriria um muro. Somente após o processo de escolha, o computador aleatoriamente posicionava uma imagem (que provinha de um desses três conjuntos: neutras, eróticas e negativas) atrás de uma das cortinas e, finalmente, exibia o que estava por trás das cortinas. Se a imagem estivesse atrás da escolhida pelo participante, o resultado era considerado um acerto.

Para um número cada vez maior de realizações do teste, espera-se que as porcentagens de erros e acertos convergissem para 50 por cento cada. Afinal, trata-se de um chute entre duas possibilidades. O resultado final não foi longe disso, após 100 sessões, nas quais reportaram haver realizado 3.600 testes, os pesquisadores relatavam 53% de acerto para as imagens eróticas e negativas, contra 49.8% de acertos para as imagens neutras.

Apoiando-se no critério técnico de significância estatística, Bem concluiu estar diante de indícios concretos de que as pessoas podem sentir fenômenos que ainda não aconteceram, o que viola completamente o conceito de causalidade.

Não alheios à polêmica que o artigo poderia provocar, afinal, trata-se de uma defesa da parapsicologia no interior de uma publicação de psicologia, os editores o publicaram conjuntamente com uma nota na qual reconhecem que

a afirmação presente no estudo, de que as respostas dos participantes eram influenciadas por estímulos gerados aleatoriamente após as respostas representa um desafio muito sério à visão tradicional de causalidade. Não é necessário dizer que tal desafio a convicções tão firmemente mantidas tem como destino inflamar uma grande controvérsia. (JUDD, 2011)

Em sua nota, os editorialistas minimizam sua importância como avaliadores: “podemos apenas tomar a palavra do autor de que seus dados são genuínos e que as descobertas relatadas não advém de um grande conjunto de estudos não publicados que mostram efeitos nulos” (JUDD, 2011).

Fica a pergunta se a intenção dos editorialistas, ao aceitarem o artigo, era apenas “inflamar uma grande controvérsia”, até porque, além desta nota editorial, foi publicada na mesma edição da revista uma refutação certeira da descoberta de Bem. Trata-se do comentário de Wagenmakers, que poderia ter sido melhor aproveitado como argumentação de um parecer negando a publicação do artigo, já que demonstra cabalmente que esses estranhos resultados obtidos advém de flutuações estatísticas interpretadas erroneamente:

Discutimos graves limitações nos experimentos de Bem sobre o psi. […] Reanalisamos os dados de Bem com um teste t padrão bayesiano e mostramos que a evidência para psi é de fraca para não existente.[…] Concluímos que o valores-p de Bem não representam uma evidência favorável à precongição, ao invés disso, indicam que os psicólogos experimentais precisam mudar a maneira com a qual conduzem os experimentos e analisam seus dados. (WAGENMAKERS, E.J., 2011)

Wagenmakers identificou um erro cometido por Bem que é extremamente comum entre os pesquisadores que utilizam equivocadamente o critério de significância estatística para validar suas descobertas. Esse problema, que remonta às grandes desavenças entre os fundadores do método estatístico no início do século XX, vem sendo percebido, há algumas décadas, como algo sério e generalizado na produção científica, sem uma resolução e cujos efeitos ainda são muito subestimados.

A experiência empírica comprova que a utilização mais criteriosa das ferramentas estatísticas pode apenas amenizar problemas reais, que teimam em se afirmar com maior frequência e consequências do que o comumente assumido pelos pesquisadores. Por mais importante e urgente que seja, um aprimoramento das técnicas matemáticas não é suficiente para resolver impasses que tem a ver com a subjetividade geral da sociedade, como é o caso do viés de publicação, causado pela tendência de se engavetar estudos com resultados negativos, enquanto que há mais holofotes e interesse em se publicar os resultados positivos, viciando as amostras.

No caso de Bem, fica claro seu pertencimento a uma visão de mundo que tão facilmente lhe autoriza a lançar por terra todas as leis da física e do movimento dialético. No subcapítulo a seguir, nos deteremos em uma explicação mais detalhada sobre a polêmica em torno do conceito de significância estatística, apresentando alguns casos empíricos e as discussões em torno a possíveis soluções a este problema, que como veremos, remete a uma limitação paradigmática, com raízes positivistas, que somadas ao irracionalismo pós-moderno, conduzem à deformação pela forma com a qual a aplicação da matemática é utilizada de forma reducionista e unilateral para tecer ou mesmo desconstruir juízos científicos.

Pode-se considerar aqui a relevância da crítica feita ao misticismo de Newton por Marx em seus Manuscritos Matemáticos. A matemática, como ciência das medidas e grandezas, se senta sobre elementos objetivos. A tentativa de usá-la para explicar movimentos orgânicos e subjetivos conduz a matemática ao misticismo; é como atribuir-lhe um papel quase demiurgo, a exemplo da concepção de que as aplicações matemáticas poderiam resolver problemas de caráter social ou a essência das relações sociais (MARX, ???, passim).

Como o materialimo histórico e dialético nos permite pensar a crise?

O método utilizado neste trabalho é o materialismo histórico e dialético, originado nas formulações de Marx e Engels e que foi sendo enriquecido através dos últimos dois séculos pelo aporte de autores de todas as partes do mundo.

Quando pensamos nas causas de um fenômeno, sempre se mostra pertinente a distinção do historiador grego Tucídides, ao expor as razões que levaram à Guerra do Peloponeso, entre alethestate prophasis e aitia. O primeiro vocábulo, que ele toma da medicina e utiliza como “causa mais verdadeira” (explicação mais verídica na tradução consultada), ele distingue da segunda, que utiliza no sentido de razão alegada, antecedentes:

As razões [aitia] pelas quais eles a romperam [a guerra do Peloponeso] e os fundamentos de sua disputa eu exporei primeiro […] A explicação mais verídica [alethestate prophasis], apesar de menos frequentemente alegada, é, em minha opinião, que os atenienses estavam tornando-se muito poderosos e isso inquietava os lacedônios, compelindo-os a recorrerem à guerra. (TUCÍDIDES, 1987, I, 23)

Nesta postura, a explicação mais verídica é a que se ocupa também das “causas das causas” e estabelece as relações entre as orgânicas e as imediatas. A preocupação de Tucídides se coaduna com a famosa formulação de Marx, no Prefácio à Contribuição à Crítica da Economia Política de que

[…] na produção social da sua vida, os homens contraem determinadas relações necessárias e independentes da sua vontade, relações de produção que correspondem a uma determinada fase de desenvolvimento das suas forças produtivas materiais. O conjunto dessas relações de produção forma a estrutura econômica da sociedade, a base real sobre a qual se levanta a superestrutura jurídica e política e à qual correspondem determinadas formas de consciência social. O modo de produção da vida material condiciona o processo da vida social, política e espiritual em geral (MARX, 2008, p. 47).

Isso não significa de forma alguma aderir a explicações baseadas em relações causais unilaterais, na utilização de categorias a priori ou na hierarquia de fundamentalidades, males que permeiam a ciência burguesa. Como faz questão de esclarecer Engels em sua carta a Bloch:

De acordo com a concepção materialista da história, o elemento determinante final na história é a produção e reprodução da vida real. Mais do que isso, nem eu e nem Marx jamais afirmamos. Assim, se alguém distorce isto afirmando que o fator econômico é o único determinante, ele transforma esta proposição em algo abstrato, sem sentido e em uma frase vazia (ENGELS, 1980, p. ???).

O movimento na direção das causas mais fundamentais é sempre no sentido de enriquecer e complexificar a análise, em busca da intricada teia de múltiplas sobredeterminações que se sintetizam no mundo real.

Entretanto, a ciência moderna em geral, imbuída do reducionismo, normalmente se satisfaz com as causas mais imediatas, seguindo o raciocínio de Francis Bacon quando este constatou que para “a lei, as causas imediatas e não as remotas de um evento devem ser consideradas1”, pois “Seria infinito para a lei considerar as causas das causas e seus impulsos recíprocos; portanto, contentar-se com a causa imediata e julgar os atos a partir disso, sem considerar nenhum grau além” (Bacon, 1803, p. 16).

Como contraste, o método dialético concebe que todas as coisas estão relacionadas, o restante do mundo, o exterior estará sempre materialmente interpenetrado com o que consideramos o interior de um dado problema, afinal,

As ferramentas filosóficas propiciadas pela dialética abstraem as propriedades gerais de sistemas dinâmicos complexos. Elas, assim, nos permitem ver quais abordagens são compatíveis ou conflituosas e nos ajudam a perguntar as questões críticas sobre os sistemas: Onde está o restante do mundo? Como as coisas se tornaram dessa forma? O que podemos fazer sobre isso? (LEVINS, 2006, p. 741-755)

Posto isto, e regressando ao nosso tema, a importância das relações sociais de produção, a base material de toda a sociedade humana, não pode ser subestimada para se explicar como paradigmas superados se mantêm dominantes na comunidade científica mesmo após a prática tê-los refutado reiteradamente. Há que se buscar uma explicação além do mero movimento das ideias. Esse movimento, ensaiado por Thomas Khun, que não o levou às últimas consequências, está na base da sociologia da ciência que, para explicar a evolução do pensamento científico, não se contenta com as explicações internalistas e entende que as concepções que os próprios cientistas têm sobre sua prática deve ser cotejada com todo o restante que ocorre no mundo onde os cientistas exercem sua atividade.

Na análise do presente, torna-se essencial pensar a dinâmica da produção científica dentro do quadro das relações capitalistas dominantes na formação social contemporânea. Por isso, o método seguido por este trabalho é o materialismo histórico e dialético de Karl Marx e Friedrich Engels. Em tributo a estes autores, buscaremos ser rigorosos na definição e na utilização de categorias como capital, máquinas, composição orgânica, valor, crise do capital e ciência.

1In Jure Non Remota Causa Sed Proxima Spectatur, no original em latim.

Os negacionistas da importância da replicabilidade

Diante de um diagnóstico tão drástico, existem aqueles que relativizam a importância da replicabilidade, como o pesquisador do Instituto de Tecnologia da Informação e do Conselho Nacional de Pesquisa do Canadá, Chris Drummond. Para ele, na área de inteligência artificial, não existiria o problema de fraude de resultados, logo não há necessidade da replicação de experimentos (DRUMMOND, 2009).

Drummond responde diretamente àqueles que defendem a publicação de todos os códigos-fonte utilizados pelos pesquisadores na área de aprendizado de máquinas:

O compartilhamento de todos os artefatos dos experimentos de todas as pessoas não é uma atividade trivial. Isso exigirá uma grande parcela de trabalho extra não apenas dos autores, mas também dos revisores. Estou longe de estar convencido de que isso trará os benefícios que muitos pensam (DRUMMOND, 2009).

Fica claro que, por trás da problematização de Drummond focada na aparente inutilidade de um trabalho extra, estão os interesses dos detentores de direitos autorais e patentes de propriedade intelectual, uma forma jurídica de estabelecer um valor de troca para um tipo de mercadoria na qual a crise do valor já se expressa com uma nova qualidade há bastante tempo. É acerca disso que Marx se refere nos Grundrisse quando fala sobre a impossibilidade de se quantificar o valor do produto do trabalho científico de acordo com o tempo de seu desenvolvimento.

Outra voz que desestima a importância da replicabilidade é a premiada pesquisadora do Lawrence Berkeley National Laboratory, a especialista em câncer de mama Mina Bissell, para quem a propensão a trabalhar na replicação de descobertas poderia ter o efeito colateral de “esconder pesquisas promissoras e prejudicar injustamente a reputação de cientistas cuidadosos e meticulosos” (BISSELL, 2013).

Por isso, a autora assume um tom anedótico e não de consternação ao relatar que “de quando em quando, alguns dos meus pós-doutores ou estudantes, (…) com terror nos olhos, me diz que não puderam replicar um dos experimentos anteriores do meu laboratório, não importa o quão obstinadamente tentassem” (BISSELL, 2013).

Para explicar seu ponto, sem usar o termo explicitamente, ela recorre ao conceito de conhecimento tácito: experiências acumuladas que não podem ser propriamente descritas, faculdades obtidas por dado pesquisador após décadas de trabalho árduo com certa técnica específica, o que impediria que um outro laboratório pudesse obter o mesmo resultado, seguindo os procedimentos descritos no trabalho. Um argumento do tipo a mão da boleira e não a receita é o que impede o bolo de solar (BISSELL, 2013).

Desta forma ela coloca em dúvida os índices obtidos de trabalhos como os de BEGLEY (2012) e sua taxa de apenas 11% de replicação. Para Bissel, a falta de interação entre os laboratórios é a causa do problema ao impedir que os procedimentos e as condições sejam satisfatoriamente repetidos e a supervisão dos autores dos artigos originais na tentativa de replicação poderia resultar em uma confirmação de resultados muito maior.

Bissel afirma que

a coisa correta a ser feita como replicador da descoberta de alguém é consultar o autor original atentamente. Se e-mails e ligações telefônicas não resolverem o problema da replicação, peça para ir ao laboratório original reproduzir os dados conjuntamente, ou convide alguém do outro laboratório para vir ao seu (BISSELL, 2013).

O artigo de Bissel foi comentado no blog de Andrew Gelman, professor de estatística e ciência política e diretor do centro de estatística aplicada da Universidade de Columbia. Para ele o impulso pela replicação é positivo. Se os pesquisadores “estão achando que o movimento pela replicação é forte o suficiente para que eles precisem combatê-lo, isso representa boas notícias”. Sobre a solução apresentada por Bissel ele comenta:

Caso seu material publicado não seja claro – se um artigo não puder ser replicado sem e-mails, telefonemas, ou visitas a laboratórios – isso parece um problema para mim! Se pessoas de fora não podem replicar o estudo exato que você relatou, elas poderão ter problemas ao usar seus resultados em pesquisas futuras (GELMAN, 2013).

Gelman chama atenção para um outro problema decorrente da não concentração de esforços na replicabilidade. Muitas pesquisas partem de resultados anteriores acriticamente, assumindo-os como pressupostos de seus trabalhos. Richard Feynman faz uma observação similar ao relatar ter ficado

chocado ao saber de um experimento feito no grande acelerador do National Accelerator Laboratory, no qual um pesquisador usava deutério. Para comparar seus resultados utilizando hidrogênio pesado com o que poderia acontecer com o hidrogênio leve, ele precisou utilizar dados do experimento de uma outra pessoa sobre hidrogênio leve, que foi feito em um aparelho diferente. Quando perguntado, ele disse que não conseguiu marcar um horário na programação (porque há pouco tempo disponível e é um aparelho extremamente caro) para fazer o experimento com hidrogênio leve neste aparelho porque não haveria nenhum resultado novo. E assim, os responsáveis pelos programas da NAL estão tão ansiosos por novos resultados, para obter mais dinheiro para manter a máquina funcionando para propósitos de relações-públicas, que eles estão destruindo, possivelmente, o valor dos próprios experimentos, que é todo o propósito da coisa (FEYNMAN, 1974).

Para Bissel, contudo, o problema da replicabilidade é superestimado, sendo o verdeiro risco criado por essa insistência na replicabilidade:

As pessoas que tentam repetir a pesquisa dos outros frequentemente não têm tempo, financiamento ou recursos para obter a mesma experiência com o protocolo experimental, como os autores originais, que talvez estivessem operando sob uma bolsa federal de vários anos e visando uma publicação de alto perfil. Se um pesquisador gastar seis meses, digamos, tentando replicar esse trabalho e relatar que é irreprodutível, isto pode dissuadir outros cientistas de prosseguir uma linha de pesquisa promissora, comprometendo as chances dos cientistas originais de obter financiamento para continuar e potencialmente danificar suas reputações (BISSEL, 2013).

A crise de reprodutibilidade na psicologia

Na psicologia o debate entre os pesquisadores que afirmam que não há problema algum e o crescente grupo dos que acreditam que todo o campo está em uma profunda crise divide atualmente, de forma bastante antagônica, membros influentes da comunidade científica.

A polêmica se acirrou com um artigo do Open Science Collaboration (2015), que se tornou um marco no debate ao relatar a tentativa frustrada de se replicar 100 estudos publicados em 2008 em revistas de prestígio, o que resultou em apenas 31 casos de sucesso, ou seja, 69 dentre os estudos analisados não puderam ser replicados de forma independente.

O Open Science Collaboration, liderado por Brian Nosek, psicólogo e professor da Universidade da Virgínia, se define como um grupo aberto de pesquisadores, que afirma ter como objetivo promover a melhoria das práticas científicas. Para as replicações desse estudo, colaboraram 270 pesquisadores vinculados ao grupo.

Ironicamente, uma equipe de cientistas detratores da ideia de crise de reprodutibilidade, formada por dois pesquisadores de Harvard e um da Universidade da Virgínia, alegaram que não puderam reproduzir os resultados do estudo do Open Science Collaboration. Pelo contrário, afirmaram que os dados do Open Science Collaboration, se olhados criticamente, ajudavam a comprovar que a reprodutibilidade na psicologia era plenamente satisfatória. Para argumentar seu ponto, apontaram uma série de erros metodológicos do polêmico artigo (GILBERT, 2016).

A tréplica do Open Science Collaboration, publicada na revista Science e assinada por 41 pesquisadores de universidades da Europa e dos Estados Unidos, rebate as críticas apresentadas, apontando que foi o grupo do dr. Gilbert quem errou ao fazer uma avaliação otimista demais, “decorrente de equívocos estatísticos e de tecer inferências causais de dados correlatos interpretados seletivamente” (ANDERSON et al., 2016).

Gilbert afirmara que, dentre os estudos selecionados, aqueles entre os quais os autores originais não aprovaram a metodologia dos experimentos de replicação tiveram uma taxa de replicação de 15,4%, pior do que os 59,7% de replicações que obtiveram o aval dos autores dos estudos originais. Contudo, Anderson e seus colegas responderam lembrando que o fato de um cientista alegar que não confia na metodologia daqueles que farão a replicação poderia esconder a falta de confiança nos resultados de seu próprio estudo original, e não apenas da replicação em si.

Antes do estudo do Open Science Collaboration, uma edição especial da Social Psychology, que tratou de replicação em 2014, havia chegado a semelhante conclusão ao não conseguir replicar 10 de 27 estudos da área. Um dos que não puderam ser replicados foi o de SCHNALL (2008), no qual os pesquisadores afirmavam que se limpar, faria com que uma pessoa ficasse menos inclinada a perceber falhas morais nos outros. Os autores chegaram a essa conclusão após dividir um grupo de voluntários em dois e pedir que uma parte lavasse as mãos e outra não. Após isso foram feitas perguntas a esses mesmos indíviduos sobre o que eles achavam de determinadas ações, como fraudar um documento. Na época o artigo foi amplamente publicizado, tendo recebido cobertura nas páginas do The Economist, ABC News, Huffington Post, entre outros. Além disso ele foi citado mais de 200 vezes por outros pesquisadores.

Os dois estudantes de graduação e seu orientador, Brent Donnellan, da Miching State University, encarregados de replicar o estudo, não o puderam mesmo realizando o teste com quatro vezes mais voluntários do que o estudo original.

Inicialmente Schnall cooperou com os pesquisadores que se propuseram a replicar seu estudo, fornecendo-lhes os materiais que utilizou no estudo original. Além disso ela aceitou o convite dos editores da Social Psychology, na qual a tentativa de reprodução fracassada havia sido publicado, para revisar o protocolo experimental e a análise estatística que os replicadores seguiriam.

Contudo, após os resultados divergirem, Schnall passou a criticar a tentativa de reprodução, afirmando à revista Science que todo o processo fazia com que ela se sentisse uma criminosa, que seu trabalho havia sido difamado, e que isso havia prejudicado sua chance de receber financiamentos (BOHANNON, 2014).

Sua corrente, dos que buscam comprovar fenômenos explicados pelo efeito priming é uma das que mais recebem financiamento dentro da psicologia, o que é alvo da crítica daqueles que consideram essas conclusões exageradas e desprovidas de fundamento. Estes pesquisadores buscam correlações entre memórias implícitas após a exposição a um estímulo e a resposta não consciente a um outro estímulo posterior. Neste caso, lavar as mãos e tomar uma decisão moral.

A polêmica em torno da replicação se tornou mais virulenta, quando Susan Fiske, ex-presidente da Association for Psychological Science, e uma pesquisadora de renome de Princeton atacou aqueles que ela chamou de “adversários” da psicologia, segundo ela, verdadeiros “terroristas metodológicos”, “autoproclamados policiais de dados”. Para Fiske, para que o debate seja honesto, o mesmo não deveria ser público e deveria se restringir às publicações acadêmicas. Suas críticas, que vazaram antes de serem publicadas em uma coluna da revista de divulgação da Association for Psychological Science geraram uma grande reação de outros pesquisadores que resultaram na não publicação do mesmo.

Quando dois grandes grupos de cientistas estão debruçados sobre os mesmos dados chegando a conclusões completamente diferentes, está exposta uma fratura que nos permite cogitar a existência de um problema mais profundo.

Crise do capital, crise na ciência

No Capítulo XII de o Capital, intitulado Maquinaria e Grande Indústria, Marx explica como o surgimento do sistema de máquinas converteu a ciência em uma força produtiva social. A máquina, cujo constante desenvolvimento requer o avanço da ciência, deve ser entendida como uma categoria econômica, subsumida ao conceito de capital (BEVILAQUA, 2015, p. 240). Como capital constante, ela é armazenadora de trabalho vivo para o próximo ciclo produtivo, mas também é uma forma de “baratear as mercadorias, encurtar a parte do dia de trabalho da qual precisa o trabalhador para si mesmo, para ampliar a outra parte que ele dá gratuitamente ao capitalista. A maquinaria é meio para produzir mais-valia” (MARX, 1988, Livro 1, v. 2, p. 5).

A Revolução Industrial, ao possibilitar um descolamento entre o tempo de trabalho empregado e a quantidade de mercadorias criadas, através de um brutal ganho de produtividade, impulsionou a expansão das relações capitalistas por todo o planeta e impactou a manifestação concreta de cada uma das leis de seu sistema, sendo um dos fatores que permitiu o surgimento do imperialismo. Segundo descreveu Lênin, o “enorme incremento da indústria e o processo notavelmente rápido de concentração da produção em empresas cada vez maiores constituem uma das particularidades mais características do capitalismo” (LENIN, 1984). Porém, ao entrar em sua terceira fase, a Revolução Científico-Técnica, através da automação da produção, torna infinitesimal o quantum de valor-trabalho de cada produto. O papel da maquinaria na expansão das relações capitalistas é transformado, exaurindo-se o impulso anterior, e sua adoção em todo o planeta passa a representar um entrave para a acumulação global de capital.

Marx, no Caderno VII dos Grundrisse, manuscritos econômicos de 1857 e 1858, já havia desvelado este caráter contraditório do desenvolvimento da relação capital:

A troca de trabalho vivo por trabalho objetivado, i.e., o pôr do trabalho social na forma de oposição entre capital e trabalho assalariado, é o último desenvolvimento da relação de valor e da produção baseada no valor. O seu pressuposto é e continua sendo a massa do tempo de trabalho imediato, o quantum de trabalho empregado como o fator decisivo da produção da riqueza. No entanto, à medida que a grande indústria se desenvolve, a criação da riqueza efetiva passa a depender menos do tempo de trabalho e do quantum de trabalho empregado que do poder dos agentes postos em movimento durante o tempo de trabalho, poder cuja poderosa efetividade, por sua vez, não tem nenhuma relação com o tempo de trabalho imediato que custa sua produção, mas que depende, ao contrário, do nível geral da ciência e do progresso da tecnologia, ou da aplicação dessa ciência à produção (p.615).

A redução do tempo de trabalho a um mínimo é produto da aplicação das inovações tecnológicas à produção. Algumas linhas mais adiante, o fundador do materialismo histórico explica como o desenvolvimento tecnológico, que tornou possível a grande indústria, leva, com o tempo, à erosão do paradigma do valor, processo que compele o modo de produção capitalista à crise.

O roubo de tempo de trabalho alheio, sobre o qual a riqueza atual se baseia, aparece como fundamento miserável em comparação com esse novo fundamento desenvolvido, criado por meio da própria grande indústria. Tão logo o trabalho na sua forma imediata deixa de ser a grande fonte da riqueza, o tempo de trabalho deixa, e tem de deixar, de ser a sua medida e, em consequência, o valor de troca deixa de ser [a medida] do valor de uso. […] O próprio capital é a contradição em processo, [pelo fato] de que procura reduzir o tempo de trabalho a um mínimo, ao mesmo tempo que, por outro lado, põe o tempo de trabalho como única medida e fonte da riqueza. (p.942).

Bevilaqua, em sua investigação acerca da atual crise econômica mundial, defende que a acepção de crise que mais contribui para a análise do desenvolvimento histórico contemporâneo é a que se depreende da leitura dos Grundrisse. Isso porque a contradição que ela expressa abarca o coração do sistema do capital, o próprio processo de valorização, sobre o qual se funda toda a estrutura econômica e social. Desta forma, esta é a formulação mais abrangente por ser capaz de articular os diferentes usos da ideia de crise em O Capital. Como descreve esse autor:

Todas estas interpretações da crise em Marx sofreram uma significativa modificação com a redescoberta dos Grundrisse de 1858-59. Este estudo de Marx, considerado um esboço da sua obra magna, desenvolve o conceito de capital em geral articulado pela categoria valor e, necessariamente, desenvolve também a categoria crise enquanto momento que expressa sua negação. Neste sentido, apresenta uma concepção do movimento do valor ao seu antivalor mediado por uma série histórica de momentos de negação do valor que permeiam o movimento do substrato material do conceito de capital em geral até a transformação do mesmo, real e conceitual, ou objetiva e subjetiva. Esta concepção permite uma compreensão da unidade conceitual da crise presente em O Capital, que pode ser traduzida como a dialética de limites e barreiras, de leis gerais e leis específicas que conformam a relação capital-trabalho. (BEVILAQUA, 2015, p. 197)

Esta formulação de Marx, esparsa em seus escritos, não obstante presente, também pode ser derivada de seu método, tanto é que teve elementos redescobertos na formulação da Lei da Acumulação e do Colapso de Henryk Grossmann, uma contribuição feita em uma época em que os Grundrisse ainda não haviam sido publicados, mas na qual já existia um importante debate sobre o tema, que partia dos esquemas de reprodução apresentados no Livro II de O Capital (BEVILAQUA, 2015, p. 105 e 212). Para Grossmann, ao analisar a composição valor do capital em seus sucessivos circuitos, o crescimento proporcionalmente maior do capital constante adicional com relação ao restante do capital, como salários, faz com que seja colocada em xeque a parcela da mais-valia destinada ao capitalista, uma parte intrínseca das relações de poder que sustentam este sistema. Em seu modelo, um dos principais fatores que dinamizam o colapso é o aumento da composição orgânica do capital, efeito da aplicação da ciência no processo produtivo (GROSSMANN, 2004).

Essa ideia já estava presente no capítulo sobre a Lei Geral da Acumulação Capitalista em O Capital, no conceito de composição orgânica do capital, que relaciona a composição valor e a composição técnica do capital. Seu incremento indica o processo de substituição do trabalho vivo pelo trabalho morto (MARX, 2010, v. 35, pos. 1706) (BEVILAQUA, 2015, p. 224 – 225), principalmente a partir da introdução da maquinaria, como Marx chama atenção neste trecho dos Grundrisse:

Como vimos, a tendência necessária do capital é o aumento da força produtiva do trabalho e a máxima negação do trabalho necessário. A efetivação dessa tendência é a transformação do meio de trabalho em maquinaria. Na maquinaria, o trabalho objetivado se contrapõe materialmente ao trabalho vivo como o poder dominante e como subsunção ativa deste a si. (MARX, 2011, p. 931).

A ciência assume um papel central no processo produtivo. Sua aplicação na indústria, através das inovações tecnológicas, leva à automação da produção material, o que transforma qualitativamente o caráter do trabalho e da classe operária. O tempo socialmente necessário à produção da reprodução da vida material torna-se insignificante diante da colossal produtividade decorrente do desenvolvimento das forças produtivas, uma contradição que passa a comprometer o padrão de acumulação deste modo de produção.

O trabalho de Theotonio dos Santos (1983, 1987) em torno da Revolução Científico-Técnica descreve como a inovação é incorporada no processo de produção de valor, concentrando-se, cada vez mais, nos departamentos de Pesquisa e Design dos monopólios, que se agigantam quando comparados com a pesquisa básica, circunscrita às universidades. Isso se deve ao papel que a ciência vai adquirindo no centro da produção e à dinâmica própria da rotação do capital empregado em inovação.

Paralelamente, a precificação da própria produção científica torna-se um problema candente para a manutenção da apropriação privada do valor fundado no tempo de trabalho, e do reconhecimento deste como o equivalente geral dos intercâmbios da sociedade, em torno do qual orbitam todas as outras medidas de valor. Todavia, o conhecimento humano não pode ser mensurado com base no tempo socialmente necessário para produzi-lo, porque sua reprodução requer um tempo praticamente insignificante. Marx já havia adiantado nas Teorias sobre a mais-valia o argumento que hoje embasa movimentos como o do Software Livre e o do Copyleft:

O produto do trabalho intelectual – a ciência – é sempre muito inferior a seu valor, porque o tempo de trabalho necessário para sua reprodução não guarda proporção alguma com o [trabalho] exigido para sua criação original. Por exemplo, qualquer jovem no colégio pode aprender em uma hora a teoria dos binômios (MARX, 1980, v.1, p. 327, tradução nossa)

Surge daí a batalha pela posse do conhecimento coletivo da humanidade e de sua manipulação através de diferentes formas de controle como as patentes, a desigualdade de condições, a restrição ao acesso de dados, roubo de cérebros, etc.

Podemos afirmar que, paulatinamente, a ciência se embrenhou da lógica da reprodução do capital, da sua reprodução como valor e da apropriação da criação alheia através da fraude. Estabeleceu-se o contrato de servidão da ciência ao sistema do capital, algo análogo ao risco para o qual Francis Bacon alertara em sua obra O progresso do conhecimento, de 1605. Aí já aparece claramente a ideia de que os interesses dos detentores da ciência condicionam sua produção, conduzindo-a ao erro:

Porque, tal e como agora se transmitem os conhecimentos, há uma espécie de contrato de erro entre o transmissor e o receptor: pois o que transmite conhecimento deseja fazê-lo da maneira que seja mais bem acreditado, e não mais bem examinado; e o que o recebe, mais deseja satisfação imediata que indagação antecipada, e assim antes não duvidar que não errar, fazendo o afã de glória com que o autor não descubra sua fraqueza, e a indolência com que o discípulo não conheça sua força (BACON, 2007. p. 203).

A constatação da crise da reprodutibilidade nas ciências biomédicas (Hirschhorn, Ioannidis e Begley)

No campo da biologia molecular, esse problema é debatido no mainstream há pelo menos 15 anos, vide o estudo de HIRSCHHORN (2002) publicado na Genetics in Medicine, publicação oficial da Escola Americana de Genética e Genômica Médica. Nele, os autores apresentam a seguinte constatação empírica:

Descobrimos que mais de 600 associações positivas entre variantes genéticas comuns e doenças foram relatadas. Essas associações, caso verdadeiras, teriam uma importância tremenda para a prevenção, antecipação e tratamento de doenças muito comuns. Contudo, a maior parte das associações relatadas não são robustas: Das 166 associações que foram estudadas três ou mais vezes, apenas seis foram consistentemente replicadas (HIRSCHHORN, 2002).

O significado dessa revelação é potencializado por ser a saúde humana o campo de investigação científica que mais cresceu desde o pós-guerra com o agigantamento da indústria farmacêutica. Essa área de pesquisa encontra-se abaixo apenas da pesquisa militar como destino do financiamento científico mundial. Apenas o orçamento federal dos Estados Unidos destinou a esse campo, em 2016, mais de 30 bilhões de dólares, quase o triplo do investido em pesquisa de energia, a terceira colocada.

Corroborando essa constatação, encontra-se o famoso artigo de Ioannidis (2005) que se converteu no mais citado da prestigiosa revista PLOS Medicine, de ciências médicas. Após uma revisão de publicações nesta área, o autor afirma categoricamente que: “pode ser provado que a maior parte dos resultados de pesquisas apresentados são falsos”. Sua conclusão está embasada em artigos que demonstram a ausência de consistência e coerência nas assertivas causais estabelecidas como verdadeiras pelos pesquisadores entre diferentes substâncias e seus efeitos, seja na tradicional área da epidemiologia, ou nas mais avançadas pesquisas moleculares.

A metodologia empregada por Ioannidis é a meta-análise, disciplina estatística que combina o resultado de uma série de estudos em busca de uma verdade subjacente aos resultados de cada estudo individual, posto que esses estão mais sujeitos a erros decorrentes de flutuações estatísticas, pelo simples fato de que uma amostra nunca é idêntica ao universo estudado. É, portanto, uma técnica que ajuda a revelar os aspectos quantitativos àqueles que buscam fazer uma revisão sistemática da literatura científica disponível sobre dado tema.

Trataremos mais adiante destes aspectos particulares da meta-análise ao abordarmos a Crise Estatística. Neste momento, interessa apenas o fato de que uma técnica que tem como objetivo diminuir a incidência de flutuações estatísticas nos resultados finais, ou seja, ajustar os desbalanços de diferentes estudos confrontando-os entre si, serviu para comprovar a existência de um problema muito mais profundo, que se convencionou chamar de Crise de Reprodutibilidade. As “simulações demonstram que, para a maioria dos planejamentos e configurações, é mais provável que a assertiva feita em um estudo seja falsa do que verdadeira” (IOANNIDIS, 2005).

Esse descompasso não é de todo ignorado pela sociedade em geral, que acompanha o avanço da ciência através da grande imprensa, tendo acostumado-se com notícias de reviravoltas na condenação ou idolatração de alguns alimentos, apenas um exemplo de um problema mais geral que leva a uma desconfiança generalizada das afirmações dos especialistas. Ovo, carne suína e gordura são alguns exemplos de alimentos que tiveram suas recomendações revistas diversas vezes, alternando-se em uma gangorra de expurgos e de reabilitações, o que gerou um grande número de manchetes bombásticas.

Para descrever essa mesma alternância, só que no campo da genética molecular, Ioannidis cunhou o termo Fenômeno Proteus, em referência ao deus grego que podia mudar de aparência instantaneamente, ao constatar como o viés de publicação faz com que as primeiras replicações de um trabalho quase sempre contradigam os trabalhos originais de forma extrema, não corroborando seus resultados. Ele e seu colega, Trikalinos, apresentam como hipótese que “dados controversos são atrativos para investigadores e editores, e, desta forma, os resultados mais extremos e opostos aparecem cedo, dado que os dados possam ser gerados rapidamente, e não tardiamente, conforme os dados se acumulam” (IOANNIDIS, 2015B).

O mérito principal do artigo de Ioannidis é o de não ficar apenas na constatação do problema, mas, ao analisar as causas que diminuem o valor preditivo positivo (VPP), ou seja, sua probabilidade de serem verdadeiras, ele enuncia sei corolários que lançam luz sobre as raízes deste embaraço:

Corolário 1: Quanto menores forem os estudos conduzidos em um campo científico, menores serão as chances das descobertas da pesquisa serem verdadeiras. (…)

Corolário 2: Quanto menores forem os efeitos em um campo científico, menor a chance de que as descobertas da pesquisa sejam verdadeiras. (…)

Corolário 3: Quanto maior o número e quanto menor for a seleção das relações verificadas em um campo científico, menores serão as chances das descobertas da pesquisa serem verdadeiras. (…)

Corolário 4: Quanto maior for a flexibilidade nos desenhos, definições, resultados e modos analíticos em um campo científico, menores serão as chances das descobertas da pesquisa serem verdadeiras. (…)

Corolário 5: Quanto maiores forem os interesses financeiros e outros interesses e preconceitos no campo, menores serão as chances das descobertas da pesquisa serem verdadeiras. (…)

Corolário 6: O quão mais quente for um campo científico (mais equipes científicas envolvidas), menores serão as chances das descobertas da pesquisa serem verdadeiras. (…) (IOANNIDIS, 2005).

Alguns anos depois do alerta de Ioannidis, uma nova onda de consternação nos círculos especializados ocorreu com a publicação de um artigo na Nature pelo consultor e ex-vice-presidente e líder global de hematologia e pesquisa oncológica da Amgen1, no qual relata os esforços de seu laboratório em reproduzir 53 estudos considerados marcos na pesquisa de tratamentos para o câncer, tendo conseguido confirmar as descobertas científicas em apenas seis estudos, o que representa 11% dos casos (BEGLEY, 2012). Aqui, a novidade advém do fato de que não se trata mais da voz de um pesquisador influente, mas independente, remando contra a correnteza, e sim da posição de um cientista que personifica os interesses do multibilionário capital da indústria farmacêutica.

Begley chama atenção para o fato de que seus dados estão em harmonia com outros publicados um ano antes, em 2011, por uma equipe de pesquisadores da Bayer2 que, em um esforço similar de replicação, relatou que apenas “25% dos estudos pré-clínicos publicados puderam ser validados ao ponto além do qual os projetos poderiam prosseguir” (PRINZ, 2011).

A principal indagação a ser feita, caso aceitemos os resultados destes estudos, é sobre como foi possível tantos resultados falsos terem sido publicados com tão pouca ponderação em uma área que movimenta bilhões de dólares de financiamento público e privado, e da qual depende a vida de diversos pacientes. Como será aprofundado ao longo desta dissertação, acompanhando a natureza dual da ciência cativa do capital, usar ou não uma substância em um tratamento aparece como um problema dual que compreende não apenas o benefício e o malefício causado ao doente, mas também o retorno esperado de quem investiu em determinada droga. É um processo de descolamento da produção científica que passa a flutuar sobre a investigação da realidade, passando a responder mais à lógica de acumulação do capital do que coadunar com a verdade material dos objetos estudados.

1Conglomerado estadunidense com faturamento anual de 22,99 bilhões de dólares em 2016.

2A Bayern, com faturamento de 46 bilhões de euros em 2016, investiu no mesmo ano 4,7 bilhões de euros em pesquisa científica.