Os neutrinos mais rápidos que a luz

Os neutrinos mais rápidos que a luz

O uso da significância estatística não garante a eliminação dos erros. Vejamos o caso da anomalia dos neutrinos mais rápidos do que a luz. Em março de 2011, uma observação do experimento OPERA, realizado com a colaboração de dois laboratórios, o CERN e o LNGS, supostamente teria observado neutrinos se deslocarem a velocidades superiores à da luz com uma significância de 6 sigma, ou seja, um grau de certeza estatística ainda maior que o já consagrado padrão 5 sigma.

O resultado foi, oito meses depois, novamente replicado pela mesma equipe de pesquisadores, desta vez com um nível de significância ainda maior, 6.2 sigma. Isso causou um furor na imprensa, pois a constância da velocidade da luz no vácuo e o fato desta ser o limite para todo o deslocamento de matéria ou de informação é um dos pilares da física.

Cabe ressaltar que neste caso os físicos ligados ao experimento se abstiveram de interpretar os resultados, adotando uma postura cautelosa, ao afirmarem em seu artigo que:

Apesar da grande significância da medida aqui relatada e da estabilidade da análise, o impacto potencialmente grande do resultado motiva a continuação de nossos estudos para investigar possíveis efeitos sistemáticos ainda desconhecidos que poderiam explicar a anomalia observada. Nós deliberadamente não tentamos qualquer interpretação teórica ou fenomenológica dos resultados (ADAM, 2012).

No final das contas, após tentativas infrutíferas de replicações externas, percebeu-se que a verdadeira causa deste resultado era um cabo de fibra ótico mal atarraxado, além do mal funcionamento de um componente eletrônico. Contudo, a imprensa já havia publicado suas manchetes sensacionalistas de que os físicos haviam detectados partículas viajando acima da velocidade da luz e que Einstein estava errado.

Valor-p, falsos positivos e falsos negativos: um exemplo

Valor-p, falsos positivos e falsos negativos: um exemplo

Pensemos, no seguinte problema: uma versão simplificada da simulação apresentada por Colquhoun (2014), cujo código fonte do script foi disponibilizado para reprodução.

Em um determinado campo, um total de mil hipóteses estão sendo investigadas. Estabelecemos arbitrariamente que, dentre essas, 100 refletem relações verdadeiras presentes na realidade, ainda que ninguém saiba quais sejam. Digamos que os experimentos, quando diante das hipóteses verdadeiras, identifiquem 80% delas. Neste caso, a taxa de falso-negativo β é de 20%. Imaginemos uma taxa de falso-positivo α mais baixa, de apenas 5%. Como temos um grande número de hipóteses falsas a serem testadas, o que é natural, descartamos corretamente 855 hipóteses falsas, mas geramos 45 falsos positivos.

A nova verdade estabelecida neste campo compreenderá 125 hipóteses alternativas, das quais mais de um terço é falsa. Desta forma, mesmo seguindo-se todos os procedimentos padrões, quase um terço das descobertas anunciadas são falsas.

Algumas soluções foram apresentadas por estatísticos para que esses enganos sejam sanados. Uma delas é a adoção de valores de p mais baixos, como é o caso da física de partículas, que adota o valor de p = 0.0000003, o que também é conhecido como cinco sigma.

Neste caso, os erros de falso positivo seriam muito mais raros do que quando se adota o p valendo 0.5. A probabilidade de que, com a hipótese nula verdadeira os resultados obtidos, ou outros mais extremos, teoricamente será de 1 em 3,5 milhões.

Equilibrando-se entre falsos-positivos e falsos-negativos

Equilibrando-se entre falsos-positivos e falsos-negativos

A própria ideia de certeza probabilística, se tomada mecanicamente, como comumente o é, pode ser considerada uma aporia. Pela própria natureza do conhecimento estatístico, ele nunca é livre de erro, ainda que teoricamente (e em alguns casos muito excepcionais) possamos fazer com que a possibilidade de um erro seja tão remota que não fosse plausível sua ocorrência, nem que o nosso universo fosse de ordens de magnitude mais velho do que se acredita que ele seja. Contudo, os modelos com os quais os pesquisadores lidam na prática sempre contêm a possibilidade real da ocorrência de dois tipos de erros que coexistem em uma relação dialética.

O Erro de tipo 1, também conhecido como falso-positivo, ocorre quando a hipótese nula (H0) é verdadeira, mas a rejeitamos. Dessa forma enxergamos uma relação que não existe na realidade. O Erro de tipo 2, ou falso-negativo, ocorre quando a hipótese nula (H0) é falsa, mas não é rejeitada. Isso significa que deixamos de perceber uma relação presente na realidade. As taxas de erros dos tipos 1 e 2 são denominadas, respectivamente, α e β. Apesar de muitas vezes serem tomadas como tal, nenhuma delas é o valor-p.

Um dos equívocos conceituais acerca do valor-p é de que este seria a probabilidade da hipótese nula de um teste ser verdadeira, ou a probabilidade de um dado resultado ter sido obtido por acaso, ou mesmo que o valor-p seria a probabilidade da hipótese nula ter sido equivocadamente rejeitada.

De forma bem objetiva, o valor-p é a probabilidade do resultado obtido, ou algum mais extremo que ele (no sentido de reforçar a correlação) ter sido obtido dado que a hipótese nula seja verdadeira1. Desta forma, se o valor de p, que é calculado apenas ao final do experimento, de posse de todos os dados, for baixo, isso deve significar duas coisas: ou que a hipótese nula é verdadeira e que um evento altamente improvável ocorreu (gerando um falso-positivo), ou que a hipótese nula é falsa (confirmação da hipótese alternativa). O quão improvável é este falso positivo e se a resposta para essa questão está toda contida dentro do modelo matemático é um dos dilemas associados à Crise Estatística.

Se aumentarmos a sensibilidade da nossa detecção, de forma a minimizar a ocorrência de erros de falso-negativo (tipo 2), no qual deixarmos de perceber uma relação existente, consequentemente aumentaremos a incidência de erros de falso-positivo (tipo 1), no qual enxergamos uma relação quando ela não está presente na realidade. Se diminuirmos a sensibilidade, teremos menos erros de falso-positivo (tipo 1), mas deixaremos passar um número maior de efeitos não percebidos, logo, um aumento dos erros de falso-negativo (tipo 2).

Essa calibração do experimento pode se dar de várias formas, seja efetivamente calibrando um sensor de detecção em um equipamento, seja matematicamente, estabelecendo os tipos de controle de erros. Por exemplo, se for apresentado, para decidir se foi forjado ou efetivamente aleatório, que o resultado de 40 lances de uma moeda seja uma série com 20 caras seguidas depois de 20 coroas, pode-se chutar, com uma grande probabilidade de acerto, que este resultado não foi efetivamente gerado por um processo aleatório. Poderíamos excluir tal resultado das nossas medições, mas, mesmo pertencendo a um conjunto raro de resultados, ele em si é tão possível quanto qualquer outro resultado.

No caso de exames de detecções de doenças, como o HIV, a calibração é favorável à ocorrência de erros de tipo 1, pois é preferível dar uma notícia ruim erroneamente a uma pessoa que ao final descobrirá com testes confirmatórios (que fazem parte do protocolo) não ter a doença, do que deixar de detectar a doença em uma pessoa que precisa de tratamento.

1Existe uma diferença de interpretação sobre o significado do valor-p de acordo com o modelo de teste de hipóteses escolhido, o modelo de Neyman-Pearson, ou o de Fisher. Trata-se de um dissenso que perdura há décadas que tem como base uma questão filosófica acerca do papel dos modelos em inferência estatística. A base da controvérsia é a relação entre probabilidade e estatística. Os livros-texto atualmente utilizam um modelo híbrido dos dois métodos, mas esta alternativa também é alvo de críticas, por serem as duas abordagens incongruentes entre si.

O valor-p, além da confusão em torno de si

O valor-p, além da confusão em torno de si

Um quadrinho bastante popular, e que trata de diversos temas científicos, chamado XKCD ironiza essa situação. Na tirinha, os cientistas pesquisam se jujubas causam acne. Após um resultado negativo, os cientistas são novamente instigados a investigar a relação entre acne e as jujubas de diferentes cores. Eles realizam 20 testes e finalmente acreditam ter descoberto uma relação entre jujubas verdes e acne, o que é publicado com destaque pelos jornais. O que a charge ilustra é a debilidade de um experimento projetado erroneamente, pois diante de tantos testes, é esperada a ocorrência de um falso positivo com uma probabilidade muito maior do que os 5% que um valor de p igual a 0.05 intuitivamente pareceria indicar.

Este problema não advém apenas de uma incompreensão acerca das ferramentas e técnicas estatísticas por parte dos pesquisadores que as utilizam e da comunidade científica em geral, o que transcende apenas a questão de como um experimento foi projetado. Existe uma questão epistemológica subjacente, que alimenta as chamas desse debate e divide os estatísticos há décadas.

O conceito de valor-p não é intuitivo e são comuns muito equívocos sobre seu significado. A falta de compreensão acerca do significado do valor-p é um dos desafios metodológicos do que ficou conhecido como Crise Estatística da Ciência. Para entender-se o conceito de valor-p é necessário, antes de tudo, entender o conceito de hipótese nula, hipótese alternativa, e dos erros de tipo 1 e 2.

A hipótese nula (H0) nada mais é que a asserção de que não existe um efeito entre dois fenômenos considerados. Sejam eles a ingestão de um medicamente e um determinado efeito, entre idade e peso, ou um efeito entre a resistência de um edifício e o material utilizado em sua estrutura. A outra hipótese, chamada de hipótese alternativa (H1) é a de que existe uma correlação entre os fenômenos, justamente o que os cientistas buscam saber.

Do ponto de vista lógico, o teste de significância estatística, baseado na disjunção de Fisher, pode ser comparado com o argumento do modus tollendo tollens do método dedutivo, ou negação do consequente, que foi descrito primeiramente pelos estoicos e formalizado como:

Se P, então Q.
Q é falso.
Logo, P é falso.

Um exemplo concreto, para ilustrar:

Se eu comer em demasia, eu passo mal.
Eu não passei mal.
Então não comi em demasia

De forma similar, a disjunção apresentada por Fisher afirma que se a hipótese nula (H0) for falsa, não deve ser observada uma correlação y, e pode ser escrita como:

Se H0, então y é muito improvável;
y;
H0 é muito improvável.

Um exemplo, se estivermos estudando a correlação entre o tabagismo e o desenvolvimento de um câncer pulmonar e não pudermos observar um aumento da incidência de câncer entre os fumantes, a hipótese nula se afirmaria, caso contrário, negamos a hipótese nula, o que é considerado uma confirmação indireta e probabilística da hipótese alternativa. Porém, o simples fato de tratarmos com a ideia de probabilidade, a rigor, faz com que essa disjunção não seja considerada logicamente válida. Ou seja, ao optar-se por esse método de se buscar a verdade, abdica-se da tentativa de se comprovar a hipótese alternativa, contentando-se em falsear-se a hipótese nula com um certo grau de certeza probabilística.

A Crise estatística

A Crise estatística

Em 2011, o prestigioso Journal of Personality and Social Psychology, da Associação Americana de Psicologia, publicou um artigo com o curioso título Sentindo o futuro: evidência experimental de influências anômalas retroativas sobre a cognição e o afeto. O artigo, publicado após revisão pelos pares, trata sobre o psi, um suposto “processo anômalo de transferência de informação e energia que não pode ser explicado pelos mecanismos físicos ou biológicos conhecidos” (BEM, 2011).

O autor Daryl Bem relata nove experimentos nos quais eram pedidos que os participantes adivinhassem qual das duas cortinas exibidas na tela de um computador esconderia uma imagem e qual apenas cobriria um muro. Somente após o processo de escolha, o computador aleatoriamente posicionava uma imagem (que provinha de um desses três conjuntos: neutras, eróticas e negativas) atrás de uma das cortinas e, finalmente, exibia o que estava por trás das cortinas. Se a imagem estivesse atrás da escolhida pelo participante, o resultado era considerado um acerto.

Para um número cada vez maior de realizações do teste, espera-se que as porcentagens de erros e acertos convergissem para 50 por cento cada. Afinal, trata-se de um chute entre duas possibilidades. O resultado final não foi longe disso, após 100 sessões, nas quais reportaram haver realizado 3.600 testes, os pesquisadores relatavam 53% de acerto para as imagens eróticas e negativas, contra 49.8% de acertos para as imagens neutras.

Apoiando-se no critério técnico de significância estatística, Bem concluiu estar diante de indícios concretos de que as pessoas podem sentir fenômenos que ainda não aconteceram, o que viola completamente o conceito de causalidade.

Não alheios à polêmica que o artigo poderia provocar, afinal, trata-se de uma defesa da parapsicologia no interior de uma publicação de psicologia, os editores o publicaram conjuntamente com uma nota na qual reconhecem que

a afirmação presente no estudo, de que as respostas dos participantes eram influenciadas por estímulos gerados aleatoriamente após as respostas representa um desafio muito sério à visão tradicional de causalidade. Não é necessário dizer que tal desafio a convicções tão firmemente mantidas tem como destino inflamar uma grande controvérsia. (JUDD, 2011)

Em sua nota, os editorialistas minimizam sua importância como avaliadores: “podemos apenas tomar a palavra do autor de que seus dados são genuínos e que as descobertas relatadas não advém de um grande conjunto de estudos não publicados que mostram efeitos nulos” (JUDD, 2011).

Fica a pergunta se a intenção dos editorialistas, ao aceitarem o artigo, era apenas “inflamar uma grande controvérsia”, até porque, além desta nota editorial, foi publicada na mesma edição da revista uma refutação certeira da descoberta de Bem. Trata-se do comentário de Wagenmakers, que poderia ter sido melhor aproveitado como argumentação de um parecer negando a publicação do artigo, já que demonstra cabalmente que esses estranhos resultados obtidos advém de flutuações estatísticas interpretadas erroneamente:

Discutimos graves limitações nos experimentos de Bem sobre o psi. […] Reanalisamos os dados de Bem com um teste t padrão bayesiano e mostramos que a evidência para psi é de fraca para não existente.[…] Concluímos que o valores-p de Bem não representam uma evidência favorável à precongição, ao invés disso, indicam que os psicólogos experimentais precisam mudar a maneira com a qual conduzem os experimentos e analisam seus dados. (WAGENMAKERS, E.J., 2011)

Wagenmakers identificou um erro cometido por Bem que é extremamente comum entre os pesquisadores que utilizam equivocadamente o critério de significância estatística para validar suas descobertas. Esse problema, que remonta às grandes desavenças entre os fundadores do método estatístico no início do século XX, vem sendo percebido, há algumas décadas, como algo sério e generalizado na produção científica, sem uma resolução e cujos efeitos ainda são muito subestimados.

A experiência empírica comprova que a utilização mais criteriosa das ferramentas estatísticas pode apenas amenizar problemas reais, que teimam em se afirmar com maior frequência e consequências do que o comumente assumido pelos pesquisadores. Por mais importante e urgente que seja, um aprimoramento das técnicas matemáticas não é suficiente para resolver impasses que tem a ver com a subjetividade geral da sociedade, como é o caso do viés de publicação, causado pela tendência de se engavetar estudos com resultados negativos, enquanto que há mais holofotes e interesse em se publicar os resultados positivos, viciando as amostras.

No caso de Bem, fica claro seu pertencimento a uma visão de mundo que tão facilmente lhe autoriza a lançar por terra todas as leis da física e do movimento dialético. No subcapítulo a seguir, nos deteremos em uma explicação mais detalhada sobre a polêmica em torno do conceito de significância estatística, apresentando alguns casos empíricos e as discussões em torno a possíveis soluções a este problema, que como veremos, remete a uma limitação paradigmática, com raízes positivistas, que somadas ao irracionalismo pós-moderno, conduzem à deformação pela forma com a qual a aplicação da matemática é utilizada de forma reducionista e unilateral para tecer ou mesmo desconstruir juízos científicos.

Pode-se considerar aqui a relevância da crítica feita ao misticismo de Newton por Marx em seus Manuscritos Matemáticos. A matemática, como ciência das medidas e grandezas, se senta sobre elementos objetivos. A tentativa de usá-la para explicar movimentos orgânicos e subjetivos conduz a matemática ao misticismo; é como atribuir-lhe um papel quase demiurgo, a exemplo da concepção de que as aplicações matemáticas poderiam resolver problemas de caráter social ou a essência das relações sociais (MARX, ???, passim).

Como o materialimo histórico e dialético nos permite pensar a crise?

Como o materialimo histórico e dialético nos permite pensar a crise?

O método utilizado neste trabalho é o materialismo histórico e dialético, originado nas formulações de Marx e Engels e que foi sendo enriquecido através dos últimos dois séculos pelo aporte de autores de todas as partes do mundo.

Quando pensamos nas causas de um fenômeno, sempre se mostra pertinente a distinção do historiador grego Tucídides, ao expor as razões que levaram à Guerra do Peloponeso, entre alethestate prophasis e aitia. O primeiro vocábulo, que ele toma da medicina e utiliza como “causa mais verdadeira” (explicação mais verídica na tradução consultada), ele distingue da segunda, que utiliza no sentido de razão alegada, antecedentes:

As razões [aitia] pelas quais eles a romperam [a guerra do Peloponeso] e os fundamentos de sua disputa eu exporei primeiro […] A explicação mais verídica [alethestate prophasis], apesar de menos frequentemente alegada, é, em minha opinião, que os atenienses estavam tornando-se muito poderosos e isso inquietava os lacedônios, compelindo-os a recorrerem à guerra. (TUCÍDIDES, 1987, I, 23)

Nesta postura, a explicação mais verídica é a que se ocupa também das “causas das causas” e estabelece as relações entre as orgânicas e as imediatas. A preocupação de Tucídides se coaduna com a famosa formulação de Marx, no Prefácio à Contribuição à Crítica da Economia Política de que

[…] na produção social da sua vida, os homens contraem determinadas relações necessárias e independentes da sua vontade, relações de produção que correspondem a uma determinada fase de desenvolvimento das suas forças produtivas materiais. O conjunto dessas relações de produção forma a estrutura econômica da sociedade, a base real sobre a qual se levanta a superestrutura jurídica e política e à qual correspondem determinadas formas de consciência social. O modo de produção da vida material condiciona o processo da vida social, política e espiritual em geral (MARX, 2008, p. 47).

Isso não significa de forma alguma aderir a explicações baseadas em relações causais unilaterais, na utilização de categorias a priori ou na hierarquia de fundamentalidades, males que permeiam a ciência burguesa. Como faz questão de esclarecer Engels em sua carta a Bloch:

De acordo com a concepção materialista da história, o elemento determinante final na história é a produção e reprodução da vida real. Mais do que isso, nem eu e nem Marx jamais afirmamos. Assim, se alguém distorce isto afirmando que o fator econômico é o único determinante, ele transforma esta proposição em algo abstrato, sem sentido e em uma frase vazia (ENGELS, 1980, p. ???).

O movimento na direção das causas mais fundamentais é sempre no sentido de enriquecer e complexificar a análise, em busca da intricada teia de múltiplas sobredeterminações que se sintetizam no mundo real.

Entretanto, a ciência moderna em geral, imbuída do reducionismo, normalmente se satisfaz com as causas mais imediatas, seguindo o raciocínio de Francis Bacon quando este constatou que para “a lei, as causas imediatas e não as remotas de um evento devem ser consideradas1”, pois “Seria infinito para a lei considerar as causas das causas e seus impulsos recíprocos; portanto, contentar-se com a causa imediata e julgar os atos a partir disso, sem considerar nenhum grau além” (Bacon, 1803, p. 16).

Como contraste, o método dialético concebe que todas as coisas estão relacionadas, o restante do mundo, o exterior estará sempre materialmente interpenetrado com o que consideramos o interior de um dado problema, afinal,

As ferramentas filosóficas propiciadas pela dialética abstraem as propriedades gerais de sistemas dinâmicos complexos. Elas, assim, nos permitem ver quais abordagens são compatíveis ou conflituosas e nos ajudam a perguntar as questões críticas sobre os sistemas: Onde está o restante do mundo? Como as coisas se tornaram dessa forma? O que podemos fazer sobre isso? (LEVINS, 2006, p. 741-755)

Posto isto, e regressando ao nosso tema, a importância das relações sociais de produção, a base material de toda a sociedade humana, não pode ser subestimada para se explicar como paradigmas superados se mantêm dominantes na comunidade científica mesmo após a prática tê-los refutado reiteradamente. Há que se buscar uma explicação além do mero movimento das ideias. Esse movimento, ensaiado por Thomas Khun, que não o levou às últimas consequências, está na base da sociologia da ciência que, para explicar a evolução do pensamento científico, não se contenta com as explicações internalistas e entende que as concepções que os próprios cientistas têm sobre sua prática deve ser cotejada com todo o restante que ocorre no mundo onde os cientistas exercem sua atividade.

Na análise do presente, torna-se essencial pensar a dinâmica da produção científica dentro do quadro das relações capitalistas dominantes na formação social contemporânea. Por isso, o método seguido por este trabalho é o materialismo histórico e dialético de Karl Marx e Friedrich Engels. Em tributo a estes autores, buscaremos ser rigorosos na definição e na utilização de categorias como capital, máquinas, composição orgânica, valor, crise do capital e ciência.

1In Jure Non Remota Causa Sed Proxima Spectatur, no original em latim.