Um quadrinho bastante popular, e que trata de diversos temas científicos, chamado XKCD ironiza essa situação. Na tirinha, os cientistas pesquisam se jujubas causam acne. Após um resultado negativo, os cientistas são novamente instigados a investigar a relação entre acne e as jujubas de diferentes cores. Eles realizam 20 testes e finalmente acreditam ter descoberto uma relação entre jujubas verdes e acne, o que é publicado com destaque pelos jornais. O que a charge ilustra é a debilidade de um experimento projetado erroneamente, pois diante de tantos testes, é esperada a ocorrência de um falso positivo com uma probabilidade muito maior do que os 5% que um valor de p igual a 0.05 intuitivamente pareceria indicar.

Este problema não advém apenas de uma incompreensão acerca das ferramentas e técnicas estatísticas por parte dos pesquisadores que as utilizam e da comunidade científica em geral, o que transcende apenas a questão de como um experimento foi projetado. Existe uma questão epistemológica subjacente, que alimenta as chamas desse debate e divide os estatísticos há décadas.

O conceito de valor-p não é intuitivo e são comuns muito equívocos sobre seu significado. A falta de compreensão acerca do significado do valor-p é um dos desafios metodológicos do que ficou conhecido como Crise Estatística da Ciência. Para entender-se o conceito de valor-p é necessário, antes de tudo, entender o conceito de hipótese nula, hipótese alternativa, e dos erros de tipo 1 e 2.

A hipótese nula (H0) nada mais é que a asserção de que não existe um efeito entre dois fenômenos considerados. Sejam eles a ingestão de um medicamente e um determinado efeito, entre idade e peso, ou um efeito entre a resistência de um edifício e o material utilizado em sua estrutura. A outra hipótese, chamada de hipótese alternativa (H1) é a de que existe uma correlação entre os fenômenos, justamente o que os cientistas buscam saber.

Do ponto de vista lógico, o teste de significância estatística, baseado na disjunção de Fisher, pode ser comparado com o argumento do modus tollendo tollens do método dedutivo, ou negação do consequente, que foi descrito primeiramente pelos estoicos e formalizado como:

Se P, então Q.
Q é falso.
Logo, P é falso.

Um exemplo concreto, para ilustrar:

Se eu comer em demasia, eu passo mal.
Eu não passei mal.
Então não comi em demasia

De forma similar, a disjunção apresentada por Fisher afirma que se a hipótese nula (H0) for falsa, não deve ser observada uma correlação y, e pode ser escrita como:

Se H0, então y é muito improvável;
y;
H0 é muito improvável.

Um exemplo, se estivermos estudando a correlação entre o tabagismo e o desenvolvimento de um câncer pulmonar e não pudermos observar um aumento da incidência de câncer entre os fumantes, a hipótese nula se afirmaria, caso contrário, negamos a hipótese nula, o que é considerado uma confirmação indireta e probabilística da hipótese alternativa. Porém, o simples fato de tratarmos com a ideia de probabilidade, a rigor, faz com que essa disjunção não seja considerada logicamente válida. Ou seja, ao optar-se por esse método de se buscar a verdade, abdica-se da tentativa de se comprovar a hipótese alternativa, contentando-se em falsear-se a hipótese nula com um certo grau de certeza probabilística.