Segundo Jeffrey T. Leek e Roger D. Peng, não há uma estatística mais maligna do que o valor de P. Centenas de artigos e publicações em blogs têm sido escritos sobre o que
alguns estatísticos escarnecem como “teste de significância da hipótese nula”
(TSHN), que considera se os resultados de uma análise de dados são importantes
com base no fato de se o teste P (ou outro método) cruzou um determinado limite. Se você é um pesquisador da área da Psicologia que monta sua matriz de dados, coloca num pacote estatístico, escolhe uma determinada rotina, clica <Enter> e olha o valor de P, saiba que o Basic and Applied Social Phychology, há algum tempo, baniu métodos baseados em TSHN.
Mas, segundo Jeffrey e Roger, isso terá de fato efeito escasso na qualidade da ciência publicada. Segundo eles, há
vários estágios durante o desenho e a análise de um estudo bem sucedido, começando com o desenho experimental, passando pela coleta de dados, montagem das matrizes, preparação de dados, escolha dos dados adequados, análise exploratória, escolha de modelos estatísticos potenciais, modelagem estatística, estatística descritiva, inferência e teste (valor de P). Somente o último desses passos é o cálculo de uma estatística inferência tal como o
valor de P e a aplicação de uma “regra
de decisão” para isso (por exemplo, P
< 0,05). Porém, decisões que são tomadas anteriormente na análise de
dados tem um impacto muito maior nos
resultados – desde o desenho experimental a efeitos perturbadores, falta de
ajuste para os fatores de confusão, ou simplesmente erros de medições. Níveis
arbitrários de significância estatística podem ser adquiridos pela alteração na
maneira em que os dados são tratados, sumarizados e modelados.
Dizem os autores que valores de P são um alvo fácil: por serem largamente
utilizados, são largamente abusados. Mas, na prática, a desregulamentação da
significância estatística abre a porta para ainda mais maneiras de brincar com
a estatística – intencionalmente ou não – para obter um resultado. Substituir
os valores de P por fatores
bayesianos ou outra estatística é, em última instância, escolher um
custo-benefício diferente para os positivos verdadeiros e os falsos positivos.
Discutir sobre o valor de P é como
focalizar em um erro ortográfico ao invés de numa lógica falsa de uma sentença.
Os autores afirmam que, assim como qualquer pessoa que faça um sequenciamento de
DNA ou um sensoriamento remoto deve ser treinada para usar uma máquina, também
qualquer um que analise dados deve ser treinado nos conceitos e programas
relevantes. Até mesmo investigadores que supervisionam a análise de dados devem
ser exigidos por suas agências de fomento e instituições a completar
treinamento no entendimento dos resultados e problemas potenciais com as
análises.
Mas, eles advertem, a
educação não é o suficiente. A análise de dados é ensinada através de um modelo
de aprendizagem e disciplinas diferentes desenvolvem suas próprias subculturas
de análises. Decisões são baseadas em convenções culturais em comunidades específicas
ao invés de evidência empírica. Por exemplo, economistas e médicos denominam um conjunto
de dados medidos ao longo do tempo de formas diferentes e se utilizam de diferentes formas estatísticas para analisá-lo.
A pesquisa
em estatística se focaliza, em grande parte, na matemática estatística, com
exceção do comportamento e processos envolvidos na análise de dados. Para
resolver esse grande problema, devemos estudar como as pessoas analisam os
dados no mundo real. O que os faz ter sucesso ou fracasso? Experimentos
controlados têm sido feitos na visualização e interpretação de riscos para
avaliar como humanos percebem e interagem com os dados e a estatística. Mais
recentemente, os autores e outros colaboradores têm estudado o fluxo completo da análise. Eles encontraram, por exemplo, que analistas de dados recém-treinados não sabem como
inferir valores de P de conjuntos de
dados, mas podem aprender a fazer isso na prática.
Por fim, os autores sugerem que o objetivo final
a análise de dados baseada na evidência, o que seria análogo à medicina baseada na
evidência, na qual os médicos são encorajados a usar somente tratamentos para
os quais a eficácia foi provada em testes controlados. Os estatísticos, as
pessoas que eles treinam e com as quais colaboram precisam parar de discutir
sobre os valores de P de forma a
impedir que o resto do iceberg afunde
a ciência.
Link para o artigo completo: http://www.nature.com/news/statistics-p-values-are-just-the-tip-of-the-iceberg-1.17412.