A estatística é uma disciplina indissociável das práticas
científicas. Para o estudo científico dos fenômenos biológicos, a estatística é
uma ferramenta que possibilita lidar com as quantificações que fazem parte do cotidiano
de qualquer cientista e resumi-las, sintetizá-las e interpretá-las. A base para
o estudo da estatística é a teoria das probabilidades. Então, todo e qualquer
pacote estatístico está, necessariamente, ligado ao desenvolvimento de “rotinas”,
ou caminhos, que se utilizam dos dados medidos pelo cientista para gerar
distribuições de probabilidades, as quais serão contrastadas com uma série de
distribuições ideais (normal ou gaussiana, por exemplo) ou com distribuições
ligadas aos próprios dados (autorreamostragem, por exemplo).
De tempos em tempos, alguns pacotes estatísticos se tornam a
escolha de muitos cientistas. Geralmente, nesses casos, o que motiva essa
disseminação é o próprio uso do pacote em artigos científicos “de ponta”,
motivando os leitores a procurarem se inteirar sobre ele. Isso cria uma
retroalimentação positiva: quanto mais cientistas se utilizam do pacote, maior
a probabilidade de disseminação do mesmo entre os pares.
Não estou aqui julgando se um determinado pacote estatístico
é melhor ou pior que outro. Até porque, em se tratando de testes estatísticos,
como frisei acima, a base é a mesma e, portanto, dois pacotes estatísticos
devem, necessariamente, produzir os mesmos resultados para os mesmos testes
(observe-se, porém, que testes de permutação podem resultar em valores um pouco
diferentes dependendo do pacote e até mesmo dentro do mesmo).
Porém, quando um determinado pacote estatístico se torna uma
“moda” entre os pesquisadores, começam a surgir algumas armadilhas intrínsecas,
que podem resultar em alguns vieses no conhecimento científico. Vou dar um
exemplo empírico. Em um exercício de correlação, um determinado aluno se
utiliza do pacote estatístico R para montar uma matriz de coeficientes de
correlação de Pearson (r) entre as variáveis de interesse. Perguntado pelo
valor da significância das correlações, o aluno diz que “não existem”. Oras,
como assim? O aluno responde que “não tem no R”. Esse é um exemplo clássico da
confusão que pode se instalar na mente de um aluno. Se não existe no pacote
estatístico, então não existe! Aqui, não se trata de saber se há esse teste ou não
no pacote em questão.
Há uma diferença enorme entre o que um pacote estatístico
faz (e que é seu objetivo) e o conhecimento científico (estatístico, nesse
caso, mas como frisei acima, a estatística chega a ser indissociável da ciência
moderna). O pacote não transmite conhecimento científico inequívoco. Ele é uma
ferramenta. Claro que, nesse exemplo, o aluno foi esclarecido pelos pares sobre
a existência do teste de significância. Porém, não sem antes espantar-se de que
isso existisse “fora do R”.
Existem vários pacotes estatísticos disponíveis por aí. Nenhum
deles melhor ou pior. Melhor é aquele com o qual nos “sentimos melhor”
(facilidade de manuseio, capacidade gráfica, interatividade, etc.). Na verdade,
talvez até utilizemos mais de um pacote, dependendo da situação e da nossa
formação.
A estatística é uma ferramenta e como tal deve ser
percebida. Uma ferramenta importantíssima e muito poderosa. Por isso, deve
sempre ser utilizada com parcimônia. Nenhum pacote substitui um especialista ou
um bom livro texto de estatística. Porém, todos os resultados dos testes, quando bem aplicados,
devem servir para nos auxiliar a responder nossa questão biológica. Aliás, uma ótima maneira de não se perder nesse universo
de estatística é formular as perguntas e hipóteses biológicas de nossos estudos
a partir do olhar nos sistemas biológicos. A análise que será realizada é um passo
posterior. Inverter esse caminho pode ser pernicioso, pois estaremos diante do resultado de um teste e não teremos a mínima ideia de como interpretá-lo.