terça-feira, 4 de março de 2014

A DITADURA DO R



A estatística é uma disciplina indissociável das práticas científicas. Para o estudo científico dos fenômenos biológicos, a estatística é uma ferramenta que possibilita lidar com as quantificações que fazem parte do cotidiano de qualquer cientista e resumi-las, sintetizá-las e interpretá-las. A base para o estudo da estatística é a teoria das probabilidades. Então, todo e qualquer pacote estatístico está, necessariamente, ligado ao desenvolvimento de “rotinas”, ou caminhos, que se utilizam dos dados medidos pelo cientista para gerar distribuições de probabilidades, as quais serão contrastadas com uma série de distribuições ideais (normal ou gaussiana, por exemplo) ou com distribuições ligadas aos próprios dados (autorreamostragem, por exemplo).

De tempos em tempos, alguns pacotes estatísticos se tornam a escolha de muitos cientistas. Geralmente, nesses casos, o que motiva essa disseminação é o próprio uso do pacote em artigos científicos “de ponta”, motivando os leitores a procurarem se inteirar sobre ele. Isso cria uma retroalimentação positiva: quanto mais cientistas se utilizam do pacote, maior a probabilidade de disseminação do mesmo entre os pares.

Não estou aqui julgando se um determinado pacote estatístico é melhor ou pior que outro. Até porque, em se tratando de testes estatísticos, como frisei acima, a base é a mesma e, portanto, dois pacotes estatísticos devem, necessariamente, produzir os mesmos resultados para os mesmos testes (observe-se, porém, que testes de permutação podem resultar em valores um pouco diferentes dependendo do pacote e até mesmo dentro do mesmo).

Porém, quando um determinado pacote estatístico se torna uma “moda” entre os pesquisadores, começam a surgir algumas armadilhas intrínsecas, que podem resultar em alguns vieses no conhecimento científico. Vou dar um exemplo empírico. Em um exercício de correlação, um determinado aluno se utiliza do pacote estatístico R para montar uma matriz de coeficientes de correlação de Pearson (r) entre as variáveis de interesse. Perguntado pelo valor da significância das correlações, o aluno diz que “não existem”. Oras, como assim? O aluno responde que “não tem no R”. Esse é um exemplo clássico da confusão que pode se instalar na mente de um aluno. Se não existe no pacote estatístico, então não existe! Aqui, não se trata de saber se há esse teste ou não no pacote em questão.

Há uma diferença enorme entre o que um pacote estatístico faz (e que é seu objetivo) e o conhecimento científico (estatístico, nesse caso, mas como frisei acima, a estatística chega a ser indissociável da ciência moderna). O pacote não transmite conhecimento científico inequívoco. Ele é uma ferramenta. Claro que, nesse exemplo, o aluno foi esclarecido pelos pares sobre a existência do teste de significância. Porém, não sem antes espantar-se de que isso existisse “fora do R”.

Existem vários pacotes estatísticos disponíveis por aí. Nenhum deles melhor ou pior. Melhor é aquele com o qual nos “sentimos melhor” (facilidade de manuseio, capacidade gráfica, interatividade, etc.). Na verdade, talvez até utilizemos mais de um pacote, dependendo da situação e da nossa formação.

A estatística é uma ferramenta e como tal deve ser percebida. Uma ferramenta importantíssima e muito poderosa. Por isso, deve sempre ser utilizada com parcimônia. Nenhum pacote substitui um especialista ou um bom livro texto de estatística. Porém, todos os resultados dos testes, quando bem aplicados, devem servir para nos auxiliar a responder nossa questão biológica. Aliás, uma ótima maneira de não se perder nesse universo de estatística é formular as perguntas e hipóteses biológicas de nossos estudos a partir do olhar nos sistemas biológicos. A análise que será realizada é um passo posterior. Inverter esse caminho pode ser pernicioso, pois estaremos diante do resultado de um teste e não teremos a mínima ideia de como interpretá-lo.