quarta-feira, 25 de novembro de 2015

ANÁLISE DE DADOS ECOLÓGICOS Parte I

O embasamento de uma metodologia geral para analisar dados ecológicos pode ser encontrado nas relações que existem entre as condições que cercam as observações ecológicas e seus resultados. Nas ciências físicas, por exemplo, há sempre relações de causa e efeito entre as condições naturais ou experimentais e os resultados das observações ou experimentos. Isso quer dizer que, dadas certas condições, o resultado pode ser exatamente predito. Porém, essas relações determinísticas são raras na ecologia.

Geralmente, na ecologia, um número diferente de resultados pode ser encontrado a partir de um conjunto de condições por causa do grande número de variáveis atuando no sistema, das quais muitas não são disponíveis para o observador. Por outro lado, se as observações são repetidas muitas vezes sob certas condições similares, as frequências relativas de resultados possíveis tendem a estabilizar em certos valores, chamados probabilidades dos resultados.

Genericamente, é possível afirmar que sempre que dizemos que a probabilidade de um evento com respeito a um experimento (ou observação) é igual a P, o significado concreto dessa assertiva é simplesmente que em uma longa série de repetições do experimento (ou observação), é praticamente certo que a frequência (relativa) do evento será aproximadamente igual a P. Isso corresponde à teoria de probabilidade de frequências. Dessa forma, se o P de uma análise é igual a 0,03, isso significa, segundo a definição acima, que, se a mesma coleta e análise de dados for realizada 100 vezes, espera-se que o resultado encontrado ocorra com uma frequência de 3%, ou três vezes em 100. Como esse é um evento extremamente raro considerando distribuições aleatórias, supõe-se que deve haver algum efeito que esteja atuando sobre o sistema. Portanto, nesse caso o pesquisador pode assumir que há evidência (valor de P) suficiente para afirmar que há um efeito agindo sobre o resultado.

Quando cada um de muitos resultados ocorre com certa probabilidade característica, o conjunto dessas probabilidades é chamado distribuição de probabilidade (Figura 1).


Figura 1 – Dois tipos de repetição de observações


Os métodos de análise numérica são determinados pelos quatro tipos de relações que podem ser encontrados entre as condições do meio ambiente e o resultado de observações (Tabela 1). A ecologia e a maior parte das ciências biológicas lidam com métodos de análise de variáveis resposta aleatórias.


Tabela 1 – Análise numérica de dados ecológicos.

 A qualidade da análise e interpretação subsequente de dados biológicos depende, particularmente, da compatibilidade entre os dados e os métodos numéricos (a estatística). É importante levar em consideração os requisitos das técnicas quando se planeja um programa de amostragem, pois é obviamente inútil coletar dados quantitativos que são inapropriados para as análises numéricas pretendidas. A experiência mostra que, muito frequentemente, coleções mal planejadas de dados ecológicos, somente para objetivo de levantamentos, geram grandes quantidades de dados inúteis. A Figura 2 mostra as relações entre as várias fases de uma pesquisa ecológica.


Figura 2 – Relações entre as várias fases de uma pesquisa ecológica.

Isso quer dizer que a pesquisa deve ser cuidadosamente planejada, desde o embasamento teórico, passando pelos objetivos, os métodos para coletar os dados adequados e as análises estatísticas que atingirão os objetivos propostos. Uma pergunta bem formulada vale muito mais, em se tratando de métodos de coleta e análise, do que a coleta indiscriminada de múltiplas variáveis em campo. Não se pode esperar que a estatística resolva desenhos mal pensados. Em geral, ela não o faz!


Nas ciências biológicas, a análise numérica dos dados não é um objetivo em si. Ou seja, é preciso abandonar a visão de que a estatística tudo pode e tudo resolve. Em geral, perguntas simples levam a desenhos bem realizados e análises diretas que resultam em dados facilmente interpretáveis à luz dos objetivos. Entretanto, um estudo baseado em informação quantitativa deve levar o processamento de dados em conta em todas fases do trabalho, desde a concepção até a conclusão, incluindo o planejamento e a execução da amostragem, a análise apropriada dos dados e a interpretação dos resultados. A amostragem, incluindo as análises laboratoriais, geralmente é a parte mais cara e tediosa de uma pesquisa e, portanto, é importante que ela seja otimizada para reduzir ao mínimo a coleção de informação inútil. Assumindo que procedimentos adequados de amostragem e de laboratório tenham sido empregados, as conclusões dependerão dos resultados da análise de dados. É, portanto, importante se certificar antecipadamente que a amostragem e as técnicas numéricas são compatíveis. Toda amostragem começa com a determinação da unidade experimental e das variáveis que serão medidas nessas unidades experimentais. Uma vez determinado isso, segue-se que a análise dos dados é relativamente simples. Então, o processamento numérico está no cerne da pesquisa biológica e a qualidade dos resultados não pode exceder a qualidade das análises numéricas conduzidas nos dados.


Objetivos específicos claros e bem determinados levam à formulação de hipóteses também claras e objetivas. Para cada variável resposta coletada, há uma hipótese científica associada, a qual, em geral, corresponde à hipótese estatística alternativa. Quanto maior o número de variáveis coletadas, mais hipóteses podem ser formuladas. Isso pode ser um problema caso o(a) pesquisador(a) não tenha muito bem claro quais são seus objetivos e as hipóteses associadas. Por exemplo, para uma variável resposta sujeita a dois efeitos, há três hipóteses estatísticas: a interação significativa entre os dois efeitos, a significância de um efeito e a significância do outro efeito. Ou seja, nesse caso, pode haver algum tipo de interação entre os efeitos, o que leva a uma interpretação totalmente diferente da análise comparada com a análise de apenas um efeito sobre a variável resposta. Por isso, é imprescindível que as perguntas sejam claramente definidas.

Claro que a qualidade de uma pesquisa biológica não é apenas uma função da competência com que o trabalho quantitativo é conduzido. Depende também largamente na criatividade, que se traduz na imaginação e intuição de formular hipóteses e teorias. É vantajoso, entretanto, que as habilidades criativas do pesquisador estejam embasadas em trabalhos empíricos sólidos (i.e. trabalho envolvendo dados de campo), pois pouco progresso pode resultar de continuamente montar hipóteses não testadas. Isso quer dizer que os pesquisadores devem se apropriar do conhecimento teórico do seu campo de pesquisa.


A Figura 2 mostra que uma interpretação correta das análises requer que a fase de amostragem seja planejada para responder uma (ou mais) questão específica. Programas de amostragem são desenhados de forma a capturar a variação ocorrendo ao longo de eixos de interesse: espaço (habitats), tempo, ou outras variáveis biológicas indicativas. O objetivo é descrever a variação ocorrendo ao longo de um ou mais eixos e interpretá-la ou modelá-la.

Texto adaptado (com recortes e alterações) de Legendre & Legendre, 2012. Numerical Ecology. p. 1-8.

Um comentário: