quarta-feira, 25 de novembro de 2015

ANÁLISE DE DADOS ECOLÓGICOS Parte I

O embasamento de uma metodologia geral para analisar dados ecológicos pode ser encontrado nas relações que existem entre as condições que cercam as observações ecológicas e seus resultados. Nas ciências físicas, por exemplo, há sempre relações de causa e efeito entre as condições naturais ou experimentais e os resultados das observações ou experimentos. Isso quer dizer que, dadas certas condições, o resultado pode ser exatamente predito. Porém, essas relações determinísticas são raras na ecologia.

Geralmente, na ecologia, um número diferente de resultados pode ser encontrado a partir de um conjunto de condições por causa do grande número de variáveis atuando no sistema, das quais muitas não são disponíveis para o observador. Por outro lado, se as observações são repetidas muitas vezes sob certas condições similares, as frequências relativas de resultados possíveis tendem a estabilizar em certos valores, chamados probabilidades dos resultados.

Genericamente, é possível afirmar que sempre que dizemos que a probabilidade de um evento com respeito a um experimento (ou observação) é igual a P, o significado concreto dessa assertiva é simplesmente que em uma longa série de repetições do experimento (ou observação), é praticamente certo que a frequência (relativa) do evento será aproximadamente igual a P. Isso corresponde à teoria de probabilidade de frequências. Dessa forma, se o P de uma análise é igual a 0,03, isso significa, segundo a definição acima, que, se a mesma coleta e análise de dados for realizada 100 vezes, espera-se que o resultado encontrado ocorra com uma frequência de 3%, ou três vezes em 100. Como esse é um evento extremamente raro considerando distribuições aleatórias, supõe-se que deve haver algum efeito que esteja atuando sobre o sistema. Portanto, nesse caso o pesquisador pode assumir que há evidência (valor de P) suficiente para afirmar que há um efeito agindo sobre o resultado.

Quando cada um de muitos resultados ocorre com certa probabilidade característica, o conjunto dessas probabilidades é chamado distribuição de probabilidade (Figura 1).


Figura 1 – Dois tipos de repetição de observações


Os métodos de análise numérica são determinados pelos quatro tipos de relações que podem ser encontrados entre as condições do meio ambiente e o resultado de observações (Tabela 1). A ecologia e a maior parte das ciências biológicas lidam com métodos de análise de variáveis resposta aleatórias.


Tabela 1 – Análise numérica de dados ecológicos.

 A qualidade da análise e interpretação subsequente de dados biológicos depende, particularmente, da compatibilidade entre os dados e os métodos numéricos (a estatística). É importante levar em consideração os requisitos das técnicas quando se planeja um programa de amostragem, pois é obviamente inútil coletar dados quantitativos que são inapropriados para as análises numéricas pretendidas. A experiência mostra que, muito frequentemente, coleções mal planejadas de dados ecológicos, somente para objetivo de levantamentos, geram grandes quantidades de dados inúteis. A Figura 2 mostra as relações entre as várias fases de uma pesquisa ecológica.


Figura 2 – Relações entre as várias fases de uma pesquisa ecológica.

Isso quer dizer que a pesquisa deve ser cuidadosamente planejada, desde o embasamento teórico, passando pelos objetivos, os métodos para coletar os dados adequados e as análises estatísticas que atingirão os objetivos propostos. Uma pergunta bem formulada vale muito mais, em se tratando de métodos de coleta e análise, do que a coleta indiscriminada de múltiplas variáveis em campo. Não se pode esperar que a estatística resolva desenhos mal pensados. Em geral, ela não o faz!


Nas ciências biológicas, a análise numérica dos dados não é um objetivo em si. Ou seja, é preciso abandonar a visão de que a estatística tudo pode e tudo resolve. Em geral, perguntas simples levam a desenhos bem realizados e análises diretas que resultam em dados facilmente interpretáveis à luz dos objetivos. Entretanto, um estudo baseado em informação quantitativa deve levar o processamento de dados em conta em todas fases do trabalho, desde a concepção até a conclusão, incluindo o planejamento e a execução da amostragem, a análise apropriada dos dados e a interpretação dos resultados. A amostragem, incluindo as análises laboratoriais, geralmente é a parte mais cara e tediosa de uma pesquisa e, portanto, é importante que ela seja otimizada para reduzir ao mínimo a coleção de informação inútil. Assumindo que procedimentos adequados de amostragem e de laboratório tenham sido empregados, as conclusões dependerão dos resultados da análise de dados. É, portanto, importante se certificar antecipadamente que a amostragem e as técnicas numéricas são compatíveis. Toda amostragem começa com a determinação da unidade experimental e das variáveis que serão medidas nessas unidades experimentais. Uma vez determinado isso, segue-se que a análise dos dados é relativamente simples. Então, o processamento numérico está no cerne da pesquisa biológica e a qualidade dos resultados não pode exceder a qualidade das análises numéricas conduzidas nos dados.


Objetivos específicos claros e bem determinados levam à formulação de hipóteses também claras e objetivas. Para cada variável resposta coletada, há uma hipótese científica associada, a qual, em geral, corresponde à hipótese estatística alternativa. Quanto maior o número de variáveis coletadas, mais hipóteses podem ser formuladas. Isso pode ser um problema caso o(a) pesquisador(a) não tenha muito bem claro quais são seus objetivos e as hipóteses associadas. Por exemplo, para uma variável resposta sujeita a dois efeitos, há três hipóteses estatísticas: a interação significativa entre os dois efeitos, a significância de um efeito e a significância do outro efeito. Ou seja, nesse caso, pode haver algum tipo de interação entre os efeitos, o que leva a uma interpretação totalmente diferente da análise comparada com a análise de apenas um efeito sobre a variável resposta. Por isso, é imprescindível que as perguntas sejam claramente definidas.

Claro que a qualidade de uma pesquisa biológica não é apenas uma função da competência com que o trabalho quantitativo é conduzido. Depende também largamente na criatividade, que se traduz na imaginação e intuição de formular hipóteses e teorias. É vantajoso, entretanto, que as habilidades criativas do pesquisador estejam embasadas em trabalhos empíricos sólidos (i.e. trabalho envolvendo dados de campo), pois pouco progresso pode resultar de continuamente montar hipóteses não testadas. Isso quer dizer que os pesquisadores devem se apropriar do conhecimento teórico do seu campo de pesquisa.


A Figura 2 mostra que uma interpretação correta das análises requer que a fase de amostragem seja planejada para responder uma (ou mais) questão específica. Programas de amostragem são desenhados de forma a capturar a variação ocorrendo ao longo de eixos de interesse: espaço (habitats), tempo, ou outras variáveis biológicas indicativas. O objetivo é descrever a variação ocorrendo ao longo de um ou mais eixos e interpretá-la ou modelá-la.

Texto adaptado (com recortes e alterações) de Legendre & Legendre, 2012. Numerical Ecology. p. 1-8.

sábado, 1 de agosto de 2015

O que é diversidade beta?

O que é diversidade beta? Em resumo, pode ser definida como diferenças na composição das espécies entre dois lugares ou tempos. Uma propriedade importante da biodiversidade é que ela não é distribuída de forma equilibrada no globo. Isso quer dizer que diferentes áreas geralmente contêm diferentes comunidades biológicas. Medir a diferença entre as comunidades biológicas é um passo importante para se entender como e por que a biodiversidade se distribui.

Quem introduziu o termo diversidade beta foi R.H. Whittaker em 1960, que o definiu como "a extensão de mudança na composição da comunidade, ou grau de diferenciação da comunidade, em relação a um gradiente ambiental complexo, ou um padrão de ambientes". Ele propôs várias maneiras de medir a diversidade beta. Em sua forma mais simples, a diversidade beta é definida como a razão entre a diversidade gama (regional) e a diversidade alfa (local). A diversidade regional é o conjunto total de espécies de um conjunto de locais. Bom frisar que a diversidade regional NÃO é a soma das diversidades locais, pois uma mesma espécie pode fazer parte de mais de uma comunidade local. A diversidade local, stricto sensu, é o número de espécies presentes em apenas uma área. Porém, no cálculo da diversidade beta de Whittaker, a diversidade local é definida como a média de todas diversidades locais do conjunto de comunidades sendo analisado. Então, a diversidade beta é o número efetivo de unidades composicionais diferentes em uma região. Essencialmente, a diversidade beta quantifica o número de comunidades diferentes em uma região. Então, fica claro que a diversidade beta, além de levar em conta a relação entre a diversidade local e a regional, também informa sobre o grau de diferenciação entre as comunidades biológicas. Isso porque as diversidades gama e alfa serão diferentes se (e somente se) as comunidades biológicas em uma região forem diferentes.

É fácil demonstrar como a diversidade beta varia da mínima à máxima diferenciação das assembleias locais em uma região. Utilizando a riqueza de espécies (número de espécies) como exemplo, pode-se perceber que, quando as assembleias locais são idênticas (diferenciação mínima), a diversidade local iguala a diversidade gama e a diversidade beta é igual a 1. A figura abaixo ilustra a composição de espécies de três comunidades locais. Como as cinco espécies ocorrem igualmente em cada comunidade, a diversidade gama é 5, a diversidade alfa média é 5 (5+5+5/3). A razão entre as duas é 1.


Nesse caso, nessa região, só há uma unidade composicional distinta, ou seja, apenas uma "comunidade".

Quando as comunidades locais são completamente diferentes, ou seja, apresentam diferenciação máxima, a diversidade gama é igual à multiplicação da diversidade alfa pelo número de áreas (N). Então, a diversidade beta é igual a N. Isso significa que há N unidades composicionais distintas, ou N "comunidades" diferentes (figura abaixo).


Como a diversidade beta é influenciada pelo número de áreas na região (N) na medida acima, ela não é independente da quantidade de áreas. Então, é necessário padronizar a diversidade beta. Há variantes da fórmula padrão que padronizam a diversidade beta. Um exemplo é o índice de Sorensen, que é simplesmente (diversidade beta - 1 / N - 1). É necessário cuidado na hora de escolher um método de medida de diversidade beta. Geralmente, se fala em índices de dissimilaridade, ou seja, de distância entre comunidades. Nem todos índices são apropriados para se medir diferenças entre as comunidades biológicas (veja Legendre & De Cáceres, 2013).

Porém, a diferença entre comunidades biológicas pode ter mais de um significado, que revertem a diferentes processos biológicos. Como escrito acima, a diversidade beta é o grau de diferenciação na composição entre comunidades locais e isso nos remete a pensar em substituição de espécies (turnover). As três áreas da figura abaixo ilustram esse padrão. A diversidade beta das três áreas é = 2, pois gama = 8 e alfa média = 4.


Porém, pode haver um padrão de perda aninhada de espécies do local mais rico para o menos rico, como mostra a figura abaixo. Isso causa uma diferenciação na diversidade alfa e gama. O padrão é diferente, mas o valor de diversidade beta é o mesmo que no exemplo anterior (2).


Ainda pode haver uma mistura dos dois padrões, como ilustrado na figura abaixo. A diversidade beta continua a mesma (2).


Então, nos três exemplos, a diversidade alfa e gama são idênticas, então a diversidade beta de Whittaker e o índice de Sorensen também têm os mesmos valores.

Felizmente, há uma forma de separar os valores de diversidade beta produzidos por esses dois padrões. O índice de dissimilaridade de Simpson remove os efeitos da riqueza (número de espécies) sobre a diferença entre comunidades. Esse índice considera que assembleias aninhadas são perfeitamente similares e provê o componente de substituição da diversidade beta. Se não há diferença de riqueza, os índices de Simpson e Sorensen apresentam o mesmo valor, o que significa que qualquer diferença entre os dois valores será por causa do componente aninhado da dissimilaridade. Dessa forma, a dissimilaridade total (Sorensen) pode ser particionada aditivamente nos componentes de substituição e aninhamento. A mesma abordagem pode ser utilizada para separar os componentes de dissimilaridade baseados na abundância, na dissimilaridade funcional e na dissimilaridade filogenética.

Esse texto é uma adaptação da publicação do Dr. Andrés Baselga "What is Beta Diversity?", lançada no blog sobre Métodos em Ecologia e Evolução. As figuras também são adaptações das figuras originais.
Link para o texto original: (https://methodsblog.wordpress.com/2015/05/27/beta_diversity/).

Algumas referências para leituras adicionais:


Baselga, A. (2010) Partitioning the turnover and nestedness components of beta diversityGlobal Ecology and Biogeography19, 134-143.
Baselga, A. (2012) The relationship between species replacement, dissimilarity derived from nestedness, and nestednessGlobal Ecology and Biogeography21, 1223-1232.
Baselga, A. & Leprieur, F. (2015) Comparing methods to separate components of beta diversityMethods in Ecology and Evolutionin press.
Baselga, A. & Orme, C. D. L. (2012) betapart: an R package for the study of beta diversityMethods in Ecology and Evolution3, 808-812.
Carvalho, J. C., Cardoso, P. & Gomes, P. (2012) Determining the relative roles of species replacement and species richness differences in generating beta-diversity patternsGlobal Ecology and Biogeography21, 760–771.
Chao, A., Chiu, C.-H. & Hsieh, T. C. (2012) Proposing a resolution to debates on diversity partitioningEcology39, 2037-2051.
Legendre, P. (2014) Interpreting the replacement and richness difference components of beta diversityGlobal Ecology and Biogeography23, 1324–1334.
Leprieur, F., Albouy, C., De Bortoli, J., Cowman, P. F., Belwood, D. R. & Mouillot, D. (2012) Quantifying phylogenetic beta diversity: distinguishing between ‘true’ turnover of lineages and phylogenetic diversity gradientsPLoS One7, e42760.
Simpson, G. G. (1943) Mammals and the Nature of ContinentsAmerican Journal of Science241, 1-31.
Simpson, G. G. (1960) Notes on the measurement of faunal resemblanceAmerican Journal of Science258, 300-311.
Villeger, S., Grenouillet, G. & Brosse, S. (2013) Decomposing functional β-diversity reveals that low functional β-diversity is driven by low functional turnover in European fish assemblagesGlobal Ecology and Biogeography22, 671–681.
Whittaker, R. H. (1960) Vegetation of the Siskiyou Mountains, Oregon and California.Ecological Monographs30, 280-338.