segunda-feira, 23 de dezembro de 2013

A CAUSA DA SOMBRA*



O Wayang Kulit é uma arte teatral ancestral praticada na Malásia e em boa parte do Oriente. As histórias são, geralmente, sobre batalhas entre o bem e o mal, como aquelas nos grandes épicos Hindus. O que a audiência realmente vê não são atores, nem mesmo bonecos, mas as sombras dos bonecos projetadas em uma tela de lona. Atrás da tela há uma luz. O manipulador dos bonecos cria a ação pela manipulação dos bonecos e adereços de tal modo que eles interceptam a luz e lançam as sombras. Na medida em que essas sombras dançam na tela, a audiência deve deduzir a história a partir dessas projeções bidimensionais dos objetos tridimensionais escondidos. As sombras, entretanto, podem ser ambíguas. Para inferir a ação tridimensional, as sombras devem ser detalhadas, com contornos finos e devem ser postas no contexto adequado.

Biólogos são participantes inconscientes na peça de sombras da natureza. Essas sombras são lançadas quando os processos causais na natureza são interceptados pelas nossas medidas. Como a audiência no teatro de sombras, o biólogo não pode, simplesmente, espiar atrás da tela e observar diretamente os processos causais reais. Tudo que pode ser diretamente observado são as consequências dos processos na forma de padrões complicados de associação e independência nos dados. Assim como as sombras, esses padrões de correlação são projeções incompletas – e potencialmente ambíguas – dos processos causais originais. Assim como as sombras, pode-se inferir muito sobre os processos causais subjacentes aprendendo a estudar seus detalhes, afinar seus contornos e, especialmente, contextualizá-los.

Infelizmente, diferente do manipulador de bonecos no teatro de sombras, o qual se encarrega de projetar sombras informativas, a natureza é indiferente às sombras correlacionais que projeta. Essa é a razão principal de pesquisadores fazerem um esforço enorme para aleatorizar as alocações de tratamentos e controlar as variáveis. Esses métodos, quando podem ser feitos de forma apropriada, simplificam as sombras correlacionais em padrões manejáveis que podem ser mais facilmente mapeados até os processos causais adjacentes.

É desconfortavelmente verdade, apesar de raramente admitido em textos estatísticos, que muitas áreas importantes da ciência são teimosamente impermeáveis a desenhos experimentais baseados na aleatorização dos tratamentos das unidades amostrais. Historicamente, a resposta a esse problema embaraçoso tem sido ignorá-lo, ou abolir a noção de causalidade da linguagem e afirmar que as sombras dançando na tela são tudo que existe. Ignorar um problema não faz com que ele desapareça e definir que um problema não existe também não. Deve-se saber o que se pode inferir com segurança sobre as causas a partir das suas sombras observacionais, o que não se pode inferir e o grau de ambigüidade que sobra.

A visão da maior parte dos estatísticos e biólogos é resumida no mantra que qualquer estudante que estudou um curso básico de estatística aprende: correlação não implica causa. Na verdade, com poucas exceções, correlação implica causa. Se observamos uma relação sistemática entre duas variáveis e conseguimos retirar a probabilidade de que essa relação é simplesmente devido a uma coincidência aleatória, então alguma coisa deve estar causando essa relação. Quando a audiência do teatro de sombras vê uma sombra de uma roda sólida na tela, ela sabe que algum objeto tridimensional a projetou, apesar de não poder dizer se o objeto é uma bola ou uma tigela redonda. Uma informação mais acurada nos cursos de estatística seria que uma correlação simples implica em uma estrutura causal não-resolvida, pois não podemos saber qual é a causa, qual é o efeito, ou até se os dois são efeitos comuns de uma terceira variável, não medida.

Apesar de uma correlação implicar numa estrutura causal não resolvida, o reverso não é verdade: uma causa implica uma estrutura de correlação completamente resolvida. Isso quer dizer que a partir do momento em que uma estrutura causal seja proposta, o padrão completo de correlação e correlação parcial é fixado sem ambigüidade. Isso é importante: as relações causais entre objetos ou variáveis determinam as relações correlacionais entre eles. Assim como a forma de um objeto fixa a forma de sua sombra, os padrões de causa direta e indireta fixam as sombras correlacionais que se observam nos dados. Os processos causais gerando os dados observados impõem restrições nos padrões de correlação que tais dados mostram.

O termo “correlação” evoca a noção de uma associação probabilística entre variáveis aleatórias. Uma razão para que estatísticos raramente falem em causa, exceto para se distanciarem do termo, é que não existia, até muito recentemente, qualquer tradução rigorosa entre a linguagem da causalidade e a linguagem da distribuição de probabilidades. É, portanto, necessário ligar causa às distribuições de probabilidades de maneira bem precisa. Essas ligações rigorosas estão, agora, sendo forjadas. É possível, agora, dar provas matemáticas que especificam o padrão correlacional que deve existir dada uma estrutura causal. Essas provas também permitem especificar a classe de estruturas causais que devem incluir a estrutura causal que gera um padrão de correlação dado.

Outra razão pela qual se prefere falar em associações ao invés de causas é, talvez, pelo fato de que causas são vistas como uma noção metafísica que é deixada para os filósofos. De fato, mesmo filósofos da ciência não concordam no que constitui uma “causa”. Provavelmente, cada um tenha seu próprio entendimento intuitivo do termo “causa”. Ao invés de definir causalidade, uma abordagem é de axiomizar causalidade. Em outras palavras, começa-se por determinar os atributos que cientistas veem como necessários para uma relação ser considerada causal e, então, se desenvolve uma linguagem matemática formal baseada nesses atributos. As relações devem ser, então:

1. Transitivas: se A causa B e B causa C, então também deve ser verdade que A causa C.
2. Locais: o termo técnico para isso é que as relações devem obedecer condições Markovianas, das quais há versões locais e globais. Pode ser entendido como significando que os eventos são causados somente por suas causas próximas. Então, se o evento A causa o evento C somente pelo seu efeito através do evento intermediário B (A→B→C), então a influência causal de A em C é bloqueada se o evento B não responder mais a A.
3. Irreflexivas: um evento não pode causar a si mesmo. Isso não quer dizer que todo evento deve ser explicado por uma causa; isso levaria diretamente ao paradoxo da regressão infinita. Cada explicação causal na ciência inclui eventos que são aceitos (medidos, observados, ...) sem ser derivados de eventos prévios.
4. Assimétricas: se A causa B, então B não pode simultaneamente ser a causa de A.

É necessário uma nova linguagem matemática capaz de expressar e manipular essas relações causais. Essa linguagem é a de gráficos direcionados. Desde que, no final, se deseja inferir relações causais de dados correlacionados, precisa-se um caminho lógico rigoroso para traduzir entre as relações causais codificadas em gráficos de direcionamento e as relações correlacionais codificadas na teoria das probabilidades.


*(Versado livremente do livro em inglês Cause and correlation in biology, de Bill Shipley)
Link: http://books.google.com.br/books/about/Cause_and_Correlation_in_Biology.html?id=_X-dAFoEsM8C&redir_esc=y


Nenhum comentário:

Postar um comentário