O Wayang Kulit é
uma arte teatral ancestral praticada na Malásia e em boa parte do Oriente. As histórias são, geralmente, sobre batalhas entre o bem e o mal, como aquelas nos
grandes épicos Hindus. O que a audiência realmente vê não são atores, nem mesmo
bonecos, mas as sombras dos bonecos projetadas em uma tela de lona. Atrás da
tela há uma luz. O manipulador dos bonecos cria a ação pela manipulação dos
bonecos e adereços de tal modo que eles interceptam a luz e lançam as sombras.
Na medida em que essas sombras dançam na tela, a audiência deve deduzir a história a partir dessas projeções bidimensionais dos objetos tridimensionais
escondidos. As sombras, entretanto, podem ser ambíguas. Para inferir a ação
tridimensional, as sombras devem ser detalhadas, com contornos finos e devem
ser postas no contexto adequado.
Biólogos
são participantes inconscientes na peça de sombras da natureza. Essas sombras
são lançadas quando os processos causais na natureza são interceptados pelas
nossas medidas. Como a audiência no teatro de sombras, o biólogo não pode,
simplesmente, espiar atrás da tela e observar diretamente os processos causais
reais. Tudo que pode ser diretamente observado são as consequências dos
processos na forma de padrões complicados de associação e independência nos
dados. Assim como as sombras, esses padrões de correlação são projeções
incompletas – e potencialmente ambíguas – dos processos causais originais.
Assim como as sombras, pode-se inferir muito sobre os processos causais
subjacentes aprendendo a estudar seus detalhes, afinar seus contornos
e, especialmente, contextualizá-los.
Infelizmente,
diferente do manipulador de bonecos no teatro de sombras, o qual se encarrega
de projetar sombras informativas, a natureza é indiferente às sombras
correlacionais que projeta. Essa é a razão principal de pesquisadores fazerem
um esforço enorme para aleatorizar as alocações de tratamentos e controlar as
variáveis. Esses métodos, quando podem ser feitos de forma apropriada,
simplificam as sombras correlacionais em padrões manejáveis que podem ser mais
facilmente mapeados até os processos causais adjacentes.
É
desconfortavelmente verdade, apesar de raramente admitido em textos
estatísticos, que muitas áreas importantes da ciência são teimosamente
impermeáveis a desenhos experimentais baseados na aleatorização dos tratamentos
das unidades amostrais. Historicamente, a resposta a esse problema embaraçoso
tem sido ignorá-lo, ou abolir a noção de causalidade da linguagem e afirmar que
as sombras dançando na tela são tudo que existe. Ignorar um problema não faz
com que ele desapareça e definir que um problema não existe também não. Deve-se
saber o que se pode inferir com segurança sobre as causas a partir das suas
sombras observacionais, o que não se pode inferir e o grau de ambigüidade que
sobra.
A visão da
maior parte dos estatísticos e biólogos é resumida no mantra que qualquer
estudante que estudou um curso básico de estatística aprende: correlação não implica causa. Na
verdade, com poucas exceções, correlação implica causa. Se observamos uma
relação sistemática entre duas variáveis e conseguimos retirar a probabilidade
de que essa relação é simplesmente devido a uma coincidência aleatória, então alguma coisa deve estar causando essa
relação. Quando a audiência do teatro de sombras vê uma sombra de uma roda
sólida na tela, ela sabe que algum objeto tridimensional a projetou, apesar de
não poder dizer se o objeto é uma bola ou uma tigela redonda. Uma informação
mais acurada nos cursos de estatística seria que uma correlação simples implica
em uma estrutura causal não-resolvida,
pois não podemos saber qual é a causa, qual é o efeito, ou até se os dois são
efeitos comuns de uma terceira variável, não medida.
Apesar de
uma correlação implicar numa estrutura causal não resolvida, o reverso não é
verdade: uma causa implica uma estrutura de correlação completamente resolvida.
Isso quer dizer que a partir do momento em que uma estrutura causal seja
proposta, o padrão completo de correlação e correlação parcial é fixado sem
ambigüidade. Isso é importante: as relações causais entre objetos ou variáveis
determinam as relações correlacionais entre eles. Assim como a forma de um
objeto fixa a forma de sua sombra, os padrões de causa direta e indireta fixam
as sombras correlacionais que se observam nos dados. Os processos causais
gerando os dados observados impõem restrições nos padrões de correlação que
tais dados mostram.
O termo
“correlação” evoca a noção de uma associação probabilística entre variáveis
aleatórias. Uma razão para que estatísticos raramente falem em causa, exceto
para se distanciarem do termo, é que não existia, até muito recentemente,
qualquer tradução rigorosa entre a linguagem da causalidade e a linguagem da
distribuição de probabilidades. É, portanto, necessário ligar
causa às distribuições de probabilidades de maneira bem precisa. Essas ligações
rigorosas estão, agora, sendo forjadas. É possível, agora, dar provas
matemáticas que especificam o padrão correlacional que deve existir dada uma
estrutura causal. Essas provas também permitem especificar a classe de
estruturas causais que devem incluir a estrutura causal que gera um padrão de
correlação dado.
Outra razão
pela qual se prefere falar em associações ao invés de causas é, talvez, pelo
fato de que causas são vistas como uma noção metafísica que é deixada para os
filósofos. De fato, mesmo filósofos da ciência não concordam no que constitui
uma “causa”. Provavelmente, cada um tenha seu próprio entendimento intuitivo do
termo “causa”. Ao
invés de definir causalidade, uma abordagem é de axiomizar causalidade. Em outras palavras, começa-se por determinar os
atributos que cientistas veem como necessários para uma relação ser considerada
causal e, então, se desenvolve uma linguagem matemática formal baseada nesses
atributos. As relações devem ser, então:
1. Transitivas: se
A causa B e B causa C, então também deve ser verdade que A causa C.
2. Locais: o termo
técnico para isso é que as relações devem obedecer condições Markovianas, das quais há versões locais e globais. Pode
ser entendido como significando que os eventos são causados somente por suas
causas próximas. Então, se o evento A causa o evento C somente pelo seu efeito através do evento intermediário B (A→B→C),
então a influência causal de A em C é bloqueada se o evento B não responder
mais a A.
3. Irreflexivas:
um evento não pode causar a si mesmo. Isso não quer dizer que todo evento deve
ser explicado por uma causa; isso levaria diretamente ao paradoxo da regressão
infinita. Cada explicação causal na ciência inclui eventos que são aceitos
(medidos, observados, ...) sem ser derivados de eventos prévios.
4. Assimétricas:
se A causa B, então B não pode simultaneamente
ser a causa de A.
É necessário uma nova linguagem matemática capaz de expressar e manipular
essas relações causais. Essa linguagem é a de gráficos direcionados. Desde que, no final, se deseja
inferir relações causais de dados correlacionados, precisa-se um caminho lógico
rigoroso para traduzir entre as relações causais codificadas em gráficos de
direcionamento e as relações correlacionais codificadas na teoria das
probabilidades.
*(Versado livremente do livro em inglês Cause and correlation in biology, de Bill Shipley)
Link: http://books.google.com.br/books/about/Cause_and_Correlation_in_Biology.html?id=_X-dAFoEsM8C&redir_esc=y
Nenhum comentário:
Postar um comentário