Teoria dos Jogos e da Cooperação para Filósofos: Seção I

TEORIA DOS JOGOS E DA COOPERAÇÃO (MAY, E. 'Ben Franklin leva Xeque-Mate de Lady Howe', sec.XIX)

TEORIA DOS JOGOS E DA COOPERAÇÃO PARA FILÓSOFOS

SEÇÃO I

» 3ª Unidade: A Evolução da Cooperação

Axelrod e seu Livro: Biologia e Teoria da Cooperação.

Por Antônio Rogério da Silva

Desde quando foi aplicado pela primeira vez - lá pelos idos de 1950 -, o Dilema dos Prisioneiros causou estranheza aos seus inventores e ao próprio John Nash, cuja tese dos pontos de equilíbrio era alvo principal dos problemas apresentados aos seus jogadores. Melvin Dresher e Merril Flood criaram esse modelo de jogo com a intenção de gerar uma situação paradoxal para a idéia de que havia um ponto de equilíbrio em jogos não-cooperativos. O Dilema dos Prisioneiros foi repetido por cem rodadas sucessivas entre duas pessoas racionais, mas que nunca tivessem ouvido falar em pontos de equilíbrio. O resultado foi a emergência da cooperação entre os agentes - que repartiam igualmente os prejuízos -, contrariando a previsão de que deveriam aplicar suas respectivas estratégias dominantes - sempre desertar -, atingindo assim o ponto de equilíbrio do jogo. Na época, Nash já teria sugerido que o resultado contraditório obtido devia-se ao fato dos jogadores estarem participando de um autêntico superjogo, no qual vários movimentos repetem a mesma condição de escolha das estratégia (1).

A previsão da teoria dos jogos e do equílíbrio de Nash era que agentes racionais egoístas optassem sempre por sua estratégia dominante quando esta existisse, independente do que o outro fizesse. No Dilema dos Prisioneiros, as duas partes possuem estratégias desse tipo e o resultado esperado é a deserção mútua e a punição com a condenação dos dois presos pelo crime mais grave, ao invés de uma pena leve relativa ao delito pelo qual foram capturados. A partir da interface policial montada por Albert Tucker, logo se compreendeu que o Dilema dos Prisioneiros poderia ser a estrutura simplificada de uma série de interações entre pessoas, empresas e até mesmo nações, em larga escala.

A despeito do jogo ter sido elaborado para refutar a teoria de Nash, o Dilema dos Prisioneiros Iterado logo se mostrou uma importante ferramenta de análise da possibilidade de cooperação entre os agentes racionais egoístas, sem que fosse necessária a intervenção de uma autoridade exterior que impusesse um acordo entre as partes. Jogado em um só movimento, não haveria como os participantes colaborarem entre si, caso não tivessem tido a chance de combinarem uma conduta prévia - a mítica honra entre ladrões, por exemplo. Para que isso acontecesse, teria de haver várias rodadas de conversação anteriores à fase de ação - conforme o modelo de longas conversas baratas, de Aumann e Hart (2). Fato que alteraria muito a modelagem do dilema, tranformando-o em um jogo falado, onde a comunicação exerce uma função crucial (3).

Em sua formulação original, jogado apenas de uma vez, esse tipo esse tipo de serve como exemplo contrafactual à hipótese de Adam Smith (1723-1790) de que uma "mão invisível" conduziria a distribuição equilibrada dos bens necessários à vida, entre ricos e pobres (4). Seres egoístas e racionais agiriam como os fazendeiros imaginados por Hume e não colaborariam uns com os outros (5). Por outro lado, experimentos iniciais com o Dilema dos Prisioneiros Iterado mostraram que a cooperação poderia surgir entre os participantes, ao longo de vários movimentos repetidos.

Evolução da Teoria da Cooperação

Em 1984, Robert Axelrod apresentou, no livro The Evolution of Cooperation, uma descrição da maneira pela qual o Dilema dos Prisioneiros Iterado, repetido por várias rodadas, pode privilegiar a escolha da cooperação, mesmo em seres irracionais tão simples como bactérias e, aparentemente, sem nenhum aparato linguístico. O projeto começou tentanto responder a questão sobre quando as pessoas cooperam ou são egoístas umas com as outras nas interações entre elas. O Dilema dos Prisioneiros parecia então ser um modelo que representava adequadamente tal interação. Para explorar em detalhes o comportamento estratégico que poderia ser adotado aí, teóricos ou especialistas de cinco disciplinas afins - matemática, economia, ciência política, sociologia e psicologia - foram convidados a participar de um torneio de computador, programado para executar o Dilema dos Prisioneiros. Ao lado de uma regra randômica - que colabora ou deserta metade das vezes -, foram submetidas ao teste virtual 14 estratégias diferentes.

A estratégia vencedora foi TIT FOR TAT (OLHO POR OLHO, ou o literal ISTO POR AQUILO, também traduzida como PAGAR NA MESMA MOEDA), um comando simples que começava o jogo cooperando com o adversário e repetindo depois a mesma ação que o outro jogador tivesse feito no movimento anterior. Após o conhecimento desse resultado, Axelrod propôs um novo torneio ampliando a participação a todos os interessados, incluindo professores de biologia, física, ciência da computação e fanáticos por jogos eletrônicos. Especialistas de seis países participaram do segundo campeonato, apresentando 62 programas diferentes que disputavam com RANDÔMICA em cinco rodadas, cuja média de movimentos era de 151 lances, pois o jogo dessa vez não tinha um limite determinado para seu encerramento, que no máximo chegava a 308 movimentos. Mais uma vez, OLHO POR OLHO (OPO) venceu a competição.

O sucesso de OPO provocou o desdobramento da pesquisa para um cenário evolutivo, onde se procurou interpretar a execução das estratégias em contextos não cooperativos, com diversos tipos de rivais empregando suas respectivas linhas de ação, sendo que a melhor destas deveria ser resistente a invasões em seu território. Das estratégias apresentadas, OPO mostrou-se passível de ser adotada por aqueles minúsculos organismos por causa de sua simplicidade e clareza. Mostrou-se também vitoriosa na maioria das circunstâncias e no enfrentamento da maior parte de estratégias concorrentes, privilegiando a formação do equilíbrio de Nash (6).

Os motivos para a tendência cooperadora prevalecer num ambiente de pura competição, como é a natureza, devem-se a certas condições circunstanciais que contribuem para o êxito de OPO. A proximidade entre indivíduos, ainda que egoístas, e as interações repetidas permitem que a reciprocidade das ações surja num segundo momento, desde que os organismos sejam dotados com aparelhos capazes de fazerem a marcação, rotulagem, e o posterior reconhecimento desses rótulos. Assim, é possível discriminar no instante seguinte aqueles que antes cooperaram ou não. A reunião de indivíduos em grupos de cooperadores/retaliadores proporciona a formação de uma vizinhança resistente a invasões de oportunistas/exploradores. Fenômeno tão próximo de cada um que mal é percebido: o sistema imunológico composto por células que rotulam, identificam e atacam os vírus e bactérias que a todo momento invadem os corpos dos seres vivos (7). OPO evita conflitos desnecessários, enquanto todos agem de modo recíproco, respondendo de imediato às deserções não motivadas, mas logo esquecendo as provocações passadas após o retorno à cooperação. A transparência das intenções e, por conseguinte, a facilidade de identificação do padrão de conduta dos agentes estimulam o cumprimento dos “compromissos” assumidos, assim, tacitamente, através de um consenso implícito (8).

A facilidade do reconhecimento e a simplicidade de execução de estratégias recíprocas, com característica de gentileza (nice), retaliação, clemência (forgiving) e clareza, fazem de comportamentos como os prescritos pela estratégia OPO uma linha de ação robusta, estável e viável em circunstâncias onde a comunicação atua na sua forma mais rudimentar, na transferência de informações mínimas (bytes). Basta apenas que os agentes sejam capazes de reconhecer em contatos repetitivos as ações amigáveis ou não e responder adequadamente cooperando ou desertando daqueles que no passado imediato foram rotulados como cooperadores ou desertores. A consolidação desse comportamento com o tempo acaba por gerar um processo de “aprendizagem” que nos seres irracionais se dá com o sucesso evolutivo da proliferação em gerações futuras dos genes “retaliadores”, aqueles que “sabem” aplicar OPO e, por conta disso, sobreviveram em maior número de indivíduos.

Importante notar que os arranjos dos torneios originais que propiciaram a vitória de OPO permitiam somente lances em que cooperar (C) e desertar (D) eram escolhidas em estratégias puras, deterministas, isto é, sem variação da probabilidade que promovesse estratégias mistas. Axelrod delineou os confrontos deixando de lado a ocorrência de erros ou ruídos na escolha entre C e D. Supôs também que era indiferente as rodadas serem executadas de maneira simultânea ou alternada. De todo modo, a comunicação anterior aos lances estava vedada, sendo cada movimento realizado silenciosamente. Os jogadores tomavam conhecimento das escolhas de seus oponentes imediatamente após elas terem sido feitas.

A Teoria da Cooperação proposta por Axelrod baseou-se, então, na investigação de como indivíduos que visam satisfazem seus próprios interesses podem cooperar entre si, sem ajuda de uma autoridade central que os forçassem a isto (9). A tradição moderna tem no contrato social sua resposta ao modo como a cooperação poderia emergir. No entanto, o contratualismo precisa que haja um terceiro elemento entre as partes ao qual se possa recorrer, a fim de que os acordos sejam mantidos por todos envolvidos. Porém, há circunstâncias onde, apesar de não existir uma entidade que possa mediar e resolver as divergências, a cooperação deve surgir sob pena de todos terem de arcar com os prejuízos de uma competição generalizada.

Assim, o comércio internacional tem de solucionar seus problemas segurança, tarifas e pirataria com o emprego de estratégias adequadas que não exijam o apoio de elementos externos às relações entre as partes concernidas. Em meio a um poder político autônomo, como o parlamento em sociedades democráticas, o conflito de interesses deve ser resolvido pelos membros de cada setor sem a interferência de um outro poder constituído - executivo ou judiciário, por exemplo. Nesses e em outros casos, é necessário que os agentes cooperem sob pena de obterem os piores resultados possíveis.

Dessa forma, o Dilema dos Prisioneiros veio a calhar como modelo de jogo que representava a situação em que o uso de estratégias dominantes pelas partes, ao satisfazerem seus próprios interesses, resultassem em um ganho baixo a todos jogadores. Ademais, a estrutura do jogo não permitiria que nenhum mecanismo de ameaça ou promessa estivesse disponível. a informação imperfeita também impedia que um jogador soubesse o que o outro viesse a fazer na sua vez de jogar. Todos participantes seriam hábeis para realizarem suas estratégias e não haveria como alterar os valores obtidos com pagamentos laterais (propinas), mudando também a função de utilidade do outro.

Com a repetição da interação entre os agentes, foi possível notar os efeitos que a sombra do futuro pôde exercer sobre o comportamento dos mesmos. À medida que o jogo avança, a confiança entre as partes aumentava na mesma proporção em que a desconfiança, quando o final do jogo se aproximava. Tornar o final da partida indeterminado favoreceu a manutenção do comportamento cooperativo. Quanto maior fosse a distância a ser percorrida no futuro, tanto maior a dependência da escolha das estratégias, segundo a conduta adotada pelo outro. Uma estratégia de "retaliação permanente" - cooperar até que o outro deserte, então sempre desertando em seguida -, por exemplo, poderia ser facilmente explorada por alguém que conhecesse o prazo do término do jogo, sendo tentado a não cooperar nas últimas movimentações. Porém, esse estímulo não haveria se a data final fosse incerta e a expectativa de uma longa punição até o término da partida fosse grande.

Outro fator que preponderou na escolha do Dilema dos Prisioneiros como matriz básica da teoria da cooperação foi o fato de sua estrutura ser tão simples que, a rigor, não era essencial que os participantes fossem racionais ou tivessem consciência das escolhas que estavam fazendo. Nem sequer precisariam tentar maximizar suas recompensas, bastando apenas que fossem capazes de aplicar um padrão de comportamento, procedimentos, hábitos, instintos ou imitação como faz a maioria dos seres vivos. Nesse sentido, as ações implementadas podem ser executadas sem que o processo deliberativo seja compreendido pelo agente. Assim, no âmbito mais amplo, a teoria da cooperação poderia envolver pessoas, firmas, nações ou bactérias, em uma teoria geral dos jogos evolutivos, nos quais as estratégias vitoriosas são passadas às gerações futuras pelo sucesso de um programa genético, ou não, que determine as ações dos indivíduos (10).

Apoiada fortemente na reciprocidade, a teoria da cooperação de Axelrod chamou atenção para a importância do conceito de evolução na escolha de um equilíbrio dentre infinitas possibilidades existentes em jogos repetidos várias vezes. Aqueles aspectos cujos fatores ajudaram também a compreender melhor o papel da comunicação nesse processo evolutivo.

Notas
1. Veja NASAR, S. Uma Mente Brilhante, cap. 12, p. 149.
2. Veja AUMANN, R. J. & HART, S. "Long Cheap Talk".
3. Por essa razão, não procede a interpretação insinuada em WILSON, E.O. Consiliência, cap. 11, p. 242, onde se pressupõe que haja "honra entre bandidos".
4. Veja SMITH, A. Teoria dos Sentimentos Morais, IV part., cap. I, p. 226.
5. Veja HUME, D. A Treatise of Human Nature, liv. III, part. II, seç. V, pp.286 e ss.
6. Veja AXELROD, R. The Evolution of Cooperation, cap. 5, pp. 88-105.
7. Veja BANCHEREAU, J. “O Longo Braço do Sistema Imunológico”, p. 69.
8. Veja AXELROD, R. Op. cit., cap. 1, pp. 20-21.
9. Veja AXELROD, R. Idem, part. I, cap. 1, p. 6.
10. Veja AXELROD, R. ibidem, part. I, cap, 1, pp. 17 a 19.

« Antes: A Razão Comunicativa x Estratégica.

A seguir: Os torneios e a estratégia "TIT FOR TAT".»

Referências Bibliográficas

AUMANN, R. J. & HART, S. "Long Cheap Talk", in Econometrica, 2003, vol. 71, nº 6, 1619-1660. Disponível na Internet via http://www.ma.huji.ac.il/~hart/abs/long.html?. Arquivo consultado em janeiro de 2005.

AXELROD, R. The Evolution of Cooperation. - Nova York: Basic Books, 1984.

BANCHEREAU, J. “O Longo Braço do Sistema Imunológico”, in Scientific American Brasil, ano 1, n̊ 7, pp. 66-73, dezembro de 2002.

BINMORE, K. "Review: The complexity of cooperation", in Journal of Artificial Societies and Social Simulation. Disponível na Internet via http://jasss.soc.surrey.ac.uk/1/1/review1.html. Arquivo consultado em 2003.

HOBBES, Th. Leviatã; trad. João P. Monteiro e Mª B. M. da Silva. – São Paulo: Abril Cultural, 1983.

HUME, D. A Treatise of Human Nature. Versão eletrônica disponível na INTERNET via http://www.grupohume.hpg.ig.com.br/Grupo%20Hume.htm. Arquivo consultado em 2002.

NASAR, S. Uma Mente Brilhante; trad. Sérgio M. Rego. – Rio de Janeiro: Record, 2002.

SMITH, A. Teoria dos Sentimentos Morais; trad. Lya Luft. - São Paulo: Martins Fontes, 1999.