DISCURSUS
TEORIA DOS JOGOS E DA COOPERAÇÃO (MAY, E. 'Ben Franklin leva Xeque-Mate de Lady Howe', sec.XIX)
Evolução da Cooperação
Menu Geral
Curso
Serviço
Início
Serviço
Navegação
Script gratuito fornecido por JavaScript Kits

TEORIA DOS JOGOS E DA COOPERAÇÃO PARA FILÓSOFOS

SEÇÃO I

» 3ª Unidade: A Evolução da Cooperação

  • Estratégias Vitoriosas nas Variantes do Modelo Padrão.
Por Antônio Rogério da Silva

Depois que Axelrod popularizou a simulação em computadores como método de avaliação privilegiado das condições em que estratégias cooperadoras poderiam ser bem sucedidas, uma série de variações dos parâmetros dos campeonatos originais foi testada, com o intuito de examinar a validade de suas hipóteses iniciais. Para cada novo modelo, apareceram novas estratégias vitoriosas que se mostravam robustas a invasões, enquanto corrigiam algumas vulnerabilidades percebidas nas versões anteriores. Pequenas mudanças na constituição primária do Dilema dos Prisioneiros Iterado poderiam favorecer linhas de ação que de outra forma não poderiam subsistir plenamente.

Uma competição evolutiva do Dilema dos Prisioneiros, em que as partes apenas podem ou cooperar ou desertar entre si, isto é reagem apenas de uma maneira determinada, sem ponderar os lances com uma taxa de probabilidade definida, mas respeitando apenas esses dois estágios de escolha, permitiu que algoritmos batizados de GRIM TRIGGER (RETALIADOR PERMANENTE) dominassem a maioria da população remanescente, no final de um jogo evolutivo. Entre 26 participantes que concorreram nestas condições, 67% da população passou a ser composta por RETALIADORES PERMANENTES (doravante, RP), ressalvado o cenário em que haveria a possibilidade de mutação entre as sucessivas gerações. Quando esta mutação atingia 1%, a vantagem de RP caia para faixa dos 50% (1).

A estratégia RP é inclemente. Jamais coopera depois do outro jogador ter desertado primeiro no movimento anterior. Também é RP extremamente sensível ao erro. Qualquer deserção equivocada pode levar a uma punição máxima por parte do retaliador. Sem embargo, nos torneios de Axelrod, onde não havia possibilidade de erro no desempenho dos algoritmos, RP obteve a sétima colocação entre as 14 que participaram da primeira fase e a 52ª posição entre as 63 concorrentes do segundo turno. Como o próprio Axelrod destacou, das 39 estratégias gentis - aquelas que começam cooperando - do segundo campeonato, RP ficou com o pior lugar entre elas. Para que RP obtenha êxito em um contexto verossímel, faz-se necessário que seu agente seja capaz de comunicar corretamente a ameaça de uma severa retaliação, caso venha ser explorado por um desertor desavisado. Só assim um RP passa a ser um incentivo máximo para manutenção da cooperação. Contudo, qualquer desatenção pode ser a gota d'água.

Apesar das dificuldades de se manter a cooperação com RPs, sua resistência em um ambiente evolutivo explica-se pela eficiência de cumprir suas ameaças ou promessas de lealdade. Um comportamento que transparece entre aqueles que se empenham passionalmente pela palavra empenhada. Punições severas surgem como preço de se tornarem verazes os compromissos assumidos. Nos seres vivos, emoções fortes, como a cólera, a ira ou fúria, emergem como modo de pela intimidação ser levado a sério. Quanto mais incontrolável e intolerante a erros, maiores as chances de serem críveis suas ameaças (2).

Figura 1: Corujão, borboleta do sudeste do BrasilNa ação política, isso explica, mas não justifica atos extremados de terrotistas suicidas. Na natureza, espécies RP abrem espaço para a sobrevivência de organismos que se aproveitam da "fama de mau" daqueles de quem mimetizam a aparência agressiva ou os seus padrões de cores. Desta artimanha são exemplos espécies como a cobra-coral-falsa (Lampropeltis doliata), nativa do sudeste estadunidense, que usufrui da proteção extra por reproduzir as mesmas formas da verdadeira cobra coral (Micrurus nigrocinctus), que é uma espécie venenosa distinta, e a borboleta Caligo beltrao (popular "corujão"), encontrada no sudeste brasileiro, cujo macho ostenta os olhos de uma sisuda coruja nas suas asas posteriores, afastando os predadores distraídos (figura 1).

Fatores Psicológicos

Outro algoritmo a revelar aspectos psicológicos importantes adquiridos na evolução da cooperação foi vencedor de um campeonato alternativo realizado pelos biólogos matemáticos Martin A. Nowak e Karl Sigmund, na época em que o primeiro ainda estava na Universidade Oxford e o segundo na Universidade de Viena, em 1993. Na variante simultânea do DPI sujeita a erro, que eles montaram, a estratégia chamada WIN-STAY, LOSE SHIFT (EM TIME QUE ESTÁ GANHAMDO NÃO SE MEXE) foi a vencedora. Historicamente, essa estratégia havia sido sugerida pela primeira vez por Anatol Rapoport e Albert M. Chammah no texto intitulado Prisoner's Dilemma, de 1965, com o estranho nome de SIMPLETON (TOLO). Mais tarde (1990) esse mesmo programa foi descrito por Jeffrey S. Banks e Rangarajan K. Sundaram como TAT-FOR-TIT (AQUILO POR ISTO, uma inversão de TIT-FOR-TAT), designação preferida por Binmore, devido ao comportamento semelhante ao de OPO na sua atuação original, mas que o inverte após uma deserção (3).

Além desses nomes, a linha de ação, que mantém o mesmo estado quando está ganhando e muda quando perde, foi também denominada PAVLOV. Um agente pavloviano permanece no seu movimento inicial se seu pagamento corresponder aos valores da tentação (T) ou da recompensa (R), trocando de opção toda vez que receba apenas a punição (P) ou ganho simplório (S). Para os matemáticos David P. Kraines e Vivian Y. Kraines, que renomearam a antiga SIMPLETON como uma homenagem ao histórico fisiologista russo Ivan Petrovich Pavlov (1849-1936), esse tipo de comportamento pode ser atribuído ao mesmo dos peixes-espinhos (Gasterosteus acaleatus), na natureza, quando estes inspecionam um território em busca de um predador (4). Em um DPI simultâneo com erro, pode ocorrer a algumas estratégias o efeito de "eco", como a OPO, caso depois de uma primeira deserção equivocada, o segundo jogador passe a retaliar e após retornar à cooperação, em respostas defasadas aos comandos do outro. Pode acontecer ainda uma sequência de mútua deserção e, em seguida a um novo equívoco, ser refeito a repetição do "eco" com a fase invertida, que só depois de um outro movimento errado poderá reinstalar a cooperação (figura 2).

Figura 2 - Jogo Simultâneo com Ruído (erro)
OPO 1 C C d C D C ... D d D D ... D c D C ... D C C C
OPO 2 C C C D C D ... C D D D ... D D C D ... C c C C
d = deserção equivocada c = cooperação equivocada

Ao invés de persistirem em uma sucessão de diversos erros para estabelecer a cooperação, dois jogadores "pavlovianos" poderiam recuperá-la rapidamente sem maiores dificuldades, graças à capacidade desse programa superar possíveis enganos nas tomadas de decisão. Essa habilidade de recuperar o estágio inicial da interação em poucos movimentos demonstrou que PAVLOV era mais robusta em ambientes ruidosos do que OPO (figura 3).

Figura 3 - Jogo Simultâneo com Ruído (erro)
PAVLOV 1 C C C C D C C C ...
PAVLOV 2 C C C d D C C C ...
d = deserção equivocada

Depois de saber desses resultados, Axelrod resolveu refazer a disputa de seu segundo torneio. Dessa vez, com a possibilidade de 1% de uma decisão ter sido tomada equivocadamente. A RP é absolutamente desastrosa nesse tipo de ambiente. Todavia, a variante generosa de OPO (GOPO) poderia sair-se melhor do que qualquer uma das 63 instruções submetidas no segundo campeonato. GOPO seria uma versão de OLHO POR OLHO que cooperaria 10% das vezes em que deveria agir desertando em função da atitude não cooperativa da outra parte. "Isso previne que um simples erro ecoe indefinidamente", afirmou Axelrod, ao lado do chinês Jianzhong Wu (5).

De fato, na variação alternada do DPI, realizada por Nowak e Sigmund, GOPO conseguiu regenerar a cooperação, a longo prazo, de uma forma mais eficaz do que PAVLOV, nas mesmas condições. Uma das conclusões que foram tiradas dessa experiência foi que, por observar apenas os resultados obtidos, PAVLOV estaria mais apta a reagir em circunstâncias onde não fosse necessária a percepção precisa do jogo feita pelo adversário, que ignoraria suas intenções. Ao passo que, estratégias miméticas da família OPO conseguem se defender da exploração de quem nunca coopera, enquanto PAVLOV ficaria alternando suas ações entre P e S. Prestar atenção no que o outro faz é a chance de atingir a melhor solução estratégica no cenário ruidoso de troca de papéis entre os jogadores. Nesse sentido, enquanto OPO fora a estratégia mais eficaz para emergência da cooperação, uma vez estabelecida as condições para manutenção desta através da seleção natural, a vertente GOPO seria a mais realista e robusta a invasões de mutantes ou ações equivocadas (6).

Junto à estratégia generosa de OPO, uma linha de ação chamada CONTRITO OLHO POR OLHO (COPO) pode ser considerada bem sucedida em ambiente ruidosos. COPO atua semelhante a OPO, mas procura evitar responder uma deserção da outra parte, depois que o próprio jogador ter desertado equivocadamente na rodada anterior. Procedendo assim, do mesmo modo que GOPO é tolerante com os erros cometidos pelos adversários, COPO mostra arrependimento pelos próprios enganos. Deste modo, rapidamente as estratégias variantes podem restabelecer a cooperação depois de lances confusos de ambas as partes. COPO começa sempre cooperando e mantém-se satisfeito com a cooperação até que haja uma deserção. Se esta foi provocada pela outra parte, passa a retaliar até que o retorno à cooperação o deixe novamente satisfeito. Porém, quando a deserção foi praticada pelo próprio jogador, acontece o arrependimento que admite uma retaliação adversária, que o obriga a cooperar em seguida.

Enquanto GOPO produz um comportamento cooperativo satisfatório quando a taxa de ruído vai até 1%, COPO consegue maior eficiência em níveis maiores do que este. Na versão ecológica da segunda fase do torneio de Axelrod com ruído, COPO atingiu a liderança entre as seis melhores estratégias daquele campeonato, após 2000 gerações. Contudo, em determinados confrontos, como os contra OPO original, essa estratégia é vulnerável ao efeito de eco, quando aquela deserta por acidente. De acordo com Axelrod, apenas um novo engano poderia reparar a cooperação inicial. Tal ocorre porque COPO é eficaz na reparação de seus próprios erros, mas não os do oponente, pois neste caso continua reagindo da mesma forma que OPO contra a exploração do adversário. COPO só é eficiente contra algoritmos que estão adaptados à situação de ruído (7).

A reação de quem aplica COPO é identificada com a de quem opera a linha de ação do INVEJOSO MODERADO (IM), quando este ganha uma vantagem indevida. Na ausência de ruído, IM joga como se fosse OPO. Do contrário, não aceita que o outro jogador deserte mais do que ele mesmo. Destarte, um jogador invejoso que fosse capaz de se arrepender de ter ganhos excessivos poderia evitar a exploração de desertores, ao mesmo tempo em que se mostra aberto a cooperação, depois de uma punição motivada.

À medida que o refinamento da descrição do Dilema dos Prisioneiros repetido foi se aproximando de um modelo mais realista da interação humana, novas competições foram sendo promovidas, a fim de reproduzir as condições em que a cooperação pode surgir em um ambiente típico da seleção natural darwiniana. David e Vivian Kraines, em "Protocols for Cooperation" (2001), elaboraram uma disputa em torno de um Dilema dos Prisioneiros Alternado, ou sequencial, onde uma nova estratégia chamada TOUGH LOVE (AMOR BRUTO) manteve a cooperação estável ao punir o mau comportamento e esquecer rapidamente a reincidência.

No cenário evolutivo, no qual os agentes eram capazes de recordar os quatro resultados anteriores, as características tolerantes de AMOR BRUTO (doravante, AB) foram cruciais para gerarem cooperação mútua com uma sequência de movimentos trocados aleatoriamente. Nesse contexto, a cooperação não surge do altruísmo, mas da habilidade de lembrança dos resultados de alguns encontros passados. Assim, muitos grupos ABs podem ser formados, ficando sua sustentação garantida pela distinção clara de certos protocolos e regras "culturais". Ou seja, membros de um grupo, que tenham seus próprios hábitos e procedimentos, seriam bem sucedidos se permanecessem no seio deste, ao invés de visitar outras associações. Kraines & Kraines concluem que essa "diferença cultural entre clãs é estável evolutivamente com respeito a outros clãs" (8). Quer dizer, saber distinguir adequadamente aqueles que fazem parte de seu grupo é uma condição prioritária para manter a estabilidade de uma estratégia frente à concorrente.

A estratégia memoriosa de um Dilema dos Prisioneiros Alternado, AB, atua como um cooperador recíproco que pune deserções imotivadas; contritamente cooperando depois de ter sido punido por uma deserção que tenha cometido; e tolerando um oponente arrependido. Depois de uma deserção acidental, AB coopera sem problemas com o adversário. Comportando-se dessa maneira, AB evita os círculos viciosos de deserção com seus pares, não explora agentes altruístas (SEMPRE C), retorna rapidamente a uma cooperação com os outros após uma série de erros confusos, sendo um parâmetro apropriado para uma estratégia evolucionária estável (EEE), com uma trajetória com pequenas mudanças aleatórias no nível de ruído, estágios, quantidade inicial de agentes e ganhos esperados variáveis (9).

Não obstante, quando a memória dos participantes desse tipo de torneio seletivo chegava a quatro decisões atrás, foi detectado que apenas 44% dos agentes envolvidos se tornaram cooperadores.

A maioria da população nunca se envolve com cooperação mútua nesse modelo. Ao invés disso ser uma falha do modelo, pode ser um reflexo acurado da evolução no mundo real. Em poucas espécies, indivíduos ordinariamente cooperam com outros, exceto pelos relativamente próximos. As espécies que desenvolvem cooperação recíproca tendem a ser as mais inteligentes (grande memória), mas mesmo entre espécies altamente inteligentes, comportamento cooperativo não é, em geral, resultado evolucionário. Embora padrões de comportamento cooperativos sejam geralmente mantidos entre leões, não há entre tigres. Ao invés de batalhas tipo perda-perda, muitas espécies que tomaram a trajetória evolucionária até SEMPRE D também aprenderam a evitar interações (...) com outras espécies. Tigres tendem à vida solitária e evitar um longo número de pagamentos perda-perda (KRAINES, D.& KRAINES, V. Protocols for Cooperation, § 18, p. 28).

Nas sociedades humanas, os confrontos eventuais têm sido superados por uma série de normas e rituais que visam reestabelecer a harmonia na sociedade, depois que algum ato veio a prejudicar a cooperação. Tais aspectos do comportamento social parecem corroborar a afirmação de que instituições surgiram ao longo de todo um aprendizado obtido não apenas no processo seletivo natural, nos moldes darwinianos, mas da diferenciação cultural que emerge nos grupos de estratégias que não se esquece facilmente do passado, em um modelo de Dilema dos Prisioneiros Alternados.

Por razões genéticas e culturais, sentimos prazer depois de fazer uma boa ação. Também ressentimos de quem tira vantagem de nossa boa vontade e retaliamos ou mantemos um sistema judicial para retaliar por nós. Ao passo que tendemos a esquecer aqueles que se desculpam e se arrependem. A emoção da culpa nos detém de explorar e logo retornamos a cooperar. Esses sentimentos correspondem aos que poderiam dirigir um agente AMOR BRUTO. Nossas respostas emocionais podem bem estar envolvidas em parte por obter interações típicas de um Dilema dos Prisioneiros (KRAINES, D.& KRAINES, V. Op. cit., § 18, p. 29).

Notas
1. Veja SIEBRASSE, N. "Generalized Win-Stay, Lose-Shift is Robust in the Repeated Prisoner's Dilemma with Noise Played by Multi-State Automata", p. 11.
2. Veja PINKER, St. Como a Mente Funciona, cap. 6, pp. 428-438.
3. Veja BINMORE, K. "Review: The Complexity of Cooperation", p. 6.
4. Em 1987, Manfred Milinski associou o comportamento do peixe-espinho ao da estratégia OPO (veja MILINSKI, M. "Tit for Tat in Sticklebacks and the Evolution of Cooperation", entretanto, já admitia rever suas conclusões, em 1993, considerando PAVLOV a maneira mais apropriada de descrever suas reações diante de um possível rival (veja MILINSKI, M. "Cooperation Wins and Stays").
5. WU, J. & AXELROD, R. "How to Cope with Noise in the Iterated Prisoner's Dilemma", p.2.
6. Veja NOWAK, M. & SIGMUND, K. The Alternant Prisoner's Dilemma, § 7, p. 226.
7. Veja WU, J. & AXELROD, R. Op. cit. pp. 6 e 7.
8. KRAINES, D. & KRAINES, V. Protocols for Cooperation, § 1, p. 3.
9. KRAINES, D. & KRAINES, V. Op. cit., §§ 15 e 18, pp. 26 e 28-29.

« Antes: Problemas com o Modelo Padrão
A seguir: Ruído, Alternância e Evolução
Referências Bibliográficas

AXELROD, R. The Evolution of Cooperation. - Nova York: Basic Books, 1984.

__________. "On Six Advances in Cooperation Theory". Analyse & Kritik, pp. 1-39, janeiro de 2000. Disponível na Internet via http://www-personal.umich.edu/~axe/research/SixAdvances.pdf

BINMORE, K. "Review: The complexity of cooperation", in Journal of Artificial Societies and Social Simulation. Disponível na Internet via http://jasss.soc.surrey.ac.uk/1/1/review1.html. Arquivo consultado em 2003.

KRAINES, D.P. & KRAINES, V. Y. "Protocols for Cooperation". mar 2001. Disponível na Internet via http://www.math.duke.edu/~dkrain/ProtCoop.pdf

MILINSKI, M. "Tit for Tat in Sticklebacks and the Evolution of Cooperation", in Nature. 246:15-18, 1987.

________. "Cooperation Wins and Stays", in Nature, 364. 12-13, 1993.

NOWAK, M. A., MAY, R. & SIGMUND, K. "The Arithmetics of Mutual Help". Scientific American, pp. 76-81, junho de 1995.

NOWAK, M.A. & SIGMUND, K. "The Alternating Prisoner's Dilemma". Journal Theoretical Biology, n° 168, pp. 219-226, 1994.

OTERO, L. S. Borboletas. - Rio de Janeiro: FAE, 1986.

PINKER, St. Como a Mente Funciona; trad. Laura T. Motta. - São Paulo: Companhia da Letras, 1998.

SIEBRASSE, N. "Generalized Win-Stay, Lose-Shift is Robust in the Repeated Prisoner's Dilemma with Noise Played by Multistate Automata". - New Brunswick, jun 2000. (Texto de trabalho) Disponível na Internet via http://law.unb.ca/Siebrasse/Download/SiebrasseRPD.pdf.

WU, J. & AXELROD, R. "How to Cope with Noise in the Iterated Prisoner's Dilemma". Journal of Conflict Resolution, n° 39, pp. 183-189, março de 1995.