![]() ![]() ![]() |
TEORIA DOS JOGOS E DA COOPERAÇÃO PARA FILÓSOFOS | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
SEÇÃO II | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
O sucesso de TIT FOR TAT (OLHO POR OLHO, OPO) nos primeiros campeonatos virtuais de Dilema dos Prisioneiros Iterado (DPI) chamou atenção para essa estratégia simples, mas que tinha consequências surpreendentes aos que achavam difícil fazer emergir a cooperação a partir de seres egoístas. O espanto inicial e as críticas em torno da forma como aqueles torneios tinham sido montados levaram à preparação de novas simulações, a fim de testar pontos específicos de uma interação ou que estivessem mais próximos de uma concepção realista dos contextos nos quais as escolhas dos indivíduos ocorrem. Nesses vários experimentos, outras estratégias sobrepuseram-se à OPO original. Entretanto, os autores que defendiam a robustez deste algoritmo fizeram algumas modificações no intuito de adaptá-la às novas circunstâncias. Por conta disso, surgiu uma série de estratégias variantes da versão determinista de OPO que acabaram por formar uma grande família de estratégia. De acordo com a notação adotada nos novos torneios, as estratégias poderiam ser facilmente representadas em um conjunto que exprimisse a probabilidade de cooperar após os respectivos resultados - (C, C); (C, D); (D, C) e (D, D) -, isto é (R, S, T, P). Estratégias "puras", que variam suas chances de cooperar ou desertar, mas desertam ou cooperam com probabilidades fixas de 0 ou 1, são chamadas de deterministas porque não misturam suas opções e seguem rigidamente os comandos propostos pelo seu programa, sem qualquer margem de erro ou produção de acaso. A estratégia OPO pura, ou determinista, opera a regra (1, 0, 1, 0), iniciando sempre de forma gentil, cooperando (I = 1). Uma simples mudança na propriedade da gentileza (nice) de OPO, que a force começar o jogo desertando (I = 0), permitiu a criação da regra conhecida como SUSPICIOUS TIT FOR TAT (SUSPEITOSO OLHO POR OLHO, SOPO). No contexto de uma pequena população, composta por jogadores OPO gentil e suspeitoso, a estratégia OLHO POR DOIS OLHOS (OP2O) - que retalia após duas deserções seguidas - pode invadi-la por ser uma boa cooperadora de OPO e SOPO, enquanto esta última entra em retaliação permanente contra a primeira. Tal resultado mostra que a robustez de OPO, que se mostrou válida na versão ecológica tratada por Axelrod, não se reproduz adequadamente em qualquer conjunto de estratégia, sujeitando-se, eventualmente, ao aparecimento de mutantes ou invasores. Nenhuma estratégia determinista seria, portanto, evolutivamente estável (1). Efetivamente, os ambientes naturais, nos quais haja a presença de ruído e alternância das jogadas, para uma estratégia determinista como OPO sair-se bem, é preciso que seja feita uma mistura de suas decisões, gerando estratégias estocásticas cuja probabilidade de cooperar seja maior do que zero e menor do que um (0 < p < 1). As experiências feitas por Martin A. Nowak e Karl Sigmund, a partir de 1992, com estratégias estocásticas, em DPI infinito, permitiu que o lance inicial que determinava a gentileza da linha de ação fosse considerada irrelevante para o desenvolvimento do jogo, uma vez que a memória estava limitada à rodada anterior e os efeitos da largada eram esquecidos e diluídos ao longo da partida. Nessas circunstâncias, a GENEROSA OLHO POR OLHO tornou-se vitoriosa e estável - resistente à invasão e mutações. A versão estocástica de GOPO (1, 0, 1, 2/3) instrui aos jogadores cooperarem após uma punição 2/3 das vezes. Sua tolerância ou generosidade possibilitou a vitória em 39 das 40 simulações em que foi testada, dominando após 600 mil em 10 milhões de interações (2). A propriedade da clemência ou do esquecimento era maior em GOPO do que em OPO e isso foi um fator decisivo no desenlace de seu bom desempenho em jogos evolutivos. A rigor, a clemência mostrou ser mais necessária do que a gentileza. A atuação dessa estratégia alterou o comportamento de OPO em dois pontos chaves. Por um lado, permitiu a tolerância a erros de execução do comando ou de interpretação. Por outro lado, evitou o efeito de eco permanente pela defasagem da retaliação de enganos cometidos por estratégias semelhantes. A OPO determinista reage bem com estratégias diferentes da sua em contextos randômicos, mas cai em uma retaliação fratricida contra os erros de estratégias gêmeas, enquanto a generosidade de GOPO recompõe a cooperação em poucos movimentos após um lance equivocado da outra parte. Esse resultado não passou despercebido de Axelrod que, junto ao cientista político chinês Jianzhong Wu, destacou que a [g]enerosidade é efetiva ao deter a repetição contínua de um simples erro, se o erro foi cometido pelo próprio agente ou por outro jogador. O nível de generosidade determina quão rapidamente um erro pode ser corrigido e a cooperação restaurada. O problema é que a generosidade requer um balanço entre a rapidez na correção do erro e o risco de exploração (WU, J. & AXELROD, R. "How to Cope with Noise in the Iterad Prisoner's Dilemma", p. 6). Outra variante que permite cobrir os próprios erros do agente, chamada CONTRITE TIT FOR TAT (COPO), conseguiu obter bons resultados no cenário ecológico - sem o surgimento de mutações ou invasões - do segundo torneio de Axelrod, acrescentado de ruído. COPO evita retaliar a deserção do outro se esta deserção foi provocada pelo próprio jogador. COPO atua como um agente arrependido de ter ganho uma vantagem imerecida, mantendo a cooperação após uma justa retaliação por parte do outro. Junto a GOPO, COPO forma uma família de estratégias robustas, em torno de OPO, na maioria dos ambientes ruidosos (3). Generosidade e arrependimento são dois aspectos da condição de clemência que se amplicam respectivamente à relação externa com o outro e interna, consigo mesmo. A clemência (forgiving), que a primeira vista foi um dos fatores relevantes do sucesso de OPO nos torneios puros, foi também sistematicamente desafiada pelos especialistas que prepararam suas estratégias, dentro do espírito competitivo, para derrubar essa estratégia no segundo turno. Axelrod considerou esse equívoco capital para as intenções das outras regras em atingir os melhores resultados possíveis. Seus programadores esqueceram que ser razoavelmente tolerante ajuda a estabelecer a cooperação entre todos. Um incremento na tolerância de OPO, realizado por GOPO e COPO seria a razão para estratégias dessa família conseguirem resistir e prosperar em contextos nebulosos e incertos como aqueles nos quais erros e confusões podem acontecer. GOPO por si só chegou a constituir uma gama de estratégia com base em uma versão pura - (1, 0, 1, 1) - denominada FIRM BUT FAIR (FIRME MAS JUSTO, FMJ), também chamada família FAIR (JUSTO). Pagar na mesma moeda revelou ser uma linha de ação eficaz para enfrentar estratégias estranhas que não cooperem sistematicamente ou aquelas não gentis - que começam desertando. Mas mostrou falhas em reconhecer e tolerar enganos de seus próprios semelhantes. Tais falhas poderiam ser corrigidas antecipadamente, caso as informações sobre quais seriam os cooperadores entre os futuros jogadores que serão enfrentados estivessem disponíveis a tempo. Saber se um agente é um mesquinho desertor (SEMPRE D), antes da interação, ajudaria a reduzir os pagamentos feitos aos maus cooperadores, em geral. Uma variante intitulada OBSERVER TIT FOR TAT (OBSERVADOR OLHO POR OLHO, OOPO) agiria nos primeiros encontros com um parceiro gentil tal como OPO, porém, atacaria com uma ação não gentil - igual a SOPO -, desertando no primeiro lance, se o outro jogador fosse um desertor historicamente conhecido. Desse modo, OOPO seria eficaz para explicar a exigência por controles sociais com severas ameaças aos exploradores, a fim de reduzir a presença de de desertores em curto prazo. A longo prazo, a sombra do futuro e as retaliações decorrentes dos sucessivos encontros seriam suficientes para controlar as ações contra a cooperação (4). Outras Famílias Notáveis Além de OPO, outras famílias de estratégias puderam ser constituídas tendo como origem estratégias deterministas modificadas para o ambiente evolutivo com ruído. PAVLOV (1, 0, 0, 1) tornou-se a principal concorrente de OPO em jogos simultâneos ruidosos. Sob o parâmetro de Axelrod (R = 3; S = 0; T = 5; P = 1), a estratégia PAVLOV está sujeita à invasão de agentes mesquinhos, que sempre desertam. Em poucas rodadas, seu frágil método de retaliação permite sua exploração por SEMPRE D. Entretanto, no padrão de Nowak e Sigmund (R = 3; S = 0; T = 4; P = 1), PAVLOV determinista consegue obter bons resultados por ter a capacidade de reestabelecer a cooperação com rapidez (5). A diferença principal entre PAVLOV e OPO foi apontada por Nowak e Sigmund, em 1994. Enquanto a última procura imitar o comportamento dos seus oponentes, PAVLOV orienta suas ações apenas pelos resultados recebidos. Agindo assim, os pavlovianos conseguem ir bem entre si ao recuperarem rapidamente a cooperação, depois de uma deserção mútua equivocada. Os pavlovianos não precisam entender muito sobre como funciona a mente do outro ou afinal o que está em jogo no DPI, basta apenas mudar sua ação quando os ganhos não forem favoráveis. Ao lado da PAVLOV determinista, Axelrod testou, em uma retomada randômica de seu segundo torneio, uma versão generosa dessa estratégia (GPAVLOV), que coopera um décimo das vezes, depois da deserção do outro jogador. No ambiente ruidoso, enfrentendo outras 63 estratégias, Axelrod percebeu que as duas versões de PAVLOV não ascendiam das últimas posições. A PAVLOV original ficou em 55º lugar e GPAVLOV na 48º colocação. Na disputa ecológica - evolução sem mutação -, os pavlovianos foram levados à beira da extinção, sobrando apenas um milionésimo de seus praticantes, depois de cem gerações. Ademais, PAVLOV, que funciona bem em jogos simultâneos com ruído, torna-se instável em jogos alternados (6). Apesar desses resultados decepcionantes, PAVLOV reage bem contra estratégias específicas. Exceto pela primeira rodada, em um jogo alternado, PAVLOV resiste às tentativas grosseiras de exploração de uma versão invertida de OPO (ANTI-TIT FOR TAT, AOPO) - também conhecida como BULLY (FANFARRÃO), por David Kraines e Vivian Kraines (Figura 1).
FANFARRÃO, ou AOPO (0, 1, 0, 1), sabe explorar os cooperadores incondicionais (SEMPRE C), desertando contra a cooperação, mas se deixa explorar por SEMPRE D, pois, ao contrário de OPO, coopera sempre com desertores. Diferente de OPO, ao invés de imitar o comportamento adversário, AOPO procura fazer o oposto do que o outro faz. Melhores resultados são obtidos pelas variantes híbridas de PAVLOV que constituem uma combinação com OPO. Dessa forma, FIRME MAS JUSTO, patriarca da famíla JUSTO, alia a robustez de OPO com a facilidade de adaptação de PAVLOV. Uma versão estocástica de FMJ, variante de GOPO - chamada de TOUGH LOVE (AMOR BRUTO, AB), por Kraines e Kraines -, foi a vencedora de um Dilema dos Prisioneiros Alternado com memória (7). PAVLOV também ajuda a formar outra família quando se une ao RETALIADOR PERMANENTE (1, 0, 0, 0) - família GRIM - para estabelecer GRIM PAVLOV, um algoritmo que mantém a deserção, mesmo depois de ter punido a sua deserção acidental. Compõe ainda a família GRIM a versão suave do RETALIADOR PERMANENTE denominada GRIM BUT RELENTING (RETALIADOR DELICADO). Ao invés de promover a deserção perpétua depois de ser simplório, o RETALIADOR DELICADO refaz a cooperação depois de dois erros consecutivos. Dessa maneira, os retaliadores permanecem robustos à invasão dos desertores incondicionais (SEMPRE D), ao mesmo tempo em que reduzem os vícios de naturais enganos (8). A proliferação de tantas famílias de estratégias, a partir de pequenas unidades interativas, revela a gradativa emergência da complexidade em relações e nos comportamentos dos seres vivos, no lento processo de seleção natural. Regras simples como as propostas por tais algoritmos, construídos e apoiados nas reações possíveis ao Dilema dos Prisioneiros, pode estar na base da explicação das reações químicas das macromoléculas de ácido desoxirribonucléico (ADN), como sugeriram Nowak, Robert May e Sigmund (9). As simulações em computadores serviram para mostrar simplificadamente como um processo de cooperação como esse pode ter surgido e se sustentado por meio de organismos vivos. (...) Sofisticadas criaturas podem ser desenhadas para seguir estratégias que encorajam a cooperação por causa de repetidas interações entre indivíduos que podem reconhecer e relembrar uns aos outros. (...) No curso da evolução, parece ter havido ampla oportunidade para cooperação ter assistido a todos desde os humanos às moléculas. Nesse sentido, a cooperação poderia ser tão velha como a própria vida em si (NOWAK. M. A., MAY, R. M. & SIGMUND, K. "The Arithmethics of Mutual Help", p. 81.) As propriedades e condições que fazem a cooperação emergir entre os sistemas complexos serão discutidos, agora, no próximo ponto desse curso. Notas
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Referências Bibliográficas | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
AXELROD, R. The Evolution of Cooperation. - Nova York: Basic Books, 1984. __________. "On Six Advances in Cooperation Theory". Analyse & Kritik, pp. 1-39, janeiro de 2000. Disponível na Internet via http://www-personal.umich.edu/~axe/research/SixAdvances.pdf BREMBS, B. Chaos, Cheating and Cooperation, in Oikos, 76, pp. 14-24. - Copenhagen, 1996. Disponível na Internet via http://www.brembs.net/ipd/ipd.html. KRAINES, D.P. & KRAINES, V. Y. "Protocols for Cooperation". mar 2001. Disponível na Internet via http://www.math.duke.edu/~dkrain/ProtCoop.pdf NOWAK, M.A. & SIGMUND, K. "The Alternating Prisoner's Dilemma". Journal Theoretical Biology, n° 168, pp. 219-226, 1994. NOWAK, M. A., MAY, R. & SIGMUND, K. "The Arithmetics of Mutual Help". Scientific American, pp. 76-81, junho de 1995. WU, J. & AXELROD, R. "How to Cope with Noise in the Iterated Prisoner's Dilemma". Journal of Conflict Resolution, n° 39, pp. 183-189, março de 1995. |