DISCURSUS
TEORIA DOS JOGOS E DA COOPERAÇÃO (MAY, E. 'Ben Franklin leva Xeque-Mate de Lady Howe', sec.XIX)
Evolução da Cooperação
Menu Geral
Curso
Serviço
Início
Serviço
Navegação
Script gratuito fornecido por JavaScript Kits

TEORIA DOS JOGOS E DA COOPERAÇÃO PARA FILÓSOFOS

SEÇÃO I

» 3ª Unidade: A Evolução da Cooperação

  • Os Torneios e a Estratégia TIT FOR TAT.
Por Antônio Rogério da Silva

O uso de computadores para realização de testes de simulação não era uma novidade nos anos 1980. Já na primeira edição de O Gene Egoísta (1976), Richard Dawkins informava que programas estavam sendo empregados "em todos os campos onde a previsão futura é necessária" (1). Assim, pesquisadores de áreas como economia, ecologia, sociologia, psicologia além dos estrategistas militares, estavam aplicando modelos simplificados de aspectos do mundo trabalhados por suas respectivas teorias. As simulações eletrônicas traziam a vantagem de reduzir o tempo necessário para observação dos efeitos de um ação, caso esta viesse a ser desempenhada no contexto real. Apesar de serem apenas aproximações do que poderia acontecer na realidade, as simulações funcionavam como substitutas eficientes à prática da tentativa e erro aleatória.

Nesse sentido, a inovação que Robert Axelrod trouxe com seus campeonatos de computadores foi a de, ao permitir a participação de especialistas de outras disciplinas, buscar entre os vários programas e estratégias submetidos aqueles que apresentassem as propriedades necessárias para uma linha de ação eficaz nos contextos virtuais e que possivelmente se aplicariam aos ambientes concretos da vida. Como toda simulação, os torneios de Axelrod procuraram delimitar o conjunto de elementos mais relevantes para elaboração, manipulação e previsão dos resultados admissíveis, diante das alternativas disponíveis. Axelrod, que é cientista político da Universidade de Michigan, evitou apontar, depois de terminados os certames, uma estratégia que fosse considerada a melhor em todas as circunstâncias imaginadas, enfatizando que a escolha depende em parte do que se espera que o outro fará em face da expectativa que este tem sobre o que o sujeito também fará (2). A situação típica de uma racionalidade estratégica que obriga cada agente a considerar as intenções de todos envolvidos, reciprocamente.

O Dilema do Prisioneiro Iterado (DPI) foi o modelo escolhido por apresentar a possibilidade de desenvolvimento de uma rica faixa de de estratégias que poderiam ser interpretadas como sendo correspondentes a vários contextos do mundo da vida, montadas sobre o pano de fundo de jogos de soma variante, quando os interesses dos agentes envolvidos em parte coincidem, em parte entram em conflito. Além de levar em conta as reações esperadas dos outros, o sucesso de cada uma dependeria da capacidade de se ter em "mente" o histórico das relações passadas e seu posterior desdobramento.

(...) Em um torneio de computador, cada entrada descreve um programa que incorpora uma regra para selecionar a escolha cooperativa ou não cooperativa em cada movimento. O programa dispõe para isto do histórico do jogo, e pode usar essa história para deliberar.(...) (AXELROD, R. The Evolution of Cooperation, part. II, cap. 2, p. 30).

Pontuação das Estratégias Puras
Figura 1
Jogador 2 Modelo Padrâo do DPI
Cooperar
(C)
Desertar
(D)

Tentação (T) = 5

Recompensa (R) = 3

Punição (P) = 1

Simplório (S) = 0

Jogador 1 Cooperar
(C)
R, R S, T
Desertar
(D)
T, S P, P
CONDIÇÕES:
  1. T > R > P > S;
  2. R > ½(T + S).

O modelo padrão do Dilema dos Prisioneiros segue a matriz da figura 1, na qual são distribuídos os pontos para Tentação (T) de Desertar (D) sozinho, a Recompensa (R) pela Cooperação (C) mútua, a Punição (P) por ninguém cooperar e a posição de Simplório (S de Sucker), que se deixa explorar pelo outro. Tais pagamentos devem ser obtidos sob duas condições. A primeira determina que a tentação seja superior à recompensa, está à punição e por último o ganho do simplório (T > R > P > S). Em segundo lugar, a recompensa deve ser maior ou igual à média entre a tentação e simplório (R > (T + S)/2). Sendo assim, Axelrod propôs a matriz da figura 2 como base de pontuação. Com cinco pontos para o jogador que deserta, enquanto o outro cooperador não ganha nada. Três pontos foram para cooperação mútua e um ponto para a deserção mútua.

Figura 2 Estratégias
Coluna
para direita
 
Cooperar Desertar  
para baixoLinha
Cooperar 3, 3 0, 5 c para baixo
Desertar l 5, 0 l 1, 1 c
Dilema dos Prisioneiros para direita  

Ao lado da estratégia RANDÔMICA - cooperar e desertar com probabilidade igual -, 14 outros programas foram inscritos no primeiro turno do campeonato por especialistas de cinco disciplinas: psicologia, economia, ciência política, matemática e sociologia. Nessa primeira fase, o torneio foi disputado em 200 movimentos até o final. De modo que, aqueles que sempre cooperassem entre si, ganhavam a soma de 600 pontos cada um de um placar máximo de 1000 pontos, o que ocorreria se alguém conseguisse explorar um cooperador do início ao fim da partida sem sofrer retaliação. Todas entradas interagiam entre si - duas a duas -, com os programas sendo escritos em formato e linguagem comuns a todos.

Nem a complexidade ou simplicidade, nem o peso ou largura dos programas foram características significativas para determinar a vitória no primeiro concurso. A estratégia vencedora TIT FOR TAT (OLHO POR OLHO), apresentada pelo psicólogo canadense Anatol Rapoport, mereceu esse resultado devido às propriedades destacadas por Axelrod na análise feita de seu desempenho.

Olho por Olho

Para Axelrod, OLHO POR OLHO (doravante OPO) teria vencido a primeira fase do torneio por ter sido uma estratégia considerada gentil (nice) e clemente (forgiving) frente às outras. OPO sempre começava uma partida cooperando e, mesmo depois de retaliar uma deserção, retornava à cooperação esquecendo o desvio feito no passado pela outra parte - que recebera uma punição imediata. A estratégia OPO sempre coopera com o oponente até que este deixe de cooperar, imitando em seguida o comportamento deste. Com isso, essa estratégia evitaria o efeito de "eco", que pode ocorrer após a punição de uma deserção, caso ela gere uma longa cadeia de retaliação e contra-retaliação.

Axelrod sugeriu que, apesar da vitória de OPO, "seria fácil encontrar muitas regras que poderiam ter desempenhado substancialmente melhor do que OLHO POR OLHO no ambiente do torneio" (3). Ele mesmo sugeriu que três estratégias poderiam ter vencido a primeira disputa se tivessem sido inscritas. TIT FOR TWO TATS (UM OLHO POR DOIS OLHOS) poderia ter sido uma delas, pois é uma variante mais clemente do que OPO, pois só pune se não tiver havido cooperação nos dois movimentos anteriores. O provável sucesso de UM OLHO POR DOIS OLHOS (doravante OP2O) seria devido à importância do perdão, muitas vezes negligenciado pelos especialistas. LOOK AHEAD (OLHE ADIANTE) é uma estratégia elaborada com base em recursos de inteligência artificial, aplicada ao xadrez, que também poderia ter ganho o torneio se tivesse sido submetida. Por fim, uma versão otimista do programa apresentado pelo psicólogo estadunidense Leslie Downing seria aquela que obteria a maior média entre todas as quinze concorrentes.

A DOWNING REVISADA deveria começar avaliando os outros jogadores como responsáveis, ao invés de não cooperadores irresponsáveis, como fazia a DOWNING original. No primeiro torneio, OPO conseguiu a média de 504 pontos. Ao passo que, essas três últimas estratégias, deixadas de fora inicialmente, quando foram testadas no contexto do primeiro campeonato, obtiveram 520 pontos, OLHE ADIANTE; 532, OP2O; e 542, DOWNING REVISADA. Isso serviu para reforçar a idéia da inutilidade de encarar de modo estritamente competitivo o DPI e a vantagem de se mostrar clemente às deserções - além da hipótese de que não há uma estratégia vitoriosa em absoluto no contexto do Dilema dos Prisioneiros Iterado.

No intuito de pôr à prova mais uma vez as conclusões extraídas da primeira fase, um segundo turno de rodadas foi sugerido para um número maior de participantes, incluindo representantes de seis países - Canadá, Estados Unidos, Grã-Bretanha, Noruega, Nova Zelândia e Suíça - e de outras disciplinas ou atividades, como biólogos evolutivos, professores de informática e fãs de jogos eletrônicos. Dessa vez, no entanto, os efeitos do "lance final" foram amenizados com a determinação de uma taxa de variação que indicava a chance de terminar o jogo no próximo movimento, em 0.00346 por cento. Também foram admitidos programas nas linguagens FORTRAN E BASIC.

Das 63 propostas encaminhadas, novamente, OPO saiu-se vencedora, com 434.73 pontos na média, mesmo depois de um relatório ter sido divulgado com a análise da disputa anterior. Outras duas propriedades mostraram-se decisivas para explicar a robustez dessa estratégia: sua clareza e capacidade retaliadora.

(...) Uma regra pode ser chamada retaliadora se deserta imediatamente após uma deserção "imotivada" do outro. Exatamente o que significa "imotivada" não é determinado precisamente. O ponto, contudo, é que ao menos uma estratégia é incitada a uma resposta imediata por um desafio do outro jogador. (...) (AXELROD, R. Op. cit., idem, p. 44).

A eficiência de uma estratégia gentil - que sempre começa cooperando - depende de seu poder de retaliação. A promissora OP2O, que venceria OPO no campeonato anterior, não obteve o sucesso esperado por ter se defrontado com estratégias como a TESTADORA, que eram capazes de explorar a sua demora em punir a outra estratégia que desertou ao menos uma vez nas duas rodadas prévias. O eminente biólogo evolutivo, o britânico John Maynard Smith (1920-2004), candidatou OP2O, mas só conseguiu o 24º lugar.

Por terem sido anunciadas as vantagens em ser gentil e clemente, como características decisivas do primeiro campeonato, a maioria dos novos concorrentes do segundo turno procurou atacar alguma vulnerabilidade presente nessas afirmações, apresentando programas que visavam derrubar tais hipóteses. OPO, entretanto, provou ser robusta a esses ataques e a sua imediata retaliação foi um ponto forte para sua manutenção na primeira posição. Sua robustez foi testada mais tarde até em variantes evolutivas do segundo campeonato, onde as estratégias bem sucedidas teriam maior número de descendentes nas gerações futuras. Comprovando os resultados obtidos em situações típicas estudadas antes por Dawkins, em O Gene Egoísta, por Maynard Smith, em "The Evolution of Behavior" (1978), e por Robert L. Trivers, em "The Evolution of Reciprocal Altruism" (1971).

A análise ecológica mostrou que ir bem com regras que não fazem boa pontuação com elas mesmas é eventualmente um processo de auto-destruição. Não ser gentil pode parecer promissor no início, mas ao longo do tempo, isto pode destruir muito o ambiente necessário para seu sucesso (AXELROD, R. Idem, ibidem, p. 52).

A vitória de OPO no cenário evolutivo serviu para provar não que esta fosse a melhor estratégia para todas situações, mas que sua persistência indicava ser a mais adequada para uma ampla variedade de ambientes. Por ser fácil de encontrar, de ser reconhecida e difícil de explorar, OPO destacou-se também por sua clareza.

(...) O sucesso da robustez de OLHO POR OLHO é uma combinação de ser gentil, retaliadora, clemente e clara. Sua gentileza previne de se meter em problemas desnecessários. Sua retaliação desencoraja o outro lado de persistir, sobretudo quando a deserção é tentada. Sua clemência ajuda a restaurar a cooperação mútua. E sua clareza a faz inteligível ao outro jogador, pela qual se deduz uma cooperação longa (AXELROD, R. ibidem, ibidem, p.54).

A estratégia OPO encontra uma correspondência no comportamento Rancoroso e Retaliador descritos por Dawkins, para o jogo Pombos e Falcões, em O Gene Egoísta, onde são colocados os exemplos tirados de uma simulação feita em computadores a partir das análises de Maynard Smith sobre as estratégias evolucionárias estáveis (EEE) (4). De tudo isso, vem a conclusão de que a reciprocidade é a base dos comportamentos aptos a gerarem a cooperação entre os seres vivos. Reciprocidade que está estampada na chamada Regra de Ouro - faça aos outros o que gostarias que fizessem a ti -, talvez seja a regra fundamental da ética que, no inventário registrado pelo filósofo australiano Peter Singer, está presente nas mais diversas culturas e nos momentos históricos mais distintos, desde o código de Hamurabi até as tentativas atuais de elaboração de uma Declaração Universal de Uma Ética Global.

(...) A Regra de Ouro está presente, com distintas formulações, numa ampla variedade de culturas e de ensinamentos religiosos, abrangendo, numa ordem mais ou menos cronológica, os de Zoroastro, Confúcio, Mahavita, do Buda, do épico hindu Mahabharata, do Levítico, de Hillel, de Jesus, de Maomé, e de Kant, entre outros. Fez-se na última década a tentativa de elaborar a "Declaração de uma Ética Global", uma declaração de princípios universalmente aceitos em todas as culturas. (...) Uma delas, esboçada pelo teólogo Hans Küng e aprovada no Segundo Parlamento Mundial de Religiões, começa com a exigência fundamental de que "todo ser humano tem de ser tratado humanamente". Ao tornar mais precisa a exigência, essa versão se refere à Regra de Ouro como a norma irrevogável e incondicional para todas as áreas da vida. (...) (SINGER, P. Um Só Mundo, cap. 4, p. 183).

A divulgação das idéias contidas no livro de Axelrod aumentou o interesse pelo DPI. Por conta disso, muitas observações foram feitas sobre o modo como os torneios foram preparados e a pretensão de validade das características as quais se atribuíram o sucesso de OPO. Ao longo de duas décadas, diversos artigos foram escritos sobre o assunto, abordando os fatores como alternância dos movimentos, a oferta de garantias, a interação entre redes sociais, a troca de informação, em função do reforço da reputação, a aprendizagem do comportamento, o papel da inveja, da confusão e a possibilidade de se abandonar o jogo.

Em resposta a tantas observações, vários outros artigos foram lançados por Axelrod, só ou em parceria com outros autores, defendendo a possibilidade de se cubrir a maior parte das variações do modelo de DPI, com a formulação de uma família de estratégias derivadas de OPO. Essa nova família de estratégias poderia então atender os desafios de um repertório mais abrangente de relações. Não obstante, a teoria da cooperação desenvolvida por Axelrod trouxe uma nova compreensão sobre o comportamento recíproco entre os seres vivos que precisava ser elaborada de uma forma mais plausível, frente aos paradoxos de uma concepção egoísta de indivíduos preocupados com sua sobrevivência e reprodução.

Em 2004, foi realizada uma competição comemorativa do 20º aniversário do primeiro torneio de 1984, com 223 entradas jogadas cada uma contra todos os outros jogadores. A estratégia vencedora foi um dos 60 programas inscritos pela equipe da Universidade de Southampton, da Inglaterra. A variação campeã foi desenhada para executar uma série de cinco de dez movimentos, através dos quais reconhecia cada uma de suas variantes. Quando dois jogadores SOUTHAMPTON se encontravam, assumiam imediatamente os papéis de "senhor e escravo" - um poderia sacrificar-se para que o outro vencesse várias vezes. Caso reconhecesse uma estratégia rival, SOUTHAMPTON desertava imediatamente. Destarte, o trabalho de equipe permitiu a essa estratégia tomar os três primeiros lugares, enquanto alguns dos que se sacrificaram ocuparam as últimas posições na tabela.

O responsável pela edição comemorativa do DPI, Graham Kendall, da Escola de Ciência da Computação e Informática da Universidade de Nottingham, notou que uma estratégia com múltiplos jogadores, como SOUTHAMPTON, talvez tivesse dificuldades para vencer OPO isoladamente, no contexto do campeonato original, onde era impossível prever o conluio entre as entradas. Em declaração ao noticiário da Wired News, na Internet, Kendall disse que a importância dessa estratégia foi "testar algumas idéias que tínhamos sobre equipes de trabalho em sistemas de agentes em geral, e sua percepção do trabalho conjunto em uma equipe, como problema fundamental. O que foi interessante ver foi quantos colaboradores você precisa contar em uma população. (...) Vencemos com cerca de 20" (5).

Notas
1. DAWKINS, R. O Gene Egoísta, cap. 4, p.84.
2. Veja AXELROD, R. The Evolution of Cooperation, part. II, cap. 2, p. 27.
3. AXELROD, R. Op. cit., idem, p. 38.
4. Veja DAWKINS, R. Op. cit., cap. 5, pp 99 e ss, e cap. 10, pp. 206-208.
5. KENDALL, Gr. apud GROSSMAN, W.M. "New Tack Wins Prisoner's Dilemma", 13 outubro de 2004.

« Antes: Axelrod e seu livro: biologia e a Teoria da Cooperação
A seguir: Problemas com o modelo padrão
Referências Bibliográficas

AXELROD, R. The Evolution of Cooperation. - Nova York: Basic Books, 1984.

__________. "On Six Advances in Cooperation Theory". Analyse & Kritik, pp. 1-39, janeiro de 2000. Disponível na Internet via http://www-personal.umich.edu/~axe/research/SixAdvances.pdf

BINMORE, K. "Review: The complexity of cooperation", in Journal of Artificial Societies and Social Simulation. Disponível na Internet via http://jasss.soc.surrey.ac.uk/1/1/review1.html. Arquivo consultado em 2003.

DAWKINS, R. O Gene Egoísta; trad. Geraldo H. M. Florsheim. - Belo Horizonte: Itatiaia, 1979.

GROSSMAN, W. M. "New Tack Wins Prisoner's Dilemma", 13 outubro de 2004. Disponível na Internet via http://www.wired.com/news/culture/0,1284,65317,00.html.

HOBBES, Th. Leviatã; trad. João P. Monteiro e Mª B. M. da Silva. – São Paulo: Abril Cultural, 1983.

SINGER, P. Um Só Mundo; trad. Adail U. Sobral. - São Paulo: Martins Fontes, 2004.