![]() ![]() ![]() |
TEORIA DOS JOGOS E DA COOPERAÇÃO PARA FILÓSOFOS | |
SEÇÃO I | ||
Uma das dificuldades mais embaraçosas do Dilema dos Prisioneiros Iterado é destacada pelo chamado teorema popular (folk theorem). O teorema popular formaliza uma intuição partilhada pelo senso comum, entre os economistas, de que qualquer tipo de cooperação pode ser sustentada, em uma iteração, desde que haja a ameaça de punição aos transgressores. Tal punição seria mais eficiente na medida em que sua carga viesse se prolongar muito ao longo do tempo. O problema, então, surge da dificuldade em se saber qual dos múltiplos equilíbrios possíveis deve ser recomendado para uma situação específica, já que eles podem ser mantidos de muitas maneiras diferentes (1). Pontos de equilíbrios sempre são gerados quando os resultados conjuntos obtidos em superjogos superam os ganhos de um equilíbrio existente no jogo base que deu origem à iteração. Assim, no caso do Dilema dos Prisioneiros - modelo padrão -, qualquer ganho distribuído para ambos jogadores acima do valor da punição para deserção mútua (1,1), alcançados por uma repetição de fim indeterminado, podem estar em equilíbrio de Nash (2). Tantos equilíbrios disponíveis levam à questão sobre qual deles seria o melhor a ser adotado e como chegar a ele efetivamente. Por outro lado, o conhecimento do teorema popular muito antes das conclusões tiradas por Robert Axelrod, acerca da possibilidade da cooperação, já previa que estratégias como OLHO POR OLHO poderiam sustentar um ponto de equilíbrio ao final de várias repetições do Dilema dos Prisioneiros, bem como qualquer outra estratégia cooperadora que produzisse resultados acima do equilíbrio primário da punição mútua. O economista britânico Ken Binmore criticou a ênfase que se dava a esse respeito na pesquisa de Axelrod, quando este procurava destacar as virtude da vitoriosa OPO ou do mecanismo do DPI, como sendo sua contribuição mais importante para a Teoria dos Jogos. Ao contrário, o que havia de relevante no trabalho de Axelrod era o enfoque "na importância da evolução na seleção de um equilíbrio em infinitas possibilidades de existência demonstradas pelo teorema popular" (3). Binmore criticou as afirmações de que a clemência, a gentileza, a retaliação e a clareza fossem fundamentais para o sucesso de uma determinada estratégia em particular. Estratégias como GRIM TRIGGER (RETALIADOR PERMANENTE), submetida no torneio inaugural pelo economista James W. Friedman, poderiam obter bons desempenhos em ambientes mais favoráveis. O RETALIADOR PERMANENTE (doravante, RP) nunca é o primeiro a deserta, mas jamais volta a cooperar com quem fez a primeira deserção. Nesse sentido, uma vez comunicada sua forma de agir, RP é capaz de sustentar a cooperação satisfatoriamente, por apresentar motivos suficientes para que se evite sua retaliação dura, como uma "máquina do juízo final" - no filme Dr. Strangelove - se esta fosse anunciada a tempo de evitar o ataque nuclear. Contudo, é preciso destacar que sua eficácia depende que haja ao menos uma rodada prévia de conversação. RP não é nem um pouco clemente. A gentileza, por sua vez, não é um comportamento que seja inerente a estratégias evolutivas, pois máquinas que sempre cooperam camuflam comportamentos simplórios que estão sujeitos à exploração de uma simples mutação que não coopere no primeiro encontro. No lugar da clareza, para que um programa reconhecesse o outro bastaria que fosse dotado de um dispositivo, uma marca distintiva das demais, que permitisse uma mutação perceber a presença de uma cópia de si mesma na população, a fim de que ambas se envolvessem em uma cooperação. Um código tal como o que permitiu à estratégia SOUTHAMPTON estabelecer o conluio no campeonato comemorativo de 2004. Tampouco se requer que uma estratégia seja ela própria capaz de retaliar, aspecto que só é necessário quando a interação se desenvolve apenas entre duas partes. Basta somente que haja um terceiro programa que seja o vingador daquela que fora injuriada, para que o desertor seja punido, em relações multilaterais (4). Novos torneios mostraram que numa descrição mais realista, onde erros ocasionais e lances alternados podem ocorrer, o resultado final da iteração favorece outros tipos de estratégias. Nessas circunstâncias, a forma pura de OPO obtém pontuações próximas às de estratégias RANDÔMICAS – em que os lances são jogados aleatoriamente –, sobretudo quando a probabilidade do ruído acontecer atinge 50%. Nos jogos simultâneos com ruído, estratégias do tipo PAVLOV, como WIN-STAY, LOSE-SHIFT (EM TIME QUE ESTÁ GANHANDO NÃO SE MEXE) – na qual os jogadores repetem os resultados vitoriosos da última rodada (Recompensa ou Tentação) e mudam quando perdem (Punição e Simplório) –, são superiores à OPO, devido à capacidade de corrigir um erro momentâneo (5). De outro modo, quando os movimentos dos participantes são alternados – há troca de papéis –, uma variante de OPO chamada GENEROUS TIT FOR TAT (GENEROSO OLHO POR OLHO, GOPO) consegue alcançar os melhores desempenhos ao longo de várias gerações. Isto porque, GOPO passa a usar a probabilidade de cooperar quando um lance equivocado de deserção é realizado pela outra parte (6). Dez anos depois de publicar The Evolution of Cooperation, Axelrod promoveu novos torneios de computador. Dessa vez, cobriu as situações em que o ruído interfere nas escolhas com uma chance inicial de 1% de provocar resultados opostos aos esperados. A seguir, avaliou-se também diversos níveis de ruídos a cada 10%. Em todas escalas, foi constatada a superioridade das variantes “generosas” de OPO frente às estratégias PAVLOV. A “generosidade” permitiu a correção de erros cometidos por ambos jogadores em baixo nível de ruído e quando as partes não estavam adaptadas à possibilidade de erro. Outra versão de OPO, conhecida como CONTRITE TIT FOR TAT (CONTRITO OLHO POR OLHO, COPO) – que evita responder a uma deserção adversária, quando o próprio jogador acabara de desertar, sem intenção, na rodada anterior –, mostrou-se mais efetiva se o próprio jogador está adaptado ao ruído e a taxa de ocorrência de equívoco é alta. Nas populações adaptadas à estratégia mista, a auto-correção dos erros é suficiente para dispor as partes a entenderem a eventualidade de modo adequado, restaurando a cooperação de pronto. Com isso, concluiu-se que as OPO modificadas permaneceram robustas nos ambientes ruidosos, em que as pessoas estão sujeitas a erros. As estratégias PAVLOV, por seu turno, tiveram bom desempenho apenas nos momentos em que ambos jogadores seguiam esse tipo de interação apoiada na manutenção de resultados positivos. Contra outros “não pavlovianos”, as pessoas ficaram vulneráveis à permanente deserção (SEMPRE “D”), com o pagamento do cenário padrão do primeiro torneio (7). Apesar do otimismo de Axelrod quanto ao sucesso de estratégias reativas da família OPO, outros estudos têm indicado que a estratégia bem sucedida depende intrinsecamente do cenário montado, da topografia da vizinhança e, sobretudo, da estratégia que o outro irá adotar – difícil de se prever de antemão. Como afirmam os pesquisadores Martin Nowak, Robert May e Karl Sigmund, “uma estratégia que vai bem num certo ambiente pode falhar miseravelmente em outros” (8). A Defesa de Axelrod A indução reversa não afeta o DPI quando este é repetido infinitamente ou de maneira a tornar indeterminado o fim do jogo. Entretanto, para que a indeterminação do final anule os efeitos da reversão das jogadas, a "sombra do futuro" deve ser a mais longa possível. O que vale dizer que a probabilidade de terminar a partida no próximo movimento seja maior do que zero. Quando as chances do jogo continuar se aproximam de zero, o DPI volta a sentir as influências das estratégias dominantes da matriz básica e o valor da deserção cresce. A estratégia OPO, então, só pode obter o pagamento máximo se ambos jogadores cooperarem a cada rodada. Contudo, o mesmo resultado poderia ser obtido se todos fossem cooperadores incondicionais - como propôs Kant, desde sua Fundamentação da Metafísica dos Costumes (1785). Sendo assim, não haveria uma característica particular de OPO que lhe garantisse a indicação precisa para atuar tendo em mente apenas as consequências de uma longa sombra do futuro. Para tornar mais plausível a defesa da robustez de OPO, a competição simulada em computadores teve de incorporar detalhes mais realistas que dessem conta da possibilidade de erro ou confusão, na execução ou percepção de um movimento específico. A diferença entre lances simultâneos e alternados também teve de ser considerada, a fim de tornar a descrição da interação ainda mais próxima da relações reais. Tais mudanças viabilizaram o aparecimento de novas estratégias que se mostraram eficientes em um cenário mais abrangente - como aqueles preparados por Nowak, Sigmund e outros pesquisadores. A teoria da cooperação chamou atenção de um número crescente de especialistas interessados na explicação mais precisa do comportamento cooperativo e das circunstâncias que o fomentam, entre seres humanos ou não. Em suma, está em jogo a tênue convivência entre indivíduos que buscam de imediato o melhor para si, em particular, e o bem do grupo, em geral, a longo prazo. Ao invés de supor uma racionalidade forte para deliberações, a teoria da cooperação adotou a perspectiva de que os agentes procuram atuar sob regras práticas, sem efetivar um cálculo rigoroso de tudo que é necessário para se encontrar uma solução técnica indicada. Destarte, a cooperação, apoiada na reciprocidade pôde ser atribuída a pessoas, nações e organismos biológicos, em geral. Tudo porque a simplicidade do Dilema dos Prisioneiros assim o permitia. Graças ao DPI e suas variantes, as simulações em computadores puderam observar a eficiência das estratégias nos ambientes mais variados, incluindo os modelos biológicos evolutivos. As diferenças entre os cenários onde movimentos eram efetuados ora simultaneamente, ora alternadamente, não foram, na interpretação de Axelrod, suficientes para refutar de modo cabal as conclusões básicas da teoria da cooperação por reciprocidade, porque mantiveram os efeitos favoráveis da presença da sombra do futuro sobre a expectativa de ganhos possíveis e a dependência da compreensão que a escolha das estratégias depende do que se espera que o outro faça. Se é possível que o outro jogador seja suficientemente responsável, e os pagamentos e sombra do futuro são suficientemente favoráveis, recomendar uma estratégia recíproca ainda parece ser um conselho robusto (AXELROD, R. On Six Advances in Cooperation Theory, p. 18). Outros fatores, como a consideração da reputação, racionalidade, adaptação e inveja, revelaram o papel que podem exercer em uma rede social ou quando se mostra a oportunidade de abandonar a interação. A troca de informação entre os participantes sobre seu comportamento passado permite que a reputação seja reconhecida, promovendo a cooperação mesmo se os jogadores nunca se encontraram antes, caso um deles seja um RETALIADOR PERMANENTE, por exemplo. Uma estrutura social adequada pode manter a cooperação sustentada na reputação, quando esta é de conhecimento público (9). Em resposta às críticas quanto à clareza, como propriedade de uma estratégia vitoriosa, que sustentam que para uma mutação ou adaptação aprender um comportamento recíproco, basta que seja capaz de aprender a regra por si mesma, Axelrod pondera que a mistura das escolhas de ações pode ser difícil de ser compreendida, ao se enfrentar várias estratégias ao mesmo tempo. Sobretudo quando se tem também de avaliar as consequências de cada um empiricamente. Para serem bem sucedidos, tais tipos de interações precisam levar em conta o conjunto de estratégias envolvidas, indentificando aquelas cópias de si mesmas que se reproduzem corretamente, bem como suas principais mutações. Em socorro a essas dificuldades, uma compreensão racional mínima procura cooperar sempre em função do resultado satisfatório, depois de se fazer a deliberação correspondente (10). Isso conduz à discussão sobre a justificação de um comportamento que pode ser afetado, em sistemas neurológicos mais avançados, pelo sentimento de inveja, entendida como um pagamento tão alto como o do outro jogador, ou o não desejo de ganha menos, ou ainda não aceitar que meios injustos permitam o favorecimento do desempenho do adversário. Tal sentimento poderia estar na base de uma intuição primária de justiça. Em ambientes sujeito a ruído, que podem provocar uma resposta equivocada ao comportamento do outro, OPO poderia ser transformada em uma estratégia INVEJOSA MODERADA - cooperar se ganha uma vantagem extra, sem deixar de ser robusta, desde que mantenha a reciprocidade entre os jogadores depois de uma eventual punição por esse ganho "indevido". Efetivamente, qualquer que seja a definição de inveja que se queira atribuir aos jogadores para fornecer maior nitidez psicológica a esses replicantes, essa não parece ser uma legítima justificação para restringir as escolhas dos participantes na interação, sendo apenas uma interpretação relativa à cultura em que se está inserido. Na prática, OPO não se mostra como uma estratégia invejosa, sobretudo quando arrependida para ganhos não merecidos, em um cenário ruidoso na estratégia derivada COPO (11). Por fim, uma alternativa que evite a atuação de oportunistas é modelada em jogos que permitem o abandono da interação se o relacionamento se mostrar insatisfatório para uma das partes. Isso pode ocorrer quando a cooperação é repentinamente rompida por uma deserção, ocasião em que o jogador afetado imediatamente sai da partida. A possibilidade de sair só surge, então, quando o outro não coopera. O efeito de saída é avaliado adequadamente no contexto em que estão envolvidas mutações e, por conseguinte, quando se está levando em conta a adaptação ao meio ambiente. Vale dizer que isso implica em investigar a população de estratégias atuantes, a fim de saber qual produz os melhores resultados, segundo um histórico de confiabilidade, uma vez que o conjunto inicial influencia a comparação correta dos diversos cenários montados. A saída rápida de uma deserção pode diminuir em muito os prejuízos de estratégias gentis e aumentar as perdas das más cooperadoras (12). Embora a teoria da cooperação tenha apresentado alguma sensibilidade a mudanças nos ambientes onde as hipóteses originais foram lançadas, de um modo geral, ela se mostrou apta para analisar a emergência da cooperação nos mais diversos tipos de simulações. Enfaticamente, percebeu-se que a conduta cooperativa pode surgir nas mais diferentes circunstâncias. Além de OPO, muitas outras estratégias cooperadoras foram apontadas como válidas, desde que a rodada final estivesse indeterminada em um horizonte distante e as estratégias estivessem também prontas a se corrigirem, quando atingidas por desafios de comportamentos alternativos. Restrições à racionalidade dos agentes, que implementam os programas determinados nos torneios, abrem espaço à especulações ou futura investigação, sobre o papel da escolha racional na formulação de algoritmos mais refinados que façam a distinção precisa das condições mais favoráveis à cooperação. Conforme Robert Hoffmann indica em sua defesa da teoria da cooperação, a capacidade de aprendizagem durante o processo interativo pode ser a melhor explicação para compreender como tais relações estratégicas ocorrem na natureza (13). Notas
| ||
Referências Bibliográficas | ||
AXELROD, R. The Evolution of Cooperation. - Nova York: Basic Books, 1984. __________. "On Six Advances in Cooperation Theory". Analyse & Kritik, pp. 1-39, janeiro de 2000. Disponível na Internet via http://www-personal.umich.edu/~axe/research/SixAdvances.pdf BINMORE, K. "Review: The complexity of cooperation", in Journal of Artificial Societies and Social Simulation. Disponível na Internet via http://jasss.soc.surrey.ac.uk/1/1/review1.html. Arquivo consultado em 2003. FIANI, R. Teoria dos Jogos. - Rio de Janeiro: Elsevier, 2004. HOFFMANN, R. "Twenty Years on: The evolution of cooperation revisited", in Journal of Artificial Societies and Social Simulation, vol. 3, n° 2. Disponível na Internet via http://www.soc.surrey.ac.uk/JASSS/3/2/forum/1.html. Arquivo consultado em 31 de março de 2000. KANT, I. Fundamentação da Metafísica dos Costumes; trad. Paulo Quintela. - São Paulo: Abril Cultural, 1980. (Os Pensadores). KREPS, D. M. Game Theory and Economic Modelling. – Oxford: OUP, 1996. NOWAK, M. A., MAY, R. & SIGMUND, K. "The Arithmetics of Mutual Help". Scientific American, pp. 76-81, junho de 1995. NOWAK, M.A. & SIGMUND, K. "The Alternating Prisoner's Dilemma". Journal Theoretical Biology, n° 168, pp. 219-226, 1994. WU, J. & AXELROD, R. "How to Cope with Noise in the Iterated Prisoner's Dilemma". Journal of Conflict Resolution, n° 39, pp. 183-189, março de 1995. |