DISCURSUS
TEORIA DOS JOGOS E DA COOPERAÇÃO (MAY, E. 'Ben Franklin leva Xeque-Mate de Lady Howe', sec.XIX)
Ultimato
Menu Geral
Curso
Serviço
Início
Serviço
Navegação
Script gratuito fornecido por JavaScript Kits

TEORIA DOS JOGOS E DA COOPERAÇÃO PARA FILÓSOFOS

SEÇÃO II

» 3ª Unidade: Ultimato

  • O Jogo do Ultimato.
Por Antônio Rogério da Silva

No modelo dos Bens Públicos, tem-se a extensão adequada do Dilema dos Prisioneiros para dilemas sociais, onde mais de duas partes devem decidir entre cooperar ou não em um empreendimento comum. Com muitos jogadores envolvidos, os Bens Públicos mostram a necessidade de se ter um instrumento para impedir que desertores permaneçam explorando a cooperação na ausência de uma punição direta pela retaliação recíproca entre as partes. Se, devido à distância entre os diversos agentes, a reciprocidade forte não pode ser efetuada, o que os Bens Públicos ensinam é que haja a instituição de um mecanismo que fiscalize e aplique as penalidades convenientes, a fim de inibir a deserção e permitir que a cooperação seja estabilizada.

Amiúde, os modelos de Bens Públicos são implementados por meio de decisões tomadas simultaneamente entre os agentes, podendo ser repetido por várias rodadas. Uma outra maneira de aplicar esse modelo de jogo a uma dinâmica de movimentos alternados com dois jogadores é transformá-lo no conhecido modelo do Ultimato. O jogo do Ultimato tem sua invenção relacionada com o aparecimento do artigo dos economistas alemães Werner Güth, Rolf Schmittberger e Bernd Schwarze, de 1982, intitulado "An Experimental Analysis of Ultimatum Bargaining" ("Uma Análise Experimental da Negociação do Ultimato"). Trata-se, o Ultimato, de um Bens Públicos simplificado, onde a banca oferece uma quantia fixa a dois jogadores que devem decidir como dividí-la entre si. O primeiro jogador (o líder) deve então fazer uma proposta de divisão ao segundo jogador (o receptor), que, por sua vez, deve responder se a aceita ou não. Caso aceite a oferta o dinheiro é distribuído da maneira que foi sugerida pelo líder. De outro modo, a rejeição implica na devolução de todo o montante à banca que nada disponibiliza para ambos.

No modelo do Ultimato, uma oferta alta da parte do líder significa um prêmio de estímulo à cooperação do outro. Em outras palavras, o benefício que o receptor obtém é igual ao custo da doação feita pelo líder. Por outro lado, ofertas irrisórias são passíveis de punição pelo receptor. O custo da recusa, para este, equivale à taxa paga à banca, nos Bens Públicos, para aplicar uma multa maior ao líder - tão grande quanto o valor que este pretendia alcançar. Entre agentes egoístas racionais, a teoria dos jogos prevê que uma proposta de 99% para o primeiro jogador e 1% para o segundo deveria ser feita pelo líder e aceita pelo receptor.

Figura 1 - Árvore do Ultimato Figura 2
Matriz do Ultimato
Jogador II - Receptor
Estratégias a b
Jogador I
Líder
A (0, 0) l(99, 1)c
Figura 1 - Esquema de Árvore B l(50, 50)c (50, 50)c

A razão dessa escolha ser considerada a mais racional está no fato do jogador A (o "líder") saber que a "folha" onde se encontra o resultado (99, 1) representa um equilíbrio perfeito para essa pequena árvore, segundo a indução reversa (Figura 1). Na forma estratégica, ou normal (Figura 2), percebe-se também que a estratégia "b" domina fracamente a opção "a" do Receptor (jogador II), quando o Líder escolhe "B" e fortemente, quando este joga "A". De qualquer modo, o Receptor é o único que possui uma estratégia dominante e o Líder pode explorar essa circunstância se souber que o outro é um agente racional. Se esse for o caso, o Líder não teria porque temer um desvio para "a", posto que dos dois equilíbrios de Nash existentes nessa matriz, restaria apenas o equilíbrio perfeito a ser escolhido depois da escolha de "A". Na forma normal ou extensiva, a recomendação para o primeiro jogador é optar por "A".

Contudo, não é isso que ocorre na maioria dos testes realizados com pessoas em laboratório e em campo. De acordo com Hal Varian, experiências feitas com estudantes estadunidenses apresentou ofertas para o receptor em torno dos 45% do total. Ofertas estas que eram, em geral, bem sucedidas (1). O Ultimato é jogado, geralmente, em uma só rodada com ofertas protegidas pelo anonimato. Porém, se é permitido ao Líder saber que tipo de receptor enfrentará, alguns fatores importantes para compreensão dessas ofertas fora do padrão teórico podem ser detectados. Se o Receptor for alguém incapaz de punir ou tenha a reputação de pessoa fria e racional, a tentação de desertar aumenta. Por outro lado, se o histórico do Receptor for de uma pessoa emotiva e pronta a manter sua fama de negociador "duro", o melhor talvez seja propor uma divisão mais equitativa próxima do equilíbrio imperfeito, mas justo.

Enquanto os líderes fizerem ofertas com o objetivo de maximizarem seu ganho, conforme a possibilidade de rejeição, as previsões dos teóricos estão salvas. O problema surge a partir do comportamento do receptor em não aceitar qualquer valor maior do que zero. A explicação que vem sendo fornecida por dezenas de trabalhos realizados em torno do Ultimato tem apelado para inclusão de reações psicológicas, consolidadas durante o processo de evolução da espécie Homo s. sapiens, no cerne de seus diagnósticos teóricos.

A aparente irracionalidade humana em oferecer e pretender uma divisão justa indica que algo mais está em jogo no Ultimato do que apenas maximizar a utilidade de interesses pessoais imediatos. O motivo mais provável talvez seja o fato das pessoas entenderem o jogo como parte de uma interação que pode ser repetida outras vezes, mesmo quando se afirma expressamente que o jogo será realizado em uma única rodada. As pessoas sabem por experiência própria que atitudes grosseiramente injustas são passíveis de retaliação. Para evitar o risco de rejeição, procuram fazer propostas razoáveis, do ponto de vista partilhado por sua comunidade. Dessa forma, tanto líderes, como receptores, conseguem manter sua reputação de bons negociadores, entre seus pares.

A recusa de propostas baixas tem um pequeno custo para o Receptor e um alto preço pago pelo Líder. Entretanto, a reputação construída de não oferecer nem aceitar "esmolas" favorece maiores ganhos no futuro, ao mesmo tempo que inibe tentativas de estabelecer uma distribuição desigual de recursos. A forma pura do Jogo do Ultimato simplifica muito a realidade cotidiana, ao evitar que haja uma contra-oferta, através da qual as pessoas poderiam obter informações umas das outras, desaparecendo e encerrando a negociação caso a divisão permanecesse desequilibrada, a ponto de não ser considerada válida. Não obstante, tais limitações permitem que se avalie exatamente quais são os fatores que estão influenciando as deliberações, mudando aqui ou ali as variáveis que forem mais relevantes para análise.

Tais restrições, ao invés de serem desvantajosas, deixam-nos estudar o comportamento humano em situações bem definidas, descobrindo os princípios fundamentais que governam nosso mecanismo de tomada de decisão. O processo é algo de semelhante às colisões de partículas da física no vácuo, voltados para o estudo de suas propriedades (SIGMUND, K., FEHR, E., NOWAK, M. A. "The Economics of Fair Play", p. 84).

O jogo do Ultimato, como já foi mencionado antes [veja Bens Públicos e Ultimato], vem sendo aplicado por neurocientistas atentos que buscam localizar na atividade cerebral as áreas responsáveis pelo processo de decisão - observados por meio de tomógrafos computadorizados. Entre agentes humanos, o pleno conhecimento dos tipos que participam do Ultimato leva os jogadores a se comportarem de acordo com a norma social que manda cooperar e punir os desertores. Ao passo que, quando as ofertas são feitas por uma máquina, os receptores tendem a aceitar volumes mais baixos de dinheiro ao contrário do que geralmente se observa entre dois humanos. Por conseguinte, as propostas dirigidas a computadores são as mais desiguais possíveis (2).

O sentimento de vingança que aflora no jogo dos Bens Públicos aparece no Ultimato acompanhado pela indignação de ter sido alvo de um desertor. Nesses dois casos, a vingança é definida por um custo ou risco que alguém tem de correr para impor uma penalidade a quem obteve ou quer obter uma vantagem sobre a boa vontade do agente em cooperar. A vingança é um sentimento moral internalizado que emerge naturalmente pelo desejo de impor um sofrimento a outra pessoa ou objeto que lhe tenha causado algum dano. Tal reação teria sido consolidada pela evolução no repertório de estratégias inatas a serem acionadas sempre que o sujeito se sentir prejudicado. Como afirma o sociólogo norueguês Jon Elster, "esse tipo de comportamento é universal" (3).

Uma norma social é um outro mecanismo à disposição das pessoas, a fim de poderem incorporar o sentimento de vingança ao de justiça presente em muitas formas de organização da sociedade, tais como a vendetta dos mafiosos. Assim, como nos Bens Públicos e no Dilema dos Prisioneiros, a capacidade de retaliação permite que o medo de uma sanção externa acabe por gerar maiores prejuízos no Ultimato. O medo da vingança é suficiente para explicar porque as pessoas evitam uma divisão injusta, a despeito dos seus interesses pessoais. Isso reforça o argumento de Hobbes, no Leviatã, e rebate as objeções de Tugendhat, em Lições sobre Ética, acerca do estatuto moral do contratualismo (4).

Implicações do Ultimato

Toda essa discussão sobre os sentimentos envolvidos na situação de ultimato provocam, ao menos, duas posições extremas e contrárias. Uma que considera necessário, para considerações éticas, que tais sentimentos estejam incorporados no indivíduo, a fim de florescer uma conscientização que reconheça as sanções externas como sendo algo com valor moral para expiação de suas culpa e vergonha, sentidos em foro íntimo. Outra posição argumenta que tais sentimentos pouca utilidade têm na satisfação de critérios de racionalidade, no momento em que se precisa tomar uma decisão sobre a conduta a ser adotada. De fato, reações baseadas em regras preconcebidas e instaladas no agente serão de alcance reduzido se não permitirem que estas sejam capazes de se adaptarem às circunstâncias novas que não estavam prevista pela programação prévia.

Jogos como Ultimato, Bens Públicos e Dilema dos Prisioneiros têm indicado que programas muito simples facilitam a vida do programador, mas dificultam a adaptação a ambientes mais complexos. As simplificações são úteis para ajudar a compreender quais são os ingredientes fundamentais das interações, sem, no entanto, autorizar qualquer avanço sobre o modo como as pessoas deverão agir necessariamente dadas certas condições. O que não quer dizer que esses estudos sejam de todo vedados a proposições normativas acerca de linhas de ação recomendáveis para determinadas circunstâncias. Na Alemanha, dois pesquisadores do Instituto Max Planck para Pesquisa Psicológica, Peter M. Todd e Bernhard Borges, analisaram o papel da racionalidade e o grau de complexidade suficiente para agentes que pudessem ser considerados socialmente inteligentes, a partir do jogo do Ultimato. Confrontaram propostas de alguns autores que defendiam a inclusão de uma capacidade de aprendizagem por reforço e de outros que sustentavam ser o raciocínio dedutivo necessário não só para compreensão dos problemas reais, mas também para imaginar os futuros obstáculos. Discutiram, ainda, as hipóteses contrárias à utilidade de um lento processo que, ao invés de ajudar, dificultaria as tomadas de decisão. Posto que os resultados obtidos pelos agentes capazes de aprender com o reforço de experiências anteriores e prever novas ações seriam algo externo à teoria dos jogos e que não faria parte de ser escopo de investigação (5).

Por sua vez, Todd e Borges não consideram essa objeção à racionalidade definitiva. Para esses autores, o importante seria definir que tipo de raciocínio deveria ser acrescentado aos agentes sociais a fim de que estes pudessem resolver problemas como o do Ultimato. A maneira como seres humanos têm reagido às ofertas do ultimato estão próximas daquela adquirida por agentes dotados de uma regra de raciocínio behaviorista de aprendizagem por reforço. Ao lado da regra de reforço, acrescenta-se o raciocínio lógico que proporciona a cada um a capacidade de inferir as respostas do Receptor, a partir de informações sobre sua aceitação das propostas anteriores. Assim, com base nesses dados, poder-se-ia antecipar suas reações futuras em situações semelhantes. Mantidas as mesmas condições, maiores seriam as chances de uma proposta igual ou maior à historicamente aceita ser também exitosa.

Essa mistura de raciocínio e aprendizagem, ao invés de sustentar o Ultimato na forma prevista pelos teóricos dos jogos, com o tempo, encaminharia os resultados para o comportamento similar àquele observado entre humanos que participam de experimentos com esse tipo de jogo - próximo da divisão equitativa meio a meio. Tal fuga da solução perfeita (99, 1) se deveria ao acréscimo do raciocínio que antecipa os resultados na forma da regra lógica que manda subir os valores ofertados, em vez de mantê-los fixos, apoiados na suposição de que a aceitação de uma oferta baixa implica em uma regra do tipo "aceitar qualquer coisa". O fundamento dessa regra lógica está no fato de que se uma proposta foi aceita antes, uma oferta posterior um pouco maior deverá necessariamente de ser aceita, se nenhum fato relevante tiver sido alterado.

Contudo, interpretações behavioristas pessimistas considerariam esse tipo de acréscimo de raciocíno prejudicial aos resultados ótimos do líder, pois reduziria cada vez mais os seus ganhos a cada nova oferta. Sendo assim, a inferência acrescentada ao ensino geraria resultados piores e distorceria o aprendizado. Não obstante, a conclusão pessimista dos behavioristas que considera irrelevante a inclusão do raciocínio à aprendizagem por reforço só se sustenta se o ambiente no qual Líder e Receptor tomam suas decisões se mantiver sempre como está sem perturbações. Entretanto, para cenários dinâmicos, o processo de adaptação aparece com maior complexidade e não se deverá considerar apenas as propostas ótimas para o Líder, mas a probabilidade de recebimento de respostas negativas do Receptor como uma estratégia para elevar os ganhos futuros. Nesse cenário estratégico, que considera o outro, agentes que atuassem apenas por reforço teriam os piores resultados se não levassem em conta a possibilidade de aumentar suas ofertas como um indivíduo que raciocina e aprende. A inclusão do raciocínio na aprendizagem torna mais flexível e rápida a adaptação da oferta a novas situações, previnindo respostas negativas, o que não seria possível agindo apenas por estímulo e reforço.

[E]m estudos complementares temos considerado os efeitos da coevolução entre estratégias de ofertas e aceitação com nossa gama total de estratégias de raciocínio-mais-aprendizagem, e descobrimos mais uma vez que o complexo processo de coadaptação pode levar agentes ao comportamento do tipo humano em jogos do ultimato, mas muito mais rapidamente do que poderiam apenas aprendendo por reforço. Talvez seja o caso quando pretendemos modelar o nível humano de inteligência social em jogos simples, adicionando o tipo certo de raciocínio que podem gerar ganhos rápidos (TODD, P. M. & BORGES, B. "Designing Socially Intelligent Agents for the Ultimatum Game", p. 136).

Uma variante radical do Ultimato permite avaliar até onde vai a generosidade do líder. O denominado jogo do Ditador dá ao Líder a oportunidade de dividir os valores da maneira que achar melhor, enquanto o Receptor só pode aceitá-la, sem jamais recusar. Nesse caso, não haveria então que temer qualquer punição para ofertas egoístas, uma vez que não cabe a rejeição por parte do outro. Mesmo assim, as partilhas ficam longe da previsão teórica e perto da divisão equitativa. Não tanto como no Ultimato, mas razoáveis, pelo que se poderia esperar. Novamente, a explicação para esse tipo de comportamento recai sobre a reputação que o líder tenta construir. Pois, a fama de "mesquinho" e mau cooperador poderia lhe prejudicar no futuro. Essa conclusão é reforçada pelos resultados obtidos em uma versão ainda mais radical chamada de Ditador Duplo-Cego. Aqui as ofertas são feitas sem que o Receptor e experimentador saibam quem fez a proposta. Só assim, protegido pelo duplo anonimato, o comportamento egoísta finalmente aparece e o Líder, em geral, fica com tudo para si (6).

Também há uma outra versão do Ultimato híbrida ao Bens Públicos que procura capturar a reciprocidade positiva através do Jogo da Confiança. Neste modelo, o Líder propõe a sua divisão e a banca tripla o valor destinado ao Receptor que deve decidir se devolve parte ou tudo que recebeu ao Líder. Agora, o que acontece na maioria dos casos é o envio do dinheiro por parte dos líderes e a devolução de alguma quantia por parte dos receptores, independente do montante envolvido. A reciprocidade é entendida como resposta de um jogador a uma ação que foi feita pelo outro sem esperar nenhum ganho imediato, em favor da cooperação ou deserção. No jogo do Ultimato, a punição da recusa corresponde à reciprocidade negativa, observada em testes realizados por várias culturas distintas. Enquanto, a reciprocidade positiva aparece estampada nas restituições dos valores feitos no jogo da Confiança (7).

Notas
1. Veja VARIAN, H. Microeconomia, cap. 29, § 29.7, p. 575.
2. Veja SIGMUND, K., FEHR, E., NOWAK, M. A. "The Economics of Fair Play", p. 84.
3. ELSTER, J. "Some Unresolved Problems in the Theory of Rational Behavior", p. 187.
4. Veja HOBBES, Th. Leviatã, I part., cap. XV, p. 94 e TUGENDHAT, E. Lições sobre Ética, IV liç., p. 83.
5. TODD, P. M. & BORGES, B. "Designing Socially Intelligent Agents for the Ultimatum Game", p. 135.
6. Veja HENRICH, J. et al. "In Search of Homo Economicus", I, p. 75 e PINKER, St. Tábula Rasa, cap. 14, p. 351.
7. Veja FEHR, E. & GÄCHTER, S. "Fairness and Retaliation", in Journal of Economic Perspective, nº 14, pp. 159-181.

« Antes: A Cooperação nos Bens Públicos
A seguir: Um teste de Thomas Schelling
Referências Bibliográficas

ELSTER, J. "Some Unresolved Problems in the Theory of Rational Behavior", in Acta Sociologica, 36, pp. 179-190, 1993.

FEHR, E. & GÄCHTER, S. "Fairness and Retaliation", in Journal of Economics Perspectives, 14, pp. 159-181, 2000. Disponível na Internet via http://www.unizh.ch/iew/wp/. Arquivo consultado em 2002.

HENRICH, J. et al. "In Search of Homo Economicus", in Economics and Social Behavior, vol. 91, nº2, pp. 73-78, mai 2001.

HOBBES, Th. Leviatã; trad. João P. Monteiro e Mª B. M. da Silva. – São Paulo: Abril Cultural, 1983.

SIGMUND, K. , FEHR, E., NOWAK, M.A."The Economics of Fair Play", in Scientific American, jan. 2002.

VARIAN, H. Microeconomia; trad. Mª José C. Monteiro. – Rio de Janeiro: Campus, 2003.