esta secção precisa de citações adicionais para verificação. Por favor, ajude a melhorar este artigo adicionando citações a fontes confiáveis. O material não recolhido pode ser desafiado e removido. (Novembro de 2012) (Saiba como e quando para remover este modelo de mensagem)

Se dois jogadores jogar o dilema do prisioneiro mais de uma vez em sucessão e eles se lembram de ações anteriores do adversário, e alterar a sua estratégia de acordo, o jogo é chamado dilema do prisioneiro iterado.,

além da forma geral acima, a versão iterativa também requer que 2 R > T + S {\displaystyle 2R>T+S} , para evitar a alternância de cooperação e deserção dando uma recompensa maior do que a cooperação mútua.o jogo do dilema do prisioneiro é fundamental para algumas teorias de cooperação e confiança humanas. Na suposição de que o jogo pode modelar transações entre duas pessoas que exigem confiança, o comportamento cooperativo em populações pode ser modelado por uma versão multi-jogador, iterada, do jogo., Tem, consequentemente, fascinado muitos estudiosos ao longo dos anos. Em 1975, Grofman e Pool estimaram o número de artigos acadêmicos dedicados a ele em mais de 2.000. The iterated prisoner’s dilemma has also been referred to as the “peace-war game”.se o jogo é jogado exatamente n vezes e ambos os jogadores sabem disso, então é ótimo desertar em todas as rodadas. O único equilíbrio possível de Nash é sempre desertar. A prova é indutiva: pode-se também desertar na última curva, uma vez que o oponente não terá a chance de retaliar mais tarde. Portanto, ambos vão desertar na última curva., Assim, o jogador pode também desertar na segunda-a-última volta, uma vez que o adversário vai desertar na última não importa o que é feito, e assim por diante. O mesmo se aplica se a duração do jogo é desconhecida, mas tem um limite superior conhecido.ao contrário do dilema do prisioneiro, no Dilema do prisioneiro iterado, a estratégia de deserção é contra-intuitiva e falha em prever o comportamento dos jogadores humanos. No entanto, dentro da teoria econômica padrão, esta é a única resposta correta., A estratégia super-racional no Dilema do prisioneiro com n fixo é cooperar contra um adversário super-racional, e no limite de N Grande, resultados experimentais em estratégias concordam com a versão super-racional, não com a teoria do jogo.

para a cooperação emergir entre jogadores teóricos do jogo racionais, o número total de rodadas N deve ser desconhecido para os jogadores. Neste caso, “sempre defeito” pode não ser mais uma estratégia estritamente dominante, apenas um equilíbrio de Nash., Entre os resultados mostrados por Robert Aumann em um artigo de 1959, jogadores racionais repetidamente interagindo por jogos indefinidamente longos podem sustentar o resultado cooperativo.de acordo com um estudo experimental de 2019 na American Economic Review, que testou que estratégias os sujeitos da vida real usados em situações de dilema de prisioneiros com monitoramento perfeito, a maioria das estratégias escolhidas foram sempre defeito, tit-for-tat, e grim trigger. A estratégia que os sujeitos escolheram dependia dos parâmetros do jogo.,

estratégia para o dilemmaEdit do prisioneiro iterado

interesse no Dilema do prisioneiro iterado (IPD) foi aceso por Robert Axelrod em seu livro the Evolution of Cooperation (1984). Nele, ele relata sobre um torneio que ele organizou do dilema do prisioneiro n step (com n fixo) em que os participantes têm que escolher sua estratégia mútua de novo e de novo, e ter memória de seus encontros anteriores. Axelrod convidou colegas acadêmicos de todo o mundo para conceber estratégias de computador para competir em um torneio de IPD., Os programas que foram introduzidos variaram amplamente na complexidade algorítmica, hostilidade inicial, capacidade de perdão, e assim por diante.

Axelrod descobriu que quando esses encontros foram repetidos durante um longo período de tempo, com muitos jogadores, cada um com estratégias diferentes, gananciosos estratégias tendem a fazer muito mal a longo prazo, enquanto que o mais altruísta estratégias fiz melhor, como julgado puramente pelo auto-interesse. Ele usou isso para mostrar um possível mecanismo para a evolução do comportamento altruísta a partir de mecanismos que são inicialmente puramente egoístas, por seleção natural.,a estratégia determinística vencedora foi tit for tat, que Anatol Rapoport desenvolveu e entrou no Torneio. Foi o mais simples de qualquer programa inserido, contendo apenas quatro linhas de básico, e ganhou o concurso. A estratégia é simplesmente cooperar na primeira iteração do jogo; depois disso, o jogador faz o que seu adversário fez no movimento anterior. Dependendo da situação, uma estratégia um pouco melhor pode ser “Tita por tat com perdão”. Quando o adversário falha, na próxima jogada, o jogador às vezes coopera de qualquer maneira, com uma pequena probabilidade (cerca de 1-5%)., Isso permite uma recuperação ocasional de ficar preso em um ciclo de deserções. A probabilidade exata depende da linha de adversários.ao analisar as estratégias de pontuação máxima, Axelrod afirmou várias condições necessárias para que uma estratégia seja bem sucedida.

Nice a condição mais importante é que a estratégia deve ser “agradável”, ou seja, ele não vai desertar antes de seu adversário faz (isso é por vezes referido como um algoritmo” otimista”)., Quase todas as melhores estratégias foram boas; portanto, uma estratégia puramente egoísta não vai “enganar” o seu adversário, por razões puramente egoístas primeiro. Retaliando no entanto, Axelrod defendeu, a estratégia bem sucedida não deve ser um otimista cego. Às vezes, tem de retaliar. Um exemplo de uma estratégia de não retaliação é sempre a cooperação. Esta é uma escolha muito ruim, como as estratégias “nasty” vão explorar impiedosamente tais jogadores. Perdoar estratégias bem sucedidas também deve ser perdoar., Embora os jogadores vão retaliar, eles vão mais uma vez recuar para cooperar se o adversário não continuar a desertar. Isto para longas corridas de vingança e contra-vingança, maximizando pontos. Não invejoso a última qualidade é ser não invejoso, que não está se esforçando para marcar mais do que o adversário.

a estratégia ideal (maximização de pontos) para o jogo de PD de uma só vez é simplesmente deserção; como explicado acima, isso é verdade qualquer que seja a composição dos oponentes., No entanto, no jogo iterated-PD a estratégia ideal depende das estratégias de adversários prováveis, e como eles irão reagir a deserções e cooperações. Por exemplo, considere uma população onde todos defeitos cada vez, exceto para um único indivíduo seguindo a estratégia tit para tat. Esse indivíduo está em uma pequena desvantagem por causa da perda na primeira volta. Em tal população, a estratégia ideal para esse indivíduo é desertar sempre., Em uma população com uma certa porcentagem de sempre-desertores e o resto sendo tit para os jogadores tat, a estratégia ideal para um indivíduo depende da porcentagem, e da duração do jogo.

na estratégia chamada Pavlov, win-stay, lose-switch, confrontado com uma falha de cooperação, o jogador muda de estratégia na próxima volta. Em certas circunstâncias, Pavlov bate todas as outras estratégias dando tratamento preferencial aos Co-jogadores usando uma estratégia semelhante.,

derivando a estratégia ideal é geralmente feito de duas maneiras:

  • equilíbrio de Nash Bayesiano: se a distribuição estatística de estratégias opostas pode ser determinada (por exemplo, 50% tit para tat, 50% sempre cooperar) uma contra-estratégia ótima pode ser derivada analiticamente. simulações de populações de Monte Carlo foram feitas, onde indivíduos com escores baixos morrem, e aqueles com escores altos se reproduzem (um algoritmo genético para encontrar uma estratégia ideal). A mistura de algoritmos na população final geralmente depende da mistura na população inicial., A introdução da mutação (variação aleatória durante a reprodução) diminui a dependência da população inicial; experiências empíricas com tais sistemas tendem a produzir tit para jogadores de tat (ver por exemplo Xadrez 1988), mas não existe nenhuma prova analítica de que isso sempre ocorrerá. embora tit for tat seja considerada a estratégia básica mais robusta, uma equipe da Universidade de Southampton na Inglaterra introduziu uma nova estratégia no 20º aniversário da iterated prisoner’s dilemma competition, que provou ser mais bem sucedida do que tit for tat., Esta estratégia baseou-se em conluio entre programas para alcançar o maior número de pontos para um ÚNICO programa. A Universidade submeteu 60 programas para a competição, que foram projetados para se reconhecer uns aos outros através de uma série de cinco a dez movimentos no início. Uma vez que este reconhecimento foi feito, um programa sempre cooperaria e o outro sempre desertaria, garantindo o número máximo de pontos para o desertor. Se o programa percebeu que estava jogando um jogador não-Southampton, ele continuamente desertar em uma tentativa de minimizar a pontuação do programa concorrente., Como resultado, os resultados do torneio Prisoners’ Dilemma 2004 mostram as estratégias da Universidade de Southampton nos três primeiros lugares, apesar de ter menos vitórias e muitas mais Perdas do que a estratégia GRIM. (Em um torneio PD, o objetivo do jogo não é “ganhar” jogos – que podem ser facilmente alcançados pela deserção frequente)., Além disso, mesmo sem conluio implícito entre estratégias de software (exploradas pela equipe de Southampton) tit para tat nem sempre é o vencedor absoluto de qualquer torneio dado; seria mais preciso dizer que seus resultados de longo prazo sobre uma série de torneios superam seus rivais. (Em qualquer caso, uma determinada estratégia pode ser ligeiramente mais ajustada à concorrência do que a tit pela tat, mas a tit pela tat é mais robusta). O mesmo se aplica para a teta para tat com variante de perdão, e outras estratégias ótimas: em qualquer dia dado eles podem não “ganhar” contra uma mistura específica de contra-estratégias., Uma forma alternativa de colocá-lo é usando a simulação da ESS Darwiniana. Em tal simulação, a teta por tat quase sempre vai dominar, embora estratégias desagradáveis vão entrar e sair da população porque uma teta para a população tat é penalizável por não retaliar estratégias de nice, que por sua vez são presas fáceis para as estratégias desagradáveis. Richard Dawkins mostrou que aqui, nenhuma mistura estática de estratégias formam um equilíbrio estável e o sistema sempre oscilará entre os limites.,} esta estratégia acabou por assumir as três primeiras posições na competição, bem como uma série de posições em direção à parte inferior.

    A Estratégia de Southampton aproveita o fato de que várias entradas foram permitidas nesta competição particular e que o desempenho de uma equipe foi medido pelo do jogador com maior pontuação (o que significa que o uso de jogadores auto-sacrificados era uma forma de minmaxing). Numa competição em que se tem o controle de apenas um jogador, tit por tat é certamente uma estratégia melhor., Devido a esta nova regra, esta competição também tem pouco significado teórico ao analisar estratégias de agentes únicos em comparação com o torneio seminal de Axelrod. No entanto, forneceu uma base para analisar a forma de alcançar estratégias de cooperação em estruturas multi-agentes, especialmente na presença de ruído. Na verdade, muito antes de esta nova-regras de torneio foi disputado, Dawkins, no seu livro O Gene Egoísta”, apontou a possibilidade de tais estratégias vencedoras se várias entradas foram autorizados, mas ele observou que, provavelmente, Axelrod não teria permitido que eles se eles haviam sido enviados., Ele também se baseia em contornar as regras sobre o dilema do prisioneiro em que não há comunicação permitida entre os dois jogadores, o que os programas de Southampton indiscutivelmente fez com sua abertura “ten move dance” para reconhecer um ao outro; isso só reforça o quão valiosa a comunicação pode ser na mudança do equilíbrio do jogo.

    Stochastic iterated prisoner’s dilemmaEdit

    In a stochastic iterated prisoner’s dilemma game, strategies are specified by in terms of “cooperation probabilities”., Em um encontro entre o jogador X e o jogador Y, a estratégia de X é especificada por um conjunto de probabilidades P de cooperar com Y. P é uma função dos resultados de seus encontros anteriores ou algum subconjunto deles. Se P é uma função de apenas seus N encontros mais recentes, é chamado de uma estratégia de “memória-n”., Memória-1 estratégia é então especificado por quatro cooperação probabilidades: P = { P c c P c d P d c P d d } {\displaystyle P=\{P_{cc},P_{cd},P_{dc},P_{dd}\}} , onde P a b {\displaystyle P_{ab}} é a probabilidade de que X vai cooperar no presente encontro, dado que o encontro anterior foi caracterizado por (ab). Por exemplo, se o encontro anterior foi um em que X cooperou e y desertou, então P c d {\displaystyle P_{cd}} é a probabilidade de que X irá cooperar no presente encontro. Se cada uma das probabilidades for 1 ou 0, a estratégia é chamada de determinística., Um exemplo de uma estratégia determinística é a Tita para a estratégia tat escrita como P = {1,0,1,0}, na qual X responde como Y no encontro anterior. Outra é a estratégia win-stay, lose-switch escrita como p = {1,0,0,1}, na qual X responde como no encontro anterior, se foi uma “vitória” (ou seja, cc ou dc), mas muda de estratégia se foi uma perda (ou seja, cd ou dd). Foi demonstrado que para qualquer estratégia memory-n há uma estratégia correspondente memory-1 que dá os mesmos resultados estatísticos, de modo que apenas estratégias memory-1 precisam ser consideradas.,

    Zero-determinante strategiesEdit

    A relação entre zero-determinante (ZD), cooperando e desertores estratégias no dilema do prisioneiro iterado (IPD), ilustrada no diagrama de Venn. As estratégias cooperantes sempre cooperam com outras estratégias cooperantes, e desertar estratégias sempre desertar contra outras estratégias desertoras. Ambos contêm subconjuntos de estratégias que são robustos sob forte seleção, o que significa que nenhuma outra estratégia de memória-1 é selecionada para invadir tais estratégias quando eles são residentes em uma população., Apenas as estratégias cooperantes contêm um subconjunto que é sempre robusto, o que significa que nenhuma outra estratégia memory-1 é selecionada para invadir e substituir tais estratégias, sob seleção forte e fraca. A intersecção entre ZD e boas estratégias cooperantes é o conjunto de estratégias ZD generosas. Estratégias de extorsão são a intersecção entre a ZD e estratégias de desertar não robustas. Tit-for-tat está na intersecção de estratégias de cooperação, desertar e ZD.

    Tit-for-tat é uma estratégia ZD que é “justa” no sentido de não ganhar vantagem sobre o outro jogador., No entanto, o espaço ZD também contém estratégias que, no caso de dois jogadores, podem permitir que um jogador defina unilateralmente a pontuação do outro jogador ou, alternativamente, forçar um jogador evolucionário a alcançar um pagamento de alguma porcentagem menor do que o seu próprio. O jogador extorquido poderia desertar, mas assim se machucaria ao obter um pagamento mais baixo. Assim, as soluções de extorsão transformam o dilema do prisioneiro em uma espécie de ultimato., Especificamente, X é capaz de escolher uma estratégia para que D ( P , Q , β S y + γ U ) = 0 {\displaystyle D(P,Q,\beta S_{y}+\gamma U)=0} , unilateralmente, a definição de s y {\displaystyle s_{y}} para um valor específico dentro de um intervalo específico de valores, independente de Y ‘s de estratégia, oferecendo uma oportunidade para o X para “extorquir” o jogador Y (e vice-versa). (Acontece que se X tenta definir s x {\displaystyle s_{x}} para um determinado valor, a gama de possibilidades é muito menor, consistindo apenas de cooperação completa ou deserção completa.,)

    uma extensão do IPD é um IPD estocástico evolucionário, no qual a abundância relativa de estratégias particulares é permitido mudar, com estratégias mais bem sucedidas relativamente aumentando. Este processo pode ser realizado por ter jogadores menos bem sucedidos imitando as estratégias mais bem sucedidas, ou eliminando os jogadores menos bem sucedidos do jogo, enquanto multiplica os mais bem sucedidos. Ficou demonstrado que as estratégias desleais da ZD não são evolutivamente estáveis., A intuição chave é que uma evolutivamente estável estratégia não deve apenas ser capaz de invadir outra população (que extortionary ZD estratégias podem fazer), mas também deve funcionar bem contra outros jogadores do mesmo tipo (que extortionary ZD jogadores fazem mal, porque eles reduzem cada excedente).a teoria e simulações confirmam que além de um tamanho crítico da população, a extorsão ZD perde na competição evolucionária contra estratégias mais cooperativas, e como resultado, o retorno médio da população aumenta quando a população é maior., Além disso, há alguns casos em que os extorsionários podem até catalisar a cooperação, ajudando a sair de uma confrontação entre desertores uniformes e agentes win-stay, lose–switch.embora as estratégias ZD extortionárias não sejam estáveis em grandes populações, outra classe ZD chamada de estratégias “generosas” é estável e robusta. Na verdade, quando a população não é muito pequena, essas estratégias podem suplantar qualquer outra estratégia ZD e até mesmo executar bem contra uma ampla gama de estratégias genéricas para o dilema do prisioneiro iterado, incluindo win–stay, lose–switch., Isso foi provado especificamente para o jogo de doação por Alexander Stewart e Joshua Plotkin em 2013. Estratégias generosas irão cooperar com outros jogadores cooperativos, e em face da deserção, o jogador Generoso perde mais utilidade do que seu rival. Estratégias generosas são a interseção de estratégias ZD e as chamadas “boas” estratégias, que foram definidas por Akin (2013) para serem aquelas para as quais o jogador responde à cooperação mútua passada com a cooperação futura e divide os pagamentos esperados igualmente se ele recebe pelo menos o pagamento esperado cooperativo., Entre as boas estratégias, O subconjunto Generoso (ZD) tem um bom desempenho quando a população não é muito pequena. Se a população é muito pequena, as estratégias de deserção tendem a dominar.

    dilemmaEdit do prisioneiro iterado contínuo

    a maioria do trabalho sobre o dilema do prisioneiro iterado tem focado no caso discreto, no qual os jogadores ou cooperam ou desertar, porque este modelo é relativamente simples de analisar. No entanto, alguns pesquisadores têm olhado para modelos do contínuo dilema do prisioneiro, em que os jogadores são capazes de fazer uma contribuição variável para o outro jogador., Le e Boyd descobriram que em tais situações, a cooperação é muito mais difícil de evoluir do que no discreto dilema do prisioneiro. A intuição básica para este resultado é simples: em um dilema do prisioneiro contínuo, se uma população começa em um equilíbrio não cooperativo, os jogadores que são apenas marginalmente mais cooperativos do que não-cooperadores recebem pouco benefício de fazer um jogo entre si. Em contraste, em um dilema de prisioneiro discreto, tit para cooperadores tat obter um grande aumento de pagamento de assorting uns com os outros em um equilíbrio não cooperativo, em relação aos Não cooperadores., Uma vez que a natureza oferece indiscutivelmente mais oportunidades de cooperação variável do que uma dicotomia estrita de cooperação ou deserção, o dilema do prisioneiro contínuo pode ajudar a explicar por que os exemplos da vida real de tit para cooperação tat são extremamente raros na natureza (ex. Hammerstein) apesar de Tita por tat parecer robusta em modelos teóricos.os intervenientes não parecem coordenar a cooperação mútua, pelo que muitas vezes são travados na estratégia inferior, mas estável, de deserção., Desta forma, as rondas iteradas facilitam a evolução de estratégias estáveis. Rodadas iteradas muitas vezes produzem novas estratégias, que têm implicações para a complexa interação social. Uma dessas estratégias é manter-se a perder o turno. Esta estratégia supera uma estratégia simples de “Tit-For-Tat” – isto é, se você pode se safar com batota, repita esse comportamento, no entanto, se você for pego, mude.

    o único problema desta estratégia tit-for-tat é que eles são vulneráveis ao erro de sinal. O problema surge quando um indivíduo engana em retaliação, mas o outro interpreta-o como batota., Como resultado disso, o segundo indivíduo agora engana e, em seguida, começa um padrão de ver-saw de trapaça em uma reação em cadeia.

Articles

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *