cette section nécessite des citations supplémentaires pour vérification. S  » il vous plaît aider à améliorer cet article en ajoutant des citations à des sources fiables. Le matériel non approvisionné peut être contesté et retiré. (Novembre 2012) (découvrez comment et quand Supprimer ce modèle de message)

Si deux joueurs jouent le dilemme du prisonnier plus d’une fois de suite et qu’ils se souviennent des actions précédentes de leur adversaire et changent leur stratégie en conséquence, le jeu est appelé dilemme du prisonnier itéré.,

en plus de la forme générale ci-dessus, la version itérative nécessite également que 2 R>T + s {\displaystyle 2R> t+s} , pour éviter une alternance de coopération et de défection donnant une plus grande récompense que la coopération mutuelle.

Le jeu itéré du dilemme du prisonnier est fondamental pour certaines théories de la coopération et de la confiance humaines. En supposant que le jeu peut modéliser des transactions entre deux personnes nécessitant la confiance, le comportement coopératif dans les populations peut être modélisé par une version multi-joueurs, itérée, du jeu., Il a, par conséquent, fasciné de nombreux chercheurs au fil des ans. En 1975, Grofman et Pool estimaient le nombre d’articles scientifiques qui lui étaient consacrés à plus de 2 000. Le dilemme du prisonnier itéré a également été appelé le « jeu paix-guerre ».

Si le jeu est joué exactement N fois et que les deux joueurs le savent, il est optimal de faire défaut à tous les tours. Le seul équilibre de Nash est toujours défaut. La preuve est inductive: autant faire défaut au dernier tour, puisque l’adversaire n’aura pas la possibilité de riposter plus tard. Par conséquent, les deux feront défaut au dernier tour., Ainsi, le joueur peut ainsi défaut sur l’avant-dernier tour, puisque l’adversaire défaut sur le dernier peu importe ce qui est fait, et ainsi de suite. Il en va de même si la durée du jeu est inconnue mais a une limite supérieure connue.

contrairement au dilemme du prisonnier standard, dans le dilemme du prisonnier itéré, la stratégie de défection est contre-intuitive et ne parvient pas à prédire le comportement des joueurs humains. Dans la théorie économique standard, cependant, c’est la seule réponse correcte., La stratégie superrationnelle dans le dilemme du prisonnier itéré avec n fixe est de coopérer contre un adversaire superrationnel, et dans la limite du Grand N, les résultats expérimentaux sur les stratégies sont d’accord avec la version superrationnelle, pas avec la version rationnelle théorique du jeu.

pour que la coopération émerge entre les joueurs rationnels théoriciens du jeu, le nombre total de tours N doit être Inconnu des joueurs. Dans ce cas, » toujours défaut  » peut ne plus être une stratégie strictement dominante, seulement un équilibre de Nash., Parmi les résultats montrés par Robert Aumann dans un article de 1959, les joueurs rationnels interagissant à plusieurs reprises pour des jeux indéfiniment longs peuvent soutenir le résultat coopératif.

selon une étude expérimentale de 2019 dans L’American Economic Review qui a testé les stratégies utilisées par les sujets de la vie réelle dans les situations de dilemme itéré des prisonniers avec un suivi parfait, la majorité des stratégies choisies étaient toujours défectueuses, tit-for-tat et grim trigger. La stratégie choisie par les sujets dépendait des paramètres du jeu.,

Strategy for the iterated prisoner’s dilemmaEdit

L’intérêt pour le dilemme du prisonnier itéré (IPD) a été suscité par Robert Axelrod dans son livre The Evolution of Cooperation (1984). Dans ce document, il rend compte d’un tournoi qu’il a organisé du dilemme du prisonnier de L’étape N (avec n fixe) dans lequel les participants doivent choisir leur stratégie mutuelle encore et encore, et ont la mémoire de leurs rencontres précédentes. Axelrod a invité des collègues universitaires du monde entier à concevoir des stratégies informatiques pour participer à un tournoi IPD., Les programmes qui ont été entrés variaient largement en complexité algorithmique, hostilité initiale, capacité de pardon, etc.

Axelrod a découvert que lorsque ces rencontres se répétaient sur une longue période avec de nombreux joueurs, chacun avec des stratégies différentes, les stratégies gourmandes avaient tendance à faire très mal à long terme tandis que les stratégies plus altruistes faisaient mieux, comme jugé uniquement par intérêt personnel. Il a utilisé cela pour montrer un mécanisme possible pour l’évolution du comportement altruiste à partir de mécanismes qui sont initialement purement égoïstes, par sélection naturelle.,

la stratégie déterministe gagnante était tit for tat, Qu’Anatol Rapoport a développé et a participé au tournoi. Il était le plus simple de tous les programmes inscrits, contenant seulement quatre lignes de base, et a remporté le concours. La stratégie consiste simplement à coopérer lors de la première itération du jeu; après cela, le Joueur fait ce que son adversaire a fait lors du mouvement précédent. Selon la situation, une stratégie légèrement meilleure peut être « tit for tat with forgiveness ». Lorsque l’adversaire défaille, au prochain coup, le joueur coopère parfois de toute façon, avec une faible probabilité (environ 1-5%)., Cela permet une récupération occasionnelle après avoir été piégé dans un cycle de défections. La probabilité exacte dépend de l’alignement des adversaires.

en analysant les stratégies les mieux notées, Axelrod a énoncé plusieurs conditions nécessaires à la réussite d’une stratégie.

Nice La condition la plus importante est que la stratégie doit être « agréable », c’est-à-dire qu’elle ne défera pas avant son adversaire (on parle parfois d’algorithme « optimiste »)., Presque toutes les stratégies de meilleur score étaient agréables; par conséquent, une stratégie purement égoïste ne « trichera » pas sur son adversaire, pour des raisons purement intéressées d’abord. En représailles cependant, Axelrod a soutenu, la stratégie réussie ne doit pas être un optimiste aveugle. Il doit parfois riposter. Un exemple de stratégie de non-représailles est toujours coopérer. C’est un très mauvais choix, car les stratégies « méchantes » exploiteront impitoyablement ces joueurs. Pardonner les stratégies réussies doivent aussi être pardonner., Bien que les joueurs riposteront, ils se rabattront à nouveau sur la coopération si l’adversaire ne continue pas à faire défaut. Cela arrête les longues séries de vengeance et de contre-vengeance, maximisant les points. Non-envieux la dernière qualité est d’être non-envieux, c’est-à-dire de ne pas s’efforcer de marquer plus que l’adversaire.

la stratégie optimale (maximisant les points) pour le jeu de PD unique est simplement la défection; comme expliqué ci-dessus, cela est vrai quelle que soit la composition des adversaires., Cependant, dans le jeu itéré-PD, la stratégie optimale dépend des stratégies des adversaires probables et de la façon dont ils réagiront aux défections et aux coopérations. Par exemple, considérons une population où tout le monde se déforme à chaque fois, à l’exception d’un seul individu suivant la stratégie tit for tat. Cette personne est légèrement désavantagée en raison de la perte au premier tour. Dans une telle population, la stratégie optimale pour cet individu est de faire défaut à chaque fois., Dans une population avec un certain pourcentage de toujours transfuges et le reste étant tit pour les joueurs tat, la stratégie optimale pour un individu dépend du pourcentage, et sur la durée du jeu.

dans la stratégie appelée Pavlov, win-stay, lose-switch, face à un échec de coopération, le Joueur change de stratégie au tour suivant. Dans certaines circonstances, Pavlov bat toutes les autres stratégies en accordant un traitement préférentiel aux co-joueurs utilisant une stratégie similaire.,

la dérivation de la stratégie optimale se fait généralement de deux manières:

  • équilibre bayésien de Nash: si la distribution statistique des stratégies opposées peut être déterminée (par exemple 50% tit pour tat, 50% coopèrent toujours), une contre-stratégie optimale peut être dérivée analytiquement.
  • des simulations Monte Carlo de populations ont été faites, où les individus avec des scores faibles meurent, et ceux avec des scores élevés se reproduisent (un algorithme génétique pour trouver une stratégie optimale). La combinaison des algorithmes dans la population finale dépend généralement le mélange dans la population initiale., L’introduction de la mutation (variation aléatoire au cours de la reproduction) diminue la dépendance à l’égard de la population initiale; les expériences empiriques avec de tels systèmes ont tendance à produire des tit pour les joueurs de tat (voir par exemple Chess 1988), mais aucune preuve analytique n’existe que cela se produira toujours.

bien que tit for tat soit considéré comme la stratégie de base la plus robuste, une équipe de L’Université de Southampton en Angleterre a introduit une nouvelle stratégie lors du concours de dilemme du prisonnier itéré du 20e anniversaire, qui s’est avéré plus efficace que tit for tat., Cette stratégie reposait sur la collusion entre les programmes pour obtenir le plus grand nombre de points pour un seul programme. L’université a soumis 60 programmes au concours, qui ont été conçus pour se reconnaître à travers une série de cinq à dix mouvements au début. Une fois cette reconnaissance faite, un programme coopérerait toujours et l’autre ferait toujours défaut, assurant le nombre maximum de points pour le transfuge. Si le programme réalisait qu’il jouait un joueur non-Southampton, il ferait continuellement défaut pour tenter de minimiser le score du programme concurrent., En conséquence, les résultats du tournoi 2004 Prisoners ‘ Dilemma montrent les stratégies de L’Université de Southampton dans les trois premières places, malgré moins de victoires et beaucoup plus de défaites que la stratégie sombre. (Dans un tournoi PD, le but du jeu n’est pas de « gagner » des matchs – ce qui peut facilement être réalisé par des défections fréquentes)., En outre, même sans collusion implicite entre les stratégies logicielles (exploitées par L’équipe de Southampton) tit for tat n’est pas toujours le vainqueur absolu d’un tournoi donné; il serait plus précis de dire que ses résultats à long terme sur une série de tournois surpassent ses rivaux. (Dans n’importe quel événement, une stratégie donnée peut être légèrement mieux adaptée à la concurrence que tit for tat, mais tit for tat est plus robuste). Il en va de même pour la variante tit for tat avec pardon, et d’autres stratégies optimales: un jour donné, ils pourraient ne pas « gagner » contre un mélange spécifique de contre-stratégies., Une autre façon de le dire est d’utiliser la simulation darwinienne ESS. Dans une telle simulation, tit for tat viendra presque toujours à dominer, bien que les stratégies méchantes dériveront Dans et hors de la population parce qu’une population tit for tat est pénétrable par de belles stratégies non-représailles, qui à leur tour sont des proies faciles pour les stratégies méchantes. Richard Dawkins a montré qu’ici, aucun mélange statique de stratégies ne forme un équilibre stable et que le système oscillera toujours entre les limites.,}} cette stratégie a fini par prendre les trois premiers de la compétition, ainsi qu’un certain nombre de positions vers le bas.

la stratégie de Southampton tire parti du fait que plusieurs participations étaient autorisées dans cette compétition particulière et que la performance d’une équipe était mesurée par celle du joueur le plus marquant (ce qui signifie que l’utilisation de joueurs se sacrifiant était une forme de minmaxing). Dans une compétition où l’on a le contrôle d’un seul joueur, tit for tat est certainement une meilleure stratégie., En raison de cette nouvelle règle, cette compétition a également peu de signification théorique lors de l’analyse des stratégies à agent unique par rapport au tournoi séminal D’Axelrod. Cependant, il a fourni une base pour analyser comment parvenir à des stratégies de coopération dans des cadres multi-agents, en particulier en présence de bruit. En fait, bien avant que ce tournoi de nouvelles règles ne soit joué, Dawkins, dans son livre The Selfish Gene, a souligné la possibilité de telles stratégies gagnantes si plusieurs entrées étaient autorisées, mais il a fait remarquer que très probablement Axelrod ne les aurait pas autorisées si elles avaient été soumises., Il repose également sur le contournement des règles sur le dilemme du prisonnier en ce sens qu’il n’y a pas de communication autorisée entre les deux joueurs, ce que les programmes de Southampton ont sans doute fait avec leur ouverture « ten move dance » pour se reconnaître; cela ne fait que renforcer à quel point la communication peut être précieuse pour changer

dilemme du prisonnier itéré stochastiquemodifier

dans un jeu de dilemme du prisonnier itéré stochastique, les stratégies sont spécifiées par en termes de « probabilités de coopération »., Dans une rencontre entre le joueur X et le joueur Y, la stratégie de X est spécifiée par un ensemble de probabilités P de coopérer avec Y. P est fonction des résultats de leurs rencontres précédentes ou d’un sous-ensemble de celles-ci. SI P n’est fonction que de leurs N rencontres les plus récentes, on parle de stratégie « memory-n »., Une stratégie memory-1 est alors spécifiée par quatre probabilités de coopération: P = {P c c, P c d, P d c, p d d} {\displaystyle P=\ {P_{cc},P_{cd},P_{dc},P_ {dd}\}}, où P a B {\displaystyle P_ {ab}} est la probabilité que X coopère dans la rencontre présente étant donné que la rencontre précédente était caractérisée par (ab). Par exemple, si la rencontre précédente était une rencontre dans laquelle X a coopéré et Y a fait défection, alors P c D {\displaystyle P_{cd}} est la probabilité que X coopère dans la rencontre présente. Si chacune des probabilités est 1 ou 0, la stratégie est appelée déterministe., Un exemple de stratégie déterministe est la stratégie tit for tat écrite comme p={1,0,1,0}, dans laquelle X répond comme Y l’a fait dans la rencontre précédente. Une autre est la stratégie win–stay, lose–switch écrite comme P = {1,0,0,1}, dans laquelle X répond comme dans la rencontre précédente, s’il s’agissait d’une « victoire » (c.-à-d. cc ou dc) mais change de stratégie s’il s’agissait d’une perte (c.-à-d. cd ou dd). Il a été montré que pour toute stratégie memory-n, Il existe une stratégie memory-1 correspondante qui donne les mêmes résultats statistiques, de sorte que seules les stratégies memory-1 doivent être prises en compte.,

stratégies à déterminant Nulmodifier

la relation entre les stratégies à déterminant nul (ZD), de coopération et de défection dans le dilemme du prisonnier itéré (IPD) illustrée dans un diagramme de Venn. Les stratégies de coopération coopèrent toujours avec d’autres stratégies de coopération, et les stratégies de défection font toujours défaut contre d’autres stratégies de défection. Les deux contiennent des sous-ensembles de stratégies qui sont robustes sous forte sélection, ce qui signifie qu’aucune autre stratégie memory-1 n’est sélectionnée pour envahir de telles stratégies lorsqu’elles résident dans une population., Seules les stratégies de coopération contiennent un sous-ensemble toujours robuste, ce qui signifie qu’aucune autre stratégie memory-1 n’est sélectionnée pour envahir et remplacer de telles stratégies, sous sélection forte et faible. L’intersection entre ZD et bonnes stratégies de coopération est l’ensemble des stratégies ZD généreuses. Les stratégies d’extorsion sont l’intersection entre ZD et les stratégies de défection non robustes. Tit-for-tat se situe à l’intersection des stratégies de coopération, de défection et de ZD.

Tit-for-tat est une ZD stratégie qui est « juste » dans le sens de ne pas prendre l’avantage sur les autres joueurs., Cependant, L’espace ZD contient également des stratégies qui, dans le cas de deux joueurs, peuvent permettre à un joueur de définir unilatéralement le score de l’autre joueur ou, alternativement, forcer un joueur évolutif à obtenir un gain d’un pourcentage inférieur au sien. Le joueur extorqué pourrait faire défaut, mais se blesserait ainsi en obtenant un gain inférieur. Ainsi, les solutions d’extorsion transforment le dilemme du prisonnier itéré en une sorte de jeu d’ultimatum., Plus précisément, X est capable de choisir une stratégie pour laquelle D ( P , Q , β s y + γ U ) = 0 {\displaystyle D(P,Q,\beta s_{y}+\gamma U)=0} , en définissant unilatéralement s y {\displaystyle s_{y}} à une valeur spécifique dans une plage de valeurs particulière, indépendante de la stratégie de Y, offrant la possibilité à X d ‘ »extorquer » le joueur Y (et vice versa). (Il s’avère que si X essaie de définir s x {\displaystyle s_ {x}} à une valeur particulière, l’éventail des possibilités est beaucoup plus petit, uniquement constitué d’une coopération complète ou d’une défection complète.,)

une extension de L’IPD est une IPD stochastique évolutive, dans laquelle l’abondance relative de stratégies particulières est autorisée à changer, les stratégies les plus réussies augmentant relativement. Ce processus peut être accompli en demandant aux joueurs moins performants d’imiter les stratégies les plus réussies, ou en éliminant les joueurs moins performants du jeu, tout en multipliant les plus réussis. Il a été démontré que les stratégies ZD injustes ne sont pas stables sur le plan évolutif., L’intuition clé est qu’une stratégie évolutivement stable doit non seulement être capable d’envahir une autre population (ce que les stratégies ZD extortionnaires peuvent faire) mais doit également bien performer contre d’autres joueurs du même type (ce que les joueurs ZD extortionnaires font mal, car ils réduisent le surplus de l’autre).

La théorie et les simulations confirment qu’au-delà d’une taille critique de population, l’extorsion de ZD perd dans la compétition évolutive contre des stratégies plus coopératives, et par conséquent, le gain moyen dans la population augmente lorsque la population est plus grande., En outre, dans certains cas, les extorqueurs peuvent même catalyser la coopération en aidant à sortir d’une confrontation entre des transfuges uniformes et des agents gagnants et perdants.

alors que les stratégies ZD extortionnaires ne sont pas stables dans de grandes populations, une autre classe de ZD appelée stratégies « généreuses » est à la fois stable et robuste. En fait, lorsque la population n’est pas trop petite, ces stratégies peuvent supplanter toute autre stratégie ZD et même bien performer contre un large éventail de stratégies génériques pour le dilemme du prisonnier itéré, y compris win–stay, lose–switch., Cela a été prouvé spécifiquement pour le jeu de don par Alexander Stewart et Joshua Plotkin en 2013. Les stratégies généreuses coopéreront avec d’autres joueurs coopératifs, et face à la défection, le joueur généreux perd plus d’utilité que son rival. Les stratégies généreuses sont l’intersection des stratégies ZD et des stratégies dites « bonnes », qui ont été définies par Akin (2013) comme étant celles pour lesquelles le joueur répond à la coopération mutuelle passée avec la coopération future et divise également les gains attendus s’il reçoit au moins le gain attendu coopératif., Parmi les bonnes stratégies, le sous-ensemble généreux (ZD) fonctionne bien lorsque la population n’est pas trop petite. Si la population est très petite, les stratégies de défection ont tendance à dominer.

dilemme du prisonnier itéré Continuemodifier

La plupart des travaux sur le dilemme du prisonnier itéré se sont concentrés sur le cas discret, dans lequel les joueurs coopèrent ou font défaut, car ce modèle est relativement simple à analyser. Cependant, certains chercheurs ont examiné des modèles du dilemme du prisonnier itéré continu, dans lequel les joueurs sont en mesure d’apporter une contribution variable à l’autre joueur., Le et Boyd ont constaté que dans de telles situations, la coopération est beaucoup plus difficile à évoluer que dans le dilemme du prisonnier itéré discret. L’intuition de base de ce résultat est simple: dans le dilemme d’un prisonnier continu, si une population commence dans un équilibre non coopératif, les joueurs qui ne sont que marginalement plus coopératifs que les non-coopérateurs obtiennent peu d’avantages à s’associer les uns aux autres. En revanche, dans le dilemme d’un prisonnier discret, les coopérateurs tit for tat obtiennent un gros gain En s’assortissant les uns avec les autres dans un équilibre non coopératif, par rapport aux non coopérateurs., Étant donné que la nature offre sans doute plus de possibilités de coopération variable plutôt qu’une dichotomie stricte de coopération ou de défection, le dilemme continu du prisonnier peut aider à expliquer pourquoi les exemples réels de coopération de type tit for tat sont extrêmement rares dans la nature (ex. Hammerstein) même si tit for tat semble robuste dans les modèles théoriques.

émergence de stratégies stablesmodifier

Les joueurs ne semblent pas coordonner la coopération mutuelle, donc souvent enfermés dans la stratégie inférieure mais stable de la défection., De cette façon, les cycles itérés facilitent l’évolution de stratégies stables. Les cycles itérés produisent souvent de nouvelles stratégies, qui ont des implications pour une interaction sociale complexe. Une telle stratégie est de gagner un séjour à perdre-shift. Cette stratégie surpasse une simple stratégie Tit-For-Tat – c  » est, si vous pouvez vous en sortir avec la tricherie, répéter ce comportement, mais si vous vous faites prendre, changer.

le seul problème de cette stratégie tit-for-tat est qu’ils sont vulnérables aux erreurs de signal. Le problème se pose lorsqu’un individu triche en représailles, mais l’autre l’interprète comme de la tricherie., À la suite de cela, le deuxième individu triche maintenant, puis il commence un schéma de tricherie dans une réaction en chaîne.

Articles

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *