dette afsnit kræver yderligere citater til verifikation. Hjælp med at forbedre denne artikel ved at tilføje citater til pålidelige kilder. Ikke-fremskaffede materialer kan udfordres og fjernes. (November 2012) (Lær hvordan og hvornår man skal fjerne denne skabelonmeddelelse)

Hvis to spillere spiller fanges dilemma mere end .n gang i rækkefølge, og de husker tidligere handlinger fra deres modstander og ændrer deres strategi i overensstemmelse hermed, kaldes spillet iterated prisoner ‘ s dilemma.,

I tillæg til den generelle form frem for den iterative version kræver også, at 2 R > T + S {\displaystyle 2R>T+S} , for at forhindre vekslende samarbejde og frafald, der giver en større belønning end det gensidige samarbejde.

det itererede fangers dilemmaspil er grundlæggende for nogle teorier om menneskeligt samarbejde og tillid. På den antagelse, at spillet kan modellere transaktioner mellem to personer, der kræver tillid, samarbejdsadfærd i populationer kan modelleres af en multi-player, itereret, version af spillet., Det har derfor fascineret mange lærde gennem årene. I 1975 anslog Grofman og Pool antallet af videnskabelige artikler, der var afsat til det, til over 2.000. Den itererede fangers dilemma er også blevet omtalt som”fredskrigsspil”.

Hvis spillet spilles nøjagtigt n gange, og begge spillere ved dette, er det optimalt at defekte i alle runder. Den eneste mulige Nash-ligevægt er altid at defekt. Beviset er induktivt: man kan lige så godt defekt på den sidste tur, da modstanderen ikke vil have en chance for senere gengældelse. Derfor vil begge fejl på den sidste tur., Således kan spilleren lige så godt defektere den næstsidste tur, da modstanderen vil defektere den sidste, uanset hvad der gøres, og så videre. Det samme gælder, hvis spillets længde er ukendt, men har en kendt øvre grænse.

i modsætning til standardfangerens dilemma er afhoppningsstrategien modintuitiv og undlader dårligt at forudsige adfærd hos menneskelige spillere. Inden for standard økonomisk teori, selvom, dette er det eneste rigtige svar., Den superrational strategi i gentaget prisoner ‘ s dilemma med fast N er til at samarbejde mod et superrational modstander, og i grænsen for store N, eksperimentelle resultater på strategier enig med superrational version, ikke spil-teoretisk rationel.

for at samarbejde kan opstå mellem spilteoretiske rationelle spillere, skal det samlede antal runder N være ukendt for spillerne. I dette tilfælde kan” altid defekt ” ikke længere være en strengt dominerende strategi, kun en Nash-ligevægt., Blandt resultater vist af Robert Aumann i en 1959 papir, rationelle spillere gentagne gange interagerer for ubestemt lange spil kan opretholde den kooperative resultat.

Ifølge en 2019 eksperimentel undersøgelse i American Economic Review, som har testet hvilke strategier real-life emner, der bruges i gentaget fangernes dilemma situationer med perfekt overvågning flertal af valgte strategier altid var defekt, tit-for-tat, og grim trigger. Hvilken strategi emnerne valgte afhang af parametrene i spillet.,

Strategi for gentaget fange ‘s dilemmaEdit

Interesse i gentaget prisoner’ s dilemma (IPD) var optændt af Robert Axelrod i sin bog Udviklingen af Samarbejdet (1984). I den rapporterer han om en turnering, han organiserede af N step prisoner ‘ s dilemma (med n fast), hvor deltagerne skal vælge deres gensidige strategi igen og igen og have hukommelse af deres tidligere møder. A .elrod inviterede akademiske kolleger over hele verden til at udtænke computerstrategier til at konkurrere i en IPD-turnering., De programmer, der blev indtastet, varierede meget i algoritmisk kompleksitet, indledende fjendtlighed, evne til tilgivelse og så videre.

Tjek opdaget, at når disse møder blev gentaget over en lang periode med mange spillere, hver med forskellige strategier, grådige strategier tendens til at gøre meget dårligt i det lange løb, mens mere altruistiske strategier gjorde det bedre, som bedømmes udelukkende af selv-interesse. Han brugte dette til at vise en mulig mekanisme til udvikling af altruistisk adfærd fra mekanismer, der oprindeligt er rent egoistiske, ved naturlig udvælgelse.,

den vindende deterministiske strategi var tit for tat, som Anatol Rapoport udviklede og indgik i turneringen. Det var den enkleste af ethvert program indtastet, indeholder kun fire linjer af BASIC, og vandt konkurrencen. Strategien er simpelthen at samarbejde om den første iteration af spillet; derefter gør spilleren, hvad hans eller hendes modstander gjorde ved det foregående træk. Afhængig af situationen kan en lidt bedre strategi være “tit for tat med tilgivelse”. Når modstanderen mangler, ved næste træk, samarbejder spilleren undertiden alligevel med en lille sandsynlighed (omkring 1-5%)., Dette giver mulighed for lejlighedsvis genopretning fra at blive fanget i en cyklus af defektioner. Den nøjagtige Sandsynlighed afhænger af modstandernes opstilling.

Ved at analysere topscoringstrategierne udtalte a .elrod flere betingelser, der var nødvendige for, at en strategi kunne lykkes.

Nice den vigtigste betingelse er, at strategien skal være “dejlig”, det vil sige, at den ikke vil defekte, før modstanderen gør det (dette kaldes undertiden en “optimistisk” algoritme)., Næsten alle de top-scoring strategier var rart; derfor, en rent egoistisk strategi vil ikke “snyde” på sin modstander, af rent selvinteresserede grunde først. Gengældelse a .elrod hævdede imidlertid, at den vellykkede strategi ikke må være en blind optimist. Det skal undertiden gengælde. Et eksempel på en ikke-gengældelsesstrategi er altid samarbejde. Dette er et meget dårligt valg, da “grimme” strategier vil hensynsløst udnytte sådanne spillere. Tilgivelse af vellykkede strategier skal også være tilgivende., Selvom spillerne vil gengælde, vil de igen falde tilbage til at samarbejde, hvis modstanderen ikke fortsætter med at defekt. Dette stopper lange løb af hævn og mod-hævn, maksimere point. Ikke-misundelig den sidste kvalitet er ikke-misundelig, det stræber ikke efter at score mere end modstanderen.

den optimale (point-ma .imi .ing) strategi for engangs PD-spillet er simpelthen afhopning; som forklaret ovenfor er dette sandt, uanset hvad modstandernes sammensætning måtte være., Imidlertid, i iterated-PD spil den optimale strategi afhænger af strategier sandsynlige modstandere, og hvordan de vil reagere på frafald og samarbejder. For eksempel overveje en befolkning, hvor alle mangler hver gang, bortset fra et enkelt individ, der følger tit for tat-strategien. Denne person har en lille ulempe på grund af tabet på den første tur. I en sådan befolkning er den optimale strategi for den enkelte at defekt hver gang., I en befolkning med en vis procentdel af altid-afhoppere og resten er tit for tat spillere, den optimale strategi for en person afhænger af procentdelen, og på længden af spillet.

i strategien kaldet Pavlov, winin-stay, lose-s .itch, konfronteret med en manglende samarbejde, spilleren skifter strategi næste tur. Under visse omstændigheder slår Pavlov alle andre strategier ved at give præferencebehandling til medspillere ved hjælp af en lignende strategi.,

der Følger den optimale strategi er normalt gøres på to måder:

  • Bayesian Nash ligevægt: Hvis den statistiske fordeling af modsatrettede strategier kan bestemmes (fx 50% tit for tat, 50% altid samarbejde) en optimal counter-strategi kan udledes analytisk.
  • Monte Carlo simuleringer af populationer er blevet foretaget, hvor personer med lav score dør af, og dem med høj score reproducerer (en genetisk algoritme til at finde en optimal strategi). Blandingen af algoritmer i den endelige befolkning afhænger generelt af blandingen i den oprindelige befolkning., Indførelsen af mutationer (tilfældige variation i yngletiden) mindsker afhængigheden af den oprindelige befolkning empiriske eksperimenter med sådanne systemer har tendens til at producere tit for tat spillere (se for eksempel Skak 1988), men ingen analytisk bevis for, at dette vil altid forekomme.

Selv om tit for tat anses for at være den mest robuste grundlæggende strategi, et hold fra Southampton University i England, indførte en ny strategi på 20-årsdagen gentaget prisoner ‘ s dilemma konkurrence, som viste sig at være mere succesfulde end tit for tat., Denne strategi var afhængig af samtaler mellem programmer for at opnå det højeste antal point for et enkelt program. Universitetet indsendte 60 programmer til konkurrencen, som var designet til at genkende hinanden gennem en serie på fem til ti træk i starten. Når denne anerkendelse blev foretaget, ville et program altid samarbejde, og det andet ville altid være defekt, hvilket sikrer det maksimale antal point for afhopperen. Hvis programmet indså, at det spillede en ikke-Southampton-spiller, ville det kontinuerligt defekt i et forsøg på at minimere scoren for det konkurrerende program., Som et resultat, 2004 fangernes Dilemma turnering resultater viser University of Southampton strategier i de første tre steder, på trods af at have færre sejre og mange flere tab end den dystre strategi. (I en PD-turnering er målet med spillet ikke at “vinde” kampe-det kan let opnås ved hyppig afhopning)., Også, selv uden implicit aftalt spil mellem software strategier (udnyttet af Southampton hold) tit for tat er ikke altid den absolutte vinder af en given turnering; det ville være mere præcist at sige, at dens lange løb resultater over en serie af turneringer, udkonkurrere sine konkurrenter. (Under alle omstændigheder kan en given strategi tilpasses lidt bedre til konkurrencen end tit for tat, men tit for tat er mere robust). Det samme gælder tit for tat med tilgivelsesvariant og andre optimale strategier: på en given dag kan de måske ikke “vinde” mod en bestemt blanding af modstrategier., En alternativ måde at sætte det på er at bruge den Dar .inistiske ESS-simulering. I en sådan simulation, tit for tat vil næsten altid komme til at dominere, selvom ubehagelige strategier vil glide ind og ud af befolkningen, fordi en tit for tat befolkning er gennemtrængelig af ikke-hævnakter godt strategier, som igen er et let bytte for ubehagelige strategier. Richard da .kins viste, at her, Ingen statisk blanding af strategier danner en stabil ligevægt og systemet vil altid oscillere mellem grænserne.,}} denne strategi endte med at tage de tre øverste positioner i konkurrencen, samt en række positioner mod bunden.

Southampton strategi tager fordel af det faktum, at flere poster var tilladt i denne konkurrence, og at udførelsen af et team, der blev målt den højeste score afspiller (hvilket betyder, at brugen af selvopofrende spillere var en form for minmaxing). I en konkurrence, hvor man har kontrol over kun en enkelt spiller, tit for tat er helt sikkert en bedre strategi., På grund af denne nye regel har denne konkurrence også ringe teoretisk betydning, når man analyserer enkeltagentstrategier sammenlignet med a .elrod ‘ s skelsættende turnering. Det gav dog grundlag for at analysere, hvordan man kan opnå samarbejdsstrategier inden for rammer med flere agenter, især i tilfælde af støj. I virkeligheden, længe før denne nye-regler-turnering blev spillet, Dawkins, der i sin bog The Selfish Gene, peget på muligheden af sådanne strategier at vinde, hvis flere poster var tilladt, men han bemærkede, at de fleste sandsynligvis Axelrod ikke ville have tilladt dem, hvis de var blevet forelagt., Det er også baseret på at omgå reglerne om fangernes dilemma i, at der ikke er nogen kommunikation mellem de to spillere, som Southampton-programmer velsagtens gjorde med deres åbning “ti flytte dans” til at anerkende hinanden; dette kun forstærker, hvor værdifulde kommunikation kan være i at flytte balancen i spillet.

stokastisk itereret fanges dilemmaEdit

i et stokastisk itereret fanges dilemmaspil er strategier specificeret af med hensyn til “samarbejdssandsynligheder”., I et møde mellem spiller and og spiller Y er strategy ‘ s strategi specificeret af et sæt sandsynligheder P for at samarbejde med Y. P er en funktion af resultaterne af deres tidligere møder eller en delmængde deraf. Hvis P er en funktion af kun deres seneste n møder, det kaldes en” memory-n ” strategi., En hukommelse-1 strategi er så specificeret af fire samarbejde sandsynligheder: P = { S c c S d c S d c S d d } {\displaystyle P=\{P_{cc},P_{cd},P_{dc},P_{dd}\}} , hvor P en b {\displaystyle P_{ab}} er sandsynligheden for, at X vil samarbejde i den nuværende støder på i betragtning af, at den tidligere møde var præget af (ab). For eksempel, hvis det foregående møde var et, hvor.samarbejdede og Y hoppede, så er pc d {\displaystyle P_{cd}} sandsynligheden for, at. vil samarbejde i det nuværende møde. Hvis hver af sandsynlighederne er enten 1 eller 0, kaldes strategien deterministisk., Et eksempel på en deterministisk strategi er tit for tat strategi skrevet som P={1,0,1,0}, hvor.reagerer som y gjorde i det foregående møde. En anden er den win–ophold, mister–skifte strategi skrives som P={1,0,0,1}, hvor X svarer som i de foregående møder, hvis det var en “vinder” (dvs cc eller dc), men ændrer strategi, hvis det var et tab (dvs cd-eller dd). Det har vist sig, at der for enhver memory-n-strategi er en tilsvarende memory-1-strategi, der giver de samme statistiske resultater, så kun memory-1-strategier skal overvejes.,

Nul-faktor strategiesEdit

forholdet mellem nul-faktor (ZD), samarbejdende og hoppe strategier i gentaget prisoner ‘ s dilemma (IPD) illustreret i et Venn-diagram. Samarbejdende strategier altid samarbejde med andre samarbejdende strategier, og hoppe strategier altid defekt mod andre hoppe strategier. Begge indeholder undergrupper af strategier, der er robuste under stærkt valg, hvilket betyder, at ingen anden hukommelse-1-strategi er valgt til at invadere sådanne strategier, når de er bosiddende i en befolkning., Kun samarbejdende strategier indeholder en delmængde, der altid er robust, hvilket betyder, at ingen anden memory-1 strategi er valgt til at invadere og erstatte sådanne strategier, under både stærk og svag udvælgelse. Skæringspunktet mellem goodd og gode samarbejdende strategier er sæt af Generøse strategiesd strategier. Afpresning strategier er skæringspunktet mellem ZD og ikke-robuste defecting strategier. Tit-for-tat ligger i skæringspunktet mellem samarbejdende, defecting og .d strategier.

Tit-for-tat er en strategyd-strategi, der er “fair” i den forstand, at man ikke får fordel i forhold til den anden spiller., ZD-rummet indeholder dog også strategier, der i tilfælde af to spillere kan tillade en spiller ensidigt at indstille den anden spillers score eller alternativt tvinge en evolutionær spiller til at opnå en udbetaling, der er en procentdel lavere end hans egen. Den udpressede spiller kunne defekt, men ville derved skade sig selv ved at få en lavere udbetaling. Dermed, udpressningsløsninger gør den itererede fanges dilemma til et slags ultimatumspil., Specifikt, X, er i stand til at vælge en strategi for, hvor D ( P , Q , β S y + γ (U ) = 0 {\displaystyle D(P,Q,\beta S_{y}+\gamma U)=0} , ensidigt indstilling af s y {\displaystyle s_{y}} til en bestemt værdi inden for et bestemt interval af værdier, som er uafhængig af Y ‘s strategi, at tilbyde en mulighed for X til at “afpresse” spiller Y (og vice versa). (Det viser sig, at hvis Displ forsøger at indstille s {{\displaystyle s_ {{}} til en bestemt værdi, er mulighederne meget mindre, kun bestående af komplet samarbejde eller fuldstændig afhopning.,)

En udvidelse af IPD er en evolutionær stokastisk IPD, hvor den relative tæthed af særlige strategier er tilladt at ændre, med mere vellykkede strategier relativt stigende. Denne proces kan opnås ved at have mindre succesfulde spillere efterligne de mere succesfulde strategier, eller ved at fjerne mindre succesfulde spillere fra spillet, mens multiplicere de mere succesfulde dem. Det har vist sig, at uretfærdige strategiesd-strategier ikke er evolutionært stabile., Den centrale intuition er, at en evolutionært stabil strategi ikke kun skal kunne invadere en anden befolkning (som ekstortionære strategiesd-strategier kan gøre), men også skal fungere godt mod andre spillere af samme type (hvilke ekstortionære playersd-spillere gør dårligt, fordi de reducerer hinandens overskud).

teori og simuleringer bekræfter, at ud over en kritisk befolkningsstørrelse mister extortiond-udpressning i evolutionær konkurrence mod mere samarbejdsstrategier, og som et resultat øges den gennemsnitlige udbetaling i befolkningen, når befolkningen er større., Hertil kommer, at der er nogle tilfælde, hvor røvere selv kan katalysere samarbejde ved at hjælpe med at bryde ud af en face-off mellem ensartede afhoppere og win–ophold, mister–skifte agenter.mens ekstortionære strategiesd-strategier ikke er stabile i store populationer, er en anden classd-klasse kaldet “Generøse” strategier både stabil og robust. I virkeligheden, når befolkningen ikke er alt for små, disse strategier kan erstatte alle andre ZD strategi og endda klare sig godt mod en bred vifte af generiske strategier for gentaget prisoner ‘ s dilemma, herunder win–ophold, mister–skifte., Dette blev bevist specifikt for donationsspillet af Ale .ander Ste .art og Joshua Plotkin i 2013. Generøse strategier vil samarbejde med andre kooperative spillere, og i lyset af frafald mister den generøse spiller mere nytte end sin rival. Generøse strategier er skæringspunktet mellem strategiesd-strategier og såkaldte “gode” strategier, som blev defineret af Akin (2013) for at være dem, som spilleren reagerer på tidligere gensidigt samarbejde med fremtidigt samarbejde og opdeler forventede udbetalinger lige, hvis han i det mindste modtager kooperativet forventet udbetaling., Blandt gode strategier fungerer den generøse (dd) delmængde godt, når befolkningen ikke er for lille. Hvis befolkningen er meget lille, har afhoppningsstrategier en tendens til at dominere.

kontinuerlig itereret fanges dilemmaEdit

det meste arbejde med det itererede fanges dilemma har fokuseret på det diskrete tilfælde, hvor spillerne enten samarbejder eller mangler, fordi denne model er relativt enkel at analysere. Nogle forskere har imidlertid set på modeller af det kontinuerlige itererede fanges dilemma, hvor spillerne er i stand til at yde et variabelt Bidrag til den anden spiller., Le og Boyd fandt, at samarbejdet i sådanne situationer er meget sværere at udvikle sig end i det diskrete itererede fanges dilemma. Den grundlæggende intuition for dette resultat er ligetil: i en kontinuerlig prisoner ‘ s dilemma, hvis en befolkning, der starter i et ikke-kooperative ligevægt, spillere, der kun er marginalt mere samarbejdsvillig end ikke-samarbejdspartnere, få lidt gavn af assorting med hinanden. Derimod, i en diskret fangers dilemma, tit for tat samarbejdspartnere får en stor payoff boost fra assortering med hinanden i en ikke-kooperativ ligevægt, i forhold til ikke-samarbejdspartnere., Da naturen uden tvivl tilbyder flere muligheder for variabelt samarbejde snarere end en streng dikotomi af samarbejde eller afhopning, kan den kontinuerlige fanges dilemma hjælpe med at forklare, hvorfor eksempler på tit i det virkelige liv til tat-lignende samarbejde er ekstremt sjældne i naturen (f.eks. Hammerstein) selvom tit for tat virker robust i teoretiske modeller.

fremkomsten af stabile strategierediger

spillere kan ikke synes at koordinere gensidigt samarbejde, og bliver derfor ofte låst ind i den underordnede, men stabile strategi for afhopning., På denne måde letter itererede runder udviklingen af stabile strategier. Itererede runder producerer ofte nye strategier, som har konsekvenser for kompleks social interaktion. En sådan strategi er winin-stay lose-shift. Denne strategi overgår en simpel Tit-For-Tat-strategi – det vil sige, hvis du kan slippe af sted med snyd, gentag denne adfærd, men hvis du bliver fanget, skift.

det eneste problem med denne tit-for-tat-strategi er, at de er sårbare over for signalfejl. Problemet opstår, når en person snyder i gengældelse, men den anden fortolker det som snyd., Som et resultat af dette, den anden person snyder nu, og så starter det et se-sa pattern-mønster af snyd i en kædereaktion.

Articles

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *