detta avsnitt behöver ytterligare citeringar för verifiering. Vänligen bidra till att förbättra denna artikel genom att lägga citat till tillförlitliga källor. Oskyddat material kan ifrågasättas och avlägsnas. (November 2012) (lär dig hur och när du ska ta bort det här mallmeddelandet)

om två spelare spelar fånges dilemma mer än en gång i följd och de kommer ihåg tidigare handlingar av sin motståndare och ändrar sin strategi i enlighet därmed kallas spelet itererat fånges dilemma.,

förutom den allmänna formen ovan kräver den iterativa versionen också att 2 r > t + s {\displaystyle 2R>t+s} , för att förhindra växlande samarbete och avhopp ger en större belöning än ömsesidigt samarbete.

den itererade fången dilemma spelet är grundläggande för vissa teorier om mänskligt samarbete och förtroende. På antagandet att spelet kan modellera transaktioner mellan två personer som kräver förtroende, kan kooperativt beteende i populationer modelleras av en multi-player, itererad, version av spelet., Det har följaktligen fascinerat många forskare genom åren. År 1975 uppskattade Grofman och Pool räkningen av vetenskapliga artiklar som ägnades åt det till över 2,000. Den itererade fångens dilemma har också kallats ”fredskrigets spel”.

om spelet spelas exakt N gånger och båda spelarna vet detta, är det optimalt att defekta i alla rundor. Den enda möjliga Nash jämvikt är att alltid defekt. Beviset är induktivt: man kan lika gärna defekta på sista vändningen, eftersom motståndaren inte kommer att ha en chans att senare hämnas. Därför kommer båda att defekta på sista svängen., Således kan spelaren lika gärna defekta på den andra till sista svängen, eftersom motståndaren kommer att defekta på den sista oavsett vad som görs och så vidare. Detsamma gäller om spellängden är okänd men har en känd övre gräns.

Till skillnad från standard fången dilemma, i den itererade fången dilemma avhopp strategin är kontraintuitiv och misslyckas dåligt att förutsäga beteendet hos mänskliga spelare. Inom standard ekonomisk teori är detta dock det enda rätta svaret., Den superrationella strategin i den itererade fångens dilemma med fixed N är att samarbeta mot en superrationell motståndare, och i gränsen för stora n är experimentella resultat på strategier överens med den superrationella versionen, inte den spelteoretiska rationella.

för att samarbetet ska uppstå mellan spelteoretiska rationella spelare måste det totala antalet rundor N vara okänt för spelarna. I det här fallet kan” alltid defekt ” inte längre vara en strikt dominerande strategi, bara en Nash-jämvikt., Bland resultaten av Robert Aumann i en 1959 papper, rationella spelare upprepade gånger interagerar på obestämd tid långa spel kan upprätthålla kooperativa resultatet.

enligt EN 2019 experimentell studie i American Economic Review som testade vilka strategier verkliga ämnen som användes i itererade fångars dilemma situationer med perfekt övervakning var majoriteten av valda strategier alltid defekt, tit-for-tat och grim trigger. Vilken strategi ämnena valde berodde på parametrarna i spelet.,

strategi för den itererade fången dilemmaEdit

intresse för den itererade fången dilemma (IPD) tändes av Robert Axelrod i sin bok The Evolution of Cooperation (1984). I det rapporterar han om en turnering som han organiserade av n step fången dilemma (med n fast) där deltagarna måste välja sin ömsesidiga strategi om och om igen, och har minne av sina tidigare möten. Axelrod uppmanade akademiska kollegor över hela världen att utarbeta datorstrategier för att tävla i en IPD-turnering., De program som infördes varierade mycket i algoritmisk komplexitet, initial fientlighet, förmåga till förlåtelse och så vidare.

Axelrod upptäckte att när dessa möten upprepades under en lång tid med många spelare, var och en med olika strategier, tenderade giriga strategier att göra mycket dåligt på lång sikt medan fler altruistiska strategier gjorde bättre, vilket bedömdes rent av egenintresse. Han använde detta för att visa en möjlig mekanism för utvecklingen av altruistiskt beteende från mekanismer som ursprungligen är rent själviska, genom naturligt urval.,

den vinnande deterministiska strategin var tit för tat, som Anatol Rapoport utvecklade och gick in i turneringen. Det var det enklaste av alla program som gick in, innehållande endast fyra rader av grundläggande, och vann tävlingen. Strategin är helt enkelt att samarbeta på den första iterationen av spelet; efter det, spelaren gör vad hans eller hennes motståndare gjorde på föregående drag. Beroende på situationen kan en något bättre strategi vara ”tit för tat med förlåtelse”. När motståndaren brister, på nästa drag, samarbetar spelaren ibland ändå, med en liten sannolikhet (cirka 1-5%)., Detta möjliggör tillfällig återhämtning från att fastna i en cykel av defektioner. Den exakta sannolikheten beror på motståndarnas uppställning.

genom att analysera toppbetyg strategier, Axelrod uppgav flera villkor som krävs för en strategi för att lyckas.

trevligt det viktigaste villkoret är att strategin måste vara ”trevlig”, det vill säga det kommer inte att defekta innan motståndaren gör det (det här kallas ibland en” optimistisk ” algoritm)., Nästan alla de bästa poängstrategierna var trevliga; därför kommer en rent självisk strategi inte att” fuska ” på sin motståndare, av rent självintresserade skäl först. Men Axelrod hävdade att den framgångsrika strategin inte får vara en blind optimist. Det måste ibland hämnas. Ett exempel på en icke-retaliating strategi är alltid samarbeta. Detta är ett mycket dåligt val, eftersom” otäcka ” strategier kommer hänsynslöst att utnyttja sådana spelare. Att förlåta framgångsrika strategier måste också vara förlåtande., Även om spelarna kommer att hämnas, kommer de återigen att falla tillbaka till samarbete om motståndaren inte fortsätter att defekta. Detta stoppar långa körningar av hämnd och mot hämnd, maximera poäng. Icke-avundsjuk den sista kvaliteten är att vara icke-avundsjuk, som inte strävar efter att göra mer än motståndaren.

den Optimala (poäng-maximera) strategi för engångs PD spelet är helt enkelt avhopp; som förklaras ovan, Detta är sant oavsett sammansättningen av motståndare kan vara., Men i itererade-PD-spelet beror den optimala strategin på strategierna för troliga motståndare och hur de kommer att reagera på defektioner och samarbeten. Tänk till exempel på en population där alla brister varje gång, förutom en enskild individ som följer tit for tat-strategin. Den personen har en liten nackdel på grund av förlusten vid första vändningen. I en sådan befolkning är den optimala strategin för den personen att defekta varje gång., I en population med en viss procentandel av alltid defektorer och resten är tit för tat-spelare beror den optimala strategin för en individ på procentandelen och på spelets längd.

i strategin Pavlov, win-stay, lose-switch, inför ett misslyckande att samarbeta, spelaren växlar strategi nästa tur. Under vissa omständigheter slår Pavlov alla andra strategier genom att ge förmånsbehandling till medspelare som använder en liknande strategi.,

att härleda den optimala strategin görs i allmänhet på två sätt:

  • Bayesian Nash equilibrium: om den statistiska fördelningen av motsatta strategier kan bestämmas (t. ex. 50% tit för tat, 50% samarbetar alltid) kan en optimal motstrategi härledas analytiskt.
  • Monte Carlo-simuleringar av populationer har gjorts, där individer med låga poäng dör av och de med höga poäng reproducerar (en genetisk algoritm för att hitta en optimal strategi). Blandningen av algoritmer i den slutliga befolkningen beror i allmänhet på blandningen i den ursprungliga befolkningen., Införandet av mutation (slumpmässig variation under reproduktion) minskar beroendet av den ursprungliga befolkningen; empiriska experiment med sådana system tenderar att producera tit för tat-spelare (se till exempel Schack 1988), men det finns inget analytiskt bevis på att detta alltid kommer att inträffa.

även om tit för tat anses vara den mest robusta grundläggande strategin, introducerade ett team från Southampton University i England en ny strategi vid 20-årsjubileet itererad fånges dilemma-tävling, vilket visade sig vara mer framgångsrikt än tit för tat., Denna strategi förlitade sig på samverkan mellan program för att uppnå det högsta antalet poäng för ett enda program. Universitetet lämnade 60 program till tävlingen, som var utformade för att känna igen varandra genom en serie av fem till tio drag i början. När detta erkännande gjordes, ett program skulle alltid samarbeta och den andra skulle alltid defekt, vilket garanterar det maximala antalet poäng för avhopparen. Om programmet insåg att det spelade en icke-Southampton-spelare, skulle det kontinuerligt defekta i ett försök att minimera poängen för det konkurrerande programmet., Som ett resultat visar 2004 fångarnas Dilemma turneringsresultat University of Southamptons strategier på de tre första platserna, trots att de har färre vinster och många fler förluster än den grymma strategin. (I en PD-turnering är syftet med spelet inte att ”vinna” matcher – som lätt kan uppnås genom frekvent avhopp)., Även utan implicit samverkan mellan mjukvarustrategier (utnyttjas av Southampton laget) tit för tat är inte alltid den absoluta vinnaren av en viss turnering; det skulle vara mer exakt att säga att dess långsiktiga resultat över en serie turneringar överträffar sina rivaler. (I vilket fall som helst kan en viss strategi anpassas något bättre till tävlingen än tit för tat, men tit för tat är mer robust). Detsamma gäller för tit för tat med förlåtelse variant, och andra optimala strategier: på en viss dag de kanske inte ”vinna” mot en specifik blandning av motstrategier., Ett alternativt sätt att uttrycka det är att använda Darwinian ess-simuleringen. I en sådan simulering kommer tit för tat nästan alltid att dominera, men otäcka strategier kommer att glida in och ut ur befolkningen eftersom en tit för tat-befolkningen är penetrerbar av icke-retaliating fina strategier, vilket i sin tur är lätta byte för de otäcka strategierna. Richard Dawkins visade att här bildar ingen statisk blandning av strategier en stabil jämvikt och systemet kommer alltid att svänga mellan gränserna.,}} denna strategi slutade med att ta de tre bästa positionerna i tävlingen, liksom ett antal positioner mot botten.

Southampton-strategin utnyttjar det faktum att flera poster var tillåtna i denna speciella tävling och att ett lags prestanda mättes av den högsta poängspelaren (vilket innebär att användningen av självuppoffrande spelare var en form av minmaxing). I en tävling där man har kontroll över endast en enda spelare är tit för tat verkligen en bättre strategi., På grund av denna nya regel har denna tävling också liten teoretisk betydelse vid analys av enstaka agentstrategier jämfört med Axelrods seminalturnering. Det gav dock en grund för att analysera hur man kan uppnå samarbetsstrategier i multiagentramar, särskilt i närvaro av buller. I själva verket, långt innan denna nya regler turnering spelades, Dawkins, i sin bok Den själviska genen, påpekade möjligheten att sådana strategier vinna om flera poster var tillåtna, men han påpekade att troligen Axelrod inte skulle ha tillåtit dem om de hade lämnats in., Det bygger också på att kringgå regler om fångens dilemma genom att det inte finns någon kommunikation tillåten mellan de två spelarna, som Southampton-programmen förmodligen gjorde med deras öppning ”ten move dance” för att känna igen varandra; detta förstärker bara hur värdefull kommunikation kan vara att flytta balansen i spelet.

stokastisk itererad fånge dilemmaEdit

i en stokastisk itererad fånge dilemma spel, strategier specificeras av i termer av ”samarbete sannolikheter”., I ett möte mellan spelare X och spelare Y anges X: s strategi av en uppsättning sannolikheter P att samarbeta med Y. P är en funktion av resultaten av deras tidigare möten eller någon delmängd därav. Om P är en funktion av endast deras senaste n-möten kallas det en” memory-n ” – strategi., En memory-1-strategi specificeras sedan av fyra samarbetsproblem: p = {p c c , p c d , p d c , p d d } {\displaystyle P=\{p_{cc},p_{cd},p_{dc},p_{dd}\}} , där p a b {\displaystyle P_{ab}} är sannolikheten att X kommer att samarbeta i det nuvarande mötet med tanke på att det tidigare mötet präglades av (ab). Till exempel, om det tidigare mötet var ett Där X samarbetade och Y hoppade av, är p c d {\displaystyle P_{cd}} sannolikheten att X kommer att samarbeta i det nuvarande mötet. Om var och en av sannolikheterna är antingen 1 eller 0 kallas strategin deterministisk., Ett exempel på en deterministisk strategi är tit för tat-strategi skriven som p = {1,0,1,0}, där X svarar Som Y gjorde i föregående möte. En annan är win-stay, lose-switch strategi skriven som p = {1,0,0,1}, där X svarar som i föregående möte, om det var en ”win” (dvs cc eller dc) men ändrar strategi om det var en förlust (dvs cd eller dd). Det har visat sig att för varje minne-n-strategi finns en motsvarande Minne-1-strategi som ger samma statistiska resultat, så att endast Minne-1-strategier behöver beaktas.,

Nolldeterminantstrategiesedit

förhållandet mellan nolldeterminant (ZD), samarbetsvilliga och defekterande strategier i den itererade fångarens dilemma (IPD) som illustreras i ett Venn-diagram. Samarbetande strategier samarbetar alltid med andra samarbetsvilliga strategier, och defekta strategier alltid fel mot andra avhopp strategier. Båda innehåller delmängder av strategier som är robusta under starkt urval, vilket betyder att ingen annan Minne-1-strategi väljs för att invadera sådana strategier när de är bosatta i en befolkning., Endast samarbetsvilliga strategier innehåller en delmängd som alltid är robust, vilket innebär att ingen annan memory-1-strategi väljs för att invadera och ersätta sådana strategier, under både starkt och svagt urval. Korsningen mellan ZD och bra samarbetsstrategier är uppsättningen generösa zd-strategier. Utpressningsstrategier är korsningen mellan ZD och icke-robusta defekteringsstrategier. Tit-for-tat ligger i skärningspunkten mellan samarbets -, avhopp-och ZD-strategier.

Tit-for-tat är en zd-strategi som är ”rättvis” i den meningen att den inte får fördel gentemot den andra spelaren., ZD-utrymmet innehåller dock också strategier som, när det gäller två spelare, kan tillåta en spelare att ensidigt ställa in den andra spelarens poäng eller alternativt tvinga en evolutionär spelare att uppnå en payoff någon procent lägre än sin egen. Den utpressade spelaren kan defekta men skulle därmed skada sig genom att få en lägre payoff. Således gör utpressningslösningar den itererade fångens dilemma till ett slags ultimatum-spel., Specifikt kan X välja en strategi för vilken D(P , Q , β s y + γ u ) = 0 {\displaystyle D (P,Q,\beta s_{y}+\gamma U)=0} , ensidigt inställning s y {\displaystyle s_{y}} till ett specifikt värde inom ett visst värdeområde, oberoende av Y: s strategi, vilket ger en möjlighet för X att ”extortera” spelare Y (och vice versa). (Det visar sig att om X försöker ställa in S x {\displaystyle s_{x}} till ett visst värde är möjligheterna mycket mindre, endast bestående av fullständigt samarbete eller fullständigt avhopp.,)

en förlängning av IPD är en evolutionär stokastisk IPD, där den relativa överflöd av särskilda strategier får förändras, med mer framgångsrika strategier relativt ökande. Denna process kan åstadkommas genom att ha mindre framgångsrika spelare imitera mer framgångsrika strategier,eller genom att eliminera mindre framgångsrika spelare från spelet, samtidigt multiplicera de mer framgångsrika. Det har visat sig att orättvisa zd-strategier inte är evolutionärt stabila., Den viktigaste intuitionen är att en evolutionärt stabil strategi inte bara måste kunna invadera en annan befolkning (vilka extortionära ZD-strategier kan göra) men måste också fungera bra mot andra spelare av samma typ (vilka extortionära ZD-spelare gör dåligt, eftersom de minskar varandras överskott).

teori och simuleringar bekräftar att utöver en kritisk befolkningsstorlek förlorar ZD-utpressning i evolutionär konkurrens mot fler samarbetsstrategier, och som ett resultat ökar den genomsnittliga utbetalningen i befolkningen när befolkningen är större., Dessutom finns det vissa fall där utpressare kan till och med katalysera samarbetet genom att hjälpa till att bryta ut ur ett ansikte mellan enhetliga defektorer och win-stay, lose–switch–agenter.

medan extortionära zd-strategier inte är stabila i stora populationer är en annan zd-klass som kallas ”generösa” strategier både stabila och robusta. Faktum är att när befolkningen inte är för liten kan dessa strategier ersätta någon annan zd-strategi och till och med fungera bra mot ett brett utbud av generiska strategier för itererad fånges dilemma, inklusive win–stay, förlora–switch., Detta bevisades speciellt för donationsspelet av Alexander Stewart och Joshua Plotkin 2013. Generösa strategier kommer att samarbeta med andra kooperativa spelare, och inför defektionen förlorar den generösa spelaren mer nytta än sin rival. Generösa strategier är skärningspunkten mellan ZD-strategier och så kallade ”bra” strategier, som definierades av Akin (2013) för att vara de för vilka spelaren svarar på tidigare ömsesidigt samarbete med framtida samarbete och delar förväntade utbetalningar lika om han får åtminstone kooperativet förväntad utbetalning., Bland bra strategier fungerar den generösa (ZD) delmängden bra när befolkningen inte är för liten. Om befolkningen är mycket liten, tenderar avhopp strategier att dominera.

Continuous iterated prisoner ’ s dilemmaEdit

mest arbete på den itererade fången dilemma har fokuserat på det diskreta fallet, där spelarna antingen samarbetar eller defekt, eftersom denna modell är relativt enkel att analysera. Vissa forskare har dock tittat på modeller av den kontinuerliga itererade fångens dilemma, där spelarna kan göra ett variabelt bidrag till den andra spelaren., Le och Boyd fann att i sådana situationer är samarbetet mycket svårare att utvecklas än i det diskreta itererade fångens dilemma. Den grundläggande intuitionen för detta resultat är okomplicerad: i ett kontinuerligt fånges dilemma, om en befolkning börjar i en icke-samarbetsvillig jämvikt, får spelare som bara är marginellt mer samarbetsvilliga än icke-samarbetspartners liten nytta av att assorting med varandra. I ett diskret fånges dilemma får tit för tat-samarbetspartners däremot en stor payoff-ökning från att assorting med varandra i en icke-samarbetsvillig jämvikt, i förhållande till icke-samarbetspartners., Eftersom naturen utan tvekan erbjuder fler möjligheter till varierande samarbete snarare än en strikt dikotomi av samarbete eller avhopp, kan den kontinuerliga fångens dilemma hjälpa till att förklara varför verkliga exempel på tit för tat – liknande samarbete är extremt sällsynta i naturen (ex. Hammerstein) även om tit för tat verkar robust i teoretiska modeller.

framväxten av stabila strategieredit

spelare verkar inte samordna ömsesidigt samarbete, så ofta låses in i sämre men stabil strategi för avhopp., På detta sätt underlättar itererade rundor utvecklingen av stabila strategier. Itererade rundor producerar ofta nya strategier, vilket har konsekvenser för komplex social interaktion. En sådan strategi är win-stay lose-shift. Denna strategi överträffar en enkel Tit-For – Tat-strategi-det vill säga om du kan komma undan med fusk, upprepa det beteendet, men om du fastnar, byt.

det enda problemet med denna tit-for-tat-strategi är att de är sårbara för signalfel. Problemet uppstår när en enskild fusk i vedergällning men den andra tolkar det som fusk., Som ett resultat av detta fuskar den andra individen nu och då börjar det ett sågmönster av fusk i en kedjereaktion.

Articles

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *