deze sectie heeft extra verwijzingen nodig voor verificatie. Help dit artikel te verbeteren door citaten toe te voegen aan betrouwbare bronnen. Ongesourced materiaal kan worden uitgedaagd en verwijderd. (November 2012) (leer hoe en wanneer dit sjabloonbericht te verwijderen)

als twee spelers meer dan eens achter elkaar prisoner ’s dilemma Spelen en ze herinneren zich eerdere acties van hun tegenstander en veranderen hun strategie dienovereenkomstig, wordt het spel iterated prisoner’ s dilemma genoemd.,

naast de algemene vorm hierboven vereist de iteratieve versie ook dat 2 R > T + s {\displaystyle 2R>T+s} , om te voorkomen dat afwisselende samenwerking en overlopen een grotere beloning geven dan wederzijdse samenwerking.

het herhaalde prisoner ‘ s dilemma spel is fundamenteel voor sommige theorieën van menselijke samenwerking en vertrouwen. In de veronderstelling dat het spel transacties tussen twee mensen kan modelleren die vertrouwen vereisen, kan coöperatief gedrag in populaties worden gemodelleerd door een multi-player, iterated, versie van het spel., Het heeft, bijgevolg, vele geleerden gefascineerd door de jaren heen. In 1975 schatten Grofman en Pool het aantal wetenschappelijke artikelen dat eraan gewijd was op meer dan 2000. Het iterated prisoner ’s dilemma is ook wel aangeduid als de”vrede-oorlog spel”.

als het spel precies N keer gespeeld wordt en beide spelers dit weten, dan is het optimaal om in alle rondes te defecten. Het enige mogelijke Nash-evenwicht is altijd overlopen. Het bewijs is inductief: men kan net zo goed overlopen op de laatste beurt, omdat de tegenstander geen kans zal hebben om later terug te slaan. Daarom zullen beide overlopen bij de laatste bocht., Dus, de speler kan net zo goed overlopen op de tweede-tot-laatste beurt, aangezien de tegenstander zal overlopen op de laatste, ongeacht wat er gedaan wordt, en ga zo maar door. Hetzelfde geldt als de spellengte onbekend is maar een bekende bovengrens heeft.

In tegenstelling tot het standaard prisoner ’s dilemma is in het herhaalde prisoner’ s dilemma de overloopstrategie contra-intuïtief en faalt slecht om het gedrag van menselijke spelers te voorspellen. Binnen de standaard economische theorie is dit echter het enige juiste antwoord., De superrationele strategie in het iterated prisoner ‘ s dilemma met fixed N is om samen te werken tegen een superrationele tegenstander, en in de limiet van grote N komen experimentele resultaten op strategieën overeen met de superrationele versie, niet de speltheoretische rationele.

voor samenwerking tussen speltheoretische rationele spelers, moet het totale aantal rondes N onbekend zijn voor de spelers. In dit geval kan “always defect” niet langer een strikt dominante strategie zijn, maar een Nash-evenwicht., Onder de resultaten getoond door Robert Aumann in een 1959 paper, rationele spelers herhaaldelijk interactie voor onbepaalde tijd lange games kan de coöperatieve uitkomst te ondersteunen.

volgens een experimentele studie uit 2019 in de American Economic Review, waarin werd getest welke strategieën real-life proefpersonen werden gebruikt in iterated prisoners’ dilemma situaties met perfecte monitoring, waren de meeste gekozen strategieën altijd defect, tit-voor-tat, en grim trigger. Welke strategie de proefpersonen kozen was afhankelijk van de parameters van het spel.,strategie voor de iterated prisoner ’s dilemmaEdit de belangstelling voor het iterated prisoner’ s dilemma (IPD) werd aangewakkerd door Robert Axelrod in zijn boek The Evolution of Cooperation (1984). Daarin rapporteert hij over een toernooi dat hij organiseerde van het n step prisoner ‘ s dilemma (met n fixed) waarin deelnemers steeds weer hun gezamenlijke strategie moeten kiezen en herinneringen moeten hebben aan hun eerdere ontmoetingen. Axelrod nodigde academische collega ‘ s over de hele wereld uit om computerstrategieën te bedenken om mee te doen aan een IPD-toernooi., De programma ‘ s die werden ingevoerd varieerden sterk in algoritmische complexiteit, aanvankelijke vijandigheid, vermogen tot vergeving, enzovoort.Axelrod ontdekte dat wanneer deze ontmoetingen over een lange periode werden herhaald met veel spelers, elk met verschillende strategieën, hebzuchtige strategieën het op de lange termijn vaak heel slecht deden, terwijl meer altruïstische strategieën het beter deden, puur op basis van eigenbelang. Hij gebruikte dit om een mogelijk mechanisme te tonen voor de evolutie van altruïstisch gedrag vanuit mechanismen die aanvankelijk puur zelfzuchtig zijn, door natuurlijke selectie.,de winnende deterministische strategie was tit voor tat, die Anatol Rapoport ontwikkelde en meedeed aan het toernooi. Het was de eenvoudigste van elk programma ingevoerd, met slechts vier regels BASIC, en won de wedstrijd. De strategie is gewoon om samen te werken aan de eerste iteratie van het spel; daarna doet de speler wat zijn of haar tegenstander deed op de vorige zet. Afhankelijk van de situatie kan een iets betere strategie “tit voor tat met vergeving”zijn. Als de tegenstander bij de volgende zet defecten vertoont, werkt de speler soms toch mee, met een kleine kans (ongeveer 1-5%)., Dit zorgt voor incidenteel herstel van het krijgen van gevangen in een cyclus van overlopen. De exacte waarschijnlijkheid hangt af van de line-up van de tegenstanders.

door de beste scorestrategieën te analyseren, stelde Axelrod verschillende voorwaarden die nodig zijn om een strategie succesvol te laten zijn.

Nice de belangrijkste voorwaarde is dat de strategie “nice” moet zijn, dat wil zeggen, het zal niet defect zijn voordat zijn tegenstander dat doet (dit wordt soms aangeduid als een “optimistisch” algoritme)., Bijna alle van de top-scoring strategieën waren leuk; daarom zal een puur egoïstische strategie niet “bedriegen” op zijn tegenstander, om puur zelf-geïnteresseerde redenen eerst. Echter, Axelrod beweerde, de succesvolle strategie mag niet een blinde optimist. Het moet soms wraak nemen. Een voorbeeld van een niet-vergeldingsstrategie is altijd samenwerken. Dit is een zeer slechte keuze, als “vervelende” strategieën zal meedogenloos exploiteren dergelijke spelers. Het vergeven van succesvolle strategieën moet ook vergevingsgezind zijn., Hoewel spelers terugslaan, zullen ze weer terugvallen op samenwerking als de tegenstander niet blijft overlopen. Dit stopt lange runs van wraak en counter-revenge, het maximaliseren van punten. Niet jaloers de laatste kwaliteit is niet jaloers zijn, dat is niet streven om meer te scoren dan de tegenstander.

De optimale (points-maximizing) strategie voor het eenmalige PD spel is simpelweg overlopen; zoals hierboven uitgelegd, is dit waar ongeacht de samenstelling van tegenstanders., Echter, in de iterated-PD spel De optimale strategie hangt af van de strategieën van de waarschijnlijke tegenstanders, en hoe ze zullen reageren op overlopen en samenwerkingsverbanden. Denk bijvoorbeeld aan een populatie waar iedereen elke keer defecten vertoont, behalve voor een enkel individu dat de tit voor tat strategie volgt. Die persoon is in een klein nadeel als gevolg van het verlies op de eerste beurt. In zo ‘ n populatie is de optimale strategie voor dat individu om elke keer over te lopen., In een populatie met een bepaald percentage van always-overlopers en de rest is tit voor tat spelers, de optimale strategie voor een individu afhankelijk van het percentage, en de lengte van het spel.

in de strategie genaamd Pavlov, win-stay, lose-switch, geconfronteerd met een gebrek aan samenwerking, de speler schakelt strategie de volgende beurt. In bepaalde omstandigheden verslaat Pavlov alle andere strategieën door een voorkeursbehandeling te geven aan medespelers die een soortgelijke strategie gebruiken.,

het afleiden van de optimale strategie wordt over het algemeen op twee manieren gedaan:

  • Bayesisch Nash-evenwicht: als de statistische verdeling van tegengestelde strategieën kan worden bepaald (bijvoorbeeld 50% tit voor tat, 50% altijd samenwerken) kan een optimale tegenstrategie analytisch worden afgeleid.
  • Monte Carlo simulaties van populaties zijn gemaakt, waarbij individuen met lage scores afsterven, en die met hoge scores reproduceren (een genetisch algoritme voor het vinden van een optimale strategie). De mix van algoritmen in de uiteindelijke populatie hangt over het algemeen af van de mix in de initiële populatie., De introductie van mutatie (random variation during reproduction) vermindert de afhankelijkheid van de initiële populatie; empirische experimenten met dergelijke systemen hebben de neiging om tit te produceren voor tat spelers (zie bijvoorbeeld Chess 1988), maar er bestaat geen analytisch bewijs dat dit altijd zal gebeuren. hoewel tit voor tat als de meest robuuste basisstrategie wordt beschouwd, introduceerde een team van de Southampton University in Engeland een nieuwe strategie tijdens de twintigjarige prisoner ‘ s dilemma-wedstrijd, die succesvoller bleek te zijn dan tit voor tat., Deze strategie was gebaseerd op collusie tussen programma ‘ s om het hoogste aantal punten voor een enkel programma te bereiken. De universiteit diende 60 programma ‘ s aan de wedstrijd, die werden ontworpen om elkaar te herkennen door middel van een reeks van vijf tot tien zetten aan het begin. Zodra deze erkenning werd gemaakt, zou het ene programma altijd samenwerken en het andere zou altijd defect, waardoor het maximale aantal punten voor de overloper. Als het programma besefte dat het het spelen van een niet-Southampton speler, het zou continu defect in een poging om de score van het concurrerende programma te minimaliseren., Als gevolg daarvan, de 2004 gevangenen’ Dilemma toernooi resultaten tonen de strategieën van de Universiteit van Southampton in de eerste drie plaatsen, ondanks het hebben van minder overwinningen en veel meer verliezen dan de GRIM strategie. (In een PD toernooi, het doel van het spel is niet om “winnen” wedstrijden – die gemakkelijk kan worden bereikt door frequente overlopen)., Ook, zelfs zonder impliciete collusie tussen software strategieën (uitgebuit door het Southampton team) tit voor tat is niet altijd de absolute winnaar van een bepaald toernooi; het zou preciezer zijn om te zeggen dat de lange termijn resultaten over een reeks van toernooien overtreffen zijn rivalen. (In elk geval kan een bepaalde strategie iets beter worden aangepast aan de concurrentie dan tit voor tat, maar tit voor tat is robuuster). Hetzelfde geldt voor de tit voor tat met vergeving variant, en andere optimale strategieën: op een bepaalde dag kunnen ze niet “winnen” tegen een specifieke mix van contra-strategieën., Een alternatieve manier om het te zeggen is het gebruik van de Darwinian ESS simulatie. In zo ‘ n simulatie zal tit voor tat bijna altijd domineren, hoewel vervelende strategieën in en uit de bevolking zullen drijven omdat een tit voor tat populatie penetreerbaar is door niet-vergeldende nice strategieën, die op hun beurt een gemakkelijke prooi zijn voor de vervelende strategieën. Richard Dawkins toonde aan dat hier geen statische mix van strategieën een stabiel evenwicht vormt en dat het systeem altijd tussen grenzen zal schommelen.,}} deze strategie eindigde in de top drie posities in de competitie, evenals een aantal posities naar de bodem.

    De strategie van Southampton maakt gebruik van het feit dat meerdere inzendingen werden toegestaan in deze specifieke competitie en dat de prestaties van een team werden gemeten aan de hand van die van de speler met de hoogste score (wat betekent dat het gebruik van zelfopofferende spelers een vorm van minmaxen was). In een wedstrijd waar men controle heeft over slechts een enkele speler, tit voor tat is zeker een betere strategie., Vanwege deze nieuwe regel, deze wedstrijd heeft ook weinig theoretische betekenis bij het analyseren van single agent strategieën in vergelijking met Axelrod ‘ s baanbrekende toernooi. Het bood echter een basis voor de analyse van de wijze waarop samenwerkingsstrategieën in multi-agent kaders tot stand kunnen worden gebracht, met name in de aanwezigheid van lawaai. In feite, lang voordat dit nieuwe-regels toernooi werd gespeeld, Dawkins, in zijn boek The Selfish Gene, wees op de mogelijkheid van dergelijke strategieën winnen als meerdere inzendingen waren toegestaan, maar hij merkte op dat zeer waarschijnlijk Axelrod ze niet zou hebben toegestaan als ze waren ingediend., Het is ook gebaseerd op het omzeilen van regels over het dilemma van de gevangene in die zin dat er geen communicatie toegestaan is tussen de twee spelers, wat de Southampton-programma ‘ s aantoonbaar deden met hun opening “ten move dance” om elkaar te herkennen; dit versterkt alleen maar hoe waardevol communicatie kan zijn in het verschuiven van de balans van het spel.

    stochastisch geïtereerd prisoner ’s dilemmaEdit

    in een stochastisch geïtereerd prisoner ’s dilemma spel worden strategieën gespecificeerd door in termen van”samenwerkingskansen”., In een ontmoeting tussen speler X en speler Y, X ’s strategie wordt bepaald door een set van waarschijnlijkheden P van samenwerking met Y. P is een functie van de uitkomsten van hun eerdere ontmoetingen of een subset daarvan. Als P een functie is van alleen hun meest recente n ontmoetingen, wordt het een “geheugen-n” strategie genoemd., Een geheugen-1 strategie wordt dan gespecificeerd door vier samenwerkingskansen: P = { P c c, P c d , P d c, P D D } {\displaystyle P=\{P_{cc}, P_{cd}, P_{dc}, P_{dd}\}}, waarbij P A b {\displaystyle P_{ab}} de kans is dat X zal samenwerken in de huidige ontmoeting, aangezien de vorige ontmoeting werd gekenmerkt door (ab). Bijvoorbeeld, als de vorige ontmoeting er een was waarin X meewerkte en Y overliep, dan is P c d {\displaystyle P_{cd}} de kans dat X meewerkt in de huidige ontmoeting. Als elk van de waarschijnlijkheden 1 of 0 is, wordt de strategie deterministisch genoemd., Een voorbeeld van een deterministische strategie is de tit voor tat strategie geschreven als P={1,0,1,0}, waarin X reageert zoals Y deed in de vorige ontmoeting. Een andere is de win–stay, lose–switch strategie geschreven als P = {1,0,0,1}, waarin X reageert als in de vorige ontmoeting, als het een “win” (dat wil zeggen cc of dc) maar verandert strategie als het een verlies (dat wil zeggen cd of dd). Het is aangetoond dat voor elke memory-n strategie er een overeenkomstige memory-1 strategie is die dezelfde statistische resultaten geeft, zodat alleen memory-1 strategieën in aanmerking moeten worden genomen.,

    zero-determinant strategiesEdit

    de relatie tussen zero-determinant (ZD), samenwerkende en overloopstrategieën in het iterated prisoner ‘ s dilemma (IPD) geïllustreerd in een Venn-diagram. Samenwerkende strategieën werken altijd samen met andere samenwerkende strategieën, en overlopen strategieën altijd defect tegen andere overlopen strategieën. Beide bevatten subsets van strategieën die robuust zijn onder sterke selectie, wat betekent dat er geen andere memory – 1 strategie is geselecteerd om dergelijke strategieën binnen te vallen wanneer ze in een populatie wonen., Alleen samenwerkende strategieën bevatten een subset die altijd robuust zijn, wat betekent dat er geen andere memory – 1 strategie is geselecteerd om dergelijke strategieën binnen te vallen en te vervangen, onder zowel sterke als zwakke selectie. Het raakvlak tussen ZD en goede samenwerkingsstrategieën is de reeks genereuze ZD-strategieën. Afpersing strategieën zijn het kruispunt tussen ZD en niet-robuuste overlopen strategieën. Tit-for-tat ligt op het snijvlak van samenwerken, overlopen en ZD-strategieën.

    Tit-for-tat is een ZD-strategie die “eerlijk” is in de zin van het niet winnen van voordeel ten opzichte van de andere speler., Echter, de ZD ruimte bevat ook strategieën die, in het geval van twee spelers, kan toestaan dat een speler eenzijdig de score van de andere speler of als alternatief, dwingen een evolutionaire speler om een uitbetaling te bereiken een percentage lager dan zijn eigen. De afgeperste speler zou kunnen overlopen, maar zou zichzelf daarbij pijn doen door een lagere uitbetaling te krijgen. Dus, afpersing oplossingen maken van de iterated prisoner ‘ s dilemma in een soort ultimatum spel., Specifiek is X in staat om een strategie te kiezen waarvoor D ( P , Q , β S y + γ U ) = 0 {\displaystyle D(P,Q,\beta S_{y}+\gamma U)=0} , waarbij S y {\displaystyle s_{y}} eenzijdig wordt ingesteld op een specifieke waarde binnen een bepaald waardenbereik, onafhankelijk van de strategie van Y, waardoor X de mogelijkheid krijgt om speler Y af te persen (en vice versa). (Het blijkt dat als X probeert s x {\displaystyle s_{x}} op een bepaalde waarde in te stellen, de waaier van mogelijkheden veel kleiner is, alleen bestaande uit volledige medewerking of volledige overloop.,)

    een uitbreiding van de IPD is een evolutionaire stochastische IPD, waarin de relatieve overvloed van bepaalde strategieën wordt toegestaan om te veranderen, met meer succesvolle strategieën relatief toenemen. Dit proces kan worden bereikt door het hebben van minder succesvolle spelers imiteren de meer succesvolle strategieën, of door het elimineren van minder succesvolle spelers uit het spel, terwijl het vermenigvuldigen van de meer succesvolle degenen. Gebleken is dat oneerlijke ZD-strategieën niet evolutionair stabiel zijn., De belangrijkste intuïtie is dat een evolutionair stabiele strategie niet alleen in staat moet zijn om een andere populatie binnen te dringen (wat extortionele ZD-strategieën kunnen doen), maar ook goed moet presteren tegen andere spelers van hetzelfde type (wat extortionele ZD-spelers slecht doen, omdat ze elkaars overschot verminderen).

    theorie en simulaties bevestigen dat ZD-afpersing voorbij een kritische populatiegrootte verliest in evolutionaire concurrentie tegen meer coöperatieve strategieën, en als gevolg daarvan neemt de gemiddelde uitbetaling in de bevolking toe wanneer de populatie groter is., Daarnaast zijn er enkele gevallen waarin afpersers zelfs samenwerking kunnen katalyseren door te helpen breken uit een face-off tussen uniforme overlopers en win–stay, lose–switch agenten.

    terwijl extortionele ZD-strategieën niet stabiel zijn in grote populaties, is een andere ZD-klasse genaamd “genereuze” strategieën zowel stabiel als robuust. In feite, wanneer de bevolking niet te klein is, kunnen deze strategieën elke andere ZD–strategie vervangen en zelfs goed presteren tegen een breed scala aan generieke strategieën voor herhaald prisoner ‘ s dilemma, inclusief win–stay, lose-switch., Dit werd specifiek bewezen voor het donatiespel door Alexander Stewart en Joshua Plotkin in 2013. Genereuze strategieën zullen samenwerken met andere coöperatieve spelers, en in het gezicht van overlopen, de genereuze speler verliest meer nut dan zijn rivaal. Genereuze strategieën zijn het kruispunt van ZD-strategieën en zogenaamde “goede” strategieën, die werden gedefinieerd door Akin (2013) om die waarvoor de speler reageert op het verleden wederzijdse samenwerking met toekomstige samenwerking en splitst verwachte uitbetalingen gelijk als hij ten minste de coöperatieve verwachte uitbetaling ontvangt., Onder goede strategieën presteert de genereuze (ZD) subset goed wanneer de populatie niet te klein is. Als de bevolking erg klein is, hebben overloopstrategieën de neiging om te domineren.

    continu iterated prisoner ’s dilemmaEdit

    het meeste werk aan het iterated prisoner’ s dilemma heeft zich gericht op het discrete geval, waarin spelers samenwerken of defect raken, omdat dit model relatief eenvoudig te analyseren is. Echter, sommige onderzoekers hebben gekeken naar modellen van de continue iterated prisoner ‘ s dilemma, waarin spelers in staat zijn om een variabele bijdrage te leveren aan de andere speler., Le en Boyd vonden dat samenwerking in dergelijke situaties veel moeilijker te ontwikkelen is dan in het discrete herhaalde prisoner ‘ s dilemma. De basisintuã tie voor dit resultaat is eenvoudig: in een continu prisoner ‘ s dilemma, als een populatie begint in een niet-coöperatief evenwicht, krijgen spelers die slechts marginaal meer coöperatief dan niet-coöperatieven weinig voordeel van het sorteren met elkaar. In tegenstelling, in een discrete prisoner ‘ s dilemma, tit voor tat medewerkers krijgen een grote uitbetaling boost van het assorteren met elkaar in een niet-coöperatieve evenwicht, ten opzichte van niet-samenwerkende., Aangezien de natuur aantoonbaar meer mogelijkheden biedt voor variabele samenwerking in plaats van een strikte tweedeling van samenwerking of overlopen, kan het continue prisoner ‘ s dilemma helpen verklaren waarom echte voorbeelden van tit voor tat-achtige samenwerking extreem zeldzaam zijn in de natuur (bijv. Hammerstein) hoewel tit voor tat robuust lijkt in theoretische modellen.

    ontstaan van stabiele strategiesEdit

    spelers lijken de onderlinge samenwerking niet te coördineren, waardoor ze vaak vast komen te zitten in de inferieure maar stabiele strategie van overlopen., Op deze manier vergemakkelijken herhaalde rondes de evolutie van stabiele strategieën. Herhaalde rondes produceren vaak nieuwe strategieën, die gevolgen hebben voor complexe sociale interactie. Een dergelijke strategie is win-stay lose-shift. Deze strategie presteert beter dan een eenvoudige Tit-voor-Tat strategie – dat wil zeggen, als je weg kunt komen met bedrog, herhaal dat gedrag, maar als je betrapt, switch.

    het enige probleem van deze tit-for-tat strategie is dat ze kwetsbaar zijn voor signaalfouten. Het probleem doet zich voor wanneer een individu bedriegt als vergelding, maar de ander interpreteert het als bedrog., Als gevolg hiervan bedriegt de tweede persoon nu en dan begint het een see-saw patroon van valsspelen in een kettingreactie.

Articles

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *