Dette avsnittet er behov for ytterligere henvisninger for bekreftelse. Vennligst hjelp til med å forbedre denne artikkelen ved å legge til henvisninger til pålitelige kilder. Unsourced materiale kan bli utfordret og fjernet. (November 2012) (Lære hvordan og når til å fjerne denne malen melding)

Hvis to spillere spille fangens dilemma mer enn en gang på rad, og de husker tidligere handlinger av motstanderen sin og endre sin strategi tilsvarende, kalles spillet iterated fangens dilemma.,

I tillegg til den generelle formen ovenfor, iterativ versjon krever også at 2 R > T + S {\displaystyle 2R>T+S} , for å hindre vekslende samarbeid og forlatt som gir en større belønning enn gjensidig samarbeid.

iterated fangens dilemma-spill er grunnleggende for noen teorier om menneskelig samarbeid og tillit. På den forutsetning at spillet kan modellen transaksjoner mellom to personer som krever tillit, felles opptreden i populasjoner kan være modellert med en multi-player, iterated, – versjonen av spillet., Det har følgelig fascinert mange forskere over år. I 1975, Grofman og Basseng estimert antall vitenskapelige artikler om det på over 2000. Den iterated fangens dilemma har også blitt referert til som «fred-war-spillet».

Hvis spillet spilles på nøyaktig N ganger, og begge spillerne vet dette, da det er optimalt å defekter i alle runder. Den eneste mulige Nash-likevekt er å alltid feil. Beviset er induktiv: en kan like godt mangelen på siste sving, siden motstanderen vil ikke ha mulighet til senere å gå til motangrep. Derfor vil både mangelen på siste sving., Dermed kan det hende at spilleren samt mangelen på nest-siste sving, siden motstanderen vil mangelen på siste uansett hva som er gjort, og så videre. Det samme gjelder hvis spillet lengde er ukjent, men har en kjent øvre grense.

i Motsetning til standard «fangens dilemma», i iterated fangens dilemma de forlatt strategi er counter-intuitive, og ikke dårlig for å forutsi oppførselen til menneskelige spillere. I standard økonomisk teori, selv om dette er den eneste riktige svaret., Den superrational strategi i iterated fangens dilemma med faste N er å samarbeide mot en superrational motstander, og i grensen for store N, eksperimentelle resultater på strategier enig med superrational versjon, ikke spillet-teoretisk fornuftig.

For samarbeid for å dukke opp mellom spill teoretisk rasjonale spillere, totalt antall runder N må være ukjent for spillerne. I dette tilfellet «alltid feil» kan ikke lenger være en strengt dominerende strategien, bare en Nash likevekt., Blant resultatene som vises av Robert Aumann i 1959 papir, rasjonell spillere flere ganger i samspill for ubestemt tid lang spill kan opprettholde samarbeidende utfallet.

Ifølge en 2019 eksperimentell studie i American Economic Review som testet hvilke strategier real-life fag brukt i iterated fanger’ dilemma situasjoner med perfekt overvåking, de fleste av valgte strategier, var det alltid feil, tit-for-tat, og grim utløse. Hvilken strategi fagene valgte avhengig av parametere av spillet.,

– Strategi for iterated fangens dilemmaEdit

Interesse i iterated fangens dilemma (IPD) ble tent av Robert Axelrod i sin bok Utviklingen av Samarbeid (1984). I det han rapporterer om en turnering han organisert av N-trinn fangens dilemma (med N fast) der deltakerne har til å velge deres felles strategi igjen og igjen, og har minnet om deres tidligere møter. Axelrod invitert akademiske kolleger over hele verden for å finne datamaskinen strategier for å konkurrere i en IPD-turnering., Programmene som ble registrert variert mye i algoritmisk kompleksitet, første fiendtlighet, evne til å tilgi, og så videre.

Axelrod oppdaget at når disse møter ble gjentatt over en lang periode av tid med mange spillere, hver med ulike strategier, grådige strategier tendens til å gjøre det svært dårlig i det lange løp, mens mer altruistiske strategier gjorde det bedre, som vurderes kun av egeninteresse. Han brukte dette til å vise en mulig mekanisme for utvikling av altruistisk atferd fra mekanismer som er utgangspunktet rent egoistisk, ved naturlig utvalg.,

Den vinnende deterministisk strategi var «tit for tat», som Anatol Rapoport utviklet og lagt inn i turneringen. Det var det enkleste av alle program inn, inneholder bare fire linjer av GRUNNLEGGENDE, og vant konkurransen. Den strategi er ganske enkelt å samarbeide på den første utgaven av spillet, etter at spilleren ikke hva hans eller hennes motstander gjorde på den forrige flytte. Avhengig av situasjonen, en litt bedre strategi kan være «tit for tat med tilgivelse». Når motstanderen feil, på neste trekk, det spiller noen ganger samarbeider deg til likevel, med en liten sannsynlighet (rundt 1-5%)., Dette gjør det mulig for sporadisk utvinning fra å bli fanget i en syklus av defections. Den nøyaktige sannsynligheten avhenger av den line-up av motstanderne.

Ved å analysere topp-scoring strategier, Axelrod uttalt flere nødvendige betingelser for at en strategi for å bli vellykket.

Fin Den viktigste forutsetningen er at strategien må være «fin», som er, vil det ikke feilen før motstanderen gjør (dette er noen ganger referert til som et «optimistisk» algoritme)., Nesten alle av topp-scoring strategier var fin, altså en rent egoistisk strategi vil ikke «jukse» på sin motstander, for rent egoistisk grunner for det første. Retaliating Imidlertid, Axelrod, kjempet, vellykket strategi må ikke være en blind optimist. Det må noen ganger gå til motangrep. Et eksempel på en ikke-retaliating strategi er Alltid Samarbeide. Dette er et svært dårlig valg, som «ekkel» strategier vil hensynsløst utnytter slike spillere. Tilgi Vellykkede strategier må også være tilgivende., Selv om spillere vil gjengjelde, de vil igjen falle tilbake til å samarbeide hvis motstanderen ikke fortsette å defekt. Dette stopper lange kjøringer av hevn og counter-hevn, maksimere poeng. Ikke misunnelig siste kvalitet blir ikke misunnelig, som ikke streber etter å score mer enn motstanderen.

Den optimale (poeng-noe som maksimerer) strategi for ett-tiden PD spillet er rett og slett forlatt; som forklart ovenfor, dette er sant, uansett sammensetning av motstandere kan være., Imidlertid, i iterated-PD spillet er den optimale strategien avhenger av strategier for sannsynlig motstandere, og hvordan de vil reagere på defections og samarbeid. For eksempel, tenk deg en befolkning hvor alle feil hver gang, bortsett fra et enkelt individ etter «tit for tat» – strategi. At enkelte er på en liten ulempe på grunn av tap på den første svingen. I en slik populasjon, som er den optimale strategien for den enkelte er å feil hver gang., I en befolkning med en viss prosentandel av alltid-avhoppere og resten blir tit for tat spillere, er den optimale strategien for en person avhenger av hvor stor prosentandel, og på lengden av spillet.

I strategien heter Pavlov, vinn-opphold, tape-bryteren, blir møtt med manglende evne til å samarbeide, de spiller skifter strategi for neste sving. I visse tilfeller, Pavlov slår alle andre strategier ved å gi særbehandling til co-spillere som bruker en lignende strategi.,

Utlede den optimale strategien er vanligvis gjort på to måter:

  • Bayesiansk Nash-likevekt: Hvis den statistiske fordelingen av motstridende strategier kan bestemmes (for eksempel 50% «tit for tat», 50% alltid samarbeide) en optimal counter-strategi kan være avledet analytisk.
  • Monte Carlo simuleringer av bestander har blitt gjort, hvor personer med lave skårer dø av, og de med høy score reprodusere (en genetisk algoritme for å finne en optimal strategi). Blanding av algoritmer i den endelige befolkningen generelt avhenger av blandingen i den opprinnelige befolkningen., Innføring av mutasjon (tilfeldig variasjon i reproduksjon) reduserer avhengigheten av den opprinnelige befolkningen; empiriske eksperimenter med slike systemer har en tendens til å produsere tit for tat spillere (se for eksempel Sjakk 1988), men ingen analytiske bevis finnes for at dette vil alltid skje.

Selv om tit for tat » er ansett for å være den mest robuste grunnleggende strategi, og et team fra Southampton University i England innførte en ny strategi på 20-årsdagen iterated fangens dilemma konkurranse, som viste seg å være mer vellykket enn tit for tat., Denne strategien lettelse opp på samarbeid mellom ulike programmer for å oppnå høyest antall poeng for en enkelt program. Universitetet innsendt 60 programmer til konkurransen, som ble utviklet for å gjenkjenne hverandre gjennom en serie på fem til ti trekk ved start. Når denne anerkjennelsen ble laget, ett program vil alltid samarbeide og den andre vil alltid feil, som sikrer maksimalt antall poeng for avhopper. Hvis programmet skjønte at det var å spille en ikke-Southampton-spiller, ville det kontinuerlig en feil i et forsøk på å minimere resultat av konkurrerende program., Som et resultat, 2004 Fanger’ Dilemma Turneringen resultatene viser University of Southampton er strategier i de første tre steder, til tross for å ha færre vinner, og mange flere tap enn den DYSTRE strategi. (I en PD-turnering, målet med spillet er ikke å «vinne» kamper – det kan lett oppnås ved hyppige forlatt)., Også, selv uten en implisitt samarbeid mellom programvare og strategier utnyttet av Southampton team) «tit for tat» er ikke alltid den absolutte vinneren av en gitt turnering, og det ville være mer presist å si at det lange løp resultater over en rekke turneringer gjør det bedre enn sine rivaler. (I noen tilfelle en gitt strategi kan være litt bedre justert til konkurransen enn tit for tat», men «tit for tat» er mer robust). Det samme gjelder for » tit for tat med tilgivelse variant, og andre optimale strategier: på hvilken som helst dag kan de ikke «vinne» mot en spesifikk blanding av counter-strategier., En alternativ måte å sette det på er ved hjelp av den Darwinistiske ESS simulering. I en slik simulering, tit for tat vil nesten alltid komme til å dominere, selv om ekle strategier vil drive inn og ut av befolkningen, fordi en tit for tat befolkningen er gjennomtrengelige av ikke-retaliating fin strategier, som i sin tur er et lett bytte for den ekle strategier. Richard dawkins legger frem et syn viste at her er ingen statisk blanding av strategier danne en stabil likevekt, og systemet vil alltid svinge mellom grensene.,}} denne strategien endte opp med å ta de tre øverste plasseringene i konkurransen, samt en rekke stillinger mot bunnen.

Southampton strategi tar nytte av det faktum at flere oppføringer var tillatt i denne spesielle konkurransen, og at resultatene av et team ble målt ved at av de høyeste-scoring spiller (noe som betyr at bruk av selvoppofrende spillere var en form for minmaxing). I en konkurranse hvor man har kontroll på bare en enkelt spiller, tit for tat » er absolutt en bedre strategi., På grunn av denne nye regelen, denne konkurransen har også lite teoretisk betydning når vi analyserer enkelt agent strategier i forhold til Axelrod er banebrytende turneringen. Imidlertid, er det gitt et grunnlag for å analysere hvordan man skal oppnå samarbeidende strategier i multi-agent rammeverk, spesielt i nærvær av støy. Faktisk lenge før dette nye-regler-turneringen ble spilt, dawkins legger frem et syn, i sin bok » Det Egoistiske Genet, pekt på muligheten av slike strategier for å vinne hvis flere bidrag ble tillatt, men han sa at mest sannsynlig Axelrod ikke ville ha tillatt dem hvis de hadde blitt sendt., Det avhenger også på å omgå reglene om fangens dilemma i at det er ingen kommunikasjon er tillatt mellom de to spillerne, som Southampton-programmer uten tvil gjorde med sitt åpne «ti flytte danse» til å gjenkjenne hverandre; dette bare forsterker akkurat hvor verdifullt kommunikasjon kan være med på å forskyve balansen i spillet.

Stokastisk iterated fangens dilemmaEdit

I en stokastisk iterated fangens dilemma-spill, strategier er angitt av i form av «samarbeid sannsynligheter»., I et møte mellom spiller X-og Y-spiller, X ‘s strategi er definert av et sett av sannsynligheter P av å samarbeide med Y. P er en funksjon av resultatene av deres tidligere møter eller et delsett av disse. Hvis P er en funksjon av bare de siste n møter, er det som kalles en «memory-n» – strategien., En minne-1 strategi er da angitt ved fire samarbeid sannsynligheter: P = { P p p P p d P d c P d d } {\displaystyle P=\{P_{cc},P_{cd},P_{dc},P_{fd}\}} , der P en b {\displaystyle P_{ab}} er sannsynligheten for at X skal samarbeide i dagens møte gitt at den forrige møte var preget av (ab). For eksempel, hvis den forrige møte var en der X samarbeidet og Y hoppet, deretter P c d {\displaystyle P_{cd}} er sannsynligheten for at X skal samarbeide i dagens møte. Hvis hver av sannsynlighetene er enten 1 eller 0, strategien kalles deterministisk., Et eksempel på en deterministisk strategi er «tit for tat» strategi skrives som P={1,0,1,0}, der X reagerer som Y gjorde i forrige møte. En annen er vinn–opphold, tape–bytte strategi skrives som P={1,0,0,1}, der X reagerer som i forrige møte, hvis det var en «vinner» (dvs. cc eller dc), men endringer strategi hvis det var et tap (dvs. cd eller dd). Det har vist seg at for noen minne-n-strategi er det en tilsvarende minne-1 strategi som gir den samme statistiske resultater, slik at bare minne-1 strategier må vurderes.,

Null-determinanten strategiesEdit

forholdet mellom null-determinanten (ZD), i samarbeid og avhoppet strategier i iterated fangens dilemma (IPD) som er illustrert i et Venn-diagram. Samarbeider strategier alltid samarbeide med andre og til å samarbeide strategier, og avhoppet strategier alltid feil mot andre avhoppet strategier. Begge inneholder undergrupper av strategier som er robust under sterk utvalget, som betyr at ingen andre minne-1 strategien er valgt for å invadere slike strategier når de er bosatt i en befolkning., Bare samarbeide strategier inneholder et delsett som alltid er robust, noe som betyr at ingen andre minne-1 strategien er valgt for å invadere og erstatte slike strategier, under både sterke og svake utvalget. Skjæringspunktet mellom ZD og godt samarbeid strategier er satt av generøse ZD strategier. Utpressing strategier er skjæringspunktet mellom ZD og ikke-robust avhoppet strategier. Tit-for-tat ligger i skjæringspunktet mellom samarbeide, hoppe og ZD strategier.

Tit-for-tat er en ZD strategi som er «rettferdig» i betydningen av å ikke få fordel over andre spillere., Men, ZD plass inneholder også strategier som, i tilfelle av to spillere, kan tillate en spiller å ensidig sett den andre spillerens poengsum, eller alternativt, kan du tvinge en evolusjonær spilleren til å få en payoff noen prosentpoeng lavere enn hans egen. De presset spiller kan defekt, men ville dermed skade seg ved å få en lavere gevinst. Dermed, utpressing løsninger slå iterated fangens dilemma til et slags ultimatum spillet., Spesielt, X er i stand til å velge en strategi som D ( P , Q , β S y + γ U ) = 0 {\displaystyle D(P,Q,\beta S_{y}+\gamma U)=0} , ensidig innstilling s y {\displaystyle s_{y}} til en bestemt verdi i et bestemt utvalg av verdiene, uavhengig av Y ‘s strategi, og tilbyr en mulighet for X for å «presse» spiller Y (og vice versa). (Det viser seg at hvis X prøver å angi s x {\displaystyle s_{x}} til en bestemt verdi, omfanget av muligheter er mye mindre, bare bestående av komplett samarbeid eller fullstendig forlatt.,)

En forlengelse av IPD er en evolusjonær stokastisk IPD, der den relative overflod av spesielle strategier er lov til å endre, med mer vellykkede strategier relativt økende. Denne prosessen kan gjøres ved å ha mindre vellykkede spillere imitere de mer vellykkede strategier, eller ved å eliminere mindre vellykkede spillere fra spillet, mens å multiplisere mer suksessfulle. Det har vist seg at urettferdig ZD strategier er ikke evolusjonært stabil., Nøkkelen intuisjon er at en evolusjonær stabil strategi må ikke bare være i stand til å invadere en annen befolkningen (som extortionary ZD strategier kan gjøre), men må også gjøre godt mot andre spillere av samme type (som extortionary ZD spillere klarer seg dårlig, fordi de reduserer hverandres overskudd).

Teori og simuleringer bekrefter at utover en kritisk bestandsstørrelse, ZD utpressing som taper i evolusjonær konkurranse mot flere samarbeidende strategier, og som et resultat, er den gjennomsnittlige utbetalingen i befolkningen øker når befolkningen er større., I tillegg er det noen tilfeller der extortioners kan selv katalysere samarbeid ved å bidra til å bryte ut av en face-off mellom uniform avhoppere og vinn–opphold, tape–bytte agenter.

Mens extortionary ZD strategier er ikke stabil i store bestander, en annen klasse ZD kalles «raus» strategier er både stabil og robust. Faktisk, når befolkningen ikke er for liten, disse strategiene kan erstatte alle andre ZD strategi og selv utføre godt mot et bredt spekter av generiske strategier for iterated fangens dilemma, inkludert win–opphold, tape–bryteren., Dette ble påvist spesielt for donasjon spill av Alexander Stewart og Joshua Plotkin i 2013. Sjenerøs strategier vil samarbeide med andre samarbeidende aktører, og i møte med forlatt, den sjenerøse spilleren taper mer verktøy enn sin rival. Sjenerøs strategier er krysset av ZD strategier og såkalte «gode» strategier, som ble definert av Akin (2013) å være de som spiller svarer til tidligere gjensidig samarbeid med fremtidig samarbeid og deler forventede utbetalinger like hvis han får minst samarbeidende forventet payoff., Blant gode strategier, er den sjenerøse (ZD) delsett fungerer godt når befolkningen ikke er for liten. Hvis bestanden er svært liten, forlatt strategier har en tendens til å dominere.

Kontinuerlig iterated fangens dilemmaEdit

de Fleste arbeider på iterated fangens dilemma har fokusert på den diskrete tilfellet, hvor spillerne enten samarbeider eller feil, fordi denne modellen er relativt enkel å analysere. Men noen forskere har sett på modeller av kontinuerlig iterated fangens dilemma, der spillerne er i stand til å gjøre en variabel bidrag til den andre spilleren., Le og Boyd funnet at det i slike situasjoner, samarbeid er mye vanskeligere å utvikle enn i den diskrete iterated fangens dilemma. Den grunnleggende intuisjon for dette resultatet er grei: i en kontinuerlig fangens dilemma, hvis en befolkning starter i en ikke-kooperativ likevekt, spillere som er bare marginalt mer samarbeidsvillig enn ikke-samarbeidspartnere får lite nytte av assorting med hverandre. Derimot, på en diskret fangens dilemma, tit for tat samarbeidspartnere få en stor gevinst øke fra assorting med hverandre i en ikke-kooperativ likevekt, i forhold til ikke-samarbeidspartnere., Siden arten uten tvil tilbyr flere muligheter for variabel samarbeid snarere enn en streng dikotomi av samarbeid eller forlatt, kontinuerlig fangens dilemma kan bidra til å forklare hvorfor real-life eksempler på «tit for tat» -lignende samarbeid er svært sjelden i naturen (ex. Hammerstein) selv om tit for tat virker robust i teoretiske modeller.

Fremveksten av stabile strategiesEdit

Spillere ikke kan synes å koordinere gjensidig samarbeid, og dermed får ofte låst til dårligere ennå stabil strategi for forlatt., På denne måten, iterated runder lette utviklingen av stabile strategier. Iterated runder ofte produsere roman strategier, som har konsekvenser for kompleks sosial interaksjon. En slik strategi er vinn-opphold miste-skift. Denne strategien utkonkurrerer en enkel Tit-For-Tat strategi – som er, hvis du kan komme unna med juks, gjenta at atferden, men hvis du blir tatt, slår.

Det eneste problemet med dette tit-for-tat strategien er at de er sårbare for feil signal. Problemet oppstår når en person jukser i gjengjeldelse, men det andre tolker det som juks., Som et resultat av dette, andre individuelle nå jukser og så begynner en se-så mønster for juks i en kjedereaksjon.

Articles

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *