Prisoner ' s dilemma

ez a szakasz további idézeteket igényel az ellenőrzéshez. Kérjük, segítsen javítani ezt a cikket azáltal, hogy idézeteket ad hozzá megbízható forrásokhoz. A nem forrázott anyagok megtámadhatók és eltávolíthatók. (November 2012) (Learn how and when to remove this template message)

Ha két játékos játszik fogoly dilemma többször egymás után, és emlékeznek a korábbi intézkedések az ellenfél, és változtatni a stratégia ennek megfelelően, a játék neve iterated prisoner ‘ s dilemma.,

a fenti általános formanyomtatvány mellett az iteratív változat azt is megköveteli, hogy 2 r >t + s {\displaystyle 2r> t+s} , hogy megakadályozzák a váltakozó együttműködést és a defekciót, amely nagyobb jutalmat biztosít, mint a kölcsönös együttműködés.

az iterált fogoly dilemmajáték alapvető fontosságú az emberi együttműködés és a bizalom egyes elméleteiben. Feltételezve, hogy a játék képes modellezni közötti tranzakciók két ember igénylő bizalom, kooperatív viselkedés populációk lehet modellezni egy multi-player, iterált, változata a játék., Ez, következésképpen, lenyűgözte sok tudós az évek során. 1975-ben Grofman és Pool több mint 2000-re becsülte a hozzá kapcsolódó tudományos cikkek számát. Az iterált fogoly dilemma is nevezik a “béke-háború játék”.

Ha a játékot pontosan N-szer játsszák, és mindkét játékos tudja ezt, akkor optimális minden fordulóban hibázni. Az egyetlen lehetséges Nash egyensúly mindig hibás. A bizonyíték induktív: az utolsó fordulóban akár hiba is lehet, mivel az ellenfélnek nincs esélye a későbbi megtorlásra. Ezért mindkettő hiba lesz az utolsó fordulóban., Így a játékos is hiba, az utolsó sor, mivel az ellenfél hiba a múlt nem számít, mi történik, stb. Ugyanez vonatkozik, ha a játék hossza ismeretlen, de van egy ismert felső határ.

ellentétben a standard fogoly dilemmájával, az iterált fogoly dilemmájában a defekciós stratégia ellentétes intuitív, és rosszul nem tudja megjósolni az emberi játékosok viselkedését. A szokásos gazdasági elméleten belül, bár, ez az egyetlen helyes válasz., A superrational stratégia a megerősített fogoly dilemma rögzített N együttműködni ellen superrational ellenfél, de a határ a nagy N, kísérleti eredmények stratégiák egyetértek a superrational verzió, nem a játék-elméleti racionális.

ahhoz, hogy a játékelméleti racionális játékosok között kialakuljon az együttműködés, az N körök teljes számának ismeretlennek kell lennie a játékosok számára. Ebben az esetben a “mindig hiba” már nem lehet szigorúan domináns stratégia, csak Nash egyensúly., Eredmények között látható, Robert Aumann egy 1959-es papír, racionális játékosok többször egymásra a végtelenségig hosszú játékok képes fenntartani a szövetkezet eredmény.

Szerint 2019 kísérleti tanulmány az American Economic Review, amely tesztelték, milyen stratégiákat valós tárgyak használt iteratív fogoly-dilemma helyzetek, tökéletesen ellenőrzése, a többség által választott stratégiák mindig hiba, szemet szemért, fogat fogért, s komor ravaszt. Az alanyok által választott stratégia a játék paramétereitől függ.,

Stratégia az iteratív fogoly dilemmaEdit

Érdeke, hogy a megerősített fogoly dilemma (IPD) volt vált Robert Axelrod könyvében A Fejlődés, az Együttműködés (1984). Ebben azt jelentések a versenyt szervezett a N lépés fogoly dilemma (N rögzített), amelyben a résztvevők kell választani a közös stratégia újra meg újra, s emlékét a korábbi találkozások. Axelrod felkérte a tudományos kollégákat a világ minden tájáról, hogy dolgozzanak ki számítógépes stratégiákat az IPD versenyen való versenyre., Az algoritmikus komplexitásban, a kezdeti ellenségeskedésben, a megbocsátás képességében stb.

Axelrod felfedezte, hogy amikor ezeket a találkozásokat hosszú időn keresztül megismételték sok játékossal, mindegyik különböző stratégiákkal, a kapzsi stratégiák hosszú távon nagyon rosszul teljesítettek, míg több altruista stratégia jobban teljesített, amint azt tisztán önérdek alapján ítélik meg. Ezt arra használta, hogy megmutassa az altruista viselkedés fejlődésének lehetséges mechanizmusát olyan mechanizmusokból, amelyek kezdetben tisztán önzőek, természetes szelekcióval.,

a győztes determinisztikus stratégia A tat tit volt, amelyet Anatol Rapoport fejlesztett ki és vett részt a versenyen. Ez volt a legegyszerűbb Minden program lépett, amely csak négy sor alap, megnyerte a versenyt. A stratégia egyszerűen az, hogy együttműködjenek a játék első iterációjában; ezt követően a játékos azt teszi, amit az ellenfele tett az előző lépésben. A helyzettől függően egy kissé jobb stratégia lehet “tit for tat megbocsátással”. Amikor az ellenfél hibás, a következő lépésnél a játékos néha együttműködik, kis valószínűséggel (1-5% körül)., Ez lehetővé teszi az alkalmi helyreállítást abban, hogy csapdába kerüljön a defekciók ciklusában. A pontos valószínűség az ellenfelek felállásától függ.

a legjobb pontozási stratégiák elemzésével Axelrod több feltételt is megfogalmazott a stratégia sikeréhez.

Nice a legfontosabb feltétel az, hogy a stratégiának “kedvesnek” kell lennie, vagyis nem fog hibázni az ellenfél előtt (ezt néha “optimista” algoritmusnak nevezik)., Szinte az összes top-pontozási stratégia szép volt; ezért egy tisztán önző stratégia nem fog” csalni ” az ellenfelén, először tisztán önérdekelt okokból. Megtorló azonban Axelrod azt állította, hogy a sikeres stratégia nem lehet vak optimista. Meg kell néha megtorlást. Egy példa a nem megtorló stratégia mindig együtt. Ez egy nagyon rossz választás, mivel a “csúnya” stratégiák könyörtelenül kihasználják az ilyen játékosokat. A sikeres stratégiák megbocsátásának is megbocsátónak kell lennie., Bár a játékosok megtorolják, ismét visszatérnek az együttműködéshez, ha az ellenfél nem folytatja a hibát. Ez megállítja a hosszú bosszú-és ellentámadást, maximalizálja a pontokat. Nem irigy az utolsó minőség, hogy nem irigy, hogy nem törekszik, hogy pont több, mint az ellenfél.

Az egyszeri PD játék optimális (pont-maximalizáló) stratégiája egyszerűen defekció; amint azt fentebb kifejtettük, ez igaz, függetlenül az ellenfelek összetételétől., Az iterált-PD játékban azonban az optimális stratégia a valószínű ellenfelek stratégiáitól függ, valamint attól, hogy hogyan reagálnak a defekciókra és együttműködésekre. Például, fontolja meg a lakosság, ahol mindenki hibák minden alkalommal, kivéve egyetlen egyén következő tit tat stratégia. Ez az egyén enyhe hátrányban van az első forduló vesztesége miatt. Egy ilyen populációban az egyén számára az optimális stratégia minden alkalommal hibás., A lakosság egy bizonyos százalékát mindig-disszidensek, a többi pedig tit tat játékosok, az optimális stratégia az egyén függ a százalékos, valamint a hossza a játék.

a stratégia az úgynevezett Pavlov, win-stay, lose-switch, szemben a kudarc, hogy működjön együtt, a játékos kapcsolók stratégia a következő körben. Bizonyos körülmények között Pavlov legyőzi az összes többi stratégiát azáltal, hogy kedvezményes elbánást biztosít a hasonló stratégiát alkalmazó társszereplőknek.,

az optimális stratégia kialakítása általában kétféleképpen történik:

Bayesian Nash equilibrium: ha az ellentétes stratégiák statisztikai eloszlása meghatározható (például a tat 50%-os titere, az 50% mindig együttműködik), az optimális ellenstratégia analitikusan származtatható.
Monte Carlo szimulációkat készítettek a populációkról, ahol az alacsony pontszámú egyének elpusztulnak, a magas pontszámokkal rendelkezők pedig reprodukálódnak (genetikai algoritmus az optimális stratégia megtalálásához). Az algoritmusok keveréke a végső populációban általában a kezdeti populáció keverékétől függ., A mutáció bevezetése (véletlenszerű variáció a reprodukció során) csökkenti a kezdeti populációtól való függőséget; az ilyen rendszerekkel végzett empirikus kísérletek általában tit-t termelnek a tat játékosok számára (Lásd például a Chess 1988-at), de nincs analitikus bizonyíték arra, hogy ez mindig megtörténik.

Bár szemet szemért tekinthető a leginkább átfogó alapvető stratégia, egy csapat a Southampton Egyetem Angliában bevezetett egy új stratégia a 20-évforduló iteratív fogoly dilemma verseny, amely bebizonyította, hogy sokkal sikeresebb, mint a szemet szemért., Ez a stratégia a programok közötti összejátszásra támaszkodott, hogy egyetlen program számára a legtöbb pontot érje el. Az egyetem 60 programot nyújtott be a versenyre, amelyeket úgy terveztek, hogy az elején öt-tíz mozdulattal felismerjék egymást. Miután ez az elismerés megtörtént, az egyik program mindig együttműködött, a másik mindig hibás volt, biztosítva a disszidens maximális pontszámát. Ha a program rájött, hogy nem Southampton-játékost játszik, akkor folyamatosan hibát követ el, hogy minimalizálja a Versengő program pontszámát., A 2004-es fogolydilemma-torna eredményei azt mutatják, hogy a Southamptoni Egyetem stratégiái az első három helyen állnak, annak ellenére, hogy kevesebb győzelem és sokkal több veszteség van, mint a komor stratégia. (Egy PD versenyen a játék célja nem az, hogy” nyerjen ” mérkőzéseket – ez könnyen elérhető a gyakori disszidálással)., Továbbá, még a szoftverstratégiák közötti implicit összejátszás nélkül is (amelyet a Southampton csapat kihasznált) tit a tat számára nem mindig az adott verseny abszolút győztese; pontosabb lenne azt mondani, hogy hosszú távú eredményei egy sor versenyen felülmúlják riválisait. (Mindenesetre egy adott stratégia kissé jobban igazítható a versenyhez, mint a tit a tat számára,de a tit a tat számára robusztusabb). Ugyanez vonatkozik a tit tat megbocsátás variáns, és más optimális stratégiák: egy adott napon lehet, hogy nem “nyerni” ellen egy adott mix ellen stratégiák., Ennek alternatív módja a darwini ESS szimuláció használata. Egy ilyen szimulációban, a tit for tat szinte mindig dominál, bár a csúnya stratégiák a lakosságba sodródnak, mert a TIT populáció számára áthatolhatatlan a nem megtorló szép stratégiák, amelyek viszont könnyű préda a csúnya stratégiák számára. Richard Dawkins megmutatta, hogy itt a stratégiák statikus keveréke nem képez stabil egyensúlyt, és a rendszer mindig oszcillál a határok között.,} ez a stratégia végül a verseny első három pozícióját vette át, valamint számos pozíciót az alsó felé.

a Southampton stratégiája kihasználja azt a tényt, hogy ebben a versenyben több bejegyzés is megengedett, és hogy egy csapat teljesítményét a legmagasabb pontszámmal rendelkező játékos mérte (ami azt jelenti, hogy az önfeláldozó játékosok használata a minmaxing egyik formája volt). Egy olyan versenyen, ahol csak egy játékos irányítja az irányítást, a tit for tat minden bizonnyal jobb stratégia., Ennek az új szabálynak köszönhetően ez a verseny kevés elméleti jelentőséggel bír az egyetlen ügynök stratégiáinak elemzésekor az Axelrod szemináriumához képest. Ugyanakkor alapot adott annak elemzéséhez, hogyan lehet kooperatív stratégiákat elérni a több ágenses keretrendszerekben, különösen zaj jelenlétében. Valójában, jóval az új szabályok versenyének lejátszása előtt, Dawkins, az önző gén című könyvében rámutatott az ilyen stratégiák nyerésének lehetőségére, ha több bejegyzést engedélyeznek, de megjegyezte, hogy valószínűleg Axelrod nem engedte volna meg őket, ha benyújtják őket., Ez is támaszkodik kijátssza a szabályokat a fogoly dilemma az, hogy nincs kommunikáció engedélyezett között a két játékos, ami a Southampton programok vitathatatlanul volt a nyitó “tíz lépés tánc” felismerni a másikat; ez csak megerősíti azt, hogy milyen értékes kommunikáció lehet a változó egyensúly a játék.

sztochasztikus iterált fogoly dilemmaEdit

egy sztochasztikus iterált fogoly dilemma játék, stratégiák által meghatározott szempontjából “együttműködési valószínűségek”., Az X és az Y játékos közötti találkozás során az X stratégiáját az Y. P-vel való együttműködés valószínűségeinek halmaza határozza meg. Ha P függvénye csak a legutóbbi n találkozások, ez az úgynevezett “memory-n” stratégia., A memory-1 stratégiát ezután négy együttműködési valószínűség határozza meg: P = { P CC c , p c d , p d c , p d d } {\displaystyle P=\{cc},p_{cd},p_{dc},P_{dd}\}, ahol P A B {\displaystyle P_ {ab}} valószínűség, hogy X együttműködik a jelen találkozásban, mivel az előző találkozást (ab) jellemezte. Például, ha az előző találkozás olyan volt, amelyben X együttműködött és Y disszidált, akkor P c d {\displaystyle P_ {cd}} az a valószínűség, hogy X együttműködik a jelen találkozásban. Ha minden valószínűség 1 vagy 0, a stratégiát determinisztikusnak nevezik., A determinisztikus stratégia egyik példája a tat stratégia tit-je, amelyet P={1,0,1,0} – ként írtak, amelyben X úgy reagál, mint Y az előző találkozás során. Egy másik a win-stay, lose-switch stratégia, amelyet p={1,0,0,1} – ként írtak, amelyben X az előző találkozáshoz hasonlóan reagál, ha “győzelem” volt (azaz cc vagy dc), de megváltoztatja a stratégiát, ha veszteség volt (azaz cd vagy dd). Kimutatták, hogy minden memory-n stratégia esetében van egy megfelelő memory-1 stratégia, amely ugyanazokat a statisztikai eredményeket adja, így csak a memory-1 stratégiákat kell figyelembe venni.,

Nulla-meghatározó strategiesEdit

A kapcsolat nulla-meghatározó (ZD), együttműködő, mind a helyi stratégiák a megerősített fogoly dilemma (IPD) szemlélteti egy Venn-diagram. Az együttműködő stratégiák mindig együttműködnek más együttműködő stratégiákkal, a disszidáló stratégiák pedig mindig más disszidáló stratégiák ellen hatnak. Mindkettő olyan stratégiák részhalmazát tartalmazza, amelyek erős szelekció mellett robusztusak, ami azt jelenti, hogy nincs más memory-1 stratégia, amely ilyen stratégiákat támadna meg, amikor népességben élnek., Csak az együttműködő stratégiák tartalmaznak olyan részhalmazt, amely mindig robusztus, ami azt jelenti, hogy nincs más memory-1 stratégia kiválasztva az ilyen stratégiák támadására és helyettesítésére, mind erős, mind gyenge kiválasztás mellett. A zd és a jó együttműködő stratégiák közötti kereszteződés a nagylelkű ZD stratégiák halmaza. A zsarolási stratégiák a zd és a nem robusztus disszidáló stratégiák metszéspontját jelentik. A Tit-for-tat az együttműködő, disszidáló és zd stratégiák metszéspontjában helyezkedik el.

Tit-for-tat egy ZD stratégia, amely “tisztességes” abban az értelemben, hogy nem szerez előnyt a másik játékos., A ZD tér azonban olyan stratégiákat is tartalmaz, amelyek két játékos esetében lehetővé teszik az egyik játékos számára, hogy egyoldalúan beállítsa a másik játékos pontszámát, vagy alternatív módon kényszerítse az evolúciós játékost arra, hogy a sajátjánál alacsonyabb kifizetést érjen el. A kizsigerelt játékos hibázhat, de ezáltal megsérülhet azáltal, hogy alacsonyabb kifizetést kap. Így a zsarolási megoldások az iterált fogoly dilemmáját egyfajta ultimátum játékgá változtatják., Pontosabban, X képes olyan stratégiát választani, amelyre D (P, Q, β s y + γ U)=0 {\displaystyle D(P,Q,\beta S_{y}+\gamma U) = 0} , egyoldalúan s y {\displaystyle s_{y}} egy adott értéktartományon belül, az Y stratégiájától függetlenül, lehetőséget kínál arra, hogy X “kicsikarja” az Y (és fordítva) lejátszót. (Kiderül, hogy ha X megpróbálja beállítani az s x {\displaystyle s_{x}} értéket egy adott értékre, akkor a lehetőségek köre sokkal kisebb, csak teljes együttműködésből vagy teljes defekcióból áll.,)

az IPD kiterjesztése egy evolúciós sztochasztikus IPD, amelyben az egyes stratégiák relatív bősége megváltozhat, a sikeresebb stratégiák viszonylag növekednek. Ez a folyamat úgy valósítható meg, hogy a kevésbé sikeres játékosok utánozzák a sikeresebb stratégiákat, vagy kiküszöbölik a kevésbé sikeres játékosokat a játékból, miközben megszorozzák a sikeresebbeket. Kimutatták, hogy a tisztességtelen ZD stratégiák nem evolúciósan stabilak., A kulcs a megérzés, hogy egy evolúciós szempontból stabil stratégia kell, nem csak akkor lesz képes megszállni egy másik lakosság (ami extortionary ZD stratégiák képes), de kell is jól teljesítenek, a többi játékos ellen, azonos típusú (ami extortionary ZD a játékosok rosszul, mert csökkentik egymás többlet).

Az elmélet és a szimulációk megerősítik, hogy a kritikus népességméreten túl a ZD-k elveszítik az evolúciós versenyt a kooperatív stratégiák ellen, és ennek eredményeként a népesség átlagos kifizetése növekszik, ha a népesség nagyobb., Emellett vannak olyan esetek is, amikor a zsarolók még az együttműködést is katalizálhatják azzal, hogy segítenek kitörni az egységes defektorok és a win-stay, lose–switch ügynökök közötti arcleállásból.

míg az extortionary ZD stratégiák nem stabilak a nagy populációkban, egy másik zd osztály, az úgynevezett “nagylelkű” stratégiák stabilak és robusztusak. Sőt, ha a lakosság nem túl kicsi, ezek a stratégiák lehet cserélni más ZD stratégia is jól teljesítenek ellen széles skáláját általános stratégiák iteratív fogoly dilemma, beleértve a win–maradj, elveszíti–kapcsolót., Ezt kifejezetten Alexander Stewart és Joshua Plotkin 2013-as adomány játékához igazolták. A nagylelkű stratégiák együttműködnek más kooperatív játékosokkal, a defekcióval szemben a nagylelkű játékos több hasznosságot veszít, mint riválisa. Nagylelkű stratégiák a kereszteződésekben ZD stratégiák, valamint az úgynevezett “jó” stratégiák, amelyek által meghatározott Rokon (2013-ban) azok, amelyek a játékos reagál elmúlt kölcsönös együttműködés jövőbeni együttműködés osztja várható nyeremények egyformán ha kap legalább a szövetkezet várható végeredmény., A jó stratégiák között a nagylelkű (ZD) részhalmaza jól teljesít, ha a lakosság nem túl kicsi. Ha a lakosság nagyon kicsi, a defekciós stratégiák dominálnak.

Folyamatos iteratív fogoly dilemmaEdit

a Legtöbb munka a megerősített fogoly dilemma összpontosított a diszkrét esetben, amelyben a játékosok vagy együtt, vagy a hiba, mert ez a modell viszonylag egyszerű elemezni. Egyes kutatók azonban megvizsgálták a folyamatos iterált fogoly dilemmájának modelljeit, amelyekben a játékosok képesek változó mértékben hozzájárulni a másik játékoshoz., Le és Boyd úgy találta, hogy ilyen helyzetekben az együttműködés sokkal nehezebb fejlődni, mint a diszkrét iterált fogoly dilemmájában. Ennek az eredménynek az alapvető intuíciója egyszerű: egy folyamatos fogoly dilemmájában, ha EGY népesség nem kooperatív egyensúlyban indul, azok a játékosok, akik csak marginálisan együttműködőbbek, mint a nem együttműködők, kevés haszonnal járnak egymással. Ezzel szemben egy diszkrét fogoly dilemmájában a TIT a tat-együttműködők számára nagy megtérülési lendületet kap, ha nem együttműködő egyensúlyban állnak egymással, szemben a nem együttműködőkkel., Mivel a természet vitathatatlanul több lehetőséget kínál a változó együttműködésre, nem pedig az együttműködés vagy a defekció szigorú kettősségére, a folyamatos fogoly dilemmája segíthet megmagyarázni, hogy a TIT-szerű együttműködés valós példái miért rendkívül ritkák a természetben (pl. Hammerstein) annak ellenére, hogy tit tat tűnik robusztus elméleti modellek.

stabil stratégiák kialakulásaSzerkesztés

úgy tűnik, hogy a játékosok nem koordinálják a kölcsönös együttműködést, így gyakran bekerülnek a defekció alacsonyabb szintű, mégis stabil stratégiájába., Ily módon az iterált fordulók megkönnyítik a stabil stratégiák fejlődését. Az iterált fordulók gyakran új stratégiákat hoznak létre, amelyek hatással vannak a komplex társadalmi interakcióra. Az egyik ilyen stratégia a win-stay lose-shift. Ez a stratégia felülmúlja egy egyszerű Tit-For-Tat stratégiát – azaz, ha megúszhatja a csalást, ismételje meg ezt a viselkedést, azonban ha elkapnak, váltson.

ennek a tit-for-tat stratégiának az egyetlen problémája az, hogy érzékenyek a jelhibákra. A probléma akkor merül fel, amikor az egyik személy megtorlásként csal, de a másik csalásként értelmezi., Ennek eredményeként, a második személy most csal, majd elkezd egy fűrész minta csalás egy láncreakció.

Prisoner ‘ s dilemma (Magyar)

Stratégia az iteratív fogoly dilemmaEdit

sztochasztikus iterált fogoly dilemmaEdit

Nulla-meghatározó strategiesEdit

Folyamatos iteratív fogoly dilemmaEdit

stabil stratégiák kialakulásaSzerkesztés

Vélemény, hozzászólás? Kilépés a válaszból