Pokud dva hráči hrají vězňovo dilema více než jednou v řadě, a pamatují si předchozí akce jejich soupeře a měnit svou strategii podle toho, hra je tzv. iterované vězňovo dilema.,
kromě obecných formuláři výše, iterativní verze také vyžaduje, aby 2 R > T + S {\displaystyle 2R>T+S} , aby se zabránilo střídající spolupráce a zběhnutí dát větší odměnu, než vzájemné spolupráce.
opakovaná vězeň dilema hra je zásadní pro některé teorie lidské spolupráce a důvěry. Za předpokladu, že hra může modelovat transakce mezi dvěma lidmi vyžadujícími důvěru, kooperativní chování v populacích může být modelováno multi-player, iterated, verze hry., To má, v důsledku toho, fascinuje mnoho učenců v průběhu let. V roce 1975, Grofman a Bazén odhaduje počet vědeckých článků věnovaných na více než 2000. Iterované dilema vězně bylo také označováno jako „mírová válka“.
Pokud se hra hraje přesně N krát a oba hráči to vědí, pak je optimální defekt ve všech kolech. Jedinou možnou Nash rovnováhou je vždy defekt. Důkaz je induktivní: jeden by mohl také defekt na poslední zatáčce, protože soupeř nebude mít šanci později pomstít. Proto oba budou v poslední zatáčce defektovat., Hráč tak může také defektovat druhou až poslední zatáčku, protože soupeř bude defektovat Poslední bez ohledu na to, co se děje, a tak dále. Totéž platí, pokud délka hry není známa, ale má známou horní hranici.
na Rozdíl od standardních vězňovo dilema, v iterované vězňovo dilema zběhnutí strategie je pult-intuitivní a nedokáže špatně předvídat chování lidské hráče. V rámci standardní ekonomické teorie je to však jediná správná odpověď., Na superrational strategie v iterované vězňovo dilema s pevnou N je spolupracovat proti superrational soupeře, a v limitu velké N, experimentální výsledky na strategie souhlasit s superrational verze, ne hry-teoretický racionální.
aby se objevila spolupráce mezi herními teoretickými racionálními hráči, musí být celkový počet kol N hráčům Neznámý. V tomto případě“ vždy vada “ již nemusí být přísně dominantní strategií, pouze Nashovou rovnováhou., Mezi výsledky ukázaly Robert Aumann v roce 1959 papír, racionální hráči opakovaně interakci pro neomezeně dlouhé hry může udržet kooperativní výsledek.
Podle 2019 experimentální studie v American Economic Review, ve které byly testovány, jaké strategie reálného života, předměty používané v iterované vězeňské dilema situace, s perfektní sledování, většina zvolené strategie byly vždy vadu, tit-for-tat, a grim trigger. Která strategie si subjekty vybraly, závisela na parametrech hry.,
Strategie pro iterované vězňovo dilemmaEdit
Zájem o iterované vězňovo dilema (IPD) vznikl Robert Axelrod ve své knize The Evolution of Cooperation (1984). V něm informuje o turnaji, který uspořádal na N step vězně dilema (s n pevné), ve kterém účastníci musí znovu a znovu zvolit svou vzájemnou strategii, a mají vzpomínku na své předchozí setkání. Axelrod pozval akademické kolegy z celého světa, aby vymysleli počítačové strategie, které budou soutěžit v turnaji IPD., Programy, které byly zadány, se velmi lišily algoritmickou složitostí, počátečním nepřátelstvím, schopností odpuštění a tak dále.
Axelrod zjistil, že při těchto setkáních byly opakovány po dlouhou dobu s mnoha hráči, každý s různými strategiemi, chamtivý strategií tendenci dělat velmi špatně v dlouhodobém horizontu, zatímco více altruistických strategií udělal lépe, jak soudil čistě podle vlastního zájmu. Použil to, aby ukázal možný mechanismus vývoje altruistického chování z mechanismů, které jsou zpočátku čistě sobecké, přirozeným výběrem.,
vítěznou deterministickou strategií byl tit pro tat, který Anatol Rapoport vyvinul a vstoupil do turnaje. Byl to nejjednodušší z jakéhokoli zadaného programu, který obsahoval pouze čtyři řádky BASIC, a vyhrál soutěž. Strategie je jednoduše spolupracovat na první iteraci hry; poté hráč dělá to, co jeho soupeř udělal při předchozím tahu. V závislosti na situaci může být o něco lepší strategií „tit for tat with forgiveness“. Když soupeř defekty, na další tah, hráč někdy spolupracuje stejně, s malou pravděpodobností (kolem 1-5%)., To umožňuje občasné zotavení z uvěznění v cyklu defekcí. Přesná pravděpodobnost závisí na sestavě soupeřů.
analýzou špičkových strategií Axelrod stanovil několik podmínek nezbytných pro úspěch strategie.
Pěkné nejdůležitější podmínkou je, že strategie musí být „hezké“, že je, to není vada, než jeho soupeř (to je někdy odkazoval se na jako „optimistický“ algoritmus)., Téměř všechny top-bodování strategie byly pěkné; proto, čistě sobecká strategie nebude „podvádět“ na svého soupeře, z čistě sobeckých důvodů nejprve. Odveta Axelrod však tvrdil, že úspěšná strategie nesmí být slepým optimistou. Musí se to někdy pomstít. Příkladem nemastné strategie je vždy spolupráce. To je velmi špatná volba, protože „ošklivé“ strategie bezohledně využijí takové hráče. Odpuštění úspěšných strategií musí být také odpouštějící., I když se hráči budou mstít, opět se vrátí ke spolupráci, pokud soupeř nepřestane defektovat. To zastaví dlouhé běhy pomsty a proti-pomsty, maximalizace bodů. Nezávidění Poslední kvality je nezáviděníhodné, to se nesnaží o skóre více než soupeř.
optimální (body-maximalizace) strategie pro jednorázovou hru PD je jednoduše přeběhnutí; jak je vysvětleno výše, platí to bez ohledu na složení soupeřů., Ve hře iterated-PD však optimální strategie závisí na strategiích pravděpodobných soupeřů a na tom, jak budou reagovat na poruchy a spolupráce. Například, vezměme si populaci, kde každý vady pokaždé, až na jednoho jedince po půjčka za oplátku strategie. Tento jedinec je v mírné nevýhodě kvůli ztrátě na první zatáčce. V takové populaci je optimální strategií pro tohoto jedince defekt pokaždé., V populaci s určitým procentem vždy přeběhlíků a zbytek je tit pro hráče tat, optimální strategie pro jednotlivce závisí na procentu a délce hry.
ve strategii zvané Pavlov, win-stay, lose-switch, tváří v tvář neschopnosti spolupracovat, hráč přepne strategii na další kolo. Za určitých okolností Pavlov překonává všechny ostatní strategie tím, že dává preferenční zacházení spolustraníkům používajícím podobnou strategii.,
Odvození optimální strategie se obecně provádí dvěma způsoby:
- Bayesovské Nashovy rovnováhy: Pokud statistickém rozložení protichůdné strategie může být stanovena (např. 50% oko za oko, 50% vždy spolupracovat) optimální counter-strategie lze odvodit analyticky.
- Monte Carlo simulacích populací byly provedeny, kde jedinci s nízkým skóre odumírají, a ty s vysokým skóre reprodukovat (genetický algoritmus pro nalezení optimální strategie). Kombinace algoritmů v konečné populaci obecně závisí na mixu počáteční populace., Zavedení mutace (náhodná změna během reprodukce) snižuje závislost na počáteční populace; empirické pokusy s takovými systémy mají tendenci produkovat oko za oko hráči (viz například Šachy 1988), ale ne analytický důkaz existuje, že to bude vždy nastat.
i když oko za oko je považován za nejvíce robustní základní strategie, tým Univerzity v Southamptonu v Anglii představil novou strategii na 20-výročí iterované vězňovo dilema soutěže, která se ukázala být úspěšnější, než oko za oko., Tato strategie se spoléhala na tajnou dohodu mezi programy, aby dosáhla nejvyššího počtu bodů za JEDEN program. Univerzita předložila 60 programy do soutěže, které byly navrženy tak, aby rozpoznat navzájem prostřednictvím série pěti až deseti tahů na začátku. Jakmile toto uznání bylo, že jeden program by vždy spolupracovat a ostatní by vždy vadu, zajištění maximální počet bodů za přeběhlíka. V případě, že program si uvědomil, že hraje non-Southampton hráč, to by neustále defekt ve snaze minimalizovat skóre konkurenčního programu., Výsledky turnaje z roku 2004 tak ukazují na prvních třech místech strategie University of Southampton, přestože mají méně výher a mnohem více ztrát než ponurá strategie. (V PD turnaji, cílem hry není „vyhrát“ zápasy-které lze snadno dosáhnout častým přeběhnutím)., Také, dokonce i bez implicitní dohodě mezi software strategií (využívány v týmu Southampton) oko za oko není vždy absolutní vítěz daného turnaje, to by bylo přesnější říci, že jeho dlouhodobém horizontu výsledky v průběhu série turnajů překonat své soupeře. (V každém případě může být daná strategie mírně lépe přizpůsobena konkurenci než tit pro tat, ale tit pro tat je robustnější). Totéž platí pro tit pro tat s variantou odpuštění, a další optimální strategie: v daný den nemusí „vyhrát“ proti specifické kombinaci protistrategií., Alternativním způsobem jeho uvedení je použití simulace Darwinian ESS. V takové simulace, oko za oko téměř vždy dominuje, i když ošklivé strategie se unášet dovnitř a ven z populace, protože oko za oko populace je proniknutelné non-odplata pěkné strategie, které jsou snadnou kořistí pro ošklivé strategie. Richard Dawkins ukázal, že zde žádná statická směs strategií nevytváří stabilní rovnováhu a systém bude vždy oscilovat mezi hranicemi.,} tato strategie nakonec obsadila první tři pozice v soutěži, stejně jako řadu pozic směrem dolů.
Southampton strategie využívá skutečnosti, že více položek bylo dovoleno v této konkrétní soutěže a že výkonnost týmu byla měřena tím, že nejvyšší bodování hráč (což znamená, že použití self-obětování hráčů byla forma minmaxing). V soutěži, kde člověk má kontrolu pouze jednoho hráče, tit pro tat je určitě lepší strategie., Protože toto nové pravidlo, tato soutěž má také malý teoretický význam při analýze jediného agenta strategií ve srovnání s Axelrod je klíčový turnaj. Poskytla však základ pro analýzu toho, jak dosáhnout kooperativních strategií v rámci více agentů, zejména za přítomnosti hluku. Ve skutečnosti, dlouho předtím, než tento nový-pravidla turnaje byla hrána, Dawkins ve své knize Sobecký Gen, poukázal na možnost takových strategií vyhrát, kdyby více poznámek bylo dovoleno, ale poznamenal, že s největší pravděpodobností Axelrod nedovolili, kdyby jim bylo předloženo., To se rovněž opírá o obcházení pravidel o vězňovo dilema v tom, že neexistuje žádná komunikace povolena mezi dvěma hráči, které Southampton programy pravděpodobně udělal s jejich otevření „deset pohybovat tanec“ rozpoznat jeden druhého, což jen posiluje, jak cenné komunikace může být v posunu rovnováhy hry.
stochastic iterated prisoner ‚s dilemmaEdit
ve hře Stochastic iterated prisoner‘ s dilema jsou strategie specifikovány z hlediska „pravděpodobnosti spolupráce“., Při setkání mezi hráčem X a hráčem Y je strategie X specifikována sadou pravděpodobností P spolupráce s Y. P je funkcí výsledků jejich předchozích setkání nebo jejich některé podmnožiny. Pokud je P funkcí pouze jejich nejnovějších n setkání, nazývá se to strategie „memory-n“., Paměť-1 strategie je pak uvedeno o čtyři spolupráce pravděpodobnosti: P = { P, c c , P c , P d c P d d } {\displaystyle P=\{P_{cc},P_{cd},P_{dc},P_{dd}\}} , kde P a b {\displaystyle P_{ab}}, je pravděpodobnost, že X bude spolupracovat na tomto setkání vzhledem k tomu, že předchozí setkání byla charakterizována (ab). Například, pokud předchozí setkání byl ten, ve kterém X spolupracovali a Y přeběhl, pak P c d {\displaystyle P_{cd}}, je pravděpodobnost, že X bude spolupracovat na tomto setkání. Pokud je každá z pravděpodobností 1 nebo 0, strategie se nazývá deterministická., Příkladem deterministické strategie je tit pro strategii tat napsanou jako P={1,0,1,0}, ve které X reaguje jako Y v předchozím setkání. Další je strategie win-stay, lose-switch napsaná jako P={1,0,0,1}, ve které X reaguje jako v předchozím setkání, pokud se jednalo o „win“ (tj. Bylo prokázáno, že pro jakoukoli strategii memory-n existuje odpovídající strategie memory-1, která poskytuje stejné statistické výsledky, takže je třeba vzít v úvahu pouze strategie memory-1.,
Zero-determinant strategiesEdit
vztah mezi nula-determinant (ZD), spolupracující a přebíhat strategie v iterované vězňovo dilema (IPD) je znázorněno v Venn diagramu. Spolupracující strategie vždy spolupracovat s dalšími spolupracujícími strategie, a přebíhat strategie vždy vadu proti jiným přebíhat strategie. Oba obsahují podmnožiny strategií, které jsou robustní při silném výběru, což znamená, že žádná jiná strategie memory-1 není vybrána, aby napadla takové strategie, když mají bydliště v populaci., Pouze spolupracující strategie obsahují podmnožinu, která je vždy robustní, což znamená, že žádná jiná strategie memory-1 není vybrána k invazi a nahrazení takových strategií, a to jak silným, tak slabým výběrem. Průsečík mezi ZD a dobrými spolupracujícími strategiemi je soubor velkorysých strategií ZD. Vydírání strategie jsou křižovatce mezi ZD a non-robustní přebíhat strategie. Tit-for-tat leží na křižovatce spolupracujících, přeběhlíků a strategií ZD.
Tit-for-tat je strategie ZD, která je „spravedlivá“ ve smyslu nezískání výhody nad druhým hráčem., Nicméně, ZD prostor obsahuje také strategie, které, v případě dvou hráčů, může umožnit, aby jeden hráč jednostranně nastavit ostatní hráče skóre, nebo alternativně, platnost evoluční hráč dosáhnout odměna nějaké procento nižší, než jeho vlastní. Vydíraný hráč by mohl defektovat, ale tím by se zranil tím, že by získal nižší výplatu. Vyděračská řešení tak z opakovaného vězňova dilematu dělají jakousi ultimátum., Speciálně, X je možné zvolit strategii, pro kterou D ( P , Q , β Y y + γ, U ) = 0 {\displaystyle D(P,Q,\beta S_{y}+\gamma U)=0} , jednostranně nastavení s y {\displaystyle s_{y}} na konkrétní hodnotu v rámci konkrétní rozsah hodnot, nezávislé na Y ‚s strategie, nabízí příležitost pro X „vydírat“ hráč Y (a naopak). (Ukazuje se, že pokud X se pokusí nastavit s x {\displaystyle s_{x}} na určitou hodnotu, rozsah možností je mnohem menší, pouze se skládá z kompletní spolupráce, nebo kompletní zběhnutí.,)
rozšíření IPD je evoluční stochastická IPD, ve které se může změnit relativní množství konkrétních strategií, přičemž úspěšnější strategie se relativně zvyšují. Tento proces může být proveden tím, že méně úspěšní hráči napodobují úspěšnější strategie nebo eliminují méně úspěšné hráče ze hry, zatímco násobí úspěšnější. Bylo prokázáno, že nespravedlivé strategie ZD nejsou evolučně stabilní., Klíč intuice je, že evolučně stabilní strategie musí být nejen schopen napadnout další populace (což extortionary ZD strategií může udělat), ale musí také fungovat dobře proti ostatním hráčům stejného typu (, které extortionary ZD hráči dělají špatně, protože snižují navzájem přebytek).
Teorie a simulace potvrzují, že za kritické velikosti populace, ZD vydírání ztrácí v evoluční soutěži proti více kooperativní strategie, a jako výsledek, průměrná výplata v populaci se zvyšuje, když populace je větší., Kromě toho existují některé případy, kdy vyděrači mohou dokonce katalyzovat spolupráci tím, že pomáhají vymanit se z tváře mezi jednotnými přeběhlíky a agenty win-stay, lose–switch.
zatímco extorční strategie ZD nejsou stabilní ve velkých populacích, další třída ZD zvaná „velkorysé“ strategie je stabilní i robustní. Ve skutečnosti, když populace není příliš malý, tyto strategie mohou nahrazovat jakékoliv jiné ZD strategie, a dokonce i hrát dobře proti široké škály generických strategií pro iterované dilema vězně, včetně win–stay, lose–switch., To bylo prokázáno speciálně pro darovací hru Alexander Stewart a Joshua Plotkin v roce 2013. Velkorysé strategie budou spolupracovat s ostatními kooperativními hráči a tváří v tvář zběhnutí Velkorysý hráč ztratí více užitečnosti než jeho soupeř. Štědrý strategie jsou křižovatce ZD strategií a tak-zvané „dobré“ strategií, které byly definovány Podobný (2013), které mají být ti, pro které hráč reaguje na minulost, vzájemné spolupráci s budoucí spolupráci a rozdělí očekávané přínosy stejně tak v případě, že obdrží alespoň družstva očekávaný přínos., Mezi dobrými strategiemi funguje velkorysá (ZD) podmnožina dobře, když populace není příliš malá. V případě, že populace je velmi malá, defekce strategie mají tendenci dominovat.
Kontinuální iterované vězňovo dilemmaEdit
Většina práce na iterované vězňovo dilema je zaměřena na diskrétní případ, ve kterém hráči buď spolupracovat, nebo vada, protože tento model je poměrně jednoduché analyzovat. Někteří vědci se však podívali na modely nepřetržitého iterovaného vězňova dilematu, ve kterém jsou hráči schopni variabilně přispět k druhému hráči., Le a Boyd zjistili, že v takových situacích je spolupráce mnohem těžší než v diskrétním iterovaném vězňově dilematu. Základní intuici za tímto výsledkem je jednoduchý: v kontinuální vězňovo dilema, je-li populace začíná v non-kooperativní rovnováhy, hráče, kteří jsou jen nepatrně více kooperativní, než nespolupracujících dostat malý užitek z assorting jeden s druhým. Naopak, v diskrétním vězňovo dilema, oko za oko spolupracovníky získat velký přínos boost od assorting s jedním další v non-kooperativní rovnováhy, vzhledem k non-družstevníků., Od přírody pravděpodobně nabízí více příležitostí pro proměnné spolupráce, spíše než striktní dichotomie spolupráce nebo zběhnutí, kontinuální vězňovo dilema může pomoci vysvětlit, proč real-život příklady oko za oko-jako spolupráce jsou extrémně vzácné v přírodě (ex. Hammerstein) , I když tit pro tat se zdá robustní v teoretických modelech.
Vznik stabilní strategiesEdit
Hráči nemohou koordinovat vzájemné spolupráce, se tak často dostat do nižší, ale stabilní strategie zběhnutí., Tímto způsobem iterační kola usnadňují vývoj stabilních strategií. Iterační kola často vytvářejí nové strategie, které mají důsledky pro komplexní sociální interakci. Jednou z takových strategií je win-stay lose-shift. Tato strategie překonává jednoduchou strategii Tit-For-Tat – to znamená, že pokud se můžete dostat pryč s podváděním, opakujte toto chování, ale pokud vás chytí, přepněte.
jediným problémem této strategie tit-for-tat je, že jsou náchylné k chybě signálu. Problém nastává, když jeden jednotlivec podvádí v odvetě, ale druhý to interpretuje jako podvádění., V důsledku toho druhý jedinec nyní podvádí a pak začne vidět-viděl vzor podvádění v řetězové reakci.