Dilema prizonierului

această secțiune necesită citări suplimentare pentru verificare. Vă rugăm să ajutați la îmbunătățirea acestui articol prin adăugarea de citate la surse de încredere. Materialele nesurse pot fi contestate și eliminate. (Noiembrie 2012) (Aflați cum și când să eliminați acest mesaj șablon)

dacă doi jucători joacă dilema prizonierului de mai multe ori succesiv și își amintesc acțiunile anterioare ale adversarului și își schimbă strategia în consecință, jocul se numește dilema prizonierului repetat.,

În plus față de forma generală de mai sus, versiune iterativ necesită, de asemenea, că 2 R > T + S {\displaystyle 2R>T+S} , pentru a preveni alternativ de cooperare și dezertarea oferind o recompensă mai mare decât cooperarea reciprocă.jocul dilemei prizonierului repetat este fundamental pentru unele teorii ale cooperării și încrederii umane. Presupunând că jocul poate modela tranzacții între două persoane care necesită încredere, comportamentul de cooperare în populații poate fi modelat de o versiune multi-player, iterată a jocului., Prin urmare, a fascinat mulți savanți de-a lungul anilor. În 1975, Grofman și Pool au estimat numărul articolelor științifice dedicate lui la peste 2 000. Dilema prizonierului repetat a fost denumită și „jocul de război pentru pace”.dacă jocul este jucat exact de N ori și ambii jucători știu acest lucru, atunci este optim să defectați în toate rundele. Singurul echilibru Nash posibil este întotdeauna defect. Dovada este inductivă: s-ar putea defecta la ultima întoarcere, deoarece adversarul nu va avea șansa să se răzbune mai târziu. Prin urmare, ambele vor defecta la ultima întoarcere., Astfel, jucătorul ar putea la fel de bine defect pe al doilea la ultimul viraj, deoarece adversarul va defecta pe ultimul indiferent de ce se face și așa mai departe. Același lucru este valabil dacă lungimea jocului este necunoscută, dar are o limită superioară cunoscută.spre deosebire de dilema prizonierului standard, în dilema prizonierului iterat, strategia de dezertare este contra-intuitivă și nu reușește să prezică comportamentul jucătorilor umani. În cadrul teoriei economice standard, însă, acesta este singurul răspuns corect., La superrational strategie în reiterat dilema prizonierului cu fix N este de a coopera împotriva unui superrational adversar, și în limita de mari N, rezultate experimentale privind strategiile de acord cu superrational versiune, nu joc teoretic rațională.pentru ca cooperarea să apară între jucătorii raționali teoretici ai jocului, numărul total de runde N trebuie să fie necunoscut jucătorilor. În acest caz,” întotdeauna defect ” nu mai poate fi o strategie strict dominantă, ci doar un echilibru Nash., Printre rezultatele prezentate de Robert Aumann într-o lucrare din 1959, jucătorii raționali care interacționează în mod repetat pentru jocuri pe termen nelimitat pot susține rezultatul cooperativ.conform unui studiu experimental din 2019 din American Economic Review, care a testat ce strategii au folosit subiecții din viața reală în situațiile de dilemă ale prizonierilor cu monitorizare perfectă, majoritatea strategiilor alese au fost întotdeauna defect, tit-for-tat și declanșator sumbru. Ce strategie au ales subiecții depindea de parametrii jocului.,

Strategia pentru dilema prizonierului iteratedit

interesul pentru dilema prizonierului iterat (IPD) a fost aprins de Robert Axelrod în cartea sa the Evolution of Cooperation (1984). În ea, el raportează despre un turneu pe care l-a organizat despre dilema prizonierului N step (Cu N Fix) în care participanții trebuie să-și aleagă strategia reciprocă din nou și din nou și să aibă amintirea întâlnirilor lor anterioare. Axelrod a invitat colegii academici din întreaga lume să elaboreze strategii informatice pentru a concura într-un turneu IPD., Programele care au fost introduse au variat foarte mult în complexitatea algoritmică, ostilitatea inițială, capacitatea de iertare și așa mai departe.

Axelrod a descoperit că, atunci când aceste întâlniri au fost repetate pe o perioadă lungă de timp, cu mulți jucători, fiecare cu diferite strategii, lacomi strategii avut tendința de a face foarte prost pe termen lung, în timp ce mai altruist strategii de făcut mai bine, cum a judecat doar de auto-interes. El a folosit acest lucru pentru a arăta un posibil mecanism pentru evoluția comportamentului altruist din mecanisme care sunt inițial pur egoiste, prin selecție naturală.,strategia deterministă câștigătoare a fost tit for tat, pe care Anatol Rapoport a dezvoltat-o și a intrat în turneu. A fost cel mai simplu dintre orice program introdus, conținând doar patru linii de bază, și a câștigat concursul. Strategia este pur și simplu să coopereze la prima iterație a jocului; după aceea, jucătorul face ceea ce adversarul său a făcut în mișcarea anterioară. În funcție de situație, o strategie puțin mai bună poate fi „tit pentru tat cu iertare”. Când adversarul defectează, la următoarea mișcare, jucătorul cooperează uneori oricum, cu o mică probabilitate (în jur de 1-5%)., Acest lucru permite recuperarea ocazională de a fi prins într-un ciclu de defecțiuni. Probabilitatea exactă depinde de linia adversarilor.analizând strategiile de top, Axelrod a declarat câteva condiții necesare pentru ca o strategie să aibă succes.

nisa cea mai importantă condiție este ca strategia să fie „drăguță”, adică nu va defecta înainte ca adversarul să o facă (acest lucru este uneori denumit algoritm „optimist”)., Aproape toate strategiile de top au fost frumoase; prin urmare, o strategie pur egoistă nu va „înșela” adversarul său, din motive pur interesate de sine. Cu toate acestea, Axelrod a susținut că strategia de succes nu trebuie să fie un optimist orb. Uneori trebuie să se răzbune. Un exemplu de strategie non-retaliating este întotdeauna cooperează. Aceasta este o alegere foarte proastă, deoarece strategiile „urâte” vor exploata nemilos astfel de jucători. Iertarea strategiilor de succes trebuie, de asemenea, să fie iertătoare., Deși jucătorii se vor răzbuna, vor reveni din nou la Cooperare dacă adversarul nu continuă să dezerteze. Acest lucru oprește alergări lungi de răzbunare și contra-răzbunare, maximizând punctele. Non-invidios ultima calitate este non-invidios, care nu se străduiește să înscrie mai mult decât adversarul.

strategia optimă (maximizarea punctelor) pentru jocul PD unic este pur și simplu dezertare; așa cum am explicat mai sus, acest lucru este adevărat indiferent de compoziția adversarilor., Cu toate acestea, în jocul iterat-PD strategia optimă depinde de strategiile adversarilor probabili și de modul în care vor reacționa la dezertări și cooperări. De exemplu, luați în considerare o populație în care toată lumea defectează de fiecare dată, cu excepția unei singure persoane care urmează strategia tit for tat. Acest individ este la un ușor dezavantaj din cauza pierderii pe primul viraj. Într-o astfel de populație, strategia optimă pentru acel individ este de a defecta de fiecare dată., Într-o populație cu un anumit procent de întotdeauna-dezertori, iar restul fiind tit pentru tat jucători, strategia optimă pentru un individ depinde de procentul, și pe durata jocului.în strategia numită Pavlov, win-stay, lose-switch, care se confruntă cu un eșec de a coopera, jucătorul comută strategia următorul viraj. În anumite circumstanțe, Pavlov bate toate celelalte strategii acordând tratament preferențial co-jucătorilor folosind o strategie similară.,derivarea strategiei optime se face în general în două moduri:

Bayesian Nash equilibrium: dacă distribuția statistică a strategiilor opuse poate fi determinată (de exemplu, 50% tit pentru tat, 50% cooperează întotdeauna) o contra-strategie optimă poate fi derivată analitic. au fost făcute simulări Monte Carlo ale populațiilor, în care indivizii cu scoruri mici mor, iar cei cu scoruri mari se reproduc (un algoritm genetic pentru găsirea unei strategii optime). Amestecul de algoritmi din populația finală depinde, în general, de amestecul din populația inițială., Introducerea mutației (variație aleatorie în timpul reproducerii) diminuează dependența de populația inițială; experimentele empirice cu astfel de sisteme tind să producă jucători tit pentru tat (a se vedea, de exemplu, șah 1988), dar nu există nici o dovadă analitică că acest lucru va avea loc întotdeauna. deși tit for tat este considerată a fi cea mai robustă strategie de bază, o echipă de la Universitatea Southampton din Anglia a introdus o nouă strategie la concursul dilema prizonierului iterat de 20 de ani, care s-a dovedit a fi mai de succes decât tit for tat., Această strategie sa bazat pe coluziune între programe pentru a obține cel mai mare număr de puncte pentru un singur program. Universitatea a prezentat 60 de programe la concurs, care au fost concepute pentru a se recunoaște reciproc printr-o serie de cinci până la zece mișcări la început. Odată ce această recunoaștere a fost făcută, un program ar coopera întotdeauna, iar celălalt ar defecta întotdeauna, asigurând numărul maxim de puncte pentru dezertor. Dacă programul și-a dat seama că joacă un jucător non-Southampton, ar defecta continuu în încercarea de a minimiza scorul programului concurent., Ca rezultat, rezultatele turneului Dilema prizonierilor din 2004 arată strategiile Universității din Southampton în primele trei locuri, în ciuda faptului că au mai puține victorii și mult mai multe pierderi decât strategia sumbră. (Într – un turneu PD, Scopul jocului nu este de a „câștiga” meciuri-acest lucru poate fi ușor realizat prin dezertare frecventă)., De asemenea, chiar și fără o înțelegere implicită între strategiile software (exploatate de echipa Southampton) tit for tat nu este întotdeauna câștigătorul absolut al oricărui turneu dat; ar fi mai precis să spunem că rezultatele sale pe termen lung într-o serie de turnee depășesc rivalii săi. (În orice caz, o anumită strategie poate fi ușor mai bine ajustată la concurență decât tit pentru tat, dar tit pentru tat este mai robust). Același lucru este valabil și pentru tit pentru tat cu varianta de iertare și alte strategii optime: în orice zi s-ar putea să nu „câștige” împotriva unui amestec specific de contra-strategii., O modalitate alternativă de a o pune este utilizarea simulării ESS darwiniste. Într-o astfel de simulare, dinte pentru dinte va veni aproape întotdeauna să domine, deși urât strategii vor derivă și în afară de populație pentru un „dinte pentru dinte” populația este penetrabil de către non-razbunarii frumos strategii, care, la rândul lor, sunt o pradă ușoară pentru urât strategii. Richard Dawkins a arătat că aici, nici un amestec static de strategii formează un echilibru stabil și sistemul va oscila întotdeauna între limite.,}} această strategie a ajuns să ocupe primele trei poziții în competiție, precum și o serie de poziții spre partea de jos.
Southampton strategie profită de faptul că mai multe intrări au fost permise în această competiție și performanță a echipei a fost măsurată prin care de cel mai prolific jucător (ceea ce înseamnă că utilizarea de auto-sacrificiu jucători a fost o formă de minmaxing). Într-o competiție în care unul are controlul unui singur jucător, tit for tat este cu siguranță o strategie mai bună., Datorită acestei noi reguli, această competiție are, de asemenea, o semnificație teoretică mică atunci când analizează strategiile cu un singur agent în comparație cu turneul seminal al lui Axelrod. Cu toate acestea, a oferit o bază pentru analiza modului de realizare a strategiilor de cooperare în cadre multi-agent, în special în prezența zgomotului. De fapt, cu mult înainte de acest turneu de noi reguli a fost jucat, Dawkins, în cartea sa Gena egoist, a subliniat posibilitatea unor astfel de strategii câștigătoare în cazul în care mai multe intrări au fost permise, dar el a remarcat că cel mai probabil Axelrod nu le-ar fi permis dacă ar fi fost depuse., De asemenea, se bazează pe eluda regulile despre dilema prizonierului în care nu există nici o comunicare între cei doi jucători, care Southampton programe, fără îndoială, a făcut cu deschiderea lor „zece mișcare de dans” să recunoască unul pe altul; acest lucru întărește doar cât de valoros de comunicare poate fi în schimbarea echilibrului de joc.

dilema prizonierului iterat stocastic editat

într-un joc de dilemă a prizonierului iterat stocastic, strategiile sunt specificate de în termeni de „probabilități de cooperare”., Într-o întâlnire între jucătorul X și jucătorul Y, strategia lui X este specificată de un set de probabilități P de a coopera cu Y. P este o funcție a rezultatelor întâlnirilor lor anterioare sau a unui subset al acestora. Dacă P este o funcție a celor mai recente întâlniri n, se numește strategie „memorie-n”., O memorie-1 strategie este specificat prin patru cooperare probabilități: P = { P c c P c d P d c P d d } {\displaystyle P=\{P_{cc},P_{cd},P_{cc},P_{zz}\}} , unde P a b {\displaystyle P_{ab}} este probabilitatea ca X va coopera în prezent întâlni având în vedere că întâlnirea precedentă a fost caracterizată de (ab). De exemplu, dacă întâlnirea anterioară a fost una în care X a cooperat și Y a defectat, atunci P C D {\displaystyle P_{cd}} este probabilitatea ca X să coopereze în întâlnirea actuală. Dacă fiecare dintre probabilități este fie 1, fie 0, strategia se numește deterministă., Un exemplu de strategie deterministă este tit pentru strategia tat scrisă ca P = {1,0,1,0}, în care X răspunde așa cum a făcut Y în întâlnirea anterioară. O alta este strategia win–stay, lose–switch scrisă ca p = {1,0,0,1}, în care X răspunde ca în întâlnirea anterioară, dacă a fost un „câștig” (adică cc sau dc), dar schimbă strategia dacă a fost o pierdere (adică cd sau dd). S-a demonstrat că pentru orice strategie memory-n există o strategie memory-1 corespunzătoare care oferă aceleași rezultate statistice, astfel încât trebuie luate în considerare doar strategiile memory-1.,

Zero-factor determinant strategiesEdit

relația între zero determinant (ZD), să coopereze și să dezerteze strategii în reiterat dilema prizonierului (IPD) a ilustrat într-o diagramă Venn. Cooperează strategii întotdeauna să coopereze cu alte strategii cooperante, și fuga strategii întotdeauna defect împotriva altor fuga strategii. Ambele conțin subseturi de strategii care sunt robuste sub o selecție puternică, ceea ce înseamnă că nicio altă strategie memory-1 nu este selectată pentru a invada astfel de strategii atunci când sunt rezidenți într-o populație., Numai strategiile de cooperare conțin un subset care sunt întotdeauna robuste, ceea ce înseamnă că nici o altă strategie de memorie-1 este selectat pentru a invada și înlocui astfel de strategii, atât sub selecție puternică și slabă. Intersecția dintre ZD și strategiile bune de cooperare este setul de strategii generoase ZD. Strategiile de extorcare sunt intersecția dintre strategiile de defectare ZD și cele care nu sunt robuste. Tit-for-tat se află la intersecția strategiilor de cooperare, dezertare și ZD.

Tit-for-tat este o strategie ZD care este „corectă” în sensul de a nu obține un avantaj față de celălalt jucător., Cu toate acestea, spațiul ZD conține, de asemenea, strategii care, în cazul a doi jucători, pot permite unui jucător să stabilească unilateral scorul celuilalt jucător sau, alternativ, să forțeze un jucător evolutiv să obțină o plată cu un procent mai mic decât al său. Jucătorul extorcat ar putea defecta, dar s-ar răni prin obținerea unei plăți mai mici. Astfel, soluțiile de extorcare transformă dilema prizonierului iterat într-un fel de joc de ultimatum., În mod specific, X este capabil de a alege o strategie pentru care D ( P , Q , β y + γ U ) = 0 {\displaystyle D(P,Q,\beta S_{y}+\gamma U)=0} , stabilirea în mod unilateral s y {\displaystyle s_{y}} pentru o anumită valoare într-un anumit interval de valori, independent de Y modelului de strategie, oferind o oportunitate pentru X pentru a „stoarce” jucatorul Y (și vice versa). (Se pare că dacă X încearcă să stabilească s x {\displaystyle s_{x}} la o anumită valoare, gama de posibilități este mult mai mică, constând doar în cooperare completă sau defectare completă.,o extensie a IPD este un IPD stochastic evolutiv, în care abundența relativă a strategiilor particulare este permisă să se schimbe, strategiile mai reușite fiind relativ în creștere. Acest proces poate fi realizată cu mai puțin succes jucători imita mai multe strategii de succes, sau prin eliminarea mai de succes jucători de joc, în timp ce înmulțirea cele mai de succes. S-a demonstrat că strategiile ZD nedrepte nu sunt stabile evolutiv., Intuiția cheie este că o strategie evolutivă stabilă nu trebuie să poată invada doar o altă populație (pe care strategiile ZD extortionare o pot face), ci trebuie să funcționeze bine și împotriva altor jucători de același tip (pe care jucătorii ZD extortionari o fac prost, deoarece își reduc surplusul reciproc).

Teoria și simulările confirmă faptul că, dincolo de o dimensiune critică a populației, extorcarea ZD pierde în competiția evolutivă împotriva strategiilor mai cooperative și, ca urmare, câștigul mediu al populației crește atunci când populația este mai mare., În plus, există unele cazuri în care extorcatorii pot chiar să catalizeze cooperarea ajutând la izbucnirea unei confruntări între dezertorii uniformi și agenții de câștig-ședere, pierdere–comutare.în timp ce strategiile ZD extortionare nu sunt stabile în populații mari, o altă clasă ZD numită strategii „generoase” este atât stabilă, cât și robustă. De fapt, atunci când populația nu este prea mică, aceste strategii pot înlocui orice altă strategie ZD și chiar pot funcționa bine împotriva unei game largi de strategii generice pentru dilema prizonierului iterat, inclusiv win–stay, lose–switch., Acest lucru a fost dovedit special pentru jocul de donație de Alexander Stewart și Joshua Plotkin în 2013. Strategiile generoase vor coopera cu alți jucători cooperativi, iar în fața dezertării, jucătorul Generos pierde mai multă utilitate decât rivalul său. Strategiile generoase sunt intersecția strategiilor ZD și a așa-numitelor strategii „bune”, care au fost definite de Akin (2013) pentru a fi cele pentru care jucătorul răspunde cooperării reciproce din trecut cu cooperarea viitoare și împarte plățile așteptate în mod egal dacă primește cel puțin plata așteptată cooperativă., Printre strategiile bune, subsetul Generos (ZD) funcționează bine atunci când populația nu este prea mică. Dacă populația este foarte mică, strategiile de dezertare tind să domine.majoritatea lucrărilor la dilema prizonierului repetat s-au concentrat pe cazul discret, în care jucătorii cooperează sau defectează, deoarece acest model este relativ simplu de analizat. Cu toate acestea, unii cercetători au analizat modele ale dilemei prizonierului continuu, în care jucătorii sunt capabili să aducă o contribuție variabilă celuilalt jucător., Le și Boyd au descoperit că, în astfel de situații, cooperarea este mult mai greu de evoluat decât în dilema discretă a prizonierului. Bază de intuiție pentru acest rezultat este simplă: într-o continuă dilemă a prizonierului, dacă o populație începe într-un non-cooperative de echilibru, jucători care sunt doar puțin mai cooperant decât non-cooperatori obține mic beneficia de asortare cu un altul. În schimb, într-o dilemă discretă a prizonierului, cooperatorii tit for tat obțin un mare impuls de câștig de la asortarea unii cu alții într-un echilibru necooperant, în raport cu non-cooperatorii., Din moment ce natura, fără îndoială, oferă mai multe oportunități pentru variabila de cooperare, mai degrabă decât strict dihotomie de cooperare sau dezertarea, continuă dilema prizonierului poate explica de ce exemple din viața reală de „dinte pentru dinte” -cum ar fi cooperarea sunt extrem de rare în natură (ex. Hammerstein) chiar dacă tit pentru tat pare robust în modelele teoretice.

apariția strategiilor stabileedit

jucătorii nu par să coordoneze cooperarea reciprocă, astfel de multe ori se blochează în strategia inferioară, dar stabilă de dezertare., În acest fel, rundele iterate facilitează evoluția strategiilor stabile. Rundele iterate produc adesea strategii noi, care au implicații asupra interacțiunii sociale complexe. O astfel de strategie este win-stay lose-shift. Această strategie depășește o strategie simplă Tit-For – Tat-adică, dacă puteți scăpa de înșelăciune, repetați acest comportament, cu toate acestea, dacă sunteți prins, comutați.singura problemă a acestei strategii tit-for-tat este că acestea sunt vulnerabile la eroare de semnal. Problema apare atunci când un individ trișează în represalii, dar celălalt îl interpretează ca înșelăciune., Drept urmare, cel de-al doilea individ trișează acum și apoi începe un model de a vedea-a văzut înșelăciunea într-o reacție în lanț.

Strategia pentru dilema prizonierului iteratedit

dilema prizonierului iterat stocastic editat

Zero-factor determinant strategiesEdit

apariția strategiilor stabileedit

Lasă un răspuns Anulează răspunsul