Vangin dilemma

Tämä osio tarvitsee lisää sitaatteja tarkastettavaksi. Auta parantamaan tätä artikkelia lisäämällä sitaatteja luotettaviin lähteisiin. Käsittelemätön materiaali voidaan asettaa kyseenalaiseksi ja poistaa. (Marraskuu 2012) (Oppia, miten ja milloin poistaa tämä malli viesti)

Jos kaksi pelaajaa pelaa vangin dilemma useammin kuin kerran peräkkäin, ja he muistavat aiemmat toimet niiden vastustaja ja muuttaa strategiaansa sen mukaisesti, peli on nimeltään iteroitava vangin dilemma.,

lisäksi yleinen muoto edellä, iteratiivinen versio edellyttää myös, että 2 R > T + S {\displaystyle 2R>T+S} , estää vuorotellen yhteistyötä ja loikkaus antaa suurempi palkkio kuin keskinäistä yhteistyötä.

iteroidun vangin dilemma-peli on joidenkin ihmisten yhteistyön ja luottamuksen teorioiden perusasia. Olettaen, että peli voi malli liiketoimien välillä kaksi ihmistä, jotka edellyttävät luottamusta, osuuskunta käyttäytymistä populaatioissa voidaan mallintaa multi-soitin, iteroitava versio pelin., Se on näin ollen kiehtonut monia oppineita vuosien varrella. Vuonna 1975 Grofman ja Pool arvioivat sille omistettujen tieteellisten kirjoitusten määräksi yli 2 000. Iteroituun vangin dilemmaan on viitattu myös nimellä”rauhansotapeli”.

Jos peliä pelataan tasan N kertaa ja molemmat pelaajat tietävät tämän, niin on optimaalista loikata kaikilla kierroksilla. Ainoa mahdollinen Nash-tasapaino on aina loikata. Näyttö on induktiivinen: yhtä hyvin voisi loikata viimeisessä kaarteessa, sillä vastustajalla ei ole myöhemmin mahdollisuutta kostaa. Siksi molemmat loikkaavat viimeisessä mutkassa., Näin ollen pelaaja voi yhtä hyvin loikata toiseksi viimeisessä kaarteessa, sillä vastustaja loikkaa viimeiseen vaikka mitä tehtäisiin ja niin edelleen. Sama pätee, jos pelin pituus on tuntematon, mutta sillä on tiedossa yläraja.

toisin Kuin standardi vangin dilemma, kun iteroitava vangin dilemma loikkaus strategia on counter-intuitiivinen ja epäonnistuu pahasti ennustaa käyttäytymistä ihmisen pelaajia. Standarditalousteoriassa tämä on kuitenkin ainoa oikea vastaus., Se superrational strategia iteroitava vangin dilemma, jossa kiinteä N on tehtävä yhteistyötä vastaan superrational vastustaja, ja raja suuri N kokeellisia tuloksia strategioiden kanssa samaa mieltä siitä, superrational versio, ei peli-theoretic järkevä.

yhteistyö välille syntyy game theoretic järkevää pelaajaa, yhteensä kierrosten määrä N on oltava tuntemattomia pelaajia. Tällöin ”aina vika” ei välttämättä ole enää tiukasti hallitseva strategia, vain Nashin tasapaino., Muun muassa tulokset esitetään Robert Aumann vuonna 1959 paperi, järkevä pelaajat toistuvasti keskenään vuorovaikutuksessa loputtomiin pitkiä pelejä voi ylläpitää osuuskunta tulos.

Mukaan 2019 kokeellinen tutkimus American Economic Review, joka testasi, mitä strategioita tosielämän aiheita käytetään iteroitava vankien dilemma tilanteissa täydellinen seuranta, suurin osa valittujen strategioiden olivat aina vika, tit-for-tat, ja synkkä laukaista. Minkä strategian koehenkilöt valitsivat riippuu pelin parametreista.,

Strategia iteroitava vangin dilemmaEdit

Kiinnostus iteroitava vangin dilemma (IPD) oli syttynyt Robert Axelrod kirjassaan Evolution Yhteistyötä (1984). Siinä hän raportoi turnauksen hän järjesti N vaihe vangin dilemma (N kiinteä), jossa osallistujat täytyy valita niiden keskinäisen strategian uudelleen ja uudelleen, ja muisti heidän edellinen kohtaamisia. Axelrod kutsui akateemisia kollegoita ympäri maailmaa suunnittelemaan tietokonestrategioita kilpailemaan IPD-turnauksessa., Syötetyt ohjelmat vaihtelivat suuresti algoritmisen monimutkaisuuden, alkuperäisen vihamielisyyden, anteeksiannon kyvyn ja niin edelleen.

Axelrod havaitsivat, että kun nämä kohtaamiset olivat toistuvasti pitkän ajan kuluessa monet pelaajat, kukin eri strategioita, ahne strategioita yleensä tehdä erittäin huonosti pitkällä aikavälillä, kun taas enemmän pyyteettömästi strategioita onnistui paremmin, kuin arvioida puhtaasti oman edun. Hän käytti tätä osoittaa mahdollinen mekanismi kehitys pyyteettömästi käyttäytymisen mekanismeja, jotka ovat alun perin puhtaasti itsekäs, luonnonvalinnan.,

voittoisa deterministinen strategia oli tatille, jonka Anatol Rapoport kehitti ja osallistui turnaukseen. Se oli yksinkertaisin kaikista ohjelman tuli sisältää vain neljä riviä PERUS -, ja voitti kilpailun. Strategiana on yksinkertaisesti tehdä yhteistyötä pelin ensimmäisessä iteraatiossa; sen jälkeen pelaaja tekee sen, mitä hänen vastustajansa teki edellisellä siirrolla. Tilanteesta riippuen, hieman parempi strategia voi olla ”tit for tat anteeksiantoa”. Kun vastustaja vikaantuu, seuraavalla liikkeellä pelaaja tekee joskus yhteistyötä muutenkin, pienellä todennäköisyydellä (noin 1-5%)., Tämä mahdollistaa satunnaisen toipumisen siitä, että joutuu loikkauskierteeseen. Tarkka todennäköisyys riippuu vastustajien kokoonpanosta.

analysoimalla kärkikamppailustrategioita Axelrod totesi useita edellytyksiä, jotka ovat välttämättömiä strategian onnistumiselle.

Mukava tärkein edellytys on, että strategia on ”mukavaa”, että on, se ei ole vika, ennen kuin sen vastustaja tekee (tämä on joskus kutsutaan ”optimistinen” algoritmi)., Lähes kaikki alkuun-pisteytys strategiat olivat mukava; siis puhtaasti itsekäs strategia ei ”huijata” sen vastustaja, puhtaasti itsekkäästä syystä. Axelrod kuitenkin väitti, että onnistunut strategia ei saa olla sokea optimisti. Sen täytyy joskus kostaa. Esimerkki kostonvastaisesta strategiasta on aina yhteistyö. Tämä on erittäin huono valinta, koska ”nasty” strategiat häikäilemättömästi hyödyntää tällaisia pelaajia. Onnistuneiden strategioiden anteeksiantamisen on myös oltava anteeksiantavaa., Vaikka pelaajat kostavat, he jälleen syksyllä takaisin yhteistyöhön, jos vastustaja ei jatka vika. Tämä pysäyttää pitkät kosto-ja Vastakohdat maksimoiden pisteitä. Ei-kateellinen viime laatu on ei-kateellinen, joka ei pyri pisteet enemmän kuin vastustaja.

optimaalinen (pistettä-maksimointi) strategian yksi-aikaa PD peli on yksinkertaisesti loikkaus; kuten edellä on selitetty, tämä on totta riippumatta kokoonpano vastustajat voivat olla., Kuitenkin iteroitava-PD-peli optimaalinen strategia riippuu strategioita todennäköisesti vastustajia, ja miten he reagoivat loikkaukset ja yhteistyöhön. Ajatellaan esimerkiksi väestö, jossa kaikki viat joka kerta, lukuun ottamatta yhden yksittäisen seuraavat tit for tat-strategiaa. Kyseinen yksilö on lievästi alakynnessä ensimmäisen kierroksen tappion takia. Tällaisessa väestössä kyseisen yksilön optimaalinen strategia on loikata joka kerta., Väestön kanssa tietty prosenttiosuus aina-loikkarit ja loput mitalla pelaajien optimaalinen strategia yksittäisen riippuu prosenttiosuus, ja pelin pituuden.

strategia nimeltä Pavlov, win-stay, lose-kytkin, edessä vika yhteistyötä, pelaaja siirtyy strategian seuraavalla vuorolla. Tietyissä olosuhteissa Pavlov päihittää kaikki muut strategiat antamalla etuuskohtelun kanssapelaajille käyttäen samanlaista strategiaa.,

Johtuvia optimaalinen strategia on yleensä tehdä kahdella tavalla:

Bayes-Nash tasapaino: Jos tilastollinen jakauma vastakkaisia strategioita voidaan määrittää (esimerkiksi 50% mitalla, 50% aina yhteistyötä) optimaalinen counter-strategia voi olla johdettu analyyttisesti.
Monte Carlon populaatioista on tehty simulaatioita, joissa vähälukuiset yksilöt kuolevat pois, ja ne, joilla on korkeat pisteet, lisääntyvät (geneettinen algoritmi optimaalisen strategian löytämiseksi). Algoritmien yhdistelmä lopullisessa populaatiossa riippuu yleensä alkuperäisen populaation sekoituksesta., Käyttöönotto mutaatio (satunnainen vaihtelu lisääntymisen aikana) vähentää riippuvuutta alkuperäisestä väestöstä; empiirisiä kokeiluja tällaiset järjestelmät tuottavat yleensä mitalla pelaajat (ks. esimerkiksi Shakki 1988), mutta ei analyyttinen todisteita olemassa, että tämä ei aina tapahdu.

Vaikka mitalla pidetään kaikkein kestävä perus strategia, joukkue Southamptonin Yliopistossa Englannissa otettiin käyttöön uusi strategia 20-vuotta iteroitava vangin dilemma kilpailu, jotka ovat osoittautuneet paremmin kuin mitalla., Tämä strategia tukeutui ohjelmien väliseen salaliittoon saavuttaakseen suurimman pistemäärän yhdelle ohjelmalle. Yliopisto esitti 60-ohjelmia kilpailun, jonka tarkoituksena oli tunnistaa toisensa läpi sarjan viidestä kymmeneen liikkuu alussa. Kun tämä tunnustus on tehty, yksi ohjelma olisi aina yhteistyötä ja toinen olisi aina vika, varmistaen maksimaalisen määrän pisteitä loikkari. Jos ohjelma tajusi, että se oli pelissä non-Southampton pelaaja, se olisi jatkuvasti vika yritetään minimoida pisteet kilpailevan ohjelman., Seurauksena, 2004 Vankien Dilemma Turnauksen tulokset osoittavat, University of Southampton strategioita, ensimmäinen kolme paikkaa, huolimatta vähemmän voittoa ja paljon enemmän tappioita kuin SYNKKÄ strategia. (PD-turnauksessa Pelin tavoitteena ei ole ”voittaa” otteluita-jotka voidaan helposti saavuttaa usein loikkaamalla)., Myös, jopa ilman implisiittinen salaiseen välillä ohjelmisto strategioita (hyväkseen Southampton joukkue) mitalla ei ole aina ehdoton voittaja tahansa turnauksen, se olisi tarkempaa sanoa, että sen pitkän aikavälin tuloksia yli sarjan turnauksia päihittävät kilpailijansa. (Joka tapauksessa tietty strategia voidaan sovittaa hieman paremmin kilpailuun kuin tat-tit, mutta tat-tit on vankempi). Sama koskee mitalla anteeksiantoa variantti, ja muut optimaaliset strategiat: tiettynä päivänä ne ehkä ei ”voittaa” vastaan erityinen sekoitus counter-strategioita., Vaihtoehtoinen tapa esittää se on käyttää Darwinin ESS-simulaatiota. Tällainen simulointi, tit for tat on lähes aina hallita, vaikka ilkeä strategioita ajelehtia sisään ja ulos väestöstä, koska mitalla väestöstä on läpäisevästä ei-kostamista mukava strategioita, jotka puolestaan ovat helppo saalis ilkeä strategioita. Richard Dawkins osoitti, että tässä mikään staattinen yhdistelmä strategioita muodostavat vakaan tasapainon ja järjestelmä aina värähtelee rajojen välillä.,}} tämä strategia päätyi ottamaan kilpailussa kolme parasta sijaa sekä useita sijoja kohti pohjaa.

Southampton strategia hyödyntää se, että useita merkintöjä saivat erityisesti kilpailu-ja että suorituskyky joukkue oli mitattu, että korkein pisteytys pelaaja (tarkoittaen, että käyttö uhrautuvaa pelaajia oli eräänlainen minmaxing). Kilpailussa, jossa on kontrollissa vain yksi pelaaja, tit tat on varmasti parempi strategia., Tämän uuden säännön vuoksi tällä kilpailulla ei myöskään ole juurikaan teoreettista merkitystä analysoitaessa yhden agentin strategioita verrattuna Axelrodin välieräturnaukseen. Kuitenkin, se tarjosi perusteella voidaan analysoida, miten saavuttaa osuuskunnan strategiat multi-agent puitteet, erityisesti läsnäolo melua. Itse asiassa, kauan ennen kuin tämä uusi-säännöt turnaus oli pelattu, Dawkins teoksessaan Geenin itsekkyys, huomautti mahdollisuus tällaisen strategioita voittaa, jos useita merkintöjä olivat sallittuja, mutta hän huomautti, että todennäköisesti Axelrod ei olisi sallittua, jos ne oli esitetty., Se vetoaa myös kiertää sääntöjä siitä, vangin dilemma, että ei ole viestintä saa välillä kaksi pelaajaa, jotka Southampton ohjelmia, luultavasti ei niiden avaaminen ”kymmenen liikkua tanssi” tunnistavat toisensa; tämä vain vahvistaa, miten arvokasta viestintää voidaan siirtää tasapaino peli.

Stokastinen iteroitava vangin dilemmaEdit

stokastinen iteroitava vangin dilemma-peli, strategiat ovat määritelty kannalta ”yhteistyö todennäköisyydet”., Kohtaamisessa välillä pelaaja X ja pelaaja Y, X ’s strategia on määritelty joukko todennäköisyydet P yhteistyötä Y. P on funktio tuloksia heidän edellinen kohtaamisia tai jokin niiden alaryhmällä. Jos P on vain niiden viimeisimpien n-kohtaamisten funktio, sitä kutsutaan ”muisti-n” strategiaksi., Muisti-1 strategia on määritelty neljä yhteistyön todennäköisyydet: P = { P c c P c d P d c , P d d } {\displaystyle P=\{P_{cc},P_{cd},P_{dc},P_{pp}\}} , jossa P a b {\displaystyle P_{ab}} on todennäköisyys, että X tekee yhteistyötä tässä kohtaavat ottaen huomioon että edellinen kohtaaminen oli ominaista (ab). Esimerkiksi, jos edellinen kohtaaminen oli sellainen, jossa yhteistyössä X-ja Y loikkasi, niin P c d {\displaystyle P_{cd}} on todennäköisyys, että X tekee yhteistyötä tässä kohtaavat. Jos jokainen todennäköisyyksistä on joko 1 tai 0, strategiaa kutsutaan deterministiseksi., Esimerkki deterministinen strategia tit for tat-strategia kirjoitetaan P={1,0,1,0}, jossa X vastaa Y teki edellinen kohtaaminen. Toinen on win–stay, lose–kytkin strategia kirjoitetaan P={1,0,0,1}, jossa X vastaa kuin edellinen kohtaaminen, jos se oli ”voittaa” (eli cc-tai dc), mutta muutoksia strategia, jos se oli menetys (eli cd-tai pp). On osoitettu, että mitään muisti-n strategia on vastaava muisti-1 strategia, joka antaa saman tilastollisia tuloksia, niin että vain muisti-1 strategioita on otettava huomioon.,

Nolla-tekijä strategiesEdit

suhdetta nolla-tekijä (ZD), yhteistyötä ja loikata strategioita iteroitava vangin dilemma (IPD) havainnollistaa Venn-kaavio. Yhteistyössä strategioita aina yhteistyötä muiden yhteistyössä toimineiden strategioita, ja loikata strategioita aina vika vastaan muut loikata strategioita. Molemmat sisältävät osajoukkoja strategioita, jotka ovat vankkoja vahvan valinnan, eli mikään muu Muisti-1 strategia ei ole valittu hyökätä tällaisia strategioita, kun ne asuvat väestössä., Vain yhteistyössä strategiat sisältävät osajoukko, jotka ovat aina kestävä, mikä tarkoittaa, että ei ole muita muisti-1 strategia on valittu hyökätä ja korvata tällaisia strategioita, sekä vahva ja heikko valinta. ZD: n ja hyvien yhteistyöstrategioiden risteys on joukko anteliaita ZD-strategioita. Kiristys strategiat ovat leikkauspisteessä ZD ja ei-vankka loikata strategioita. Tit-for-tat sijaitsee risteyksessä yhteistyössä, loikata ja ZD strategioita.

Tit-for-tat on ZD strategia, joka on ”oikeudenmukainen” siinä mielessä ole saamassa etu yli muiden pelaajien., ZD-avaruus sisältää kuitenkin myös strategioita, joiden avulla kahden pelaajan tapauksessa yksi pelaaja voi yksipuolisesti asettaa toisen pelaajan pisteet tai vaihtoehtoisesti pakottaa evolutionaarisen pelaajan saavuttamaan jonkin prosenttiosuuden omaansa alhaisemman voittosumman. Kiristetty pelaaja saattoi loikata, mutta loukkasi siten itseään saamalla pienemmän palkankorotuksen. Näin kiristysratkaisut muuttavat iteroidun vangin dilemman eräänlaiseksi uhkavaatimuspeliksi., Erityisesti X voi valita strategian, jolle D ( P , Q , β S y + γ U ) = 0 {\displaystyle D(P,Q,\beta-S_{y}+\gamma-U)=0} , yksipuolisesti asetus s y {\displaystyle s_{y}} erityinen arvo tietyllä arvoalueella, riippumaton Y ’s strategia, joka tarjoaa tilaisuuden X ”kiristää” pelaaja Y (ja päinvastoin). (Se kääntyy pois, että jos X yrittää asettaa s x {\displaystyle s_{x}} tiettyä arvoa, erilaisia mahdollisuuksia on paljon pienempi, vain joka koostuu täydellinen yhteistyöhön tai suorittaa loikkaus.,)

laajentaminen IPD on evoluution stokastinen IPD, jonka suhteellinen runsaus on erityisesti strategioita ei saa muuttaa, enemmän onnistuneen strategioita suhteellisen kasvussa. Tämä prosessi voidaan toteuttaa joko ottaa vähemmän onnistuneita pelaajia jäljitellä enemmän onnistuneen strategioita, tai poistamalla vähemmän onnistuneita pelaajia pelin, kun taas kertomalla enemmän menestynyt. On osoitettu, että epäreilut ZD-strategiat eivät ole kehityksellisesti vakaita., Avain intuitio on, että evolutiivisesti vakaa strategia on ei vain voi hyökätä toisen väestöstä (joka extortionary ZD strategioita voi tehdä), mutta täytyy myös toimia hyvin muita pelaajia vastaan samaa tyyppiä (joka extortionary ZD pelaajat tehdä huonosti, koska ne vähentävät toistensa ylijäämä).

Teoria ja simulaatiot vahvistavat, että yli kriittisen väestön koko, ZD kiristys häviää evoluution kilpailua vastaan enemmän osuuskunta strategioita, ja sen seurauksena, keskimääräinen loppuratkaisu väestöstä kasvaa, kun väestö on suurempi., Lisäksi on olemassa joitakin tapauksia, joissa anastajat voi jopa vauhdittaa yhteistyötä auttamalla murtautua ulos face-off välillä yhtenäinen loikkarit ja win–stay, lose–kytkin aineita.

Kun extortionary ZD strategiat eivät ole vakaa suurissa populaatioissa, toinen ZD luokan nimeltä ”antelias” strategioita on sekä vakaa ja vankka. Itse asiassa, kun väestö ei ole liian pieni, nämä strategiat voi syrjäyttää muita ZD strategian ja jopa suorittaa hyvin vastaan laajan valikoiman yleisiä strategioita iteroitava vangin dilemma, mukaan lukien win–stay, lose–kytkin., Tämä todistettiin erityisesti Alexander Stewartin ja Joshua Plotkinin lahjoituspelissä vuonna 2013. Antelias strategioita tekee yhteistyötä muiden osuuskunta pelaajaa, ja edessä loikkaus, antelias pelaaja menettää enemmän hyötyä kuin kilpailijansa. Antelias strategiat ovat risteyksessä ZD strategioita ja niin sanottu ”hyvä” strategioita, jotka määriteltiin Sukua (2013) ovat niitä, joihin pelaaja reagoi aiemmin keskinäistä yhteistyötä tulevaisuudessa yhteistyötä ja jakaa odotettavissa payoffs yhtä, jos hän saa vähintään osuuskunnan odotettavissa loppuratkaisu., Hyvistä strategioista Antelias (ZD) – osajoukko toimii hyvin, kun väestö ei ole liian pieni. Jos väestö on hyvin pientä, loikkausstrategiat ovat yleensä hallitsevassa asemassa.

Jatkuva iteroitava vangin dilemmaEdit

Eniten työtä iteroitava vangin dilemma on keskittynyt diskreetti tapaus, jossa pelaajat joko yhteistyötä tai vika, koska tämä malli on suhteellisen helppo analysoida. Jotkut tutkijat ovat kuitenkin tarkastelleet malleja jatkuvan iteroidun vangin dilemmasta, jossa pelaajat pystyvät tekemään vaihtelevan panoksen toiselle pelaajalle., Le ja Boyd totesi, että tällaisissa tilanteissa yhteistyö on paljon vaikeampi kehittyä kuin diskreetti iteroitava vangin dilemma. Perus-intuition tämä tulos on yksinkertainen: jatkuva vangin dilemma, jos väestö alkaa ei-yhteistoiminnallinen tasapaino, pelaajat, jotka ovat vain hieman yhteistyöhaluisempi kuin ei-yhteistyökumppanit saavat vähän hyötyä assorting keskenään. Sen sijaan, diskreetti vangin dilemma, tit for tat yhteistyökumppaneistaan saada iso loppuratkaisu lisäpotkua assorting keskenään ei-yhteistoiminnallinen tasapaino, verrattuna yhteistyöhön osallistumattomien yritysten osalta., Koska luonto luultavasti tarjoaa enemmän mahdollisuuksia muuttuja pikemminkin yhteistyötä kuin tiukka kahtiajako yhteistyötä tai loikkaus, jatkuva vangin dilemma voi auttaa selittämään, miksi tosielämän esimerkkejä mitalla-kuten yhteistyö ovat erittäin harvinaisia luonteeltaan (ex. Hammerstein), vaikka TATin Titti vaikuttaa teoreettisissa malleissa jykevältä.

Syntyminen vakaa strategiesEdit

Pelaajat voi tuntua koordinoida keskinäistä yhteistyötä, mikä usein juuttua osaksi huonompi vielä vakaa strategia loikkaus., Näin iteroidut kierrokset helpottavat vakaiden strategioiden kehittymistä. Iteroidut kierrokset tuottavat usein uusia strategioita, joilla on vaikutuksia monimutkaiseen sosiaaliseen kanssakäymiseen. Yksi tällainen strategia on win-stay lose-shift. Tämä strategia on parempi kuin yksinkertainen Tit-For-Tat strategia-eli jos voit päästä eroon huijaaminen, toista, että käyttäytyminen, mutta jos jää kiinni, vaihtaa.

tämän tit-for-tat-strategian ainoa ongelma on, että ne ovat alttiita signaalivirheelle. Ongelma syntyy, kun toinen huijaa kostoksi, mutta toinen tulkitsee sen huijaukseksi., Tämän seurauksena toinen yksilö nyt huijaa ja sitten se aloittaa ketjureaktiossa huijaamisen näennäiskuvion.

Strategia iteroitava vangin dilemmaEdit

Stokastinen iteroitava vangin dilemmaEdit

Nolla-tekijä strategiesEdit

Jatkuva iteroitava vangin dilemmaEdit

Syntyminen vakaa strategiesEdit

Vastaa Peruuta vastaus