Jeśli dwóch graczy gra w dylemat więźnia więcej niż raz z rzędu i zapamiętuje poprzednie działania przeciwnika i odpowiednio zmienia strategię, gra nazywa się iterated dylemat więźnia.,
oprócz ogólnej formy powyżej, Wersja iteracyjna wymaga również, aby 2 r >T + s {\displaystyle 2r> T+S} , aby zapobiec naprzemiennej współpracy i dezercji dającej większą nagrodę niż wzajemna współpraca.
gra dylemat więźnia jest fundamentalna dla niektórych teorii ludzkiej współpracy i zaufania. Przy założeniu, że gra może modelować transakcje między dwoma osobami wymagające zaufania, zachowania kooperacyjne w populacjach mogą być modelowane przez wieloosobową, iteracyjną wersję gry., Przez lata fascynowało wielu uczonych. W 1975 Grofman i Pool oszacowali liczbę poświęconych mu artykułów naukowych na ponad 2000. Dylemat więźnia określany był także jako „gra pokojowo-wojenna”.
Jeśli gra jest rozegrana dokładnie N razy i obaj gracze o tym wiedzą, to optymalne jest defekt we wszystkich rundach. Jedyną możliwą równowagą Nasha jest zawsze defekt. Dowód ma charakter indukcyjny: równie dobrze można się poddać w ostatniej turze, ponieważ przeciwnik nie będzie miał szansy na późniejszy Odwet. W związku z tym obie wady na ostatnim zakręcie., Tak więc, gracz może równie dobrze defekt na drugim do ostatniego tury, ponieważ przeciwnik będzie defekt na ostatnim bez względu na to, co zostanie zrobione, i tak dalej. To samo dotyczy przypadku, gdy długość gry jest nieznana, ale ma znany górny limit.
W przeciwieństwie do standardowego dylematu więźnia, w iterowanym dylemacie więźnia strategia dezercji jest przeciwna intuicji i nie potrafi przewidzieć zachowania ludzkich graczy. W ramach standardowej teorii ekonomicznej jest to jednak jedyna poprawna odpowiedź., Strategia nadracjonalna w iterowanym dylemacie więźnia ze stałym N polega na współpracy z nadracjonalnym przeciwnikiem, a w granicy dużego N wyniki eksperymentalne na strategiach zgadzają się z wersją nadracjonalną, a nie teoretyczną racjonalną.
aby zaistniała współpraca pomiędzy teoretykami gry, łączna liczba rund N musi być nieznana graczom. W tym przypadku „zawsze defekt” może nie być już ściśle dominującą strategią, tylko równowagą Nasha., Wśród wyników pokazanych przez Roberta Aumanna w 1959 roku, racjonalni gracze wielokrotnie wchodzący w interakcje przez czas nieokreślony może utrzymać wynik współpracy.
zgodnie z badaniem eksperymentalnym z 2019 roku przeprowadzonym przez American Economic Review, w którym sprawdzono, jakie strategie są stosowane w rzeczywistych sytuacjach dylematów iterowanych więźniów, z doskonałym monitorowaniem, większość wybranych strategii to zawsze defekt, wet-for-tat i grim trigger. To, którą strategię wybierają, zależy od parametrów gry.,
strategia dla iterowanego więźnia dylematedytuj
zainteresowanie iterowanym więźniem dylematem (IPD) zostało rozbudzone przez Roberta Axelroda w jego książce Ewolucja współpracy (the Evolution of Cooperation, 1984). W nim relacjonuje organizowany przez siebie turniej N step ' s dilemma (z N stałymi), w którym uczestnicy muszą wielokrotnie wybierać swoją wzajemną strategię i pamiętać o swoich poprzednich spotkaniach. Axelrod zaprosił kolegów akademickich z całego świata, aby opracowali strategie komputerowe, aby wziąć udział w turnieju IPD., Programy, które zostały wprowadzone, były bardzo zróżnicowane pod względem złożoności algorytmicznej, początkowej wrogości, zdolności do przebaczenia i tak dalej.
Axelrod odkrył, że gdy te spotkania były powtarzane przez długi okres czasu z wieloma graczami, każdy z różnymi strategiami, chciwe strategie Zwykle wypadały bardzo słabo w dłuższej perspektywie, podczas gdy bardziej altruistyczne strategie wypadały lepiej, co oceniano wyłącznie na podstawie własnego interesu. Wykorzystał to, aby pokazać możliwy mechanizm ewolucji zachowań altruistycznych z mechanizmów początkowo czysto egoistycznych, poprzez dobór naturalny.,
zwycięską strategią deterministyczną był tit for tat, który opracował Anatol Rapoport i przystąpił do turnieju. Był to najprostszy z wprowadzonych programów, zawierający tylko cztery linie BASIC, i wygrał konkurs. Strategia polega po prostu na współpracy przy pierwszej iteracji gry; po tym gracz robi to, co jego przeciwnik zrobił w poprzednim ruchu. W zależności od sytuacji nieco lepszą strategią może być „wet za wet z przebaczeniem”. Gdy przeciwnik przegrywa, w następnym ruchu gracz czasami i tak współpracuje, z małym prawdopodobieństwem (około 1-5%)., Pozwala to na sporadyczne odzyskiwanie z uwięzienia w cyklu defekcji. Dokładne prawdopodobieństwo zależy od składu przeciwników.
analizując strategie najlepszych wyników, Axelrod podał kilka warunków niezbędnych do powodzenia strategii.
Nicea najważniejszym warunkiem jest to, że strategia musi być „miła”, czyli nie będzie wadliwa przed przeciwnikiem (jest to czasami określane jako” optymistyczny ” algorytm)., Prawie wszystkie najlepsze strategie były ładne; dlatego czysto egoistyczna strategia nie będzie” oszukiwać ” na swoim przeciwniku, z powodów czysto egoistycznych. Jednak Axelrod twierdził, że skuteczna strategia nie może być ślepym optymistą. Czasami musi się zemścić. Przykładem strategii nie-odwetowej jest zawsze Współpraca. Jest to bardzo zły wybór, ponieważ „paskudne” strategie bezlitośnie wykorzystają takich graczy. Przebaczanie udanym strategiom musi być również przebaczaniem., Choć gracze będą Odwet, będą one po raz kolejny wycofać się do współpracy, jeśli przeciwnik nie będzie nadal defekt. To zatrzymuje długie biegi zemsty i kontr-zemsty, maksymalizując punkty. Brak zazdrości ostatnią cechą jest brak zazdrości, to nie jest dążenie do zdobycia więcej niż przeciwnik.
optymalną strategią (maksymalizującą punkty) w jednorazowej grze PD jest po prostu defekcja; jak wyjaśniono powyżej, jest to prawdą niezależnie od składu przeciwników., Jednak w grze iterated-PD optymalna strategia zależy od strategii prawdopodobnych przeciwników oraz od tego, jak zareagują na defekcje i kooperacje. Na przykład, rozważ populację, w której każdy defektuje za każdym razem, z wyjątkiem jednej osoby podążającej za strategią tit for tat. Ta osoba jest w niewielkiej niekorzystnej sytuacji z powodu straty na pierwszym zakręcie. W takiej populacji optymalną strategią dla tej osoby jest defekt za każdym razem., W populacji z pewnym odsetkiem zawsze dezerterów, a reszta to waty dla graczy waty, optymalna strategia dla jednostki zależy od procentu i od długości gry.
w strategii zwanej Pavlov, win-stay, lose-switch, w obliczu braku współpracy gracz zmienia strategię w następnej turze. W pewnych okolicznościach Pavlov pokonuje wszystkie inne strategie, dając preferencyjne traktowanie graczom stosującym podobną strategię.,
Wyprowadzanie optymalnej strategii odbywa się zazwyczaj na dwa sposoby:
- bayesowska równowaga Nasha: jeśli można określić rozkład statystyczny przeciwstawnych strategii (np. 50% tit dla tat, 50% zawsze współpracuje), optymalną strategię przeciwstawną można wyprowadzać analitycznie.
- przeprowadzono symulacje populacji Monte Carlo, w których osobniki z niskim wynikiem umierają, a te z wysokim wynikiem rozmnażają się (genetyczny algorytm znajdowania optymalnej strategii). Mieszanka algorytmów w populacji końcowej na ogół zależy od mieszanki w populacji początkowej., Wprowadzenie mutacji (losowa zmienność podczas reprodukcji) zmniejsza zależność od początkowej populacji; empiryczne eksperymenty z takimi systemami wydają się produkować tit dla tat graczy( patrz na przykład Chess 1988), ale nie ma analitycznego dowodu, że to zawsze nastąpi.
chociaż tit for tat jest uważany za najbardziej solidną strategię podstawową, zespół z Uniwersytetu Southampton w Anglii wprowadził nową strategię na 20-LECIE iterated prisoner ' s dilemma competition, który okazał się bardziej udany niż tit for tat., Strategia ta polegała na zmowie między programami w celu osiągnięcia jak największej liczby punktów za JEDEN program. Uczelnia zgłosiła do konkursu 60 programów, które miały na celu wzajemne rozpoznawanie się poprzez serię pięciu do dziesięciu ruchów na początku. Po tym rozpoznaniu JEDEN program zawsze współpracował, a drugi zawsze zawodził, zapewniając maksymalną liczbę punktów dla DEZERTERA. Jeśli program zorientuje się, że gra nie-Southampton gracza, to będzie stale wad w próbie zminimalizowania wyniku programu konkurencyjnych., W rezultacie wyniki turnieju Prisoners ' Dilemma z 2004 roku pokazują strategie University of Southampton na pierwszych trzech miejscach, mimo że mają mniej zwycięstw i dużo więcej strat niż ponura strategia. (W turnieju PD celem gry nie jest „wygranie” meczów – co można łatwo osiągnąć przez częste defekty)., Ponadto, nawet bez ukrytej zmowy między strategiami oprogramowania (wykorzystywanymi przez zespół Southampton) tit for tat nie zawsze jest absolutnym zwycięzcą danego turnieju; byłoby bardziej precyzyjne, aby powiedzieć, że jego długoterminowe wyniki w serii turniejów przewyższają rywali. (W każdym przypadku dana strategia może być nieco lepiej dostosowana do konkurencji niż tit for tat, ale tit for tat jest bardziej solidna). To samo dotyczy tit for tat z wariantem przebaczenia i innych optymalnych strategii: w danym dniu mogą nie „wygrać” z konkretną mieszanką strategii przeciwnych., Alternatywnym sposobem ujęcia tego jest wykorzystanie darwinowskiej symulacji ESS. W takiej symulacji, tit for tat prawie zawsze będzie dominować, choć paskudne strategie będą dryfować w populacji i poza nią, ponieważ populacja tit for tat jest penetrowana przez nie-odwetowe ładne strategie, które z kolei są łatwą zdobyczą dla paskudnych strategii. Richard Dawkins pokazał, że w tym przypadku żadna statyczna mieszanka strategii nie tworzy stabilnej równowagi, a układ zawsze będzie oscylował między granicami.,} strategia ta zakończyła się zajęciem trzech pierwszych miejsc w konkursie,a także kilku pozycji w dół.
Strategia Southampton wykorzystuje fakt, że w tej konkretnej konkurencji dopuszczono wiele zgłoszeń i że wydajność drużyny była mierzona przez gracza, który zdobył najwięcej punktów (co oznacza, że korzystanie z samoodzielnych graczy było formą MinMax). W konkurencji, w której jeden ma kontrolę tylko jednego gracza, tit for tat jest z pewnością lepszą strategią., Z powodu tej nowej zasady, konkurencja ta ma również niewielkie znaczenie teoretyczne przy analizie strategii pojedynczego agenta w porównaniu do turnieju półfinałowego Axelroda. Stanowił on jednak podstawę do analizy sposobów realizacji strategii współpracy w ramach wieloskładnikowych, zwłaszcza w przypadku hałasu. W rzeczywistości, na długo przed rozegraniem tego turnieju z nowymi zasadami, Dawkins w swojej książce The Selfish Gene wskazał na możliwość wygrania takich strategii, jeśli dopuszczono wiele zgłoszeń, ale zauważył, że najprawdopodobniej Axelrod nie dopuściłby do nich, gdyby zostały złożone., Opiera się również na obejściu zasad dotyczących dylematu więźnia, ponieważ nie jest dozwolona komunikacja między dwoma graczami, co programy Southampton prawdopodobnie uczyniły z ich otwierającym „ten move dance”, aby rozpoznać siebie nawzajem; to tylko wzmacnia, jak cenna komunikacja może być w zmianie równowagi gry.
Stochastic iterated prisoner 's dilemmaEdit
w Stochastic iterated prisoner' s dilemma gry, strategie są określone w kategoriach „prawdopodobieństwa współpracy”., W spotkaniu między graczem X i graczem Y, strategia X jest określona przez zbiór prawdopodobieństw P współpracy z Y. p jest funkcją wyników ich poprzednich spotkań lub jakiegoś ich podzbioru. Jeśli P jest funkcją tylko ich ostatnich n, to nazywa się ją strategią „pamięć-N”., Strategia memory-1 jest następnie określona przez cztery prawdopodobieństwa współpracy: P = {P c c, P c d , P d c,P D D } {\displaystyle P=\{P_{cc}, p_{cd}, P_ {dc}, P_ {dd}\}}, gdzie P A b {\displaystyle P_{ab}} jest prawdopodobieństwem, że X będzie współpracować w obecnym spotkaniu, biorąc pod uwagę, że poprzednie spotkanie charakteryzowało się (ab). Na przykład, jeśli poprzednie spotkanie było takie, w którym x współpracowało i y uciekało, to P c D {\displaystyle P_ {cd}} jest prawdopodobieństwem, że X będzie współpracować w obecnym spotkaniu. Jeśli każde z prawdopodobieństw jest równe 1 lub 0, strategia nazywa się deterministyczną., Przykładem strategii deterministycznej jest strategia tit dla Tat zapisana jako P = {1,0,1,0}, w której x odpowiada tak, jak Y w poprzednim spotkaniu. Inną jest strategia win-stay, lose–switch zapisana jako P = {1,0,0,1}, w której x odpowiada jak w poprzednim spotkaniu, jeśli było to „zwycięstwo” (tj. cc lub dc), ale zmienia strategię, jeśli była to strata (tj. cd lub dd). Wykazano, że dla każdej strategii memory-n istnieje odpowiednia strategia memory-1, która daje takie same wyniki statystyczne, tak że tylko strategie memory-1 muszą być brane pod uwagę.,
strategie Zero-determinantededit
zależność między zero-determinant (ZD), strategie kooperujące i defekujące w iterowanym dylemacie więźnia (IPD) zilustrowanym na diagramie Venna. Strategie współpracy zawsze współpracują z innymi strategiami współpracy, a strategie defecting zawsze defect przeciwko innym strategiom defecting. Obie zawierają podzbiory strategii, które są solidne pod silnym wyborem, co oznacza, że żadna inna strategia memory-1 nie jest wybrana, aby zaatakować takie strategie, gdy są rezydentami w populacji., Tylko strategie współpracujące zawierają podzbiór, który jest zawsze solidny, co oznacza, że żadna inna strategia memory-1 nie jest wybrana, aby atakować i zastępować takie strategie, zarówno pod silnym, jak i słabym wyborem. Skrzyżowanie ZD i dobrych strategii współpracy to zestaw hojnych strategii ZD. Strategie wyłudzeń są skrzyżowaniem ZD i nieprostych strategii dezercji. Tit-for-tat leży na styku strategii współpracy, dezercji i ZD.
Tit-for-tat to strategia ZD, która jest „uczciwa” w sensie nie zdobywania przewagi nad drugim graczem., Jednak przestrzeń ZD zawiera również strategie, które w przypadku dwóch graczy mogą pozwolić jednemu graczowi jednostronnie ustawić wynik drugiego gracza lub alternatywnie zmusić ewolucyjnego gracza do osiągnięcia wypłaty o pewien procent niższej niż jego własna. Wyłudzany gracz może defektować, ale tym samym zaszkodziłby sobie, otrzymując niższą wypłatę. W ten sposób rozwiązania wymuszeń zamieniają iteracyjny dylemat więźnia w rodzaj gry ultimatum., W szczególności, X jest w stanie wybrać strategię , dla której D ( P , Q,β s y + γ U ) = 0 {\displaystyle D(P, Q,\beta S_{y}+\gamma U)=0}, jednostronnie ustawiając s y {\displaystyle s_{y}} na określoną wartość w określonym przedziale wartości, niezależnie od strategii Y, oferując X możliwość „wyłudzenia” gracza Y (i odwrotnie). (Okazuje się, że jeśli X próbuje ustawić s x {\displaystyle s_{x}} na określoną wartość, zakres możliwości jest znacznie mniejszy, składa się tylko z kompletnej kooperacji lub zupełnej defekcji.,)
Rozszerzenie IPD jest ewolucyjnym stochastycznym IPD, w którym względna obfitość poszczególnych strategii może się zmieniać, przy czym bardziej skuteczne strategie stosunkowo rosną. Proces ten może być osiągnięty przez mniej udanych graczy naśladować bardziej udanych strategii, lub przez wyeliminowanie mniej udanych graczy z gry, przy jednoczesnym pomnożeniu tych bardziej udanych. Wykazano, że nieuczciwe strategie ZD nie są ewolucyjnie stabilne., Kluczową intuicją jest to, że ewolucyjnie stabilna strategia musi nie tylko być w stanie zaatakować inną populację (co mogą zrobić ekstortionary ZD strategie), ale także musi dobrze wykonać przeciwko innym graczom tego samego typu (co ekstortionary ZD gracze robią słabo, ponieważ zmniejszają nawzajem nadwyżkę).
Teoria i symulacje potwierdzają, że poza krytyczną wielkością populacji zdecentralizowana konkurencja ewolucyjna przegrywa z bardziej kooperatywnymi strategiami, w wyniku czego Średnia wypłata w populacji wzrasta, gdy populacja jest większa., Ponadto istnieją przypadki, w których szantażyści mogą nawet katalizować współpracę, pomagając wyjść z walki między umundurowanymi dezerterami a agentami „win–stay” I „lose–switch”.
chociaż wymuszone strategie ZD nie są stabilne w dużych populacjach, inna klasa ZD zwana „hojnymi” strategiami jest zarówno stabilna, jak i solidna. W rzeczywistości, gdy populacja nie jest zbyt mała, strategie te mogą zastąpić każdą inną strategię ZD, a nawet dobrze radzić sobie z szerokim wachlarzem ogólnych strategii dla iteracyjnego dylematu więźnia, w tym win-stay, lose-switch., Zostało to udowodnione specjalnie dla gry darowizny przez Alexandra Stewarta i Joshua Plotkina w 2013 roku. Hojne strategie będą współpracować z innymi graczami współpracującymi, a w obliczu dezercji Hojny gracz traci więcej użyteczności niż jego rywal. Hojne strategie są skrzyżowaniem strategii ZD i tak zwanych „dobrych” strategii, które zostały zdefiniowane przez Akin (2013) jako te, dla których gracz odpowiada na wcześniejszą wzajemną współpracę z przyszłą współpracą i dzieli oczekiwane wypłaty równo, Jeśli otrzyma co najmniej oczekiwaną wypłatę przez Spółdzielnię., Wśród dobrych strategii podgrupa Hojny (ZD) działa dobrze, gdy populacja nie jest zbyt mała. Jeśli populacja jest bardzo mała, dominują strategie dezercji.
ciągły iterowany dylemat więźniaedytuj
większość prac nad iterowanym dylematem więźnia skupiła się na dyskretnym przypadku, w którym gracze współpracują lub ulegają defektom, ponieważ model ten jest stosunkowo prosty do analizy. Jednak niektórzy badacze przyjrzeli się modelom ciągłego iterowanego dylematu więźnia, w którym gracze są w stanie wnieść zmienny wkład do drugiego gracza., Le i Boyd odkryli, że w takich sytuacjach współpraca jest znacznie trudniejsza do rozwinięcia niż w dylemacie dyskretnego więźnia. Podstawowa intuicja dla tego wyniku jest prosta: w ciągłym dylemacie więźnia, jeśli populacja zaczyna się w równowadze niechętnej współpracy, gracze, którzy są tylko nieznacznie bardziej kooperatywni niż niewspółpracownicy, uzyskują niewielkie korzyści z dopasowywania się do siebie. W przeciwieństwie do tego, w dyskretnym dylemacie więźnia, współpracownicy „tit for tat” uzyskują duże korzyści z wyrównywania się ze sobą w równowadze niewspółpracowniczej, w stosunku do niewspółpracowników., Ponieważ natura prawdopodobnie oferuje więcej możliwości zmiennej współpracy, a nie ścisłej dychotomii współpracy lub dezercji, ciągły dylemat więźnia może pomóc wyjaśnić, dlaczego rzeczywiste przykłady współpracy w stylu tit za tat są niezwykle rzadkie w przyrodzie(np. Hammerstein), mimo że tit za tat wydaje się solidne w modelach teoretycznych.
powstawanie stabilnych strategii
gracze nie mogą koordynować wzajemnej współpracy, dlatego często zostają zamknięci w gorszej, ale stabilnej strategii dezercji., W ten sposób iteracyjne rundy ułatwiają ewolucję stabilnych strategii. Iteracyjne rundy często tworzą nowe strategie, które mają wpływ na złożone interakcje społeczne. Jedną z takich strategii jest win-stay lose-shift. Ta strategia przewyższa prostą strategię „Tit-For-Tat” – to znaczy, jeśli uda ci się uciec od oszustwa, powtórz to zachowanie, jednak jeśli zostaniesz złapany, przełącz się.
jedynym problemem tej strategii jest to, że są podatni na błąd sygnału. Problem pojawia się, gdy jedna osoba oszukuje w odwecie, ale druga interpretuje to jako oszustwo., W wyniku tego drugi osobnik oszukuje, a następnie rozpoczyna wzór oszustwa w reakcji łańcuchowej.