Dilemma del prigioniero

Questa sezione ha bisogno di ulteriori citazioni per la verifica. Si prega di contribuire a migliorare questo articolo con l’aggiunta di citazioni a fonti affidabili. Il materiale non fornito può essere sfidato e rimosso. (Novembre 2012) (Scopri come e quando rimuovere questo messaggio modello)

Se due giocatori giocano dilemma del prigioniero più di una volta in successione e si ricordano le azioni precedenti del loro avversario e cambiare la loro strategia di conseguenza, il gioco è chiamato dilemma del prigioniero iterato.,

Oltre alla forma generale sopra, la versione iterativa richiede anche che 2 R>T + S {\displaystyle 2R> T+S} , per evitare che la cooperazione alternata e la defezione diano una ricompensa maggiore della cooperazione reciproca.

Il dilemma del prigioniero iterato è fondamentale per alcune teorie della cooperazione umana e della fiducia. Partendo dal presupposto che il gioco possa modellare le transazioni tra due persone che richiedono fiducia, il comportamento cooperativo nelle popolazioni può essere modellato da una versione multi-player, iterata, del gioco., Ha, di conseguenza, affascinato molti studiosi nel corso degli anni. Nel 1975, Grofman e Pool stimarono il numero di articoli accademici ad esso dedicati a oltre 2.000. Il dilemma del prigioniero iterato è stato anche definito come il “gioco della pace-guerra”.

Se il gioco viene giocato esattamente N volte ed entrambi i giocatori lo sanno, allora è ottimale disertare in tutti i round. L’unico possibile equilibrio di Nash è sempre il difetto. La prova è induttiva: si potrebbe anche disertare all’ultimo turno, dal momento che l’avversario non avrà la possibilità di vendicarsi in seguito. Pertanto, entrambi diserteranno l’ultimo turno., Pertanto, il giocatore potrebbe anche disertare il penultimo turno, poiché l’avversario diserterà l’ultimo indipendentemente da ciò che viene fatto, e così via. Lo stesso vale se la lunghezza del gioco è sconosciuta ma ha un limite superiore noto.

A differenza del dilemma del prigioniero standard, nel dilemma del prigioniero iterato la strategia di defezione è contro-intuitiva e non riesce male a prevedere il comportamento dei giocatori umani. All’interno della teoria economica standard, però, questa è l’unica risposta corretta., La strategia superrazionale nel dilemma del prigioniero iterato con N fisso è quella di cooperare contro un avversario superrazionale, e nel limite di grande N, i risultati sperimentali sulle strategie concordano con la versione superrazionale, non con quella razionale teorica del gioco.

Affinché la cooperazione emerga tra giocatori razionali teorici del gioco, il numero totale di round N deve essere sconosciuto ai giocatori. In questo caso “sempre difetto” può non essere più una strategia strettamente dominante, solo un equilibrio di Nash., Tra i risultati mostrati da Robert Aumann in un documento del 1959, i giocatori razionali che interagiscono ripetutamente per giochi indefinitamente lunghi possono sostenere il risultato cooperativo.

Secondo uno studio sperimentale del 2019 nell’American Economic Review che ha testato quali strategie i soggetti della vita reale utilizzavano in situazioni di dilemma dei prigionieri iterati con un monitoraggio perfetto, la maggior parte delle strategie scelte erano sempre difetti, tit-for-tat e grilletto triste. Quale strategia i soggetti hanno scelto dipendeva dai parametri del gioco.,

Strategia per il dilemma del prigioniero iterato

L’interesse per il dilemma del prigioniero iterato (IPD) è stato acceso da Robert Axelrod nel suo libro The Evolution of Cooperation (1984). In esso riferisce su un torneo da lui organizzato del dilemma del prigioniero N step (con N fisso) in cui i partecipanti devono scegliere la loro strategia reciproca ancora e ancora, e hanno memoria dei loro incontri precedenti. Axelrod ha invitato colleghi accademici di tutto il mondo a elaborare strategie informatiche per competere in un torneo IPD., I programmi che sono stati inseriti variavano ampiamente in complessità algoritmica, ostilità iniziale, capacità di perdono e così via.

Axelrod ha scoperto che quando questi incontri si ripetevano per un lungo periodo di tempo con molti giocatori, ognuno con strategie diverse, le strategie avide tendevano a fare molto male nel lungo periodo mentre le strategie più altruistiche facevano meglio, come giudicato puramente dall’interesse personale. Ha usato questo per mostrare un possibile meccanismo per l’evoluzione del comportamento altruistico da meccanismi che sono inizialmente puramente egoistici, per selezione naturale.,

La strategia deterministica vincente è stata tit for tat, che Anatol Rapoport ha sviluppato ed è entrato nel torneo. E ‘ stato il più semplice di qualsiasi programma inserito, contenente solo quattro linee di base, e ha vinto il concorso. La strategia è semplicemente quella di collaborare alla prima iterazione del gioco; dopo di che, il giocatore fa ciò che il suo avversario ha fatto nella mossa precedente. A seconda della situazione, una strategia leggermente migliore può essere “tit for tat with forgiveness”. Quando l’avversario diserta, alla mossa successiva, il giocatore a volte collabora comunque, con una piccola probabilità (intorno all ‘ 1-5%)., Ciò consente un recupero occasionale dall’essere intrappolati in un ciclo di defezioni. La probabilità esatta dipende dalla formazione degli avversari.

Analizzando le strategie con il punteggio più alto, Axelrod ha dichiarato diverse condizioni necessarie per il successo di una strategia.

Bello La condizione più importante è che la strategia deve essere “bella”, cioè non diserterà prima che lo faccia il suo avversario (questo a volte viene definito un algoritmo “ottimista”)., Quasi tutte le strategie di punteggio superiore erano belle; pertanto, una strategia puramente egoista non” imbroglierà ” il suo avversario, per motivi puramente egoistici prima. Ritorsione Tuttavia, Axelrod sostenuto, la strategia di successo non deve essere un cieco ottimista. A volte deve vendicarsi. Un esempio di una strategia non di rappresaglia è sempre Cooperare. Questa è una pessima scelta, poiché le strategie “brutte” sfrutteranno spietatamente tali giocatori. Perdonare le strategie di successo deve essere anche perdonare., Anche se i giocatori si vendicheranno, torneranno ancora una volta a collaborare se l’avversario non continua a disertare. Questo ferma lunghe serie di vendetta e contro-vendetta, massimizzando i punti. Non invidiosi L’ultima qualità è essere non invidiosi, cioè non sforzarsi di segnare più dell’avversario.

La strategia ottimale (che massimizza i punti) per il gioco PD di una volta è semplicemente la defezione; come spiegato sopra, questo è vero qualunque sia la composizione degli avversari., Tuttavia, nel gioco iterato-PD la strategia ottimale dipende dalle strategie dei probabili avversari e da come reagiranno alle defezioni e alle cooperazioni. Ad esempio, si consideri una popolazione in cui tutti difetti ogni volta, ad eccezione di un singolo individuo che segue la strategia tit for tat. Quell’individuo è in leggero svantaggio a causa della perdita al primo turno. In una tale popolazione, la strategia ottimale per quell’individuo è quella di disertare ogni volta., In una popolazione con una certa percentuale di sempre-disertori e il resto essendo tit per i giocatori tat, la strategia ottimale per un individuo dipende dalla percentuale, e sulla lunghezza del gioco.

Nella strategia chiamata Pavlov, win-stay, lose-switch, di fronte a una mancata collaborazione, il giocatore cambia strategia il turno successivo. In determinate circostanze, Pavlov batte tutte le altre strategie dando un trattamento preferenziale ai co-giocatori che utilizzano una strategia simile.,

La derivazione della strategia ottimale è generalmente fatta in due modi:

Equilibrio bayesiano di Nash: Se la distribuzione statistica delle strategie opposte può essere determinata (ad esempio 50% tit per tat, 50% sempre cooperare) una controstrategia ottimale può essere derivata analiticamente.
Sono state fatte simulazioni Monte Carlo di popolazioni, in cui gli individui con punteggi bassi muoiono e quelli con punteggi alti si riproducono (un algoritmo genetico per trovare una strategia ottimale). Il mix di algoritmi nella popolazione finale dipende generalmente dal mix nella popolazione iniziale., L’introduzione della mutazione (variazione casuale durante la riproduzione) riduce la dipendenza dalla popolazione iniziale; esperimenti empirici con tali sistemi tendono a produrre giocatori tit for tat (vedi ad esempio Chess 1988), ma non esiste alcuna prova analitica che ciò si verificherà sempre.

Sebbene tit for tat sia considerata la strategia di base più solida, un team dell’Università di Southampton in Inghilterra ha introdotto una nuova strategia al 20th-anniversary iterated prisoner’s dilemma competition, che si è rivelato più efficace di tit for tat., Questa strategia si basava sulla collusione tra i programmi per ottenere il maggior numero di punti per un singolo programma. L’università ha presentato 60 programmi al concorso, che sono stati progettati per riconoscere l’un l’altro attraverso una serie di cinque a dieci mosse all’inizio. Una volta fatto questo riconoscimento, un programma avrebbe sempre collaborato e l’altro avrebbe sempre disertato, assicurando il numero massimo di punti per il disertore. Se il programma si rese conto che stava giocando un giocatore non-Southampton, sarebbe continuamente difetto nel tentativo di ridurre al minimo il punteggio del programma in competizione., Di conseguenza, i risultati del torneo Dilemma dei prigionieri 2004 mostrano le strategie dell’Università di Southampton nei primi tre posti, pur avendo meno vittorie e molte più perdite rispetto alla strategia GRIM. (In un torneo PD, lo scopo del gioco non è quello di “vincere” le partite – che può essere facilmente raggiunto da frequenti defezioni)., Inoltre, anche senza implicita collusione tra strategie software (sfruttate dal team di Southampton) tit for tat non è sempre il vincitore assoluto di un dato torneo; sarebbe più preciso dire che i suoi risultati a lungo termine su una serie di tornei superano i suoi rivali. (In ogni evento una determinata strategia può essere leggermente meglio adattata alla concorrenza rispetto a tit for tat, ma tit for tat è più robusto). Lo stesso vale per il tit for tat con la variante del perdono e altre strategie ottimali: in un dato giorno potrebbero non “vincere” contro uno specifico mix di controstrategie., Un modo alternativo di metterlo è usare la simulazione ESS darwiniana. In una tale simulazione, tit for tat arriverà quasi sempre a dominare, anche se le strategie nasty andranno alla deriva dentro e fuori dalla popolazione perché una popolazione tit for tat è penetrabile da strategie non ritorsive, che a loro volta sono facili prede per le strategie brutte. Richard Dawkins ha dimostrato che qui, nessun mix statico di strategie forma un equilibrio stabile e il sistema oscillerà sempre tra i limiti.,}} questa strategia ha finito per prendere le prime tre posizioni nella competizione, così come un certo numero di posizioni verso il basso.

La strategia di Southampton sfrutta il fatto che in questa particolare competizione erano ammesse più voci e che le prestazioni di una squadra erano misurate da quelle del giocatore con il punteggio più alto (il che significa che l’uso di giocatori che si sacrificavano era una forma di minmaxing). In una competizione in cui si ha il controllo di un solo giocatore, tit for tat è certamente una strategia migliore., A causa di questa nuova regola, questa competizione ha anche poco significato teorico quando si analizzano le strategie di singolo agente rispetto al torneo seminale di Axelrod. Tuttavia, ha fornito una base per analizzare come realizzare strategie di cooperazione in quadri multi-agente, soprattutto in presenza di rumore. Infatti, molto prima che questo torneo di nuove regole fosse giocato, Dawkins, nel suo libro The Selfish Gene, ha sottolineato la possibilità che tali strategie vincessero se fossero state consentite più voci, ma ha osservato che molto probabilmente Axelrod non le avrebbe permesse se fossero state presentate., Si basa anche sull’elusione delle regole sul dilemma del prigioniero in quanto non è consentita alcuna comunicazione tra i due giocatori, cosa che i programmi di Southampton hanno probabilmente fatto con la loro “ten move dance” di apertura per riconoscersi l’un l’altro; questo rafforza solo quanto possa essere preziosa la comunicazione nello spostare l’equilibrio del gioco.

Dilemma del prigioniero stocastico iterato

In un gioco di dilemma del prigioniero stocastico iterato, le strategie sono specificate da in termini di “probabilità di cooperazione”., In un incontro tra il giocatore X e il giocatore Y, la strategia di X è specificata da un insieme di probabilità P di cooperare con Y. P è una funzione dei risultati dei loro incontri precedenti o di qualche sottoinsieme di essi. Se P è una funzione solo dei loro incontri n più recenti, si chiama strategia “memoria-n”., Una memoria-1 strategia è quindi specificato da quattro cooperazione probabilità: P = { P c c P c d P d c a P d d } {\displaystyle P=\{P_{cc},P_{cd},P_{dc},P_{dd}\}} , dove P a b {\displaystyle P{ab}} è la probabilità che X cooperare nel presente incontro, dato che il precedente incontro è stato caratterizzato da (ab). Ad esempio, se l’incontro precedente era quello in cui X ha collaborato e Y ha disertato, allora PCD {\displaystyle P_{cd}} è la probabilità che X cooperi nell’incontro presente. Se ciascuna delle probabilità sono 1 o 0, la strategia è chiamata deterministica., Un esempio di strategia deterministica è la strategia tit for tat scritta come P = {1,0,1,0}, in cui X risponde come Y nell’incontro precedente. Un’altra è la strategia win-stay, lose-switch scritta come P={1,0,0,1}, in cui X risponde come nell’incontro precedente, se era una “vittoria” (cioè cc o dc) ma cambia strategia se era una perdita (cioè cd o dd). È stato dimostrato che per qualsiasi strategia memory-n esiste una corrispondente strategia memory-1 che fornisce gli stessi risultati statistici, in modo che solo le strategie memory-1 devono essere considerate.,

Strategie a zero determinatomodifica

La relazione tra zero-determinante (ZD), cooperante e disertore strategie nel dilemma del prigioniero iterato (IPD) illustrato in un diagramma di Venn. Le strategie di cooperazione cooperano sempre con altre strategie di cooperazione e le strategie di defezione disertano sempre contro altre strategie di defezione. Entrambi contengono sottoinsiemi di strategie che sono robuste sotto una forte selezione, il che significa che nessun’altra strategia memory-1 è selezionata per invadere tali strategie quando sono residenti in una popolazione., Solo le strategie cooperanti contengono un sottoinsieme sempre robusto, il che significa che nessun’altra strategia memory-1 viene selezionata per invadere e sostituire tali strategie, sia sotto selezione forte che debole. L’intersezione tra ZD e buone strategie di cooperazione è l’insieme di generose strategie ZD. Le strategie di estorsione sono l’intersezione tra ZD e strategie di defezione non robuste. Tit-for-tat si trova all’intersezione delle strategie di cooperazione, disertore e ZD.

Tit-for-tat è una strategia ZD che è “giusta” nel senso di non guadagnare vantaggio sull’altro giocatore., Tuttavia, lo spazio ZD contiene anche strategie che, nel caso di due giocatori, possono consentire a un giocatore di impostare unilateralmente il punteggio dell’altro giocatore o, in alternativa, costringere un giocatore evolutivo a ottenere un payoff una percentuale inferiore alla sua. Il giocatore estorto potrebbe disertare, ma sarebbe così male se stesso ottenendo un payoff inferiore. Quindi, le soluzioni di estorsione trasformano il dilemma del prigioniero iterato in una sorta di gioco di ultimatum., In particolare, X è in grado di scegliere una strategia per cui D ( P , Q , β S y + γ U ) = 0 {\displaystyle D(P,Q,\beta S_{y}+\gamma U)=0} , unilateralmente impostazione s y {\displaystyle s_{y}} per un valore specifico all’interno di un determinato intervallo di valori, indipendente di Y ‘s strategia, offrendo un’opportunità per X per “estorcere” il giocatore Y (e viceversa). (Si scopre che se X tenta di impostare s x {\displaystyle s_{x}} su un valore particolare, la gamma di possibilità è molto più piccola, costituita solo da una completa cooperazione o completa defezione.,)

Un’estensione dell’IPD è un IPD stocastico evolutivo, in cui l’abbondanza relativa di particolari strategie è permessa di cambiare, con strategie più riuscite relativamente crescenti. Questo processo può essere realizzato avendo meno giocatori di successo imitare le strategie di maggior successo, o eliminando i giocatori meno riusciti dal gioco, mentre moltiplicando quelli di maggior successo. È stato dimostrato che le strategie ZD sleali non sono evolutivamente stabili., L’intuizione chiave è che una strategia evolutivamente stabile non solo deve essere in grado di invadere un’altra popolazione (che le strategie ZD estorsive possono fare), ma deve anche funzionare bene contro altri giocatori dello stesso tipo (che i giocatori ZD estorsivi fanno male, perché riducono il surplus dell’altro).

La teoria e le simulazioni confermano che al di là di una dimensione critica della popolazione, l’estorsione ZD perde nella competizione evolutiva contro strategie più cooperative e, di conseguenza, il profitto medio nella popolazione aumenta quando la popolazione è più grande., Inoltre, ci sono alcuni casi in cui gli estorsori possono persino catalizzare la cooperazione aiutando a uscire da un faccia a faccia tra disertori uniformi e agenti win-stay, lose–switch.

Mentre le strategie ZD estorsive non sono stabili in grandi popolazioni, un’altra classe ZD chiamata strategie “generose” è sia stabile che robusta. In effetti, quando la popolazione non è troppo piccola, queste strategie possono soppiantare qualsiasi altra strategia ZD e persino eseguire bene contro una vasta gamma di strategie generiche per il dilemma del prigioniero iterato, tra cui win–stay, lose–switch., Questo è stato dimostrato specificamente per il gioco donazione da Alexander Stewart e Joshua Plotkin nel 2013. Strategie generose coopereranno con altri giocatori cooperativi, e di fronte alla defezione, il giocatore generoso perde più utilità del suo rivale. Le strategie generose sono l’intersezione delle strategie ZD e delle cosiddette strategie” buone”, che sono state definite da Akin (2013) come quelle per le quali il giocatore risponde alla cooperazione reciproca passata con la cooperazione futura e divide i profitti attesi allo stesso modo se riceve almeno il profitto previsto cooperativo., Tra le buone strategie, il sottoinsieme generoso (ZD) si comporta bene quando la popolazione non è troppo piccola. Se la popolazione è molto piccola, le strategie di defezione tendono a dominare.

Continuous iterated prisoner’s dilemmaEdit

La maggior parte del lavoro sul dilemma del prigioniero iterato si è concentrata sul caso discreto, in cui i giocatori cooperano o disertano, perché questo modello è relativamente semplice da analizzare. Tuttavia, alcuni ricercatori hanno esaminato i modelli del dilemma del prigioniero iterato continuo, in cui i giocatori sono in grado di dare un contributo variabile all’altro giocatore., Le e Boyd hanno scoperto che in tali situazioni, la cooperazione è molto più difficile da evolvere rispetto al dilemma del prigioniero iterato discreto. L’intuizione di base per questo risultato è semplice: nel dilemma di un prigioniero continuo, se una popolazione inizia in un equilibrio non cooperativo, i giocatori che sono solo marginalmente più cooperativi dei non cooperatori ottengono poco beneficio dall’associarsi l’uno con l’altro. Al contrario, nel dilemma di un prigioniero discreto, i cooperatori tit for tat ottengono una grande spinta di guadagno dall’accoppiarsi l’uno con l’altro in un equilibrio non cooperativo, rispetto ai non cooperatori., Poiché la natura offre probabilmente più opportunità di cooperazione variabile piuttosto che una rigida dicotomia di cooperazione o defezione, il dilemma del prigioniero continuo può aiutare a spiegare perché gli esempi reali di cooperazione simile a tit for tat sono estremamente rari in natura (es. Hammerstein) anche se tit for tat sembra robusto nei modelli teorici.

Emergere di strategie stabilimodifica

I giocatori non sembrano coordinare la cooperazione reciproca, quindi spesso vengono bloccati nella strategia inferiore ma stabile della defezione., In questo modo, i round iterati facilitano l’evoluzione di strategie stabili. I round iterati spesso producono nuove strategie, che hanno implicazioni per una complessa interazione sociale. Una di queste strategie è win-stay lose-shift. Questa strategia supera una semplice strategia Tit-For-Tat-cioè, se si può ottenere via con barare, ripetere che il comportamento, tuttavia, se ti beccano, interruttore.

L’unico problema di questa strategia tit-for-tat è che sono vulnerabili a segnalare errori. Il problema sorge quando un individuo imbroglia per rappresaglia, ma l’altro lo interpreta come imbroglio., Come risultato di questo, il secondo individuo ora trucchi e poi inizia un modello altalena di barare in una reazione a catena.

Strategia per il dilemma del prigioniero iterato

Dilemma del prigioniero stocastico iterato

Strategie a zero determinatomodifica

Continuous iterated prisoner’s dilemmaEdit

Emergere di strategie stabilimodifica

Lascia un commento Annulla risposta