esta sección necesita citas adicionales para la verificación. Por favor, ayude a mejorar este artículo agregando citas a fuentes confiables. El material sin recursos puede ser impugnado y eliminado. (November 2012) (Learn how and when to remove this template message)

si dos jugadores juegan prisoner’s dilemma más de una vez en sucesión y recuerdan acciones anteriores de su oponente y cambian su estrategia en consecuencia, el juego se llama iterated prisoner’s dilemma.,

además de la forma general anterior, la versión iterativa también requiere que 2 R > T + s {\displaystyle 2R>T+S} , para evitar la cooperación alterna y la deserción dando una recompensa mayor que la cooperación mutua.

el juego iterated prisoner’s dilemma es fundamental para algunas teorías de la cooperación y la confianza humanas. En el supuesto de que el juego puede modelar transacciones entre dos personas que requieren confianza, el comportamiento cooperativo en las poblaciones puede ser modelado por una versión multi-jugador, iterada, del juego., En consecuencia, ha fascinado a muchos estudiosos a lo largo de los años. En 1975, Grofman y Pool estimaron el número de artículos académicos dedicados a él en más de 2.000. El dilema del prisionero iterado también ha sido referido como el»juego de la guerra de paz».

si el juego se juega exactamente N veces y ambos jugadores lo saben, entonces es óptimo desertar en todas las rondas. El único equilibrio posible de Nash es siempre desertar. La prueba es inductiva: uno también podría desertar en el último turno, ya que el oponente no tendrá la oportunidad de tomar represalias más tarde. Por lo tanto, ambos fallarán en el último turno., Por lo tanto, el jugador también podría desertar en el penúltimo turno, ya que el oponente Desert en el último sin importar lo que se haga, y así sucesivamente. Lo mismo se aplica si la duración del juego es desconocida pero tiene un límite superior conocido.

a diferencia del dilema del prisionero estándar, en el dilema del prisionero iterado la estrategia de deserción es contra-intuitiva y falla mal para predecir el comportamiento de los jugadores humanos. Sin embargo, dentro de la teoría económica Estándar, Esta es la única respuesta correcta., La estrategia superracional en el dilema del prisionero iterado con n fijo es cooperar contra un oponente superracional, y en el límite de N grande, los resultados experimentales en las estrategias concuerdan con la versión superracional, no con la racional teórica del juego.

para que surja la cooperación entre jugadores racionales teóricos del juego, el número total de rondas N debe ser desconocido para los jugadores. En este caso «siempre defecto» puede ya no ser una estrategia estrictamente dominante, solo un equilibrio de Nash., Entre los resultados mostrados por Robert Aumann en un artículo de 1959, los jugadores racionales que interactúan repetidamente durante Juegos indefinidamente largos pueden sostener el resultado cooperativo.

de acuerdo con un estudio experimental de 2019 en la American Economic Review que probó qué estrategias los sujetos de la vida real usaron en situaciones de dilema de prisioneros iterados con un monitoreo perfecto, la mayoría de las estrategias elegidas siempre fueron defectos, ojo por ojo y disparador sombrío. La estrategia elegida por los sujetos dependía de los parámetros del juego.,

estrategia para el dilema del prisionero iteradoeditar

El interés en el dilema del prisionero iterado (IPD) fue encendido por Robert Axelrod en su libro La Evolución de la cooperación (1984). En él se informa sobre un torneo que organizó del dilema del prisionero n paso (con n fijo) en el que los participantes tienen que elegir su estrategia mutua una y otra vez, y tener memoria de sus encuentros anteriores. Axelrod invitó a colegas académicos de todo el mundo a diseñar estrategias informáticas para competir en un torneo IPD., Los programas que se introdujeron variaron ampliamente en complejidad algorítmica, hostilidad inicial, capacidad de perdón, y así sucesivamente.

Axelrod descubrió que cuando estos encuentros se repetían durante un largo período de tiempo con muchos jugadores, cada uno con diferentes estrategias, las estrategias codiciosas tendían a funcionar muy mal a largo plazo, mientras que las estrategias más altruistas lo hacían mejor, según se juzga puramente por interés propio. Usó esto para mostrar un posible mecanismo para la evolución del comportamiento altruista a partir de mecanismos que inicialmente son puramente egoístas, por selección natural.,

La estrategia determinista ganadora fue ojo por ojo, que Anatol Rapoport desarrolló y entró en el torneo. Fue el más simple de todos los programas presentados, conteniendo solo cuatro líneas de BASIC, y ganó el concurso. La estrategia es simplemente cooperar en la primera iteración del juego; después de eso, el Jugador hace lo que su oponente hizo en el movimiento anterior. Dependiendo de la situación, una estrategia ligeramente mejor puede ser «ojo por ojo con perdón». Cuando el oponente falla, en el siguiente movimiento, el jugador a veces coopera de todos modos, con una pequeña probabilidad (alrededor del 1-5%)., Esto permite la recuperación ocasional de quedar atrapado en un ciclo de deserciones. La probabilidad exacta depende de la alineación de los oponentes.

al analizar las estrategias de mejor puntuación, Axelrod estableció varias condiciones necesarias para que una estrategia tenga éxito.

Nice la condición más importante es que la estrategia debe ser «agradable», es decir, que no fallará antes de que lo haga su oponente (esto a veces se conoce como un algoritmo «optimista»)., Casi todas las estrategias de mayor puntuación fueron agradables; por lo tanto, una estrategia puramente egoísta no «engañará» a su oponente, primero por razones puramente egoístas. En represalia, sin embargo, Axelrod sostuvo, la estrategia exitosa no debe ser un optimista ciego. A veces debe tomar represalias. Un ejemplo de una estrategia de no represalias es siempre cooperar. Esta es una muy mala elección, ya que las estrategias «desagradables» explotarán despiadadamente a tales jugadores. Perdonar las estrategias exitosas también deben ser perdonar., Aunque los jugadores tomarán represalias, una vez más volverán a cooperar si el oponente no continúa desertando. Esto detiene largas carreras de venganza y contra-venganza, maximizando los puntos. No envidioso la última cualidad es ser no envidioso, es decir, no esforzarse por anotar más que el oponente.

la estrategia óptima (maximización de puntos) para el juego de PD de una sola vez es simplemente la deserción; como se explicó anteriormente, esto es cierto sea cual sea la composición de los oponentes., Sin embargo, en el juego iterado-PD la estrategia óptima depende de las estrategias de los posibles oponentes, y cómo reaccionarán a las deserciones y cooperaciones. Por ejemplo, considere una población en la que todos los defectos cada vez, a excepción de un solo individuo siguiendo la estrategia ojo por ojo. Ese individuo está en una ligera desventaja debido a la pérdida en el primer turno. En tal población, la estrategia óptima para ese individuo es desertar cada vez., En una población con un cierto porcentaje de desertores permanentes y el resto siendo jugadores de ojo por ojo, la estrategia óptima para un individuo depende del porcentaje y de la duración del juego.

en la estrategia llamada Pavlov, ganar-quedarse, perder-cambiar, frente a una falta de cooperación, el Jugador cambia de estrategia el siguiente turno. En ciertas circunstancias, Pavlov supera todas las demás estrategias al dar un trato preferencial a los co-jugadores que utilizan una estrategia similar.,

derivar la estrategia óptima generalmente se hace de dos maneras:

  • equilibrio Bayesiano de Nash: si la distribución estadística de las estrategias opuestas se puede determinar (por ejemplo, 50% tit por tat, 50% Siempre coopera), se puede derivar analíticamente una contra-estrategia óptima.
  • Se han realizado simulaciones de Monte Carlo de poblaciones, donde los individuos con puntajes bajos mueren, y aquellos con puntajes altos se reproducen (un algoritmo genético para encontrar una estrategia óptima). La mezcla de algoritmos en la población final generalmente depende de la mezcla en la población inicial., La introducción de la mutación (variación aleatoria durante la reproducción) disminuye la dependencia de la población inicial; los experimentos empíricos con tales sistemas tienden a producir jugadores tit por tat (ver por ejemplo Chess 1988), pero no existe ninguna prueba analítica de que esto siempre ocurrirá.

aunque tit for tat se considera la estrategia básica más robusta, un equipo de la Universidad de Southampton en Inglaterra introdujo una nueva estrategia en la competencia iterated prisoner’s dilemma del 20 aniversario, que resultó ser más exitosa que tit for tat., Esta estrategia se basó en la colusión entre programas para lograr el mayor número de puntos para un solo programa. La Universidad presentó 60 programas a la competencia, que fueron diseñados para reconocerse entre sí a través de una serie de cinco a diez movimientos al comienzo. Una vez hecho este reconocimiento, un programa siempre cooperaría y el otro siempre desertaría, asegurando el máximo número de puntos para el desertor. Si el programa se daba cuenta de que estaba jugando un jugador que no era de Southampton, que continuamente desertar en un intento de minimizar la puntuación del programa de la competencia., Como resultado, los resultados del torneo Prisoners ‘ Dilemma 2004 muestran las estrategias de la Universidad de Southampton en los tres primeros lugares, a pesar de tener menos victorias y muchas más pérdidas que la estrategia sombría. (En un torneo PD, el objetivo del juego no es «ganar» partidos – que se puede lograr fácilmente por deserción frecuente)., Además, incluso sin connivencia implícita entre estrategias de software (explotadas por el equipo de Southampton) ojo por ojo no siempre es el ganador absoluto de un torneo dado; sería más preciso decir que sus resultados a largo plazo en una serie de torneos superan a sus rivales. (En cualquier caso, una estrategia dada puede ajustarse ligeramente mejor a la competencia que ojo por ojo, pero ojo por ojo es más robusto). Lo mismo se aplica a la variante ojo por ojo con perdón, y otras estrategias óptimas: en un día dado, es posible que no «ganen» contra una combinación específica de contraestrategias., Una forma alternativa de decirlo es usando la simulación ESS darwiniana. En tal simulación, ojo por ojo casi siempre llegará a dominar, aunque las estrategias desagradables entrarán y saldrán de la población porque una población ojo por ojo es penetrable por estrategias agradables no vengativas, que a su vez son presa fácil para las estrategias desagradables. Richard Dawkins demostró que aquí, ninguna mezcla estática de estrategias forma un equilibrio estable y el sistema siempre oscilará entre límites.,}} esta estrategia terminó tomando las tres primeras posiciones en la competencia, así como una serie de posiciones hacia la parte inferior.

La Estrategia de Southampton aprovecha el hecho de que se permitieron múltiples entradas en esta competencia en particular y que el rendimiento de un equipo se midió por el del jugador con mayor puntuación (lo que significa que el uso de jugadores abnegados era una forma de minmaxing). En una competencia donde uno tiene el control de un solo jugador, ojo por ojo es sin duda una mejor estrategia., Debido a esta nueva regla, esta competencia también tiene poca importancia teórica al analizar las estrategias de un solo agente en comparación con el torneo seminal de Axelrod. Sin embargo, proporcionó una base para analizar cómo lograr estrategias cooperativas en marcos de múltiples agentes, especialmente en presencia de ruido. De hecho, mucho antes de que se jugara este torneo de nuevas reglas, Dawkins, en su libro The Selfish Gene, señaló la posibilidad de que tales estrategias ganaran si se permitían múltiples entradas, pero señaló que lo más probable es que Axelrod no las hubiera permitido si se hubieran presentado., También se basa en eludir las reglas sobre el dilema del prisionero en que no hay comunicación permitida entre los dos jugadores, lo que los programas de Southampton posiblemente hicieron con su apertura «ten move dance» para reconocerse el uno al otro; esto solo refuerza cuán valiosa puede ser la comunicación para cambiar el equilibrio del juego.

stochastic iterated prisoner’s dilemmaeditar

en un juego estocástico iterated prisoner’s dilemma, las estrategias se especifican en términos de»probabilidades de cooperación»., En un encuentro entre el jugador X y el Jugador y, la estrategia de X está especificada por un conjunto de probabilidades P de cooperar con Y. P es una función de los resultados de sus encuentros anteriores o algún subconjunto de los mismos. Si P es una función de solo sus N encuentros más recientes, se llama una estrategia de «memoria-n»., Una estrategia de memoria-1 es entonces especificada por cuatro probabilidades de cooperación: P = { P c c , P c d , P d c , P d d } {\displaystyle P = \{P_ {cc}, P_ {cd}, P_{dc}, P_{dd}\}}, donde P A B {\displaystyle P_{ab}} es la probabilidad de que X coopere en el presente encuentro dado que el encuentro anterior se caracterizó por (ab). Por ejemplo, si el encuentro anterior fue uno en el que X cooperó y y desertó, entonces P c D {\displaystyle P_{cd}} es la probabilidad de que X coopere en el encuentro presente. Si cada una de las probabilidades son 1 o 0, la estrategia se llama determinista., Un ejemplo de una estrategia determinista es la estrategia tit por tat escrita como p = {1,0,1,0}, en la que X responde como lo hizo Y en el encuentro anterior. Otra es la estrategia win–stay, lose–switch escrita como p = {1,0,0,1}, en la que X responde como en el encuentro anterior, si fue una «victoria» (es decir, cc o dc) pero cambia la estrategia si fue una pérdida (es decir, cd O dd). Se ha demostrado que para cualquier estrategia memory-n hay una estrategia memory-1 correspondiente que da los mismos resultados estadísticos, por lo que solo se deben considerar las estrategias memory-1.,

estrategias de cero determinadoreditar

la relación entre las estrategias de cero determinante (ZD), de cooperación y deserción en el dilema del prisionero iterado (IPD) ilustrado en un diagrama de Venn. Cooperar estrategias siempre cooperar con otros colaboradores estrategias, y desertar estrategias siempre el defecto en contra de otros desertores de las estrategias. Ambos contienen subconjuntos de estrategias que son robustas bajo una fuerte selección, lo que significa que no se selecciona ninguna otra estrategia de memoria-1 para invadir tales estrategias cuando residen en una población., Solo las estrategias de cooperación contienen un subconjunto que siempre es robusto, lo que significa que no se selecciona ninguna otra estrategia de memoria-1 para invadir y reemplazar tales estrategias, tanto bajo una selección fuerte como débil. La intersección entre ZD y buenas estrategias de cooperación es el conjunto de estrategias generosas de ZD. Las estrategias de extorsión son la intersección entre ZD y las estrategias de deserción no robustas. Ojo por ojo se encuentra en la intersección de las estrategias de cooperación, deserción y ZD.

Tit-for-tat es una estrategia ZD que es «justa» en el sentido de no ganar ventaja sobre el otro jugador., Sin embargo, el espacio ZD también contiene estrategias que, en el caso de dos jugadores, pueden permitir que un jugador establezca unilateralmente la puntuación del otro jugador o, alternativamente, forzar a un jugador evolutivo a lograr un pago un porcentaje menor que el suyo. El jugador extorsionado podría desertar, pero por lo tanto se lastimaría a sí mismo al obtener un pago más bajo. Por lo tanto, las soluciones de extorsión convierten el dilema del prisionero iterado en una especie de juego de ultimátum., Específicamente, X es capaz de elegir una estrategia para la cual D ( p, Q, β S y + γ U)=0 {\displaystyle D(P,Q,\beta s_{y}+\gamma U) = 0} , estableciendo unilateralmente s y {\displaystyle s_{y}} a un valor específico dentro de un rango particular de valores, independiente de la estrategia de y, ofreciendo una oportunidad para X para «extorsionar» al jugador y (y viceversa). (Resulta que si X intenta establecer s x {\displaystyle s_{x}} a un valor particular, el rango de posibilidades es mucho menor, solo consiste en una cooperación completa o deserción completa.,)

una extensión de la ENI es una ENI estocástica evolutiva, en la que se permite que cambie la abundancia relativa de estrategias particulares, con estrategias más exitosas que aumentan relativamente. Este proceso se puede lograr haciendo que los jugadores menos exitosos imiten las estrategias más exitosas, o eliminando a los jugadores menos exitosos del juego, mientras se multiplican los más exitosos. Se ha demostrado que las estrategias injustas de ZD no son evolutivamente estables., La intuición clave es que una estrategia evolutivamente estable no solo debe ser capaz de invadir a otra población (lo que las estrategias de extorsión ZD pueden hacer), sino que también debe funcionar bien contra otros jugadores del mismo tipo (lo que los jugadores de extorsión ZD hacen mal, porque reducen el excedente del otro).

La Teoría y las simulaciones confirman que más allá de un tamaño de población crítico, la extorsión ZD pierde en la competencia evolutiva contra estrategias más cooperativas, y como resultado, la rentabilidad promedio en la población aumenta cuando la población es mayor., Además, hay algunos casos en los que los extorsionadores pueden incluso catalizar la cooperación al ayudar a salir de un enfrentamiento entre desertores uniformes y agentes que ganan-se quedan, pierden–cambian.

mientras que las estrategias extorsivas de ZD no son estables en poblaciones grandes, otra clase de ZD llamada estrategias «generosas» es a la vez estable y robusta. De hecho, cuando la población no es demasiado pequeña, estas estrategias pueden suplantar cualquier otra estrategia ZD e incluso funcionar bien contra una amplia gama de estrategias genéricas para el dilema del prisionero iterado, incluyendo ganar–permanecer, perder–cambiar., Esto fue probado específicamente para el juego de donación por Alexander Stewart y Joshua Plotkin en 2013. Las estrategias generosas cooperarán con otros jugadores cooperativos, y ante la deserción, el jugador Generoso pierde más utilidad que su rival. Las estrategias generosas son la intersección de las estrategias ZD y las llamadas estrategias» buenas», que fueron definidas por Akin (2013) como aquellas para las que el jugador responde a la cooperación mutua pasada con la cooperación futura y divide los pagos esperados por igual Si recibe al menos el pago esperado cooperativo., Entre las buenas estrategias, El subconjunto Generoso (ZD) funciona bien cuando la población no es demasiado pequeña. Si la población es muy pequeña, las estrategias de deserción tienden a dominar.

dilemas continuos del prisionero iteradeditar

La mayoría del trabajo sobre el dilema del prisionero iterado se ha centrado en el caso discreto, en el que los jugadores cooperan o desertan, porque este modelo es relativamente simple de analizar. Sin embargo, algunos investigadores han examinado modelos del dilema del prisionero iterado continuo, en el que los jugadores son capaces de hacer una contribución variable al otro jugador., Le y Boyd encontraron que en tales situaciones, la cooperación es mucho más difícil de evolucionar que en el dilema del prisionero. La intuición básica para este resultado es directa: en el dilema de un prisionero continuo, si una población comienza en un equilibrio no cooperativo, los jugadores que son solo marginalmente más cooperativos que los no cooperadores obtienen poco beneficio de la división entre sí. Por el contrario, en el dilema de un prisionero discreto, los cooperadores ojo por ojo reciben un gran impulso al dividirse entre sí en un equilibrio no cooperativo, en relación con los no cooperadores., Dado que la naturaleza podría decirse que ofrece más oportunidades para la cooperación variable en lugar de una dicotomía estricta de cooperación o deserción, el dilema del prisionero continuo puede ayudar a explicar por qué los ejemplos de la vida real de cooperación tipo ojo por ojo son extremadamente raros en la naturaleza (ex. Hammerstein) aunque ojo por ojo parece robusto en los modelos teóricos.

aparición de estrategias estableseditar

Los jugadores no parecen coordinar la cooperación mutua, por lo que a menudo se quedan atrapados en la estrategia inferior pero estable de la deserción., De esta manera, las rondas iteradas facilitan la evolución de estrategias estables. Las rondas iteradas a menudo producen estrategias novedosas, que tienen implicaciones para la interacción social compleja. Una de esas estrategias es ganar-quedarse-perder-turno. Esta estrategia supera a una estrategia simple de ojo por ojo, es decir, si puedes salirte con la tuya, repite ese comportamiento, sin embargo, si te atrapan, cambia.

el único problema de esta estrategia ojo por ojo es que son vulnerables a errores de señal. El problema surge cuando un individuo engaña en represalia, pero el otro lo interpreta como engaño., Como resultado de esto, el segundo individuo ahora engaña y luego comienza un patrón de trampa en una reacción en cadena.

Articles

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *