Introducción a la Sociomática
El Estudio de los Sistemas Adaptables
Complejos en el Entorno Socioeconómico.
Dr. Gonzalo Castañeda
Capítulo 13
Razonamiento Inductivo y
Aprendizaje
13.0. Introducción







Creencias deductivas requieren conocer la manera en
que el mundo opera (problemas bien definidos)
Alternativa: creencias inductivas sobre el
comportamiento de los demás y visión subjetiva de la
realidad
Enfoque de formación de expectativas más realista:
“concurso de belleza”
Creencias sobre creencias más que sobre fundamentos
dado lo incierto y complejo del mundo
Metodologías de modelación: impulso-respuesta,
heurísticas cognitivas, construcción modelos mentales
Limitaciones de expectativas racionales: ¿cómo explicar
ganadores a partir de predicciones si agentes son
homogéneos?
En mercados financieros: P = fundamentos ¿Cómo
explicar que existan transacciones?
13.1. El problema de El Farol
CAS: creencias subjetivas en base a creencias
de los demás; conjeturas se modifican en base
a capacidad para predecir la realidad
 Formulación mediante un ABM dada la
dificultad analítica (B. Arthur)
 Otra alternativa: juego de las minorías
 Formación de expectativas es crítica en
contexto de recursos limitados: se benefician
los que tienen una buena regla heurística de
predicción (diferente a los demás)
 Ejemplos rutas del tráfico citadino; compraventa de acciones; elección de nichos de
mercado; selección de vacaciones; conectarse
a la red

* Formulación






El Farol es un bar de Santa Fe (Nuevo México) al que
Arthur solía asistir
Externalidad negativa: te beneficias si pocos lo hacen
¿Se pueden formular creencias sobre creencias tal que
(i) existe convergencia y (ii) ex-post decisiones son
consistentes en promedio con objetivos (i.e. asistentes
al bar cercanos al máximo deseable)?
En un ABM: N (agentes) = 100, L (umbral) = 60;
Información: asistentes en semanas previas; si estiman
menos de L prefieren ir
Heurísticas de predicción: (i) idéntica a la semana
anterior, (ii) igual al promedio de las últimas tres
semanas, (iii) igual a la de hace cuatro semanas.
C/agente presenta un conjunto de modelos mentales;
desempeño en función de su capacidad de predicción
con los datos públicos (m) almacenados en la memoria.
El Farol en Santa Fé. Nuevo
México
Si hipótesis activa deja de predecir
adecuadamente es sustituida
 Cada agente presenta un conjunto de hipótesis
diferentes (k) a ser evaluadas en el transcurso
del tiempo.
 Para codificar estas hipótesis: combinación
lineal de las concurrencias observadas en las
últimas m semanas.

semana actual - 1
 W(j,
P(j, i) 
i, h) A(h)
h  semana actual - m

Pronósticos van desde 0 hasta N individuos a
partir de m vectores de datos con
concurrencias de 0 hasta N:
( N  1)

(N  1)
m
Limitaciones cognitivas del individuo → se
genera un número reducido Nk ≤ R,
* Resultados de las simulaciones
Comportamiento colectivo: concurrencia
promedio se mueve rápidamente al umbral de
los 60
 Serie presenta comportamiento caótico donde
ciclos persistentes se desvanecen

En 100 semanas común encontrar que cerca
del 60% de los agentes acuden al bar y 40%
restante se queda en casa.
 En cada periodo distintas reglas de la ecología
disponible se vuelven activas
 Unas reglas se adaptan a otras: co-evolución
 Resultado se puede generar con estrategias
mixtas Nash
 Planteamiento de Arthur es más atractivo:
permite conocer la dinámica para llegar a este
equilibrio y estudiar varianza en la serie de
concurrencias

El impacto de la memoria en la volatilidad



Volatilidad decrece conforme se incrementa el número
de semanas en la memoria
‘Inteligencia-inductiva’ → reducción de la volatilidad
pero no en la capacidad para adoptar estrategias que
los lleven cerca de la concurrencia óptima.
‘inteligencia-cero’: valor aleatorio entre 0 y N → en
promedio L agentes van al bar y N-L se quedan en casa
* El Farol en NetLogo





Si L = 60 → promedio de la concurrencia converge a
este número
Si L = 90
Si L = 10
Solución Nash mixta no es siempre válida con agentes
heterogéneos e inducción.
Comportamiento inductivo no produce resultados
estrictamente eficientes: individuos mantienen
expectativas que los llevan a un comportamiento no
deseable.
Existe otra versión en donde cambia la frecuencia con
que se asiste (El Farol. Network Congestion )
 Reducción
en la varianza en la serie de
concurrencias: (i) se incrementa la
información almacenada (ii) se reduce el
número de hipótesis disponibles para
cada agente.
 Si L = 60, k = 10:
 (a) m = 5
(b) m = 10
* El problema de El Farol en teoría de juegos






Redefinición: asistencia a un concierto (juego de una
tirada)
(i) casa →cero beneficios, (ii) concierto →x > 0
cuando a lo más 60 deciden lo mismo, – y < 0 cuando
más de 60 van
No hay equilibrio con estrategia puras: todos deciden
lo mismo
Multiplicidad con decisiones no simétricas en el que
60% van
¿Cómo jugadores idénticos generan decisiones
diferentes?
Tiene sentido en estrategias mixtas: indiferencia entre
ir y no ir: x ∙ Pr [a lo más 60 asisten] – y ∙ Pr [más de
60 asisten] = 0








Reescribiendo Pr [a lo más 60 asisten ] = y/(x + y).
Encontrar p = probabilidad de que uno decida asistir
tal que expresión anterior se cumple
Se puede mostrar que si beneficio y desencanto son
iguales ( x = y) → p = 0.6
Pero si y >> X p (<< 60%) tiene que ser muy baja
para que Pr [a lo más 60 asisten ] sea alta
Asistencia promedio al concierto = 100p
Por ende para y > x subutilización del espacio: más
del 40% de asientos vacíos
En El farol existe externalidad negativa: expectativas
no se validan
En un contexto de estrategias mixtas si se validan
13.2 Juego de las minorías






Planteamiento genérico de El Farol: juego de las
minorías
N agentes que toman una decisión binaria (0, 1)
decisión minoritaria gana
En El Farol: les va bien a los que se quedan en casa
cuando mayoría decide ir
Aplicaciones en contextos similares a El Farol
En CGT comportamiento estratégico de N individuos, en
juego de minorías la persona razona inductivamente
sobre comportamiento de multitud
Ciertas simplificaciones permiten obtener respuesta
analítica a pesar de no-linealidad y desequilibrio
* Simplificaciones analíticas
Lo importante no es predecir número exacto de
comensales sino si el umbral se rebasa: 2 m
 En vector de memoria sólo se registra si el
lugar estuvo vacío o no: 2 2 m
 El enfoque más abstracto permite mayores
aplicaciones y planteamientos analíticos
 A pesar de que m sea grande, el
comportamiento independiente se da en
conjunto de hipótesis reducido: 2m
 Si N > 2m factible encontrar efectos manadas
(coordinado)

(N  1)

Si pocos jugadores → reglas no similares
→comportamiento aleatorio
* Ineficiencia e historias posibles
 Ineficiencia
global: fluctuaciones en
comportamiento colectivo (s2) / N
 Relación (s2/N) e indicador de historias
posibles (r = 2m/N) →V asimétrica
 Si r elevado→ eficiencia baja: muchas
reglas independientes → comportamiento
aleatorio
 Si N se eleva → coordinación →baja
varianza
 Pero si r ≈ 0 efectos manada fuertes →
grandes fluctuaciones y elevada varianza
* Simulaciones por computadora
 Sembrado
a través de un mapeo: 2m
historias posibles → {0, 1}.
 Reglas con desempeño desafortunado
sustituidas por clón de reglas de mejor
predicción con probabilidad 1-e y con e
regla aleatoria. –explotación vs
exploración-.
 Supón tres posibilidades: adoptar la
convención establecida (p = 1), tomar
posición contraria (p = 0 ); o seguir la
convención de manera aleatoria 0 < p <
1.




¿ cómo se modifica la distribución de p en la población
en el transcurso del tiempo?
¿emergen sociedades polarizadas: aquellos que van
siempre con la historia y aquellos que van contra ella?
La probabilidad se recalcula en la simulación en la
medida en que el desempeño del agente es
desafortunado
Comportamiento observado:
 Intuición:
con tres agentes y p = (0, 0.5
y 1).
 En los siguientes casos siempre existe un
ganador: (p=1, p=1, p=0), (p=0, p=0,
p=1) y (p=0, p=0.5, p=1).
 Distribución se forma en el tiempo con
estos tres casos
* El juego de las minorías en NetLogo






Model Library → Sample Models → Social Sciences →
Unverified → Minority Game.
Una hipótesis al azar de entre un conjunto es asignada
a cada agente.
Con regla activa y una historia aleatoria con m datos
binarios (memory) se genera el comportamiento
colectivo del primer periodo.
Con la nueva historia se revalúan todas las hipótesis
disponibles para cada agente (hayan sido aplicadas o
no)
Se adopta la regla con más puntos virtuales.
Con el tiempo la variabilidad en el desempeño de las
reglas se reduce
 Al
Iniciar la corrida
 Tiempo
después
13.3. Modelos computacionales de aprendizaje
Evidencia psicología humana: esquemas de
aprendizaje variados según contexto
 Validación a través de evidencia experimental y
replicación de patrones emergentes
 Análisis de sensibilidad con diferentes
esquemas
 Modelos de racionalidad acotada describen
mejor realidad
 En economía interesa si el comportamiento es
consistente con observado, pero no tanto
estudiar los procesos subyacentes y formas
para crear modelos mentales

* Clasificación de modelos de aprendizaje






(i) Aprendizaje no-consciente: entorno resulta familiar
y no hay reflexión, responden a estímulos (rutinas,
intuición, compras afectivas, conocimiento tácito)
(ii) Aprendizaje consciente: situaciones nuevas,
consciencia de consecuencias. Trata de descifrar
mecanismos causales. Usado en situaciones
importantes
(ii) se divide en (a) aprendizaje por heurísticas y (b)
por creencias
(a) establecer conexión entre experiencias y
comportamiento
(b) descripción detallada de aprendizaje en cerebro
humano (evidencia neurofisiológica y psicológica) y
construcción de mapas mentales
En ABM predominan no-conscientes y reglas heurísticas
* Aprendizaje no-consciente






Tienen que ver con mecanismos de refuerzo o
estímulos (reinforcement learning)
Frecuencia de comportamiento varía dependiendo si
resultados son positivos o negativos
No se requieren habilidades cognitivas ni información
histórica
Ejemplo: modelo de Roth-Erev
C/agente tiene propensión a acción j: qij(t)
Probabilidad de acción sea implementada
p ij 
q ij (t)
n
 q ij ( t )
j 1


propensiones se modifican en función del beneficio
relativo recibido: R(x) = x – xmin
Una experiencia favorable con la acción j no sólo
incrementa su propensión sino también la de las otras
acciones aunque de manera diluida
q ij ( t  1)  (1 -  )q ij (t)  E k ( j, R(x)),
(1 - e ) R(x)
si j  k


E k ( j, R(x))   e
R(x)
en lo demás

 N -1

En modelo de Busch-Mosteller se consideran estímulos
negativos y positivos
 (  (t)) (1 - p ( a , t)) si a  a ( t)
p ( a , t  1)  p ( a , t)  
 -  (  (t)) p ( a , t) si a  a ( t)

Cuando beneficio es negativo
   (-  (t)) p ( a , t)

p ( a , t) p ( a ( t), t)
p ( a , t  1)  p ( a , t)  
 (-  (t))

1  p ( a ( t), t)
si a  a ( t)
si
a  a ( t)
* Aprendizaje en base a heurísticas


Basados en premisas del comportamiento humano:
ensayo y error, recolección de experiencias, imitación,
seguimiento de aspiraciones (o satisfacción mínima),
difusión de ideas e innovación (o exploración)
(i) Recolección de experiencia (e..g. aprendizaje por
mejoras) dp ( a , t)
 p ( a , t) (1 - p ( a , t))  ( u ( a , t) - u ( a ' , t))
dt


(ii) imitación (se compara el beneficio de otros)
Utilidad promedio observada para a y para a´ se
calcula tanto con experiencia personal y de agentes con
los que se interactúa
u i ( a , t) 
1- 
1- 
(t -1)
t 1 
 
  0 
N
con
 s (i ,
j 1
j)  1
(t -1- )

 s (i, j) u j ( )  ( a j ( )  a ) 

j 1

N
* Modelos de aprendizaje de creencias






Soporte en investigación psicológica sobre aprendizaje
cognitivo
Construcción de modelos mentales, especificación
mecanismos causales.
En economía Denzau y North (94)
Ejemplos: juego ficticio, aprendizaje estocástico de
creencias, redes neuronales, sistemas clasificadores,
programación genética, aprendizaje Bayesiano y
aprendizaje por mínimos cuadrados
Últimos dos usados en modelo neoclásico: aprendizaje
que converge a equilibrio !!paradójico en mundo con
fluctuaciones, aprendizaje permite reaccionar ante
eventualidades ¡¡
Max a E(  i ( a i , t))    i ( a i , a -i ) . E(p( a -i , t))
Juegos ficticios:
i
a
i
13.4. Aprendizaje-Q
 Dentro
de la familia de aprendizajes con
refuerzos
 Aprendizaje anticipativo: conexión entre
acciones y consecuencias corrientes y
futuras
 Método heurístico para resolver ecuación
de Bellman de programación dinámica
 A partir de estado s encontrar a tal que
max Q(s,a), y acciones sucesivas
también obedecen criterios de
optimalidad
 Se
utiliza criterio de aproximaciones
sucesivas en donde se iteran los
siguientes pasos
 (i) A partir de s elegir a y obtener
recompensa r al llegar al estado s’
 (ii) proceso de actualización de Q:
Q
N
( s, a )  Q ( s, a )  Q ( s, a )

 Q ( s , a )   r   max Q ( s ' , b )  Q ( s , a )
 Con
b

algebra se tiene que:
Q ( s , a )  1   Q ( s , a )   [ r   max Q ( s ' , b )]
N
b
 (iii)
Con QN volver al paso (i) para
distintos s.
*Ejemplo del método








Problema trivial: 3 periodos, c/estado asociado a una
acción: ai → si
Condiciones iníciales: Q(si, ai) = 0, recompensa = ri
De si se elige ai →QN(si,ai)= (1-)0 + [ri + maxb
Q(si+1, b)] =  ri, para i =1,2
De s3 se elige a3 → QN(s3,a3)= (1-)0 + [r3]=  r3.
Nueva iteración:
De si se elige ai → QN(si,ai)= (1-)ri + [ri + maxb
Q(si+1, b)] = (1-)ri + [ri + ri+1 ], para i =1,2
De s3 se elige a3 → QN(s3,a3)= (1-)r3 + [r3]
De s1 y suponiendo  = 1 → QN(s1,a1) =r1 + r2 +2 r3
que es el valor exacto de la función
*Elección de acciones rentables
Cuando existen distintas acciones para
c/estado decisión maxb Q(si+1, b) no es trivial
 Si agente en estado s2 y existen tres acciones
posibles (a21, a22 y a23) → maximizar función de
valor en los tres casos: [Q(s2, a21), Q(s2, a22),
Q(s2, a23)].
 Valores que se obtiene de condiciones iníciales
y experiencias previas
 Para combinar explotación y exploración se
utiliza distribución de Boltzman/Gibbs

p (a s, t ) 
e

i
Q ( s , a i ) / Ti
e
Q ( s , a i ) / Ti
* Aprendizaje Q en contexto de búsqueda
espacial
Objeto en retícula bi-dimensional
 Estados de la naturaleza describen ubicación
física en retícula, acciones describen pasos en
una dirección,
 Recompensas nulas menos cuando se alcanza
objetivo r = 100

* Condiciones iniciales
Si se supone s1 y se elige a12 al azar:
QN(s1,a12)= (1-)0 + [0 + maxb {Q(s2, a21),
Q(s2, a25), Q(s2, a23)} ] = 0
 El agente en s2 y se elige al azar a23
QN(s2,a23)= (1-)0 + [0 + maxb {Q(s3, a32),
Q(s2, a36)} ] = 0
 El agente en s3 y elige al azar a36 se llega al
estado final, por lo que la actualización produce
QN(s3,a36)= (1-)0 + [100 ]
 Recalculo de la memoria: QN(s1,a12)= 0,
QN(s2,a23)= 0 y QN(s3,a36)=100.
 Si nuevo episodio de búsqueda empieza en el
estado s2 y se elige al azar a23: QN(s2,a23)= 0
+0.5maxb {Q(s3, a32), Q(s3, a36)} = 0 + 0.5
(100), al suponer  = 1,  = 0.5

 al


* Valores finales
suponer  = 1,  = 0.5
Condiciones para convergencia:
(i) ninguna acción queda afuera en los experimentos,
(ii) la tasa de aprendizaje se considera decreciente en
el tiempo, (iii) el entorno es estacionario y (iv) la
probabilidad de transitar del estado s al s’ a partir de la
acción a no depende de la historia previa
* Aprendizaje-Q en Netlogo
 Disponible
en la sección de modelos de la
comunidad: Reinforcement Learning
Maze).
 Al inicio de cada episodio agente está en
una esquina y objeto en la contraria
 Episodio se define como intento por
alcanzar objetivo
 Episodio se interrumpe cuando se choca
con pared o se alcanza objetivo
 Recompensas: pared (-10); laberinto (0),
objetivo (10)
 Trayectorias
 Eficiencia
en varios intentos
del aprendizaje
13.5. Formación de Expectativas y Evidencia
Experimental







Economistas adoptan premisas axiomáticas sobre
expectativas
De las expectativas naive o adaptativas a las racionales
E.R. supone que individuos conocen el funcionamiento
de la economía y sus características estocásticas.
¿Agentes aprendan a anticipar variables y sus
pronósticos convergen con expectativas racionales?
Convergencia al equilibrio racional sólo bajo ciertas
estructuras del mercado (e.g. estabilidad, unicidad,
expectativas en la oferta).
El estudio de las expectativas tiene un fuerte
componente empírico, históricamente descuidado por
los científicos sociales.
Capacidad de diversos criterios teóricos de formación
de expectativas para reproducir evidencia encontrada
en un mercado experimental.
* El mercado de la telaraña
 Mercado
tipo telaraña (agrícola): oferta
función del precio anticipado, y demanda
función del precio observado.
 Retroalimentación negativa: expectativa
de un precio alto conduce a una mayor
oferta, por equilibrio → baja en precios.
 En escenario de retroalimentación
positiva: expectativas de precios altos →
precios aumenta
 Característica de mercados especulativos;
la demanda y no la oferta es función de
los precios anticipados.
Descripción del mercado

Equilibrio:
K
D(p
t
)

S(p
e
i, t
)
i 1


Demanda agregada:
Oferta agregada:
S(p

D(p t )  a - b p t   t
e
i, t
)  tanh(  (p i, t  6 )  1
a, b  0
con   0
e
Precios de equilibrio.
K
a 
pt 

con
 S(p
i 1
b
e
i, t
)

t
b
Estabilidad depende de s = S’(p*)/D’(p*)), →
sistema es estable cuando -1 < s < 1.
* Características del diseño experimental
Sujetos humanos eligen el precio de producción
anticipado (50 periodos)
 Oferta agregada: 6 agentes diferentes.
 Única información: serie de precios de
equilibrio pasados y que p e [ 0 , 10]
 Experimento se aplica con 3 tratamientos
diferentes vinculados a la estabilidad
 Cada uno de estos tratamientos se aplica a 6
grupos diferentes

* Modelos teóricos para la formación de
expectativas
Series de precios de equilibrio con cada uno de
los tratamientos se comparan con series
simuladas con diferentes mecanismos teóricos.
 (a) Racionales: precio observado difiere del
precio de equilibrio por efecto del componente
estocástico del mercado

pt  p * et

(b) Naive: último precio observado; agentes
cometen errores sistemáticos por no
considerar patrones de auto-correlación
p t  p t -1
e

(c) Adaptativas: agentes aprenden y modifican
sus apreciaciones sobre el precio futuro en
función del error de pronóstico
p t  p t -1   (p t -1  p t -1 )
e

e
e
(d) Aprendizaje por promedios: agentes
pronostican el precio en t calculando la media
de todos los precios observados hasta t-1
(serie suavizada)
1 t -1
p 
pi

t
i0

(e) Aprendizaje a través de auto-correlaciones
muestrales: regla lineal de pronóstico para los
precios
p t   t   t (p t -1 -  t )
e
-Simulaciones teóricas-
* Resultados del Experimento





En las simulaciones teóricas se observa una cierta
convergencia con RE en aprendizaje de promedios y
SAC
¿ Existe evidencia sobre cercanía entre precios
generados con RE y los obtenidos con ejercicio
experimental ?
RE es un buen criterio teórico para anticipar precios en
escenarios estables, pero no así en los inestables dada
su incapacidad para reproducir los niveles de volatilidad
observados.
Expectativas naive se desempeñan adecuadamente en
un contexto estable, no así las adaptativas que
producen patrones cíclicos significativos que no
concuerdan con precios experimentales.
Mecanismos de aprendizaje adaptativo (promedios y
SAC) tampoco logran describir la volatilidad en los
precios experimentales
Pruebas de media y varianza: RE
versus experimental (50 periodos)
13.6.- Aprendizaje en Sistemas
Adaptables Complejos





Volatilidad excesiva en los precios de equilibrio del
mercado experimental → creencias heterogéneas.
En las simulaciones teóricas se supuso agentes
representativos.
Considerar a un conjunto de heurísticas y su selección
evolutiva
Sociedad aprende las reglas de movimiento de los
precios sin tener conocimiento de ecuaciones que
definen equilibrio del mercado.
Co-evolución entre expectativas y comportamiento
observado en los precios: creencias inciden sobre el
exceso de demanda → beneficios de distintos tipos de
expectativas y por ende su evolución.
* Modelos con expectativas heterogéneas
La formación de expectativas obedece a los
siguientes puntos:
 (i) Agentes pueden elegir de entre un menú
de mecanismos posibles (i.e RE, naive)
 (ii) Si la regla es más sofisticada (información,
conocimiento del entorno) → más costo
 (iii) Proceso evolutivo: agentes seleccionan
aquellas reglas que en el pasado exhibieron un
mejor desempeño.
 Existen H reglas de pronóstico disponibles
 Ej: heurística lineal:

H j (p t -1 )   j   j p t -1
j  1, ..., H
 Popularidad
de la regla se modifica en
de acuerdo a una función de adaptación:
U jt   U jt -1  (1 -  )  jt

Función de beneficios esperados:
s
 jt  p t s H j (p t -1 ) - ( H j ( p t -1 )) - C j
2

2
Equilibrio en un mercado de la telaraña:
a - d p t   1t s(  1   1 p t -1 )   2t s(  2   2 p t -1 )

Participaciones relativas se modifican
en función del valor de adaptación:
 jt 
(1 -  ) e
 U jt -1
Z t -1
  jt 1
Z
t -1


h
e
 U ht -1
* Fundamentalistas versus naive





Fundamentalista: recaba información sobre el mercado
→ precio anticipado = precio de equilibrio si todos los
agentes tuvieran ER (2t = 0, pt =pt-1 = p*)
Naive:
H 1 ( p t -1 )  p * 
H 2 ( p t -1 )  p t -1
a
ds
Simulación: periodos de baja volatilidad y precios
cercanos a los fundamentos se intercalan con periodos
de elevada volatilidad
Patrón emergente resultado de cambios de la
participación de los distintos tipos de agente en el
tiempo.
Con precios volátiles a los agentes les conviene incurrir
en costos y recabar información que les permita
precisar los fundamentos del mercado → en la medida
en que aumentan la participación de los
fundamentalistas el precio se vuelve menos volátil
Mercado de telaraña con expectativas heterogéneas

(a) (xt = pt – p*)
(b) part. Fundamentalistas

(c) Diagrama bifurcación
(c) Autocorrelación
13.7. Juegos con aprendizaje







CGT: los agentes conocen la estructura de la matriz de
beneficios y las expectativas son racionales
Si se relaja el supuesto de racionalidad se establecen
creencias sobre comportamiento de la contraparte
En el modelo (Hanaki at al) agentes buscan identificar
la estructura del juego: acciones que otros pueden
elegir y beneficios asociados
Memoria autobiográfica: detalles de información se
pierden
Memoria corta se registran beneficios y acciones de
c/etapa vs memoria larga: se registra vinculo acciónbeneficio sólo cuando este aparece frecuentemente
Memoria larga: visón personal del juego
Entendimiento del juego co-evoluciona con elección del
comportamiento via reforzamiento
* Modelación de la perspectiva del juego




Memoria corta: duración mi (i = 1, 2) de la información
almacenada
Cuando resultado (si, sj) se repite tal que se rebasa al
umbral cognitivo, ki (≤ mi), → acciones realizadas y
beneficio pasan a formar parte de la memoria larga.
Visión personal se construye a partir de beneficios
objetivos y memoria
Matriz de beneficios objetivos:
 i ( s 1i , s 1j )    i ( s 1i , s njj ) 


i
 




i
j 
 i j
i
(
s
,
s
)



i
(
s
,
s
)
ni
nj 
 ni nj
 La
matriz de memoria larga: Li(t) se
define con unos y cero dependiendo de
que (si, sj) quede o no en la memoria
 Al inicio del juego: Lisi,sj (0) = 0 para todo
(si, sj) c Si x Sj
 (t )  L (t )  
 Visión personal del juego:
 si,sj (t) = 0 cuando aún no aprenden la
naturaleza del resultado (si, sj).
~
i
i
* Mecanismo de aprendizaje
sobre selección de acciones
 Selección
probabilística de acción: pis(t)
 Experiencia se sintetiza con un indicador
de atracción, Ais(t) p ( t )  e
 i A si ( t )
i
s

ke S
 Al
e
i
 i Ak
(t)
i
inicio del juego todas las acciones
tienen la misma atracción Ais(0) = 0
 Nivel de atracción evoluciona en función
de los estímulos
i
A ( t  1) 
i
s
1
h
i
h 1
 R s (t   )
i
 0
 Estímulo
depende de resultados
observados y de visión personal
i
 i ( s i ( t ), s j ( t ))
si s  s ( t )
i
R s (t )   ~ i
  s , sj ( t ) (t) en todos los demás casos
 Acciones
corrientes se ven estimuladas
por beneficios observados cuando las
acciones adoptadas en pasado reciente.
 Para acciones no adoptadas
recientemente estímulo depende de
beneficios en memoria.
 En los demás escenarios el estímulo es
cero.
* Algunos resultados de simulaciones

Sea el siguiente juego 3 x 3 en el que a e (0, 0.5)

 1
 s1
 s 12
 1
 s3






2
2
s1
s2
1  a ,1  a
0 ,1
1, 0
a,a
0 ,1
0, a


1, 0


a ,0

1  a ,1  a 
2
s3
Mezcla de dilema de prisionero y juego de coordinación
Se supone que m = 5, k = 3,  = 5.0 y a = 0.25
Hasta periodo 400 sólo un resultado del juego se había
registrado en la memoria larga
Para periodo 500 el equilibrio Nash ya forma parte de
la memoria; número más elevado de selecciones.
Patrones de co-evolución observados varían de una
corrida a otra en función de la visión personal del juego
que los individuos van adquiriendo.
 Recalculo
de la matriz de memoria
 Recalculo
de frecuencias relativas






Beneficios promedios en distintas corridas para K = 1,
3, 5 y distintos métodos GL (negra), RL (gris), FP
Con K = 1, 3, jugadores Aprenden rápido y empiezan a
jugar Nash
Aprendizaje lento y conocimiento limitado del juego
permiten beneficios promedio más elevados
Elevados umbrales cognitivos dificultan almacenar
información en memoria larga y cambiar visión del
juego.
No significa que en un mundo complejo el
entendimiento limitado →beneficios mayores
Desconocimiento puede resultar benéfico solamente
Descargar

Document