Programas de Reforzamiento y
Conducta de Elección
Domjan Cap. 6
Profesora: Carolina Mora
Programas de reforzamiento
En la vida real, no siempre que damos
una respuesta aparecerá el reforzador.
El
programa
de
reforzamiento
determina cuándo la ocurrencia de la
respuesta va a ir seguida de un
reforzador.
n1, n2, n3...
Programas de reforzamiento
Programa de reforzamiento continuo:
Cada respuesta correcta es reforzada.
Ej: tocar el interruptor de la luz, oprimir el botón del control del televisor.
R
Ref
R
Ref
R
Ref
Programa de reforzamiento parcial o intermitente:
No todas las respuestas correctas son reforzadas.
Programas de reforzamiento
Programas de RAZÓN:
El reforzador se otorga en función del número de respuestas.
Razón Fija:
El número de respuestas necesarias para obtener un reforzador
es siempre el mismo.
Ej: RF5 = Cada 5 respuestas, me dan un premio. El programa de
RF1 es un programa de reforzamiento continuo.
Produce pausas post-reforzamiento.
Razón Variable:
El número de respuestas necesarias para obtener un reforzador
va variando.
Ej: RV5 = Cada 5 respuestas en promedio, me dan un premio.
Programas de reforzamiento
Programas de reforzamiento
Programas de intervalo
El reforzador se otorga en función del tiempo que ha
transcurrido desde el último reforzador (pero todavía hay que
responder al menos 1 vez para obtener el reforzador
Programas de reforzamiento
Programas de intervalo
El reforzador se entrega en función del tiempo que ha transcurrido desde el
último reforzador (pero todavía hay que responder al menos 1 vez para obtener
el reforzador)
Intervalo fijo
El tiempo que pasa entre dos reforzamientos es siempre el mismo. Por ejemplo:
IF5: cada cinco segundos, el reforzador está disponible (cada 5 segundos, si
respondo me dan un premio
Produce pausas post-reforzamiento y aceleración pre-reforzamiento (patrón
“festoneado”
Intervalo variable
El tiempo que pasa entre dos reforzadores va variando. Por ejemplo IV5: cada 5
segundos en promedio, el reforzador está disponible
Programas de reforzamiento
Programas de Intervalo y
disponibilidad limitada
Disponibilidad limitada:
Restricción con respecto al tiempo que permanece disponible un reforzador.
Para que la respuesta sea reforzada debe ocurrir antes de que termine el
período de disponibilidad limitada
Ejemplos:
• Acudir al restaurante (conducta operante) sólo es reforzado con la obtención
de comida, durante un período de tiempo específico.
• La conducta operante de ir a una cita médica, sólo es reforzada con la
atención del médico durante ciertos días a ciertas horas en las que el
médico atiende
Programas de Reforzamiento
Cuál Produce más respuestas?
Los programas que más respuestas producen son los de razón
(porque en los de intervalo, el reforzador se obtiene por esperar al
momento idóneo, no por dar un número determinado de respuestas)
Programas de reforzamiento
Tasa de respuesta
RV
IV
RF
IF
Tiempo
Programas de Reforzamiento
Cuál Produce más respuestas?
Los programas fijos producen menos respuesta que los variables porque
son más predecibles. Además son más fáciles de extinguir
De modo que los programas más efectivos para crear respuestas son los
de razón variable (ej: las máquinas traga monedas por eso son tan
“adictivas” y peligrosas)
Reforzamiento de los TER
(tiempo entre respuestas)
Además de las respuestas independientes, también podemos reforzar
la tasa de respuesta (la velocidad a la que se dan las respuestas).
Ejemplo: quiero que un animal dé, como mínimo, 12 respuestas por
minuto
Entonces, le doy reforzador sólo si produce una respuesta en los 5
segundos siguientes a la anterior respuesta. Si responde cada 5
segundos o menos, tiene una tasa de 12 respuestas por minuto, lo que
yo quería. Si tarda más de 5 segundos en responder, no es reforzado
aunque responda. Eso hará que se vuelva más rápido en el futuro
Programas Concurrentes
Los experimentos en los que solo se mide una respuesta, ignoran
la riqueza y complejidad de la conducta. Constantemente la gente
debe elegir entre dos o más programas simples de reforzamiento
que están disponibles al mismo tiempo.
opciones
Quedarse
en casa
Salir
cine
parque
Visitar a
un amigo
María
Juan
Cenar
ducharse
Ver TV
dormir
cocinar
pasticho
paella
Medidas de la Conducta de Elección
En los programas concurrentes se deja elegir a un animal entre dos
programas. La elección de un individuo en un programa concurrente se
refleja en la distribución de su conducta. Una técnica común es calcular la
Tasa Relativa de Respuesta
Programa A
IV 60
Para calcular la Tasa relativa de
Respuestas en la tecla izquierda, se
utiliza la siguiente formula
Programa B
IV 60
CI
(C I  C D )
Medidas de la Conducta de Elección
Programa A
IV 60
Programa B
IV 60
Si la paloma picotea con la misma frecuencia las dos teclas
de respuesta. La razón será 0,5
Al responder con igual frecuencia a cada lado de un
programa concurrente, la paloma obtendrá reforzadores con
la misma frecuencia en cada lado
rI
(r I  r D )
Ley de igualación de Herrnstein
Programa A
IV 60
Programa B
IV 60
En un programa concurrente IV 60 segundos e IV 60 segundos, tanto la
tasa relativa de respuestas, como la tasa relativa de reforzamiento son de
0,5. de este modo la Tasa Relativa de Respuesta es igual a la Tasa
Relativa de Reforzamiento
CI
CI  CD

rI
rI  rD
También se expresa así
CI
CD

rI
rD
Herrnstein se preguntó si se observaría también esta igualdad si las dos
alternativas de respuesta no se refuerzan con el mismo programa?
Ley de igualación de Herrnstein
Una paloma responderá más en el programa que más reforzadores le
proporciona
Si te dejan escoger entre pasar una tarde en el cine o paseando con un amigo,
escogerás probablemente la actividad más reforzante.
La ley de igualación ha tenido un gran impacto en la forma en que pensamos. El
hecho de que una conducta ocurra con mucha o poco frecuencia no sólo
depende de su propio programa de reforzamiento, sino también de las tasas de
reforzamiento de las actividades alternativas que el individuo puede realizar
Subigualación, sobreigualación y
sesgo de respuesta
Aunque la ley de igualación ha disfrutado de mucho éxito durante los
últimos 40 años, las tasas relativas de respuesta , no siempre igualan con
exactitud las tasas relativas de reforzamiento
Recordemos que:
CI
CI  CD

rI
rI  rD
También se expresa así
CI
CD

rI
rD
La mayor parte de los casos en que la conducta de elección no se ajusta
perfectamente a la relación de igualdad, puede adecuarse mediante los
parámetros p y s
CI
CD
 p ( rI
rD
)
s
Subigualación, sobreigualación y
sesgo de respuesta
CI
CD
 p ( rI
rD
)
s
P es el sesgo o preferencia por uno de
los programas.
Incluso aunque
proporcione
la
misma
tasa
de
reforzamiento.
Ir al gimnasio podría ser más reforzante
que ver tv, porque produce un beneficio
a largo plazo, pero como la respuesta es
costosa,
puede que prefiramos
quedarnos en casa (sesgo de respuesta)
S es la sensibilidad de la conducta de
elección a la tasa de reforzamiento (cuánto
me afecta la tasa de reforzamiento de este
programa).
Subigualación: el animal tiene una tasa de
respuesta
menor
que
la
tasa
de
reforzamiento. Es como si los reforzadores
obtenidos no produjeran mucho efecto en su
elección. El parámetro de sensibilidad es s<1
Sobreigualación: el animal responde más
de lo que correspondería en función de la
tasa de respuesta. La sensibilidad s>1
Influyen tanto la calidad como la cantidad del
reforzador
Igualación y maximización de las
tasas de respuesta
Descripción
Ejemplo
Maximización Se elige la mejor
molecular
alternativa en ese
momento
Los organismos siempre eligen la
alternativa de respuesta que tenga la
mayor probabilidad de ser reforzada
Maximización Se hace que algo sea
molar
tan bueno como sea
posible
Los
organismos
distribuyen
sus
respuestas entre varias alternativas de
modo que se maximice la cantidad de
reforzamiento que obtiene a largo plazo
Mejoramiento Se pretende que la
situación sea mejor de
lo que ha sido en el
pasado reciente
Los organismos cambian de una
alternativa de respuesta a otra para
mejorar la tasa de reforzamiento que
reciben
Programas Encadenados
Concurrentes
Muchas
decisiones
humanas
complejas,
limitan sus opciones una
vez que se hizo una
elección. Debo ir a la
universidad y graduarme
de ingeniería o tener un
trabajo
de
tiempo
completo.
Es
difícil
cambiar entre estas
alternativas
Este tipo de programa implica dos etapas:
El eslabón de elección: donde se permite que el participante elija entre dos
programas alternativos emitiendo una de dos respuestas
Eslabón terminal. Una vez que el participante hace una elección se queda con
esta, hasta que concluye el eslabón terminal
Autocontrol
En la vida, las elecciones importantes implican un beneficio pequeño a
corto plazo contra un beneficio mayor pero más demorado. Se dice
que la gente carece de autocontrol si elige recompensas pequeñas a
corto plazo en lugar de esperar por un beneficio mayor
Estudios sobre el Autocontrol
Los investigadores pusieron a prueba la
conducta de elección en dos condiciones
diferentes.
Procedimiento de elección directa, ambas
recompensas (la pequeña e inmediata y la
grande y demorada) estaban disponibles tan
pronto como las palomas picoteaban. En
esas condiciones, los animales carecían de
autocontrol y predominantemente elegían la
recompensa pequeña e inmediata
En
el
procedimiento
encadenado
concurrente. Las preferencias cambian a
favor de la recompensa grande y demorada a
medida que se exige que los participantes
esperen más tiempo por cualquiera de las
recompensas
Reducción del valor y explicaciones
del Autocontrol
Usted preferiría 1.000.000 de Bs.F hoy o el año próximo. Para casi toda la
gente la respuesta es obvia, 1.000.000 de Bs.F hoy serían de mucho mayor
valor que dentro de un año
Esto ilustra un principio matemático conocido como la función del descuento.
El valor del reforzador se reduce cuando hay que esperar para obtenerlo
V  M
(1  KD )
V= valor del reforzador
M= magnitud de la recompensa
D = demora
K = tasa de descuento (cuánto se devalúa el reforzador por cada unidad de
tiempo que nos separa de él) indica el grado de “impulsividad”
Reducción del valor y explicaciones
del Autocontrol
Puede enseñarse el autocontrol?
Entrenar a las personas con recompensas demoradas parece tener
efecto
generalizados para incrementar su tolerancia por las
recompensas demoradas
Descargar

Diapositiva 1