Módulo 3 - Psicología Del Aprendizaje
Módulo 3 - Psicología Del Aprendizaje
Módulo 3 - Psicología Del Aprendizaje
instrumental
PID_00273424
Ninguna parte de esta publicación, incluido el diseño general y la cubierta, puede ser copiada,
reproducida, almacenada o transmitida de ninguna forma, ni por ningún medio, sea este eléctrico,
químico, mecánico, óptico, grabación, fotocopia, o cualquier otro, sin la previa autorización escrita
de los titulares de los derechos.
© FUOC • PID_00273424 Condicionamiento instrumental
Índice
Introducción............................................................................................... 5
5. Programas de reforzamiento.......................................................... 39
5.1. Programas de reforzamiento continuo ....................................... 39
5.2. Programas de razón ..................................................................... 40
5.3. Programas de intervalo ............................................................... 42
5.4. Comparación de los programas de razón y de intervalo ............ 45
5.5. Conducta de elección: programa concurrente y programa
concurrente encadenado ............................................................. 46
5.5.1. Programa concurrente ................................................... 47
5.5.2. Programa concurrente encadenado ............................... 53
7. Condicionamento aversivo.............................................................. 60
7.1. Evitación y escape ....................................................................... 60
7.2. Castigo ......................................................................................... 65
9. Generalización y discriminación................................................... 84
9.1. Generalización y discriminación ................................................ 85
9.2. Gradientes de generalización ...................................................... 85
9.3. Discriminaciones extra e intradimensionales ............................. 87
9.4. La transposición y el desplazamiento del vértice ....................... 88
9.5. Teoría de Spence (1936) .............................................................. 90
9.6. Teoría de la discriminación basada en procesos de atención ...... 96
9.7. Aprendizaje perceptivo ................................................................ 98
Solucionario................................................................................................ 125
Glosario........................................................................................................ 126
Bibliografía................................................................................................. 129
© FUOC • PID_00273424 5 Condicionamiento instrumental
Introducción
Hasta ahora hemos estudiado diferentes situaciones en las que los estímulos
provocaban respuestas en los organismos. En la respuesta refleja, la presencia
de un estímulo activa automáticamente una respuesta. De esta manera, un
trozo de alimento introducido dentro de la boca activará la respuesta de sali-
vación.
También hemos visto cómo la conducta refleja puede ser modulada por medio
de la experiencia: la habituación y la sensibilización modifican la intensidad
de la respuesta, reduciéndola o intensificándola, respectivamente. En el mó-
dulo "Condicionamiento clásico pavloviano" hemos analizado el condiciona-
miento clásico. Si un estímulo inicialmente neutro, por ejemplo el olor de
pan acabado de hacer, se empareja sistemáticamente con la introducción del
pan en la boca, ambos estímulos, olor y pan, quedan asociados y el estímulo
neutro es capaz de provocar una respuesta que inicialmente no provocaba.
En el ejemplo, el olor de pan puede provocar respuestas como la salivación,
movimientos de la boca y otros. El estímulo olor sirve de señal que anticipa
el alimento y prepara al organismo para recibirlo. Desde esta perspectiva, la
conducta es una consecuencia del estímulo. Pero hay otras situaciones en las
que la relación se invierte y son precisamente los estímulos la consecuencia
de nuestra conducta.
Por ejemplo, si sabemos que en la habitación hay un bebé que se acaba de dormir, po-
dríamos decidir no encender la luz para no despertarlo.
© FUOC • PID_00273424 8 Condicionamiento instrumental
Construyó unas cajas de madera que tenían una puerta abatible sujetada por
uno o más pestillos. Los pestillos podían ser manipulados por varios mecanis-
mos, como por ejemplo directamente con la pata del animal o por medio de
un pedal al que se ataba una cuerda. Cuando Thorndike encerraba a un gato
hambriento en una de estas cajas, podía observar que el pobre animal no tenía
la más mínima intuición de lo que debía hacer para poder escapar de su con- Edward�L.�Thorndike
rastro de conducta intuitiva, sino que los gatos iban llevando a cabo diferen-
tes comportamientos hasta que alguno de ellos proporcionaba la solución del
problema. Esta estrategia se llama ensayo�y�error.
(1)
Tened en cuenta que el papel de la consecuencia (agradable o desagradable) En la actualidad se sabe que esta
asociación E-R no es la única que
era más bien secundario y servía para fortalecer o debilitar la conexión entre
puede establecerse en situaciones
los estímulos y las respuestas, pero no quedaba conectada a ninguno de es- de condicionamiento, tanto clásico
como instrumental.
tos elementos. Esta manera de explicar el condicionamiento instrumental era
coherente con la explicación que se daba inicialmente al condicionamiento
clásico siguiendo el esquema E-R1 (estímulo-respuesta) y que años más tarde
adoptaron los psicólogos dentro del enfoque conductista.
© FUOC • PID_00273424 11 Condicionamiento instrumental
Esquema de un laberinto con forma de T (a) y de un pasillo recto (b). S = caja de salida; PE = punto de elección; M1, M2 y M =
cajas meta
© FUOC • PID_00273424 12 Condicionamiento instrumental
Se puede poner comida sólo en uno de los brazos pero no en el otro. También se podrían
utilizar dos tipos de reforzador, como por ejemplo una base de agua y harina en uno de
los brazos y la misma base pero endulzada en la otra meta.
Dadas las características de los ensayos discretos, la conducta del animal es-
tá restringida por las condiciones programadas por el investigador. Skinner
(1938) creó un procedimiento que permitía el estudio de la conducta de ma-
nera continua. Si analizamos el comportamiento de una persona o de un ani-
mal, podremos darnos cuenta de que la conducta fluye constantemente y a
menudo se hace difícil determinar claramente las diferentes unidades de con-
ducta. Skinner resolvió este problema introduciendo el concepto de respuesta
operante, que se define a partir del efecto que tiene una conducta sobre el
entorno del animal.
Una respuesta operante en un humano puede ser introducir unas monedas en una má-
quina y pulsar el botón correspondiente del refresco que se quiere consumir.
lanca es un mecanismo que el animal puede presionar y, una vez deja de hacer
presión, vuelve a su posición original. La tecla de respuesta es un botón en el
que el ave puede picotear. En ambos casos, cada vez que se ejecuta la respuesta
se registra en un ordenador. Normalmente, cuando el animal ejecuta la res-
puesta operante activa un mecanismo que dispensa un poco de comida. La co-
mida recibe el nombre de reforzador, ya que su presentación inmediatamente
después de la respuesta refuerza la conducta. No obstante, en determinados
experimentos la respuesta operante va seguida de un estímulo aversivo como
puede ser una descarga eléctrica moderada que se administra en la planta de
los pies por medio de un enrejado metálico.
Skinner�en�su�laboratorio�con�una�caja�de
condicionamiento
En una de las paredes podemos encontrar los mecanismos para dispensar estímulos (altavoz, luces, comedero). También
encontramos un mecanismo de respuesta que en el caso de las ratas suele ser una palanca de respuesta y en el caso de las
palomas es una tecla de respuesta.
Las pendientes de las respuestas acumuladas (líneas punteadas) indican la frecuencia de la respuesta: cuanto más inclinada
sea la pendiente, más alta es la frecuencia de la respuesta. Las rayas oblicuas que cortan el registro acumulado representan
los reforzadores dispensados. El registro se ha obtenido a partir de una simulación con la rata virtual Sniffy (Alloway, Wilson y
Graham, 2006).
Por otra parte, cada unidad de tiempo que transcurra hará que la curva se
desplace en el eje de abcisas. Las variaciones en las dos variables (tiempo y
respuestas acumuladas) generan una curva que variará en su pendiente. Si la
rata no ejecuta la respuesta operante, obtendremos que el registro acumulativo
sólo crece en sentido horizontal, ya que va transcurriendo el tiempo, mientras
que no hay cambios en el eje de ordenadas, puesto que no hay respuestas
que acumular. El resultado es que se dibuja una pendiente nula, es decir, una
línea completamente horizontal. A partir del momento en el que se producen
respuestas y se van acumulando, la curva empieza a mostrar una pendiente. Es
precisamente la inclinación de la pendiente la que nos da información sobre la
frecuencia de ejecución de la respuesta operante, de modo que las pendientes
suaves indican que la tasa de respuesta es baja mientras que las pendientes
muy inclinadas muestran tasas de respuesta altas.
2.3. El modelado
Cuando situamos por primera vez a una rata en una caja de condicionamiento,
raramente observaremos que el animal ejecute la respuesta espontáneamente.
Se hace necesario enseñarle a presionar la palanca. Este entrenamiento pasa
por varias fases. En primer lugar, es necesario que el animal sepa cuándo ha
obtenido el reforzador y dónde lo encontrará. Este entrenamiento se basa en
un condicionamiento clásico.
© FUOC • PID_00273424 15 Condicionamiento instrumental
Al igual que antes, veremos que la rata cada vez tiende a localizarse más cer-
ca de la palanca. Siguiendo con el modelado, podremos pasar a reforzar sólo
cuando el animal se ponga en pie justo delante de la palanca. Para acabar, po-
dremos reforzar sólo si la rata toca la palanca cuando se pone en pie o cuando
vuelve a la posición sobre las cuatro patas. Si todo ha procedido correctamente,
observaremos que el animal pasa bastante rato tocando la palanca y en algún
momento hará suficiente fuerza sobre la palanca para que ésta baje y accione
automáticamente el mecanismo que le entregará la comida. A partir de este
momento, detendremos nuestra intervención y dejaremos que el animal siga
manipulando la palanca por su cuenta.
La técnica del modelado se ha utilizado con éxito en muchos campos distintos Modelado en humanos
en los que se debían instaurar nuevos comportamientos tanto en humanos
En el caso de los humanos, el
como en otras especies de animales. Los adiestradores de animales enseñan modelado puede utilizarse pa-
a delfines, lobos marinos, perros, caballos y otro tipo de animales a realizar ra perfeccionar habilidades en
deportes, artes y como terapia
conductas sorprendentes tanto para espectáculos como para ayudar a personas en casos donde las personas
son incapaces de seguir ins-
con determinadas discapacidades. trucciones verbales.
© FUOC • PID_00273424 17 Condicionamiento instrumental
Hasta ahora nos hemos centrado en una situación muy concreta de condicio-
namiento instrumental: cuando la aparición de la respuesta iba seguida de la
obtención de unos estímulos agradables como la comida. No obstante, hay
muchas otras situaciones de condicionamiento instrumental.
1)�Reforzamiento�positivo
Cuando ponemos una moneda en una máquina y obtenemos el refresco que nos apetece,
cuando cobramos el sueldo a final de mes, cuando la pareja nos da un beso, cuando le
hacemos un regalo, todos son ejemplos de reforzamiento positivo.
2)�Castigo�positivo�o�simplemente�castigo
© FUOC • PID_00273424 18 Condicionamiento instrumental
Si ponemos los dedos en un enchufe, recibiremos una descarga eléctrica, si tocamos una
cafetera justo cuando acabamos de hacer el café, nos quemaremos, si el gato se afila las
uñas en el sofá, le gritamos.
3)�Reforzamiento�negativo
Una persona que tiene fobia a los perros puede salir corriendo si de sopetón se encuentra
de frente con un perro. Un conductor puede llevar el coche al mecánico para realizar una
revisión antes de un viaje largo para evitar una avería.
Si la persona con fobia a los perros pasea por una calle y oye ladrar a un perro, puede
cambiar de itinerario antes de encontrarse cara a cara con el animal y, en definitiva, está
evitando al animal. En el caso del conductor, podría haber experimentado en el pasado
una avería de su coche justo en medio de los Monegros de noche. El conocimiento que
tiene de realizar un viaje largo podría anticipar la posibilidad de una avería, y efectuar la
revisión del coche impediría o reduciría que se repitiera en el futuro.
4)�Castigo�negativo�o�entrenamiento�de�omisión
Un adolescente responde mal a uno de sus padres y éste le retira el teléfono móvil durante
una semana; la dirección de tráfico quita puntos del carné de conducir a un conductor
que ha sido pillado circulando a más de 140 km por hora.
© FUOC • PID_00273424 19 Condicionamiento instrumental
(2)
Ambos ejemplos muestran una contingencia negativa entre una conducta y un Este término refleja el hecho de
que el individuo recibe un estímulo
estímulo apetitivo. Si se produce la conducta, se retira un estímulo agradable
apetitivo periódicamente siempre
para la persona. La consecuencia de estas situaciones sobre la conducta es que que se dedique a realizar una con-
ducta diferente a la respuesta ins-
tenderá a desaparecer. Los procedimientos de entrenamiento de omisión tam- trumental especificada por el pro-
cedimiento.
bién reciben el nombre de reforzamiento�diferencial�de�otras�conductas2.
Tipo de consecuencia
Apetitiva Aversiva
En la tabla se muestran los cuatro procedimientos del condicionamiento instrumental en función de la correlación entre la res-
puesta y la consecuencia (entrada de las filas) y del tipo de consecuencia (entrada de las columnas)
© FUOC • PID_00273424 20 Condicionamiento instrumental
Imaginemos que hemos quedado con unos amigos y hemos decidido ir a tomar unos re-
frescos en un bar. En esta situación encontramos muchos estímulos presentes: los propios
amigos con los que hemos quedado, la decoración del bar, la época del año (si hace calor
o frío), la ropa que llevamos, la gente que nos rodea, la hora del día y muchos más. Ade-
más, a lo largo del encuentro podemos realizar varias conductas: podemos dar un trago al
refresco, hablar de una anécdota, de una noticia que ha aparecido en los diarios, rascar-
nos, sonreír, escuchar, contar un chiste, etc. Además, a lo largo de este flujo de conductas
podemos encontrar algunas que van seguidas de un estímulo reforzador, por ejemplo, si
explicamos un chiste y el resto de amigos ríen, y otras pueden no tener consecuencias,
por ejemplo, si cambiamos de postura las piernas probablemente no tendrá consecuen-
cias sobre nuestros amigos. Como resultado de estas disposiciones, habrá conductas que
se verán seleccionadas y otras no. Precisamente aquellas que van seguidas del reforzador
tendrán más probabilidad de repetirse que las que no van seguidas del reforzador. Si he-
mos contado un chiste y los amigos se han reído, es muy posible que nosotros mismos
u otros compañeros cuenten un segundo chiste, e incluso podemos estar unos minutos
haciendo gala de nuestro conocimiento de estas historietas cómicas.
Ahora estamos en el tanatorio para dar el pésame a un amigo nuestro por la muerte de
su padre. Es difícil pensar que en esta situación alguien pueda contar un chiste, pero en
cambio es mucho más probable que aparezcan comentarios sobre otras defunciones.
Las dos situaciones ilustran cómo los estímulos presentes en una situación
pueden controlar nuestra conducta.
(3)
Thorndike, en su ley del efecto3, consideraba que el estímulo discriminativo Recordemos que la ley del efec-
to explica la conducta instrumental
controlaba totalmente la conducta instrumental. Esta explicación lleva a la mediante las asociaciones E-R, es
concepción de la conducta instrumental como una reacción ante los estímulos decir, entre los estímulos discrimi-
nativos y las respuestas.
del entorno.
Así, si damos comida a una rata para presionar una palanca observaremos que la tasa de
la conducta incrementa y se mantiene en un determinado nivel. Pero si dejamos de dar
el reforzador, entonces el animal dejará de emitir la conducta. Si finalmente volvemos a
introducir el reforzador cada vez que la rata presiona la palanca, la conducta reaparecerá
de nuevo.
Estos datos indican que la conducta instrumental está controlada por sus con-
secuencias. Entonces, ¿cuál es el papel de los estímulos antecedentes?.
Experimento de Bechterev
(4)
Los primeros en publicar datos sobre la dificultad de entrenar determinadas El término Misbehavior podemos
traducirlo como mala conducta o
conductas siguiendo los principios del condicionamiento instrumental fueron
conducta errónea (en algunas tra-
los Breland (Breland y Breland, 1961) en su artículo titulado "The Misbehavior4 ducciones al castellano se utiliza el
término conducta�maladaptati-
of Organisms". Los Breland fueron estudiantes de Skinner y se dedicaron en su va).
vida profesional a entrenar animales de muy distintas especies para que reali-
zaran conductas complejas. Entrenaban a los animales para zoos, anuncios de
televisión y otras actuaciones públicas. Si bien tenían éxito con muchas de las
conductas que entrenaban, se encontraron con la dificultad o imposibilidad
de entrenar algunas de ellas en determinadas especies animales.
© FUOC • PID_00273424 24 Condicionamiento instrumental
Los mapaches pueden aprender varias conductas, como por ejemplo encestar una pelota. En cambio, resultó difícil
condicionarlos a introducir monedas en una hucha
¿Cómo es posible que unas respuestas que impiden la presentación del refor-
zador se mantuvieran con tanta fuerza? Los Breland se dieron cuenta de que
las conductas erróneas eran aquellas que los mapaches y los cerdos realizaban
normalmente como parte de su repertorio de conductas para la recolección de
comida. Ya que estas conductas parecían estar relacionadas con las respuestas
innatas de los sujetos, las denominaron derivas�instintivas:
Con una gran experiencia, la actuación de los sujetos se aleja de las res-
puestas reforzadas hacia las conductas instintivas que aparecen cuando
el animal está buscando el reforzador (en este caso, comida) en el medio
natural.
En su investigación reforzaron a unas palomas con comida para ejecutar una secuen-
cia de ocho picotazos a dos teclas de respuesta en una caja de condicionamiento. Para
uno de los grupos, el grupo de control, no se puso ninguna restricción en la secuencia
de las ocho respuestas. Esto es, cada vez que había picoteado ocho veces las teclas
con independencia de qué tecla picoteaba y en qué orden lo había hecho, recibía el
reforzador. Para el segundo grupo, el grupo experimental, se incluyó una restricción
para recibir el reforzador. De hecho, los animales del grupo experimental sólo reci-
bían comida si la secuencia de picotazos en las teclas de respuesta era diferente a las
secuencias de respuestas que el animal había realizado en los últimos 50 ensayos.
Entrenamiento de la
Estos resultados muestran claramente que si tomamos como respuesta creatividad
instrumental la variabilidad en la conducta, podemos reforzarla y pro-
El condicionamiento instru-
mover de esta manera que los organismos ejecuten respuestas diferen- mental puede ser útil para en-
trenar a las personas a ser crea-
tes cada vez. tivas, en el sentido de que bus-
quen soluciones nuevas a los
problemas conocidos.
Trabajando con humanos podemos reforzar una conducta indicando simplemente que
la respuesta ha sido correcta o castigar otra conducta informando de que es incorrecta.
Fuera del laboratorio podemos modular la conducta de otras personas elogiándolas o
criticándolas. Con animales de compañía como perros o gatos podemos pronunciar la
palabra NO para que los animales dejen de hacer alguna conducta (por ejemplo, entrar
en una habitación) o hablarle cariñosamente cuando el animal se nos acerca.
El primer punto nos lleva a buscar una definición de reforzador basada en sus
efectos y no en sus características físicas. Teniendo en cuenta eso,
Ejemplo
Podemos pensar que un caramelo es un poderoso reforzador para los niños, y probable-
mente así será para la mayoría, pero podemos encontrar a algún niño a quien no le gus-
ten los caramelos y, en consecuencia, la golosina no tendrá propiedades reforzadoras.
La definición de reforzador dada por los efectos sobre la conducta nos permite
una clasificación amplia que incluye tanto los estímulos biológicamente po-
tentes, como los estímulos no biológicamente potentes. Sin embargo, la defi-
nición es circular. Si damos comida contingente a picotear una tecla y obser-
vamos que la conducta incrementa o se mantiene, podemos afirmar que la
comida es un reforzador porque incrementa la conducta contingente, pero si
preguntamos qué hace que la comida provoque un incremento de la respuesta
contingente, responderemos que el motivo es que la comida es un reforzador.
Es decir, volvemos al punto de partida.
De esta manera, Premack parte del supuesto de que el patrón global de activi-
dad de un sujeto se puede analizar en función de sus actividades componentes.
Probablemente, cuando no hay ningún tipo de restricción, el sujeto distribuirá
el tiempo entre las diferentes actividades de una determinada manera y esta
distribución reflejará la preferencia del sujeto por cada una de las actividades.
Si el niño del ejemplo dedica más tiempo a ver la televisión que a leer, enton-
© FUOC • PID_00273424 28 Condicionamiento instrumental
Una consecuencia de este análisis es que cualquier conducta puede actuar co-
mo reforzador de otra conducta si se cumplen las condiciones mencionadas.
Si a una rata la ponemos en una caja donde hay disponible una rueda de ac-
tividad y agua, es posible que si el animal está saciado dedique más tiempo a
correr que a beber, pero un animal sediento dedicará más tiempo a beber que
a correr. Según Premack, en el primer caso correr podrá reforzar la conducta
de beber si restringimos el acceso a la rueda y lo hacemos contingente a la
respuesta de beber. En el segundo caso, beber puede reforzar la conducta de
correr si restringimos el acceso a agua y lo hacemos contingente a la conducta
de correr.
© FUOC • PID_00273424 29 Condicionamiento instrumental
En una primera fase del experimento presentó repetidamente a unas ratas un sonido
emparejado con comida. Durante esta fase del experimento los animales no tenían
que realizar ninguna conducta para obtener comida, por lo tanto, se trataba de un
procedimiento de condicionamiento clásico. En la segunda fase del experimento, se
dejó de presentar la comida y, a pesar de ello, los animales aprendieron a presionar la
palanca cuando esta conducta activaba el sonido. Evidentemente, ya que el sonido no
se volvió a emparejar con la comida durante la segunda fase, no nos debe sorprender
que la respuesta de presión de la palanca no persistiera durante demasiado tiempo.
Este aspecto es un paralelismo más con el condicionamiento de segundo orden.
El ejemplo del dinero que veíamos más arriba sirve para ilustrar qué es un re-
forzador generalizado. El dinero lo tenemos asociados con diferentes reforza-
dores primarios y de ahí que se convierta en un reforzador tan potente. Pero su
poder depende de que siga asociado con los reforzadores primarios tal como
demostraba el experimento de Skinner. Si el dinero dejara de ser útil para inter-
cambiarlo por reforzadores primarios, difícilmente encontraríamos a alguien
que trabajara para obtener un puñado de trozos de papeles de varios colores.
Por ejemplo, Hutt (1954) manipuló la cantidad y calidad del reforzador que unas ratas
obtenían por presionar una palanca. Diferentes grupos de ratas obtenían cantidades
pequeñas, medias o grandes de comida si llevaban a cabo la respuesta instrumental.
La comida consistía en una masa líquida de agua, leche y harina. Hutt manipuló
la calidad de la comida haciendo más agradable la masa básica añadiendo sacarina,
haciéndola desagradable con ácido cítrico o dejando la masa básica sin aditivos.
Los resultados encontrados por Hutt (1954) fueron que la tasa de respuesta
de presión de palanca incrementaba de manera directamente proporcional a
la cantidad y calidad del reforzador. Es decir, la tasa de respuesta era mayor
cuando proporcionaba más cantidad de reforzador. También la tasa de la res-
puesta era mayor cuando la calidad del reforzador mejoraba.
Imaginemos que un día que estamos en el trabajo nos llama el jefe para comunicarnos
que a partir del mes siguiente cobraremos un 50% más de sueldo por el mismo trabajo
y, efectivamente, a final de mes nos ingresan el dinero tal como nos habían prometido.
© FUOC • PID_00273424 31 Condicionamiento instrumental
¿Tendrá algún efecto sobre nuestro comportamiento en relación con las tareas que reali-
zábamos habitualmente (recordemos que en este caso hipotético no se nos pide nada a
cambio)? Es muy probable que, aparte de la alegría e incredulidad que nos puede provo-
car el inédito hecho, trabajemos con más entusiasmo, al menos, durante un tiempo.
Crespi (1942) entrenó a tres grupos de ratas a correr por un pasillo para obtener co-
mida. Durante una primera fase del experimento, cada grupo recibía una cantidad
diferente de reforzador cuando llegaba a la caja meta. Uno de los grupos recibía 4
bolitas de comida, otro grupo recibía 16 bolitas de comida y el tercer grupo recibía
64 bolitas de comida. Al final de este primer entrenamiento y, tal como era de espe-
rar, el grupo que recibía la cantidad más pequeña de reforzador era el que corría más
lentamente (aproximadamente, a 1,5 pies por segundo), mientras que el que recibía
la cantidad mayor era el que corría más deprisa (aproximadamente, a 3,5 pies por
segundo). El grupo que recibía una cantidad media mostró una velocidad de carre-
ra entre los otros dos grupos (aproximadamente, a 2,5 pies por segundo). Lo más
interesante fue la manipulación que llevó a cabo Crespi, en una segunda fase del
experimento: igualó la cantidad de bolitas de comida en los tres grupos de manera
que todos recibieron 16 bolitas de comida. Por lo tanto, había un grupo que pasó
de recibir 4 bolitas a recibir 16, otro grupo que pasó de recibir 64 a recibir 16 y un
tercer grupo, el grupo de control, que no experimentó ningún cambio en la cantidad
de reforzador. Podemos realizar una primera predicción del comportamiento de los
animales en esta segunda fase.
Flaherty y sus colegas han estudiado qué mecanismos pueden estar implica-
dos en los efectos de contraste. A pesar de estar lejos todavía de una respues-
ta suficientemente convincente, parece que los mecanismos de cada efecto
de contraste, positivo y negativo, están mediados por mecanismos diferentes
(Flaherty, 1996). El efecto de contraste negativo es más robusto que el de con-
traste positivo. Entre los diferentes mecanismos responsables del contraste ne-
gativo se ha propuesto que un cambio a una recompensa peor puede provocar
un estado de frustración (Amsel, 1992). Flaherty (1996) propone que el cam-
bio a una recompensa pequeña provocaría cambios cognitivos y de conducta.
Inicialmente, el hecho de encontrar una recompensa más pequeña de la espe-
rada activaría respuestas de investigación de mejores fuentes de alimentación.
Cuando estas conductas exploratorias no tienen éxito, entonces se producen
cambios emocionales de desencanto y la conducta se adapta a la nueva situa-
ción.
A lo largo del módulo estamos presentando situaciones en las que la conduc- Ejemplo
ta produce y está controlada por sus consecuencias. La conducta fluye en un
Aprendemos que manipulando
continuo y al mismo tiempo a nuestro alrededor se producen infinidad de es- un interruptor podemos en-
tímulos. Todo puede parecer caótico; no obstante, los procesos de aprendizaje cender o apagar una luz, pero
que salga o se ponga el sol no
nos permiten extraer qué regularidades se producen en nuestro entorno. Po- está bajo nuestro control.
También es cierto que las relaciones entre nuestra conducta y las consecuencias Ejemplo
no son siempre determinantes, como la manipulación del interruptor y la luz,
Si lanzamos una pelota a una
sino que son probabilísticas. canasta durante un partido
de baloncesto, sólo encestare-
mos un porcentaje de los lan-
El descubrimiento de todas las posibles relaciones entre acontecimientos y, en zamientos.
el caso que nos ocupa en este módulo, entre la conducta y sus consecuencias,
nos permite adaptarnos al entorno en función de nuestras necesidades. Nues-
tro objetivo ahora es analizar qué mecanismos permiten a los organismos de-
tectar las regularidades entre nuestro comportamiento y sus consecuencias.
© FUOC • PID_00273424 33 Condicionamiento instrumental
1)�Principio�de�la�contigüidad�temporal
Dickinson, Watt y Griffiths (1992) realizaron un experimento en el que las ratas de-
bían presionar la palanca para obtener una bolita de comida. La manipulación ex-
perimental consistía en introducir diferentes demoras entre la respuesta y el reforza-
dor. En cuatro grupos diferentes de animales se utilizaron demoras de 2, 4, 24 y 64
segundos. Así, en el caso del grupo con una demora de 2 segundos, la presión de pa-
lanca proporcionaba el reforzador 2 segundos después de que se hubiera producido
la respuesta y en el grupo con la demora de 64 segundos, el reforzador aparecía 64
segundos después de ejecutar cada presión de palanca. Se midió la tasa de presión de
palanca y se obtuvo que a medida que se incrementaba la demora, la tasa disminuía.
El grupo que tenía una demora de 2 segundos, presionaba la palanca con una tasa de
20 respuestas por minuto; el grupo con una demora de 4 segundos respondía 7 veces
por minuto; el grupo con 64 segundos de demora respondió sólo una vez por minuto.
En un trabajo, Reed (1999) entrenó a unos participantes a elegir una de dos teclas
de un teclado de ordenador, la A y la L. Pulsar la tecla A iba seguido el 75% de las
veces por el parpadeo de un triángulo dibujado en la pantalla, mientras que pulsar
la tecla L no provocaba nunca el parpadeo. En uno de los grupos (grupo inmediato),
el parpadeo se producía inmediatamente después de pulsar la tecla A. En cambio,
para otros dos grupos, el parpadeo del triángulo se producía 5 segundos después de la
respuesta. En uno de estos dos grupos con demora, entre el momento de la respuesta
y el reforzador no pasaba nada (grupo no señalado), mientras que para el otro grupo,
inmediatamente después de pulsar la tecla A, aparecían cuatro X próximas al trián-
gulo y desaparecían en el momento en el que se presentaba el parpadeo del triángulo
(grupo señalado). Finalmente, se pedía a los participantes que valoraran la relación
entre presionar cualquiera de las teclas, A y L, con la consecuencia. Todos los grupos
señalaron que la tecla L no tenía ninguna relación con el parpadeo del triángulo, pero
discreparon en la relación dada entre la tecla A y el parpadeo. El grupo inmediato fue
el que encontró una relación alta, en torno a 95 en una escala de 0 a 100. El grupo no
señalado encontró una relación baja, unos 30 puntos. Finalmente, el grupo señalado
puntuó ligeramente por encima de los 50 puntos.
Lieberman, McIntosh y Thomas (1979) fueron los primeros en describir este fenó-
meno. Utilizaron un aparato adaptado expresamente a los objetivos de su experimen-
to. El aparato consistía en una caja de salida que daba paso a la caja de elección. En la
pared del fondo de esta caja había dos pasadizos que corrían paralelos y que desem-
bocaban en una caja común de demora. Los dos pasadizos se distinguían por el color,
ya que uno era negro y el otro era blanco. Finalmente, la caja de demora daba paso
© FUOC • PID_00273424 35 Condicionamiento instrumental
Torres gemelas
Un paralelismo a los efectos del marcado sería el hecho de que muchas personas podemos
recordar perfectamente lo que hacíamos en el momento en el que nos enteramos de
los atentados contra las torres gemelas o contra los trenes de cercanías en Madrid. Estos
acontecimientos intensos permitieron registrar en nuestra memoria las conductas que
realizábamos en el momento de enterarnos de los atentados, por irrelevantes o rutinarias
que fueran.
Por ejemplo, Williams (1975) entrenó a unas palomas en una caja de condiciona-
miento para que picotearan una tecla de respuesta que se iluminaba durante 5 segun-
dos. Las respuestas de picotear la tecla se reforzaban con la presentación de comida 9
ó 10 segundos después de que se apagara la tecla iluminada. Esta demora del reforza-
miento no impidió el condicionamiento: los animales aprendieron a picotear la te-
cla iluminada. El experimento de Williams incluía un segundo grupo de palomas. El
tratamiento recibido fue idéntico, excepto en que al finalizar la demora y justo antes
de que se presentara la comida se iluminaba una segunda tecla de un color diferente.
Esta simple manipulación experimental dio como resultado un descenso dramático
en la respuesta instrumental de picotear la primera tecla. Los sujetos atribuyeron la
aparición de la comida al estímulo que lo precedía inmediatamente en lugar de ha-
cerlo a las respuestas dadas algunos segundos antes.
Ved también
Experimento de Pearce y Hall (1978)
Podéis ver el apartado 5.3,
En otro trabajo de Pearce y Hall (1978) se entrenó a unas ratas a presionar la palanca "Programas de intervalo", de
para obtener comida con un programa de intervalo variable (podéis ver el apartado este módulo didáctico.
siguiente sobre programas de reforzamiento; de momento sólo hay que enfatizar que
este programa de reforzamiento es intermitente y hace que no todas las respuestas
vayan seguidas de reforzador, es decir, la relación respuesta reforzador es imperfecta).
En uno de los grupos se presentó un predictor perfecto de la comida al disponer que
las presiones de palanca reforzadas también provocaran un estímulo externo, breve.
Este estímulo añadido no aparecía en ningún otro momento y, por lo tanto, estaba
perfectamente correlacionado con el reforzador interfiriendo significativamente con
el establecimiento de las presiones de palanca y, por lo tanto, presumiblemente con
el aprendizaje de la asociación entre la presión de palanca y el reforzador. En cam-
bio, en los grupos de control en los que o bien no aparecía este estímulo externo
o aparecía pero de manera no correlacionada con el reforzador, se observó un buen
condicionamiento de la respuesta de presión de palanca.
2)�Principio�de�la�contingencia
Los resultados fueron claros: cuando la única manera posible de obtener agua
era presionando la palanca la tasa de respuesta era alta, pero cuando el refor-
zador era igual de probable respondiendo o no, los animales dejaron de pre-
sionar la palanca. Los resultados demuestran que los animales eran sensibles
a las diferentes contingencias respuesta reforzador y su actuación estaba con-
trolada por estas contingencias.
En este caso, se pidió a los estudiantes que en cada ensayo pulsaran o no una tecla.
La tarea consistía en averiguar si pulsar la tecla tenía algún efecto sobre el encendido
de una luz blanca. Finalmente, los participantes debían estimar el grado de relación
entre la respuesta y la luz blanca en una escala de –100 a +100 (un valor negativo
indicaba que la respuesta evitaba que se encendiera la luz mientras que puntuaciones
positivas querían decir que la respuesta hacía encender la luz). Los experimentadores
variaron la contingencia entre respuesta y consecuencia que iba de –75 a +75.
5. Programas de reforzamiento
Prácticamente, todos los ejemplos que hemos visto hasta ahora estaban con-
trolados por un programa�de�reforzamiento�continuo. Esto significa que ca-
da vez que aparece la respuesta operante va seguida del reforzador.
Un jugador de baloncesto puede tirar a canasta varias veces durante un partido pero no
siempre obtendrá el resultado deseado, sino que encestará sólo un porcentaje de sus lan-
zamientos. Podemos llamar por teléfono, pero no siempre conseguimos contactar con la
persona deseada, ya que unas veces comunican y otras no responden. Si nos encontramos
en un semáforo que cambia de rojo a verde y el coche de delante no avanza, podemos
tocar el claxon y probablemente el conductor despistado se pondrá en marcha, pero si
nos encontramos en un atasco de tráfico por mucho que toquemos el claxon, los coches
no se pondrán en movimiento.
Una rata que está sometida a un programa de reforzamiento RF25 recibirá el reforzador
cada 25 respuestas, esto es, las primeras 24 respuestas no serán reforzadas y la que hace
25 recibirá al reforzador. Una vez ha recibido el reforzador, se vuelve a iniciar la razón.
En la parte superior se muestran las respuestas dadas a lo largo del tiempo y los reforzadores obtenidos. En este caso, el animal
recibe un reforzador cada 5 respuestas y se trata de un programa de razón fija 5 o RF5. En la parte inferior, el animal ha recibido
un reforzador después de 4, 7, 3 y 6 respuestas. En este caso, se trata de un programa de razón variable. Si calculamos la media
aritmética de las cuatro razones, obtendremos que el animal ha necesitado una media de 5 respuestas para cada reforzador, de
ahí que el programa sea de RV5.
Una persona que ha de vender un número determinado de productos para cobrar los
incentivos, teclear nueve dígitos para establecer una llamada telefónica, o subir los pel-
daños de la escalera hasta el primer piso.
En todos estos ejemplos, hay que dar un número fijo de respuestas antes de
alcanzar el reforzador.
Si completamos un puzzle de 1.000 piezas, es posible que dejemos pasar cierto tiempo
antes de comenzar a realizar el siguiente y que este tiempo será más largo si el siguiente
puzzle es de 3.000 piezas que si es de 1.000.
Si la pausa fuera determinada por el esfuerzo del puzzle que acabamos de ha-
cer, la pausa sería la misma independientemente del número de piezas del si-
guiente puzzle.
Si jugamos una partida de billar en la que hemos de introducir 8 bolas en los diferentes
agujeros, necesitaremos un número diferente de tiradas para introducir en cada uno de
los agujeros las bolas. Puede darse el caso de que a la primera tirada acertemos a intro-
ducir una bola en uno de los agujeros o puede ser que necesitemos varios golpes para
conseguirlo.
Si hemos necesitado 2, 5, 10, 6, 9, 1, 10 y 5 veces para introducir las 8 bolas que nos co-
rresponden, entonces habremos ejecutado nuestra conducta bajo un programa de RV6.
Tendremos en cuenta que el valor 6 de la RV es la media aritmética del número de res-
puestas requeridas por las 8 bolas.
© FUOC • PID_00273424 42 Condicionamiento instrumental
Más familiar puede ser el ejemplo de las máquinas tragaperras, en las que el jugador
debe realizar un conjunto de jugadas para recibir el reforzador pero nunca sabe cuántas
jugadas debe efectuar.
A diferencia de los programas de razón, en los que el único requisito para ob-
tener el reforzador es dar un cierto número de respuestas, en los programas
de�intervalo existe una segunda condición que implica que debe haber trans-
currido una determinada cantidad de tiempo desde el último reforzador para
que vuelva a estar disponible.
Si somos aficionados a las series televisivas, por ejemplo Dr. House, podemos ser reforza-
dos si encendemos el televisor y sintonizamos el canal adecuado en el día y la hora de
emisión. Ahora bien, una vez se ha acabado el capítulo de la semana, poner en marcha
el televisor y sintonizar el canal no producirá el reforzador. De hecho, será necesario que
transcurra una semana hasta que vuelva a estar disponible nuestra serie preferida.
Esquema
En la parte superior se muestran las respuestas dadas a lo largo del tiempo y los reforzadores obtenidos. En este caso,
el animal recibe un reforzador para la primera respuesta que ejecuta pasados 60 segundos desde la última respuesta
reforzada. Como el intervalo es constante, se trata de un programa de intervalo fijo 60 segundos o IF60seg. En
la parte inferior, el animal ha recibido un reforzador para la primera respuesta dada después de un intervalo de
45 segundos y de un intervalo de 75 segundos. En este caso se trata de un programa de intervalo variable. Si
calculamos la media aritmética de los dos intervalos, obtendremos un intervalo medio de 60 segundos, de ahí que el
programa sea de IV60seg.
Para ejemplificar este patrón de respuestas fuera del laboratorio, imaginemos que vamos
a la parada del autobús y justo cuando estamos llegando vemos que el autobús se marcha.
Supongamos que no llevamos ningún reloj pero sabemos que el autobús pasa cada 20
minutos, por lo tanto, mientras esperamos el próximo autobús nos sentamos en el banco
y empezamos a leer un libro. En esta situación la respuesta instrumental es mirar calle
abajo para ver si llega el próximo autobús. El reforzador para esta respuesta es simple-
mente ver llegar el autobús. Puede parecer un reforzador demasiado débil, pero una vez
vemos el autobús, nos podemos poner en pie y acercarnos a la vía para asegurarnos de
que el conductor nos ve y para. Al principio, la respuesta de mirar calle abajo para ver el
autobús puede no aparecer en absoluto, y podemos leer ininterrumpidamente durante 5
o 10 minutos antes de dar el primer vistazo a la calle. La próxima mirada a la calle puede
aparecer 2 o 3 minutos después, y a continuación podemos mirar cada minuto. Después
de 15 minutos de espera, podemos decidir dejar el libro y mirar de manera continuada
hasta que llegue el autobús.
© FUOC • PID_00273424 44 Condicionamiento instrumental
¿Por qué se produce este patrón festoneado de respuestas? El primer aspecto Lectura recomendada
importante del patrón de respuestas observado en los programas IF es que los
Para una revisión sobre la ha-
animales disponemos de algún mecanismo que nos permite medir el tiempo. bilidad de medir el tiempo:
Como los intervalos son fijos, los animales pueden aprender con suficiente J. Gibbon y R. M. Church
(1992). Comparison of va-
entrenamiento cuál es la duración del intervalo. Así, una vez un animal acaba riance and covariance pat-
de recibir el reforzador, la probabilidad de recibir un nuevo reforzador es cero terns in parallel and se-
rial theories of timing.
y, en consecuencia, no dará respuestas, pero a medida que va pasando el tiem- J.Exp.Anal.Behav. 1992 05; 57
po, la probabilidad de llegar al final del intervalo va incrementando y, por lo (3), 393-406.
Una situación que estaría bajo un programa similar al de intervalo variable es cuando
vamos a buscar setas. Si conocemos un rincón en el que salen níscalos, podemos ir un día
cualquiera y tomar todos los que encontramos. Cuándo volverán a estar disponibles más
setas no lo podemos saber. En ocasiones, al día siguiente ya pueden volverse a encontrar
setas, otras veces quizá no hemos encontrado setas hasta una semana después. Como es
imprevisible cuándo encontraremos los níscalos, es más probable que hagamos visitas
con bastante frecuencia.
En los programas de intervalo simples, una vez que el reforzador está dispo-
nible, se mantiene disponible hasta que se ejecuta la respuesta instrumental,
independientemente de cuándo se realice. Si una paloma está picoteando bajo
un programa IF2minutos, el reforzador estará disponible pasados dos minutos
desde la última vez que se obtuvo un reforzador. Si el animal responde justo en
el momento en el que se cumplen los dos minutos, recibirá el reforzador, pero
si se espera 20 minutos también será reforzado. Es decir, una vez el reforzador
está disponible, lo estará hasta que se dé la respuesta.
Este tipo de restricción con respecto a cuánto tiempo estará disponible el re-
forzador se denomina espera limitada y se puede aplicar tanto a los programas
de intervalo fijo como variable.
© FUOC • PID_00273424 45 Condicionamiento instrumental
En la gráfica se muestran registros acumulados hipotéticos generados por los cuatro programas de reforzamiento
simples. Se puede observar cómo los programas fijos (RF y IF) producen pausas postreforzamiento. Por otra parte,
los programas de razón (RF y RV) producen tasas de respuesta más elevadas que los programas de intervalo (IF y IV).
¿Por qué los programas de razón provocan tasas de respuesta más elevadas
que los programas de intervalo? Una primera respuesta es que debido a que
ganar reforzadores bajo un programa de razón depende exclusivamente de
© FUOC • PID_00273424 46 Condicionamiento instrumental
Es evidente que constantemente estamos eligiendo qué hacer. Desde las elec-
ciones más banales, como por ejemplo si miramos la televisión o si leemos una
revista, hasta elecciones más importantes como si establecemos una familia o
no. Cada alternativa que se nos presenta tiene unas consecuencias concretas
y, por lo tanto, es muy posible que estas consecuencias influyan en la elección
© FUOC • PID_00273424 47 Condicionamiento instrumental
final. Si analizamos los dos ejemplos que hemos puesto, veremos que las elec-
ciones que implican son diferentes en el sentido de que en el primer caso no
exige ningún compromiso y podemos ir cambiando de alternativa siempre que
queramos. Podemos poner la televisión y verla un rato y cuando nos parezca
podemos leer la revista y al revés. En cambio, la segunda elección implica un
compromiso, al menos por un determinado período de tiempo. Si decidimos
formar una familia con una pareja, no será muy común cambiar de pareja e ir
alternando con la primera siempre que nos apetezca. Estos dos tipos de elec-
ción se han estudiado en el laboratorio utilizando los procedimientos de pro-
grama�concurrente y programa�concurrente�encadenado, respectivamente.
RA / (RA + RB)
Si un animal responde por igual a las dos alternativas, la tasa relativa de res-
puesta en la tecla A será igual a 0,5. Si muestra más tendencia a responder a la
tecla A, entonces la tasa relativa de respuesta en la tecla A será mayor de 0,5,
mientras que si muestra más tendencia a responder a la tecla B, entonces el
valor de la tasa relativa de respuesta en la tecla A será menor de 0,5.
© FUOC • PID_00273424 48 Condicionamiento instrumental
Pero también podremos calcular otro parámetro que nos permitirá ver si la
distribución de respuestas está influida por el reforzamiento obtenido en cada
alternativa. Este parámetro es la tasa relativa de reforzamiento. Así, la tasa
relativa de reforzamiento en la tecla A, por ejemplo, se calcula dividiendo la
tasa de reforzamiento en la tecla A por la tasa de reforzamiento total (la tasa
en la tecla A más la tasa en la tecla B):
rA / (rA + rB)
Todo el mundo está más o menos familiarizado con el deporte del baloncesto y sus re-
glas. Un jugador puede elegir a lo largo del partido realizar lanzamientos desde dentro de
la zona, con los que se consiguen 2 puntos por canasta, o efectuar lanzamientos desde
fuera de la zona, con los que se consiguen tres puntos por canasta. Consideramos los
lanzamientos a canasta como la respuesta instrumental, el enceste como el reforzador y
los puntos obtenidos con cada uno de los dos tipos de enceste como la magnitud del re-
forzador. En la tabla se muestra la estadística de lanzamientos y encestes de dos jugadores
profesionales de baloncesto de la Peña durante la temporada 2007-2008.
Podemos calcular la tasa relativa de lanzamientos de tres puntos para cada uno de los
dos jugadores.
Podemos observar que la ley de la igualación se cumple en el primer jugador con respecto
a la magnitud del reforzador, mientras que para el segundo jugador, la ley se cumple
por la frecuencia del reforzamiento. Parece ser que para cada uno de los dos jugadores la
elección de los lanzamientos de 2 ó 3 puntos viene determinada por diferentes aspectos
del reforzador: en el primer jugador es la magnitud del reforzador la que controla su
elección del tipo de lanzamiento, mientras que para el segundo jugador es la frecuencia
de encestes de cada tipo de lanzamiento la que controla sus elecciones.
© FUOC • PID_00273424 50 Condicionamiento instrumental
• Los sesgos se observan cuando los sujetos tienen una clara preferencia por
una de las alternativas de respuesta, por ejemplo la palanca de la derecha.
En estos casos la preferencia por uno de los mecanismos de respuesta in-
terfiere en los parámetros de la recompensa y produce un sesgo con res-
pecto a lo que prevé la ley de la igualación.
s
RA / RB = k (rA / rB)
Donde RA, RB, rA y rB, son las respuestas y las frecuencias del reforzador
en los programas A y B, respectivamente; k es una constante que repre-
senta el sesgo de respuesta, y s es un exponente que regula la sensibilidad
del sujeto hacia los dos programas.
La idea central es que los animales alternan entre dos fuentes de refor-
zamiento con el fin de conseguir el máximo de reforzadores.
Hasta ahora hemos hablado de las tasas de respuesta en un sentido global, esto
es, los reforzadores obtenidos en una alternativa en toda la sesión. Si un animal
obtiene 50 reforzadores en la alternativa A en una sesión de una hora, la tasa
global es de 50 reforzadores por hora, pero si ha dedicado sólo 15 minutos
a esta alternativa, entonces podemos calcular la tasa local de reforzadores a
la alternativa A: 50 reforzador por 15 minutos o, lo que es lo mismo, 200
reforzadores por hora. Como la tasa local sólo tiene en cuenta el tiempo que
se ha dedicado a una de las alternativas, la tasa local siempre será más alta que
la tasa global.
por hora. Ahora se han igualado las dos tasas de reforzamiento locales y, por
lo tanto, ya no se puede mejorar la situación. Si calculamos la ley de la igua-
lación, obtendremos que la tasa relativa de respuestas en el programa IV30seg
es 40 minutos / 60 minutos = 0,67. De la misma manera podemos calcular la
tasa de reforzamiento relativa en el programa de IV30seg, 120 reforzadores /
(120 reforzadores + 60 reforzadores) = 0,67. Podemos observar, pues, cómo la
teoría de la mejora consigue predecir exactamente cómo se distribuirán las
respuestas entre los dos programas concurrentes.
El segundo tipo de elección que hemos introducido más arriba era aquella
que implicaba un compromiso. Si recibimos dos ofertas de trabajo, deberemos
decidirnos por una de ellas. La elección implica un compromiso porque una
vez realizada la elección nos dedicaremos, al menos un cierto tiempo, a la
elección elegida y renunciaremos a la alternativa. ¿Cómo se ha estudiado esta
situación en el laboratorio?
• Estamos en casa dispuestos a estudiar para el examen que tenemos dentro de 15 días
cuando los amigos telefonean y nos invitan a ir a la discoteca. ¿Qué haremos en esta
situación? Lo más probable es que vayamos a la discoteca.
• Queremos dejar de fumar. Sabemos que después de un tiempo sin fumar encontrare-
mos unas mejoras importantes por lo que respecta a la salud, no oleremos a humo,
no deberemos salir del lugar de trabajo cada dos por tres para fumar un cigarrillo,
etc. En cambio, después de 6 horas sin encender un cigarrillo empezamos a notar-
nos nerviosos, no nos concentramos en lo que hacemos, comemos más a menudo y
nuestro humor se ha vuelto agrio. Sabemos que si fumamos un cigarrillo todos estos
síntomas desaparecerán. ¿Qué haremos en esta situación? La respuesta más probable
será encender el cigarrillo.
En las dos encontramos dos opciones y hemos de decidir entre ellas. Cuando
elegimos una de las alternativas, perdemos la oportunidad de dedicarnos a la
otra, al menos un cierto tiempo. Pero además tenemos que una de las opciones
proporciona un reforzamiento grande pero demorado, mientras que la otra
opción proporciona un reforzamiento pequeño aunque inmediato. En efecto,
estudiar nos permite aprobar un examen que, a la larga nos proporciona un
© FUOC • PID_00273424 54 Condicionamiento instrumental
V = M / (1 + KD)
Ponemos monedas en una máquina expendedora de café para obtener la bebida, sin em-
bargo, si la máquina está estropeada y no nos proporciona el café, insistiremos pulsando
el botón hasta que nos convenzamos de que no habrá reforzador y dejamos de pulsarlo.
Aunque la teoría es sencilla, actualmente existe evidencia experimental a favor Ved también
de una teoría alternativa ligeramente diferente basada en el decremento de la
Podéis ver el subapartado 9.2,
generalización y propuesta por Capaldi (1966, 1967). La hipótesis�del�decre- "Gradientes de generaliza-
mento�en�la�generalización es el término utilizado para denominar el decre- ción", de este módulo didácti-
co.
mento en las respuestas que se observa en pruebas de generalización cuando
los estímulos de prueba son cada vez menos similares al estímulo de entrena-
miento.
Si reforzamos a una paloma por picotear una tecla iluminada de color amarillo, observa-
remos un decremento en la generalización (una frecuencia más baja de respuestas) si el
color de la tecla es azul durante la prueba de generalización.
En líneas generales, las ratas del experimento debían ejecutar una secuencia de tres res-
puestas para obtener un reforzador. De hecho, los animales podían pulsar cualquiera de
las dos palancas de respuesta y/o una tecla de respuesta. Cualquier combinación podía
ser reforzada durante el entrenamiento y se midió la variabilidad de la respuesta. Cuan-
do no había ninguna restricción sobre la variabilidad en la secuencia de tres respuestas,
se observó que los animales desarrollaban una preferencia por una secuencia concreta e
introducían pocos cambios. Cuando posteriormente se llevó a cabo la extinción, se ob-
servó que el descenso en la tasa de respuesta iba acompañado por un incremento en la
variabilidad de la respuesta. Las ratas de Neuringer y colaboradores probaban secuencias
diferentes de respuestas cuando las habituales dejaron de producir el reforzador.
Imaginemos una situación en la que un bebé llora durante la noche y los padres lo to-
man en brazos. La conducta de llorar se habrá visto reforzada por el hecho de que lo
paseen arriba y abajo del pasillo. Si queremos que el bebé deje de llorar por la noche,
deberemos instaurar un procedimiento de extinción que implicará no tomar al niño en
brazos cuando llora. Es muy posible que durante las primeras noches el bebé intensifique
y alargue el llanto debido a la frustración de no recibir el reforzador. También es posible
que el bebé dé patadas. Este comportamiento muestra los cambios en la respuesta de
llanto (duración e intensidad) y la conducta agresiva que genera la extinción. Si los pa-
dres resisten la tentación de tomar al niño en brazos, la respuesta de llanto desaparecerá.
En cambio, si los padres cometen el error de tomarlo en brazos algunas veces y otras no,
estarán instaurando un programa de reforzamiento parcial. La consecuencia será que la
extinción será más difícil si finalmente deciden no tomarlo más en brazos.
© FUOC • PID_00273424 60 Condicionamiento instrumental
7. Condicionamento aversivo
La mayoría de las situaciones que hemos visto hasta ahora se refieren al re-
forzamiento positivo, es decir, que la conducta provoca que se presente un
estímulo o situación agradables. No obstante, cuando hablábamos del proce-
dimientos de condicionamiento instrumental hemos definido dos situaciones
en las que estaban implicados estímulos o situaciones aversivas o desagrada-
bles. Si recordamos, estas situaciones eran el reforzamiento negativo, donde
la ejecución de la respuesta provocaba la finalización de un estímulo aversi-
vo o impedía su presentación, y el castigo, donde la conducta hacía aparecer
un estímulo aversivo. En este apartado veremos con detenimiento estas dos
situaciones.
Trabajaron con perros y el aparato era una caja de ida y vuelta (del inglés shuttle
box; podéis ver la figura siguiente). Este aparato consta de dos compartimentos se-
parados por una valla de unos centímetros de altura. Un animal puede desplazarse
de un compartimiento al otro saltando la valla. Cada compartimiento tiene el suelo
de metal, que se puede electrificar para dispensar estímulos aversivos (descargas eléc-
tricas). Finalmente, hay que indicar que en cada compartimiento hay una bombilla
que pueden iluminar los dos compartimentos independientemente. En cada sesión
experimental un perro recibía 10 ensayos en los que podía escapar o evitar una des-
carga si saltaba al otro compartimiento. Cada pocos minutos se apagaba la luz del
compartimiento donde se encontraba el animal, mientras que la luz del otro lado
se mantenía encendida. Si el perro se quedaba en el compartimiento a oscuras, des-
pués de 10 segundos el suelo se electrificaba y el animal recibía la descarga eléctrica,
que duraba hasta que el animal saltaba la barrera. De esta manera, el animal podía
escapar de la descarga. El perro también podía evitar la descarga si daba la respuesta
antes de que pasaran los 10 segundos desde que se apagaba la luz. En el siguiente
ensayo se procedía de la misma manera pero la respuesta consistía en volver al primer
compartimiento.
© FUOC • PID_00273424 61 Condicionamiento instrumental
El animal se ubica en uno de los compartimentos separados por la valla. En un momento determinado se
presenta un estímulo visual o auditivo de unos pocos segundos de duración y a continuación se electrifica
la reja del suelo del compartimiento donde se encuentra el animal, pero no la del compartimiento vacío.
Para escapar de la descarga, el animal ha de saltar la valla para pasar al compartimiento de seguridad. Con el
entrenamiento, el animal dará respuestas de evitación, ya que cambiará de compartimiento en el momento en
el que se presenta el estímulo discriminativo y antes de que se electrifique el suelo.
1)�Teoría�de�los�dos�factores
Uno de los primeros investigadores que intentó explicar por qué se mantiene
la conducta de evitación fue Mowrer (1947) con la teoría�de�los�dos�facto-
res. Los dos factores son el condicionamiento clásico y el condicionamiento
© FUOC • PID_00273424 62 Condicionamiento instrumental
Rescorla y LoLordo (1965) llevaron a cabo una serie experimental que daba
soporte a la teoría de los dos factores. Ya que la clave de la teoría se encuentra
en el papel del estímulo que predice clásicamente el EI, Rescorla y Lolordo
manipularon el significado de un EC emparejándolo con la descarga (condi-
cionamiento excitador) o con la ausencia de la descarga (condicionamiento
inhibidor). Los resultados mostraron que las presentaciones del EC excitador
en una situación de evitación incrementaban la intensidad de la respuesta ins-
trumental, mientras que si se presentaba el EC inhibidor atenuaba la respuesta
de evitación. Un EC inhibidor del miedo se denomina señal�de�seguridad, ya
que señala la ausencia de un aversivo (Weisman y Litner, 1969). La eficacia de
las señales de seguridad se ha demostrado en varias situaciones. Por ejemplo, si
se presenta un estímulo explícito cada vez que se acaba una descarga, entonces
el miedo de los animales a la situación experimental se ve atenuado (Mineka,
© FUOC • PID_00273424 63 Condicionamiento instrumental
2)�Teoría�de�un�factor
3)�Teoría�cognitiva
Una segunda alternativa a la teoría de los dos factores y, claro está, también a la
teoría de un factor, es la teoría�cognitiva que propusieron Seligman y Johnson
(1973). La teoría cognitiva se centró en el principio de la discrepancia entre
lo que sucede y lo que los organismos esperan que suceda. Esta perspectiva
sigue los postulados de la teoría de Rescorla y Wagner (1972) estudiada en el
módulo "Condicionamiento clásico pavloviano".
Reforzamiento negativo
Escape Evitación
7.2. Castigo
Si al llegar a la montaña bajamos del coche y rozamos sin darnos cuenta un puñado de
ortigas, probablemente dejaremos de tocarlas en el futuro. La urticaria que nos provoca la
planta es un estímulo aversivo lo suficientemente intenso como para inhibir la conducta
de tocarla con la piel descubierta.
Siguiendo nuestro paseo por los Pirineos, podemos ver cómo una manada de vacas pace
tranquilamente en un prado. Por más que buscamos, no encontramos al pastor ni al perro
pastor, sino a un alambre electrificado que rodea el campo. Hace años que los pastores
utilizan este método para mantener los rebaños controlados sin tener que estar presente
todas las horas del día.
Ved también
Experimento de Skinner (1938)
Sobre programa IV podéis ver
En un experimento clásico de Skinner (1938), se entrenó durante tres días a dos gru- el subapartado 5.3, "Progra-
pos de ratas con un programa IV para obtener comida si presionaban una palanca. mas de intervalo", de este mó-
Después del entrenamiento se introdujo un procedimiento de extinción durante dos dulo didáctico.
sesiones. La única diferencia entre los dos grupos fue que para uno de los grupos,
durante los diez primeros minutos de la primera sesión de extinción, cuando el ani-
mal presionaba la palanca, ésta saltaba hacia arriba golpeando las patas del animal.
Este ligero castigo fue suficiente como para reducir la conducta de manera notable
con respecto al grupo que recibía sólo extinción. Sin embargo, cuando desapareció
el castigo, la respuesta volvió a aparecer. A lo largo de la segunda sesión las tasas
de respuesta de los dos grupos fueron muy similares y se acabaron extinguiendo al
mismo ritmo.
Azrin (1960) llevó a cabo un experimento en el que después de entrenar a unas ratas
a presionar la palanca para obtener comida, introdujo el castigo de manera que cada
vez que presionaban la palanca recibían una descarga suave. Al principio la tasa de
respuesta disminuyó drásticamente, pero a lo largo de varias sesiones, la respuesta
se recuperó. Sin embargo, cuando la descarga era suficientemente intensa, el castigo
producía un descenso o la completa desaparición de la respuesta a largo plazo.
La descarga sólo reducía la respuesta de presión de palanca cuando era contingente a la respuesta, pero no
cuando no era contingente a la respuesta.
Supongamos que unos padres quieren eliminar la conducta destructiva de su hijo. Sospe-
chan de que la conducta destructiva del niño persigue la finalidad de captar la atención
de los padres. Entonces, la manera de devaluar el reforzador sería prestar atención al niño
en otros momentos diferentes a cuando se porta mal.
Azrin y Holz (1966) presentaron datos en los que una paloma que respondía bajo un
programa RF25 para obtener comida (podéis ver los programas de razón, subapartado
6.2 de este módulo) y fue castigada con una descarga leve redujo la tasa de respuesta
sólo en un 10%. En cambio, otra paloma que disponía de dos teclas de respuesta con
el mismo programa RF25 en cada una de ellas y que sólo se castigaba el hecho de
responder en una, pero no en la otra, dejó de responder completamente a la alterna-
tiva castigada.
• El último factor que veremos que afecta a la eficacia del castigo hace refe-
rencia al papel que desempeña el castigo como señal�del�reforzador.
© FUOC • PID_00273424 70 Condicionamiento instrumental
Holz y Azrin (1961) entrenaron a unas palomas a picotear una tecla de respuesta para
obtener la comida. La peculiaridad del procedimiento era que la comida sólo estaba
disponible cuando se castigaba la respuesta de picotear con una descarga, pero no
en otros momentos en los que no se castigaba la respuesta. De hecho, la descarga
llevaba a cabo el papel de un estímulo discriminativo que señalaba la disponibilidad
de la comida. No es de extrañar, pues, que las pobres palomas estuvieran dispuestas
a recibir descargas si era el único momento en el que podían comer.
Si se tienen en cuenta todos los factores que afectan a la eficacia del cas-
tigo para suprimir conductas, podemos concluir que el procedimiento
es tan eficaz como el reforzamiento para modificar el comportamiento.
• Un segundo aspecto que hay que tener en cuenta es que el castigo puede
suprimir�otras�conductas diferentes a la que se castiga.
Ésta no es sólo una cuestión de eficacia, sino ética. No obstante, hay muchas
situaciones en las que podemos aplicar el castigo considerándolas como nor-
males. Es evidente que los gobiernos pueden regular el funcionamiento de las
instituciones para erradicar el castigo de las instituciones como la policía, las
escuelas, las prisiones, etc., pero ya es más difícil controlar la utilización del
castigo en las interacciones interpersonales del día a día, como entre padres e
hijos, entre esposos, etc. Además, el mundo físico está lleno de situaciones en
las que podemos recibir un castigo. Sólo hay que pensar en las consecuencias
que puede tener un descuido mientras conducimos, trabajamos o practicamos
algún deporte. Dado que estas situaciones son inevitables, tiene sentido seguir
estudiando los efectos del castigo sobre nuestro comportamiento.
Hasta aquí hemos expuesto los efectos del procedimiento de castigo y los fac-
tores que influyen en su eficacia. Pero ¿cómo se explica que el castigo reduzca
la conducta?
Dinsmoor (1954, 1955, 1977) asumió que cualquier respuesta está constituida por
una cadena de otras conductas. Presionar una palanca empieza por acercarse al uten-
silio, levantar la pata, apoyarla encima de la palanca y realizar suficiente presión.
Cuando el último elemento de la cadena provoca el estímulo aversivo, los eslabones
previos de la cadena quedan asociados con el estímulo aversivo y sirven como se-
ñales clásicas para evocar miedo. De esta manera, iniciar la cadena puede activar el
miedo del animal y cualquier respuesta que interrumpa el miedo se verá reforzada.
Así, romper la cadena y dedicarse a otras conductas elimina el miedo y éstas se ven
reforzadas. En definitiva, los animales dejan de ejecutar la respuesta castigada porque
se refuerzan otras conductas incompatibles con la conducta castigada.
Por otra parte, los mecanismos que permiten descubrir las relaciones entre el
comportamiento y sus consecuencias es el centro de interés de la perspectiva
asociativa. Thorndike fue el primero en intentar explicar el comportamiento
instrumental para la formación de asociaciones. Actualmente, el interés por el
enfoque asociativo viene influenciado por los estudios en el campo del con-
dicionamiento clásico y toma una estrategia molecular.
Thorndike fue el primero que describió los elementos implicados en el condi- ''Abecé de la conducta''
cionamiento instrumental: la respuesta (R), la consecuencia o reforzador (C)
Skinner denominaba a esta es-
y los estímulos (E) en presencia de los cuales se produce la respuesta. tructura el abecé de la conduc-
ta: A de antecedentes (los es-
tímulos), B de behaviour (con-
Desde un punto de vista asociativo, la existencia de los tres elementos permite ducta en inglés) y C de conse-
cuentes.
pensar en la posibilidad de tres asociaciones diferentes como mínimo (podéis
ver la figura siguiente). Una asociación entre los estímulos y la respuesta (E-
R), una asociación entre la respuesta y la consecuencia (R-C) y una asociación
entre los estímulos y las consecuencias (E-C).
La flecha discontinua muestra la asociación E-R correspondiente a la ley del efecto formulada por Thorndike. Las flechas
continuas muestran las asociaciones entre el estímulo discriminativo y la consecuencia (asociación E-C) y la asociación entre
la respuesta y la consecuencia (asociación R-C). (Podéis ver el texto para una explicación detallada de cada una de estas
asociaciones).
Como hemos visto al principio del módulo, Thorndike formuló la ley� del
efecto para explicar el condicionamiento instrumental.
Según la ley del efecto, cuando se refuerza una conducta se forma una
asociación entre los estímulos presentes en el momento de ejecutar la
respuesta y la respuesta. El papel del reforzador es marginal en el sentido
de que no forma parte de la asociación.
Si pulsamos el botón del ascensor es porque esperamos que el ascensor venga al piso
donde nos encontramos, si introducimos unas monedas en la máquina expendedora de
refrescos es porque tenemos la expectativa del refresco.
Hull (1934, 1943, 1952) desarrolló uno de los sistemas teóricos sobre el apren-
dizaje más influyentes.
Esta teoría es uno de los primeros intentos desde una perspectiva asociativa
de diferenciar entre conducta y aprendizaje. Efectivamente, uno de los prin-
cipales problemas del enfoque conductista era la confusión entre aprendizaje
y conducta o, dicho de otra manera, la definición de aprendizaje como un
cambio en la conducta. La teoría de Hull, sin embargo, realiza esta diferencia-
ción y considera que sin hábito o sin motivación no habrá comportamiento.
Este aspecto de la teoría es relevante, ya que puede haber aprendizaje pero si
no hay un estado motivacional, no se verá reflejado en el comportamiento.
Lo mismo se puede decir en cuanto a la motivación. El hecho de aceptar dos
factores que no se pueden observar directamente hace necesaria la definición
esmerada de estas variables.
1)�Motivación
El primer concepto que hay que definir es la motivación. Según Hull, los
organismos tienen necesidades biológicas, como puede ser el hambre, la sed,
el sueño. Cualquiera de estas necesidades impulsará o motivará la conducta,
en principio no aprendida, que tiene por objetivo la reducción de la necesidad.
Por lo tanto, la motivación depende estrechamente del estado del organismo.
La comida no sería un reforzador por sí misma, sino el hecho de que al ingerirla se permite
eliminar o reducir la sensación de hambre.
Sin embargo, Hull acaba admitiendo que hay algunos aspectos de los estímu-
los reforzadores que pueden influir en la conducta. Por ejemplo, vemos que el
tamaño o la calidad del reforzador influía directamente en el comportamien-
to de los animales, de manera que estaban más dispuestos a trabajar por un
alimento dulce que por un alimento ácido. Pues bien, Hull incluye estas pro-
piedades motivacionales del reforzador con lo que denomina incentivo.
© FUOC • PID_00273424 76 Condicionamiento instrumental
2)�Aprendizaje
La definición que da Hull del aprendizaje sigue el modelo de la ley del efecto
de Thorndike, es decir, una asociación entre los estímulos presentes en el mo-
mento de la respuesta y ésta. Pero a diferencia de Thorndike, Hull incluye una
explicación del modo como actúa el reforzador en este proceso de aprendizaje:
la capacidad del reforzador para reducir un estado de necesidad es la clave para
formar las asociaciones E-R.
Las asociaciones E-R defienden que la conducta está controlada por los estímu-
los antecedentes, de manera que si se presenta un determinado estímulo, éste
activa la respuesta con la que está asociada. No obstante, Skinner se dio cuenta
de que los estímulos consecuentes también tienen control sobre el compor-
tamiento. Así, si una rata presiona la palanca y obtiene comida, mantendrá
su comportamiento, al menos mientras tenga hambre. Pero si en un segundo
momento se deja de presentar la comida, podremos observar que la conducta
© FUOC • PID_00273424 77 Condicionamiento instrumental
pueden anticipar qué consecuencia tiene cada una de sus acciones y, por lo tanto,
dan soporte a la formación de asociaciones R-C.
Pero volvamos un momento atrás, cuando decíamos que las pruebas de la for-
mación de asociaciones E-R sólo eran indirectas. Si nos fijamos en la condición
en la que se devalúa el reforzador, podemos apreciar que los animales no de-
jaron de responder totalmente. Este dato no es coherente si sólo se formaran
asociaciones R-C, ya que los animales están invirtiendo tiempo en una activi-
dad que los llevaría a un alimento nocivo. ¿Por qué se sigue respondiendo a
R1? La respuesta es que se han formado asociaciones E-R. Esto es, las caracterís-
ticas físicas de cada mecanismo de respuesta se han asociado con la respuesta
correspondiente, de manera que estas características físicas pueden provocar
la respuesta de los animales.
Asociaciones E-C
Experimento de Colwill y Rescorla (1988)
Las asociaciones E-C permiten
En una primera fase se entrenó a los animales a ejecutar la R1 para obtener la C1 en a los organismos anticipar la
presencia del E 1 y ejecutar R2 para obtener la C2 en presencia del E2. Al igual que disponibilidad de un reforza-
en el experimento que hemos descrito anteriormente, las respuestas, los estímulos dor.
y las consecuencias concretas se contrabalancearon de manera adecuada. De acuer-
do con la formación de asociaciones clásicas entre el estímulo discriminativo y las
consecuencias (E-C), entonces el procedimiento habría permitido asociaciones entre
el E 1 y la C1 y entre el E2 y la C2. Para poner a prueba estas asociaciones, Colwill y
Rescorla llevaron a cabo una segunda fase en la que los animales aprendieron dos
nuevas respuestas: la R3 que proporcionaba la C1, y la R4 que proporcionaba la C2.
Durante esta fase no se presentó ninguno de los dos estímulos discriminativos. Final-
mente, se llevó a cabo la fase de prueba, en la que se presentaban ensayos con el E1
y ensayos con el E2. En cada uno de estos ensayos los animales podían elegir entre
las respuestas R3 y R4.
Esta situación nos lleva a la necesidad de evaluar una nueva posibilidad: que el
estímulo discriminativo no sólo se asocie con cada uno de los otros elementos,
sino que evoque una representación de la relación que existe entre la respues-
ta y el reforzador (Jenkins, 1977). Este tipo de asociación más compleja que
la que relaciona dos elementos simples recibe el nombre de asociación�jerár-
quica. Esta estructura asociativa implicaría que un estímulo discriminativo no
provocaría la respuesta directamente por medio de la asociación E-R –que, co-
mo señala Mackintosh (1983), es factible cuando la respuesta instrumental se
ha convertido en un hábito–, ni se limitaría a activar una expectativa del re-
© FUOC • PID_00273424 80 Condicionamiento instrumental
forzador por medio de la asociación E-C, sino que aportaría información más
concreta sobre lo que debe hacer el animal para obtener el reforzador, es decir,
activaría la representación de la asociación R-C. En los últimos años se han
obtenido datos experimentales a favor de estas asociaciones jerárquicas (por
ejemplo, Rescorla, 1990); no obstante, la complejidad de los procedimientos
experimentales utilizados hace que su presentación quede fuera de los objeti-
vos de este módulo.
Si las ratas están privadas de comida, entonces comer será la conducta más frecuente y reforzará la conducta de
baja frecuencia correr. Si los animales no están privados de comida, entonces las ratas correrán más y reforzará la
conducta de comer.
Allison (1989, Timberlake y Allison, 1974) propuso que el factor crítico para
que una conducta refuerce a otra es la restricción de la conducta con indepen-
dencia de su frecuencia de aparición. A favor de esta hipótesis, Timberlake y
Allison (1974) encontraron que el acceso a una conducta de baja probabilidad
se podía utilizar como reforzador de otra conducta, con la única condición de
que los sujetos tuvieran la restricción de realizar esta conducta.
Imaginemos que el chico o la chica dedica de manera espontánea el 60% del tiempo entre
la finalización del instituto y la hora de cenar a ver la televisión y el 15% a estudiar (el
resto del tiempo los dedicará a otras actividades). Esta distribución constituiría el punto
de deleite de la conducta. Sin embargo, en el momento en el que se introduce una con-
tingencia respuesta-reforzador, se altera este punto de deleite o, lo que es lo mismo, el
punto de equilibrio.
Supongamos que establecemos una contingencia en la que por cada 15 minutos de es-
tudio puede ver la televisión durante 15 minutos. Es evidente que esta nueva situación
rompe el equilibrio de la distribución de las conductas y la consecuencia es que el adoles-
cente redistribuirá su conducta de manera que se acerque al máximo al punto de deleite.
Se entenderá mejor con una representación gráfica (podéis ver la figura siguiente). El
punto de deleite de la conducta se representa por el círculo blanco, mientras que la con-
tingencia establecida entre las dos conductas se representa con la línea negra. Cualquier
punto de esta línea cumpliría el requisito de la contingencia. ¿En qué punto se situará la
nueva distribución de las dos actividades? De acuerdo con la teoría, el adolescente busca-
rá el punto que lo acerque más al punto de deleite, es decir, el punto de la línea que se en-
cuentre más cerca del punto de deleite (Staddon, 1983). Supongamos que el adolescente
dispone de dos horas desde que llega a casa y la hora de cenar. En condiciones normales,
dedicaría 72 minutos a ver la televisión y 18 minutos a estudiar. Si quiere mantener el
máximo de dedicación a ver la televisión y de acuerdo con el programa establecido, lo
obligaría a dedicar 60 minutos a estudiar para poder ver 60 minutos de televisión. Lo
más probable es que el adolescente no esté dispuesto a pagar un "precio" tan alto. Otra
opción es que no estuviera dispuesto a estudiar más tiempo del que ya dedicaba, pero
en este caso pierde mucho con respecto a ver la televisión, ya que sólo le puede dedicar
18 minutos. Buscar el punto que mejor se ajuste al punto de deleite se convierte en la
motivación de la conducta. En el ejemplo que nos ocupa, una solución podría ser dedicar
37,5 minutos a cada conducta; de esta manera conseguiría distribuir las dos conductas
alejándose lo mínimo del equilibrio. La nueva distribución implica un incremento en el
tiempo de estudio y una reducción del tiempo dedicado a la televisión.
El punto blanco muestra el punto de deleite o la distribución óptima cuando no hay restricciones. La línea muestra
las diferentes posibilidades de combinar las dos conductas cuando se introduce un programa de reforzamiento en
el que se pide que el estudiante dedique la misma cantidad de estudio que de ver la tele. Como se puede observar,
ninguno de los puntos de la línea pasa por el punto de deleite. La consecuencia es que el estudiante deberá reajustar
los dos comportamientos de acuerdo con el punto de la recta que está más cerca del punto de deleite (el triángulo
negro).
Basadas�en�los�mecanismos Basadas�en�la�motivación
Resumen de las teorías sobre el condicionamiento instrumental. Hay que señalar que las teorías molares y moleculares no son
incompatibles, sino complementarias.
© FUOC • PID_00273424 84 Condicionamiento instrumental
9. Generalización y discriminación
En este experimento se entrenó a dos palomas a picotear una tecla iluminada de color
rojo con un triángulo blanco en el centro. El entrenamiento consistía en proporcio-
nar comida si las palomas picoteaban la tecla siempre que estuviera iluminada con
este dibujo, pero no recibían comida si la picoteaban cuando no estaba iluminada.
Los animales mostraron su aprendizaje limitando la respuesta a los momentos en los
que la tecla se iluminaba. Podemos afirmar que la iluminación de la tecla controlaba
la respuesta de picotear de las palomas. Más interesante, sin embargo, fue la prueba
que llevó a cabo Reynolds con las palomas una vez habían alcanzado el aprendiza-
je. La prueba consistía en presentar en algunos ensayos el disco iluminado de color
rojo sin el triángulo, y en otros ensayos presentaba el triángulo blanco pero sin el
fondo de color rojo. Durante la prueba, la respuesta de picotear la tecla no iba seguida
del reforzador. ¿Qué característica del estímulo original controlaría la respuesta? Rey-
nolds encontró que mientras una de las palomas respondía a la tecla de color rojo e
ignoraba el triángulo blanco, la segunda paloma respondía básicamente al triángulo
blanco e ignoraba la tecla de color rojo.
El ejemplo que acabamos de exponer nos ha servido para introducir los dos
conceptos que trataremos en este apartado y que hay que definir formalmente.
Los resultados mostraron que las palomas respondieron con la tasa de respuesta más
alta ante el estímulo de entrenamiento (580 nm de longitud de onda). También mos-
traron tasas de respuestas muy altas ante longitudes de onda similares (570 y 590
nm). Las tasas de respuesta fueron disminuyendo a medida que la longitud de onda
de los estímulos de prueba se alejaba del valor del estímulo original hasta que los
animales apenas respondían cuando las longitudes de onda eran de 520, 540, 620 y
640 nm. En otras palabras, los gradientes de generalización muestran cómo la gene-
ralización y la discriminación dependen del grado de similitud entre los estímulos.
Se puede observar que la frecuencia máxima de respuestas se produce en presencia del estímulo de
entrenamiento (580 nm). También se puede ver cómo los estímulos de prueba (570 y 590 nm) similares
al estímulo de entrenamiento provocan una tasa de respuesta muy alta, lo que indica un alto grado de
generalización. Finalmente, los estímulos de prueba alejados del estímulo de entrenamiento provocan tasas de
respuesta muy bajas, lo que indica una buena discriminación con respecto al estímulo de entrenamiento.
En la discriminación extradimensional, los sujetos deben discriminar entre rayas verticales y el color verde. La orientación de
las rayas y el color son dos dimensiones diferentes de los estímulos. En la discriminación intradimensional, los sujetos han de
discriminar entre dos valores (colores) dentro de la misma dimensión estimular.
Sin embargo, Kohler defendía que los animales podían manipular conceptos
abstractos para resolver problemas como el de discriminación entre las dos
tonalidades de gris. Según Kohler, los polluelos habrían aprendido a elegir el
más claro entre los dos grises. Hay que tener en cuenta que este aprendizaje
sería relacional, ya que los animales deben haber descubierto la relación entre
los dos grises y que esta relación era la relevante para resolver el problema.
Más concretamente, los animales habrían aprendido a acercarse al más claro
de los dos grises.
Durante la prueba, los polluelos eligieron preferentemente el gris más claro aunque había sido el gris más oscuro el reforzado
durante el entrenamiento de discriminación.
E+, y los otros grupos debían discriminar entre un E+ y un E–. Durante la fase de
prueba se presentaron luces de diferente longitud de onda que variaban entre 480
nm y 620 nm. El grupo de control mostró un gradiente de generalización normal,
es decir, con el máximo de respuestas en presencia del E+. En cambio, el grupo que
había discriminado entre las dos luces de 550 y 590 nm mostró el máximo de res-
puestas a la longitud de onda de 540 nm, aunque la tasa de respuestas al E+ era muy
similar. Sin embargo, el desplazamiento del vértice fue más espectacular en el grupo
que discriminó entre las longitudes de onda muy parecidas, 550 y 555 nm. En este
caso, las longitudes de onda que provocaron el máximo de respuestas fueron las de
540 y 530 nm, pero los animales prácticamente no respondieron en presencia del E
+. En la figura siguiente se puede ver cómo la línea con cuadrados negros dibuja un
gradiente de generalización normal, mientras que las líneas con cuadrados y trián-
gulos blancos tienen el máximo desplazado con respecto al E+ (550 nm) en dirección
opuesta a los respectivos E–.
Gráfica basada en los datos de Hanson (1959) en la que se puede ver el efecto del desplazamiento del máximo.
Por otra parte, la posición relacional tampoco puede explicar de manera clara
los datos de Hanson. En la discriminación con longitudes de onda de 550 y
555 nm los colores son verde-amarillo, y la longitud de onda de 550 nm es
más verdosa. Según el aprendizaje relacional, en la prueba los animales debe-
rían responder al más verde de los estímulos. Efectivamente, las longitudes de
onda de 540 y 530 nm son más verdosas que el E+ y hasta aquí los resultados
están de acuerdo con el aprendizaje relacional. El problema es que las longi-
tudes de onda comprendidas entre 500 y 520 nm son los verdes puros y en
el experimento de Hanson no provocaron la máxima tasa de respuesta, como
predice el aprendizaje relacional.
Spence (1936) elaboró una teoría absoluta que puede explicar de manera ele-
gante los fenómenos de la transposición y del desplazamiento del vértice.
El punto de partida es que los sujetos aprenden sólo sobre los estímulos
de manera individual y no aprenden nada con respecto a sus relaciones.
© FUOC • PID_00273424 91 Condicionamiento instrumental
Representación esquemática de los estímulos utilizados en el experimento de Honig et al. (1963). Podéis ver el texto
para una explicación del experimento.
Los animales del grupo en el que la línea vertical actuaba como E+ mostraron
el máximo de respuesta en presencia del E+ y, a medida que la inclinación
de la línea se alejaba de la verticalidad, las tasas de respuesta fueron menores.
Estos resultados son una demostración más del gradiente de generalización
excitador. Para nuestros intereses actuales, son más interesantes los resultados
del grupo en el que la línea vertical actuaba como E–. Los animales de este
grupo respondieron muy poco en presencia de la línea vertical, pero en el caso
en el que la línea aparecía inclinada con respecto a la vertical, los animales
respondían con tasas más elevadas. Cuando la línea aparecía horizontal (con-
diciones de prueba –90° y +90°), los animales mostraron las tasas de respuesta
más elevadas. Ésta es una clara evidencia de la existencia de los gradientes de
generalización inhibidores que necesitábamos para seguir exponiendo la teo-
ría de Spence.
Representación gráfica de los gradientes excitador e inhibidor en torno a los estímulos E+ y E–, respectivamente (líneas
punteadas). La línea continua representa la fuerza excitadora neta resultante de las fuerzas excitadoras e inhibidoras
Ambas teorías, relacional y absoluta, tienen sus puntos fuertes y sus puntos
débiles. Esto hace pensar que los animales pueden aprender tanto las caracte-
rísticas absolutas de los estímulos como las relaciones que existen entre los es-
tímulos que hay que discriminar. La cuestión es determinar en qué momentos
se impondrá una estrategia sobre la otra. De hecho, la teoría absoluta explica
mejor que la relacional el desplazamiento del vértice, donde la discriminación
original es secuencial. Por el contrario, la teoría relacional puede explicar me-
jor el problema del tamaño intermedio donde la discriminación inicial es si-
multánea.
© FUOC • PID_00273424 95 Condicionamiento instrumental
A pesar de que la solución planteada para hacer compatibles las teorías relacio-
nales y absolutas de la discriminación y la generalización es coherente, Tho-
mas (1993) ha planteado, a partir de su investigación con estudiantes univer-
sitarios, un modelo relacional que puede explicar el fenómeno del desplaza-
miento del máximo y efectos relacionados.
Supongamos que vemos un estímulo que nos llama la atención por su color,
pero si esta dimensión no es relevante para obtener el reforzador, dejaremos
de atender al color y atenderemos a otra dimensión, por ejemplo, la forma. Si
esta nueva dimensión es relevante para obtener el reforzador, entonces incre-
mentaremos la atención a dicha dimensión.
Esquema del diseño experimental de Mackintosh y Little (1969). El grupo G1 (grupo extradimensional) recibía
un cambio extradimensional entre las dos discriminaciones. El grupo G2 (grupo intradimensional) recibía un
cambio intradimensional entre las dos discriminaciones.
Gibson y Walk (1956) demostraron por primera vez que la mera exposición a
estímulos complejos como pueden ser triángulos y círculos es suficiente para
facilitar la discriminación entre los estímulos.
Gibson y Walk presentaron círculos y triángulos a unas ratas en sus jaulas desde que
nacieron hasta que cumplieron 90 días (edad en la que una rata ya es adulta). Los
animales aprendieron a discriminar entre estos estímulos con una cantidad signifi-
cativamente menor de errores que un grupo de control que no recibió la exposición
previa a los estímulos.
Gibson (1969) propuso que el hecho de que los sujetos pudieran inspeccionar
los estímulos antes del entrenamiento les permitía diferenciarlos, ya que po-
dían extraer las características diferenciadoras por medio de un proceso per-
ceptivo.
1)�Inhibición�latente�diferenciada�de�los�elementos�en�común
Como era de esperar, el grupo de control en el que los brazos diferían en el suelo y las
paredes, AX y BY, aprendieron la discriminación más rápidamente que el grupo de
control en el que las paredes de los brazos eran del mismo color, AX y BX, ya que el
elemento X quedaba asociado con la comida cuando los animales elegían el brazo AX.
El dato más interesante, sin embargo, lo proporcionaron los grupos expuestos pre-
viamente a los brazos. Concretamente, en los grupos en los que las paredes de los
brazos estaban pintadas de diferente color, la exposición retrasó la discriminación
con respecto al grupo de control correspondiente. Por el contrario, la exposición a
los brazos que tenían las paredes pintadas del mismo color facilitó la discriminación
entre los dos brazos.
tos únicos los que se asociaron con las respectivas consecuencias. En compa-
ración, en su grupo de control no expuesto, el elemento en común X quedó
asociado a la comida cuando las ratas eligieron el brazo AX. La presencia de
X en el brazo BX activaba la representación de la comida provocando que los
animales lo eligieran con una alta proporción, al menos durante el inicio del
entrenamiento.
Los dos tipos de presentación de los estímulos garantizan la misma cantidad de exposición a los dos estímulos
compuestos. La única diferencia es el orden en el que se presentan los compuestos.
2)�Conexiones�inhibidoras
Espinet, Iraola, Bennett y Mackintosh (1995) llevaron a cabo una exposición alterna-
da a dos compuestos gustativos, AX y BX. Después condicionaron uno de los com-
puestos, AX, con un malestar gastrointestinal y finalmente llevaron a cabo las prue-
bas propias para estudiar la inhibición condicionada (pruebas de retraso estudiadas
en el módulo del condicionamiento clásico). En la prueba de retraso, se emparejó el
compuesto BX con el EI y el condicionamiento se desarrolló más lentamente que un
grupo de control que había recibido una exposición alternada sólo a los elementos
únicos, A y B. La exposición de los elementos únicos en el grupo de control asegura-
ba la misma cantidad de exposición a A y a B y, por lo tanto, la misma cantidad de
inhibición latente, pero la ausencia del elemento común, X, impedía la formación de
conexiones inhibidoras entre A y B. Para la prueba de la suma utilizaron otro sabor,
Q, emparejado con el malestar gastrointestinal y durante la prueba presentaron el
compuesto QB. Si B inhibiera la representación del EI por medio de su asociación
inhibidora con A, debería contrarrestar la activación del malestar provocada por la
presencia de Q. En el grupo de control, el compuesto QB debería activar la represen-
tación del malestar con más fuerza, ya que B no puede inhibirla.
3)�Unitización
Este mecanismo propone que las conexiones entre los elementos úni-
cos de unos estímulos serán más fuertes que las conexiones entre los
elementos únicos y los elementos comunes.
© FUOC • PID_00273424 103 Condicionamiento instrumental
Artigas, Prados, Sansa, Blair y Hall (2006) han aportado datos a favor del me-
canismo propuesto por Hall.
En uno de sus experimentos utilizaron dos grupos de ratas a los que exponían a dos
estímulos compuestos con un elemento en común, AX y BX. En uno de los grupos la
exposición era alternada y en el otro grupo la exposición era por bloques. Una carac-
terística del experimento era que uno de los elementos únicos era el sabor salado. La
razón de utilizar este sabor es que el procedimiento utilizado consistía en provocar
una necesidad de sal y poder utilizar el sabor salado como un potente EI. De hecho,
después de la exposición, los dos grupos recibieron un compuesto formado por los
dos sabores únicos, AB. La idea es que si la exposición alternada produce conexiones
inhibidoras entre los elementos únicos, A y B, como proponen McLaren y colabora-
dores, entonces sería difícil formar una asociación entre los dos elementos únicos.
En cambio, siguiendo a Hall, si la exposición alternada mantiene alta la saliencia de
los elementos únicos, entonces se facilitaría la asociación entre los dos elementos
únicos, A y B. En los dos casos, el retraso o la facilitación sería con respecto al grupo
de control que recibió la exposición por bloques. Para poder medir la fuerza de la
asociación AB, estos investigadores provocaron una necesidad de sal el día previo a
la prueba y durante ésta presentaron el sabor único diferente a la sal.
Tabla�resumen�de�la�generalización�y�la�discriminación
Teorías del aprendizaje perceptivo • Conexiones inhibidoras (McLaren, Kaye y Mackintosh, 1989)
• Mantenimiento de la saliencia (Hall, 2003)
© FUOC • PID_00273424 106 Condicionamiento instrumental
Representación de las conductas que debían imitar los bebés en el experimento de Meltzoff y Moore (1977)
© FUOC • PID_00273424 108 Condicionamiento instrumental
Warden, Fjeld y Koch (1940) entrenaron a unos monos a estirar de una cadena para
obtener comida como reforzador. A continuación se puso a un mono sin entrena-
miento en una caja idéntica próxima a la caja del mono entrenado. Los investigado-
res pudieron constatar que el mono sin experiencia observaba el comportamiento del
que conocía la respuesta adecuada e inmediatamente lo imitaba. Probablemente, el
mono ingenuo hubiera aprendido la respuesta por ensayo y error, pero su aprendizaje
se vio acelerado por la observación de la conducta de su compañero adiestrado.
Imitación auténtica
Los resultados de este experimento son fácilmente previsibles. Después de unos po-
cos ensayos, los niños del grupo de imitación realizaban la misma elección que su
modelo, mientras que los niños del grupo de no imitación elegían la caja contraria
a la que había elegido el modelo.
Ahora bien, hay que ser prudentes a la hora de aceptar esta explicación del
aprendizaje por observación, ya que sólo es viable en situaciones en las que
el aprendiz observa el comportamiento del modelo, copia inmediatamente la
conducta y recibe reforzador por hacerlo. Muchas conductas aprendidas por
observación no muestran este patrón, como señaló Bandura (1969).
© FUOC • PID_00273424 111 Condicionamiento instrumental
Una niña pequeña ve cómo su madre le prepara un bol de leche con cereales. La madre
saca el bol de un armario y a continuación toma la bolsa de cereales de otro armario y
vierte una cantidad en el bol. A continuación abre la nevera y toma una botella de leche
y acaba de llenar el bol. Probablemente, la niña puede haber atendido toda esta cadena
de conductas pero no las ejecutará y, por lo tanto, no será reforzada. Sin embargo, al
día siguiente cuando la madre no está en la cocina, la niña se prepara ella sola el bol de
cereales con más o menos éxito.
Por ejemplo, en un experimento de Lashley (1924) se entrenó a unas ratas para ca-
minar por un laberinto cubierto ligeramente de agua para llegar a un punto en el que
había el reforzador. Cuando se inundó el laberinto de manera que el animal debía
nadar, las ratas no tuvieron ningún problema para llegar hasta el reforzador.
Por ejemplo, Baer, Peterson y Sherman (1967), reforzaron a algunos niños con retra-
so mental profundo para imitar varias conductas realizadas por el profesor (ponerse
derechos, asentir con la cabeza, abrir una puerta). Después del establecimiento de las
respuestas imitadas (lo que necesitó varias sesiones), el profesor realizaba ocasional-
mente conductas nuevas y los niños también las imitaron aunque nunca habían sido
reforzados antes para hacerlas.
© FUOC • PID_00273424 112 Condicionamiento instrumental
Pre- Conducta agresiva del Común a los tres grupos: Común a los tres grupos:
mio modelo → Reforza- los niños tenían acceso los niños fueron reforzados
miento a la muñeca con la que para imitar en el modelo
había actuado el modelo de manera individual.
Casti- Conducta agresiva del de manera individual.
go modelo → Castigo
Hasta ahora hemos visto dos factores importantes y evidentes que hacen más o
menos probable que un observador imite la conducta de un modelo: las con-
secuencias que tiene el comportamiento sobre el modelo y las consecuencias
sobre el observador. Los niños son más propensos a imitar las conductas de un
© FUOC • PID_00273424 114 Condicionamiento instrumental
modelo que ha sido reforzado. Los niños también tienen más probabilidad de
imitar a un modelo cuando han sido reforzados por su imitación. Ahora nos
centraremos en otros factores que se sabe que influyen en la imitación.
Los niños generalmente tienen más contacto con sus padres que con cualquier
otra persona, pero eso no quita que estén expuestos a muchos otros modelos
en potencia: los hermanos, los compañeros de clase, los profesores, los abue-
los, personalidades de la televisión, personajes de los dibujos animados, de-
portistas famosos, etc. Sin embargo, los niños no imitan por igual a todos estos
posibles modelos. ¿Qué hace que unos modelos sean más imitados que otros?
Una de las características que provoca que un modelo tenga más probabilidad
de ser imitado es su capacidad� de� reforzar� a� los� niños. En otras palabras,
las personas que proporcionan más reforzamiento, tanto afectivo como otras
formas de reforzadores, tienden a ser más imitadas.
A unos niños del jardín de infancia les presentaron a una mujer como la nueva pro-
fesora, mientras que para otros niños, la misma mujer fue presentada como una pro-
fesora visitante. La idea era que los niños vieran a la persona que sería su profesora
como una persona con más poder que si sólo era una visitante que no volverían a ver
en el futuro. La mujer pasó un rato jugando con cada grupo por separado. Posterior-
mente, y cuando no estaba la mujer presente, se dejó jugar a los niños libremente. Los
resultados mostraron más conducta de imitación en los niños que pensaban que la
mujer sería su nueva profesora que en los niños que la veían sólo como una visitante.
Otro foco de interés ha sido descubrir las diferencias individuales que corre-
lacionan con la tendencia de una persona a imitar el comportamiento de los
otros. Algunas de estas características pueden parecer obvias, pero otras no.
Por ejemplo, Bandura (1965) mostró que los niños tienden más a imitar con-
ductas agresivas que las niñas. Abramovitch y Grusec (1978) encontraron que
los niños pequeños (4 años) imitaban más que niños más mayores (9 años).
También descubrieron que los niños dominantes (a quienes imitan más) re-
sultaban mostrar más conducta imitativa.
Roberts, Boone y Wurtele (1982) trabajaron con niños en edad preescolar y les dieron
a hacer una tarea de discriminación. La mitad de los niños recibían retroalimentación
positiva y la otra mitad recibía retroalimentación negativa.
Los resultados mostraron más imitación de un modelo en los niños que habían
recibido la retroalimentación negativa.
© FUOC • PID_00273424 116 Condicionamiento instrumental
En la misma línea, Jakubczak y Walters (1959) encontraron que los niños que
mostraban independencia al resolver un problema (esto es, que no aceptaban
la ayuda a pesar de que tuvieran dificultades para resolver los problemas) eran
menos propensos a imitar a un modelo que los niños que eran altamente de-
pendientes (que aceptaban ayuda incluso cuando no la necesitaban).
Se ha encontrado que miembros de la misma familia muestran las mismas fobias, o que
algunos aviadores de la Segunda Guerra Mundial desarrollaban fobias después de ver el
miedo de algunos de sus compañeros durante o después de las misiones.
Por otra parte, se dispone de datos que sugieren que la teoría del aprendizaje
social o por observación puede explicar la adquisición de conductas�de�adic-
ción al tabaco, al alcohol y a las drogas. Ya hemos visto cómo los principios de
reforzamiento y castigo pueden explicar el mantenimiento de la conducta de
adicción (podéis ver la teoría de Solomon y Corbit) una vez ya se ha desarro-
llado. Sin embargo, la adquisición de estos comportamientos se puede explicar
mediante el aprendizaje por observación.
El primer cigarrillo que fuma una persona es una experiencia aversiva, entonces, ¿cómo
es posible que la persona vuelva a fumar? De muy pequeños muchos niños han sido ex-
puestos a personas que fumaban: los propios padres, hermanos mayores, personalidades
de la televisión y cine, etc. La consecuencia de fumar parece tener algún aspecto posi-
tivo. Algunas personas han manifestado que empezaron a fumar porque los hacía más
maduros, sofisticados o atractivos. Podría ser que estas "ventajas" tuvieran más fuerza que
la experiencia aversiva de fumar. De esta manera, las personas imitarían la conducta de
fumar, ya que los modelos son bien percibidos.
Estas ideas fueron expuestas por Kozlowski (1979). Actualmente, sin embar-
go, la conducta de fumar empieza a ser mal valorada por una gran parte de
la sociedad y los gobiernos de muchos países han empezado a restringir seve-
ramente la conducta de fumar. Si el fumador se muestra como una persona
que recibe más castigos que refuerzos, se espera –de acuerdo con la teoría del
aprendizaje por observación– que el número de jóvenes que inician el hábito
se vea significativamente reducido.
También parece que la teoría del aprendizaje por observación puede explicar
el desarrollo del alcoholismo. O'Leary, O'Leary y Donovan (1976) observaron
que había una tendencia a que los padres de las personas alcohólicas se ubica-
ran en una de dos categorías: o bien eran mayores consumidores o bien todo
lo contrario, abstemios muy rígidos. La idea de O'Leary y colaboradores era
que en ambos casos los padres eran malos modelos para un consumo mode-
rado de alcohol. Si los padres son grandes bebedores, los hijos pueden imitar
este comportamiento. Si los padres son abstemios, entonces los hijos también
pueden imitar este comportamiento. Pero imaginemos que el hijo de unos
padres totalmente abstemios decide empezar a beber. Los padres no habrán
mostrado nunca al hijo los hábitos que previenen de caer en el alcoholismo
(tal como beber sólo en ocasiones especiales, no beber nunca antes del traba-
jo, o dejar de consumir alcohol después de una o dos bebidas). A no ser que
los hijos hayan aprendido estas guías en otro entorno, pueden progresar de
manera inadvertida hacia el consumo patológico de alcohol.
© FUOC • PID_00273424 118 Condicionamiento instrumental
Piaget (1926, 1929) sugirió que a medida que los niños crecen van pasando por
diferentes etapas de desarrollo cognitivo, y que pasar de una etapa a otra de-
pende del crecimiento, de la madurez y de la experiencia personal. Los teóri-
cos del aprendizaje social (por ejemplo, Rosenthal y Zimmerman, 1972, 1978)
defienden que el aprendizaje por observación es el principal mecanismo para
el desarrollo de las habilidades cognitivas.
Posteriormente a la observación del modelo, los dos grupos tuvieron que re-
solver varios problemas relacionados con la conservación de los volúmenes.
Los resultados mostraron que los niños de los dos grupos mejoraron en la rea-
lización de la tarea, y los que recibían una explicación mostraron una mejora
mayor.
© FUOC • PID_00273424 119 Condicionamiento instrumental
Una crítica a estos resultados es que los niños podían aprender a cambiar su Aprendizaje por
respuesta, pero sin entender el porqué (Kuhn, 1974). No obstante, existe evi- observación
dencia de que los niños pueden resolver problemas diferentes a los que han También se ha visto que el
visto resolver en los modelos. Por ejemplo, Rosenthal y Zimmerman observa- aprendizaje por observación
mejora la ejecución en otros ti-
ron que los niños eran capaces de resolver un problema de conservación del pos de tareas cognitivas como
la adquisición de reglas grama-
número que implica la comprensión de que el número de objetos en una línea ticales, conceptos abstractos y
solución de problemas (Rivera
no varía si la línea se hace más larga espaciando más los objetos. Los niños y Smith, 1987; Zimmerman y
eran capaces de resolver correctamente esta nueva tarea después de haber visto Blom, 1983).
Ejercicios de autoevaluación
Preguntas�de�alternativas�múltiples
a) reduce el impulso.
b) produce miedo.
c) reduce el nivel de dolor.
d) aumenta la probabilidad de ejecución de una respuesta.
4. En el procedimiento de REC, necesitamos que los animales muestren una tasa de respuesta
en la tarea instrumental alta y estable. ¿Cuál de los siguientes programas básicos de refuerzo
garantiza una tasa de respuesta alta y estable?
a) Intervalo fijo.
b) Razón variable.
c) Razón fija.
d) Intervalo variable.
5. Retirar el permiso de conducir a alguien por conducir bajo los efectos del alcohol es un
ejemplo de...
a) castigo.
b) entrenamiento de recompensa.
c) entrenamiento de evitación.
d) entrenamiento de omisión.
a) el reforzamiento se le presenta al sujeto por la primera respuesta que realiza después de
transcurrida una cantidad fija de tiempo desde el último reforzamiento.
b) el sujeto es recompensado por cada ''n'' respuestas (previamente fijadas).
c) el sujeto es recompensado por cada ''n'' respuestas, pero el número de respuestas requerido
para la presentación del refuerzo varía aleatoriamente.
d) la recompensa está disponible después de transcurrido un tiempo determinado, cuya du-
ración varía aleatoriamente.
11. Según se puede observar en el gráfico, ¿qué programa de reforzamiento puede estar re-
flejando?
a) RF10.
b) IF2''.
c) RV10.
d) Ninguno de los tres.
14. Como podemos observar en la figura, tenemos una gallina sometida a dos programas
concurrentes de refuerzo. Según la ley de la igualación, ¿cuál sería la distribución de respues-
tas esperada en las dos teclas?
15. ¿Qué supone para la teoría de Spence del aprendizaje discriminativo el hecho de que
puedan presentarse gradientes de excitación y de inhibición en torno al E+ y en torno al E–?
Solucionario
Ejercicios de autoevaluación
1.�d
2.�c
3.�a
4.�b
5.�d
6.�d
7.�c
8.�b
9.�d
10.�b
11.�a
12.�c
13.�c
14.�a
15.�b
16.�c
17.�d
© FUOC • PID_00273424 126 Condicionamiento instrumental
Glosario
aprendizaje relacional m Concepción según la cual la discriminación entre dos estímu-
los se basa en una relación entre ellos.
desplazamiento del máximo (o del vértice) m Desplazamiento del máximo del gra-
diente de generalización respecto al E+ y en dirección opuesta al E–.
efecto del reforzamiento parcial m Dificultad de extinguir una respuesta que ha sido
reforzada parcialmente.
hipótesis del marcado f Teoría de la facilitación del aprendizaje según la cual la presen-
tación de una clave después de una respuesta de elección marca esta respuesta en la memoria
del animal.
En relación con las teorías sobre el condicionamiento hay que tener conoci-
miento de las diferentes asociaciones que se producen entre los estímulos dis-
criminativos, las respuestas y las consecuencias. También es útil saber las teo-
rías sobre la regulación de la conducta.
Bibliografía
Bibliografía recomendada
Alloway, T., Wilson, G., y Graham, J. Sniffy (2006). La rata virtual. Madrid: Thompson.
Dickinson, A. (1984). Teorías actuales del aprendizaje animal. (Original inglés de 1980). Madrid:
Editorial Debate.
Referencias bibliográficas
Abramovitch, R. y Grusec, J. E. (1978). Peer imitation in a natural setting. Child Dev., 03;
49 (1), 60-65.
Alloway, T., Wilson, G., y Graham, J. Sniffy (2006). La rata virtual. Madrid: Thompson.
Amsel, A. (1992). Frustration theory: An analysis of dispositional learning and memory. Nueva
York, NY, US: Cambridge University Press.
Artigas, A. A., Sansa, J., Blair, C. A. J., Hall, G., y Prados, J. (2006). Enhanced discrimination
between flavor stimuli: Roles of salience modulation and inhibition. J. Exp. Psychol.: Anim.
Behav. Processes, 04; 32 (2), 173-177.
Artigas, A. A., Sansa, J., y Prados, J. (2006). The espinet and the perceptual learning effects
in flavour aversion conditioning: do they depend on a common inhibitory mechanism? The
Quarterly Journal of Experimental Psychology, 59: 471-481.
Azrin, N. H., Holz, W. C., y Hake, D. F. (1963). Fixed-ratio punishment. J. Exp. Anal. Behav.,
6 (2), 141-148.
Azrin, N. H. (1956). Some effects of two intermittent schedules of immediate and non-
immediate punishment. Journal of Psychology: Interdisciplinary and Applied, 42: 3-21.
Baer, D. M., Peterson, R. F., y Sherman, J. A. (1967). The Development of Imitation by Rein-
forcing Behavioral Similarity to a Model. J. Exp. Anal. Behav., 10 (5), 405-416.
© FUOC • PID_00273424 130 Condicionamiento instrumental
Balaban, M. T., Rhodes, D. L., y Neuringer, A. (1990). Orienting and defense responses to
punishment: Effects on learning. Biol.Psychol., 06; 30 (3), 203-217.
Baldwin, J. M. (1906). Mental development, methods, and processes. Nueva York: Macmillian.
Bandura, A. (1986). Social foundations of thought and action: A social cognitive theory. Englewood
Cliffs, NJ, US: Prentice-Hall, Inc.
Bandura, A. (1969). Principles of behavior modification. Oxford, England: Holt, Rinehart, &
Winston.
Bandura, A. (1962). Social learning through imitation. En M. R. Jones (Ed.), Nebraska Sym-
posium on Motivation. Oxford, England: Univer. Nebraska Press, 211-274.
Bandura, A. y Walters, R. H. (1963). Social learning and personality development. Holt Rinehart
and Winston: Nueva York.
Baum, W. M. (1974). On two types of deviation from the matching law: Bias and undermat-
ching. J. Exp. Anal. Behav., 07; 22 (1), 231-242.
Breland, K. y Breland, M. (1961). The misbehavior of organisms. Am. Psychol., 11; 16 (11),
681-684.
Burnstein, E., Stotland, E., y Zander, A. (1961). Similarity to a model and self-evaluation.
The Journal of Abnormal and Social Psychology, 03; 62 (2), 257-264.
Crespi, L. P. (1942). Quantitative variation of incentive and performance in the white rat.
Am. J. Psychol., 55: 467-517.
Dickinson, A., Watt, A., Griffiths, W. J. (1992). Free-operant acquisition with delayed rein-
forcement. The Quarterly Journal of Experimental Psychology B: Comparative and Physiological
Psychology, 10; 45 (3), 241-258.
Dinsmoor, J. A. (1954). Punishment: I. The avoidance hypothesis. Psychol. Rev., 01; 61 (1),
34-46.
Espinet, A., Iraola, J. A., Bennett, C. H., y Mackintosh, N. J. (1995). Inhibitory association
between neutral stimuli in flavor- aversion conditioning. Anim. Learn. Behav., 11; 23 (4),
361-368.
Fisher, J. y Hinde, C. A. (1947). The opening of milk bottles by birds. British Birds, 42: 347-357.
Flaherty, C. F. (1996). Incentive relativity. Nueva York, NY, US: Cambridge University Press.
Gibson, E. J. (1969). Principles of perceptual learning and development. East Norwalk, CT, US:
Appleton-Century-Crofts.
Gulliksen, H. (1932). Studies of transfer of response: I. Relative versus absolute factors in the
discrimination of size by the white rat. Journal of Genetic Psychology, 40: 37-51.
Hammond, L. J. (1980). The effect of contingency upon the appetitive conditioning of free-
operant behavior. J. Exp. Anal. Behav., 11; 34 (3), 297-304.
Harnick, F. S. (1978). The relationship between ability level and task difficulty in producing
imitation in infants. Child Dev., 03; 49 (1), 209-212.
Herrnstein, R. J. (1969). Method and theory in the study of avoidance. Psychol. Rev., 01; 76
(1), 49-69.
Honig, W. K., Boneau, C. A., Burstein, K. R. y Pennypacker, H. S. (1963). Positive and nega-
tive generalization gradients obtained after equivalent training conditions. J. Comp. Physiol.
Psychol., 02; 56 (1), 111-116.
© FUOC • PID_00273424 132 Condicionamiento instrumental
Hull, C. L. (1952). A behavior system: an introduction to behavior theory concerning the individual
organism. New Haven, CT, US: Yale University Press.
Hull, C. L. (1934). Learning: II. The factor of the conditioned reflex. A Handbook of General Expe-
rimental Psychology. Worcester, MA, US: Clark University Press, 382-455.
Hutt, P. J. (1954). Rate of bar pressing as a function of quality and quantity of food reward.
J. Comp. Physiol. Psychol., 06; 47 (3), 235-239.
James, W. (1890). Association. En W. James (Ed.), The principles of psychology, Vol I. Nueva
York, NY, US: Henry Holt and Co., 550-604.
Kawai, M. (1965). Newly acquired pre-cultural behavior of the natural troop of Japanese
monkeys on Koshima islet. Primates, 6: 1-30.
Klass, E. T. (1979). Relative influence of sincere, insincere, and neutral symbolic models. J.
Exp. Child Psychol., 02; 27 (1), 48-59.
Köhler, W. (1939). Simple structural function in the chimpanzee and the chicken. En W. D.
Ellis (Ed.), A source book of gestalt psychology. Nueva York: Harcourt Brace.
Lashley, K. S. (1924). Studies of the cerebral functionin learning: V. The retention of motor
habits after destruction of so-called motor areas in primates. Archives of Neurology and Psy-
chiatry, 12: 249-276.
Lashley, K. S. y Wade, M. (1946). The Pavlovian theory of generalization. Psychol. Rev., 03;
53 (2), 72-87.
Lieberman, D. A., McIntosh, D. C., y Thomas, G. V. (1979). Learning when reward is delayed:
A marking hypothesis. J. Exp. Psychol.: Anim. Behav. Processes, 07; 5 (3), 224-242.
McDougall, W. (1908). An Introduction to Social Psychology. Nueva York, NY, US: Methuen.
McLaren, I. P. L., Kaye, H., y Mackintosh, N. J. (1989). An associative theory of the repre-
sentation of stimuli: Applications to perceptual learning and latent inhibition. En R. G. M.
Morris (Ed.), Parallel distributed processing: Implications for psychology and neurobiology. Nueva
York, NY, US: Clarendon Press/Oxford University Press, 102-130.
Meltzoff, A. N. y Moore, M. K. (1983). Newborn infants imitate adult facial gestures. Child
Dev., 06; 54 (3), 702-709.
Miller, N. E. y Dollard, J. (1941). Social learning and imitation. New Haven, CT, US: Yale Uni-
versity Press.
Mineka, S., Cook, M., y Miller, S. (1984). Fear conditioned with escapable and inescapa-
ble shock: Effects of a feedback stimulus. J. Exp. Psychol.: Anim. Behav. Processes, 07; 10 (3),
307-323.
Neuringer, A., Kornell, N., y Olufs, M. (2001). Stability and variability in extinction. J. Exp.
Psychol.: Anim. Behav. Processes, 01; 27 (1), 79-94.
Nevin, J. A. (1988). Behavioral momentum and the partial reinforcement effect. Psychol.
Bull., 01; 103 (1), 44-56.
O'Leary, D. E., O'Leary, M. R., y Donovan, D. M. (1976). Social skill acquisition and psycho-
social development of alcoholics: A review. Addict. Behav., 1 (2), 111-120.
Page, S. y Neuringer. A. (1985). Variability is an operant. J. Exp. Psychol.: Anim. Behav. Pro-
cesses, 07; 11 (3), 429-452.
Piaget, J. (1932). The moral judgment of the child. Oxford, England: Harcourt, Brace.
Piaget, J. (1929). The child's conception of the world. Oxford, England: Harcourt, Brace.
Piaget, J. (1926). The language and thought of the child. Oxford, England: Harcourt, Brace.
Premack, D. (1959). Toward empirical behavior laws: I. Positive reinforcement. Psychol. Rev.,
07; 66 (4), 219-233.
Rachlin, H. y Green, L. (1972). Commitment, choice and self-control. J. Exp. Anal. Behav.,
01; 17 (1), 15-22.
Raia, C. P., Shillingford, S. W., Miller, H. L. J., y Baier, P. S. (2000). Interaction of procedural
factors in human performance on yoked schedules. J. Exp. Anal. Behav., 11; 74 (3), 265-281.
Rescorla, R. A. (1990). Evidence for an association between the discriminative stimulus and
the response-outcome association in instrumental learning. J. Exp. Psychol.: Anim. Behav. Pro-
cesses, 10; 16 (4), 326-334.
Rescorla, R. A. (1968). Probability of Shock in the Presence and Absence of Cs in Fear Con-
ditioning. J. Comp. Physiol. Psychol., 08; 66 (1), 1-5.
Rescorla, R. A. (1967). Pavlovian Conditioning and its Proper Control Procedures. Psychol.
Rev., 01; 74 (1), 71-80.
Reynolds, G. S. (1975). A primer of operant conditioning. (Rev ed). Oxford, England: Scott,
Foresman.
Robert, M. (1990). Observational learning in fish, birds, and mammals: A classified biblio-
graphy spanning over 100 years of research. Psychol. Rec., 40 (2), 289-311.
Rosenthal, T. L. y Zimmerman, B. J. (1978). Social learning and cognition. Nueva York: Acade-
mic Press.
Schuster, R. y Rachlin, H. (1968). Indifference between punishment and free shock: Evidence
for the negative law of effect. J. Exp. Anal. Behav., 11 (6), 777-786.
Spence, K. W. (1936). The nature of discrimination learning in animals. Psychol. Rev., 09;
43 (5), 427-449.
Thelen, M. H., Dollinger, S. J., y Kirkland, K. D. (1979). Imitation and response certainty.
Journal of Genetic Psychology, 09; 135 (1), 139-152.
Thelen, M. H., Paul, S. C., Dollinger, S. J., y Roberts, M. C. (1978). Response uncertainty and
imitation: The interactive effects of age and task options. Journal of Research in Personality,
09; 12 (3), 370-380.
Thomas, D. R., Mood, K., Morrison, S., y Wiertelak. E. (1991). Peak shift revisited: A test of
alternative interpretations. J. Exp. Psychol.: Anim. Behav. Processes, 04; 17 (2), 130-140.
Thorpe, W. H. (1963). Learning and instinct in animals (2.ª edición). Londres: Methuen.
Tomie, A., Carelli, R. y Wagner, G. C. (1993). Negative correlation between tone (S) and
water increases target biting during S in rats. Anim. Learn. Behav., 11; 21 (4), 355-359.
Trobalon, J. B., Sansa. J., Chamizo, V. D., y Mackintosh, N. J. (1991). Perceptual learning
in maze discriminations. The Quarterly Journal of Experimental Psychology B: Comparative and
Physiological Psychology, 11; 43 (4), 389-402.
Warden, C. J., Fjeld, H. A., y Koch, A. M. (1940). Imitative behavior in cebus and rhesus
monkeys. Journal of Genetic Psychology, 56: 311-322.
Williams, B. A. (1975). The blocking of reinforcement control. J. Exp. Anal. Behav., 09; 24
(2), 215-226.