Módulo 3 - Psicología Del Aprendizaje

Condicionamiento
instrumental
PID_00273424
Joan Sansa i Aguilar
Tiempo mínimo de dedicación recomendado: 11 horas

© FUOC • PID_00273424 Condicionamiento instrumental
Joan Sansa i Aguilar
Doctor en Psicología por la Univer-

sidad de Barcelona. Actualmente es
profesor del Departamento de Psi-
cología Básica de la Universidad de
Barcelona. Su investigación se cen-
tra en el estudio del aprendizaje aso-
ciativo.
La revisión de este recurso de aprendizaje UOC ha sido coordinada

por la profesora: Belén Jiménez Alonso (2020)
Cuarta edición: febrero 2020

© Joan Sansa i Aguilar
Todos los derechos reservados
© de esta edición, FUOC, 2020
Av. Tibidabo, 39-43, 08035 Barcelona
Realización editorial: FUOC
Ninguna parte de esta publicación, incluido el diseño general y la cubierta, puede ser copiada,
reproducida, almacenada o transmitida de ninguna forma, ni por ningún medio, sea este eléctrico,
químico, mecánico, óptico, grabación, fotocopia, o cualquier otro, sin la previa autorización escrita
de los titulares de los derechos.
Índice
Introducción............................................................................................... 5
1. Definición de condicionamiento instrumental......................... 7

1.1. La conducta emergente o voluntaria. El hedonismo como
mecanismo de la conducta voluntaria ....................................... 7
1.2. Comparación entre condicionamiento clásico e instrumental ... 8
2. Preparaciones experimentales: ensayos discretos y

conducta operante............................................................................. 11
2.1. Ensayos discretos ......................................................................... 11
2.2. Operante libre ............................................................................. 12
2.3. El modelado ................................................................................ 14
3. Procedimientos de condicionamiento instrumental................ 17
4. Elementos del condicionamiento operante................................ 20

4.1. El estímulo discrimitativo ........................................................... 20
4.2. La respuesta instrumental ........................................................... 23
4.3. El estímulo reforzador ................................................................. 26
4.4. La relación respuesta-reforzador: contigüidad temporal y
contingencia ................................................................................ 32
5. Programas de reforzamiento.......................................................... 39
5.1. Programas de reforzamiento continuo ....................................... 39
5.2. Programas de razón ..................................................................... 40
5.3. Programas de intervalo ............................................................... 42
5.4. Comparación de los programas de razón y de intervalo ............ 45
5.5. Conducta de elección: programa concurrente y programa
concurrente encadenado ............................................................. 46
5.5.1. Programa concurrente ................................................... 47
5.5.2. Programa concurrente encadenado ............................... 53
6. Extinción de la respuesta instrumental...................................... 56

6.1. Otros efectos de la extinción sobre la respuesta instrumental .... 58
7. Condicionamento aversivo.............................................................. 60
7.1. Evitación y escape ....................................................................... 60
7.2. Castigo ......................................................................................... 65
8. Teorías del condicionamiento instrumental.............................. 73

8.1. Estructura asociativa del condicionamiento instrumental ......... 74
8.1.1. Asociaciones E-R ............................................................ 74

8.1.2. Asociaciones R-C ............................................................ 76
8.1.3. Asociaciones E-C ............................................................ 78
8.1.4. Asociaciones jerárquicas ................................................ 79
8.2. Teorías sobre la regulación de la conducta ................................. 80
9. Generalización y discriminación................................................... 84
9.1. Generalización y discriminación ................................................ 85
9.2. Gradientes de generalización ...................................................... 85
9.3. Discriminaciones extra e intradimensionales ............................. 87
9.4. La transposición y el desplazamiento del vértice ....................... 88
9.5. Teoría de Spence (1936) .............................................................. 90
9.6. Teoría de la discriminación basada en procesos de atención ...... 96
9.7. Aprendizaje perceptivo ................................................................ 98
10. Aprendizaje por observación.......................................................... 106

10.1. Teorías de la imitación ................................................................ 107
10.1.1. La imitación como instinto ........................................... 107
10.1.2. La imitación como una respuesta instrumental ............ 110
10.1.3. La teoría de Bandura sobre el aprendizaje por
imitación ........................................................................ 112
10.2. Factores que afectan a la probabilidad de la imitación ............... 113
10.2.1. Características del modelo ............................................. 114
10.2.2. Características del aprendiz ........................................... 115
10.2.3. Características de la situación ....................................... 116
10.3. Influencia del aprendizaje por observación en el desarrollo
cognitivo ...................................................................................... 118
Ejercicios de autoevaluación.................................................................. 121
Solucionario................................................................................................ 125
Glosario........................................................................................................ 126
Qué deberíais saber................................................................................... 128
Bibliografía................................................................................................. 129
© FUOC • PID_00273424 5 Condicionamiento instrumental
Introducción
El objetivo de este módulo es proporcionar a los estudiantes conocimientos

sobre el condicionamiento instrumental, la generalización y la discriminación
y el aprendizaje por observación.
A lo largo del módulo se presentarán procedimientos, fenómenos y teorías re-

lacionadas con la conducta instrumental o dirigida a una meta. Toda conducta
que realizamos tiene un efecto sobre el entorno físico o social. El condiciona-
miento instrumental estudia, pues, cómo detectamos los efectos que tienen
nuestras conductas y cómo estos efectos o consecuencias influyen a su vez en
nuestro comportamiento. También se presentan numerosos ejemplos de la vi-
da cotidiana con el objetivo de facilitar la comprensión y la transferencia de los
conceptos teóricos a las situaciones reales. En este sentido, es importante que
los estudiantes hagan un esfuerzo con el fin de encontrar ejemplos diferentes
a los propuestos al módulo para poder asentar los conocimientos alcanzados.
En el apartado de generalización y discriminación, nos centraremos en aque-

llos estímulos que llegan a controlar la conducta de las personas. Es importan-
te para nuestra adaptación poder generalizar y discriminar entre estímulos. La
generalización tiene claras ventajas evolutivas. En el mundo real raramente
encontramos el mismo estímulo dos veces. Un ejemplo muy característico es
el reconocimiento de caras: aprendemos a reconocer a una persona con inde-
pendencia de su peinado, el tipo de gafas o la ropa que lleva.
Es crucial, por lo tanto, que la respuesta no se produzca exclusivamente en

presencia del estímulo concreto que encontramos en el momento del condi-
cionamiento. Por otra parte, en los organismos también podemos discriminar
estímulos muy diferentes. Y, en ocasiones, estímulos muy parecidos pueden
tener consecuencias opuestas, por lo que convendrá aprender a discriminar-
los. El aprendizaje de discriminación se produce cuando nos exponemos a dos
o más estímulos, que, a pesar de ser muy parecidos, tienen como consecuencia
efectos radicalmente opuestos.
Finalmente, el módulo dedica un último apartado al aprendizaje por observa-

ción. Es importante poder aprender por medio de la conducta de los otros.
Se ha demostrado que ver las consecuencias de los comportamientos de otras
personas regula nuestro propio comportamiento. Analizaremos varias carac-
terísticas del aprendizaje por observación, así como las variables que influyen
en este aprendizaje. También estudiaremos algunas de las teorías que se han
propuesto para explicar el aprendizaje por observación.
1. Definición de condicionamiento instrumental
1.1. La conducta emergente o voluntaria. El hedonismo como

mecanismo de la conducta voluntaria
Hasta ahora hemos estudiado diferentes situaciones en las que los estímulos
provocaban respuestas en los organismos. En la respuesta refleja, la presencia
de un estímulo activa automáticamente una respuesta. De esta manera, un
trozo de alimento introducido dentro de la boca activará la respuesta de sali-
vación.
También hemos visto cómo la conducta refleja puede ser modulada por medio
de la experiencia: la habituación y la sensibilización modifican la intensidad
de la respuesta, reduciéndola o intensificándola, respectivamente. En el mó-
dulo "Condicionamiento clásico pavloviano" hemos analizado el condiciona-
miento clásico. Si un estímulo inicialmente neutro, por ejemplo el olor de
pan acabado de hacer, se empareja sistemáticamente con la introducción del
pan en la boca, ambos estímulos, olor y pan, quedan asociados y el estímulo
neutro es capaz de provocar una respuesta que inicialmente no provocaba.
En el ejemplo, el olor de pan puede provocar respuestas como la salivación,
movimientos de la boca y otros. El estímulo olor sirve de señal que anticipa
el alimento y prepara al organismo para recibirlo. Desde esta perspectiva, la
conducta es una consecuencia del estímulo. Pero hay otras situaciones en las
que la relación se invierte y son precisamente los estímulos la consecuencia
de nuestra conducta.
Un ejemplo simple servirá para ilustrar esta situación:
Si entramos en una habitación que está a oscuras, podemos manipular el interruptor

de la luz y hacer que se ilumine. Así pues, primero ejecutamos una conducta y después
aparece la consecuencia.
Podemos decir que nuestra conducta es el instrumento que nos permite

modificar el entorno, ya sea físico o social. Por este motivo esta conduc-
ta recibe el nombre de conducta�instrumental.
Un análisis más detallado de la situación mencionada nos permite darnos

cuenta de que hemos ejecutado la conducta con un objetivo: iluminar la sala.
Por ello, a menudo se define la conducta instrumental como "dirigida�a�una
meta". Pero todavía más, podríamos no haber encendido la luz.
Por ejemplo, si sabemos que en la habitación hay un bebé que se acaba de dormir, po-
dríamos decidir no encender la luz para no despertarlo.
Por lo tanto, la conducta instrumental puede encajar perfectamente en lo que

conocemos como conducta�voluntaria.
Descartes diferenció entre la conducta involuntaria y la conducta voluntaria.

El primer caso sería la conducta refleja, esto es, todo comportamiento provo-
cado por un estímulo y que estaría sometido a unos principios mecanicistas
como el arco reflejo. Por otra parte, la conducta voluntaria no estaría controla-
da por ningún mecanismo, sino que estaría determinada por el libre albedrío.
Dicho con otras palabras, si encendemos la luz de una habitación es porque
queremos y así lo decidimos.
No obstante, existe una explicación alternativa de la conducta voluntaria que

recurre a mecanismos deterministas. Hobbes propuso que la conducta volun-
taria seguiría el principio del hedonismo, según el cual y en sentido estricto el
placer es el único o principal bien de la vida. Aplicado al control de la conduc-
ta voluntaria tendremos que el objetivo de la conducta es la busca del placer
y la huida del dolor.
Volvamos al ejemplo que nos ocupa. Si al entrar en la habitación a oscuras

encendemos la luz, este acto se puede explicar porque con la sala iluminada
podemos evitar tropezar con muebles u objetos que no vemos y el dolor que
nos podría causar. También, con la luz podremos localizar más rápidamente
aquello que hemos ido a buscar. Por otra parte, podemos no encender la luz
si en la habitación duerme un bebé para no despertarlo y evitar las molestias
que podría causar.
Así pues, la conducta voluntaria vendría determinada por las conse-

cuencias agradables y desagradables que origina.
De hecho, y como veremos a continuación, los procedimientos de condiciona-

miento instrumental se centran en las consecuencias que tiene nuestro com-
portamiento sobre estímulos apetitivos (agradables) y estímulos aversivos (des-
agradables).
1.2. Comparación entre condicionamiento clásico e instrumental
Ya hemos apuntado las diferencias entre el condicionamiento clásico y el con-

dicionamiento instrumental. Los dos tipos de condicionamiento se basan en
el mecanismo de la asociación y sus principios.
La idea básica es que dos acontecimientos que se presentan contiguos en el

tiempo quedan asociados. A pesar de esta generalidad, en la actualidad se co-
nocen muchas condiciones que modulan este mecanismo y muchas de ellas
son aplicables a los dos tipos de condicionamiento. En todo caso, la diferen-

cia básica entre condicionamiento clásico y condicionamiento instrumental
radica en la naturaleza de los elementos que se asocian.
• En el condicionamiento�clásico los acontecimientos que quedan asocia-

dos son dos estímulos que el organismo�no�puede�manipular. Podemos
aprender que un cielo nublado puede significar una alta probabilidad de
lluvia. En consecuencia, podemos no salir de casa o, en caso de hacerlo,
tomar el paraguas. Estas conductas, sin embargo, en ningún caso alterarán
la presentación de los estímulos.
• En cambio, en el condicionamiento�instrumental los acontecimientos

implicados son una conducta y un estímulo; de tal manera que la conducta
alterará este estímulo, haciéndolo aparecer si estaba ausente o haciéndolo
desaparecer si estaba presente. Si se pone a llover mientras vamos por la
calle, abrir el paraguas impedirá que nos mojemos.
Como consecuencia de estas características, el condicionamiento clásico nos

sirve para anticipar hechos importantes o su ausencia, mientras que el condi-
cionamiento instrumental nos sirve para alterar nuestro entorno con el obje-
tivo de hacerlo más agradable.
El primer investigador formalmente aceptado dedicado al estudio del condi-

cionamiento instrumental fue Thorndike (1898, 1911). Sus trabajos tenían
como finalidad estudiar la inteligencia animal y consistían en presentar a unos
gatos una serie de problemas para estudiar cómo los solucionaban.
Construyó unas cajas de madera que tenían una puerta abatible sujetada por
uno o más pestillos. Los pestillos podían ser manipulados por varios mecanis-
mos, como por ejemplo directamente con la pata del animal o por medio de
un pedal al que se ataba una cuerda. Cuando Thorndike encerraba a un gato
hambriento en una de estas cajas, podía observar que el pobre animal no tenía
la más mínima intuición de lo que debía hacer para poder escapar de su con- Edward�L.�Thorndike
finamiento y acceder a un bol lleno de comida que se encontraba en el exte-

rior de la caja. Como medida objetiva de la evolución del animal, Thorndike
cronometraba el tiempo que tardaba en escapar de la caja.
No es de extrañar que en los primeros ensayos agotara todo el tiempo (por

ejemplo, 5 minutos) sin alcanzar con éxito su objetivo. Pero a medida que
Thorndike iba presentando el mismo problema a los gatos, observó que el
tiempo que necesitaban para escaparse disminuía progresivamente. Precisa-
La "caja problema"
mente la reducción del tiempo de escapada era el dato que indicaba que los
animales habían aprendido cómo solucionar el problema, es decir, qué res-
puestas debía ejecutar para poder abrir la puerta y acceder a la comida. Sin
embargo, ¿cómo se explicaba este aprendizaje? Según Thorndike, no había
rastro de conducta intuitiva, sino que los gatos iban llevando a cabo diferen-
tes comportamientos hasta que alguno de ellos proporcionaba la solución del
problema. Esta estrategia se llama ensayo�y�error.
De hecho, los animales realizaban muchas conductas, la mayoría de las cuales

no tenían ninguna consecuencia. Pero de vez en cuando, aparecía una con-
ducta que permitía abrir la puerta y acceder a la comida. Según Thorndike,
las conductas infructuosas tendían a desaparecer mientras que se selecciona-
ban aquellas otras que tenían éxito. Sin embargo, ¿qué mecanismo era el res-
ponsable de esta selección? Siguiendo a Thorndike, cuando un animal ejecuta
una conducta que va seguida de un acontecimiento agradable entonces los
estímulos presentes en el momento de la respuesta y la respuesta quedaban
conectados de modo que en el futuro la presencia de los estímulos activaba
directamente la respuesta a ellos conectada. Si la consecuencia era aversiva,
entonces la conexión se debilitaba. Este mecanismo se conoce como ley�del
efecto.
(1)
Tened en cuenta que el papel de la consecuencia (agradable o desagradable) En la actualidad se sabe que esta
asociación E-R no es la única que
era más bien secundario y servía para fortalecer o debilitar la conexión entre
puede establecerse en situaciones
los estímulos y las respuestas, pero no quedaba conectada a ninguno de es- de condicionamiento, tanto clásico
como instrumental.
tos elementos. Esta manera de explicar el condicionamiento instrumental era
coherente con la explicación que se daba inicialmente al condicionamiento
clásico siguiendo el esquema E-R1 (estímulo-respuesta) y que años más tarde
adoptaron los psicólogos dentro del enfoque conductista.
2. Preparaciones experimentales: ensayos discretos y

conducta operante
2.1. Ensayos discretos
En el procedimiento experimental de Thorndike, el animal quedaba encerrado

en la caja problema hasta que ejecutaba la conducta (o cadena de conductas)
instrumental que lo liberaba y le permitía el acceso a la comida. Después de
comer, el animal era retirado de la situación experimental hasta el siguiente
ensayo. Este tipo de procedimiento recibe el nombre de ensayos�discretos. Las
principales características son que sólo se permite realizar una vez la respuesta
instrumental en cada ensayo y una vez dada se retira el animal del aparato.
Actualmente existen unas cuantas tareas de ensayo discreto que se han con-
vertido en estándares.
La tarea de ensayo discreto más utilizada es la del laberinto. A comienzos del

siglo XX se utilizaban laberintos muy complejos, pero poco a poco se fueron
simplificando hasta llegar al pasillo o laberinto de pasadizo recto y a los labe-
rintos en forma de T o Y. El pasillo (podéis ver la figura siguiente, b) tiene una
caja de salida en uno de los extremos y una caja de meta en el otro. Un ensayo
de condicionamiento empieza colocando al animal (generalmente una rata)
en la caja de salida. Seguidamente se abre la puerta que da acceso al pasillo y se
permite que el animal camine hasta llegar a la caja meta donde normalmente
encontrará el reforzador, comida o agua.
Esquema de un laberinto con forma de T (a) y de un pasillo recto (b). S = caja de salida; PE = punto de elección; M1, M2 y M =
cajas meta
El laberinto en forma de T (podéis ver la figura anterior, a) está diseñado para

estudiar la conducta de elección, ya que contiene un brazo de salida y dos cajas
metas. Tened en cuenta que el punto de unión entre el brazo de salida y los dos
brazos meta es el punto de elección. En este punto el animal debe decidir a cuál
de las dos metas posibles se dirigirá. La manipulación experimental permite
varias alternativas.
Se puede poner comida sólo en uno de los brazos pero no en el otro. También se podrían
utilizar dos tipos de reforzador, como por ejemplo una base de agua y harina en uno de
los brazos y la misma base pero endulzada en la otra meta.
En los laberintos se pueden medir varias variables. En el pasillo se suele calcu-

lar la velocidad de carrera o la latencia de la respuesta –el tiempo que tarda el
animal en iniciar el recorrido–. La velocidad de carrera normalmente aumen-
ta a medida que se repiten los ensayos de condicionamiento, mientras que
la latencia de la respuesta se acorta. En el laberinto en T la medida más habi-
tual es el porcentaje de elección del brazo crítico. Al tener dos alternativas,
un porcentaje de elección del 50% indica que la elección es al azar, mientras
que porcentajes por encima del 50% indican que el animal aprende dónde se
encuentra la comida (en caso de que sólo haya comida en uno de los brazos)
o una preferencia por una de las dos comidas (en el caso de utilizar dos tipos
diferentes de alimentos).
2.2. Operante libre
Dadas las características de los ensayos discretos, la conducta del animal es-
tá restringida por las condiciones programadas por el investigador. Skinner
(1938) creó un procedimiento que permitía el estudio de la conducta de ma-
nera continua. Si analizamos el comportamiento de una persona o de un ani-
mal, podremos darnos cuenta de que la conducta fluye constantemente y a
menudo se hace difícil determinar claramente las diferentes unidades de con-
ducta. Skinner resolvió este problema introduciendo el concepto de respuesta
operante, que se define a partir del efecto que tiene una conducta sobre el
entorno del animal.
Una respuesta operante en un humano puede ser introducir unas monedas en una má-
quina y pulsar el botón correspondiente del refresco que se quiere consumir.
Todo este patrón de conducta será un operante, ya que tiene la propiedad de

modificar el entorno haciendo accesible una bebida que antes de realizar la
respuesta no podíamos tomar. En el laboratorio se estudia la respuesta operan-
te con la caja de Skinner o caja�de�condicionamiento (podéis ver la figura
siguiente).
La caja de condicionamiento consta de un espacio en el que se sitúa al animal.

Dentro de este habitáculo hay varios elementos que sirven para ejecutar res-
puestas y presentar estímulos. Como mecanismos de respuesta se pueden uti-
lizar distintas modalidades, pero las más comunes son la palanca de respuesta
en el caso de las ratas y la tecla de respuesta en el caso de las palomas. La pa-
lanca es un mecanismo que el animal puede presionar y, una vez deja de hacer
presión, vuelve a su posición original. La tecla de respuesta es un botón en el
que el ave puede picotear. En ambos casos, cada vez que se ejecuta la respuesta
se registra en un ordenador. Normalmente, cuando el animal ejecuta la res-
puesta operante activa un mecanismo que dispensa un poco de comida. La co-
mida recibe el nombre de reforzador, ya que su presentación inmediatamente
después de la respuesta refuerza la conducta. No obstante, en determinados
experimentos la respuesta operante va seguida de un estímulo aversivo como
puede ser una descarga eléctrica moderada que se administra en la planta de
los pies por medio de un enrejado metálico.
Esquema de una caja de condicionamiento o caja de Skinner
Skinner�en�su�laboratorio�con�una�caja�de
condicionamiento
En una de las paredes podemos encontrar los mecanismos para dispensar estímulos (altavoz, luces, comedero). También
encontramos un mecanismo de respuesta que en el caso de las ratas suele ser una palanca de respuesta y en el caso de las
palomas es una tecla de respuesta.
La preparación del operante libre nos permite estudiar la conducta dentro de

un continuo. Pero ¿cómo medimos la conducta operante? Partimos de la base
de que es el animal quien determina cuándo y con qué frecuencia realizará la
conducta a lo largo del tiempo, más que el propio experimentador. Skinner
propuso la medida de la tasa�de�respuesta para analizar la conducta operante.
La tasa de respuesta es la frecuencia con la que la conducta aparece por

unidad de tiempo (un minuto, por ejemplo).
La manera más habitual de medir la tasa de respuesta es el registro�acumula-

tivo de respuestas (podéis ver la figura siguiente).
Un registro acumulativo es un modo de representar la forma de repetirse

una respuesta a lo largo del tiempo.
Muestra el número total (o acumulado) de respuestas que se han producido

hasta un momento concreto. A la hora de representar gráficamente un registro
acumulativo, situaremos en el eje de abcisas el tiempo y en el eje de ordenadas,
las respuestas acumuladas. Cada vez que aparece una respuesta (una presión
de palanca, por ejemplo), la curva que se dibuja incrementará una unidad en
el eje de abscisas.
La figura muestra una gráfica de un registro acumulado
Las pendientes de las respuestas acumuladas (líneas punteadas) indican la frecuencia de la respuesta: cuanto más inclinada
sea la pendiente, más alta es la frecuencia de la respuesta. Las rayas oblicuas que cortan el registro acumulado representan
los reforzadores dispensados. El registro se ha obtenido a partir de una simulación con la rata virtual Sniffy (Alloway, Wilson y
Graham, 2006).
Por otra parte, cada unidad de tiempo que transcurra hará que la curva se
desplace en el eje de abcisas. Las variaciones en las dos variables (tiempo y
respuestas acumuladas) generan una curva que variará en su pendiente. Si la
rata no ejecuta la respuesta operante, obtendremos que el registro acumulativo
sólo crece en sentido horizontal, ya que va transcurriendo el tiempo, mientras
que no hay cambios en el eje de ordenadas, puesto que no hay respuestas
que acumular. El resultado es que se dibuja una pendiente nula, es decir, una
línea completamente horizontal. A partir del momento en el que se producen
respuestas y se van acumulando, la curva empieza a mostrar una pendiente. Es
precisamente la inclinación de la pendiente la que nos da información sobre la
frecuencia de ejecución de la respuesta operante, de modo que las pendientes
suaves indican que la tasa de respuesta es baja mientras que las pendientes
muy inclinadas muestran tasas de respuesta altas.
2.3. El modelado
Cuando situamos por primera vez a una rata en una caja de condicionamiento,
raramente observaremos que el animal ejecute la respuesta espontáneamente.
Se hace necesario enseñarle a presionar la palanca. Este entrenamiento pasa
por varias fases. En primer lugar, es necesario que el animal sepa cuándo ha
obtenido el reforzador y dónde lo encontrará. Este entrenamiento se basa en
un condicionamiento clásico.
El procedimiento consiste en presentar reforzadores independientemente de

la conducta que esté realizando la rata. Hay que señalar que el dispensador
de comida emite un ruido característico cada vez que se pone en marcha, in-
cluso la comida hace ruido en el momento de caerse en el comedero. Estos
ruidos actúan como estímulo condicionado, ya que quedan asociados con la
presentación de la comida, que actúa como estímulo incondicionado. La res-
puesta condicionada generada por este condicionamiento que nos interesa es
el acercamiento al comedero. Se trata, pues, de un procedimiento del segui-
miento�del�signo, ya que al acercarse al lugar donde se localiza el ruido se
acerca también a la comida. El entrenamiento en el comedero, que es como
se conoce este entrenamiento, tendrá la ventaja de que el ruido, una vez tiene
las propiedad de estímulo condicionado, también sirve como reforzador. De
esta manera, cuando el animal ejecute la respuesta operante y oiga el ruido,
la respuesta será reforzada inmediatamente, incluso si el animal tarda unos
segundos en acercarse al comedero a recoger la comida.
Una vez que el animal ya ha recibido el entrenamiento en el comedero, está

en condiciones de aprender la respuesta operante deseada. En el caso de la rata
que ha de presionar la palanca, ya decíamos que difícilmente ejecutará la res-
puesta de manera espontánea. Esto provoca que necesitemos programar este
aprendizaje. La técnica utilizada normalmente es el modelado, que se define
como el reforzamiento de aproximaciones sucesivas a la respuesta requerida.
Toda conducta, especialmente las conductas complejas como presionar una

palanca, pueden desglosarse en unidades simples. Si analizamos con detalle la
respuesta de presionar la palanca, podremos identificar estas unidades. Para
ejecutar la conducta, la rata debe atender a la palanca, acercarse a ella, ponerse
de pie, apoyarse encima de la palanca y hacer fuerza hacia abajo a fin de que
la palanca baje. Si nos fijamos bien en toda esta secuencia de movimientos,
nos daremos cuenta de que cada unidad por sí misma es fácil de observar en
una rata de manera espontánea: una rata inspecciona y atiende a diferentes
objetos de su entorno, se pone recta sobre las patas de detrás, toca y manipula
objetos con sus manos, se apoya sobre objetos o las paredes de la caja.
En definitiva, la conducta que se debe modelar es nueva en cuanto al

conjunto y patrón de movimientos que requiere, pero no en cuanto a
las unidades de conducta que la componen.
Así, para modelar la conducta de presión de palanca en una rata, podríamos

empezar por reforzar cada vez que el animal se pone recto sobre las patas pos-
teriores y con independencia de en qué lugar de la cámara lo haga. Podremos
observar que, con el entrenamiento necesario, este comportamiento aparece
cada vez con más frecuencia de lo que lo hacía inicialmente. El siguiente pa-
so consistirá en restringir el reforzador a cuando se pone en pie pero en una

ubicación próxima a la palanca, y no lo reforzaremos por ponerse en pie si se
encuentra lejos de ella.
Vemos, aquí, una segunda característica del modelado, no reforzar las

formas de conducta más tempranas una vez se hayan alcanzado.
Al igual que antes, veremos que la rata cada vez tiende a localizarse más cer-
ca de la palanca. Siguiendo con el modelado, podremos pasar a reforzar sólo
cuando el animal se ponga en pie justo delante de la palanca. Para acabar, po-
dremos reforzar sólo si la rata toca la palanca cuando se pone en pie o cuando
vuelve a la posición sobre las cuatro patas. Si todo ha procedido correctamente,
observaremos que el animal pasa bastante rato tocando la palanca y en algún
momento hará suficiente fuerza sobre la palanca para que ésta baje y accione
automáticamente el mecanismo que le entregará la comida. A partir de este
momento, detendremos nuestra intervención y dejaremos que el animal siga
manipulando la palanca por su cuenta.
La técnica del modelado se ha utilizado con éxito en muchos campos distintos Modelado en humanos
en los que se debían instaurar nuevos comportamientos tanto en humanos
En el caso de los humanos, el
como en otras especies de animales. Los adiestradores de animales enseñan modelado puede utilizarse pa-
a delfines, lobos marinos, perros, caballos y otro tipo de animales a realizar ra perfeccionar habilidades en
deportes, artes y como terapia
conductas sorprendentes tanto para espectáculos como para ayudar a personas en casos donde las personas
son incapaces de seguir ins-
con determinadas discapacidades. trucciones verbales.
3. Procedimientos de condicionamiento instrumental
Hasta ahora nos hemos centrado en una situación muy concreta de condicio-
namiento instrumental: cuando la aparición de la respuesta iba seguida de la
obtención de unos estímulos agradables como la comida. No obstante, hay
muchas otras situaciones de condicionamiento instrumental.
Algunos padres pueden dar un helado de postre a su hijo si se ha comido un plato de

patatas hervidas con acelgas, o pueden prohibirle ver la televisión durante una tarde si el
niño ha pegado a su hermano. Una persona puede golpear a su perro si el animal enseña
los dientes agresivamente a un vecino. Podemos quitar las pilas a un reloj si su tictac no
nos deja dormir.
Todos estos ejemplos han implicado un condicionamiento instrumental, es

decir, la respuesta ejecutada supone una consecuencia. En dos de los ejemplos
se incluyen hechos agradables (un helado, ver la televisión). Un hecho agra-
dable lo denominamos estímulo�apetitivo. Los otros dos ejemplos incluyen
hechos desagradables (un golpe, un ruido molesto). Un hecho desagradable
lo denominamos estímulo�aversivo. Además, dos de los ejemplos expuestos
implican que la respuesta provoca la presentación del estímulo que no estaba
presente antes de dar la respuesta (gruñir el perro y comer el plato de patatas
y acelgas). En estos casos hablamos de una contingencia positiva entre la res-
puesta y el estímulo. Por el contrario, algunas veces la conducta instrumental
provoca que un estímulo presente antes de dar la respuesta desaparezca cuan-
do ésta se produce (pegar al hermano, quitar las pilas del reloj). Es decir, en
estas situaciones la contingencia entre respuesta y estímulo es negativa.
Por lo tanto, los diferentes procedimientos de condicionamiento instrumen-

tal se clasifican en función de la contingencia positiva o negativa entre la res-
puesta y el estímulo sobre la que actúa la respuesta y por la naturaleza del
estímulo consecuente.
1)�Reforzamiento�positivo
Cuando ponemos una moneda en una máquina y obtenemos el refresco que nos apetece,
cuando cobramos el sueldo a final de mes, cuando la pareja nos da un beso, cuando le
hacemos un regalo, todos son ejemplos de reforzamiento positivo.
En cada uno de ellos, una respuesta ha provocado la aparición de un estímulo

apetitivo. Si se realiza la respuesta, el estímulo apetitivo aparece, si no está
la respuesta, entonces el estímulo apetitivo no se presenta. Por lo tanto, la
contingencia entre la respuesta y el estímulo es positiva. Los efectos que tiene
el reforzamiento positivo sobre la conducta es que incrementa la probabilidad
de aparición de la conducta.
2)�Castigo�positivo�o�simplemente�castigo
Si ponemos los dedos en un enchufe, recibiremos una descarga eléctrica, si tocamos una
cafetera justo cuando acabamos de hacer el café, nos quemaremos, si el gato se afila las
uñas en el sofá, le gritamos.
En cada una de estas situaciones la conducta ha provocado la aparición de un

estímulo aversivo y son ejemplos de castigo. La contingencia entre la respuesta
y el estímulo aversivo es positiva, ya que el estímulo sólo se presenta si antes
se ha dado la respuesta. Las consecuencias del castigo sobre la conducta es que
provoca una tendencia a desaparecer o a disminuir.
3)�Reforzamiento�negativo
Una persona que tiene fobia a los perros puede salir corriendo si de sopetón se encuentra
de frente con un perro. Un conductor puede llevar el coche al mecánico para realizar una
revisión antes de un viaje largo para evitar una avería.
Éstos son dos ejemplos del procedimiento de reforzamiento negativo. En am-

bos casos se establece una contingencia negativa entre la respuesta y un estí-
mulo aversivo. La persona que huye en presencia de un perro puede conseguir
alejarse del perro. El conductor que lleva el coche al mecánico puede evitar
una avería y las consecuencias aversivas que tiene. Aunque las dos situaciones
son prácticamente iguales, existe una diferencia notable entre ellas.
• En el primer caso la persona se ha encontrado directamente con el estímu-

lo aversivo (el perro) y la respuesta ha provocado la desaparición del estí-
mulo. En otras palabras, la persona ha escapado de la situación aversiva.
Este procedimiento recibe el nombre de procedimiento�de�escape.
• En el segundo caso, el estímulo aversivo (la avería del coche) no se ha

llegado a producir, es decir, la conducta se realiza sin que esté presente el
estímulo aversivo e impide que aparezca. Se trata de un procedimiento
de�evitación. Es importante remarcar que en el caso de la evitación, debe
haber algún hecho que anticipe la posibilidad de la situación aversiva.
Si la persona con fobia a los perros pasea por una calle y oye ladrar a un perro, puede
cambiar de itinerario antes de encontrarse cara a cara con el animal y, en definitiva, está
evitando al animal. En el caso del conductor, podría haber experimentado en el pasado
una avería de su coche justo en medio de los Monegros de noche. El conocimiento que
tiene de realizar un viaje largo podría anticipar la posibilidad de una avería, y efectuar la
revisión del coche impediría o reduciría que se repitiera en el futuro.
Sea como sea, el reforzamiento negativo provoca que la conducta se repita en

el futuro.
4)�Castigo�negativo�o�entrenamiento�de�omisión
Un adolescente responde mal a uno de sus padres y éste le retira el teléfono móvil durante
una semana; la dirección de tráfico quita puntos del carné de conducir a un conductor
que ha sido pillado circulando a más de 140 km por hora.
(2)
Ambos ejemplos muestran una contingencia negativa entre una conducta y un Este término refleja el hecho de
que el individuo recibe un estímulo
estímulo apetitivo. Si se produce la conducta, se retira un estímulo agradable
apetitivo periódicamente siempre
para la persona. La consecuencia de estas situaciones sobre la conducta es que que se dedique a realizar una con-
ducta diferente a la respuesta ins-
tenderá a desaparecer. Los procedimientos de entrenamiento de omisión tam- trumental especificada por el pro-
cedimiento.
bién reciben el nombre de reforzamiento�diferencial�de�otras�conductas2.
Es necesario realizar algunos comentarios finales sobre los términos utilizados

para referirse a los procedimientos de condicionamiento instrumental.
En primer lugar, los términos positivo y negativo no se refieren a valoraciones

del procedimiento ni al tipo de estímulo implicado en el condicionamiento,
sino que se refieren exclusivamente a la contingencia entre la respuesta y el
estímulo.
Otra aclaración que ayudará a la comprensión de los diferentes procedimien-

tos es que cuando hablamos de reforzamiento nos referimos a que la con-
ducta será reforzada, es decir, tenderá a incrementar su probabilidad de apari-
ción o se mantendrá. En cambio, cuando hablamos de castigo nos referimos
a aquellos procedimientos que provocarán una reducción en la frecuencia de
la conducta.
Una confusión común se da entre castigo y reforzamiento negativo. A menudo

encontramos personas, incluso profesionales de la psicología, que utilizan el
término reforzamiento negativo como sinónimo de castigo, probablemente en
contraposición al término reforzamiento positivo. Atendiendo al origen de los
términos positivo y negativo referidos a la contingencia y al significado del tér-
mino reforzamiento (incremento de la conducta) y castigo (reducción de la con-
ducta) esta confusión no debería producirse.
Tipo de consecuencia
Apetitiva Aversiva
Correlación respuesta Positiva Reforzamiento Castigo positivo

- consecuencia positivo
Negativa Castigo nega- Reforzamiento

tivo o entrena- negativo:
miento de omi- 1) Escape
sión 2) Evitación
En la tabla se muestran los cuatro procedimientos del condicionamiento instrumental en función de la correlación entre la res-
puesta y la consecuencia (entrada de las filas) y del tipo de consecuencia (entrada de las columnas)
4. Elementos del condicionamiento operante
Un organismo está ejecutando conductas de manera continua. Algunas de es-

tas conductas pueden coincidir con un estímulo reforzador. Además, las con-
ductas se producen en un contexto en el que hay gran cantidad de estímulos.
Imaginemos que hemos quedado con unos amigos y hemos decidido ir a tomar unos re-
frescos en un bar. En esta situación encontramos muchos estímulos presentes: los propios
amigos con los que hemos quedado, la decoración del bar, la época del año (si hace calor
o frío), la ropa que llevamos, la gente que nos rodea, la hora del día y muchos más. Ade-
más, a lo largo del encuentro podemos realizar varias conductas: podemos dar un trago al
refresco, hablar de una anécdota, de una noticia que ha aparecido en los diarios, rascar-
nos, sonreír, escuchar, contar un chiste, etc. Además, a lo largo de este flujo de conductas
podemos encontrar algunas que van seguidas de un estímulo reforzador, por ejemplo, si
explicamos un chiste y el resto de amigos ríen, y otras pueden no tener consecuencias,
por ejemplo, si cambiamos de postura las piernas probablemente no tendrá consecuen-
cias sobre nuestros amigos. Como resultado de estas disposiciones, habrá conductas que
se verán seleccionadas y otras no. Precisamente aquellas que van seguidas del reforzador
tendrán más probabilidad de repetirse que las que no van seguidas del reforzador. Si he-
mos contado un chiste y los amigos se han reído, es muy posible que nosotros mismos
u otros compañeros cuenten un segundo chiste, e incluso podemos estar unos minutos
haciendo gala de nuestro conocimiento de estas historietas cómicas.
Pero cambiemos de escenario.
Ahora estamos en el tanatorio para dar el pésame a un amigo nuestro por la muerte de
su padre. Es difícil pensar que en esta situación alguien pueda contar un chiste, pero en
cambio es mucho más probable que aparezcan comentarios sobre otras defunciones.
Las dos situaciones ilustran cómo los estímulos presentes en una situación
pueden controlar nuestra conducta.
Por lo tanto, para llegar a la comprensión de la conducta instrumental

se deben tener en cuenta los tres elementos y las relaciones que se es-
tablecen entre ellos, lo que se conoce como una contingencia de tres
términos: los estímulos discriminativos o antecedentes, las respuestas y
las consecuencias.
4.1. El estímulo discrimitativo
El estímulo discriminativo es aquel que aparece antes de ejecutar la con-

ducta instrumental y que, por lo tanto, es el antecedente de la conducta
instrumental.
(3)
Thorndike, en su ley del efecto3, consideraba que el estímulo discriminativo Recordemos que la ley del efec-
to explica la conducta instrumental
controlaba totalmente la conducta instrumental. Esta explicación lleva a la mediante las asociaciones E-R, es
concepción de la conducta instrumental como una reacción ante los estímulos decir, entre los estímulos discrimi-
nativos y las respuestas.
del entorno.
No obstante, Skinner demostró que la conducta instrumental estaba contro-

lada por el estímulo reforzador, es decir, por las consecuencias que tiene la
conducta.
Así, si damos comida a una rata para presionar una palanca observaremos que la tasa de
la conducta incrementa y se mantiene en un determinado nivel. Pero si dejamos de dar
el reforzador, entonces el animal dejará de emitir la conducta. Si finalmente volvemos a
introducir el reforzador cada vez que la rata presiona la palanca, la conducta reaparecerá
de nuevo.
Estos datos indican que la conducta instrumental está controlada por sus con-
secuencias. Entonces, ¿cuál es el papel de los estímulos antecedentes?.
Una posible respuesta es que tengan un papel informativo con respecto a la

disponibilidad o no del reforzador. De esta manera, una situación determina-
da indicará si la respuesta puede ser reforzada o no lo será, pero en última ins-
tancia quien controlará que se emita o no la conducta son las consecuencias
de ésta. Si los estímulos del entorno anticipan la disponibilidad del reforzador,
y estamos suficientemente motivados para obtenerlo, entonces realizaremos
la conducta adecuada para conseguir el reforzador.
Diferencia entre estímulo discriminativo y condicionado
A menudo se ha hecho énfasis en indicar que un estímulo discriminativo no es un es-

tímulo condicionado, ya que los estímulos condicionados provocan la respuesta condi-
cionada, es decir, controlan directamente la conducta condicionada, mientras que un
estímulo discriminativo no provoca la respuesta, sino que sólo indica la posibilidad del
reforzador.
No obstante, la distinción entre estímulo discriminativo y estímulo condicio-

nado en ocasiones no es tan clara.
Experimento de Bechterev
Por ejemplo, Bechterev realizó un experimento en el que un tono precedía sistemá-

ticamente a una descarga eléctrica que se administraba en la planta del pie de unos
perros. En este experimento, Bechterev midió la respuesta de flexión de pata en pre-
sencia del tono como una respuesta condicionada y observó que, a medida que avan-
zaba el entrenamiento, los animales flexionaban la pata en presencia del tono, lo que
llevaba en la mayoría de los ensayos a que los animales evitaran el estímulo aversivo.
La interpretación de Bechterev fue que la flexión de pata era una respuesta

condicionada que se activaba cuando aparecía el tono. La disposición experi-
mental permite una segunda interpretación desde el punto de vista del condi-
cionamiento instrumental. Si el animal daba la respuesta de flexión de pata,
entonces un estímulo aversivo dejaba de presentarse o, dicho con otras pala-
bras, la supuesta respuesta condicionada controlaba la presentación del estí-

mulo. Desde este punto de vista, Bechterev había diseñado una situación de
reforzamiento negativo.
¿Cuál era la función del estímulo discriminativo? ¿Realmente provocaba la

respuesta de flexión de pata o sólo informaba de que se presentaría un estímulo
doloroso y la flexión de pata se había seleccionado porque era útil para evitar
la descarga?
Si atendemos al hecho de que en el condicionamiento clásico el organismo

no tiene control sobre los estímulos, entonces hemos de aceptar que los datos
de Bechterev se ajustan más a la interpretación del condicionamiento instru-
mental, ya que sus perros controlaban la presentación o no de la descarga fle-
xionando la pata. Centrémonos ahora en otra situación común a muchos ex-
perimentos de condicionamiento clásico en los que la respuesta condicionada
es el acercamiento al comedero. Si presentamos un EC, como puede ser un
tono, y sistemáticamente va seguido de la entrega de comida en el comedero,
entonces podemos observar que poco a poco los animales introducen la cabe-
za en el comedero con más frecuencia durante el tono que cuando éste no está
presente. La interpretación de este dato es que el acercamiento al comedero es
una RC provocada por el EC. Como en esta situación el animal experimenta
los dos estímulos, el EC y el EI y, en un primer análisis, ninguno de los dos
estímulos parecen estar bajo el control del animal, los investigadores no han
dudado en clasificar la respuesta de acercamiento al comedero como respuesta
condicionada.
Sin embargo, podríamos realizar una nueva interpretación de la situación: el

tono podría ser un estímulo discriminativo que señala la próxima presenta-
ción de la comida y que la respuesta de acercamiento al comedero fuera una
respuesta instrumental que permite al animal tener acceso a la comida. Si la
rata no se aproxima al comedero, no obtendrá la comida. Tanto la presenta-
ción de la descarga en el experimento de Bechterev o la presentación de la co-
mida están programados por el experimentador. Éstos se presentan igualmen-
te en el entorno pero que los animales los lleguen a experimentar depende en
última instancia de su comportamiento, flexionando la pata se evita recibir la
descarga y acercándose al comedero se facilita el acceso a la comida.
La cuestión de fondo es si el estímulo antecedente, el tono en los dos ejem-

plos, provoca directamente la respuesta observada o provoca respuestas tanto
emocionales, como puede ser el miedo en el caso de anticipar un estímulo
aversivo o "alegría" en el caso de la comida, como fisiológicas, por ejemplo, un
incremento en la tasa cardiaca cuando se anticipa una descarga o la salivación
cuando se anticipa la comida, que motivan al animal para ejecutar la respuesta
que le permite controlar los cambios en el entorno. Sea como sea, la cuestión
permanece sin resolver aunque profundizaremos en ella cuando analicemos
los mecanismos asociativos implicados en el condicionamiento instrumental.
4.2. La respuesta instrumental
El segundo elemento que vamos a analizar en el condicionamiento instrumen-

tal es la respuesta. Una de las ideas que podemos tener con respecto al con-
dicionamiento instrumental es que podemos condicionar cualquier conducta
siempre y cuando la reforcemos. Nada más lejos que eso.
Al igual que en el condicionamiento clásico, donde determinadas com-

binaciones de EC y EI eran más fáciles de condicionar que otras, en el
condicionamiento instrumental observaremos que hay conductas más
fáciles de condicionar.
Algunos de estos límites están relacionados con la preparación biológica de

los organismos para enfrentarse a determinadas situaciones; otros se refieren
a la interferencia de conductas innatas con las conductas que queremos con-
dicionar.
Thorndike observó diferencias en la facilidad de condicionar determinadas

conductas en sus gatos. Por ejemplo, cuando intentó condicionar respuestas
como rascarse o bostezar como respuestas instrumentales, encontró que, a pe-
sar de que los animales aprendían a ejecutarlas para obtener el reforzador, la
forma de las conductas variaba a lo largo del entrenamiento. Al principio las
respuestas eran intensas, pero en ensayos posteriores eran sólo simulacros de
rascado o de bostezos.
Thorndike propuso el concepto de pertenencia para explicar este comporta-

miento de los animales. Según Thorndike, determinadas conductas son cohe-
rentes con el reforzador por la historia evolutiva de la especie. De esta manera,
manipular objetos, apoyarse en las paredes, etc. son comportamientos natu-
rales de un gato cuando está encerrado en un espacio. En cambio, rascarse y
bostezar no son comportamientos que permitan a los animales escaparse de
una situación de confinamiento. Probablemente, la debilidad de las respuestas
de rascarse y bostezar observadas por Thorndike se debía a que no eran perti-
nentes para escapar de la caja en la que estaban encerrados.
(4)
Los primeros en publicar datos sobre la dificultad de entrenar determinadas El término Misbehavior podemos
traducirlo como mala conducta o
conductas siguiendo los principios del condicionamiento instrumental fueron
conducta errónea (en algunas tra-
los Breland (Breland y Breland, 1961) en su artículo titulado "The Misbehavior4 ducciones al castellano se utiliza el
término conducta�maladaptati-
of Organisms". Los Breland fueron estudiantes de Skinner y se dedicaron en su va).
vida profesional a entrenar animales de muy distintas especies para que reali-
zaran conductas complejas. Entrenaban a los animales para zoos, anuncios de
televisión y otras actuaciones públicas. Si bien tenían éxito con muchas de las
conductas que entrenaban, se encontraron con la dificultad o imposibilidad
de entrenar algunas de ellas en determinadas especies animales.
El caso más conocido probablemente sea cuando quisieron que un ma-

pache tomara unas monedas y las introdujera dentro de una caja. Al
principio se entrenó al animal con una sola moneda y aprendió fácil-
mente a agarrar la moneda e introducirla dentro de la caja, con lo que
conseguía comer como reforzador. Pero cuando se le dieron dos mone-
das simultáneamente para que las guardara en la caja, la conducta se
deterioró marcadamente. En lugar de tomar las monedas y ponerlas en
la caja (con lo que conseguiría rápidamente el reforzador), el mapache
sostenía las monedas entre las manos durante unos minutos, a menudo
rozándolas entre ellas, y en ocasiones dejándolas en la caja y volviendo
a tomarlas inmediatamente.
Los mapaches pueden aprender varias conductas, como por ejemplo encestar una pelota. En cambio, resultó difícil
condicionarlos a introducir monedas en una hucha
A pesar de que estas conductas no se reforzaron nunca, cada vez apa-

recían con más frecuencia hasta el punto de que los Breland tuvieron
que desistir en su intento de entrenarlos. Encontraron los mismos pro-
blemas cuando querían entrenar conductas similares en cerdos. En un
principio los cerdos aprendían a tomar una "moneda" de madera y la
metían en una caja, pero después de muchos intentos los animales em-
pezaban a alterar su comportamiento y mostraban respuestas como de-
jar caer la moneda y hocicar en el barro, volver a dejarla caer y hocicar
otra vez. Evidentemente, estas conductas no eran reforzadas, pero los
animales mostraban una fuerte tendencia a realizarlas.
¿Cómo es posible que unas respuestas que impiden la presentación del refor-
zador se mantuvieran con tanta fuerza? Los Breland se dieron cuenta de que
las conductas erróneas eran aquellas que los mapaches y los cerdos realizaban
normalmente como parte de su repertorio de conductas para la recolección de
comida. Ya que estas conductas parecían estar relacionadas con las respuestas
innatas de los sujetos, las denominaron derivas�instintivas:
Con una gran experiencia, la actuación de los sujetos se aleja de las res-
puestas reforzadas hacia las conductas instintivas que aparecen cuando
el animal está buscando el reforzador (en este caso, comida) en el medio
natural.
Otro aspecto del condicionamiento instrumental es que, la presentación del

reforzador después de una determinada respuesta provoca que ésta se seleccio-
ne en detrimento de otras respuestas. Una consecuencia de esta selección es
que el condicionamiento instrumental promueve una reducción en el rango
de respuestas que ejecutará un individuo. Efectivamente, si la única manera
que tiene una rata hambrienta para obtener comida es presionar una palanca,
veremos que esta conducta ocupa la mayor parte del tiempo del animal, al
menos mientras tenga hambre.
Una cuestión importante es si podemos, por medio del condicionamiento ins-

trumental, promover un incremento en la variabilidad�en�la�conducta. En
la mayoría de los procedimientos de condicionamiento instrumental el inves-
tigador selecciona una respuesta concreta y la refuerza cuando aparece. Pero
¿podremos condicionar a un animal para que ejecute cada vez una respuesta
diferente para conseguir el reforzador?
Page y Neuringer (1985) demostraron que el condicionamiento instrumental

podía utilizarse para provocar una variabilidad en la conducta.
Experimento de Page y Neuringer (1985)
En su investigación reforzaron a unas palomas con comida para ejecutar una secuen-
cia de ocho picotazos a dos teclas de respuesta en una caja de condicionamiento. Para
uno de los grupos, el grupo de control, no se puso ninguna restricción en la secuencia
de las ocho respuestas. Esto es, cada vez que había picoteado ocho veces las teclas
con independencia de qué tecla picoteaba y en qué orden lo había hecho, recibía el
reforzador. Para el segundo grupo, el grupo experimental, se incluyó una restricción
para recibir el reforzador. De hecho, los animales del grupo experimental sólo reci-
bían comida si la secuencia de picotazos en las teclas de respuesta era diferente a las
secuencias de respuestas que el animal había realizado en los últimos 50 ensayos.
La frecuencia de respuestas diferentes (secuencias derecha-izquierda) durante

los primeros días de entrenamiento fue del 50% en los dos grupos. En cambio,
al final del entrenamiento, mientras los animales del grupo control, sin nin-
guna restricción en la secuencia de respuestas derecha-izquierda, mostraron
una tendencia a realizar la misma secuencia (el porcentaje de secuencias dife-

rentes era de menos del 20%), los animales del grupo experimental mostraban
más del 75% de secuencias diferentes.
Entrenamiento de la
Estos resultados muestran claramente que si tomamos como respuesta creatividad
instrumental la variabilidad en la conducta, podemos reforzarla y pro-
El condicionamiento instru-
mover de esta manera que los organismos ejecuten respuestas diferen- mental puede ser útil para en-
trenar a las personas a ser crea-
tes cada vez. tivas, en el sentido de que bus-
quen soluciones nuevas a los
problemas conocidos.
4.3. El estímulo reforzador
El tercer elemento implicado en el condicionamiento instrumental es el refor-

zador. Habitualmente, en el laboratorio se utilizan estímulos biológicamente
potentes cuando se trabaja con animales no humanos. Podemos utilizar co-
mida para reforzar conductas como presionar una palanca con ratas o picotear
una tecla con palomas. Podemos utilizar igualmente estímulos aversivos como
descargas.
No obstante, podemos encontrar estímulos reforzadores que no entrarían en

la categoría de biológicamente potentes.
Trabajando con humanos podemos reforzar una conducta indicando simplemente que
la respuesta ha sido correcta o castigar otra conducta informando de que es incorrecta.
Fuera del laboratorio podemos modular la conducta de otras personas elogiándolas o
criticándolas. Con animales de compañía como perros o gatos podemos pronunciar la
palabra NO para que los animales dejen de hacer alguna conducta (por ejemplo, entrar
en una habitación) o hablarle cariñosamente cuando el animal se nos acerca.
Estas consideraciones nos llevan a dos aspectos de los reforzadores: primero,

existe una amplia variedad de estímulos que pueden funcionar como reforza-
dores; y, segundo, existen reforzadores que inicialmente eran estímulos neu-
tros y con un entrenamiento específico se convierten en reforzadores eficaces.
El primer punto nos lleva a buscar una definición de reforzador basada en sus
efectos y no en sus características físicas. Teniendo en cuenta eso,
podemos definir un reforzador como cualquier consecuencia que, pre-

sentada de manera contingente a una conducta, incrementa la proba-
bilidad de que la conducta se repita en el futuro. De la misma mane-
ra, podemos definir un estímulo punitivo como cualquier consecuencia
que presentada de modo contingente a una conducta previa reduce la
probabilidad de aparición de esta conducta en el futuro.
Atendiendo a estas definiciones nos damos cuenta de que no podemos saber

las propiedades reforzadoras (o punitivas) de un estímulo a priori. Sabremos si
un estímulo es reforzador (o punitivo) por los efectos que observaremos sobre
la conducta, pero no por las características intrínsecas al estímulo.
Ejemplo
Podemos pensar que un caramelo es un poderoso reforzador para los niños, y probable-
mente así será para la mayoría, pero podemos encontrar a algún niño a quien no le gus-
ten los caramelos y, en consecuencia, la golosina no tendrá propiedades reforzadoras.
La definición de reforzador dada por los efectos sobre la conducta nos permite
una clasificación amplia que incluye tanto los estímulos biológicamente po-
tentes, como los estímulos no biológicamente potentes. Sin embargo, la defi-
nición es circular. Si damos comida contingente a picotear una tecla y obser-
vamos que la conducta incrementa o se mantiene, podemos afirmar que la
comida es un reforzador porque incrementa la conducta contingente, pero si
preguntamos qué hace que la comida provoque un incremento de la respuesta
contingente, responderemos que el motivo es que la comida es un reforzador.
Es decir, volvemos al punto de partida.
Para salir de este estancamiento, se han propuesto algunas definiciones alter-

nativas basadas en la privación y el estado de necesidad que genera esta pri-
vación.
• Hull (1943) definía un reforzador no por las características del estímulo,

sino por sus propiedades a la hora de reducir un estado de necesidad. Por
ejemplo, si un animal ha pasado horas sin comida, el alimento será un
reforzador eficaz porque permite reducir un estado de necesidad. De aquí
se desprende que si el animal está saciado, la comida dejará de ser un re-
forzador eficaz. Esta definición nos permite predecir cuándo un estímulo
será un buen reforzador.
• De manera similar, Premack (1959) define un reforzador no en términos

de estímulos, sino de actividad. Si observamos a qué actividades se dedica
libremente un niño cuando llega a casa después de la escuela, probable-
mente observaremos que pasa un rato comiendo, que ve la televisión, jue-
ga a la Play Station, hace deberes o lee. Evidentemente, cada una de estas
actividades variará en cuanto a frecuencia de aparición y no será excesiva-
mente imprudente predecir que dedicará mucho tiempo a ver la televisión
y a jugar a la Play Station, y menos tiempo a hacer deberes o leer un libro.
De esta manera, Premack parte del supuesto de que el patrón global de activi-
dad de un sujeto se puede analizar en función de sus actividades componentes.
Probablemente, cuando no hay ningún tipo de restricción, el sujeto distribuirá
el tiempo entre las diferentes actividades de una determinada manera y esta
distribución reflejará la preferencia del sujeto por cada una de las actividades.
Si el niño del ejemplo dedica más tiempo a ver la televisión que a leer, enton-
ces podemos afirmar que la primera conducta se prefiere a la segunda. Ahora

bien, la distribución de las conductas puede variar en función de los estados
motivacionales. Si el niño no ha comido nada desde la hora de comer, es más
probable que cuando llegue a casa se dedique a comer y no a ver la televisión.
En definitiva, según Premack, la preferencia no depende del número o tipo

de actividad, sino de la tasa de ejecución de la actividad en relación con las
opciones disponibles. En cuanto a la relación de reforzamiento, Premack afir-
ma que una actividad preferida reforzará una actividad menos preferida si la
primera es contingente a la segunda. Por ejemplo, si observamos que el niño
del ejemplo dedica un 70% del tiempo a ver la televisión, un 10% a hacer de-
beres, un 10% a comer y el 5% restante a leer un libro, podremos reforzar la
conducta de leer (poco preferida) si la hacemos contingente a la conducta de
ver la televisión (muy preferida).
Hacer contingentes dos conductas implica, primero, restringir la conducta más

preferida y, segundo, establecer que sólo tendrá acceso a ella si previamente ha
dedicado un cierto tiempo a la conducta menos preferida. Así, podemos privar
al niño de ver la televisión si antes no lee un capítulo de un libro. Con esta
relación contingente observaremos dos efectos: un incremento de la conducta
menos preferida y una disminución de la conducta más preferida. El niño
puede dedicar en esta nueva disposición un 30% del tiempo a leer y un 55%
del tiempo a ver la televisión, manteniendo constantes el resto de conductas.
De igual manera podemos explicar el comportamiento de una rata en una caja

de condicionamiento. Si el animal lleva 16 horas sin comida y la ponemos
en una caja de condicionamiento con una palanca y acceso libre a la comida,
probablemente observaremos que dedica el 90% del tiempo a comer y el 10%
a otras conductas. Pero si restringimos el acceso a comida a que previamente
presione la palanca, observaremos un incremento en esta conducta. El prin-
cipio explicativo es el mismo: la restricción de una conducta preferida como
comida y contingente a una conducta poco preferida como presionar una pa-
lanca reforzará la conducta menos preferida.
Una consecuencia de este análisis es que cualquier conducta puede actuar co-
mo reforzador de otra conducta si se cumplen las condiciones mencionadas.
Si a una rata la ponemos en una caja donde hay disponible una rueda de ac-
tividad y agua, es posible que si el animal está saciado dedique más tiempo a
correr que a beber, pero un animal sediento dedicará más tiempo a beber que
a correr. Según Premack, en el primer caso correr podrá reforzar la conducta
de beber si restringimos el acceso a la rueda y lo hacemos contingente a la
respuesta de beber. En el segundo caso, beber puede reforzar la conducta de
correr si restringimos el acceso a agua y lo hacemos contingente a la conducta
de correr.
Con esta discusión sobre la definición de reforzador, hemos dejado de lado

el hecho de que determinados estímulos que no son biológicamente potentes
también tienen la capacidad de reforzar los comportamientos con los que son
contingentes. Un estímulo corriente en nuestra cultura servirá para ilustrar
este punto.
El trabajo diario que desarrollamos, seamos empleados o empresarios,

tiene una consecuencia importante: el dinero. Es evidente que las mo-
nedas y los billetes no son estímulos primarios, ya que no son bioló-
gicamente potentes como es el agua, la comida, el placer sexual o el
confort. Existe un proceso de aprendizaje a partir del cual el dinero se
convierte en un reforzador eficaz para modular nuestro comportamien-
to. ¿Cuál es este aprendizaje que provoca que un estímulo inicialmente
neutro termine convirtiéndose en un reforzador? A lo largo de nuestra
infancia vamos asociando el dinero con todos los bienes que podemos
obtener con él. Un niño puede intercambiar unos céntimos de euro por
caramelos, por juguetes y otros objetos que son reforzadores primarios.
De mayores, podemos invertir el dinero en muy diferentes objetos y ac-
tividades. Podemos ir a la discoteca, comprar la comida diaria, pagar el
gas, la electricidad, el agua, adquirir una casa y un coche, etc. Así pues,
trabajar nos proporciona dinero y el dinero anticipa la posibilidad de
satisfacer la mayoría de nuestras necesidades básicas.
¿Es posible que un estímulo condicionado clásicamente con un EI pueda servir

como reforzador?
En el módulo "Condicionamiento clásico pavloviano" ya hemos visto, cuando

hemos estudiado el condicionamiento de segundo orden, que si un EC (como
una luz) se empareja sistemáticamente con un EI, este EC se puede utilizar
como EI en el condicionamiento clásico si lo emparejas con un EC nuevo
(por ejemplo un tono). Si emparejamos el tono con la luz, el tono empezará
a provocar la respuesta condicionada como si el tono se hubiera emparejado
directamente con el EI.
En el condicionamiento instrumental, el papel del EI lo hace el reforzador. El

papel de EC primario es el estímulo neutro que se convertirá en un reforzador
condicionado o secundario después de emparejarlo con el reforzador prima-
rio. Posteriormente, el reforzador secundario puede actuar como sustituto del
reforzador primario para reforzar una conducta con la que se entrega de ma-
nera contingente.
Skinner (1938) publicó una de las primeras demostraciones de la capacidad de

un reforzador secundario para reforzar una conducta instrumental.
Experimento de Skinner (1938)
En una primera fase del experimento presentó repetidamente a unas ratas un sonido
emparejado con comida. Durante esta fase del experimento los animales no tenían
que realizar ninguna conducta para obtener comida, por lo tanto, se trataba de un
procedimiento de condicionamiento clásico. En la segunda fase del experimento, se
dejó de presentar la comida y, a pesar de ello, los animales aprendieron a presionar la
palanca cuando esta conducta activaba el sonido. Evidentemente, ya que el sonido no
se volvió a emparejar con la comida durante la segunda fase, no nos debe sorprender
que la respuesta de presión de la palanca no persistiera durante demasiado tiempo.
Este aspecto es un paralelismo más con el condicionamiento de segundo orden.
Un concepto similar al de reforzador condicionado es el que Skinner denomi-

nó reforzador�generalizado.
Un reforzador generalizado no es nada más que un tipo especial de re-

forzador condicionado que se ha relacionado con muchos reforzadores
primarios diferentes.
El ejemplo del dinero que veíamos más arriba sirve para ilustrar qué es un re-
forzador generalizado. El dinero lo tenemos asociados con diferentes reforza-
dores primarios y de ahí que se convierta en un reforzador tan potente. Pero su
poder depende de que siga asociado con los reforzadores primarios tal como
demostraba el experimento de Skinner. Si el dinero dejara de ser útil para inter-
cambiarlo por reforzadores primarios, difícilmente encontraríamos a alguien
que trabajara para obtener un puñado de trozos de papeles de varios colores.
Existen algunas variables como la cantidad y la naturaleza del reforzador que

determinan directamente la tasa de la respuesta instrumental.
Experimento de Hutt (1954)
Por ejemplo, Hutt (1954) manipuló la cantidad y calidad del reforzador que unas ratas
obtenían por presionar una palanca. Diferentes grupos de ratas obtenían cantidades
pequeñas, medias o grandes de comida si llevaban a cabo la respuesta instrumental.
La comida consistía en una masa líquida de agua, leche y harina. Hutt manipuló
la calidad de la comida haciendo más agradable la masa básica añadiendo sacarina,
haciéndola desagradable con ácido cítrico o dejando la masa básica sin aditivos.
Los resultados encontrados por Hutt (1954) fueron que la tasa de respuesta
de presión de palanca incrementaba de manera directamente proporcional a
la cantidad y calidad del reforzador. Es decir, la tasa de respuesta era mayor
cuando proporcionaba más cantidad de reforzador. También la tasa de la res-
puesta era mayor cuando la calidad del reforzador mejoraba.
Veamos ahora una situación diferente.
Imaginemos que un día que estamos en el trabajo nos llama el jefe para comunicarnos
que a partir del mes siguiente cobraremos un 50% más de sueldo por el mismo trabajo
y, efectivamente, a final de mes nos ingresan el dinero tal como nos habían prometido.
¿Tendrá algún efecto sobre nuestro comportamiento en relación con las tareas que reali-
zábamos habitualmente (recordemos que en este caso hipotético no se nos pide nada a
cambio)? Es muy probable que, aparte de la alegría e incredulidad que nos puede provo-
car el inédito hecho, trabajemos con más entusiasmo, al menos, durante un tiempo.
¿Realmente sucederá así? En el laboratorio se han estudiado situaciones simi-

lares a la descrita en la situación presentada y los resultados confirman estas
predicciones.
Experimento de Crespi (1942)
Crespi (1942) entrenó a tres grupos de ratas a correr por un pasillo para obtener co-
mida. Durante una primera fase del experimento, cada grupo recibía una cantidad
diferente de reforzador cuando llegaba a la caja meta. Uno de los grupos recibía 4
bolitas de comida, otro grupo recibía 16 bolitas de comida y el tercer grupo recibía
64 bolitas de comida. Al final de este primer entrenamiento y, tal como era de espe-
rar, el grupo que recibía la cantidad más pequeña de reforzador era el que corría más
lentamente (aproximadamente, a 1,5 pies por segundo), mientras que el que recibía
la cantidad mayor era el que corría más deprisa (aproximadamente, a 3,5 pies por
segundo). El grupo que recibía una cantidad media mostró una velocidad de carre-
ra entre los otros dos grupos (aproximadamente, a 2,5 pies por segundo). Lo más
interesante fue la manipulación que llevó a cabo Crespi, en una segunda fase del
experimento: igualó la cantidad de bolitas de comida en los tres grupos de manera
que todos recibieron 16 bolitas de comida. Por lo tanto, había un grupo que pasó
de recibir 4 bolitas a recibir 16, otro grupo que pasó de recibir 64 a recibir 16 y un
tercer grupo, el grupo de control, que no experimentó ningún cambio en la cantidad
de reforzador. Podemos realizar una primera predicción del comportamiento de los
animales en esta segunda fase.
Si la intensidad de la respuesta instrumental depende del valor absoluto de la

cantidad de reforzador, entonces los tres grupos deberían manifestar la misma
velocidad de carrera durante la segunda fase, ya que los tres grupos recibieron
la misma cantidad de reforzador.
En realidad, los resultados no se ajustaron a esta predicción. Evidentemente,

el grupo de control que no experimentó ningún cambio en la cantidad de
reforzador mantuvo su velocidad de carrera. En cambio, el grupo que había
estado recibiendo la cantidad pequeña, mostró una velocidad de carrera supe-
rior a la del grupo de control (en torno a 3,5 pies por segundo), mientras que
el que vio reducida la cantidad de reforzador en la segunda fase mostró una
velocidad de carrera inferior (aproximadamente, 1,5 pies por segundo) a la del
grupo de control.
Los cambios en la conducta observados cuando se incrementa la cantidad de

reforzador se denominan contraste� positivo, mientras que los cambios de
conducta debidos a una reducción en la cantidad habitual de reforzador reci-
ben el nombre de contraste�negativo.
En definitiva, los efectos de contraste positivo y negativo ponen en re-

lieve que los efectos de la cantidad (y también de la calidad) de un refor-
zador concreto dependen de la cantidad (y calidad) de los reforzadores
que un individuo ha experimentado en el pasado.
Flaherty y sus colegas han estudiado qué mecanismos pueden estar implica-
dos en los efectos de contraste. A pesar de estar lejos todavía de una respues-
ta suficientemente convincente, parece que los mecanismos de cada efecto
de contraste, positivo y negativo, están mediados por mecanismos diferentes
(Flaherty, 1996). El efecto de contraste negativo es más robusto que el de con-
traste positivo. Entre los diferentes mecanismos responsables del contraste ne-
gativo se ha propuesto que un cambio a una recompensa peor puede provocar
un estado de frustración (Amsel, 1992). Flaherty (1996) propone que el cam-
bio a una recompensa pequeña provocaría cambios cognitivos y de conducta.
Inicialmente, el hecho de encontrar una recompensa más pequeña de la espe-
rada activaría respuestas de investigación de mejores fuentes de alimentación.
Cuando estas conductas exploratorias no tienen éxito, entonces se producen
cambios emocionales de desencanto y la conducta se adapta a la nueva situa-
ción.
4.4. La relación respuesta-reforzador: contigüidad temporal y

contingencia
A lo largo del módulo estamos presentando situaciones en las que la conduc- Ejemplo
ta produce y está controlada por sus consecuencias. La conducta fluye en un
Aprendemos que manipulando
continuo y al mismo tiempo a nuestro alrededor se producen infinidad de es- un interruptor podemos en-
tímulos. Todo puede parecer caótico; no obstante, los procesos de aprendizaje cender o apagar una luz, pero
que salga o se ponga el sol no
nos permiten extraer qué regularidades se producen en nuestro entorno. Po- está bajo nuestro control.
demos llegar a determinar si algunos estímulos dependen de nuestro compor-

tamiento y qué estímulos no están bajo nuestro control.
También es cierto que las relaciones entre nuestra conducta y las consecuencias Ejemplo
no son siempre determinantes, como la manipulación del interruptor y la luz,
Si lanzamos una pelota a una
sino que son probabilísticas. canasta durante un partido
de baloncesto, sólo encestare-
mos un porcentaje de los lan-
El descubrimiento de todas las posibles relaciones entre acontecimientos y, en zamientos.
el caso que nos ocupa en este módulo, entre la conducta y sus consecuencias,
nos permite adaptarnos al entorno en función de nuestras necesidades. Nues-
tro objetivo ahora es analizar qué mecanismos permiten a los organismos de-
tectar las regularidades entre nuestro comportamiento y sus consecuencias.
Como ya hemos visto en el módulo "Condicionamiento clásico pavloviano" a

la hora de explicar cómo se detectaban las relaciones entre estímulos, existen
dos tipos de principios que se han tenido en cuenta para explicar por qué dos
acontecimientos quedan asociados. El primer principio es el de la contigüidad
temporal y el segundo es el de la contingencia.
1)�Principio�de�la�contigüidad�temporal
La perspectiva tradicional del condicionamiento, tanto clásico como instru-

mental, es que la contigüidad temporal es la condición que determina si se
formarán las asociaciones. Si al entrar en una habitación que está a oscuras
pulsamos el interruptor, la luz se enciende inmediatamente y podemos detec-
tar rápidamente la relación entre la conducta y su consecuencia. Pero ¿qué
sucedería si introdujéramos una demora entre los dos acontecimientos? ¿Se-
remos capaces de detectar la relación entre respuesta y reforzador? La investi-
gación realizada en la que se manipulaba la demora entre la respuesta y el re-
forzador ha mostrado que a medida que se incrementaba la demora, el apren-
dizaje era más débil.
Experimento de Dickinson, Watt y Griffiths (1992)
Dickinson, Watt y Griffiths (1992) realizaron un experimento en el que las ratas de-
bían presionar la palanca para obtener una bolita de comida. La manipulación ex-
perimental consistía en introducir diferentes demoras entre la respuesta y el reforza-
dor. En cuatro grupos diferentes de animales se utilizaron demoras de 2, 4, 24 y 64
segundos. Así, en el caso del grupo con una demora de 2 segundos, la presión de pa-
lanca proporcionaba el reforzador 2 segundos después de que se hubiera producido
la respuesta y en el grupo con la demora de 64 segundos, el reforzador aparecía 64
segundos después de ejecutar cada presión de palanca. Se midió la tasa de presión de
palanca y se obtuvo que a medida que se incrementaba la demora, la tasa disminuía.
El grupo que tenía una demora de 2 segundos, presionaba la palanca con una tasa de
20 respuestas por minuto; el grupo con una demora de 4 segundos respondía 7 veces
por minuto; el grupo con 64 segundos de demora respondió sólo una vez por minuto.
A menudo nos encontramos con situaciones que no proporcionan la

recompensa inmediatamente; no obstante, aprendemos las relaciones
entre nuestra conducta y el reforzador.
Si introducimos monedas en una máquina de refrescos y pulsamos el botón

adecuado, el refresco cae con una demora muy breve. ¿Pero sucede lo mismo
con una máquina de café? Normalmente, las máquinas de café dispensan la
bebida con una demora relativamente larga, el tiempo que se necesita para
moler el grano de café y filtrar el agua a través del café molido. Pulsar el bo-
tón para llamar a un ascensor también incluye una demora si el ascensor no
se encuentra en la misma planta desde donde lo llamamos. ¿Qué hace que
podamos aprender la relación entre la respuesta y el reforzador a pesar de las
demoras entre ellos?
Si realizamos un análisis más esmerado de las situaciones de la máquina de

café y del ascensor, nos daremos cuenta de que entre la respuesta y el reforza-
dor aparecen una serie de estímulos. Por ejemplo, una vez hemos pulsado el
botón del café expreso se ponen en marcha los mecanismos necesarios para
moler el café y después la bomba que hace circular el agua. Todos estos meca-
nismos producen unos sonidos específicos que se presentan inmediatamente
después de la respuesta y se alargan hasta que el café está preparado. ¿Serán
estos estímulos los responsables de que podamos aprender la relación entre
nuestra conducta y el reforzador?
Experimento de Reed (1999)
En un trabajo, Reed (1999) entrenó a unos participantes a elegir una de dos teclas
de un teclado de ordenador, la A y la L. Pulsar la tecla A iba seguido el 75% de las
veces por el parpadeo de un triángulo dibujado en la pantalla, mientras que pulsar
la tecla L no provocaba nunca el parpadeo. En uno de los grupos (grupo inmediato),
el parpadeo se producía inmediatamente después de pulsar la tecla A. En cambio,
para otros dos grupos, el parpadeo del triángulo se producía 5 segundos después de la
respuesta. En uno de estos dos grupos con demora, entre el momento de la respuesta
y el reforzador no pasaba nada (grupo no señalado), mientras que para el otro grupo,
inmediatamente después de pulsar la tecla A, aparecían cuatro X próximas al trián-
gulo y desaparecían en el momento en el que se presentaba el parpadeo del triángulo
(grupo señalado). Finalmente, se pedía a los participantes que valoraran la relación
entre presionar cualquiera de las teclas, A y L, con la consecuencia. Todos los grupos
señalaron que la tecla L no tenía ninguna relación con el parpadeo del triángulo, pero
discreparon en la relación dada entre la tecla A y el parpadeo. El grupo inmediato fue
el que encontró una relación alta, en torno a 95 en una escala de 0 a 100. El grupo no
señalado encontró una relación baja, unos 30 puntos. Finalmente, el grupo señalado
puntuó ligeramente por encima de los 50 puntos.
Los resultados mostraron que cuando se señalaba un reforzador demorado in-

crementaba los juicios de la relación causal entre respuesta y reforzador en
relación con cuando el reforzador demorado no iba señalado. Pero ¿por qué
la señal que llena la demora reduce los efectos perjudiciales de la demora?
La respuesta más habitual es que la señal actúa como reforzador condicionado

o secundario. Por su emparejamiento con el reforzador, forma una asociación
clásica con éste. Una vez formada esta asociación, el participante puede rela-
cionar la respuesta con la señal, que a su vez indica la presentación del refor-
zador. Las personas que no detectan la relación entre la iluminación de la tecla
del ascensor una vez la han presionado y la llegada de éste, pueden persistir
en la respuesta si el ascensor tarda más de lo que pueden suponer razonable.
Otro fenómeno relacionado con la demora del reforzador es lo que se deno-

mina hipótesis�del�marcado.
Experimento de Lieberman, McIntosh y Thomas (1979)
Lieberman, McIntosh y Thomas (1979) fueron los primeros en describir este fenó-
meno. Utilizaron un aparato adaptado expresamente a los objetivos de su experimen-
to. El aparato consistía en una caja de salida que daba paso a la caja de elección. En la
pared del fondo de esta caja había dos pasadizos que corrían paralelos y que desem-
bocaban en una caja común de demora. Los dos pasadizos se distinguían por el color,
ya que uno era negro y el otro era blanco. Finalmente, la caja de demora daba paso
a la caja meta donde se proporcionaba la comida. Los sujetos experimentales fueron

ratas. Un ensayo consistía en dejar una rata en la caja de salida. Después se abría la
puerta que comunicaba con la caja de elección y una vez el animal había entrado
debía elegir uno de los dos pasadizos posibles. Cuando había atravesado el pasadizo
elegido, el animal entraba en la caja de demora, donde quedaba confinado durante
60 segundos. Pasados los 60 segundos, se abría la puerta que daba acceso a la caja
meta. Las ratas encontraban comida si en su elección habían elegido un brazo con-
creto, por ejemplo el de color blanco, pero no había comida si habían elegido el brazo
negro. Por lo tanto, una buena actuación de los animales era elegir el brazo blanco
en cada ensayo. No obstante, los animales entrenados en estas condiciones elegían
el brazo correcto un 50% de las veces después de 50 ensayos de condicionamiento,
lo que indicaba que no habían aprendido en absoluto la relación entre elegir el brazo
blanco y encontrar comida en la caja meta, lo que constituye un ejemplo más de los
efectos perjudiciales de la demora. El experimento constaba de un segundo grupo
que recibió el mismo tratamiento excepto que una vez habían elegido cualquiera de
los dos brazos, era el experimentador quien los tomaba y los situaba en la caja de
demora y, 60 segundos después, los volvía a tomar y los dejaba en la caja meta donde
encontraban o no el reforzador en función del brazo elegido.
Lieberman y sus colaboradores designaron esta manipulación experimental

como un marcado�de�la�conducta�clave. Como el marcado aparecía tanto
en las respuestas correctas como incorrectas, no tenía posibilidades de actuar
como un reforzador secundario. A diferencia del grupo no marcado, el grupo
marcado aprendió la discriminación y en los 10 últimos ensayos de entrena-
miento realizaban el 90% de elecciones de manera correcta.
La explicación dada por Lieberman y sus colaboradores del fenómeno

del marcado es que cuando se produce un efecto intenso se marca la res-
puesta que se estaba realizando en aquel momento. El efecto del mar-
cado sería facilitar la grabación en la memoria de lo que sucedía en el
momento del marcado y de esta manera permitiría asociar mejor estas
respuestas con las consecuencias.
Torres gemelas
Un paralelismo a los efectos del marcado sería el hecho de que muchas personas podemos
recordar perfectamente lo que hacíamos en el momento en el que nos enteramos de
los atentados contra las torres gemelas o contra los trenes de cercanías en Madrid. Estos
acontecimientos intensos permitieron registrar en nuestra memoria las conductas que
realizábamos en el momento de enterarnos de los atentados, por irrelevantes o rutinarias
que fueran.
El hecho de que haya un deterioro del condicionamiento con demoras largas

en la presentación del reforzador no significa que no haya situaciones donde
se puede obtener aprendizaje cuando se retrasa el reforzador, a pesar de que no
haya reforzadores condicionados ni el marcado de la respuesta instrumental.
Experimento de Williams (1975)
Por ejemplo, Williams (1975) entrenó a unas palomas en una caja de condiciona-
miento para que picotearan una tecla de respuesta que se iluminaba durante 5 segun-
dos. Las respuestas de picotear la tecla se reforzaban con la presentación de comida 9
ó 10 segundos después de que se apagara la tecla iluminada. Esta demora del reforza-
miento no impidió el condicionamiento: los animales aprendieron a picotear la te-
cla iluminada. El experimento de Williams incluía un segundo grupo de palomas. El
tratamiento recibido fue idéntico, excepto en que al finalizar la demora y justo antes
de que se presentara la comida se iluminaba una segunda tecla de un color diferente.
Esta simple manipulación experimental dio como resultado un descenso dramático
en la respuesta instrumental de picotear la primera tecla. Los sujetos atribuyeron la
aparición de la comida al estímulo que lo precedía inmediatamente en lugar de ha-
cerlo a las respuestas dadas algunos segundos antes.
Siempre se puede argumentar que en el experimento de Williams la segun-

da tecla mantenía una mejor contigüidad temporal con el reforzador que la
respuesta de picotear en la primera tecla y, por lo tanto, se ajusta, de alguna
manera, al principio de contigüidad. No obstante, la respuesta instrumental
mantenía la misma contigüidad temporal en los dos grupos de palomas (una
demora de 9 o 10 segundos) y, según el principio de la contigüidad temporal
por sí solo, la presencia de un segundo estímulo no debería haber interferido
en el aprendizaje respuesta-reforzador.
Ved también
Experimento de Pearce y Hall (1978)
Podéis ver el apartado 5.3,
En otro trabajo de Pearce y Hall (1978) se entrenó a unas ratas a presionar la palanca "Programas de intervalo", de
para obtener comida con un programa de intervalo variable (podéis ver el apartado este módulo didáctico.
siguiente sobre programas de reforzamiento; de momento sólo hay que enfatizar que
este programa de reforzamiento es intermitente y hace que no todas las respuestas
vayan seguidas de reforzador, es decir, la relación respuesta reforzador es imperfecta).
En uno de los grupos se presentó un predictor perfecto de la comida al disponer que
las presiones de palanca reforzadas también provocaran un estímulo externo, breve.
Este estímulo añadido no aparecía en ningún otro momento y, por lo tanto, estaba
perfectamente correlacionado con el reforzador interfiriendo significativamente con
el establecimiento de las presiones de palanca y, por lo tanto, presumiblemente con
el aprendizaje de la asociación entre la presión de palanca y el reforzador. En cam-
bio, en los grupos de control en los que o bien no aparecía este estímulo externo
o aparecía pero de manera no correlacionada con el reforzador, se observó un buen
condicionamiento de la respuesta de presión de palanca.
2)�Principio�de�la�contingencia
Una consecuencia del principio de contigüidad temporal es que cualquier res-

puesta que fuera seguida del reforzador quedaría asociada con él. No obstante,
hemos presentado bastantes ejemplos que indican que la contigüidad tempo-
ral no es suficiente ni necesaria para el establecimiento de asociaciones, de lo
contrario tendríamos la cabeza llena de asociaciones irrelevantes.
Según Mackintosh (1983), si la función del condicionamiento es detec-

tar las relaciones causales entre acontecimientos, esta capacidad se debe
basar en un mecanismo que impida la formación de las asociaciones
irrelevantes.
¿Cuál es este mecanismo que asegura un buen condicionamiento de los bue-

nos predictores del reforzador a expensas de los peores predictores? Al estu-
diar el condicionamiento clásico ya hemos visto los experimentos de Rescorla
(1967, 1968) en los que se demostraba que el condicionamiento dependía de
la contingencia entre el EC y el EI, es decir, de la probabilidad de que el EI se
presentara en presencia del EC y en su ausencia. ¿Es este mecanismo también
responsable del condicionamiento instrumental?
Si recordamos los procedimientos de condicionamiento instrumental, tendre-

mos presente que una de las variables que se debe tener en cuenta a la hora
de estudiar estos procedimientos es la relación positiva o negativa entre la res-
puesta y el estímulo consecuente. Hablábamos de una relación positiva cuan-
do el estímulo consecuente se presentaba sólo si se producía la respuesta y
decíamos también que la relación negativa implicaba que la respuesta hacía
desaparecer un estímulo relevante. En términos de probabilidad respuesta-re-
forzador, podemos decir que tanto en el reforzamiento como en el castigo po-
sitivo la probabilidad del estímulo apetitivo y aversivo, respectivamente, en
presencia de la respuesta es 1, mientras que la probabilidad de que aparecieran
estos estímulos en ausencia de la respuesta es 0. En el caso del reforzamiento y
del castigo negativo, la relación se invierte de manera que la probabilidad del
estímulo aversivo y apetitivo, respectivamente, en presencia de la respuesta es
0, mientras que la probabilidad de que aparecieran estos estímulos en ausencia
de la respuesta es 1.
Por otra parte, cuando se ha estudiado directamente el papel de la contingen-

cia en el condicionamiento instrumental, se ha observado que este factor es
más importante que la contigüidad temporal.
Experimento de Hammond (1980)
Hammond (1980) estableció en una investigación que el 5% de las respuestas de pre-

sión de palanca de unas ratas proporcionaran agua como reforzador. Formalmente,
la probabilidad del reforzador dada la respuesta era de 0,05, o p(Rf/Rs) = 0,05, donde
Rf es el reforzador y Rs la respuesta. El reforzador, sin embargo, nunca se presenta-
ba si antes no se ejecutaba la respuesta, es decir, que la probabilidad del reforzador
en ausencia de la respuesta era igual a cero, o p(Rf/no Rs) = 0. Esta disposición ase-
guraba que los animales recibieran un reforzador cada 20 segundos si, y sólo si, ha-
bían presionado la palanca. En una segunda fase, Hammond introdujo presentacio-
nes gratuitas de agua, de manera que la probabilidad de obtener agua sin presionar
la palanca igualaba la probabilidad de recibir el agua cuando ejecutaban la respuesta
instrumental.
Los resultados fueron claros: cuando la única manera posible de obtener agua
era presionando la palanca la tasa de respuesta era alta, pero cuando el refor-
zador era igual de probable respondiendo o no, los animales dejaron de pre-
sionar la palanca. Los resultados demuestran que los animales eran sensibles
a las diferentes contingencias respuesta reforzador y su actuación estaba con-
trolada por estas contingencias.
En un experimento con estudiantes universitarios, Chatlosh, Neunaber y Was-

serman (1985) encontraron resultados similares.
Experimento de Chatlosh, Neunaber y Wasserman (1985)
En este caso, se pidió a los estudiantes que en cada ensayo pulsaran o no una tecla.
La tarea consistía en averiguar si pulsar la tecla tenía algún efecto sobre el encendido
de una luz blanca. Finalmente, los participantes debían estimar el grado de relación
entre la respuesta y la luz blanca en una escala de –100 a +100 (un valor negativo
indicaba que la respuesta evitaba que se encendiera la luz mientras que puntuaciones
positivas querían decir que la respuesta hacía encender la luz). Los experimentadores
variaron la contingencia entre respuesta y consecuencia que iba de –75 a +75.
Los datos mostraron cómo las puntuaciones estimadas de los participantes se

ajustaban a las contingencias reales.
5. Programas de reforzamiento
Un programa de reforzamiento es el conjunto de criterios que determi-

nan si una conducta irá seguida de reforzador o no.
Estos criterios se establecen, básicamente, en términos del número de respues-

tas necesarias que se deben ejecutar y de cuánto tiempo ha de transcurrir desde
el último reforzador para que el siguiente esté disponible. Si bien los progra-
mas de reforzamiento pueden influir en la adquisición de nuevas conductas,
su estudio se ha centrado en los efectos que tienen sobre el mantenimiento de
conductas ya adquiridas y, también, en el efecto que tienen sobre la extinción
de conductas que se quieren eliminar.
El estudio de los programas de reforzamiento se ha llevado a cabo principal-

mente en situaciones de operante libre que permiten ver la conducta a lo largo
del tiempo y se ha encontrado que los diferentes programas simples de refor-
zamiento provocan patrones de respuesta bien definidos y diferenciados.
5.1. Programas de reforzamiento continuo
Prácticamente, todos los ejemplos que hemos visto hasta ahora estaban con-
trolados por un programa�de�reforzamiento�continuo. Esto significa que ca-
da vez que aparece la respuesta operante va seguida del reforzador.
Si ponemos las monedas pertinentes en una máquina de café y presionamos el botón

correspondiente a café expreso, siempre obtendremos la bebida. Si introducimos un vaso
de leche en el microondas durante un tiempo apropiado, obtendremos la temperatura
deseada para tomarnos la leche. Si manipulamos un interruptor, se encenderá la luz si
estaba apagada, o se apagará si estaba encendida.
Un programa de reforzamiento será útil para mantener la tasa de respuesta.

Ahora bien, no todas las conductas que realizamos llevan siempre a la obten-
ción del reforzador.
Un jugador de baloncesto puede tirar a canasta varias veces durante un partido pero no
siempre obtendrá el resultado deseado, sino que encestará sólo un porcentaje de sus lan-
zamientos. Podemos llamar por teléfono, pero no siempre conseguimos contactar con la
persona deseada, ya que unas veces comunican y otras no responden. Si nos encontramos
en un semáforo que cambia de rojo a verde y el coche de delante no avanza, podemos
tocar el claxon y probablemente el conductor despistado se pondrá en marcha, pero si
nos encontramos en un atasco de tráfico por mucho que toquemos el claxon, los coches
no se pondrán en movimiento.
En todas estas situaciones, la respuesta va seguida unas veces del reforzador

y otras no. Sin embargo, la respuesta se mantiene. No dejaremos de lanzar a
canasta si fallamos unos lanzamientos, ni dejaremos de realizar llamadas tele-
fónicas a pesar de que no hayamos podido contactar con la persona que nos
interesaba, ni dejaremos de tocar el claxon cuando nos encontramos con el
coche de delante parado. Estos tipos de programas donde la respuesta no va

seguida siempre del reforzador reciben el nombre de programas�de�reforza-
miento�parcial�o�intermitente.
5.2. Programas de razón
El único criterio que define un programa�de�razón es que la respuesta se dé

un determinado número de veces antes de proporcionar el reforzador. Cuando
el número de respuestas necesario para cada reforzador es constante, recibe el
nombre de razón fija y se abrevia RFn, donde n es el valor de la razón.
Una rata que está sometida a un programa de reforzamiento RF25 recibirá el reforzador
cada 25 respuestas, esto es, las primeras 24 respuestas no serán reforzadas y la que hace
25 recibirá al reforzador. Una vez ha recibido el reforzador, se vuelve a iniciar la razón.
Esquema de un programa de reforzamiento de razón
En la parte superior se muestran las respuestas dadas a lo largo del tiempo y los reforzadores obtenidos. En este caso, el animal
recibe un reforzador cada 5 respuestas y se trata de un programa de razón fija 5 o RF5. En la parte inferior, el animal ha recibido
un reforzador después de 4, 7, 3 y 6 respuestas. En este caso, se trata de un programa de razón variable. Si calculamos la media
aritmética de las cuatro razones, obtendremos que el animal ha necesitado una media de 5 respuestas para cada reforzador, de
ahí que el programa sea de RV5.
Fuera del laboratorio podemos encontrar ejemplos de programas de reforza-

miento de razón fija:
Una persona que ha de vender un número determinado de productos para cobrar los
incentivos, teclear nueve dígitos para establecer una llamada telefónica, o subir los pel-
daños de la escalera hasta el primer piso.
En todos estos ejemplos, hay que dar un número fijo de respuestas antes de
alcanzar el reforzador.
Un caso particular de programa�de�reforzamiento�de�razón�fija es la RF1.

Si el número de respuestas necesarias para cada reforzador es 1, entonces el
programa es de reforzamiento continuo, ya que cada respuesta irá seguida del
reforzador.
Los programas�intermitentes�de�razón�fija generan un patrón de respuesta

característico. Si la razón es suficientemente grande, se puede observar que los
animales dejan de responder durante un tiempo cada vez que reciben un re-
forzador. La tasa cero que se observa después de cada reforzador se denomina
pausa�postreforzamiento. Después de la pausa, los animales inician las res-

puestas con una tasa alta y estable hasta que obtienen el siguiente reforzador.
La tasa de respuestas dadas por los animales se denomina carrera�de�la�razón.
Cuando se entrena a un animal (o una persona) bajo un programa de RF, se
empieza por razones bajas y progresivamente se va incrementando la razón
hasta llegar a la razón deseada. Hay que tener en cuenta, sin embargo, que los
incrementos en la razón no pueden ser excesivamente grandes si no queremos
que se deje de responder.
Efectivamente, cada vez que incrementamos la razón de manera repentina y

significativa, aparece un efecto que recibe el nombre de tensión�de�la�razón,
que consiste en que el animal realice pausas periódicas durante la carrera de
la razón. Si la tensión de la razón es extrema, entonces el animal podría dejar
de responder. La pausa postreforzamiento se ha explicado como un efecto de
la predictibilidad del número de respuestas necesarias para cada reforzador.
Además, se suponía que la duración de la pausa estaba relacionada con el es-
fuerzo requerido por la razón precedente, es decir, la pausa postreforzamiento
se interpretaba como un efecto directo de la conducta inmediatamente prece-
dente. No obstante, Baron y Herpolsheimer (1999) encontraron que la pausa
postreforzamiento estaba controlada más por la razón subsecuente que por la
razón inmediatamente previa.
La interpretación de estos datos es que los animales no realizan la pausa pos-

reforzamiento para descansar, sino que más bien están evaluando el esfuerzo
requerido para alcanzar el siguiente reforzador.
Si completamos un puzzle de 1.000 piezas, es posible que dejemos pasar cierto tiempo
antes de comenzar a realizar el siguiente y que este tiempo será más largo si el siguiente
puzzle es de 3.000 piezas que si es de 1.000.
Si la pausa fuera determinada por el esfuerzo del puzzle que acabamos de ha-
cer, la pausa sería la misma independientemente del número de piezas del si-
guiente puzzle.
Por otra parte, en los programas�de�reforzamiento�de�razón�variable el nú-

mero de respuestas requeridas para cada reforzador va cambiando. Estos pro-
gramas se abrevian RVn, donde n es el número promedio de respuestas dadas
para obtener cada reforzador.
Si jugamos una partida de billar en la que hemos de introducir 8 bolas en los diferentes
agujeros, necesitaremos un número diferente de tiradas para introducir en cada uno de
los agujeros las bolas. Puede darse el caso de que a la primera tirada acertemos a intro-
ducir una bola en uno de los agujeros o puede ser que necesitemos varios golpes para
conseguirlo.
Si hemos necesitado 2, 5, 10, 6, 9, 1, 10 y 5 veces para introducir las 8 bolas que nos co-
rresponden, entonces habremos ejecutado nuestra conducta bajo un programa de RV6.
Tendremos en cuenta que el valor 6 de la RV es la media aritmética del número de res-
puestas requeridas por las 8 bolas.
Más familiar puede ser el ejemplo de las máquinas tragaperras, en las que el jugador
debe realizar un conjunto de jugadas para recibir el reforzador pero nunca sabe cuántas
jugadas debe efectuar.
Como en estos programas la razón varía, no se puede predecir el número de

respuestas necesarias para cada reforzador, las pausas posreforzador desapare-
cen y, por lo tanto, la tasa de respuestas es mucho más estable en los progra-
mas de RV que en los programas de RF.
5.3. Programas de intervalo
A diferencia de los programas de razón, en los que el único requisito para ob-
tener el reforzador es dar un cierto número de respuestas, en los programas
de�intervalo existe una segunda condición que implica que debe haber trans-
currido una determinada cantidad de tiempo desde el último reforzador para
que vuelva a estar disponible.
En los programas de intervalo se deben cumplir dos condiciones para

obtener el reforzador: ejecutar la respuesta instrumental y haber trans-
currido una determinada cantidad de tiempo desde el último reforzador.
Si somos aficionados a las series televisivas, por ejemplo Dr. House, podemos ser reforza-
dos si encendemos el televisor y sintonizamos el canal adecuado en el día y la hora de
emisión. Ahora bien, una vez se ha acabado el capítulo de la semana, poner en marcha
el televisor y sintonizar el canal no producirá el reforzador. De hecho, será necesario que
transcurra una semana hasta que vuelva a estar disponible nuestra serie preferida.
El ejemplo hace referencia a un período fijo de tiempo (una semana) y, por lo

tanto, hablaremos de programa de reforzamiento de intervalo fijo una semana
o, de manera abreviada, IF1semana. En el laboratorio podemos estudiar este
tipo de programa haciendo que un reforzador esté disponible, por ejemplo, 2
minutos después de que se haya obtenido el último reforzador. Esto implica
que, una vez se ha dispensado un reforzador, durante los dos minutos siguien-
tes no se obtendrá otro reforzador, a pesar de que el animal responda. Ahora
bien, una vez transcurridos estos dos minutos, el reforzador volverá a estar
disponible y la primera respuesta que se dé será reforzada y se volverá a iniciar
otro intervalo de dos minutos. Hay que tener en cuenta que un programa de
intervalo no depende sólo del tiempo, sino que es necesario que el organismo
ejecute la respuesta instrumental; de lo contrario, el reforzador no se entrega-
rá. Si ya ha pasado una semana desde la última emisión de Dr. House, éste
estará disponible otra vez, pero no seremos recompensados si no ejecutamos
la respuesta, esto es, si no sintonizamos el canal apropiado.
Esquema
Esquema de un programa de reforzamiento de intervalo
En la parte superior se muestran las respuestas dadas a lo largo del tiempo y los reforzadores obtenidos. En este caso,
el animal recibe un reforzador para la primera respuesta que ejecuta pasados 60 segundos desde la última respuesta
reforzada. Como el intervalo es constante, se trata de un programa de intervalo fijo 60 segundos o IF60seg. En
la parte inferior, el animal ha recibido un reforzador para la primera respuesta dada después de un intervalo de
45 segundos y de un intervalo de 75 segundos. En este caso se trata de un programa de intervalo variable. Si
calculamos la media aritmética de los dos intervalos, obtendremos un intervalo medio de 60 segundos, de ahí que el
programa sea de IV60seg.
Los programas de IF generan un patrón de respuestas propio. Al igual que los

programas de RF, justo después de recibir el reforzador, los organismos dejan
de responder, pero a diferencia de los programas de RF, cuando se vuelve a
responder no se hace con una tasa alta y estable, sino que las respuestas in-
crementan de manera exponencial. A medida que transcurre el intervalo, em-
piezan a aparecer algunas respuestas tímidamente, que van incrementando
en su frecuencia lentamente hasta que hacia el final del intervalo la tasa de
respuesta se dispara. Esto provoca que el registro acumulativo de respuestas
presente una forma llamada de festón por su semejanza con el ornamento de
la orilla de algunos vestidos u objetos que consiste en un recortado en forma
de dientes curvos.
Para ejemplificar este patrón de respuestas fuera del laboratorio, imaginemos que vamos
a la parada del autobús y justo cuando estamos llegando vemos que el autobús se marcha.
Supongamos que no llevamos ningún reloj pero sabemos que el autobús pasa cada 20
minutos, por lo tanto, mientras esperamos el próximo autobús nos sentamos en el banco
y empezamos a leer un libro. En esta situación la respuesta instrumental es mirar calle
abajo para ver si llega el próximo autobús. El reforzador para esta respuesta es simple-
mente ver llegar el autobús. Puede parecer un reforzador demasiado débil, pero una vez
vemos el autobús, nos podemos poner en pie y acercarnos a la vía para asegurarnos de
que el conductor nos ve y para. Al principio, la respuesta de mirar calle abajo para ver el
autobús puede no aparecer en absoluto, y podemos leer ininterrumpidamente durante 5
o 10 minutos antes de dar el primer vistazo a la calle. La próxima mirada a la calle puede
aparecer 2 o 3 minutos después, y a continuación podemos mirar cada minuto. Después
de 15 minutos de espera, podemos decidir dejar el libro y mirar de manera continuada
hasta que llegue el autobús.
¿Por qué se produce este patrón festoneado de respuestas? El primer aspecto Lectura recomendada
importante del patrón de respuestas observado en los programas IF es que los
Para una revisión sobre la ha-
animales disponemos de algún mecanismo que nos permite medir el tiempo. bilidad de medir el tiempo:
Como los intervalos son fijos, los animales pueden aprender con suficiente J. Gibbon y R. M. Church
(1992). Comparison of va-
entrenamiento cuál es la duración del intervalo. Así, una vez un animal acaba riance and covariance pat-
de recibir el reforzador, la probabilidad de recibir un nuevo reforzador es cero terns in parallel and se-
rial theories of timing.
y, en consecuencia, no dará respuestas, pero a medida que va pasando el tiem- J.Exp.Anal.Behav. 1992 05; 57
po, la probabilidad de llegar al final del intervalo va incrementando y, por lo (3), 393-406.
tanto, también incrementa la probabilidad de obtener el reforzador. Cuanto

más tiempo pase, más alta es la probabilidad de recibir el reforzador y también
la motivación para responder.
Una variante de los programas de intervalo es hacer que sea imprevisible la

duración del intervalo. En este caso hablamos de programas�de�reforzamien-
to�de�intervalo�variable o abreviado, IV. Así, un programa de IV 2 minutos
indica que el tiempo pormedio de los intervalos es de dos minutos, pero en
según qué momentos sólo habrá que esperar, por ejemplo, 30 segundos pa-
ra que el reforzador esté disponible y en otros momentos la espera será más
larga, por ejemplo 3 minutos. El hecho de que la duración del intervalo sea
imprevisible provoca que la tasa de respuesta sea más estable y, por lo tanto,
desaparezca el patrón de respuesta en forma de festón.
Una situación que estaría bajo un programa similar al de intervalo variable es cuando
vamos a buscar setas. Si conocemos un rincón en el que salen níscalos, podemos ir un día
cualquiera y tomar todos los que encontramos. Cuándo volverán a estar disponibles más
setas no lo podemos saber. En ocasiones, al día siguiente ya pueden volverse a encontrar
setas, otras veces quizá no hemos encontrado setas hasta una semana después. Como es
imprevisible cuándo encontraremos los níscalos, es más probable que hagamos visitas
con bastante frecuencia.
En los programas de intervalo simples, una vez que el reforzador está dispo-
nible, se mantiene disponible hasta que se ejecuta la respuesta instrumental,
independientemente de cuándo se realice. Si una paloma está picoteando bajo
un programa IF2minutos, el reforzador estará disponible pasados dos minutos
desde la última vez que se obtuvo un reforzador. Si el animal responde justo en
el momento en el que se cumplen los dos minutos, recibirá el reforzador, pero
si se espera 20 minutos también será reforzado. Es decir, una vez el reforzador
está disponible, lo estará hasta que se dé la respuesta.
Si recuperamos el ejemplo de la serie televisiva Dr. House, podemos darnos cuenta de

que existe una diferencia importante. Sólo seremos reforzados si conectamos el televisor
durante la hora siguiente a la que ha empezado el programa, pero pasado este tiempo
ya no se podrá ver.
Este tipo de restricción con respecto a cuánto tiempo estará disponible el re-
forzador se denomina espera limitada y se puede aplicar tanto a los programas
de intervalo fijo como variable.
En la gráfica se muestran registros acumulados hipotéticos generados por los cuatro programas de reforzamiento
simples. Se puede observar cómo los programas fijos (RF y IF) producen pausas postreforzamiento. Por otra parte,
los programas de razón (RF y RV) producen tasas de respuesta más elevadas que los programas de intervalo (IF y IV).
5.4. Comparación de los programas de razón y de intervalo
Podemos observar varias similitudes entre los programas de razón y de inter-

valo. En los programas fijos, tanto de razón como de intervalo, se observa una
pausa después de recibir el reforzador. Estas pausas desaparecen cuando los
programas son variables. No obstante, hay diferencias notables con respecto
a la tasa de respuesta que generan. Los programas de razón provocan una tasa
de respuesta mucho más alta que los programas de intervalo.
Experimento de Reynolds (1975)
Reynolds (1975) llevó a cabo un experimento en el que comparó un programa de RV

con un programa de IV. Dos palomas recibieron comida por picotear en una tecla de
respuesta. Una de las palomas fue reforzada con un programa de RV. La frecuencia
con la que obtenía comida dependía de la tasa de respuesta y del valor de la razón
en cada momento. La segunda paloma fue acoplada a la primera de manera que
cada vez que ésta era reforzada, el reforzador se hacía disponible para la segunda
paloma bajo el programa de IV. Dado que el tiempo entre reforzadores de la primera
paloma variaba en función de lo que tardaba en dar las respuestas necesarias para
obtener cada reforzador, la segunda paloma estaba sometida a un programa de IV. Esta
técnica del acoplamiento permitía que las dos palomas recibieran la misma cantidad
de reforzadores y distribuidos de manera muy similar.
Los resultados de Reynolds (1975) mostraron que la tasa de respuesta de la

paloma reforzada con un programa de RV era mucho más alta que la tasa de
respuesta de la paloma reforzada con un programa de IV. Se han encontrado
resultados similares en un estudio en el que comparó los programas de RV y
de IV utilizando estudiantes universitarios como sujetos en lugar de palomas
(Raia, Shillingford, Miller y Baier, 2000).
¿Por qué los programas de razón provocan tasas de respuesta más elevadas
que los programas de intervalo? Una primera respuesta es que debido a que
ganar reforzadores bajo un programa de razón depende exclusivamente de
la actuación del organismo, mientras que en los programas de intervalo el

reforzador depende además del paso del tiempo, los primeros provocan más
motivación que los segundos.
En efecto, ejecutar la respuesta está completamente bajo el control del orga-

nismo, mientras que el paso del tiempo queda fuera de su control, de manera
que en un programa de razón, cuanto más se responda más reforzadores se
ganan, mientras que en un programa de intervalo no se reciben más reforza-
dores por responder más, sino por responder en el momento adecuado.
Una explicación alternativa recurre a procesos de reforzamiento en vez de pro-

cesos relacionados con la motivación.
Sin embargo, ¿qué se estaría reforzando de manera diferente en los programas

de razón y de intervalo que generara la diferencia en la tasa de respuesta ob-
servada? Una posibilidad es que en los programas de razón se estuviera refor-
zando tiempos cortos entre respuestas mientras que en los programas de inter-
valo se reforzaron tiempos largos entre respuestas. De hecho, en un programa
de razón cuanto más rápido responda el sujeto, más reforzadores conseguirá.
Por lo tanto, si el organismo espera poco tiempo entre respuestas obtiene más
reforzadores y se están favoreciendo tiempos cortos entre respuestas. En cam-
bio, en un programa de intervalo sucede justamente lo contrario. Pensemos
en un programa de IF1minuto. Si el animal responde con una frecuencia al-
ta (tiempos cortos entre respuesta), puede ejecutar muchas respuestas duran-
te el intervalo que no serán reforzadas (ni tampoco los tiempos cortos entre
respuestas). Por otra parte, si el animal se espera bastante tiempo entre una
respuesta y la siguiente, la probabilidad de que el reforzador esté disponible
y, por lo tanto, de recibirlo será más alta. Consecuentemente, lo que se estará
reforzando es que se espere un tiempo entre respuesta y respuesta, es decir, se
reforzarán tiempos largos entre respuestas.
5.5. Conducta de elección: programa concurrente y programa

concurrente encadenado
Ya hemos dicho que la conducta es un continuo y que en el entorno ocurren

multitud de hechos. Algunos de estos hechos están estrechamente relaciona-
dos con las conductas y otros no. Además, hay hechos que mantienen una
relación perfecta o determinante con la conducta y otros sólo una relación
probabilística. También hemos aceptado que los mecanismos de aprendizaje
nos permiten descubrir estas relaciones. La cuestión que ahora estudiaremos
es cómo distribuimos nuestra conducta en este continuo.
Es evidente que constantemente estamos eligiendo qué hacer. Desde las elec-
ciones más banales, como por ejemplo si miramos la televisión o si leemos una
revista, hasta elecciones más importantes como si establecemos una familia o
no. Cada alternativa que se nos presenta tiene unas consecuencias concretas
y, por lo tanto, es muy posible que estas consecuencias influyan en la elección
final. Si analizamos los dos ejemplos que hemos puesto, veremos que las elec-
ciones que implican son diferentes en el sentido de que en el primer caso no
exige ningún compromiso y podemos ir cambiando de alternativa siempre que
queramos. Podemos poner la televisión y verla un rato y cuando nos parezca
podemos leer la revista y al revés. En cambio, la segunda elección implica un
compromiso, al menos por un determinado período de tiempo. Si decidimos
formar una familia con una pareja, no será muy común cambiar de pareja e ir
alternando con la primera siempre que nos apetezca. Estos dos tipos de elec-
ción se han estudiado en el laboratorio utilizando los procedimientos de pro-
grama�concurrente y programa�concurrente�encadenado, respectivamente.
5.5.1. Programa concurrente
La conducta�de�elección se ha estudiado habitualmente en laberintos en for-

ma de T, pero actualmente se utiliza un procedimiento que permite estudiar
la conducta en un continuo.
En un experimento estándar de programa concurrente, el animal se ubica en una caja de

condicionamiento donde hay dos mecanismos de respuesta, por ejemplo, dos palancas
o dos teclas de respuesta. Cada una de estas alternativas está vinculada a un programa de
reforzamiento y las dos funcionan simultáneamente. Los animales no tienen ningún tipo
de restricción y, por lo tanto, pueden ir alternando libremente entre las dos opciones.
¿Cómo distribuirán sus respuestas entre las dos alternativas?
Antes de responder a la pregunta hemos de describir con más precisión el pro-

cedimiento y la medida de la conducta de elección que se utiliza en una situa-
ción como ésta. Supongamos que dejamos una paloma dentro de una caja de
condicionamiento donde hay dos teclas de respuesta. La que se encuentra a la
izquierda (tecla A) proporciona reforzamiento con un programa, por ejemplo,
de IV30seg, y la que se encuentra a la derecha (tecla B) con un programa de
RV25. En esta situación el animal podrá responder a la tecla de la derecha y
de la izquierda cuándo y cómo quiera. Una manera de medir la respuesta de
elección es calcular la tasa relativa de respuesta en cada una de las teclas. La
tasa relativa de respuestas de la tecla A, por ejemplo, se calcula dividiendo la
tasa de respuesta en la tecla A por la tasa de respuesta total (la tasa en la tecla
A más la tasa en la tecla B):
RA / (RA + RB)
Donde RA es la tasa de respuesta en la tecla A y Rb es la tasa de respuesta

en la tecla B.
Si un animal responde por igual a las dos alternativas, la tasa relativa de res-
puesta en la tecla A será igual a 0,5. Si muestra más tendencia a responder a la
tecla A, entonces la tasa relativa de respuesta en la tecla A será mayor de 0,5,
mientras que si muestra más tendencia a responder a la tecla B, entonces el
valor de la tasa relativa de respuesta en la tecla A será menor de 0,5.
Ya hemos apuntado que la elección entre las alternativas estará influenciada

por los reforzadores que se pueden obtener en cada una de ellas. Si tenemos
dos programas de reforzamiento IV30seg y IV60seg, los animales pueden ob-
tener diferente cantidad de refuerzos en cada uno de ellos. En el programa
IV30seg se pueden conseguir dos reforzadores por minuto, mientras que en
el programa de IV60seg sólo se puede conseguir un reforzador por minuto. Es
evidente que el programa IV30seg es más ventajoso y podríamos pensar que
la paloma se dedicará sólo a responder a este programa. Pero al tratarse de dos
programas de intervalo, el animal puede conseguir, al menos teóricamente,
todos los reforzadores de los dos programas si alterna de manera adecuada en-
tre las dos teclas de respuesta. La tasa relativa de respuesta nos proporcionará
información sobre la distribución de las respuestas entre las dos alternativas.
Pero también podremos calcular otro parámetro que nos permitirá ver si la
distribución de respuestas está influida por el reforzamiento obtenido en cada
alternativa. Este parámetro es la tasa relativa de reforzamiento. Así, la tasa
relativa de reforzamiento en la tecla A, por ejemplo, se calcula dividiendo la
tasa de reforzamiento en la tecla A por la tasa de reforzamiento total (la tasa
en la tecla A más la tasa en la tecla B):
rA / (rA + rB)
Donde rA es la tasa de reforzamiento en la tecla A y rB es la tasa de refor-

zamiento en la tecla B.
Herrnstein (1961) estudió sistemáticamente cómo se distribuían las respuestas

y los reforzadores en diferentes combinaciones de programas concurrentes IV-
IV. Diseñó varios pares de programas concurrentes que permitieran entre los
dos obtener un máximo de 40 reforzadores en una hora. Por ejemplo, en un
programa concurrente IV6min-IV2min, el animal puede obtener un máximo
de 10 reforzadores en una hora en el programa IV6min y un máximo de 30
reforzadores en el programa IV2min. Trabajó con varias palomas y calculó las
tasas relativas de respuestas y de reforzadores en una de las teclas para cada pa-
loma y en cada combinación de programas concurrentes. Los resultados fue-
ron sorprendentes: los animales ajustaban la tasa relativa de respuestas en una
de las teclas de manera que se acercaba mucho a la tasa relativa de reforzadores
obtenidos en esta alternativa. Esta regularidad ha sido replicada en muchas
ocasiones y ha dado lugar a la ley�de�la�igualación. Matemáticamente la ley
de la igualación se expresa de la siguiente manera:
RA / (RA + RB) = rA / (rA + rB)
Donde RA y RB son las tasas de respuesta en las teclas A y B, y rA y rB las

tasas de reforzamiento en las teclas A y B.
Lo que establece la ley de la igualación es, simplemente, que las tasas

relativas de respuesta en una tecla determinada se igualan a las tasas
relativas de reforzamiento en la misma tecla.
La ley de la igualación se ha mostrado válida para otros parámetros del refor-

zador, como es su magnitud, inmediatez y calidad, así como para condiciona-
miento aversivo, o incluso para los programas simples de reforzamiento con
una única alternativa de respuesta. Se han hecho diferentes adaptaciones de
la expresión matemática de la ley de la igualación para cada uno de estos pa-
rámetros y situaciones. No expondremos aquí todas estas reformulaciones de
la ley de la igualación pero sí presentaremos un ejemplo cotidiano.
Todo el mundo está más o menos familiarizado con el deporte del baloncesto y sus re-
glas. Un jugador puede elegir a lo largo del partido realizar lanzamientos desde dentro de
la zona, con los que se consiguen 2 puntos por canasta, o efectuar lanzamientos desde
fuera de la zona, con los que se consiguen tres puntos por canasta. Consideramos los
lanzamientos a canasta como la respuesta instrumental, el enceste como el reforzador y
los puntos obtenidos con cada uno de los dos tipos de enceste como la magnitud del re-
forzador. En la tabla se muestra la estadística de lanzamientos y encestes de dos jugadores
profesionales de baloncesto de la Peña durante la temporada 2007-2008.
Jugador 2 puntos 3 puntos
Encestes Puntos Lanzamientos Encestes Puntos Lanzamientos
Rudy�Fernández 105 210 177 90 270 220
Demond�Mallet 37 74 82 88 264 207
Podemos calcular la tasa relativa de lanzamientos de tres puntos para cada uno de los
dos jugadores.
Rudy: R3 / (R3 + R2) = 220 / (220 + 177) = 0,55

Mallet: R3 / (R3 + R2) = 207 / (207 + 82) = 0,72
A continuación calculamos la tasa relativa de reforzamiento (encestes) de tres puntos de

los dos jugadores:
Rudy: r3 / (r3 + r2) = 90 / (90 + 105) = 0,46

Mallet: r3 / (r3 + r2) = 88 / (88 + 37) = 0,70
Y finalmente calculamos la tasa relativa de la magnitud del reforzador (puntos) de tres

puntos:
Rudy: M3 / (M3 + M2) = 270 / (270 + 210) = 0,56

Mallet: M3 / (M3 + M2) = 264 / (264 + 74) = 0,78
Podemos observar que la ley de la igualación se cumple en el primer jugador con respecto
a la magnitud del reforzador, mientras que para el segundo jugador, la ley se cumple
por la frecuencia del reforzamiento. Parece ser que para cada uno de los dos jugadores la
elección de los lanzamientos de 2 ó 3 puntos viene determinada por diferentes aspectos
del reforzador: en el primer jugador es la magnitud del reforzador la que controla su
elección del tipo de lanzamiento, mientras que para el segundo jugador es la frecuencia
de encestes de cada tipo de lanzamiento la que controla sus elecciones.
En el ejemplo hemos observado cómo se aplica la ley de la igualación en una

situación real. Los datos obtenidos se ajustan de manera bastante precisa a las
predicciones de la ley de la igualación. No obstante, Baum (1974) identificó
tres errores sistemáticos en situaciones de elección: sesgos, sobreigualación
e infraigualación.
• Los sesgos se observan cuando los sujetos tienen una clara preferencia por
una de las alternativas de respuesta, por ejemplo la palanca de la derecha.
En estos casos la preferencia por uno de los mecanismos de respuesta in-
terfiere en los parámetros de la recompensa y produce un sesgo con res-
pecto a lo que prevé la ley de la igualación.
• La sobreigualación se refiere a una tasa de respuesta superior para el mejor

de los dos programas en relación con lo que predice la fórmula de la igua-
lación. Este error se produce cuando existe un coste adicional para cambiar
de una alternativa a la otra. Por ejemplo, es común que en un programa
concurrente las primeras respuestas después del cambio no sean reforza-
das para evitar que se refuerce precisamente la alternancia. Esta técnica
se denomina "tiempo fuera" y si es relativamente largo suele producir la
sobreigualación.
• El tercer error que ha detectado Baum es la infraigualación y se refiere al

hecho de que la tasa de respuesta a la mejor alternativa es más baja que la
que hay que esperar a partir de la ley de la igualación.
Con el fin de tener en cuenta estos errores en la ley de la igualación, Baum

(1974) reformó la ecuación de la ley introduciendo dos parámetros que corri-
gieran los errores identificados:
s
RA / RB = k (rA / rB)
Donde RA, RB, rA y rB, son las respuestas y las frecuencias del reforzador
en los programas A y B, respectivamente; k es una constante que repre-
senta el sesgo de respuesta, y s es un exponente que regula la sensibilidad
del sujeto hacia los dos programas.
Cuando las dos constantes, k y s, valen 1, entonces la ley de la igualación

mantiene su formulación original. Si s tiene un valor superior a 1, entonces
se produce sobreigualación, y si tiene un valor inferior a 1, se produce infra-
igualación.
Otro problema de la ley de la igualación es que no se cumple si los progra-

mas de reforzamiento en las dos alternativas son de razón. Si presentamos dos
alternativas con dos programas RV5 y RV15, la ley de la igualación predice
que se elegirá el programa más favorable (RV5) el 75% del tiempo. En cambio,
los animales eligen exclusivamente el programa más favorable. Al tratarse de
programas de razón, la situación cambia notablemente con respecto a los pro-

gramas de intervalo, y, en esta nueva situación, responder al programa menos
favorable (RV15) hace perder reforzadores que se hubieran ganado dedicando
el mismo número de respuestas al programa más favorable.
La ley de la igualación sólo realiza una descripción del comportamiento en

situaciones de elección concurrente, pero no explica por qué se produce esta
alternancia. Se han propuesto varias teorías para explicar la conducta de elec-
ción. Una de ellas es la que se conoce con el nombre de maximización.
La idea central es que los animales alternan entre dos fuentes de refor-
zamiento con el fin de conseguir el máximo de reforzadores.
En los programas concurrentes IV-IV, la disponibilidad del reforzador depende

no sólo de la respuesta, sino también del paso del tiempo. Esto implica que
aunque el animal esté respondiendo a la alternativa A, el tiempo también pasa
para la alternativa B, con lo que la probabilidad de que el reforzador vuelva
a estar disponible en la alternativa B incrementa. Imaginemos que el animal
ha dedicado 50 segundos a picotear la alternativa A hasta recibir el reforzador.
A partir de este momento la probabilidad de recibir el reforzador en la alter-
nativa A es muy baja y probablemente la probabilidad de recibir el reforzador
en el programa B haya aumentado, ya que ha pasado más tiempo desde que
recibió el último reforzador en este programa. Si eso es así y el animal quiere
maximizar los reforzadores, lo más ventajoso es cambiar a la alternativa B.
Aunque la teoría de la maximización puede explicar la alternancia entre dos

programas IV-IV y la dedicación al mejor de dos programas RV-RV, no puede
explicar por qué las tasas relativas de respuesta se ajustan a la ley de la iguala-
ción. Por ejemplo, si un animal está sometido a una elección IV30seg-IV60seg,
podría obtener el máximo de reforzamiento si se dedica al programa IV30seg
y cada 60 segundos cambia al programa IV60seg. Pero también obtendría el
máximo de reforzadores si se dedicara al programa IV60seg y cada 30 segun-
dos probara en el programa IV30seg. Encontramos otro problema cuando los
individuos están sometidos a una elección concurrente RV-IV. La maximiza-
ción pasaría por responder casi exclusivamente al programa RV y cambiar al
programa IV cuando se ha completado el intervalo. No obstante, tanto ani-
males como humanos dedican más tiempo al programa de intervalo de lo que
la maximización predice.
Como alternativa a la maximización, se ha propuesto la teoría�de�la�mejora.

Aquí se entiende mejorar en el sentido de hacer que alguna cosa sea mejor que
en el pasado inmediato. En este caso, los animales valorarían su rendimiento
cada cierto tiempo evaluando las tasas de reforzamiento que reciben en cada
programa.
Hasta ahora hemos hablado de las tasas de respuesta en un sentido global, esto
es, los reforzadores obtenidos en una alternativa en toda la sesión. Si un animal
obtiene 50 reforzadores en la alternativa A en una sesión de una hora, la tasa
global es de 50 reforzadores por hora, pero si ha dedicado sólo 15 minutos
a esta alternativa, entonces podemos calcular la tasa local de reforzadores a
la alternativa A: 50 reforzador por 15 minutos o, lo que es lo mismo, 200
reforzadores por hora. Como la tasa local sólo tiene en cuenta el tiempo que
se ha dedicado a una de las alternativas, la tasa local siempre será más alta que
la tasa global.
La teoría de la mejora propone que los animales irán haciendo ajustes a la

distribución de sus respuestas hasta que las tasas locales de las dos alternativas
se igualen, momento en el que ya no se puede mejorar la situación. Lo más
interesante de la teoría es que predice que las distribuciones de las respuestas
se ajustarán exactamente a lo que predice la teoría de la igualación.
Supongamos un programa concurrente IV30seg-IV60seg. Durante la primera

sesión de una hora, un animal puede distribuir el tiempo a partes iguales entre
las dos alternativas y hacerlo de modo que obtenga el máximo de reforzado-
res teóricamente disponibles en cada alternativa. Las tasas globales en cada
alternativa serían de 120 reforzadores en una hora en el programa IV30seg
y 60 reforzadores en el programa IV60seg. Las tasas locales serían 240 y 120
reforzadores por hora, respectivamente. Es evidente que en esta situación es
mucho más ventajoso responder durante más rato al programa IV30seg. Es
muy posible que para mejorar el rendimiento, el animal decida responder más
tiempo al programa de IV30seg durante la segunda sesión. Imaginemos que el
animal dedica 45 minutos al programa IV30seg y obtiene los 120 reforzadores
posibles y que dedica sólo 15 minutos al programa IV60seg y obtiene también
los 60 reforzadores disponibles en la sesión (hemos de tener en cuenta que los
tiempos de dedicación a cada alternativa se acumulan a lo largo de la sesión,
es decir, un animal irá alternando de una alternativa a la otra varias veces de-
dicando pequeñas cantidades de tiempo a cada alternativa, pero que acumu-
ladas serán 45 y 15 minutos a cada una de ellas).
Al conseguir el máximo de reforzadores en las dos alternativas, la tasa global

no variará con respecto a la primera sesión, pero ¿qué sucede con las tasas
locales? Si obtiene 120 reforzadores en 45 minutos con el programa IV30seg,
tendremos que la tasa local será de 160 reforzadores por hora, mientras que en
el caso del programa IV60seg la tasa local será de 60 reforzadores por 15 minu-
tos o, lo que es lo mismo, 240. Después de la segunda sesión, el animal percibe
que es más rentable dedicar más de 30 minutos al programa IV30seg (primera
sesión) pero menos de 45 minutos (segunda sesión). De acuerdo con esto, en
la tercera sesión podemos encontrar que el animal ha dedicado 40 minutos al
programa IV30seg y 20 minutos al programa IV60seg, obteniendo todos los
reforzadores disponibles en ambos programas. Ahora las tasas locales de refor-
zamiento serían 120 reforzadores en 40 minutos, o 180 reforzadores por hora
en el programa IV30seg, y 60 reforzadores en 20 minutos, o 180 reforzadores
por hora. Ahora se han igualado las dos tasas de reforzamiento locales y, por
lo tanto, ya no se puede mejorar la situación. Si calculamos la ley de la igua-
lación, obtendremos que la tasa relativa de respuestas en el programa IV30seg
es 40 minutos / 60 minutos = 0,67. De la misma manera podemos calcular la
tasa de reforzamiento relativa en el programa de IV30seg, 120 reforzadores /
(120 reforzadores + 60 reforzadores) = 0,67. Podemos observar, pues, cómo la
teoría de la mejora consigue predecir exactamente cómo se distribuirán las
respuestas entre los dos programas concurrentes.
5.5.2. Programa concurrente encadenado
El segundo tipo de elección que hemos introducido más arriba era aquella
que implicaba un compromiso. Si recibimos dos ofertas de trabajo, deberemos
decidirnos por una de ellas. La elección implica un compromiso porque una
vez realizada la elección nos dedicaremos, al menos un cierto tiempo, a la
elección elegida y renunciaremos a la alternativa. ¿Cómo se ha estudiado esta
situación en el laboratorio?
En este caso, la elección se realiza antes de acceder a un programa de reforza- Autocontrol

miento concreto. La situación más simple es presentar dos alternativas de las
Quizá el campo donde más se
que el animal deberá elegir una de ellas ejecutando un número determinado ha aplicado el estudio de pro-
de respuestas (por ejemplo, tres picotazos con el pico en la tecla de la derecha). gramas concurrentes encade-
nados es el del autocontrol.
Una vez elegida la alternativa, el animal tiene acceso a un programa concreto
durante un período de tiempo, por ejemplo un programa de RV25 durante 10
minutos. La característica más relevante es que una vez elegido el programa de
reforzamiento, ya no puede cambiar hasta que no haya transcurrido el tiempo
especificado y se le permita una nueva elección.
Supongamos la siguiente situación:
• Estamos en casa dispuestos a estudiar para el examen que tenemos dentro de 15 días
cuando los amigos telefonean y nos invitan a ir a la discoteca. ¿Qué haremos en esta
situación? Lo más probable es que vayamos a la discoteca.
• Queremos dejar de fumar. Sabemos que después de un tiempo sin fumar encontrare-
mos unas mejoras importantes por lo que respecta a la salud, no oleremos a humo,
no deberemos salir del lugar de trabajo cada dos por tres para fumar un cigarrillo,
etc. En cambio, después de 6 horas sin encender un cigarrillo empezamos a notar-
nos nerviosos, no nos concentramos en lo que hacemos, comemos más a menudo y
nuestro humor se ha vuelto agrio. Sabemos que si fumamos un cigarrillo todos estos
síntomas desaparecerán. ¿Qué haremos en esta situación? La respuesta más probable
será encender el cigarrillo.
¿Qué tienen en común las dos situaciones?
En las dos encontramos dos opciones y hemos de decidir entre ellas. Cuando
elegimos una de las alternativas, perdemos la oportunidad de dedicarnos a la
otra, al menos un cierto tiempo. Pero además tenemos que una de las opciones
proporciona un reforzamiento grande pero demorado, mientras que la otra
opción proporciona un reforzamiento pequeño aunque inmediato. En efecto,
estudiar nos permite aprobar un examen que, a la larga nos proporciona un
oficio y la posibilidad de ganar dinero, mientras que ir a la discoteca da un

placer inmediato pero pequeño, nos lo habremos pasado bien durante un ra-
to pero difícilmente tendrá importantes repercusiones para nuestra vida. No
fumar (y dedicarnos a otras actividades) proporciona una gran recompensa
en cuanto a salud y relaciones sociales, pero sus efectos no los veremos hasta
pasados unos días o semanas, mientras que fumar un cigarrillo nos elimina el
síndrome de abstinencia de manera inmediata.
Rachlin y Green (1972) diseñaron un procedimiento en el laboratorio para es-

tudiar estas situaciones de elección. Utilizaron un procedimiento de elección
concurrente encadenado donde la elección inicial daba lugar o bien a un pro-
grama que proporcionaba recompensas pequeñas inmediatas, o bien a otro
programa que proporcionaba recompensas grandes demoradas. Siempre que
la elección implique el acceso directo al programa seleccionado, las palomas
prefieren la opción que lleva a recompensas pequeñas pero inmediatas. En el
mismo trabajo, Rachlin y Green introdujeron una nueva variable que consistía
en posponer el acceso al programa seleccionado un cierto tiempo. El tiempo de
demora entre el momento de la elección y el acceso al programa era el mismo
para los dos casos. Lo más interesante es que en esta nueva alternativa las pa-
lomas elegían preferentemente el programa que daba una recompensa grande
y demorada. En otras palabras, las palomas mostraban autocontrol. Resultados
similares se han encontrado en diferentes especies de animales incluyendo a
los humanos (podéis ver Logue, 1998).
¿Por qué es preferible un reforzador inmediato que un reforzador demorado?

A igual magnitud del reforzador es un hecho que la inmediatez le otorga más
valor o, lo que es lo mismo, la demora le resta valor a un reforzador. Este
hecho se ha convertido en un principio general y los esfuerzos se han dirigido
a establecer cómo la demora reduce el valor del reforzador. Mazur (1987) ha
propuesto una función matemática que representaría la pérdida de valor del
reforzador (V) en función de la magnitud (M) y la demora en la que se presenta
(D):
V = M / (1 + KD)
Donde K es la tasa de descuento del valor.
Esta fórmula matemática se conoce como función�del�decaimiento�hiperbó-

lico. Si el reforzador se da sin demora, D vale 0 y, en consecuencia, el valor del
reforzador viene determinado sólo por su magnitud. Pero si el reforzamiento
se demora, entonces el valor se ve reducido. Pero ¿cómo funciona la ecuación?
Cuando la recompensa es inmediata aunque pequeña, entonces el valor de-

pende exclusivamente de su magnitud. En cambio, si el reforzador es mayor,
pero se entrega con una demora suficiente, la ecuación predice que perderá
valor y si el resultado final da lugar a un valor más pequeño que el que tiene la
recompensa pequeña inmediata, entonces elegiremos ésta última. En el caso
del autocontrol, se introduce una demora desde el momento en el que se rea-

liza la elección hasta que se tiene el acceso al reforzador. Esta demora permite a
la recompensa pequeña perder buena parte de su valor y, si es suficientemente
larga, quedará por debajo del valor de la recompensa grande y demorada, por
lo que ahora los sujetos preferirán la recompensa grande y demorada.
Teniendo en cuenta esta función del decaimiento hiperbólico de la recompen-

sa, se recomienda a las personas que quieren dejar de fumar, o que quieren
perder peso, que no tengan reservas de tabaco o comida con alto contenido
calórico en casa. Por un lado, esta técnica permite eliminar claves que podrían
desencadenar el deseo por el consumo de tabaco o comida rica en calorías pe-
ro, por otra parte, implicaría demorar el acceso a las recompensas pequeñas,
ya que la persona ha de salir de casa y desplazarse hasta la tienda. Esta demora
haría perder el valor de las recompensas pequeñas facilitando el autocontrol.
6. Extinción de la respuesta instrumental
Los mecanismos de aprendizaje proporcionan flexibilidad a la conducta y per-

miten adaptarnos a nuestro entorno. Hasta ahora nos hemos centrado en si-
tuaciones relacionadas con la adquisición y el mantenimiento de conductas.
En el condicionamiento instrumental, cuando una conducta va seguida de
una consecuencia agradable se verá reforzada y, en consecuencia, se manten-
drá. Pero si las circunstancias cambian, por ejemplo, si la conducta deja de
ir seguida del reforzador, entonces dejar de ejecutar la conducta será lo más
adaptativo.
Ponemos monedas en una máquina expendedora de café para obtener la bebida, sin em-
bargo, si la máquina está estropeada y no nos proporciona el café, insistiremos pulsando
el botón hasta que nos convenzamos de que no habrá reforzador y dejamos de pulsarlo.
La ausencia del reforzador esperado provoca la extinción de la respuesta ins-

trumental. En la situación descrita, la extinción se producirá rápidamente. Pe-
ro ¿qué sucederá si se estropea una máquina tragaperras? En este caso un ju-
gador persistirá en su conducta durante mucho tiempo a pesar de que deje de
recibir el reforzador. Recordemos que las máquinas tragaperras funcionan bajo
un programa de reforzamiento intermitente y es precisamente esta caracterís-
tica del programa de reforzamiento la que provoca que se observe esta resis-
tencia a la extinción.
Este hallazgo se denomina efecto�del�reforzamiento�parcial. Sin embargo,

¿por qué una respuesta que ha sido reforzada sólo intermitentemente mostrará
más resistencia a la extinción que una conducta que ha sido reforzada cada
vez que ha aparecido?
Las conductas reforzadas con programas intermitentes son más difíciles

de extinguir que las conductas reforzadas con un programa continuo.
Fase Adquisición Extinción
Procedimiento Respuesta → Reforzador Respuesta → Ø
Ejemplo Presión de palanca → comida Presión de palanca → no comida
La tabla muestra el procedimiento de adquisición y extinción de una respuesta instrumental
Una explicación del efecto del reforzamiento parcial es la conocida con el

nombre de la hipótesis�de�la�discriminación (Mowrer y Jones, 1945).
La hipótesis afirma que para que un sujeto deje de ejecutar la respuesta

una vez se inicia la extinción, el sujeto debe ser capaz de discriminar el
cambio en la contingencia del reforzamiento.
Con el reforzamiento continuo, donde cada respuesta es reforzada, el cambio

a una situación de extinción es fácil de discriminar y por ello la respuesta des-
aparece rápidamente. En cambio, si estamos actuando bajo un programa de
reforzamiento intermitente, nos será difícil discriminar la situación de extin-
ción.
Aunque la teoría es sencilla, actualmente existe evidencia experimental a favor Ved también
de una teoría alternativa ligeramente diferente basada en el decremento de la
Podéis ver el subapartado 9.2,
generalización y propuesta por Capaldi (1966, 1967). La hipótesis�del�decre- "Gradientes de generaliza-
mento�en�la�generalización es el término utilizado para denominar el decre- ción", de este módulo didácti-
co.
mento en las respuestas que se observa en pruebas de generalización cuando
los estímulos de prueba son cada vez menos similares al estímulo de entrena-
miento.
Si reforzamos a una paloma por picotear una tecla iluminada de color amarillo, observa-
remos un decremento en la generalización (una frecuencia más baja de respuestas) si el
color de la tecla es azul durante la prueba de generalización.
De acuerdo con la hipótesis del decremento en la generalización, se ob-

servarán menos respuestas durante la extinción si los estímulos presen-
tes durante la extinción son diferentes de los que estaban presentes du-
rante el reforzamiento. Ahora bien, si los estímulos durante el reforza-
miento y la extinción son similares, entonces la tasa de respuestas tam-
bién será similar.
Según Capaldi, existe un decremento en la generalización mayor cuando el

programa de reforzamiento cambia de un reforzamiento continuo a la extin-
ción, ya que el sujeto nunca ha experimentado una situación donde sus res-
puestas no fueran reforzadas. En otras palabras, el animal dejaría de responder
rápidamente, ya que nunca se le ha enseñado a seguir respondiendo cuando
sus respuestas no fueran reforzadas. Si atendemos ahora a un programa inter-
mitente, por ejemplo RV50, observamos que el animal realiza muchas respues-
tas que no van seguidas del reforzador, de media sólo un 2% de las respuestas
proporcionan el reforzador. Si el programa de reforzamiento pasa de RV50 a la
extinción, donde el 0% de respuestas son reforzadas, las dos situaciones serán
muy similares y el decremento en la generalización será pequeño, es decir, el
animal continuará respondiendo durante más tiempo. Un programa de refor-
zamiento parcial, pues, puede haber enseñado al animal a persistir en sus res-
puestas a pesar de que muchas no sean reforzadas porque tarde o temprano
recibirá el reforzador.
Si bien el efecto del reforzamiento parcial es un fenómeno robusto, hay situa-

ciones en las que no se observa o incluso se observa el efecto contrario. Así, si se
entrena a una paloma con un programa continuo cuando la tecla de respuesta
es de color amarillo y con un programa RV10 cuando la tecla de respuesta es de
color verde, cuando se introduce la extinción en ambas situaciones, se observa
más persistencia en la respuesta cuando está presente la tecla iluminada de
color amarillo (reforzamiento continuo) que cuando está iluminada de color
verde (reforzamiento RV10) (por ejemplo, Flora y Pavlik, 1990). Nevin (1988)
ha propuesto que cuando un animal se entrena en la situación descrita, el pro-
grama que proporciona más reforzadores adquiere más resistencia al cambio,
y esto explicaría por qué en la extinción se sigue respondiendo más a él.
6.1. Otros efectos de la extinción sobre la respuesta instrumental
El efecto más estudiado de la extinción sobre una respuesta instrumental es la

reducción de la respuesta y la resistencia a la extinción de los programas de
reforzamiento parcial. No obstante, podemos observar otros efectos. Uno de
ellos afecta a la conducta y el otro al estado emocional.
1) En la conducta, si la respuesta instrumental efectiva deja de producir el

reforzador, podremos observar un incremento�en�la�variabilidad�de�la�con-
ducta.
Por ejemplo, si llegamos a casa y se ha estropeado el ascensor y no lo sabemos, pulsaremos

el botón para llamarlo. Cuando vemos que no llega, probablemente volveremos a pulsar
el botón. Como el ascensor no llegará, podremos empezar a probar nuevas estrategias
como pulsar repetidamente el botón o mantener la presión sobre el botón más tiempo
del necesario.
Este efecto de la extinción sobre la variabilidad de la respuesta instrumental ha

sido estudiado experimentalmente por Neuringer y sus colaboradores (Neu-
ringer, Kornell y Olufs, 2001).
En líneas generales, las ratas del experimento debían ejecutar una secuencia de tres res-
puestas para obtener un reforzador. De hecho, los animales podían pulsar cualquiera de
las dos palancas de respuesta y/o una tecla de respuesta. Cualquier combinación podía
ser reforzada durante el entrenamiento y se midió la variabilidad de la respuesta. Cuan-
do no había ninguna restricción sobre la variabilidad en la secuencia de tres respuestas,
se observó que los animales desarrollaban una preferencia por una secuencia concreta e
introducían pocos cambios. Cuando posteriormente se llevó a cabo la extinción, se ob-
servó que el descenso en la tasa de respuesta iba acompañado por un incremento en la
variabilidad de la respuesta. Las ratas de Neuringer y colaboradores probaban secuencias
diferentes de respuestas cuando las habituales dejaron de producir el reforzador.
2) El otro efecto de la extinción de una respuesta instrumental es la frustra- Ejemplo

ción. La emoción de frustración se produce cuando no se obtiene un reforza-
En el ejemplo del ascensor es-
dor que se espera. Como proceso emocional, la frustración activa la conducta tropeado, si vivimos en el sép-
y en determinadas situaciones en las que la frustración es vivida severamente, timo piso podríamos reaccio-
nar dando una patada a la
puede generar conducta agresiva. puerta del ascensor.
Experimento de Azrin, Hutchinson y Hake (1966)
En un experimento, Azrin, Hutchinson y Hake (1966) situaron dos palomas en una

caja de Skinner. Uno de los sujetos recibía reforzadores para picotear una tecla de
respuesta, mientras que el otro animal permanecía atado en una esquina de la caja.
Mientras el sujeto experimental era reforzado, ignoraba completamente a su compa-
ñero. Cuando se introdujo un programa de extinción y la respuesta ya no proporcio-
naba al reforzador esperado, el sujeto experimental mostró una conducta agresiva
hacia su inocente compañero, que hasta entonces había sido un convidado de piedra.
Esta misma reacción agresiva inducida por la extinción también se ha obser-

vado en ratas y personas (por ejemplo, Nation y Cooney, 1982; Tomie, Carelli
y Wagner, 1993).
Resumiendo, la extinción consiste en dejar de proporcionar el reforza-

dor una vez se ejecuta la respuesta.
Imaginemos una situación en la que un bebé llora durante la noche y los padres lo to-
man en brazos. La conducta de llorar se habrá visto reforzada por el hecho de que lo
paseen arriba y abajo del pasillo. Si queremos que el bebé deje de llorar por la noche,
deberemos instaurar un procedimiento de extinción que implicará no tomar al niño en
brazos cuando llora. Es muy posible que durante las primeras noches el bebé intensifique
y alargue el llanto debido a la frustración de no recibir el reforzador. También es posible
que el bebé dé patadas. Este comportamiento muestra los cambios en la respuesta de
llanto (duración e intensidad) y la conducta agresiva que genera la extinción. Si los pa-
dres resisten la tentación de tomar al niño en brazos, la respuesta de llanto desaparecerá.
En cambio, si los padres cometen el error de tomarlo en brazos algunas veces y otras no,
estarán instaurando un programa de reforzamiento parcial. La consecuencia será que la
extinción será más difícil si finalmente deciden no tomarlo más en brazos.
7. Condicionamento aversivo
La mayoría de las situaciones que hemos visto hasta ahora se refieren al re-
forzamiento positivo, es decir, que la conducta provoca que se presente un
estímulo o situación agradables. No obstante, cuando hablábamos del proce-
dimientos de condicionamiento instrumental hemos definido dos situaciones
en las que estaban implicados estímulos o situaciones aversivas o desagrada-
bles. Si recordamos, estas situaciones eran el reforzamiento negativo, donde
la ejecución de la respuesta provocaba la finalización de un estímulo aversi-
vo o impedía su presentación, y el castigo, donde la conducta hacía aparecer
un estímulo aversivo. En este apartado veremos con detenimiento estas dos
situaciones.
7.1. Evitación y escape
Solomon y Wynne (1953) realizaron un experimento que ilustra muchas de

las características del reforzamiento negativo.
Experimento de Solomon y Wynne (1953)
Trabajaron con perros y el aparato era una caja de ida y vuelta (del inglés shuttle
box; podéis ver la figura siguiente). Este aparato consta de dos compartimentos se-
parados por una valla de unos centímetros de altura. Un animal puede desplazarse
de un compartimiento al otro saltando la valla. Cada compartimiento tiene el suelo
de metal, que se puede electrificar para dispensar estímulos aversivos (descargas eléc-
tricas). Finalmente, hay que indicar que en cada compartimiento hay una bombilla
que pueden iluminar los dos compartimentos independientemente. En cada sesión
experimental un perro recibía 10 ensayos en los que podía escapar o evitar una des-
carga si saltaba al otro compartimiento. Cada pocos minutos se apagaba la luz del
compartimiento donde se encontraba el animal, mientras que la luz del otro lado
se mantenía encendida. Si el perro se quedaba en el compartimiento a oscuras, des-
pués de 10 segundos el suelo se electrificaba y el animal recibía la descarga eléctrica,
que duraba hasta que el animal saltaba la barrera. De esta manera, el animal podía
escapar de la descarga. El perro también podía evitar la descarga si daba la respuesta
antes de que pasaran los 10 segundos desde que se apagaba la luz. En el siguiente
ensayo se procedía de la misma manera pero la respuesta consistía en volver al primer
compartimiento.
Esquema de una caja de ida y vuelta
El animal se ubica en uno de los compartimentos separados por la valla. En un momento determinado se
presenta un estímulo visual o auditivo de unos pocos segundos de duración y a continuación se electrifica
la reja del suelo del compartimiento donde se encuentra el animal, pero no la del compartimiento vacío.
Para escapar de la descarga, el animal ha de saltar la valla para pasar al compartimiento de seguridad. Con el
entrenamiento, el animal dará respuestas de evitación, ya que cambiará de compartimiento en el momento en
el que se presenta el estímulo discriminativo y antes de que se electrifique el suelo.
En cada ensayo, Solomon y Wynne midieron el tiempo que tardaba el animal en

cambiar de compartimiento a partir del momento en el que la luz se apagaba. En
los primeros ensayos pudieron ver que los animales tardaban más de 10 segundos en
saltar al otro compartimiento desde el apagón de la luz. Esta demora en la respuesta
provocaba que los pobres animales recibieran la descarga y, por lo tanto, las respues-
tas eran de escape. Sin embargo, con pocos ensayos de entrenamiento los animales
cambiaban de compartimiento antes de que pasaran los 10 segundos y, en conse-
cuencia, evitaban la descarga. Hacia los 12 ensayos de condicionamiento la mayoría
de los perros evitaban completamente la descarga, ya que tardaban de 2 a 3 segundos
para dar la respuesta.
Los primeros ensayos de condicionamiento que consistían en escapar de la

descarga no son difíciles de explicar por el condicionamiento instrumental, ya
que la respuesta modifica la situación en la que se encuentra el animal. Aho-
ra bien, los ensayos de evitación son problemáticos porque hay que explicar
cómo un estímulo que no se presenta (que el animal no experimenta) puede
reforzar la conducta.
En otras palabras, al impedir la presentación de la descarga, la situación no

se ve modificada por el comportamiento (no hay descarga y continúa igual
después de que el animal responda).
1)�Teoría�de�los�dos�factores
Uno de los primeros investigadores que intentó explicar por qué se mantiene
la conducta de evitación fue Mowrer (1947) con la teoría�de�los�dos�facto-
res. Los dos factores son el condicionamiento clásico y el condicionamiento
instrumental y los dos deben actuar para poder explicar el condicionamiento

de evitación. Expondremos la teoría siguiendo el experimento de Solomon y
Wynner.
La descarga eléctrica es un EI que provoca una RI de miedo y es precisamente

esta respuesta emocional la clave de la teoría. Mediante el condicionamiento
clásico, alguna señal acaba anticipando la descarga y provocando la respuesta
de miedo. En el experimento de Solomon y Wynne, este EC eran los 10 segun-
dos de oscuridad que precedían a la descarga. Con pocos ensayos, los perros
podían aprender que la oscuridad señalaba la descarga y provocaba miedo a
los animales.
El condicionamiento de miedo a un estímulo inicialmente neutro es el primer

proceso de la teoría.
La sensación de miedo es desagradable y, por lo tanto, la reducción del miedo

será reforzante para cualquier respuesta que la preceda. De esta manera, la res-
puesta de evitación lo que hace es alejar al animal del estímulo que provoca
miedo y, debido a ello, el miedo se reduce reforzando la conducta. En el caso
de Solomon y Wynne, la respuesta de los animales los llevaba a un comparti-
miento iluminado y, por lo tanto, desaparecía la oscuridad que les provocaba
el miedo. Éste es el segundo factor de la teoría: el condicionamiento instru-
mental de una conducta de evitación por la reducción del miedo cuando el
EC que la provoca desaparece.
De hecho, la teoría de los dos factores elimina la respuesta de evitación y la

sustituye por una respuesta de escape. En efecto, cuando aparece el EC activa
el miedo y la respuesta instrumental permite al animal escapar del EC aversi-
vo. Se trata, por ende, de una respuesta de escape y ya hemos visto que este
tipo de respuesta no supone ningún inconveniente para ser explicada desde
el condicionamiento instrumental.
Rescorla y LoLordo (1965) llevaron a cabo una serie experimental que daba
soporte a la teoría de los dos factores. Ya que la clave de la teoría se encuentra
en el papel del estímulo que predice clásicamente el EI, Rescorla y Lolordo
manipularon el significado de un EC emparejándolo con la descarga (condi-
cionamiento excitador) o con la ausencia de la descarga (condicionamiento
inhibidor). Los resultados mostraron que las presentaciones del EC excitador
en una situación de evitación incrementaban la intensidad de la respuesta ins-
trumental, mientras que si se presentaba el EC inhibidor atenuaba la respuesta
de evitación. Un EC inhibidor del miedo se denomina señal�de�seguridad, ya
que señala la ausencia de un aversivo (Weisman y Litner, 1969). La eficacia de
las señales de seguridad se ha demostrado en varias situaciones. Por ejemplo, si
se presenta un estímulo explícito cada vez que se acaba una descarga, entonces
el miedo de los animales a la situación experimental se ve atenuado (Mineka,
Cook y Miller, 1984). Por otra parte, el condicionamiento de evitación es más

rápido si se presenta un estímulo cada vez que el animal realiza la respuesta
instrumental requerida (McAllister y McAllister, 1992).
Aunque estos experimentos, y otros similares, dan soporte a la teoría de los

dos factores, otros trabajos han encontrado datos que resultan un reto para
la teoría.
En primer lugar, se ha observado que la respuesta de evitación aparece en si-

tuaciones en las que los animales no muestran signos de miedo. En el mismo
experimento de Solomon y Wynne, los animales gemían, orinaban y tembla-
ban cuando la luz se apagaba, comportamientos que señalaban que los ani-
males tenían miedo. Sin embargo, a medida que avanzaba el entrenamiento
y los animales eran eficientes con la respuesta de evitación, estas manifesta-
ciones de miedo desaparecían. Si lo que mantiene la respuesta de evitación es
escapar del miedo, ¿cómo se puede mantener la conducta si ya no hay miedo?
Es evidente que estos datos aportan quebraderos de cabeza a la teoría.
Un segundo problema de la teoría de los dos factores es su resistencia a la ex-

tinción. Si analizamos la situación, cuando los animales son expertos en evitar
la descarga, ya no la experimentan más y, por lo tanto, la presentación de la
señal de la descarga sin ella debería producir una extinción de esta asociación.
Si se produce la extinción, entonces la señal dejará de provocar miedo y si
no hay miedo, el animal debería dejar de responder. Finalmente, si deja de
responder debería volver a recibir las descargas y volver a adquirir el miedo y
la respuesta de evitación. No obstante, este ciclo que predice la teoría de los
dos factores no se ha observado nunca. Todavía más, una vez adquirida la res-
puesta de evitación, ésta muestra mucha resistencia a la extinción. Solomon
y Wynne presentaron centenares de ensayos de extinción y algunos de sus
perros seguían respondiendo.
2)�Teoría�de�un�factor
Dados los problemas de la teoría de los dos factores, no ha de extrañar que

aparecieran nuevas teorías para explicar el condicionamiento de evitación.
Una de ellas recibe el nombre de la teoría�de�un�factor. Recibe este nombre
porque afirma que el condicionamiento clásico del miedo no es necesario para
que se dé la respuesta de evitación. En otras palabras, la evitación de la descarga
es en sí misma el reforzador.
Sidman (1953) y Herrnstein (1969; Herrnstein y Hineline, 1966) diseñaron

procedimientos de evitación sin necesidad de presentar señales que predijeran
la descarga. No describiremos aquí los procedimientos, ya que son complejos,
pero sí mencionaremos que trabajaron con ratas que recibían descargas eléctri-
cas sin ningún estímulo explícito que las precediera. Si los animales presiona-
ban una palanca, entonces la descarga se retrasaba o se reducía la probabilidad
de que apareiera. Estos procedimientos permiten que los animales aprendan a
presionar la palanca para evitar descargas, aunque la actuación nunca es tan

perfecta como en los procedimientos donde se utiliza la señal para anticipar
la descarga. Herrnstein (1969) defiende que para que los animales actúen con
éxito en una situación como ésta, deben ser sensibles a la razón de descargas
en presencia y en ausencia de la respuesta, y que justamente la reducción en
la razón de descargas recibidas es suficiente para reforzar la conducta de evita-
ción. Para Herrnstein, la presencia de la señal de la descarga provoca que sean
más discriminables las situaciones con diferente probabilidad de descargas,
hecho que facilitaría el aprendizaje de evitación. También puede explicar los
efectos de la extinción. Como la respuesta de evitación implica la reducción
de la presencia de descargas, habrá poca diferencia entre esta situación y la
de extinción, de manera que al no detectar el cambio entre el momento en
el que sí se presentaban descargas y el momento en el que no se presentan,
los animales no realizan ningún ajuste en su conducta y siguen dando la res-
puesta de evitación.
3)�Teoría�cognitiva
Una segunda alternativa a la teoría de los dos factores y, claro está, también a la
teoría de un factor, es la teoría�cognitiva que propusieron Seligman y Johnson
(1973). La teoría cognitiva se centró en el principio de la discrepancia entre
lo que sucede y lo que los organismos esperan que suceda. Esta perspectiva
sigue los postulados de la teoría de Rescorla y Wagner (1972) estudiada en el
módulo "Condicionamiento clásico pavloviano".
El modelo de Rescorla y Wagner se centró en dos elementos principales:

el EI real que los animales experimentan y la expectativa que tienen
los animales del EI. Si existe una discrepancia entre el EI observado y
el esperado, entonces se producirá aprendizaje. Si no hay discrepancia,
entonces no habrá aprendizaje.
De acuerdo con este principio de la discrepancia, Seligman y Johnson afirman

que el aprendizaje de evitación se producirá cuando se dé una discrepancia
entre lo que se espera y lo que se observa. Proponen que en el aprendizaje de
evitación hay dos expectativas importantes: 1) si se responde no habrá estí-
mulo aversivo, y 2) si no se responde se presentará el estímulo aversivo. No
creemos equivocarnos si afirmamos que la mayoría de los organismos preferi-
mos la primera situación a la segunda y, por lo tanto, se producirá la respuesta.
Además, la respuesta se mantendrá mientras no se viole alguna de estas ex-

pectativas, esto es, mientras no se produzca una discrepancia entre lo que se
espera y lo que se observa. Así, la teoría puede explicar muy fácilmente la re-
sistencia a la extinción. Aunque en la extinción se deja de presentar la des-
carga, eso no altera las expectativas de los animales; en otras palabras, si dan
la respuesta esperan no recibir la descarga y como en la extinción ya no se
presenta la descarga, se cumple la expectativa. Si la extinción no se produce

porque no se vulnera ninguna expectativa, entonces ¿cómo podemos hacer
para extinguir una respuesta de evitación?
Si el aprendizaje (y la extinción) se produce cuando existe una discrepancia

entre lo que esperamos y lo que observamos, habrá que provocar esta discre-
pancia. Una manera de hacerlo es impidiendo que los animales den la res-
puesta de evitación en presencia de las claves que activan la expectativa de la
descarga. Como decíamos antes, una de las expectativas del animal en una si-
tuación de evitación es que la descarga se presentará si no ejecuta la respuesta.
El procedimiento que bloquea la respuesta de evitación fuerza a los animales
a tener la expectativa de la presentación de la descarga, pero como en la ex-
tinción no se presentan descargas, se produce una discrepancia entre lo que
se espera y lo que se observa. Es justamente esta discrepancia la que favorece
la extinción. Page y Hall (1953) fueron de los primeros en demostrar que este
procedimiento que impide la respuesta de evitación aceleraba su extinción.
Reforzamiento negativo
Escape Evitación
Contingencia�respuesta-reforzador Negativa Negativa
Consecuencia�de�la�respuesta Elimina un estímulo aversivo Impide un estímulo aversivo
Resultado�sobre�la�conducta Se mantiene la conducta Se mantiene la conducta
Teorías Condicionamiento instrumental • Teoría de los dos factores

• Teoría de un factor (contingencia)
• Teoría cognitiva (discrepancia entre la expectativa y la
realidad)
Resumen comparativo entre escape y evitación
7.2. Castigo
Cuando una conducta va seguida de un estímulo aversivo, podemos observar

un decremento en la conducta.
Si al llegar a la montaña bajamos del coche y rozamos sin darnos cuenta un puñado de
ortigas, probablemente dejaremos de tocarlas en el futuro. La urticaria que nos provoca la
planta es un estímulo aversivo lo suficientemente intenso como para inhibir la conducta
de tocarla con la piel descubierta.
Siguiendo nuestro paseo por los Pirineos, podemos ver cómo una manada de vacas pace
tranquilamente en un prado. Por más que buscamos, no encontramos al pastor ni al perro
pastor, sino a un alambre electrificado que rodea el campo. Hace años que los pastores
utilizan este método para mantener los rebaños controlados sin tener que estar presente
todas las horas del día.
El alambre que rodea el prado es electrificado y si una vaca se acerca y lo to-

ca, recibe una descarga. Los animales aprenden rápidamente que no deben
intentar superar los límites de prado señalados por el alambre. Ambos casos
son ejemplos de castigo.
En el laboratorio se puede estudiar el castigo presentando una descarga eléctri-

ca (o cualquier otro estímulo aversivo) cuando una rata ejecuta una conducta
instrumental, por ejemplo, presionar la palanca.
Ved también
Experimento de Skinner (1938)
Sobre programa IV podéis ver
En un experimento clásico de Skinner (1938), se entrenó durante tres días a dos gru- el subapartado 5.3, "Progra-
pos de ratas con un programa IV para obtener comida si presionaban una palanca. mas de intervalo", de este mó-
Después del entrenamiento se introdujo un procedimiento de extinción durante dos dulo didáctico.
sesiones. La única diferencia entre los dos grupos fue que para uno de los grupos,
durante los diez primeros minutos de la primera sesión de extinción, cuando el ani-
mal presionaba la palanca, ésta saltaba hacia arriba golpeando las patas del animal.
Este ligero castigo fue suficiente como para reducir la conducta de manera notable
con respecto al grupo que recibía sólo extinción. Sin embargo, cuando desapareció
el castigo, la respuesta volvió a aparecer. A lo largo de la segunda sesión las tasas
de respuesta de los dos grupos fueron muy similares y se acabaron extinguiendo al
mismo ritmo.
Skinner concluyó que el castigo tenía un efecto de supresión de la conducta,

pero que el efecto era temporal.
Experimento de Azrin (1960)
Azrin (1960) llevó a cabo un experimento en el que después de entrenar a unas ratas
a presionar la palanca para obtener comida, introdujo el castigo de manera que cada
vez que presionaban la palanca recibían una descarga suave. Al principio la tasa de
respuesta disminuyó drásticamente, pero a lo largo de varias sesiones, la respuesta
se recuperó. Sin embargo, cuando la descarga era suficientemente intensa, el castigo
producía un descenso o la completa desaparición de la respuesta a largo plazo.
También se ha estudiado la naturaleza de la supresión de la conducta, ya que

hay otros procedimientos que también provocan la supresión de una conduc-
ta instrumental sin que esta conducta provoque la presentación de un estímu-
lo aversivo (por ejemplo, la supresión condicionada estudiada en el módulo
"Condicionamiento clásico pavloviano").
Experimento de Schuster y Rachlin (1968)
Schuster y Rachlin (1968) llevaron a cabo un experimento en el que unas palomas

podían picotear dos teclas de respuesta para obtener comida bajo el mismo programa
de IV. En algunos momentos se encendía la tecla de respuesta ubicada a la derecha y
picotearla proporcionaba comida. En otros momentos era la tecla de la izquierda la
que se iluminaba y las respuestas a ella también eran reforzadas. Una vez los animales
aprendieron la tarea, se introdujo el estímulo aversivo. Concretamente, cuando se
iluminaba la tecla de la derecha, algunos de los picotazos de las palomas iban seguidos
de una descarga. En cambio, cuando se iluminaba la tecla de la izquierda, se presen-
taba la descarga con la misma frecuencia pero independientemente de la respuesta
de picotear. Los resultados mostraron que los animales dejaron de responder cuando
se iluminaba la tecla de la derecha, pero mantenían la respuesta si se iluminaba la
tecla de la izquierda. Los resultados muestran, pues, que la supresión de la respuesta
durante el castigo se debe a la contingencia entre la respuesta y el estímulo aversivo
(podéis ver la figura siguiente).
Representación de los datos de Schuster y Rachlin (1968)
La descarga sólo reducía la respuesta de presión de palanca cuando era contingente a la respuesta, pero no
cuando no era contingente a la respuesta.
De acuerdo con lo que hemos expuesto hasta ahora, podemos concluir

que el castigo positivo tiene los efectos opuestos al reforzamiento po-
sitivo. Mientras que el reforzamiento provoca un incremento en la res-
puesta, el castigo provoca un descenso y estos cambios se mantendrán
mientras se mantenga la contingencia entre la respuesta y el estímulo
apetitivo o aversivo, respectivamente.
Ahora analizaremos algunos factores que influyen en la eficacia del castigo

positivo.
• Si queremos suprimir una conducta mediante el castigo, es necesario que

introduzcamos el estímulo aversivo con su máxima intensidad desde un
buen comienzo. Ya hemos comentado al analizar el experimento de Azrin
(1960) que los sujetos se pueden habituar a un estímulo aversivo suave y
varios estudios han mostrado cómo esta habituación se puede generalizar
a otros estímulos aversivos más intensos. Azrin, Holz y Hake (1963) de-
mostraron que unas palomas dejaban de ejecutar la conducta si ésta pro-
ducía una descarga de 80 voltios desde el primer momento, pero si la in-

tensidad de la descarga empezaba con una intensidad baja en las primeras
presentaciones y se iba incrementando poco a poco a lo largo de las sesio-
nes experimentales, las palomas seguían respondiendo incluso cuando la
respuesta producía descargas de 130 voltios.
• Otro factor que interfiere en la eficacia del castigo es la inmediatez con la

que se presenta el estímulo aversivo. Igual que en el reforzamiento la de-
mora entre la conducta y el reforzador reducía la eficacia del reforzador, en
el castigo se ha demostrado que la demora del estímulo aversivo con res-
pecto a la conducta que se quiere suprimir no tiene efecto. Todo el mundo
que tiene animales de compañía sabe la inutilidad de castigar a un perro
o un gato por haber defecado en medio del comedor si el castigo no se
administra en el momento en el que se produce la conducta del animal.
De igual manera, advertir a un niño que se porta mal por la calle de que
cuando lleguemos a casa lo castigaremos tiene pocos efectos.
• Los programas� de� castigo, es decir, el patrón con el que se administra

el castigo también tiene repercusiones sobre su eficacia. La manera más
efectiva de eliminar una conducta es mediante un programa continuo de
castigo y no mediante un programa intermitente. Antes de presentar los
estudios que muestran algunos de los efectos de los programas de castigo
cabe recordar que en estos experimentos los animales aprenden a dar la
respuesta para obtener comida, y posteriormente se introduce el castigo de
la misma conducta. Por lo tanto, los animales están altamente motivados
para ejecutar la conducta que se castiga. Con este procedimiento, Azrin y
colaboradores (1963) compararon diferentes programas de castigo de RF
que iban desde una razón igual a 1 a una razón de 1000. Demostraron
que cuanto más pequeña era la razón, más eficaz era el programa para re-
ducir la conducta. También se ha demostrado (Azrin, 1956) que cuando
se castiga una conducta con un programa de IF60seg provoca un patrón
de respuestas desacelerado a medida que se acaba el intervalo (justo el pa-
trón opuesto al que provoca el reforzamiento, en el que se observa una
aceleración hacia el final del intervalo). Cuando se ha utilizado un pro-
grama de RF20, los animales reducían las respuestas a medida que se acer-
caba la respuesta número 20, y que justo después de recibir el castigo los
animal volvían a responder con una tasa alta (Hendry y VanToller, 1964).
De nuevo, encontramos un patrón de respuesta opuesto al que provoca
el reforzamiento con programas de RF. Allí veíamos que la RF provocaba
justamente una pausa después del reforzamiento; en el castigo la pausa se
realiza antes de recibir el castigo.
• Al recordar el procedimiento para estudiar los programas de castigo decía-

mos que los animales estaban motivados para llevar a cabo la respuesta.
¿Cómo influencia la motivación para responder sobre la eficacia del casti-
go? Azrin y colaboradores (1963) demostraron que el éxito de castigar una
conducta mantenida con reforzamiento de comida dependía del grado de
privación de comida de los animales. Si los animales llevaban muchas ho-

ras sin comida, la eficacia del castigo era mínima, pero si sólo estaban lige-
ramente hambrientos, entonces el castigo suprimía prácticamente la con-
ducta. Aunque esta relación no debe sorprender a nadie, tiene importan-
tes implicaciones si queremos castigar una conducta altamente motivada
sin tener que utilizar estímulos aversivos muy intensos. Es necesario iden-
tificar el reforzador que mantiene la conducta y devaluarlo. Una manera
de hacerlo es dispensándolo de modo no contingente a la conducta que
queremos castigar. Un ejemplo dejará claro este punto.
Supongamos que unos padres quieren eliminar la conducta destructiva de su hijo. Sospe-
chan de que la conducta destructiva del niño persigue la finalidad de captar la atención
de los padres. Entonces, la manera de devaluar el reforzador sería prestar atención al niño
en otros momentos diferentes a cuando se porta mal.
• Relacionado con este último punto, se ha observado que proporcionar

conductas�alternativas a la conducta castigada que proporcionen el mis-
mo reforzador aumenta la eficacia del reforzador. Seguimos con el ejemplo
del niño que rompe objetos para obtener la atención de los padres. Si real-
mente es la única manera que tiene el niño de recibir atención, el castigo
no tendrá ningún efecto, ya que en sí mismo implicará la atención que
busca el niño. Si prestamos atención al niño por otros comportamientos
aceptados, como leer, entonces podemos proporcionarle atención intere-
sándonos por lo que lee, o dedicándole tiempo al día para jugar.
Experimento de Azrin y Holz (1966)
Azrin y Holz (1966) presentaron datos en los que una paloma que respondía bajo un
programa RF25 para obtener comida (podéis ver los programas de razón, subapartado
6.2 de este módulo) y fue castigada con una descarga leve redujo la tasa de respuesta
sólo en un 10%. En cambio, otra paloma que disponía de dos teclas de respuesta con
el mismo programa RF25 en cada una de ellas y que sólo se castigaba el hecho de
responder en una, pero no en la otra, dejó de responder completamente a la alterna-
tiva castigada.
A pesar de la obviedad de los resultados, muchas personas fallan a la hora

de proporcionar y reforzar conductas alternativas aceptadas a la conduc-
ta indeseada. En el campo de la modificación de la conducta a menudo
se utilizan técnicas basadas en estos resultados. Así, si un terapeuta de-
cide castigar la conducta de pelearse con los compañeros de la escuela,
lo más común es que, aparte de castigar la conducta indeseada, refuerce
otra conducta alternativa e incompatible con la indeseada, por ejemplo
el juego cooperativo.
• El último factor que veremos que afecta a la eficacia del castigo hace refe-
rencia al papel que desempeña el castigo como señal�del�reforzador.
Experimento de Holz y Azrin (1961)
Holz y Azrin (1961) entrenaron a unas palomas a picotear una tecla de respuesta para
obtener la comida. La peculiaridad del procedimiento era que la comida sólo estaba
disponible cuando se castigaba la respuesta de picotear con una descarga, pero no
en otros momentos en los que no se castigaba la respuesta. De hecho, la descarga
llevaba a cabo el papel de un estímulo discriminativo que señalaba la disponibilidad
de la comida. No es de extrañar, pues, que las pobres palomas estuvieran dispuestas
a recibir descargas si era el único momento en el que podían comer.
Azrin y Holz (1963) propusieron que el comportamiento masoquista podría

estar relacionado con estos datos. Si una persona aprende que la única manera
de obtener atención de los otros es cuando sufre daño, es posible que busque
estas situaciones, ya que le anticipan la atención que busca.
Factores que afectan a la eficacia del castigo
Incrementan�la�eficacia • Máxima intensidad del estímulo aversivo.

• Contigüidad temporal respuesta-estímulo aversivo.
• Programa de castigo continuo.
• Proporcionar alternativas para el reforzador.
Reducen�la�eficacia • Nivel de motivación alto para el reforzador.

• Estímulo aversivo como señal de la disponibilidad del reforza-
dor.
Resumen de los factores que afectan a la eficacia del castigo
Si se tienen en cuenta todos los factores que afectan a la eficacia del cas-
tigo para suprimir conductas, podemos concluir que el procedimiento
es tan eficaz como el reforzamiento para modificar el comportamiento.
No obstante, hay ciertos efectos�secundarios�del�castigo que hay que tener

en cuenta antes de decidir su utilización.
• Primero, el castigo puede provocar determinadas reacciones�emocionales

Experimento Ulrich y
como el miedo o el enfado. Estas emociones a menudo interfieren en el Azrin (1962)
aprendizaje y en la ejecución. Balaban, Rhodes y Neuringer (1990) presen-
taron una tarea de memoria a unos estudiantes. En uno de los grupos se Ulrich y Azrin (1962) me-
tieron dos ratas en una
les castigaba con una descarga cuando cometían un error y en el otro gru- caja donde se compor-
taban plácidamente. Pero
po se les castigaba con un tono. Los resultados fueron que los estudiantes
tan pronto como empeza-
trabajaban más lentamente y cometían más errores cuando se les castigaba ron a recibir descargas su
conducta se volvió agresi-
con la descarga que cuando se les castigaba con el tono.
va y se peleaban entre ellas.
• Un segundo aspecto que hay que tener en cuenta es que el castigo puede
suprimir�otras�conductas diferentes a la que se castiga.
Imaginad un aula en la que un estudiante realiza una pregunta y el profesor le responde:

"esta es una pregunta sin sentido". Probablemente, la intención del profesor es reducir
las preguntas estúpidas, pero no sería de extrañar que al mismo tiempo redujera el hecho
de realizar preguntas en general, las malas pero también las buenas.
En las situaciones de la vida real, es muy difícil llevar a cabo un segui-

miento completo de todas las conductas de una persona, pero espe-
cialmente de las conductas que son susceptibles de ser castigadas.
Si un niño es reforzado por arreglar su habitación, él mismo estará interesado en hacer

notar a los padres que ha puesto en orden la habitación. Pero si se castiga al niño por
pegar a su hermano, procurará hacerlo cuando no haya adultos delante y si el hermano
lo delata, lo más probable es que el infractor lo niegue por evidente que sea.
Relacionado con lo que acabamos de decir, Azrin y Holz describieron

el comportamiento de una rata bastante inteligente que recibía casti-
gos por algunas de las presiones de palanca que realizaba con el obje-
tivo de obtener comida. Concretamente, este animal aprendió a pre-
sionar la palanca poniéndose panza arriba de manera que la piel lo
aislaba de las descargas que se dispensaban desde el suelo. Es evidente
que un delincuente intentará esconder todas las pruebas posibles de
sus delitos con el fin de escapar del castigo que suponen sus acciones.
• Otro problema del castigo es que tiende a provocar conductas�agresivas

hacia la persona que proporciona el castigo y hacia otras personas que
puedan estar cerca.
Como conclusión, Azrin y Holz (1963) afirman que el castigo no es re-

comendado, especialmente si hay otras técnicas que permiten obtener
los mismos resultados que el castigo pero que utilizan estimulación ape-
titiva.
Ésta no es sólo una cuestión de eficacia, sino ética. No obstante, hay muchas
situaciones en las que podemos aplicar el castigo considerándolas como nor-
males. Es evidente que los gobiernos pueden regular el funcionamiento de las
instituciones para erradicar el castigo de las instituciones como la policía, las
escuelas, las prisiones, etc., pero ya es más difícil controlar la utilización del
castigo en las interacciones interpersonales del día a día, como entre padres e
hijos, entre esposos, etc. Además, el mundo físico está lleno de situaciones en
las que podemos recibir un castigo. Sólo hay que pensar en las consecuencias
que puede tener un descuido mientras conducimos, trabajamos o practicamos
algún deporte. Dado que estas situaciones son inevitables, tiene sentido seguir
estudiando los efectos del castigo sobre nuestro comportamiento.
Hasta aquí hemos expuesto los efectos del procedimiento de castigo y los fac-
tores que influyen en su eficacia. Pero ¿cómo se explica que el castigo reduzca
la conducta?
La primera teoría que analizaremos recibe el nombre de teoría�de�la�evitación

del�castigo y está basada en la teoría de los dos factores.
Experimentos de Dinsmoor (1954, 1955, 1977)
Dinsmoor (1954, 1955, 1977) asumió que cualquier respuesta está constituida por
una cadena de otras conductas. Presionar una palanca empieza por acercarse al uten-
silio, levantar la pata, apoyarla encima de la palanca y realizar suficiente presión.
Cuando el último elemento de la cadena provoca el estímulo aversivo, los eslabones
previos de la cadena quedan asociados con el estímulo aversivo y sirven como se-
ñales clásicas para evocar miedo. De esta manera, iniciar la cadena puede activar el
miedo del animal y cualquier respuesta que interrumpa el miedo se verá reforzada.
Así, romper la cadena y dedicarse a otras conductas elimina el miedo y éstas se ven
reforzadas. En definitiva, los animales dejan de ejecutar la respuesta castigada porque
se refuerzan otras conductas incompatibles con la conducta castigada.
Como alternativa a esta explicación encontramos la que se basa en la ley ne-

gativa del efecto (Thorndike, 1911; Rachlin y Herrnstein, 1969) o también co-
nocida como teoría�del�factor�único.
Básicamente, la teoría postula que el castigo actúa directamente sobre la

conducta castigada sin necesidad de recurrir al condicionamiento clá-
sico.
A pesar de que es difícil poder comparar experimentalmente las dos teorías,

la investigación ha aportado más datos a favor de la teoría del factor único.
No obstante, los experimentos más concluyentes a favor de la teoría del factor
único son bastante complejos y no los expondremos aquí.
8. Teorías del condicionamiento instrumental
En la introducción del estudio de la conducta instrumental decíamos que és-

ta reflejaba lo que tradicionalmente se entiende como conducta voluntaria.
También nos referíamos a un mecanismo muy elemental que se había pro-
puesto para explicar la conducta instrumental basado en el hedonismo: los
organismos estamos motivados para ejecutar respuestas que nos proporcionan
placer y evitamos el dolor. A pesar de que podamos estar de acuerdo con este
planteamiento, es necesario un análisis más detallado de los mecanismos que
controlan la conducta instrumental.
¿Por qué el reforzador motiva nuestro comportamiento? Y ¿qué mecanismos

provocan que detectemos la respuesta apropiada para obtener el reforzador?
Responder a las dos preguntas es importante para comprender mejor nuestro

comportamiento. En la realidad, cada una de estas preguntas ha generado su
propia vía de investigación y sus teorías.
Las cuestiones motivacionales de la respuesta instrumental se han enfocado

desde la perspectiva de la regulación�de�la�conducta, más próxima al enfoque
de Skinner, y que contempla un análisis molar de la conducta. Su interés prin-
cipal es cómo el procedimiento de condicionamiento instrumental determina
el flujo de las actividades de un organismo. Parte de la base de que la conducta
persigue metas y que los organismos se sirven de su conducta para conseguir
las metas. El énfasis se pone, pues, en la función de la conducta instrumental.
Por otra parte, los mecanismos que permiten descubrir las relaciones entre el
comportamiento y sus consecuencias es el centro de interés de la perspectiva
asociativa. Thorndike fue el primero en intentar explicar el comportamiento
instrumental para la formación de asociaciones. Actualmente, el interés por el
enfoque asociativo viene influenciado por los estudios en el campo del con-
dicionamiento clásico y toma una estrategia molecular.
La conducta instrumental se estudia en referencia a los antecedentes estimula-

dores y las consecuencias específicas de la conducta. A pesar de las diferencias
evidentes, o precisamente por estas diferencias, ambas perspectivas se deben
tomar como complementarias y no como adversarias si queremos llegar a al-
canzar un conocimiento más amplio de la conducta instrumental.
8.1. Estructura asociativa del condicionamiento instrumental
Thorndike fue el primero que describió los elementos implicados en el condi- ''Abecé de la conducta''
cionamiento instrumental: la respuesta (R), la consecuencia o reforzador (C)
Skinner denominaba a esta es-
y los estímulos (E) en presencia de los cuales se produce la respuesta. tructura el abecé de la conduc-
ta: A de antecedentes (los es-
tímulos), B de behaviour (con-
Desde un punto de vista asociativo, la existencia de los tres elementos permite ducta en inglés) y C de conse-
cuentes.
pensar en la posibilidad de tres asociaciones diferentes como mínimo (podéis
ver la figura siguiente). Una asociación entre los estímulos y la respuesta (E-
R), una asociación entre la respuesta y la consecuencia (R-C) y una asociación
entre los estímulos y las consecuencias (E-C).
Esquema de la estructura asociativa implicada en el condicionamiento instrumental
La flecha discontinua muestra la asociación E-R correspondiente a la ley del efecto formulada por Thorndike. Las flechas
continuas muestran las asociaciones entre el estímulo discriminativo y la consecuencia (asociación E-C) y la asociación entre
la respuesta y la consecuencia (asociación R-C). (Podéis ver el texto para una explicación detallada de cada una de estas
asociaciones).
8.1.1. Asociaciones E-R
Como hemos visto al principio del módulo, Thorndike formuló la ley� del
efecto para explicar el condicionamiento instrumental.
Según la ley del efecto, cuando se refuerza una conducta se forma una
asociación entre los estímulos presentes en el momento de ejecutar la
respuesta y la respuesta. El papel del reforzador es marginal en el sentido
de que no forma parte de la asociación.
Siguiendo la ley del efecto, la presencia de un estímulo que se ha asociado

a una respuesta sería suficiente para que se produjera la respuesta. La ley del
efecto no prevé que un organismo pueda tener una expectativa del reforzador,
ya que al no estar éste asociado ni a los estímulos ni a la respuesta, no se puede
activar su representación mental. Esta idea va contra la intuición.
Si pulsamos el botón del ascensor es porque esperamos que el ascensor venga al piso
donde nos encontramos, si introducimos unas monedas en la máquina expendedora de
refrescos es porque tenemos la expectativa del refresco.
No obstante, las primeras teorías veían el aprendizaje como una asociación

E-R.
Hull (1934, 1943, 1952) desarrolló uno de los sistemas teóricos sobre el apren-
dizaje más influyentes.
El núcleo central de la teoría es que la conducta depende de dos factores

principales: el hábito o aprendizaje y el estado motivacional.
Esta teoría es uno de los primeros intentos desde una perspectiva asociativa
de diferenciar entre conducta y aprendizaje. Efectivamente, uno de los prin-
cipales problemas del enfoque conductista era la confusión entre aprendizaje
y conducta o, dicho de otra manera, la definición de aprendizaje como un
cambio en la conducta. La teoría de Hull, sin embargo, realiza esta diferencia-
ción y considera que sin hábito o sin motivación no habrá comportamiento.
Este aspecto de la teoría es relevante, ya que puede haber aprendizaje pero si
no hay un estado motivacional, no se verá reflejado en el comportamiento.
Lo mismo se puede decir en cuanto a la motivación. El hecho de aceptar dos
factores que no se pueden observar directamente hace necesaria la definición
esmerada de estas variables.
1)�Motivación
El primer concepto que hay que definir es la motivación. Según Hull, los
organismos tienen necesidades biológicas, como puede ser el hambre, la sed,
el sueño. Cualquiera de estas necesidades impulsará o motivará la conducta,
en principio no aprendida, que tiene por objetivo la reducción de la necesidad.
Por lo tanto, la motivación depende estrechamente del estado del organismo.
Esta concepción de la motivación le permite a Hull definir también lo que

es un reforzador. De acuerdo con Hull, lo que reforzará la conducta no es
el estímulo reforzador por sí mismo, sino la reducción de la necesidad que
produce el reforzador.
La comida no sería un reforzador por sí misma, sino el hecho de que al ingerirla se permite
eliminar o reducir la sensación de hambre.
Sin embargo, Hull acaba admitiendo que hay algunos aspectos de los estímu-
los reforzadores que pueden influir en la conducta. Por ejemplo, vemos que el
tamaño o la calidad del reforzador influía directamente en el comportamien-
to de los animales, de manera que estaban más dispuestos a trabajar por un
alimento dulce que por un alimento ácido. Pues bien, Hull incluye estas pro-
piedades motivacionales del reforzador con lo que denomina incentivo.
En resumen, la motivación viene definida por el estado de necesidad

del organismo pero también por las propiedades de incentivo de los
estímulos reforzadores.
2)�Aprendizaje
El segundo factor que Hull tenía en cuenta para explicar el comportamiento

es el aprendizaje o hábito.
Hull explica el aprendizaje o la formación de un hábito de la siguiente manera:
siempre que un organismo experimenta una secuencia estímulo-res-

puesta seguida de una reducción de su estado de necesidad o impulso
(D, del inglés drive), entonces se incrementa el hábito (EHR), que consis-
te en una tendencia a efectuar la respuesta en presencia del estímulo.
La fuerza�del�hábito está en relación con el número de veces que la se-

cuencia estímulo respuesta ha ido seguida de la reducción del impulso.
La definición que da Hull del aprendizaje sigue el modelo de la ley del efecto
de Thorndike, es decir, una asociación entre los estímulos presentes en el mo-
mento de la respuesta y ésta. Pero a diferencia de Thorndike, Hull incluye una
explicación del modo como actúa el reforzador en este proceso de aprendizaje:
la capacidad del reforzador para reducir un estado de necesidad es la clave para
formar las asociaciones E-R.
Pero ¿qué evidencia existe de la formación de asociaciones E-R? Rescorla (1991,

podéis ver también Nevin, 1999) reconoce que la evidencia de estas asociacio-
nes es indirecta y se basa en el hecho de que, una vez hemos aprendido una
respuesta instrumental, no podemos dejar de responder totalmente a pesar de
que se devalúe completamente el reforzador. Pero para entender esta idea es
necesario que primero nos centremos en un segundo tipo de asociación im-
plicada en el condicionamiento instrumental: las asociaciones�entre�las�res-
puestas�y�las�consecuencias o asociaciones R-C.
8.1.2. Asociaciones R-C
Las asociaciones E-R defienden que la conducta está controlada por los estímu-
los antecedentes, de manera que si se presenta un determinado estímulo, éste
activa la respuesta con la que está asociada. No obstante, Skinner se dio cuenta
de que los estímulos consecuentes también tienen control sobre el compor-
tamiento. Así, si una rata presiona la palanca y obtiene comida, mantendrá
su comportamiento, al menos mientras tenga hambre. Pero si en un segundo
momento se deja de presentar la comida, podremos observar que la conducta
de presionar la palanca se reduce e incluso desaparece. Si se vuelve a presen-

tar la comida contingente con la respuesta, ésta vuelve a aparecer. Esta simple
manipulación experimental permite asumir que la conducta está controlada
por los estímulos consecuentes. Pero ¿qué mecanismo permite explicar estos
cambios en la conducta que dependen de los estímulos consecuentes?
Desde la perspectiva asociativa cabe la posibilidad de que se formen asociacio-

nes entre las respuestas y las consecuencias.
Este tipo de asociaciones permiten en los organismos saber qué han de

hacer para producir determinados cambios en su entorno como, por
ejemplo, obtener comida.
¿Qué evidencias tenemos de la existencia de estas asociaciones? Nos centrare-

mos en una investigación de Colwill y Rescorla (1985).
Experimento de Colwill y Rescorla (1985)
En este trabajo, un grupo de ratas aprendieron a obtener dos reforzadores ejecutando

dos respuestas diferentes. Así, los animales obtenían bolitas de comida presionando
una palanca y azúcar líquido si estiraban de una cadena que colgaba del techo de
la caja de condicionamiento. El entrenamiento con cada una de las respuestas se
llevaba a cabo en días alternos. Para evitar explicaciones a partir de las dificultades
en la manipulación de los mecanismos de respuesta o al valor de los dos reforzadores
utilizados, se dispuso que para la mitad de los sujetos las relaciones entre las dos
respuestas y los dos reforzadores fueran las mencionadas, pero para la otra mitad
de los animales estas relaciones se invertían, de manera que presionar la palanca
proporcionaba el azúcar líquido, mientras que estirar de la cadena producía las bolitas
de comida. Una vez los animales habían aprendido las relaciones entre cada conducta
y sus consecuencias concretas, se procedió a devaluar uno de los reforzadores.
El concepto de devaluar hace referencia a la manipulación experimental que provoca

que un determinado estímulo reforzador cambie su valor hedónico. Por ejemplo, la
comida es un estímulo apetitivo para un animal hambriento, pero deja de ser apeti-
tivo si el animal está saciado, o si el consumo de esta comida provoca un malestar
gastrointestinal. En el experimento de Colwill y Rescorla la devaluación consistió en
presentar, en días alternos, los dos reforzadores. La ingestión de uno de los reforza-
dores iba seguida de un malestar provocado por una inyección de ClLi, mientras que
el consumo del otro reforzador no provocaba ningún malestar. Otra vez, para evitar
explicaciones alternativas, en la mitad de los sujetos se devaluó el azúcar líquido y
en la otra mitad se devaluaron las bolitas de comida.
Resumiendo el procedimiento e, independientemente de las respuestas y los reforza-

dores concretos, cada animal aprendió que dos respuestas, R1 y R2, proporcionaban
cada una una consecuencia diferenciada, C1 y C2. Si se forman asociaciones R-C, en-
tonces los animales deberían adquirir dos asociaciones, R1-C1 y R2-C2. La devaluación
de C1 permitiría poner a prueba si realmente se han adquirido estas asociaciones R-C.
Colwill y Rescorla llevaron a cabo una última fase de prueba después de la devalua-
ción de C1 que consistía en una sesión de 20 minutos en la que estaban disponibles
los dos mecanismos de respuesta y, por lo tanto, los animales podían elegir entre R1 y
R2. Durante esta sesión, ninguno de los dos mecanismos proporcionaba al reforzador,
por lo que se trataba de un procedimiento de extinción. Si se hubieran formado las
asociaciones R-C, entonces los animales podían anticipar un reforzador que provoca
un malestar si ejecutan la R1, y un reforzador apetitivo si ejecutan la R2. Los resultados
fueron claros: los animales preferían trabajar en aquel mecanismo que proporciona-
ba reforzadores no devaluados que en el mecanismo que proporcionaba reforzadores
devaluados. Durante los primeros 4 minutos de la prueba, los animales respondieron
a R2 con una tasa de 6,7 respuestas por minuto, mientras que respondían a R1 con una
tasa de 1,8 respuestas por minuto. Estos resultados sólo son posibles si los animales
pueden anticipar qué consecuencia tiene cada una de sus acciones y, por lo tanto,
dan soporte a la formación de asociaciones R-C.
Pero volvamos un momento atrás, cuando decíamos que las pruebas de la for-
mación de asociaciones E-R sólo eran indirectas. Si nos fijamos en la condición
en la que se devalúa el reforzador, podemos apreciar que los animales no de-
jaron de responder totalmente. Este dato no es coherente si sólo se formaran
asociaciones R-C, ya que los animales están invirtiendo tiempo en una activi-
dad que los llevaría a un alimento nocivo. ¿Por qué se sigue respondiendo a
R1? La respuesta es que se han formado asociaciones E-R. Esto es, las caracterís-
ticas físicas de cada mecanismo de respuesta se han asociado con la respuesta
correspondiente, de manera que estas características físicas pueden provocar
la respuesta de los animales.
8.1.3. Asociaciones E-C
Al introducir el análisis asociativo del condicionamiento instrumental, postu-

lábamos una tercera asociación entre los estímulos antecedentes y los estímu-
los consecuentes. A pesar de que esta asociación es clásica, ya que los dos ele-
mentos asociados son estímulos, puede tener repercusiones importantes sobre
la conducta instrumental. Pensad en la siguiente manipulación experimental:
un animal puede obtener comida si presiona la palanca, pero sólo cuando está
presente un tono. Si no aparece el tono, entonces la presión de palanca no
proporciona comida. Es evidente que una buena conducta adaptada del ani-
mal es la que limita las respuestas de presión de palanca sólo en presencia del
tono, ya que en su ausencia es un gasto energético inútil. Como veremos en
el apartado de discriminación y generalización, los animales no tienen dema-
siada dificultad en aprender a limitar las respuestas en presencia del estímulo
antecedente o discriminativo.
Si bien este comportamiento se puede explicar mediante una asociación E-R,

ya que la respuesta ha ido seguida de reforzador sólo cuando estaba presente
el tono, cabe una segunda posibilidad: que los animales aprendan una asocia-
ción E-C entre el tono y la comida de manera que el estímulo discriminativo
anticipe la disponibilidad del reforzador.
Colwill y Rescorla (1988) aportaron datos a favor de la existencia de estas aso-

ciaciones. En el experimento que analizaremos se utilizaron dos estímulos dis-
criminativos (un ruido y una luz), cuatro respuestas (empujar con el morro un
botón, estirar de una manecilla, presionar una palanca y estirar de una cadena)
y dos consecuencias (bolitas de comida y azúcar líquido).
Asociaciones E-C
Experimento de Colwill y Rescorla (1988)
Las asociaciones E-C permiten
En una primera fase se entrenó a los animales a ejecutar la R1 para obtener la C1 en a los organismos anticipar la
presencia del E 1 y ejecutar R2 para obtener la C2 en presencia del E2. Al igual que disponibilidad de un reforza-
en el experimento que hemos descrito anteriormente, las respuestas, los estímulos dor.
y las consecuencias concretas se contrabalancearon de manera adecuada. De acuer-
do con la formación de asociaciones clásicas entre el estímulo discriminativo y las
consecuencias (E-C), entonces el procedimiento habría permitido asociaciones entre
el E 1 y la C1 y entre el E2 y la C2. Para poner a prueba estas asociaciones, Colwill y
Rescorla llevaron a cabo una segunda fase en la que los animales aprendieron dos
nuevas respuestas: la R3 que proporcionaba la C1, y la R4 que proporcionaba la C2.
Durante esta fase no se presentó ninguno de los dos estímulos discriminativos. Final-
mente, se llevó a cabo la fase de prueba, en la que se presentaban ensayos con el E1
y ensayos con el E2. En cada uno de estos ensayos los animales podían elegir entre
las respuestas R3 y R4.
Como las respuestas R3 y R4 nunca se habían ejecutado en presencia de los estímulos

discriminativos, no se habían podido formar asociaciones E-R y, en consecuencia, los
estímulos discriminativos no podían activar ninguna de las dos respuestas. Por otra
parte, si el E1 se hubiera asociado con C1 y el E2 se hubiera asociado con C2, enton-
ces E1 y E2 activarían la expectativa de C1 y de C2, respectivamente. Si los animales
tenían la expectativa de C1 en presencia de E1, entonces se esperaría que ejecutaran
la respuesta que les proporcionaría el reforzador esperado, esto es, R3, mientras que si
tenían la expectativa de C2, entonces ejecutan la R4. En otras palabras, en presencia
de un determinado estímulo discriminativo, los animales esperan que esté disponible
una consecuencia concreta y que, por lo tanto, ejecuten preferentemente la respuesta
que proporciona esta consecuencia.
Los resultados fueron en esta línea. La prueba consistió en 8 ensayos y se obtuvo

una media de 7,3 respuestas por minuto al mecanismo de respuesta asociado a la
misma consecuencia que el estímulo discriminativo presente, mientras que la media
de respuestas al mecanismo asociado a la consecuencia diferente era de 5,1 respuestas
por minuto. Por lo tanto, el estímulo discriminativo se debería haber asociado con
la consecuencia, ya que la capacidad de éste para modular la conducta era mayor
cuando la consecuencia asociada al estímulo discriminativo y a la respuesta era la
misma.
8.1.4. Asociaciones jerárquicas
Finalmente, hay que tener en cuenta que si bien la naturaleza de la asociación

E-C es clásica, la consecuencia no se producirá si antes no aparece la respuesta
instrumental.
En otras palabras, el estímulo discriminativo sólo marca la ocasión para

la consecuencia, pero ésta no tendrá lugar a no ser que el organismo
ejecute la respuesta adecuada.
Esta situación nos lleva a la necesidad de evaluar una nueva posibilidad: que el
estímulo discriminativo no sólo se asocie con cada uno de los otros elementos,
sino que evoque una representación de la relación que existe entre la respues-
ta y el reforzador (Jenkins, 1977). Este tipo de asociación más compleja que
la que relaciona dos elementos simples recibe el nombre de asociación�jerár-
quica. Esta estructura asociativa implicaría que un estímulo discriminativo no
provocaría la respuesta directamente por medio de la asociación E-R –que, co-
mo señala Mackintosh (1983), es factible cuando la respuesta instrumental se
ha convertido en un hábito–, ni se limitaría a activar una expectativa del re-
forzador por medio de la asociación E-C, sino que aportaría información más
concreta sobre lo que debe hacer el animal para obtener el reforzador, es decir,
activaría la representación de la asociación R-C. En los últimos años se han
obtenido datos experimentales a favor de estas asociaciones jerárquicas (por
ejemplo, Rescorla, 1990); no obstante, la complejidad de los procedimientos
experimentales utilizados hace que su presentación quede fuera de los objeti-
vos de este módulo.
Para acabar con el análisis asociativo del condicionamiento instrumental, ex-

pondremos la idea de Mackintosh (1983), quien afirma que la actuación ins-
trumental es la consecuencia de una instrucción que se infiere de una asocia-
ción, en lugar de ser provocada directamente por una asociación.
La exposición de una contingencia positiva entre las presiones de palanca y

la comida establecerá una asociación entre ellas, o una proposición que las
presiones de palanca proporcionan comida. Si una rata tiene hambre y la co-
mida es agradable, entonces el conocimiento adquirido de la premisa que las
presiones de palanca producen comida se combinará con otra premisa de que
la comida hay que buscarla. A partir de estas dos premisas se puede derivar la
instrucción de accionar la palanca.
8.2. Teorías sobre la regulación de la conducta
El análisis asociativo del condicionamiento constituye una explicación mo-

lecular del condicionamiento instrumental. Llevado al extremo, los mecanis-
mos asociativos expuestos permiten a los organismos adquirir información
relevante con respecto al entorno, un conocimiento en forma de premisas o
proposiciones que permitirá la combinación entre éstas de manera que se ac-
tive la conducta más apropiada en cada momento.
Sin embargo, el análisis del condicionamiento instrumental también se ha

efectuado desde una perspectiva molar, global. Se han propuesto varias teorías
que se agrupan bajo el título de la regulación de la conducta. Algunas de estas
teorías toman supuestos del campo de la economía para intentar explicar de
qué manera se regula nuestro comportamiento.
Cuando exponíamos los elementos del condicionamiento instrumental, y

concretamente el reforzador, hemos presentado la teoría�de�Premack.
Recordemos que, de acuerdo con Premack, en cualquier situación en la

que no hay restricciones, los organismos distribuyen su tiempo en varias
actividades en función de las necesidades del animal y la disponibilidad
de las distintas actividades.
Siguiendo el argumento de Premack, una actividad que aparece en una fre-

cuencia alta puede servir para reforzar otra actividad de baja frecuencia siem-
pre que se restrinja la primera y se haga contingente con la segunda. Si una rata
tiene hambre (podéis ver la figura siguiente), lo más probable es que dedique
más tiempo a comer que a correr en una rueda de actividad. Si restringimos el
acceso a la comida y lo hacemos contingente a dar unas vueltas en la rueda de
actividad, podremos observar que la conducta de baja frecuencia incrementa
y la de alta frecuencia disminuye. De manera simétrica podemos establecer un
procedimiento de castigo. En este caso, se hace contingente una conducta de
baja frecuencia con otra conducta de alta frecuencia de manera que si aparece
la segunda, se obliga a la ejecución de la primera. En los dos casos se obtiene
una redistribución en la frecuencia de aparición de las distintas conductas. El
punto crítico de la teoría de Premack es la probabilidad diferencial de las con-
ductas instrumental y reforzadora.
Diagrama representativo del principio de Premack
Si las ratas están privadas de comida, entonces comer será la conducta más frecuente y reforzará la conducta de
baja frecuencia correr. Si los animales no están privados de comida, entonces las ratas correrán más y reforzará la
conducta de comer.
Allison (1989, Timberlake y Allison, 1974) propuso que el factor crítico para
que una conducta refuerce a otra es la restricción de la conducta con indepen-
dencia de su frecuencia de aparición. A favor de esta hipótesis, Timberlake y
Allison (1974) encontraron que el acceso a una conducta de baja probabilidad
se podía utilizar como reforzador de otra conducta, con la única condición de
que los sujetos tuvieran la restricción de realizar esta conducta.
La idea básica de este punto de vista es que los organismos distribu-

yen sus conductas, cuando no hay restricciones, de manera óptima pa-
ra ellos. Esta distribución recibe el nombre de punto�de�deleite de la
conducta.
Pongamos un ejemplo sencillo en el que sólo se tengan en cuenta dos con-

ductas en el caso de un adolescente.
Imaginemos que el chico o la chica dedica de manera espontánea el 60% del tiempo entre
la finalización del instituto y la hora de cenar a ver la televisión y el 15% a estudiar (el
resto del tiempo los dedicará a otras actividades). Esta distribución constituiría el punto
de deleite de la conducta. Sin embargo, en el momento en el que se introduce una con-
tingencia respuesta-reforzador, se altera este punto de deleite o, lo que es lo mismo, el
punto de equilibrio.
Supongamos que establecemos una contingencia en la que por cada 15 minutos de es-
tudio puede ver la televisión durante 15 minutos. Es evidente que esta nueva situación
rompe el equilibrio de la distribución de las conductas y la consecuencia es que el adoles-
cente redistribuirá su conducta de manera que se acerque al máximo al punto de deleite.
Se entenderá mejor con una representación gráfica (podéis ver la figura siguiente). El
punto de deleite de la conducta se representa por el círculo blanco, mientras que la con-
tingencia establecida entre las dos conductas se representa con la línea negra. Cualquier
punto de esta línea cumpliría el requisito de la contingencia. ¿En qué punto se situará la
nueva distribución de las dos actividades? De acuerdo con la teoría, el adolescente busca-
rá el punto que lo acerque más al punto de deleite, es decir, el punto de la línea que se en-
cuentre más cerca del punto de deleite (Staddon, 1983). Supongamos que el adolescente
dispone de dos horas desde que llega a casa y la hora de cenar. En condiciones normales,
dedicaría 72 minutos a ver la televisión y 18 minutos a estudiar. Si quiere mantener el
máximo de dedicación a ver la televisión y de acuerdo con el programa establecido, lo
obligaría a dedicar 60 minutos a estudiar para poder ver 60 minutos de televisión. Lo
más probable es que el adolescente no esté dispuesto a pagar un "precio" tan alto. Otra
opción es que no estuviera dispuesto a estudiar más tiempo del que ya dedicaba, pero
en este caso pierde mucho con respecto a ver la televisión, ya que sólo le puede dedicar
18 minutos. Buscar el punto que mejor se ajuste al punto de deleite se convierte en la
motivación de la conducta. En el ejemplo que nos ocupa, una solución podría ser dedicar
37,5 minutos a cada conducta; de esta manera conseguiría distribuir las dos conductas
alejándose lo mínimo del equilibrio. La nueva distribución implica un incremento en el
tiempo de estudio y una reducción del tiempo dedicado a la televisión.
Distribución de las conductas de ver la TV y de estudiar
El punto blanco muestra el punto de deleite o la distribución óptima cuando no hay restricciones. La línea muestra
las diferentes posibilidades de combinar las dos conductas cuando se introduce un programa de reforzamiento en
el que se pide que el estudiante dedique la misma cantidad de estudio que de ver la tele. Como se puede observar,
ninguno de los puntos de la línea pasa por el punto de deleite. La consecuencia es que el estudiante deberá reajustar
los dos comportamientos de acuerdo con el punto de la recta que está más cerca del punto de deleite (el triángulo
negro).
Un aspecto interesante de la teoría es que si restringimos la conducta de estu-

diar y la hacemos contingente con la de ver la televisión, podremos ver que
la conducta de estudio serviría para reforzar la de ver la televisión. Si nuestro
adolescente hubiera de ver 90 minutos de televisión para poder estudiar du-
rante 10 minutos, entonces para mantenerse próximo al punto de deleite ne-
cesitaría incrementar el tiempo de ver la televisión para no perder demasiado
tiempo de estudio.
Teorías del condicionamiento instrumental
Basadas�en�los�mecanismos Basadas�en�la�motivación
• Explicación molecular • Explicación molar
• Mecanismos asociativos • Regulación de la conducta

– Asociaciones E-R – Premack: Las conductas de alta proba-
– Asociaciones R-C bilidad refuerzan las conductas de baja
– Asociaciones E-C probabilidad.
– Asociaciones E-(R-C) – Punto de deleite: La restricción de una
conducta la convierte en reforzadora de
una segunda conducta.
Resumen de las teorías sobre el condicionamiento instrumental. Hay que señalar que las teorías molares y moleculares no son
incompatibles, sino complementarias.
9. Generalización y discriminación
A lo largo del módulo hemos podido observar cómo la conducta instrumental

está gobernada por los estímulos antecedentes y los estímulos consecuentes.
Los primeros aportan información sobre la disponibilidad o no de los estímu-
los consecuentes y sobre qué conductas permiten controlarlos, mientras que
los segundos consisten en situaciones agradables que procuramos obtener o
desagradables que intentemos detener o impedir. En este apartado nos centra-
remos en las propiedades de los estímulos que permiten controlar la conducta.
Hay que tener en cuenta, sin embargo, que a pesar de tratar este tema en el
módulo del condicionamiento instrumental, las características que veremos
no se limitan a este tipo de condicionamiento, sino que se extienden también
al condicionamiento clásico. Así pues, el conocimiento que tenemos sobre la
generalización y la discriminación de los estímulos afecta tanto a los estí-
mulos condicionados como a los estímulos discriminativos.
Expondremos la idea del control de la conducta mediante un experimento de

Reynolds (1961) expuesto en Domjan (2003).
Experimento de Reynolds (1961)
En este experimento se entrenó a dos palomas a picotear una tecla iluminada de color
rojo con un triángulo blanco en el centro. El entrenamiento consistía en proporcio-
nar comida si las palomas picoteaban la tecla siempre que estuviera iluminada con
este dibujo, pero no recibían comida si la picoteaban cuando no estaba iluminada.
Los animales mostraron su aprendizaje limitando la respuesta a los momentos en los
que la tecla se iluminaba. Podemos afirmar que la iluminación de la tecla controlaba
la respuesta de picotear de las palomas. Más interesante, sin embargo, fue la prueba
que llevó a cabo Reynolds con las palomas una vez habían alcanzado el aprendiza-
je. La prueba consistía en presentar en algunos ensayos el disco iluminado de color
rojo sin el triángulo, y en otros ensayos presentaba el triángulo blanco pero sin el
fondo de color rojo. Durante la prueba, la respuesta de picotear la tecla no iba seguida
del reforzador. ¿Qué característica del estímulo original controlaría la respuesta? Rey-
nolds encontró que mientras una de las palomas respondía a la tecla de color rojo e
ignoraba el triángulo blanco, la segunda paloma respondía básicamente al triángulo
blanco e ignoraba la tecla de color rojo.
Estos resultados de la prueba indican que de todos los estímulos o caracte-

rísticas de los estímulos, sólo algunas de ellas llegan a tener el control de la
conducta. Por otra parte, los resultados también ilustran el hecho de que sin
un entrenamiento explícito cualquier característica puede llegar a adquirir el
control de la conducta. En el experimento de Reynolds, podría ser que uno de
los animales se hubiera fijado en el color rojo o la forma circular de la tecla
durante el entrenamiento, mientras que la otra paloma se podría haber fija-
do en el color blanco de la tecla o en la forma triangular de la figura blanca.
Aún más, los resultados muestran que los animales discriminaban entre los
dos estímulos de prueba, ya que respondían de manera diferencial ante cada
uno de ellos. Al mismo tiempo, podemos afirmar que los animales también
generalizaban entre el estímulo utilizado durante el entrenamiento original y

uno de los estímulos de prueba, ya que seguían respondiendo en su presencia,
y discriminaban entre el estímulo original y el otro estímulo de prueba, ya que
no respondían en su presencia.
9.1. Generalización y discriminación
El ejemplo que acabamos de exponer nos ha servido para introducir los dos
conceptos que trataremos en este apartado y que hay que definir formalmente.
La generalización es la tendencia a tratar dos estímulos diferentes como

si fueran iguales.
La discriminación es la tendencia a responder de manera diferencial a

dos estímulos diferentes.
Es evidente que los dos fenómenos son complementarios, ya que si generali-

zamos entre dos estímulos, no estamos discriminando entre ellos; y, por otra
parte, si discriminamos entre dos estímulos, no generalizamos entre ellos.
Lashley y Wade (1946) afirmaron que la generalización es una consecuencia

de la incapacidad del sujeto para diferenciar los estímulos. Lashley y Wade
consideran que se generaliza porque existe una confusión entre los estímulos
de prueba y el estímulo que se ha utilizado durante el entrenamiento. De esta
afirmación de Lashley y Wade se desprende que cuanto más parecidos sean dos
estímulos, más confusión habrá entre ellos y se producirá más generalización.
En otras palabras, la generalización es la relación sistemática entre la fuerza

de la respuesta a los estímulos generalizados y la similitud de estos estímulos
con el estímulo utilizado durante el entrenamiento original. Esta relación sis-
temática se denomina gradiente�de�generalización.
9.2. Gradientes de generalización
Una manera de estudiar los gradientes de generalización consiste en llevar a

cabo una fase de entrenamiento en la que se enseña a los sujetos a responder
en presencia de un determinado estímulo, por ejemplo, una luz de un deter-
minado color. Una vez finalizado este entrenamiento, se realiza una fase de
prueba durante la cual se presentan de manera aleatoria el estímulo de entre-
namiento y otros estímulos nuevos que varían en el color. Durante la prueba
no se administra el reforzador y se registran las respuestas ante cada estímulo
de prueba.
La primera demostración de los gradientes de generalización la aportaron

Guttman y Kalish (1956).
Experimento de Guttman y Kalish (1956)
En su experimento manipularon el color de la luz de una tecla de respuesta median-

te unos filtros cromáticos. El entrenamiento inicial consistía en iluminar la tecla de
respuesta de un color determinado, concretamente una luz con una longitud de on-
da de 580 nanómetros. Durante los períodos de presentación del estímulo, de 60 se-
gundos, las palomas tenían acceso a comida con un programa de reforzamiento IV
de un minuto. En los períodos en los que la tecla estaba apagada no se dispensaba
comida a los animales. En la prueba de generalización, presentaron el estímulo de
entrenamiento durante períodos de 30 segundos, además de otros 10 estímulos con
una longitud de onda inferior o superior en el espectro cromático que variaba entre
los 520 nm y los 640 nm de longitud de onda. Los 11 estímulos se presentaron un
total de 12 veces cada uno. No se administró comida durante las sesiones de prueba.
Los resultados mostraron que las palomas respondieron con la tasa de respuesta más
alta ante el estímulo de entrenamiento (580 nm de longitud de onda). También mos-
traron tasas de respuestas muy altas ante longitudes de onda similares (570 y 590
nm). Las tasas de respuesta fueron disminuyendo a medida que la longitud de onda
de los estímulos de prueba se alejaba del valor del estímulo original hasta que los
animales apenas respondían cuando las longitudes de onda eran de 520, 540, 620 y
640 nm. En otras palabras, los gradientes de generalización muestran cómo la gene-
ralización y la discriminación dependen del grado de similitud entre los estímulos.
La gráfica muestra un gradiente de generalización similar al que obtuvieron

Guttman y Kalish
Se puede observar que la frecuencia máxima de respuestas se produce en presencia del estímulo de
entrenamiento (580 nm). También se puede ver cómo los estímulos de prueba (570 y 590 nm) similares
al estímulo de entrenamiento provocan una tasa de respuesta muy alta, lo que indica un alto grado de
generalización. Finalmente, los estímulos de prueba alejados del estímulo de entrenamiento provocan tasas de
respuesta muy bajas, lo que indica una buena discriminación con respecto al estímulo de entrenamiento.
Como se puede observar en la figura anterior, la forma de un gradiente de ge-

neralización es como la de una campana. Generalmente, los sujetos muestran
el máximo de respuestas en presencia del estímulo de entrenamiento, mien-
tras que en presencia de los estímulos de prueba la tasa de respuesta es menor.
Podemos encontrar gradientes de generalización muy estrechos, lo que tene-
mos que interpretar como una discriminación muy fina, o gradientes de ge-
neralización muy anchos que nos indican mucha generalización. El caso más
extremo es el del gradiente de generalización plano que se produce cuando
se generaliza completamente entre los estímulos de prueba y el estímulo de
entrenamiento.
9.3. Discriminaciones extra e intradimensionales
El experimento de Guttman y Kalish muestra un entrenamiento en el que sólo

se utiliza un estímulo durante el entrenamiento para indicar la disponibilidad
del reforzador, mientras que la no disponibilidad del reforzador queda seña-
lada por la ausencia del estímulo discriminativo. El estímulo discriminativo
recibe el nombre de E+.
En otros procedimientos se pueden utilizar dos estímulos diferentes para in-

dicar cuándo hay y cuándo no hay disponibilidad del reforzador. Por ejem-
plo, se pueden presentar unas líneas verticales como señal de la disponibili-
dad del reforzador y el color verde como señal de que el reforzador no está
disponible. El estímulo que señala el no reforzamiento recibe el nombre de E–.
Como los estímulos discriminativos corresponden a dimensiones de estimu-
lación diferentes, la discriminación se denomina extradimensional. Por otra
parte, podríamos hacer la discriminación más difícil si pedimos a los sujetos
que discriminen entre dos estímulos que pertenecen a la misma dimensión
del estímulo, por ejemplo entre dos colores o dos frecuencias sonoras. En este
caso hablamos de discriminaciones intradimensionales. En la figura siguiente
aparecen dos ejemplos de estas discriminaciones.
Ejemplos de estímulos utilizados en discriminaciones extradimensionales (izquierda) e

intradimensionales (derecha)
En la discriminación extradimensional, los sujetos deben discriminar entre rayas verticales y el color verde. La orientación de
las rayas y el color son dos dimensiones diferentes de los estímulos. En la discriminación intradimensional, los sujetos han de
discriminar entre dos valores (colores) dentro de la misma dimensión estimular.
El tipo de entrenamiento en discriminación utilizado influirá notablemente

en los gradientes de generalización. Jenkins y Harrison (1962) entrenaron a
tres grupos de palomas a picotear una tecla de respuesta para obtener comida.
Para uno de los grupos, el E+ era un tono de 1000 Hz, mientras que la ausencia
del tono actuaba como E–, es decir, picotear la tecla era reforzado siempre que
estaba presente el tono, pero nunca se reforzaba la respuesta en ausencia del
tono. Un segundo grupo recibió el mismo entrenamiento que el primer grupo,
excepto que el E– era otro tono de 950 Hz. Finalmente, el tercer grupo era de
control y no recibió ningún entrenamiento en discriminación. Concretamen-
te, en este grupo de control, el tono de 1000 Hz estaba siempre presente y los
animales siempre recibían el reforzador por picotear la tecla.
Una vez se acabó el entrenamiento en los tres grupos, se procedió a la prue-

ba de generalización con tonos de distintas frecuencias con el objetivo de ver
hasta qué punto el tono controlaba la conducta. El grupo de control mostró
un gradiente de generalización plano, es decir, respondía con la misma tasa
de respuesta a cualquier estímulo de prueba de manera que había una gene-
ralización completa entre el tono de 1000 Hz y el resto de tonos de prueba.
En cambio, los dos grupos que habían recibido un entrenamiento en discri-
minación mostraban gradientes de generalización. El gradiente más estrecho
correspondía al grupo que había recibido la discriminación intradimensional
entre los dos tonos. En otras palabras, el entrenamiento con una discrimina-
ción intradimensional produjo la discriminación más fina.
9.4. La transposición y el desplazamiento del vértice
Experimento de Kohler (1939)
Kohler (1939) entrenó a unos polluelos en una discriminación intradimensional en

la que presentaban dos estímulos que variaban en la tonalidad de gris. Si los polluelos
se acercaban al gris más claro, entonces tenían acceso a comida. Pero si se acercaban
al gris más oscuro, no recibían el reforzador. Este procedimiento recibe el nombre de
discriminación simultánea, ya que los dos estímulos están presentes a la vez y los
polluelos debían elegir uno de ellos. Con el entrenamiento suficiente, los polluelos
aprendieron a acercarse al color gris claro.
¿Cómo habían resuelto este problema?
Muchos psicólogos pioneros que estudiaban el comportamiento de los anima-

les pensaban que los animales aprendían las asociaciones E-R en términos de
los valores�absolutos de los estímulos (por ejemplo, Morgan, 1894). En otras
palabras, los polluelos de Kohler se acercaban al gris claro porque esta tonali-
dad de gris, y no otra, había quedado asociada con la respuesta de acercamien-
to, ya que proporcionaba el reforzador.
Sin embargo, Kohler defendía que los animales podían manipular conceptos
abstractos para resolver problemas como el de discriminación entre las dos
tonalidades de gris. Según Kohler, los polluelos habrían aprendido a elegir el
más claro entre los dos grises. Hay que tener en cuenta que este aprendizaje
sería relacional, ya que los animales deben haber descubierto la relación entre
los dos grises y que esta relación era la relevante para resolver el problema.
Más concretamente, los animales habrían aprendido a acercarse al más claro
de los dos grises.
Evidentemente, las dos explicaciones pueden explicar la actuación de los po-

lluelos. Para poder determinar cuáles de las dos explicaciones, absoluta o re-
lacional, era la más adecuada, Kohler ideó una prueba bastante original: des-
pués del entrenamiento que hemos descrito, Kohler presentó a los polluelos
una nueva discriminación simultánea entre el gris claro que había sido el E
+ en la primera fase y un segundo estímulo nuevo más claro todavía (podéis
ver la figura siguiente). Durante esta prueba no se reforzaba ninguna de las

elecciones de los animales para asegurar que su conducta dependía de lo que
habían aprendido durante el entrenamiento inicial.
Estímulos utilizados por Kohler (1939) en su experimento de transposición
Durante la prueba, los polluelos eligieron preferentemente el gris más claro aunque había sido el gris más oscuro el reforzado
durante el entrenamiento de discriminación.
De acuerdo con la teoría absoluta, los polluelos seguirían acercándose al E+, ya

que sus características físicas son las que se habrían asociado con la respuesta
de acercamiento. En cambio, la posición de Kohler defendía que los polluelos
se acercarían al estímulo nuevo, ya que era el más claro. Los resultados que
obtuvo Kohler mostraron que los polluelos preferían el estímulo nuevo, el más
claro de los dos estímulos de prueba, que el E+ original, el más oscuro de los
dos grises de prueba.
Este fenómeno recibió el nombre de transposición debido a que se suponía Transposición

que los animales habían transferido la regla "elegir el gris más claro" aprendida
La transposición se ha demos-
durante el entrenamiento a la situación de prueba. trado en diferentes especies
animales como chimpancés
(Kohler, 1939), ratas (Lawren-
Un fenómeno relacionado con la transposición es el desplazamiento�del�vér- ce y DeRivera, 1954) y niños
(Alberts y Ehrenfreund, 1951),
tice. Cuando se utilizan discriminaciones intradimensionales y se evalúa pos- así como en otras dimensiones
estimulares como el tamaño
teriormente la generalización en una fase de prueba, se puede observar un (Gulliksen, 1932).
fenómeno bastante robusto: el desplazamiento del máximo o vértice del gra-
diente de generalización.
El desplazamiento del vértice consiste en el alejamiento del máximo del

gradiente de generalización con respecto al E+ original y en dirección
opuesta al E–.
Experimento de Hanson (1959)
Hanson (1959) realizó un experimento en el que se entrenó a diferentes grupos de

palomas a discriminar entre dos colores definidos por la longitud de onda. Aunque
el experimento constaba de cinco grupos, aquí sólo analizaremos tres de ellos. En los
tres grupos se utilizó un color de 550 nm de longitud de onda como E+. En cambio,
los tres grupos diferían en el color del E–. Para uno de los grupos, el E– era una luz
de 590 nm de longitud de onda, para otro grupo el E– era una luz de 555 nm de
longitud de onda. El tercer grupo era de control y el E– consistía en la ausencia de la
luz. Resumiendo, el grupo control debía discriminar entre presencia y ausencia del
E+, y los otros grupos debían discriminar entre un E+ y un E–. Durante la fase de
prueba se presentaron luces de diferente longitud de onda que variaban entre 480
nm y 620 nm. El grupo de control mostró un gradiente de generalización normal,
es decir, con el máximo de respuestas en presencia del E+. En cambio, el grupo que
había discriminado entre las dos luces de 550 y 590 nm mostró el máximo de res-
puestas a la longitud de onda de 540 nm, aunque la tasa de respuestas al E+ era muy
similar. Sin embargo, el desplazamiento del vértice fue más espectacular en el grupo
que discriminó entre las longitudes de onda muy parecidas, 550 y 555 nm. En este
caso, las longitudes de onda que provocaron el máximo de respuestas fueron las de
540 y 530 nm, pero los animales prácticamente no respondieron en presencia del E
+. En la figura siguiente se puede ver cómo la línea con cuadrados negros dibuja un
gradiente de generalización normal, mientras que las líneas con cuadrados y trián-
gulos blancos tienen el máximo desplazado con respecto al E+ (550 nm) en dirección
opuesta a los respectivos E–.
Gráfica basada en los datos de Hanson (1959) en la que se puede ver el efecto del desplazamiento del máximo.
Desde el punto de vista de la posición absoluta, el desplazamiento del vértice es

un nuevo reto, ya que predice que los animales deberían seguir respondiendo
con más intensidad ante el E+ durante la prueba de generalización.
Por otra parte, la posición relacional tampoco puede explicar de manera clara
los datos de Hanson. En la discriminación con longitudes de onda de 550 y
555 nm los colores son verde-amarillo, y la longitud de onda de 550 nm es
más verdosa. Según el aprendizaje relacional, en la prueba los animales debe-
rían responder al más verde de los estímulos. Efectivamente, las longitudes de
onda de 540 y 530 nm son más verdosas que el E+ y hasta aquí los resultados
están de acuerdo con el aprendizaje relacional. El problema es que las longi-
tudes de onda comprendidas entre 500 y 520 nm son los verdes puros y en
el experimento de Hanson no provocaron la máxima tasa de respuesta, como
predice el aprendizaje relacional.
9.5. Teoría de Spence (1936)
Spence (1936) elaboró una teoría absoluta que puede explicar de manera ele-
gante los fenómenos de la transposición y del desplazamiento del vértice.
El punto de partida es que los sujetos aprenden sólo sobre los estímulos
de manera individual y no aprenden nada con respecto a sus relaciones.
A partir de este supuesto, Spence propuso que en un entrenamiento intradi-

mensional el E+ adquiría fuerza excitadora y el E– adquiría fuerza inhibidora;
esto es, el E+ activa la respuesta mientras que el E– inhibe la respuesta.
Un segundo supuesto de Spence es que ambas fuerzas, excitadora e in-

hibidora, forman sus respectivos gradientes de generalización excitador
e inhibidor.
Guttman y Kalish demostraron la existencia de los gradientes de generaliza-

ción excitadores, pero ahora hay que presentar alguna evidencia de la existen-
cia de gradientes de generalización inhibidores antes de seguir con la exposi-
ción de la teoría de Spence y su aplicación a los fenómenos de la transposición
y del desplazamiento del vértice.
Representación esquemática de los estímulos utilizados en el experimento de Honig et al. (1963). Podéis ver el texto
para una explicación del experimento.
Una demostración clásica de los gradientes de generalización inhibidores la

encontramos en el trabajo de Honig, Boneau, Burstein y Pennypacker (1963).
Experimento de Honig, Boneau, Burstein y Pennypacker (1963)
Estos investigadores entrenaron a dos grupos de palomas en una discriminación vi-

sual. Un grupo recibió el reforzador para responder a la tecla de respuesta cuando
estaba iluminada de color blanco con una línea vertical superpuesta (E+), pero no
fue reforzado cuando se presentaba la luz blanca sin la línea (E–). El segundo grupo
recibió el mismo entrenamiento en discriminación pero con los estímulos intercam-
biados, es decir, la luz blanca sola era el E+ y la luz blanca con la línea negra vertical
era el E–. Una vez los dos grupos aprendieron la discriminación con los respectivos
estímulos se realizó una prueba de generalización en la que se presentaba la tecla de
respuesta iluminada de color blanco y superpuesta una línea negra que difería en el
ángulo de inclinación con respecto a la vertical (0°). El ángulo de inclinación de la
línea variaba de 30 en 30 grados, de manera que las inclinaciones de prueba fueron
de –90°, –60°, –30°, 0°, +30°, +60° y +90° (podéis ver la figura anterior).
Los animales del grupo en el que la línea vertical actuaba como E+ mostraron
el máximo de respuesta en presencia del E+ y, a medida que la inclinación
de la línea se alejaba de la verticalidad, las tasas de respuesta fueron menores.
Estos resultados son una demostración más del gradiente de generalización
excitador. Para nuestros intereses actuales, son más interesantes los resultados
del grupo en el que la línea vertical actuaba como E–. Los animales de este
grupo respondieron muy poco en presencia de la línea vertical, pero en el caso
en el que la línea aparecía inclinada con respecto a la vertical, los animales
respondían con tasas más elevadas. Cuando la línea aparecía horizontal (con-
diciones de prueba –90° y +90°), los animales mostraron las tasas de respuesta
más elevadas. Ésta es una clara evidencia de la existencia de los gradientes de
generalización inhibidores que necesitábamos para seguir exponiendo la teo-
ría de Spence.
Habíamos dejado la exposición de la teoría de Spence en el supuesto de la

existencia de los gradientes de generalización excitador e inhibidor alrededor
del E+ y del E–, respectivamente. En el continuo de una dimensión de un es-
tímulo, como el color, el tamaño o la frecuencia sonora, algunos valores de
la dimensión podrán verse afectados tanto por fuerzas excitadoras como por
fuerzas inhibidoras simultáneamente y, dada la dirección opuesta de estas dos
fuerzas, es razonable asumir que se contrarrestarán. En la figura siguiente se
puede ver una representación gráfica de estos supuestos. La curva continua
representa la fuerza excitadora neta en el continuo de estímulos. Hay que ad-
vertir que el E+ muestra una fuerza excitadora neta menor que otros estímulos
nuevos como el E1 y el E2.
Representación gráfica de los gradientes excitador e inhibidor en torno a los estímulos E+ y E–, respectivamente (líneas
punteadas). La línea continua representa la fuerza excitadora neta resultante de las fuerzas excitadoras e inhibidoras
Apliquemos la teoría de Spence al experimento de Hansen sobre el desplaza-

miento del máximo. A partir de la fase de entrenamiento en discriminación, se
habrá desarrollado un gradiente de generalización excitador en torno al estí-
mulo 550 nm y un gradiente de generalización inhibidor en torno al estímulo
555 nm. A pesar de que el estímulo 550 nm tenga la fuerza excitadora mayor,
también recibirá mucha fuerza inhibidora de la longitud de onda de 555 nm
y, una vez contrarrestadas las fuerzas excitadoras e inhibidoras, se obtendrá

una fuerza excitadora neta más baja que una longitud de onda de 530 nm,
la cual recibe una importante fuerza excitadora desde la longitud de onda de
550 nm, pero poca fuerza inhibidora desde la longitud de onda de 555 nm.
De acuerdo con la teoría de Spence, la fuerza excitadora neta de la longitud
de onda de 530 nm será mayor que la fuerza excitadora neta de la longitud
de onda de 550 nm y provocará, en consecuencia, más respuestas, lo que dará
lugar al desplazamiento del vértice. Recordemos que la teoría relacional tiene
dificultades de explicar por qué las longitudes de onda de 500 o 520 nm no
provocan más respuestas que la de 530 nm. En cambio, la teoría de Spence no
tiene dificultades para explicar estos datos. La longitud de onda de 520 nm
está muy alejada tanto del E+ como del E–, lo que implica que puede recibir
una cierta fuerza excitadora generalizada del E+ pero muy poca o ninguna
fuerza inhibidora generalizada desde el E–. En todo caso, la teoría de Spence
puede asumir que la fuerza excitadora neta de la longitud de onda de 520 nm
será menor que la de 530 nm y, por lo tanto, también será menor la tasa de
respuesta provocada.
El mismo razonamiento puede aplicarse al fenómeno de la transposición. Du-

rante la discriminación, el gris claro (E+) habrá adquirido fuerza excitadora
mientras que el gris oscuro (E–) habrá adquirido fuerza inhibidora. Durante
la prueba, el E+ recibirá fuerza inhibidora generalizada desde el E–, lo que re-
ducirá su fuerza excitadora ganada durante el entrenamiento. En cambio, el
estímulo nuevo presentado durante la prueba de transposición recibirá fuerza
excitadora desde el E+ pero no recibirá fuerza inhibidora del E–, ya que se en-
cuentra más próximo al E+ que al E–. Si la fuerza excitadora neta del estímulo
nuevo resulta mayor que la del E+, entonces no es sorprendente que los ani-
males elijan con más frecuencia el estímulo nuevo que el E+.
El análisis que acabamos de realizar muestra que la teoría de Spence

puede explicar los fenómenos de la transposición y del desplazamiento
del máximo sin problemas.
No obstante, veremos un experimento de Gonzalez, Gentry y Bitterman

(1954) con un procedimiento que recibe el nombre de problema�del�tamaño
intermedio.
Experimento de González, Gentry y Bitterman (1954)
Utilizaron 9 estímulos que consistían en cuadrados de diferentes tamaños. El más pe-

queño tenía un área de 9 pulgadas cuadradas y el mayor tenía 27 pulgadas cuadradas.
Los estímulos se numeraron desde el 1 (el más pequeño) hasta el 9 (el mayor). Du-
rante el entrenamiento, unos chimpancés debían elegir entre los estímulos 1, 5 y 9.
Los animales recibieron un reforzador siempre que eligieran el cuadrado intermedio,
el número 5. (Naturalmente, la posición de los tres estímulos se fue intercambiando
aleatoriamente con el objetivo de que los animales no utilizaran la posición como
estímulo discriminativo).
Durante la prueba, se presentaron a los chimpancés conjuntos de tres estímulos y

se reforzó cualquiera de sus elecciones. Supongamos que en un ensayo de prueba
se presentan los cuadrados 4, 7 y 9. Desde la teoría relacional se predice que si los
animales han aprendido la regla "elegir el cuadrado de tamaño intermedio" ahora
elegirían el cuadrado número 7. En cambio, la teoría de Spence realiza una predicción
diferente. Debido al entrenamiento inicial, el cuadrado número 5 tendría la máxima
fuerza excitadora que se generalizaría a los otros tamaños, mientras que los cuadrados
1 y 9 han adquirido fuerza inhibidora que también se generalizaría a los cuadrados
próximos.
Dada la disposición de las fuerzas excitadoras e inhibidoras, este procedimien-

to no debería provocar un desplazamiento del máximo, sino que sus efectos
serían hacer más estrecho el gradiente de generalización en torno al estímulo
número 5 (el E+).
En definitiva, la teoría de Spence predice que en este problema se elegirá siem-

pre el estímulo más próximo al E+ (el cuadrado 4 en el ejemplo).
Los resultados de González y colaboradores favorecieron la teoría relacional.

Los chimpancés eligieron habitualmente el estímulo con un tamaño interme-
dio en los ensayos de prueba con independencia de qué conjunto de cuadra-
dos se les presentaba.
Ambas teorías, relacional y absoluta, tienen sus puntos fuertes y sus puntos
débiles. Esto hace pensar que los animales pueden aprender tanto las caracte-
rísticas absolutas de los estímulos como las relaciones que existen entre los es-
tímulos que hay que discriminar. La cuestión es determinar en qué momentos
se impondrá una estrategia sobre la otra. De hecho, la teoría absoluta explica
mejor que la relacional el desplazamiento del vértice, donde la discriminación
original es secuencial. Por el contrario, la teoría relacional puede explicar me-
jor el problema del tamaño intermedio donde la discriminación inicial es si-
multánea.
Una solución de compromiso es que el aprendizaje sobre las caracterís-

ticas absolutas de los estímulos se favorecería cuando las discriminacio-
nes son secuenciales y en las que es difícil determinar relaciones entre
los estímulos.
En cambio, la utilización de relaciones sería más fácil en las discrimi-

naciones simultáneas donde están presentes a la vez los estímulos, de
manera que es más sencillo determinar la relación entre ellos.
A pesar de que la solución planteada para hacer compatibles las teorías relacio-
nales y absolutas de la discriminación y la generalización es coherente, Tho-
mas (1993) ha planteado, a partir de su investigación con estudiantes univer-
sitarios, un modelo relacional que puede explicar el fenómeno del desplaza-
miento del máximo y efectos relacionados.
Experimento de Thomas y Jones (1962)
Thomas y Jones (1962) llevaron a cabo un experimento en el que mostraban a sus

participantes una luz de 525 nm de longitud de onda durante 60 segundos. Pasado
este minuto, se presentaba un estímulo de prueba de un conjunto de 5 estímulos (el
propio E+ y cuatro estímulos diferentes) y los participantes debían decidir si era o no
el mismo color que el estímulo original. El experimento constaba de cinco grupos di-
ferentes que diferían en el conjunto de estímulos de prueba que recibían. Así, el grupo
de control recibía un conjunto simétrico con respecto al E+, es decir, dos estímulos
de prueba con longitudes de onda inferiores al E+ y dos estímulos con longitudes de
onda superiores al E+ (el quinto estímulo de prueba era el mismo E+). Para el resto
de grupos, los estímulos de prueba se desplazaban hacia valores inferiores respecto
al E+ o hacia valores superiores. Por ejemplo, a uno de los grupos se le presentaron
los cuatro estímulos de prueba generalizados con longitudes de onda que iban desde
485 hasta 515 nm, y en otro de los grupos los estímulos de prueba generalizados iban
entre 535 y 565 nm.
La teoría de Spence predice que independientemente de cuál sea el conjunto de estí-

mulos de prueba, los participantes debían dar más respuestas ante el E+, y reducir las
respuestas a medida que los estímulos generalizados difirieran del E+. En cambio, los
resultados de Thomas y Jones no confirmaban esta predicción, ya que sus participan-
tes desplazaban el máximo de respuestas en la dirección del conjunto de estímulos de
prueba. Esto es, cuando el conjunto de estímulos de prueba comprendía longitudes
de onda entre 485 y 525 nm, el máximo de respuestas se obtenía en presencia del
estímulo 515 nm, mientras que si el conjunto de estímulos comprendía longitudes
de onda entre 525 y 565 nm, el máximo de respuestas se obtenía en presencia del
estímulo 535 nm (recordemos que el E+ era la longitud de onda de 525 nm). De he-
cho, el único grupo que mostró un gradiente de generalización de acuerdo con las
predicciones de la teoría de Spence fue el que recibió un conjunto de estímulos de
prueba simétrico con respecto al E+.
El modelo de Thomas es relacional, ya que defiende que los sujetos juzgan

los estímulos de prueba con respecto a un referente o representación subjetiva
del valor medio de los estímulos que experimentan. Así, en el experimento de
Thomas y Jones, los participantes del grupo simétrico elaboraron una repre-
sentación del estímulo de referencia similar al propio E+ y, por esta razón, die-
ron el máximo de respuestas al E+. En cambio, cuando los estímulos de prueba
tenían valores por debajo del E+, la representación de referencia tenía un valor
por debajo del valor del E+ y, por ello, los participantes respondieron más a la
longitud de onda de 515 nm. (Hay que advertir que en el experimento en cada
ensayo se mostraba el E+ y después uno de los estímulos de prueba, lo que

implica que el E+ se mostró más veces que el resto de estímulos y, por esto, el
desplazamiento del máximo es moderado.) Este modelo realiza predicciones
contraintuitivas. Por ejemplo, si presentamos una discriminación entre un E+
y un E–, y el conjunto de estímulos de prueba de la generalización se encuentra
desplazado hacia el E–, entonces la representación media de referencia obte-
nida de la media de los estímulos experimentados se situaría más cerca del E–
que del E+ y, por lo tanto, se debería obtener un desplazamiento del máximo
en dirección al E–, justo lo contrario que predice la teoría de Spence. Thomas,
Mood, Morrison y Wiertelak (1991) encontraron precisamente los resultados
que predice el modelo de Thomas. Lo que no sabemos es por qué las palomas
muestran un desplazamiento del máximo de acuerdo con lo que predice la
teoría de Spence y los humanos no.
9.6. Teoría de la discriminación basada en procesos de atención
Sutherland y Mackintosh (1971) consideran que el aprendizaje de discrimi-

nación depende de dos procesos. Cualquier estímulo está formado por varias
dimensiones como, por ejemplo, el color, la forma, el tamaño, etc. Normal-
mente, los experimentos que hemos visto hasta aquí sobre discriminación y
generalización manipulaban una dimensión y mantenían constantes las otras
dimensiones. Sin embargo, en la naturaleza los estímulos que hemos de dis-
criminar no son tan puros y pueden variar en más de una dimensión.
Según Sutherland y Mackintosh, uno de los procesos implicados en la discri-

minación es el proceso�de�atención. Si un estímulo presenta una dimensión
más saliente, como el brillo o el color, entonces atenderemos más a esta di-
mensión. Por otra parte, si en un momento determinado estamos atendiendo
a una dimensión concreta cuando damos una respuesta y somos reforzados,
entonces se incrementará la fuerza de esta dimensión y tenderemos a atender-
la más.
Supongamos que vemos un estímulo que nos llama la atención por su color,
pero si esta dimensión no es relevante para obtener el reforzador, dejaremos
de atender al color y atenderemos a otra dimensión, por ejemplo, la forma. Si
esta nueva dimensión es relevante para obtener el reforzador, entonces incre-
mentaremos la atención a dicha dimensión.
El segundo proceso propuesto por la teoría de Sutherland y Mackintosh es la

adquisición�de�la�respuesta. En el caso de una discriminación, la respuesta
sería la elección del valor de la dimensión que provoca el reforzamiento. Así,
si recibimos al reforzador cuando elegimos un estímulo que tiene la forma
cuadrada y no somos reforzados si elegimos un estímulo con forma triangular,
acabaremos dando la respuesta de elegir la forma cuadrada.
Un diseño experimental que aporta evidencia a favor de la teoría de Sutherland

y Mackintosh consiste en los efectos de los cambios intra y extradimensionales
en el aprendizaje de discriminaciones.
Experimento de Mackintosh y Little (1969)
Mackintosh y Little (1969) llevaron a cabo un experimento en el que se presentaban

dos problemas sucesivos en los que unas palomas debían discriminar entre estímulos
visuales (podéis ver la figura siguiente). A los sujetos de la condición extradimensio-
nal se les entrenaba en primer lugar a discriminar basándose en la orientación de dos
líneas (vertical y horizontal). Las líneas también tenían colores diferentes (amarillos
y rojos) pero esta dimensión del estímulo era irrelevante. De hecho, en la mitad de
los ensayos, la línea vertical era amarilla y la horizontal era roja y en la otra mitad de
los ensayos los colores se invertían. Una vez las palomas habían aprendido la discri-
minación de acuerdo con la orientación de las líneas, los animales debían aprender
una segunda discriminación entre dos colores (azules y verdes). En esta segunda dis-
criminación, los dos colores se presentaban en dos líneas oblicuas cuya orientación
(derecha e izquierda) era irrelevante para resolver el nuevo problema. Así, para este
grupo, la dimensión orientación era relevante en la primera discriminación, mien-
tras que la dimensión color era irrelevante. El segundo problema de discriminación
implicaba un cambio extradimensional, ya que la dimensión relevante era el color y
no la orientación de la línea. Los sujetos de la condición intradimensional recibían
un primer problema con los mismos estímulos que el grupo extradimensional, pero
con la diferencia de que la dimensión relevante era el color y la irrelevante era la
orientación de la línea. El segundo problema de discriminación era idéntico al del
grupo extradimensional; por lo tanto, para el segundo grupo, la dimensión color era
relevante en las dos discriminaciones, mientras que la dimensión orientación de la
línea era irrelevante (podéis ver la figura siguiente).
Esquema del diseño experimental de Mackintosh y Little (1969). El grupo G1 (grupo extradimensional) recibía
un cambio extradimensional entre las dos discriminaciones. El grupo G2 (grupo intradimensional) recibía un
cambio intradimensional entre las dos discriminaciones.
La teoría de Sutherland y Mackintosh predice que, como consecuencia del pri-

mer problema, los animales del grupo extradimensional habrían aprendido a
atender a la dimensión orientación, ya que era la relevante para solucionar el
problema y dejarían de atender al color, puesto que es irrelevante. Este apren-
dizaje sobre la dimensión relevante interferirá en la segunda discriminación,
ya que los animales seguirán atendiendo a la orientación al principio hasta
que se dieran cuenta de que aquí es irrelevante. Por el contrario, para los ani-
males del grupo intradimensional la dimensión color sería relevante en los dos
problemas, por lo que la segunda discriminación se vería favorecida.
Resumiendo, un aprendizaje más rápido en la condición de cambio intradi-

mensional aportaría una buena evidencia a favor de la teoría de Sutherland y
Mackintosh. Los resultados confirmaron estas predicciones.
9.7. Aprendizaje perceptivo
Hemos observado cómo el entrenamiento de discriminación en el que se pre-

sentan dos estímulos que varían en una dimensión provoca gradientes de ge-
neralización bastante estrechos, lo que significa que la discriminación es muy
esmerada. Ahora bien, este entrenamiento implicaba reforzar una de las alter-
nativas (E+) y no reforzar la otra alternativa (E–). Otro procedimiento que fa-
cilita la adquisición de una discriminación es enseñar a los sujetos cuál es la
dimensión del estímulo relevante para resolver el problema (Lawrence, 1949).
Sin embargo, ¿es necesario reforzar de manera distintiva dos estímulos para
producir una buena discriminación?
Gibson y Walk (1956) demostraron por primera vez que la mera exposición a
estímulos complejos como pueden ser triángulos y círculos es suficiente para
facilitar la discriminación entre los estímulos.
Expertimento de Gibson y Walk (1956)
Gibson y Walk presentaron círculos y triángulos a unas ratas en sus jaulas desde que
nacieron hasta que cumplieron 90 días (edad en la que una rata ya es adulta). Los
animales aprendieron a discriminar entre estos estímulos con una cantidad signifi-
cativamente menor de errores que un grupo de control que no recibió la exposición
previa a los estímulos.
Experimentos posteriores mucho más controlados han demostrado que el

efecto es robusto y que no es necesaria una exposición tan larga ni que los
animales sean jóvenes (para una revisión podéis ver Hall, 1989).
Esta facilitación de la discriminación entre estímulos complejos debido

a la exposición no reforzada de los estímulos previamente al entrena-
miento de discriminación recibe el nombre de aprendizaje�perceptivo.
En el módulo sobre condicionamiento clásico hemos observado que la expo-

sición no reforzada en un estímulo que se emparejará con el EI provoca un
retraso en el aprendizaje, una inhibición latente. ¿Cómo es que un procedi-
miento similar puede producir un retraso en el condicionamiento y una faci-
litación en la discriminación?
Gibson (1969) propuso que el hecho de que los sujetos pudieran inspeccionar
los estímulos antes del entrenamiento les permitía diferenciarlos, ya que po-
dían extraer las características diferenciadoras por medio de un proceso per-
ceptivo.
McLaren, Kaye y Mackintosh (1989, McLaren y Mackintosh, 2000) han pro-

puesto una teoría asociativa del aprendizaje perceptivo. Según McLaren y co-
laboradores, todo estímulo, por simple que sea, está formado por varios ele-
mentos. En cada presentación del estímulo se muestrea un determinado nú-

mero de elementos que quedarán asociados entre ellos. Consideran, igual que
las teorías absolutas, que la generalización entre dos estímulos se debe a la
cantidad de elementos en común que tienen los estímulos. Cuando dos estí-
mulos comparten muchos elementos en común, la discriminación entre ellos
será muy difícil.
Si presentamos un estímulo compuesto AX y lo emparejamos con una consecuencia, EI,

se formarán tres tipos de asociaciones: una entre los elementos del estímulo A-X y dos
entre cada elemento y el EI. Si en una prueba de generalización presentamos un estímulo
diferente, pero que comparte una parte de elementos en común, BX, tendremos que X
activará la representación del EI por dos vías: una directa por la asociación X-EI y una
indirecta por la cadena asociativa X-A-EI. Por lo tanto, se producirá una generalización
entre AX y BX, mayor cuanto más peso tengan los elementos en común.
¿Cómo puede ayudar la exposición no reforzada a los estímulos a mejorar la

discriminación?
Según McLaren y colaboradores, hay tres mecanismos que intervendrían du-

rante la exposición: la inhibición latente diferenciada de los elementos en co-
mún, las conexiones inhibidoras entre los elementos únicos y la unitización.
1)�Inhibición�latente�diferenciada�de�los�elementos�en�común
El mecanismo de la inhibición latente diferenciada de los elementos en común

se basa en el hecho de que los elementos en común reciben el doble de expo-
sición no reforzada. Dados dos estímulos complejos, AX y BX, cada uno de
ellos consta de un elemento único, A y B, respectivamente, y además compar-
ten un elemento, X. Cada vez que se presenta el estímulo AX, los elementos
que lo forman, A y X, reciben inhibición latente. De la misma manera, cada
vez que se presenta el estímulo BX, los elementos que lo forman, B y X, tam-
bién reciben inhibición latente. Así, si se realizan 10 presentaciones de cada
estímulo, obtendremos que al final se han presentado 10 veces los elementos
únicos, A y B, y en cambio, se ha presentado 20 veces el elemento común X.
Por lo tanto, la inhibición latente del elemento común será el doble que la de
los elementos únicos. En la figura siguiente se muestra cómo los elementos
comunes se exponen el doble que los elementos únicos. Cuando después de
la exposición no reforzada se lleve a cabo el aprendizaje de discriminación, los
elementos únicos tendrán más facilidad de entrar en asociación con las dife-
rentes consecuencias, mientras que los elementos en común no se asociarán,
por lo que se reduce de esta manera la generalización entre los estímulos.
Esquema explicativo del mecanismo de la inhibición latente diferenciada

entre elementos únicos y comunes según la teoría de McLaren, Kaye y
Mackintosh (1989)
Experimento de Trobalon, Sansa, Chamizo y Mackintosh (1991)
Trobalon, Sansa, Chamizo y Mackintosh (1991) realizaron una serie experimental

en la que se manipulaba la cantidad de elementos en común que tenían dos brazos
de un laberinto en T. Para dos grupos de ratas, los suelos de los brazos diferían en
color y textura (elementos únicos), mientras que las paredes de los brazos eran del
mismo color marrón (elementos en común). Por lo tanto, los estímulos que había que
discriminar eran AX y BX; A y B eran los suelos y X las paredes. Para otros dos grupos
se redujeron el número de elementos en común pintando las paredes de uno de los
brazos de color blanco y las del otro brazo de color negro. Por lo tanto, podemos
representar la discriminación entre dos estímulos complejos AX y BY, donde A y B
serían los suelos y X y Y serían las paredes. Un grupo en cada tipo de discriminación
fue expuesto sin reforzar a los dos brazos, mientras que el segundo grupo de cada
discriminación no recibió la exposición. Después de la fase de exposición no reforzada
se realizó un entrenamiento en el que uno de los brazos, AX, contenía comida como
reforzador, mientras que el otro brazo, BX o BY, en función de la discriminación, no
contenía comida.
Como era de esperar, el grupo de control en el que los brazos diferían en el suelo y las
paredes, AX y BY, aprendieron la discriminación más rápidamente que el grupo de
control en el que las paredes de los brazos eran del mismo color, AX y BX, ya que el
elemento X quedaba asociado con la comida cuando los animales elegían el brazo AX.
El dato más interesante, sin embargo, lo proporcionaron los grupos expuestos pre-
viamente a los brazos. Concretamente, en los grupos en los que las paredes de los
brazos estaban pintadas de diferente color, la exposición retrasó la discriminación
con respecto al grupo de control correspondiente. Por el contrario, la exposición a
los brazos que tenían las paredes pintadas del mismo color facilitó la discriminación
entre los dos brazos.
Los resultados de este experimento son coherentes con el mecanismo de la in-

hibición latente diferenciada de los elementos en común. Cuando las paredes
y los suelos de los brazos eran diferentes, la exposición no reforzada provocó
una inhibición latente a todos los elementos, AX y BY, y los animales tuvie-
ron dificultades para aprender las consecuencias de cada brazo. En cambio,
en la discriminación entre AX y BX, la exposición previa no reforzada redujo
la capacidad de asociarse del elemento X, y por lo tanto, fueron los elemen-
tos únicos los que se asociaron con las respectivas consecuencias. En compa-
ración, en su grupo de control no expuesto, el elemento en común X quedó
asociado a la comida cuando las ratas eligieron el brazo AX. La presencia de
X en el brazo BX activaba la representación de la comida provocando que los
animales lo eligieran con una alta proporción, al menos durante el inicio del
entrenamiento.
En el experimento de Trobalon y colaboradores se realizó una exposición al-

ternada de los dos brazos que había que discriminar. Este procedimiento alter-
nado se ha demostrado que es clave a la hora de obtener el efecto facilitador de
la exposición. Efectivamente, Symonds y Hall (1995) compararon el programa
de exposición alternada (AX, BX, AX, BX...) con otro procedimiento que de-
nominaban por bloques y que consiste en exponer primero en un bloque uno
de los dos estímulos y después en un segundo bloque el otro estímulo (AX,
AX... – BX, BX...). La figura siguiente muestra de manera esquematizada las
presentaciones alternadas y por bloques utilizadas por Symonds y Hall.
Los resultados del experimento mostraron que sólo se obtenía un efecto de

aprendizaje perceptivo cuando la exposición era alternada, pero no cuando la
exposición era por bloques. La implicación de este hallazgo es que se contra-
dice con el mecanismo de la inhibición latente diferenciada de los elementos
en común. Tened en cuenta que independientemente del orden de presenta-
ción de los estímulos, los dos programas de exposición garantizan el doble de
exposición a los elementos en común con respecto a los únicos y, de acuerdo
con este mecanismo, en los dos procedimientos se debería obtener el efecto
facilitador de la exposición previa no reforzada.
Esquema de las exposiciones alternada y por bloques
Los dos tipos de presentación de los estímulos garantizan la misma cantidad de exposición a los dos estímulos
compuestos. La única diferencia es el orden en el que se presentan los compuestos.
2)�Conexiones�inhibidoras
El segundo mecanismo propuesto por McLaren y colaboradores es la forma-

ción de conexiones inhibidoras entre los elementos únicos de los estímulos
expuestos. Recordemos que durante las primeras presentaciones de los estímu-
los se supone que se forman asociaciones entre los elementos que constituyen
cada compuesto. Así, al presentar AX se formará una asociación A↔X, y al pre-
sentar BX se formará una asociación B↔X. Una vez formadas estas asociacio-
nes, la presentación AX provocará que el elemento X evoque la representación
del elemento único B. De acuerdo con la teoría de McLaren y colaboradores

(podéis ver también, McLaren y Mackintosh, 2000) la activación asociativa de
B no estando físicamente presente, es decir, a partir de su asociación con X,
permitirá una asociación inhibidora entre A y B, (A–‫׀‬B). De la misma mane-
ra, las presentaciones de BX activarán la representación de A por medio de la
asociación X→A y permitirán la conexión inhibidora B–‫׀‬A. Cuando después
de la exposición condicionamos uno de los estímulos compuestos, AX, con la
consecuencia (EI), tanto el elemento A como el elemento X quedarán asocia-
dos con el EI. En la prueba de generalización con BX, X activará la represen-
tación del EI, pero B inhibirá la representación de A y, como está asociado con
el mismo EI, éste también se verá inhibido. En definitiva, la representación
del EI activada por X se verá reducida por la inhibición procedente de la co-
nexión inhibidora B–‫(׀‬A→EI). En consecuencia, BX no activará la respuesta y,
por lo tanto, no habrá generalización de AX a BX, con respecto a un grupo de
control que no haya recibido la exposición previa a AX y BX, ya que en este
grupo, B no podrá inhibir la representación de A y, en cambio, X activará la
representación del EI.
La demostración de conexiones inhibidoras entre los elementos únicos de dos

estímulos expuestos sin reforzamiento proviene del efecto Espinet.
Experimento de Espinet, Iraola, Bennett y Mackintosh (1995)
Espinet, Iraola, Bennett y Mackintosh (1995) llevaron a cabo una exposición alterna-
da a dos compuestos gustativos, AX y BX. Después condicionaron uno de los com-
puestos, AX, con un malestar gastrointestinal y finalmente llevaron a cabo las prue-
bas propias para estudiar la inhibición condicionada (pruebas de retraso estudiadas
en el módulo del condicionamiento clásico). En la prueba de retraso, se emparejó el
compuesto BX con el EI y el condicionamiento se desarrolló más lentamente que un
grupo de control que había recibido una exposición alternada sólo a los elementos
únicos, A y B. La exposición de los elementos únicos en el grupo de control asegura-
ba la misma cantidad de exposición a A y a B y, por lo tanto, la misma cantidad de
inhibición latente, pero la ausencia del elemento común, X, impedía la formación de
conexiones inhibidoras entre A y B. Para la prueba de la suma utilizaron otro sabor,
Q, emparejado con el malestar gastrointestinal y durante la prueba presentaron el
compuesto QB. Si B inhibiera la representación del EI por medio de su asociación
inhibidora con A, debería contrarrestar la activación del malestar provocada por la
presencia de Q. En el grupo de control, el compuesto QB debería activar la represen-
tación del malestar con más fuerza, ya que B no puede inhibirla.
3)�Unitización
El tercer mecanismo propuesto por McLaren y colaboradores para explicar el

aprendizaje perceptivo es el que se denomina unitización.
Este mecanismo propone que las conexiones entre los elementos úni-
cos de unos estímulos serán más fuertes que las conexiones entre los
elementos únicos y los elementos comunes.
El argumento se basa en el hecho de que cuando se presenta un compuesto

AX, se forman asociaciones entre los elementos únicos (a1, a2...) y entre los
elementos únicos y comunes (a1, a2,x1,x2...). En cambio, en la presentación de
BX, como están presentes los elementos comunes pero no los elementos úni-
cos de A, se producirá una extinción de las asociaciones entre los elementos
únicos de A y los elementos en común. El resultado de este proceso es que
al presentar AX habrá una tendencia central a que se activen con más fuerza
los elementos únicos de A que los elementos únicos de X. Lo mismo sucede-
rá con el compuesto BX. De esta manera, los elementos únicos tendrán más
oportunidad de asociarse con las consecuencias que los elementos en común,
lo que facilitará la discriminación entre AX y BX. A pesar de que el mecanismo
es coherente, su demostración experimental resulta muy complicada de llevar
a la práctica.
En resumen, de los tres mecanismos propuestos por McLaren y colabo-

radores, el más potente y con más datos que le den respaldo es el de
las conexiones inhibidoras entre los elementos únicos de los estímulos
expuestos.
Hall (2003) propuso una explicación alternativa del aprendizaje perceptivo.
Según Hall, la exposición alternada a dos estímulos compuestos que compar-

ten elementos en común, AX y BX, interfiere en un proceso de habituación
de los elementos únicos pero no de los elementos comunes. En otras palabras,
la saliencia de los elementos únicos se mantendría alta después de una expo-
sición alternada, mientras que la saliencia de los elementos comunes se ve re-
ducida significativamente. Hall acepta que en las primeras exposiciones de los
compuestos, AX y BX, se forman asociaciones entre los elementos únicos y
comunes (A↔X, B↔X). Una vez formadas estas asociaciones, la presentación
de AX activará la representación de B por medio de la asociación X→B. La
activación asociativa de B estando físicamente ausente el estímulo B, evitará
la habituación o, lo que es lo mismo, mantendrá alta la saliencia de B. En los
ensayos en los que se presenta BX, se activará la representación de A y será
este estímulo el que mantenga alta su saliencia. Este proceso no se producirá
cuando la exposición sea por bloques, ya que al presentar siempre AX, tanto
A como X perderán saliencia, y lo mismo cuando se presente el bloque BX,
en el que B y X perderán saliencia. Cuando se condicione el compuesto AX,
en el grupo de exposición alternada, A ensombrecerá fuertemente a X, ya que
tiene más saliencia y X no se asociará con el EI. En el grupo que ha recibido
una exposición por bloques, A será poco saliente y no podrá ensombrecer efi-
cazmente a X permitiendo su asociación con el EI. Finalmente, en la prueba
de generalización en la que se presenta BX, X no activará la expectativa del EI
en el grupo expuesto alternadamente, lo que producirá una buena discrimi-
nación entre AX y BX, mientras que en el grupo de exposición por bloques, X

sí podrá activar la representación del EI, provocando una generalización entre
AX y BX.
Artigas, Prados, Sansa, Blair y Hall (2006) han aportado datos a favor del me-
canismo propuesto por Hall.
Experimento de Artigas, Prados, Sansa, Blair y Hall (2006)
En uno de sus experimentos utilizaron dos grupos de ratas a los que exponían a dos
estímulos compuestos con un elemento en común, AX y BX. En uno de los grupos la
exposición era alternada y en el otro grupo la exposición era por bloques. Una carac-
terística del experimento era que uno de los elementos únicos era el sabor salado. La
razón de utilizar este sabor es que el procedimiento utilizado consistía en provocar
una necesidad de sal y poder utilizar el sabor salado como un potente EI. De hecho,
después de la exposición, los dos grupos recibieron un compuesto formado por los
dos sabores únicos, AB. La idea es que si la exposición alternada produce conexiones
inhibidoras entre los elementos únicos, A y B, como proponen McLaren y colabora-
dores, entonces sería difícil formar una asociación entre los dos elementos únicos.
En cambio, siguiendo a Hall, si la exposición alternada mantiene alta la saliencia de
los elementos únicos, entonces se facilitaría la asociación entre los dos elementos
únicos, A y B. En los dos casos, el retraso o la facilitación sería con respecto al grupo
de control que recibió la exposición por bloques. Para poder medir la fuerza de la
asociación AB, estos investigadores provocaron una necesidad de sal el día previo a
la prueba y durante ésta presentaron el sabor único diferente a la sal.
Los resultados mostraron una facilitación de la asociación AB en el grupo al-

ternado, lo que da respaldo a la teoría de Hall y va en contra de las conexiones
inhibidoras entre los elementos en común.
No obstante, Artigas, Sansa y Prados (2006) también han encontrado el efecto

Espinet después de exposiciones alternadas pero no después de exposiciones
por bloques. Sin embargo, el efecto Espinet sólo aparecía cuando las exposi-
ciones eran largas pero no cuando eran cortas. Ya hemos comentado que el
efecto Espinet es una buena demostración de la existencia de asociaciones in-
hibidoras entre los elementos únicos. Por otra parte, esta investigación mos-
tró el aprendizaje perceptivo tanto en exposiciones largas como en cortas. Las
conclusiones fueron que es posible que los dos mecanismos contribuyan al
fenómeno del aprendizaje perceptivo. El mantenimiento de la saliencia ten-
dría efectos a corto plazo (y quizá también a largo plazo), mientras que las co-
nexiones inhibidoras implican un proceso más lento y sólo se manifestarían
después de una exposición relativamente larga.
Tabla�resumen�de�la�generalización�y�la�discriminación
Definiciones Generalización: tendencia a responder a un estímulo nuevo similares al

EC o a los estímulos discriminativos.
Discriminación: consiste en responder de manera diferente a dos estí-
mulos en función de sus diferencias.
Fenómenos • Desplazamiento del máximo

• Transposición
• Aprendizaje perceptivo
Teorías de la discriminación y generalización • Gradientes de generalización excitadores e inhibidores (Spence,

1936)
• Aprendizaje relacional (Köhler, 1939)
• Teoría de la atención (Sutherland y Mackintosh, 1971)
Teorías del aprendizaje perceptivo • Conexiones inhibidoras (McLaren, Kaye y Mackintosh, 1989)
• Mantenimiento de la saliencia (Hall, 2003)
10. Aprendizaje por observación
Es indudable que una gran proporción del aprendizaje humano se produce

no con el condicionamiento clásico o como resultado del reforzamiento o del
castigo, sino por observación.
Bandura y Walters (1963) se interesaron por este tipo de aprendizaje. Su punto

de partida era que la teoría tradicional del aprendizaje era incompleta, ya que
no tenía en cuenta el papel del aprendizaje por observación. A lo largo tanto
del módulo "Condicionamiento clásico pavloviano" como de este módulo he-
mos estudiado formas de aprendizaje que ponen el énfasis en la experiencia
individual: un individuo ejecuta una determinada conducta y experimenta las
consecuencias que la siguen. En cambio, Bandura y Walters afirman que mu-
chos de los aprendizajes se dan mediante la experiencia de los otros y no por
nuestra experiencia personal.
Observamos la conducta de los otros, observamos las consecuencias y

posteriormente imitamos sus conductas.
En pocas palabras, Bandura y Walters afirman que el enfoque tradicional del

aprendizaje, que enfatiza la práctica y la experiencia personal, es insuficiente
–puede explicar algunos tipos de aprendizaje pero no todos.
Bandura y Walters estaban interesados en explicar cómo se desarrollan las di-

ferentes personalidades. Aceptan que algunas diferencias en la personalidad
de las personas pueden deberse a factores hereditarios, pero que la mayoría
se deben a las experiencias personales de aprendizaje. Consideran que la per-
sonalidad adulta está marcadamente influenciada por las experiencias en la
primera infancia y que estas experiencias ejercen su influencia por medio de
los principios de la teoría�del�aprendizaje�social.
Por teoría� del� aprendizaje� social Bandura y Walters entienden una

combinación de los principios del condicionamiento clásico e instru-
mental y de los principios del aprendizaje por observación o imitación.
De hecho, no rechazan en absoluto los principios del aprendizaje por condi-

cionamiento, sino que añaden una nueva vía de aprender.
Aunque la teoría de Bandura y Walters ha sido la más influyente con respecto

al papel que desempeña la imitación en el aprendizaje, no fueron los primeros
investigadores que trataron el tema.
10.1. Teorías de la imitación
10.1.1. La imitación como instinto
Algunos de los primeros psicólogos (Baldwin, 1906; James, 1890; Morgan,

1896; McDougall, 1908) sugirieron que las personas y otros animales tienen
una tendencia� innata� a� imitar el comportamiento de otros individuos. La
idea de que la imitación es innata proviene en parte de la evidencia de que los
bebés pueden imitar los movimientos de los adultos. Por ejemplo, McDougall
(1908) describía cómo su hijo de 4 meses de edad sacaba la lengua cuando
un adulto delante de él hacía lo mismo. Naturalmente, existe la posibilidad
de que este comportamiento fuera reforzado si los adultos sonreían o reían
cuando el niño realizaba la conducta.
Experimentos de Meltzoff y Moore (1977, 1983)
Meltzoff y Moore (1977, 1983) realizaron experimentos controlados con el fin de

determinar si efectivamente unos bebés de 12 a 21 días de edad podían imitar algu-
nos movimientos que realizaban los adultos. Concretamente, utilizaron cuatro mo-
vimientos: sacar los labios hacia fuera, abrir la boca, sacar la lengua y el movimiento
secuencial de los dedos (podéis ver la figura siguiente). Un modelo ejecutaba una de
las conductas y esperaba para ver si el niño la repetía. Las conductas de los niños fue-
ron registradas en vídeo y puntuadas por personas que desconocían cuál de los cuatro
gestos había observado el niño en un ensayo dado. Los investigadores encontraron
que los niños realmente mostraban una tendencia a imitar el comportamiento que
habían visto. Dada la edad de los bebés, era poco probable que estos comportamien-
tos hubieran sido reforzados por sus padres. De hecho, los padres indicaron que no
habían observado ningún tipo de imitación en sus hijos.
Representación de las conductas que debían imitar los bebés en el experimento de Meltzoff y Moore (1977)
Los resultados de Meltzoff y Moore se han replicado varias veces y actualmente

queda bastante claro que los bebés tienen una tendencia a imitar algunas ges-
ticulaciones de los adultos, especialmente sacar la lengua. No obstante, toda-
vía no existe un acuerdo absoluto en cómo interpretar estos datos. Por ejem-
plo, Anisfeld (1991) ha propuesto que sacar la lengua (y posiblemente otras
conductas) es un patrón de acción fijo innato (un reflejo) que se activa cuando
el niño ve a otra persona haciendo el mismo gesto. Meltzoff y Moore (1989)
no están de acuerdo con esta interpretación y mantienen que los bebés tienen
la capacidad de imitar movimientos que ven realizar a los adultos. Si esta in-
terpretación de Meltzoff y Moore es correcta, entonces tiene importantes re-
percusiones, ya que significa que los humanos nacemos con la capacidad de
asociar determinadas entradas sensoriales (la visión de un adulto haciendo un
gesto determinado) con un conjunto de movimientos musculares que permi-
ten al niño realizar el mismo movimiento que ven. Hay que tener en cuenta
que los bebés no tienen la oportunidad de ver su propia cara cuando abren la
boca o sacan la lengua. Todavía más, la mayoría de los bebés estudiados por
Meltzoff y Moore probablemente no habían visto su cara reflejada en un es-
pejo. Esto es, estos niños difícilmente habrían tenido ocasión de practicar di-
ferentes posturas frente a un espejo y asociar determinados movimientos con
las expresiones faciales a las que dan lugar. Sin embargo, son necesarias más
investigaciones para poder determinar si los bebés pueden imitar un amplio
rango de movimientos o sólo unos pocos como sacar la lengua.
Una segunda cuestión sobre la capacidad de imitar se centra en si se trata

de una habilidad exclusivamente humana u otras especies animales poseen
también la capacidad de imitar.
Thorndike (1911) no encontró ninguna evidencia de que sus animales apren-

dieran a resolver problemas mediante la observación de otros individuos. Esto
reforzó su ley del efecto y que, por lo tanto, los animales no humanos apren-
dían a partir de sus experiencias directas. No obstante, Robert (1990) ha reco-
gido más de 200 estudios sobre el aprendizaje por observación en animales.
Las especies estudiadas son primates, gatos, perros, roedores, pájaros y peces.
Las tareas aprendidas variaban en complejidad.
Thorpe (1963) propuso tres categorías de aprendizaje por observación.
• La categoría más simple propuesta por Thorpe era la facilitación�social, en

la que el comportamiento de un individuo provoca una conducta similar
en otro individuo, pero que la conducta ya se encuentra en el repertorio
del imitador.
Experimento de Wyrwicka (1978)
Un ejemplo de esta facilitación social lo encontramos en un trabajo de Wyrwicka

(1978) en el que entrenó a unas gatas a comer algunos alimentos poco habituales
como plátanos o patatas chafadas y observó cómo sus crías también empezaron a
comer los mismos alimentos que las madres.
• La segunda categoría de aprendizaje por observación propuesta por Thorpe

es el aumento�local, en el que la conducta de un modelo dirige la atención
del aprendiz hacia un determinado objeto o lugar en el entorno. Como
resultado se tiene que una conducta que se podría aprender por ensayo y
error se aprende más rápidamente.
Experimento de Warden, Fjeld y Koch (1940)
Warden, Fjeld y Koch (1940) entrenaron a unos monos a estirar de una cadena para
obtener comida como reforzador. A continuación se puso a un mono sin entrena-
miento en una caja idéntica próxima a la caja del mono entrenado. Los investigado-
res pudieron constatar que el mono sin experiencia observaba el comportamiento del
que conocía la respuesta adecuada e inmediatamente lo imitaba. Probablemente, el
mono ingenuo hubiera aprendido la respuesta por ensayo y error, pero su aprendizaje
se vio acelerado por la observación de la conducta de su compañero adiestrado.
Este tipo de aprendizaje por observación también se ha encontrado

en aves (por ejemplo, Hogan, 1986) y, lo que es más interesante, no
es necesario que el modelo y el aprendiz sean de la misma especie.
Bullock y Neuringer (1977) encontraron que unas palomas podían
aprender a ejecutar una cadena de dos respuestas (picotear dos teclas
en un orden concreto) observando la mano de un humano realizando
la secuencia correcta.
• La tercera categoría de aprendizaje por observación propuesta por Thorpe

recibe el nombre de imitación�auténtica y no es fácil distinguirla de la
categoría anterior. Se refiere a la imitación de un patrón de conductas que
es muy poco probable que aparezca en una determinada especie, y que
raramente puede ser aprendida por ensayo y error.
Experimento de Kawai (1965)
Un ejemplo de imitación auténtica la encontramos en un estudio de Kawai (1965),

que observó el comportamiento de un grupo de monos que vivía en una isla de Japón.
Cuando los granos de trigo se derramaban por la playa, los monos los recogían de
uno en uno entre los granos de arena y se los comían. Uno de los monos descubrió
que lanzando un puñado de arena con el trigo al agua, la arena se hundía y el trigo
flotaba, lo que facilitaba la tarea de separarlos. Rápidamente otros monos empezaron
a imitar este comportamiento.
Imitación auténtica
Es difícil encontrar ejemplos de la imitación auténtica en otras especies de animales di-

ferentes a los primates, pero se han descrito casos anecdóticos que pueden entenderse
como una evidencia de una imitación auténtica en aves (Fisher y Hinde, 1947). En 1921,
algunos habitantes del sur de Inglaterra se dieron cuenta de que algunos pájaros habían
empezado a obtener leche agujereando las botellas depositadas en el umbral de las puer-
tas. A lo largo de los años, este comportamiento de las aves se extendió a lo largo de In-
glaterra, Gales, Escocia e Irlanda. Además, este comportamiento se observó en diferentes
especies de pájaros. Ya que no tiene demasiado sentido pensar que todos estos pájaros
aprendieron repentinamente este comportamiento por sí mismos, debieron aprender y
transmitir la conducta mediante el aprendizaje por observación.
10.1.2. La imitación como una respuesta instrumental
Miller y Dollard (1941) propusieron que el aprendizaje por observación no

era un nuevo tipo de aprendizaje diferente a los condicionamientos clásico e
instrumental, sino que era un caso especial de aprendizaje instrumental. Ya
hemos visto cómo los estímulos discriminativos tenían un papel importante
en el control de la conducta instrumental. Según Miller y Dollar, en el apren-
dizaje por observación la conducta del modelo tendría el papel de estímulo
discriminativo con la peculiaridad de que la respuesta reforzada sería la misma
o muy similar a la que realiza el modelo.
Experimento de Miller y Dollard (1941)
En un experimento de Miller y Dollar trabajaron con parejas de niños de primer ciclo.

En cada pareja, uno de los niños tenía el papel de modelo y el otro de aprendiz. En
cada ensayo los dos niños entraban en una habitación donde había dos sillas y en
cada una, una caja. Antes de cada ensayo se indicó al niño que hacía de modelo
que se dirigiera a una de las dos cajas donde podía haber un caramelo. El aprendiz
podía ver la elección del modelo pero no si obtenía o no el caramelo. A continuación,
era el aprendiz el que debía ir a una de las dos cajas donde podía o no encontrar el
caramelo. La mitad de los aprendices formaban parte del grupo de imitación y eran
reforzados si emitían la misma respuesta de elección que el modelo. La otra mitad de
aprendices eran del grupo de no imitación y obtenían el reforzador si elegían la caja
que no había elegido el modelo.
Los resultados de este experimento son fácilmente previsibles. Después de unos po-
cos ensayos, los niños del grupo de imitación realizaban la misma elección que su
modelo, mientras que los niños del grupo de no imitación elegían la caja contraria
a la que había elegido el modelo.
La interpretación de Miller y Dollar es que la imitación se producirá si se re-

fuerza a un individuo para imitar el modelo y, por el contrario, la imitación
no se producirá si se refuerza al individuo por realizar una conducta diferente
a la del modelo. Este análisis del aprendizaje por observación no necesita di-
ferenciarlo como una forma diferente del condicionamiento instrumental.
Ahora bien, hay que ser prudentes a la hora de aceptar esta explicación del
aprendizaje por observación, ya que sólo es viable en situaciones en las que
el aprendiz observa el comportamiento del modelo, copia inmediatamente la
conducta y recibe reforzador por hacerlo. Muchas conductas aprendidas por
observación no muestran este patrón, como señaló Bandura (1969).
Una niña pequeña ve cómo su madre le prepara un bol de leche con cereales. La madre
saca el bol de un armario y a continuación toma la bolsa de cereales de otro armario y
vierte una cantidad en el bol. A continuación abre la nevera y toma una botella de leche
y acaba de llenar el bol. Probablemente, la niña puede haber atendido toda esta cadena
de conductas pero no las ejecutará y, por lo tanto, no será reforzada. Sin embargo, al
día siguiente cuando la madre no está en la cocina, la niña se prepara ella sola el bol de
cereales con más o menos éxito.
El ejemplo ilustra una situación de aprendizaje por observación en la que la

conducta no ha sido previamente practicada ni, en consecuencia, reforzada.
Por lo tanto, es difícil explicar este aprendizaje a partir del condicionamiento
instrumental. Sin embargo, hay que tener en cuenta que los principios del
condicionamiento instrumental tampoco pueden explicar por qué una rata
ejecuta por primera vez una presión de palanca.
De todas maneras, podemos explicar la aparición de nuevas conductas si re-

currimos al concepto de generalización. De hecho, muchas conductas nuevas
son variaciones de respuestas similares reforzadas previamente.
Experimento de Lashley (1924)
Por ejemplo, en un experimento de Lashley (1924) se entrenó a unas ratas para ca-
minar por un laberinto cubierto ligeramente de agua para llegar a un punto en el que
había el reforzador. Cuando se inundó el laberinto de manera que el animal debía
nadar, las ratas no tuvieron ningún problema para llegar hasta el reforzador.
Podemos afirmar que la conducta de nadar fue una generalización de la conducta

previamente reforzada de caminar por el agua.
Volviendo al ejemplo de la niña que prepara su propio bol de cereales, es muy

probable que los padres refuercen a sus hijos para imitar sus conductas. Por
ejemplo, podemos pronunciar la palabra agua delante del niño y si éste emite
un sonido similar (abua), es muy posible que riamos, lo felicitemos y le haga-
mos carantoñas, lo que reforzará la conducta de imitación. Por otra parte, los
componentes de la conducta de preparación de un bol de cereales se pueden
haber reforzado en otras situaciones. Es muy probable que la niña hubiera sido
reforzada en el pasado para abrir armarios, o también habría podido recibir
reforzadores por llenar botes de arena en el parque o trasvasar agua de un bote
a otro mientras jugaba.
En definitiva, las conductas nuevas pueden producirse a partir de la generali-

zación de otras conductas reforzadas en el pasado.
Experimento de Baer, Peterson y Sherman (1967)
Por ejemplo, Baer, Peterson y Sherman (1967), reforzaron a algunos niños con retra-
so mental profundo para imitar varias conductas realizadas por el profesor (ponerse
derechos, asentir con la cabeza, abrir una puerta). Después del establecimiento de las
respuestas imitadas (lo que necesitó varias sesiones), el profesor realizaba ocasional-
mente conductas nuevas y los niños también las imitaron aunque nunca habían sido
reforzados antes para hacerlas.
10.1.3. La teoría de Bandura sobre el aprendizaje por imitación
Experimento de Bandura (1965)
Bandura (1965) llevó a cabo un experimento sobre imitación de la conducta agresiva

en niños de 4 años de edad. Los niños participaron en el experimento de manera in-
dividual. Cada niño vio inicialmente una película corta en una pantalla de televisor
en la que un adulto realizaba cuatro conductas agresivas diferentes dirigidas contra
una muñeca de grandes dimensiones. Cada conducta iba acompañada de verbaliza-
ciones específicas. Las conductas fueron:
1) Sentarse encima de la muñeca y golpearla en la cara.

2) Golpear la cabeza de la muñeca con un mazo.
3) Dar patadas a la muñeca.
4) Lanzar pelotas de goma contra la muñeca.
Posteriormente, algunos niños vieron cómo el agresor recibía algunos reforzadores

por parte de otro adulto al tiempo que lo elogiaba. Otros niños vieron cómo reñían
al agresor. Finalmente, para un tercer grupo de niños, el vídeo no mostraba ninguna
consecuencia de la conducta agresiva del modelo.
Gru- Fase de observación Fase de prueba 1 Fase de prueba 2

po
Pre- Conducta agresiva del Común a los tres grupos: Común a los tres grupos:
mio modelo → Reforza- los niños tenían acceso los niños fueron reforzados
miento a la muñeca con la que para imitar en el modelo
había actuado el modelo de manera individual.
Casti- Conducta agresiva del de manera individual.
go modelo → Castigo
Sin Conducta agresiva del

con- modelo → no conse-
secuencia
cuen-
cia
Esquema del diseño experimental de Bandura (1965)

Inmediatamente después de ver la película, cada niño entraba en una habitación
donde había una muñeca idéntica a la mostrada en la película junto con otros jugue-
tes y se le animaba para que jugara con ellas. El niño permanecía solo en la habitación
pero se lo observaba a través de un espejo unidireccional. Durante el tiempo en el que
se quedaron solos en la habitación, los niños mostraron muchas conductas agresivas
contra la muñeca y muchas de ellas eran semejantes a las del modelo. Además, los
niños mostraron más conducta agresiva que las niñas.
Estos resultados pueden ser los esperados por la teoría de la generalización de la

imitación. No obstante, Bandura encontró dos aspectos de la conducta que no
pueden ser explicados por esta teoría. Primero, las consecuencias que recibían
los modelos influían en la conducta de los niños. En concreto, los niños que
observaron que el modelo era recompensado exhibían más conducta agresiva
que los niños que habían visto cómo castigaban al modelo. De acuerdo con la
teoría de la generalización de la imitación, los niños (y los adultos) imitan a
otras personas porque la conducta de imitar ha sido reforzada anteriormente,
pero no dice nada sobre cómo el reforzamiento o el castigo del modelo afecta-
rá al aprendiz. El segundo hallazgo hace referencia a una fase final del experi-
mento en la que Bandura ofreció refuerzo a los niños de todos los grupos para
imitar el modelo de la película. Con este incentivo, todos los niños de los tres
grupos mostraron mucha conducta agresiva y no diferían entre las condicio-
nes experimentales. Estos datos llevaron a Bandura a concluir que el reforza-
dor no es necesario para el aprendizaje por observación de nuevas conductas,

pero que la expectativa de reforzamiento es esencial para la ejecución de estas
nuevas conductas. Según Bandura, existe una clara distinción entre aprendi-
zaje y conducta, y es precisamente la falta de esta distinción lo que impide que
la teoría de la generalización de la imitación pueda explicar sus resultados.
A partir de sus investigaciones Bandura (1969, 1986) propuso la teoría�cog-

nitiva�del�aprendizaje�por�observación. Bandura diferencia cuatro procesos
implicados en el aprendizaje por observación:
1)�Procesos�de�atención. El aprendiz debe prestar atención a las características

relevantes de la conducta del modelo.
2)�Procesos�de�retención. Es obvio que un individuo debe retener informa-

ción adquirida mediante la observación si después quiere reproducir la con-
ducta.
3)� Procesos� de� reproducción� motora. Para poder reproducir la conducta

aprendida mediante la observación, es necesario que el aprendiz tenga las ca-
pacidades motoras mínimas para llevar a cabo la conducta. Golpear una mu-
ñeca no presenta problemas para el aprendiz, ya que tiene bastante habilidad
para dar golpes. Pero un experto jugador de billar nos puede mostrar paso por
paso cómo hacer una carambola a tres bandas, pero si el observador no ha
manipulado nunca un taco, posiblemente le será como mínimo difícil repro-
ducir la conducta, aunque nos pueda efectuar una descripción verbal perfecta.
4)�Procesos�de�motivación�y�de�incentivo. Según Bandura, los tres primeros

procesos son todo lo que se necesita para adquirir la capacidad de realizar una
nueva conducta, pero esta nueva conducta no se reflejará si el aprendiz no
recibe el incentivo adecuado. Para que la conducta se ejecute, el individuo
debe tener la expectativa de que será reforzada. El experimento de Bandura
(1965) descrito más arriba proporciona un ejemplo del papel que desempeña
el incentivo. Los niños que vieron cómo se castigaba al modelo por agredir a
la muñeca, probablemente desarrollaron la expectativa de que esta conducta
tiene consecuencias desagradables y, por lo tanto, mostraron menos conducta
agresiva que los niños de los otros grupos. En cambio, cuando se les ofreció
un reforzador para imitar la conducta del modelo, sus expectativas sobre las
consecuencias de la conducta cambiaron y emitieron la misma cantidad de
conducta agresiva que los niños de los otros grupos.
10.2. Factores que afectan a la probabilidad de la imitación
Hasta ahora hemos visto dos factores importantes y evidentes que hacen más o
menos probable que un observador imite la conducta de un modelo: las con-
secuencias que tiene el comportamiento sobre el modelo y las consecuencias
sobre el observador. Los niños son más propensos a imitar las conductas de un
modelo que ha sido reforzado. Los niños también tienen más probabilidad de
imitar a un modelo cuando han sido reforzados por su imitación. Ahora nos
centraremos en otros factores que se sabe que influyen en la imitación.
10.2.1. Características del modelo
Los niños generalmente tienen más contacto con sus padres que con cualquier
otra persona, pero eso no quita que estén expuestos a muchos otros modelos
en potencia: los hermanos, los compañeros de clase, los profesores, los abue-
los, personalidades de la televisión, personajes de los dibujos animados, de-
portistas famosos, etc. Sin embargo, los niños no imitan por igual a todos estos
posibles modelos. ¿Qué hace que unos modelos sean más imitados que otros?
Una de las características que provoca que un modelo tenga más probabilidad
de ser imitado es su capacidad� de� reforzar� a� los� niños. En otras palabras,
las personas que proporcionan más reforzamiento, tanto afectivo como otras
formas de reforzadores, tienden a ser más imitadas.
Experimento de Bandura y Huston (1961)
Bandura y Huston (1961) realizaron un experimento en el que una mujer interac-

tuaba individualmente con unos niños del jardín de infancia. La mujer se mostró
afectuosa con la mitad de los niños y fría y distante con la otra mitad. Cuando más
tarde se permitió jugar a los niños con la mujer, los que la conocían como persona
afectuosa imitaron significativamente más las conductas del modelo que los niños
que la conocían como persona distante.
Una segunda característica del modelo es el poder�que�tiene�sobre�el�imita-

dor. De hecho, los padres ejercen un gran control sobre los hijos decidiendo
lo que pueden y lo que no pueden hacer. Mischel y Grusec (1966) pusieron
a prueba esta hipótesis.
Experimento de Mischel y Grusec (1966)
A unos niños del jardín de infancia les presentaron a una mujer como la nueva pro-
fesora, mientras que para otros niños, la misma mujer fue presentada como una pro-
fesora visitante. La idea era que los niños vieran a la persona que sería su profesora
como una persona con más poder que si sólo era una visitante que no volverían a ver
en el futuro. La mujer pasó un rato jugando con cada grupo por separado. Posterior-
mente, y cuando no estaba la mujer presente, se dejó jugar a los niños libremente. Los
resultados mostraron más conducta de imitación en los niños que pensaban que la
mujer sería su nueva profesora que en los niños que la veían sólo como una visitante.
El concepto de poder o control equivale al concepto de dominancia en los

casos de los grupos sociales. Varios estudios han mostrado resultados equiva-
lentes a los que acabamos de ver cuando el modelo era un niño dominante
en el aula (Abramovitch y Grusec (1978) o una cheer-leader entre un grupo de
chicas (McCullagh, 1986).
Otra variable es la similitud�entre�el�modelo�y�el�observador. Por ejemplo,

se ha demostrado que es mucho más probable que un niño imite a un mo-
delo que es del mismo sexo, edad o que parece mostrar los mismos intereses
(Burnstein, Stotland y Zander, 1961; Davidson y Smith, 1982).
Otra variable es la sinceridad�del�modelo. Klass (1979) halló que los niños

imitaban más que un modelo que parecía sincero que a otro que parecía poco
sincero.
El listado de variables no es exhaustivo, pero es fácil ver cómo pueden ser

explicadas sin dificultad por la teoría de Bandura y de la generalización de la
imitación. Un niño puede haber aprendido que una persona dominante lo
podrá reforzar si lo imita. Un niño también puede haber sido reforzado por
imitar a otras personas del mismo sexo, edad, y, en cambio, puede haber sido
castigado por imitar a personas de diferente sexo o edad. También es posible
que un niño haya aprendido que es poco aconsejable imitar a personas poco
sinceras. De acuerdo con la teoría de la generalización de la imitación, cada
una de estas variables refleja los efectos de la experiencia pasada del niño; de
acuerdo con la teoría de Bandura, reflejan las expectativas que tiene el niño
del reforzamiento futuro.
10.2.2. Características del aprendiz
Otro foco de interés ha sido descubrir las diferencias individuales que corre-
lacionan con la tendencia de una persona a imitar el comportamiento de los
otros. Algunas de estas características pueden parecer obvias, pero otras no.
Por ejemplo, Bandura (1965) mostró que los niños tienden más a imitar con-
ductas agresivas que las niñas. Abramovitch y Grusec (1978) encontraron que
los niños pequeños (4 años) imitaban más que niños más mayores (9 años).
También descubrieron que los niños dominantes (a quienes imitan más) re-
sultaban mostrar más conducta imitativa.
Muchas de estas características son específicas de la situación. Sin embargo, se

puede afirmar, aunque de manera intuitiva, que las personas menos seguras
de sí mismas tienden a imitar más el comportamiento de los otros (Thelen,
Dollinger y Kirkland, 1979). Muchos estudios han manipulado el nivel de se-
guridad presentando a los participantes tareas que podían o no resolver.
Experimento de Roberts, Boone y Wurtele (1982)
Roberts, Boone y Wurtele (1982) trabajaron con niños en edad preescolar y les dieron
a hacer una tarea de discriminación. La mitad de los niños recibían retroalimentación
positiva y la otra mitad recibía retroalimentación negativa.
Los resultados mostraron más imitación de un modelo en los niños que habían
recibido la retroalimentación negativa.
En la misma línea, Jakubczak y Walters (1959) encontraron que los niños que
mostraban independencia al resolver un problema (esto es, que no aceptaban
la ayuda a pesar de que tuvieran dificultades para resolver los problemas) eran
menos propensos a imitar a un modelo que los niños que eran altamente de-
pendientes (que aceptaban ayuda incluso cuando no la necesitaban).
10.2.3. Características de la situación
Si las personas muestran más tendencia a imitar cuando están inseguras de su

conducta, entonces las situaciones�ambiguas también provocarán más inse-
guridad y, por lo tanto, más imitación.
Experimento de Thelen, Paul y Dollinger (1978)
Thelen, Paul y Dollinger (1978) manipularon la incertidumbre de una situación pre-

sentando a los participantes, niños preadolescentes, tareas que tenían dos opciones
(condición de baja incertidumbre) o con diez posibles opciones (condición de alta
incertidumbre). Los niños que se encontraban con una situación de alta incertidum-
bre imitaban más el modelo que los niños que se encontraban en la condición de
baja certeza.
Una segunda variable de la situación que afecta a la imitación es la dificultad

de�la�tarea encomendada. Harnick (1978) encontró que niños de entre 14 y
28 meses de edad imitaron más a un modelo cuando se enfrentaban con tareas
de dificultad media que cuando las tareas eran muy fáciles o muy difíciles. Este
comportamiento puede ser adaptativo, ya que cuando la tarea es muy fácil no
hay que aprender nada por imitación y, por otra parte, cuando la tarea es muy
difícil ni siquiera la observación del modelo puede ayudar.
Contra lo que podría pensarse, el modo de presentar al modelo no es una va-

riable que afecte al aprendizaje por observación. Bandura (1962) comparó mo-
delos vivos, registrados en vídeo o en dibujos animados, todos ellos mostran-
do los mismos comportamientos agresivos, pero no observó diferencias signi-
ficativas en cuanto a la imitación de estas conductas por parte de los niños.
¿Qué podemos aprender mediante la observación?
Bandura y Walters defienden que las formas características de respon-

der a las diferentes situaciones que tienen los individuos, lo que se pue-
de entender como personalidad, se desarrolla principalmente a lo largo
de la infancia por medio de las influencias tanto del condicionamiento
instrumental como del aprendizaje por observación. Esta idea ha pro-
movido abundante investigación y es destacable en el campo de las fo-
bias, las adicciones y el desarrollo cognitivo.
En el caso de las fobias, la investigación se basa principalmente en estudios

correlacionales, estudios de casos e informes retrospectivos, lo que no repre-
senta un respaldo demasiado fuerte a la idea de que el aprendizaje por obser-
vación esté en la base del desarrollo de las fobias.
Se ha encontrado que miembros de la misma familia muestran las mismas fobias, o que
algunos aviadores de la Segunda Guerra Mundial desarrollaban fobias después de ver el
miedo de algunos de sus compañeros durante o después de las misiones.
Por otra parte, se dispone de datos que sugieren que la teoría del aprendizaje
social o por observación puede explicar la adquisición de conductas�de�adic-
ción al tabaco, al alcohol y a las drogas. Ya hemos visto cómo los principios de
reforzamiento y castigo pueden explicar el mantenimiento de la conducta de
adicción (podéis ver la teoría de Solomon y Corbit) una vez ya se ha desarro-
llado. Sin embargo, la adquisición de estos comportamientos se puede explicar
mediante el aprendizaje por observación.
El primer cigarrillo que fuma una persona es una experiencia aversiva, entonces, ¿cómo
es posible que la persona vuelva a fumar? De muy pequeños muchos niños han sido ex-
puestos a personas que fumaban: los propios padres, hermanos mayores, personalidades
de la televisión y cine, etc. La consecuencia de fumar parece tener algún aspecto posi-
tivo. Algunas personas han manifestado que empezaron a fumar porque los hacía más
maduros, sofisticados o atractivos. Podría ser que estas "ventajas" tuvieran más fuerza que
la experiencia aversiva de fumar. De esta manera, las personas imitarían la conducta de
fumar, ya que los modelos son bien percibidos.
Estas ideas fueron expuestas por Kozlowski (1979). Actualmente, sin embar-
go, la conducta de fumar empieza a ser mal valorada por una gran parte de
la sociedad y los gobiernos de muchos países han empezado a restringir seve-
ramente la conducta de fumar. Si el fumador se muestra como una persona
que recibe más castigos que refuerzos, se espera –de acuerdo con la teoría del
aprendizaje por observación– que el número de jóvenes que inician el hábito
se vea significativamente reducido.
También parece que la teoría del aprendizaje por observación puede explicar
el desarrollo del alcoholismo. O'Leary, O'Leary y Donovan (1976) observaron
que había una tendencia a que los padres de las personas alcohólicas se ubica-
ran en una de dos categorías: o bien eran mayores consumidores o bien todo
lo contrario, abstemios muy rígidos. La idea de O'Leary y colaboradores era
que en ambos casos los padres eran malos modelos para un consumo mode-
rado de alcohol. Si los padres son grandes bebedores, los hijos pueden imitar
este comportamiento. Si los padres son abstemios, entonces los hijos también
pueden imitar este comportamiento. Pero imaginemos que el hijo de unos
padres totalmente abstemios decide empezar a beber. Los padres no habrán
mostrado nunca al hijo los hábitos que previenen de caer en el alcoholismo
(tal como beber sólo en ocasiones especiales, no beber nunca antes del traba-
jo, o dejar de consumir alcohol después de una o dos bebidas). A no ser que
los hijos hayan aprendido estas guías en otro entorno, pueden progresar de
manera inadvertida hacia el consumo patológico de alcohol.
10.3. Influencia del aprendizaje por observación en el desarrollo

cognitivo
A continuación analizaremos cómo el aprendizaje social puede influir en el

desarrollo cognitivo.
Piaget (1926, 1929) sugirió que a medida que los niños crecen van pasando por
diferentes etapas de desarrollo cognitivo, y que pasar de una etapa a otra de-
pende del crecimiento, de la madurez y de la experiencia personal. Los teóri-
cos del aprendizaje social (por ejemplo, Rosenthal y Zimmerman, 1972, 1978)
defienden que el aprendizaje por observación es el principal mecanismo para
el desarrollo de las habilidades cognitivas.
Como ejemplo, analizaremos la tarea de conservación. En una de sus versio-

nes, se muestra a los niños tres recipientes cilíndricos transparentes. Dos de
ellos son idénticos y contienen la misma cantidad de agua. La prueba se inicia
preguntando cuál de los dos recipientes contiene más cantidad de agua y la
respuesta habitual es que contienen la misma cantidad. A continuación y de-
lante del niño, se traspasa el agua de uno de los recipientes al tercero, que es
más delgado y alto. Se vuelve a preguntar al niño cuál de los dos recipientes
contiene más agua. Si el niño responde que contienen la misma cantidad, en-
tonces el niño ya ha alcanzado el concepto de conservación de los volúmenes.
Sin embargo, la mayoría de los niños menores de 7 años de edad responden
que hay más agua en el recipiente estrecho y alto. Parece ser que estos niños
se dejan llevar por la altura del nivel del agua en cada recipiente e ignoran
otras características, como por ejemplo el diámetro de la base del recipiente.
Estos niños todavía no han aprendido que los líquidos mantienen su volumen
constante con independencia de la forma del recipiente que los contenga.
Rosenthal y Zimmerman intentaron demostrar que la adquisición del concep-

to de la conservación de los volúmenes no dependía de la simple madurez y
de la experiencia personal, sino del aprendizaje por observación. En uno de
sus experimentos, unos niños que todavía no habían adquirido el concepto de
conservación de los volúmenes observaron cómo un modelo adulto ejecutaba
correctamente la tarea. El experimento constaba de dos grupos que diferían
sólo en el hecho de que, en uno de ellos, el modelo explicaba por qué los dos
recipientes contenían la misma cantidad de agua.
Posteriormente a la observación del modelo, los dos grupos tuvieron que re-
solver varios problemas relacionados con la conservación de los volúmenes.
Los resultados mostraron que los niños de los dos grupos mejoraron en la rea-
lización de la tarea, y los que recibían una explicación mostraron una mejora
mayor.
Una crítica a estos resultados es que los niños podían aprender a cambiar su Aprendizaje por
respuesta, pero sin entender el porqué (Kuhn, 1974). No obstante, existe evi- observación
dencia de que los niños pueden resolver problemas diferentes a los que han También se ha visto que el
visto resolver en los modelos. Por ejemplo, Rosenthal y Zimmerman observa- aprendizaje por observación
mejora la ejecución en otros ti-
ron que los niños eran capaces de resolver un problema de conservación del pos de tareas cognitivas como
la adquisición de reglas grama-
número que implica la comprensión de que el número de objetos en una línea ticales, conceptos abstractos y
solución de problemas (Rivera
no varía si la línea se hace más larga espaciando más los objetos. Los niños y Smith, 1987; Zimmerman y
eran capaces de resolver correctamente esta nueva tarea después de haber visto Blom, 1983).
actuar al modelo en la tarea de conservación de volúmenes, pero nunca en la

de conservación del número.
Bandura también ha propuesto que el aprendizaje por observación puede in-

fluir en el juicio de los niños con respecto a qué conductas son buenas y cuáles
son malas.
Un niño que observa un comportamiento honesto en sus padres en cuanto a cuestiones

financieras, puede aprender a comportarse de la misma manera. En cambio, un niño
que observa cómo sus padres estafan, hacen trampas en la declaración de la renta, dejan
de pagar facturas, pueden aprender que estos comportamientos son aceptados o incluso
deseables.
Experimento de Bandura y McDonald (1963)
En un experimento, Bandura y McDonald (1963) presentaron problemas sobre jui-

cios morales desarrollados inicialmente por Piaget (1932). Se preguntaba a unos niños
un juicio sobre cuál de dos situaciones hipotéticas era una travesura antes y después
de ver a un modelo haciendo juicios similares. En cada pareja de historias, un prota-
gonista provocaba un daño mayor que otro, pero sus intenciones eran mejores. Por
ejemplo, en una situación un niño obedecía a su madre que lo había llamado a cenar
y al abrir una puerta golpeaba una silla tirando por el suelo y rompiendo un montón
de tazas de café que estaban sobre la silla. Este niño provocaba un gran daño mientras
obedecía a la madre. La segunda historia mostraba a un niño que rompía una taza de
café mientras intentaba agarrar un bote de galletas cuando su madre no lo veía. Este
niño provocaba un daño menor mientras realizaba una travesura. Los niños peque-
ños juzgan la travesura en relación con el tamaño del daño causado, mientras que los
niños más mayores tienen en cuenta las intenciones de las personas cuando hacen
sus juicios. Después de que los niños del experimento de Bandura y McDonald hu-
bieran dado su juicio, cada uno de ellos observó a un modelo adulto dando el juicio
contrario (independientemente del tipo de decisión que había tomado cada niño).
Los resultados mostraron cómo los participantes en el experimento podían cambiar
sus juicios en cualquier dirección después de haber visto al modelo. El hecho de que
los juicios durante la prueba eran sobre historias completamente nuevas muestra que
los niños habían aprendido una regla general sobre los juicios morales.
Aunque no entraremos en detalles, el aprendizaje por observación se ha uti-

lizado como una herramienta en las terapias de conducta. Se ha observado
su eficacia para facilitar conductas con baja probabilidad de aparición, la ad-
quisición de nuevas conductas, la eliminación de miedos y de conductas no
deseadas.
Ejercicios de autoevaluación
Preguntas�de�alternativas�múltiples
1. Según Skinner (1938), un reforzador es un acontecimiento que...
a) reduce el impulso.
b) produce miedo.
c) reduce el nivel de dolor.
d) aumenta la probabilidad de ejecución de una respuesta.
2. La ley del efecto de Thorndike propone que...
a) la fuerza de la conexión estímulo-estímulo puede aumentar con la experiencia.

b) el sujeto en un experimento de aprendizaje puede ser motivado para formar una asocia-
ción.
c) el refuerzo fortalece la asociación entre un estímulo y una respuesta.
d) el aprendizaje ocurre sólo cuando un estímulo es seguido por una respuesta.
3. ¿Qué es un estímulo discriminativo?
a) Es un estímulo que señala la disponibilidad del reforzador.

b) Es un estímulo biológicamente potente y que suele denominarse reforzador.
c) Es un estímulo que provoca una respuesta refleja que en el condicionamiento instrumental
se da por supuesta.
d) Es un estímulo intenso indispensable para el condicionamiento instrumental.
4. En el procedimiento de REC, necesitamos que los animales muestren una tasa de respuesta
en la tarea instrumental alta y estable. ¿Cuál de los siguientes programas básicos de refuerzo
garantiza una tasa de respuesta alta y estable?
a) Intervalo fijo.
b) Razón variable.
c) Razón fija.
d) Intervalo variable.
5. Retirar el permiso de conducir a alguien por conducir bajo los efectos del alcohol es un
ejemplo de...
a) castigo.
b) entrenamiento de recompensa.
c) entrenamiento de evitación.
d) entrenamiento de omisión.
6. En el procedimiento de omisión, la ejecución de la respuesta instrumental da lugar...
a) a la aparición de un estímulo aversivo.

b) a la retirada de un estímulo aversivo.
c) a la aparición de un estímulo apetitivo.
d) a la retirada de un estímulo apetitivo.
7. La respuesta de escape consiste en una respuesta que se da para...
a) impedir la aparición de un EI apetitivo.

b) hacer desaparecer un EI apetitivo.
c) hacer desaparecer un EI aversivo.
d) impedir la aparición de un EI aversivo.
8. ¿En qué se parece el entrenamiento de castigo positivo al de reforzamiento negativo (es-

cape-evitación)?
a) En los dos entrenamientos se pretende instaurar una nueva conducta.

b) En los dos entrenamientos se utilizan EI aversivos.

c) En los dos entrenamientos se pretende suprimir una conducta en curso.
d) Los dos entrenamientos se enmarcan en el condicionamiento clásico.
9. ¿En qué consiste un programa de intervalo variable (IV)? En que...
a) el reforzamiento se le presenta al sujeto por la primera respuesta que realiza después de
transcurrida una cantidad fija de tiempo desde el último reforzamiento.
b) el sujeto es recompensado por cada ''n'' respuestas (previamente fijadas).
c) el sujeto es recompensado por cada ''n'' respuestas, pero el número de respuestas requerido
para la presentación del refuerzo varía aleatoriamente.
d) la recompensa está disponible después de transcurrido un tiempo determinado, cuya du-
ración varía aleatoriamente.
10. ¿Qué representa la pendiente de la línea que se dibuja en un registro acumulativo?
a) La intensidad de las respuestas.

b) La tasa de respuestas.
c) Las aproximaciones sucesivas de las respuestas.
d) El número de errores de las respuestas que medimos.
11. Según se puede observar en el gráfico, ¿qué programa de reforzamiento puede estar re-
flejando?
a) RF10.
b) IF2''.
c) RV10.
d) Ninguno de los tres.
12. ¿En qué consiste la técnica del modelado?
a) En el establecimiento de una nueva conducta emparejándola a un refuerzo positivo.

b) En la imitación de la conducta de un modelo que ejecuta una respuesta nueva.
c) En el establecimiento de una nueva pauta de conducta mediante el reforzamiento diferen-
cial de conductas que se aproximan sucesivamente a la conducta deseada.
d) Es una técnica muy empleada en las peluquerías, pero de escaso interés para la psicología.
13. La ley de la igualación refleja un hecho fundamental de la conducta de elección entre

dos alternativas A y B, e indica que...
a) la tasa relativa de respuestas en la alternativa A es igual a la tasa relativa de respuestas en

la alternativa B.
b) la tasa relativa de respuestas en la alternativa A es igual a la tasa relativa de reforzamientos
en la alternativa B.
c) la tasa relativa de respuestas en la alternativa A es igual a la tasa relativa de reforzamientos
para esta alternativa.
d) la tasa relativa de reforzamientos en la alternativa A es igual a la tasa relativa de reforza-
mientos en la alternativa B.
14. Como podemos observar en la figura, tenemos una gallina sometida a dos programas
concurrentes de refuerzo. Según la ley de la igualación, ¿cuál sería la distribución de respues-
tas esperada en las dos teclas?
a) En la tecla VI 30 sec. el doble de respuestas que en la tecla VI 60 sec.

b) En la tecla VI 60 sec. el doble de respuestas que en la tecla VI 30 sec.
c) En las dos teclas igual.
d) No lo podemos saber.
15. ¿Qué supone para la teoría de Spence del aprendizaje discriminativo el hecho de que
puedan presentarse gradientes de excitación y de inhibición en torno al E+ y en torno al E–?
a) Un problema para la teoría.

b) Un gran respaldo a la teoría.
c) No supone nada.
d) Nunca se ha podido demostrar la existencia de gradientes de generalización inhibidores.
16. Imaginemos que adiestramos a un grupo de palomas a picotear en presencia de una

luz de 580 nm de longitud de onda, y posteriormente las ponemos a prueba en presencia
de luces de otros colores. Los resultados que observamos en la gráfica muestran cómo sus
respuestas están en función del grado de semejanza de los estímulos de prueba con el estímulo
de entrenamiento original. Este tipo de resultados constituye...
a) un contraste de conducta.

b) un desplazamiento del máximo.
c) un gradiente de generalización.
d) un gradiente plano de generalización.
17. En la gráfica se muestran dos gradientes de generalización. ¿Qué fenómeno se puede

observar?
a) Una discriminación extradimensional.

b) El efecto de transposición en el grupo G1.
c) Un gradiente de generalización excitador en el grupo G1 y un gradiente de generalización
inhibidor en el grupo G2.
d) El desplazamiento del máximo en el grupo G2.
Solucionario
Ejercicios de autoevaluación
1.�d
2.�c
3.�a
4.�b
5.�d
6.�d
7.�c
8.�b
9.�d
10.�b
11.�a
12.�c
13.�c
14.�a
15.�b
16.�c
17.�d
Glosario
aprendizaje relacional m Concepción según la cual la discriminación entre dos estímu-
los se basa en una relación entre ellos.
asociación jerárquica f Asociación entre un estímulo y una relación respuesta-conse-

cuencia particular.
asociación R-C (respuesta-consecuencia) f Asociación entre la conducta de un indivi-

duo y una consecuencia, por ejemplo, comer.
autocontrol m Una condición que describe la situación en la que un individuo elige la

opción de una recompensa grande, pero demorada en lugar de una recompensa pequeña e
inmediata.
cambio extradimensional m Procedimiento en el que varía la respuesta de elección

correcta y la dimensión del estímulo en el que difieren las posibles elecciones.
cambio intradimensional m Procedimiento en el que varía la respuesta de elección co-

rrecto, pero se mantiene la dimensión del estímulo en el que difieren las posibles elecciones.
castigo m Procedimiento de condicionamiento instrumental en el que una conducta va

seguida de un estímulo aversivo.
condicionamiento instrumental m Forma de aprendizaje en la que un estímulo es

contingente a una respuesta.
conducta maladaptada (misbehaviour) f Conductas innatas evocadas por el reforza-

dor y que interfieren con la conducta instrumental.
contigüidad temporal f Inmediatez de la presentación del reforzador.
contingencia f Dependencia de la presentación del reforzador de la ejecución de la res-

puesta instrumental.
contraste negativo m Reducción de la respuesta como consecuencia de una reducción

en el valor del reforzador.
contraste positivo m Incremento de la respuesta como consecuencia de un aumento en

el valor del reforzador.
control por el estímulo m Grado en el que un estímulo provoca la respuesta.
desplazamiento del máximo (o del vértice) m Desplazamiento del máximo del gra-
diente de generalización respecto al E+ y en dirección opuesta al E–.
discriminación f Consiste en responder de manera diferente a dos estímulos en función

de sus diferencias.
efecto del reforzamiento parcial m Dificultad de extinguir una respuesta que ha sido
reforzada parcialmente.
entrenamiento de omisión m Procedimiento de condicionamiento instrumental en el

que la respuesta va seguida de la retirada de un estímulo apetitivo.
escape m Procedimiento de condicionamiento instrumental en el que la respuesta va se-

guida de la retirada de un estímulo aversivo.
estímulo discriminativo m Estímulo que informa de la disponibilidad del reforzador.
evitación f Procedimiento de condicionamiento instrumental en el que la respuesta im-

pide la presentación de un estímulo aversivo.
fuerza del hábito f Tendencia a ejecutar una respuesta en presencia de un determinado

estímulo.
generalización f Tendencia a responder a un estímulo nuevo similar al EC o a los estímu-

los discriminativos.
gradiente de generalización m Relación entre la fuerza de la respuesta a los estímulos

de prueba en función de la similitud de éstos con el EC o a los estímulos discriminativos.
hipótesis del marcado f Teoría de la facilitación del aprendizaje según la cual la presen-
tación de una clave después de una respuesta de elección marca esta respuesta en la memoria
del animal.
imitación f Reproducción de una conducta observada en otro individuo.
impulso m Estado del organismo que corresponde a un desequilibrio biológico.
infraigualación f Tasa de respuesta para el mejor de dos programas de reforzamiento

inferior a la que predice la ley de la igualación.
ley de la igualación f Enunciado matemático que describe la relación entre la tasa de

respuesta y la tasa de reforzamiento.
maximización f Teoría de la igualación que afirma que la conducta de la igualación se

produce porque el animal pretende obtener el máximo de reforzadores.
mejoramiento m Teoría de la igualación que afirma que la conducta de la igualación se

produce porque el animal elige continuamente la opción con la tasa de reforzamiento más
grande en un momento dado.
moldeamiento m Procedimiento para fortalecer una respuesta instrumental por medio

de reforzar aproximaciones sucesivas a la respuesta criterio final.
pausa postreforzamiento f Período posterior al reforzamiento en el que el individuo

deja de responder. Se observa en los programas de reforzamiento de razón y de intervalo fijos.
programa de reforzamiento de intervalo fijo (IF) m Programa de reforzamiento

intermitente en el que el sujeto recibe la recompensa por responder después de un período
determinado de tiempo.
programa de reforzamiento de intervalo variable (IV) m Programa de reforzamien-

to intermitente en el que el sujeto recibe la recompensa por responder después de un período
de tiempo que varía de un reforzador a otro.
programa de reforzamiento de razón fija (RF) m Programa de reforzamiento inter-

mitente en el que el sujeto recibe la recompensa por responder un determinado número de
veces.
programa de reforzamiento de razón variable (RV) m Programa de reforzamiento

intermitente en el que el sujeto recibe la recompensa por responder un determinado número
de veces, que varía entre un reforzador y el siguiente.
programa de reforzamiento continuo m Programa de reforzamiento en el que la con-

secuencia se presenta cada vez que se ejecuta la respuesta.
programa de reforzamiento parcial o intermitente m Programa de reforzamiento

en el que la consecuencia no se presenta cada vez que se ejecuta la respuesta.
punto de deleite m Combinación preferida de dos actividades.
reforzador m Estímulo que, contingente a la respuesta, hace que incremente la tasa de

la respuesta.
reforzador condicionado (secundario) m Estímulo inicialmente neutro que por su

emparejamiento con un reforzador primario adquiere la propiedad de reforzar una conducta.
reforzamiento negativo m Procedimiento del condicionamiento instrumental en el que

una respuesta elimina o impide la presentación de un estímulo aversivo.
reforzamiento positivo m Procedimiento de condicionamiento instrumental en el que

la respuesta va seguida por la presentación de un estímulo apetitivo.
sobreigualación f Tasa de respuesta para el mejor de dos programas de reforzamiento

superior a la que predice la ley de la igualación.
Qué deberíais saber
Después de estudiar el módulo de condicionamiento instrumental, deberíais

conocer los métodos de operante libre y de ensayos discretos utilizados en la
investigación sobre condicionamiento instrumental. También es importante
que se recuerde todo lo relacionado con reforzamiento positivo y el reforza-
miento negativo, así como el castigo y el entrenamiento por omisión. Hay que
conocer también los efectos que tiene la demora en el reforzamiento sobre el
aprendizaje instrumental. Relacionado con este último punto, es conveniente
conocer la importancia de la contingencia entre respuesta y reforzador.
Con respecto a los programas de reforzamiento, es necesario saber los efectos

que tienen sobre la conducta en lo referente a la tasa y la estabilidad de la
misma. En cuanto a la ley de la igualación, se debe conocer su formulación y
las teorías que lo explican. También es interesante poder distinguir entre los
programas concurrentes y los programas concurrentes encadenados.
En relación con las teorías sobre el condicionamiento hay que tener conoci-
miento de las diferentes asociaciones que se producen entre los estímulos dis-
criminativos, las respuestas y las consecuencias. También es útil saber las teo-
rías sobre la regulación de la conducta.
En cuanto al control por el estímulo, hay que saber qué es la discriminación y

la generalización, saber interpretar un gradiente de generalización y qué fac-
tores pueden determinar su forma. Hay que tener conocimientos sobre el des-
plazamiento del máximo y cómo se interpreta desde las perspectivas absolutas
y relacionales.
En lo referente al aprendizaje observacional, es necesario conocer las bases de

la conducta imitativa y las teorías propuestas para explicarla. Es importante
saber diferenciar entre la conducta imitativa como respuesta instrumental y el
punto de vista de Bandura. A partir de esta última teoría hay que conocer los
diferentes procesos implicados en el aprendizaje por observación y los factores
relacionados con el modelo y el aprendiz que influyen en el aprendizaje por
observación.
Bibliografía
Bibliografía recomendada
Alloway, T., Wilson, G., y Graham, J. Sniffy (2006). La rata virtual. Madrid: Thompson.
Dickinson, A. (1984). Teorías actuales del aprendizaje animal. (Original inglés de 1980). Madrid:
Editorial Debate.
Domjan, M. (2003). Principios de aprendizaje y conducta. (Original inglés de 2003) Madrid:

Thomson.
Froufe, M. (2004). Aprendizaje asociativo. Madrid: Thompson.
Mackintosh, N. J. (1988). Condicionamiento y aprendizaje asociativo. (Original inglés de 1983).

Madrid: Alhambra Universidad.
Maldonado, A. (1998). Aprendizaje, cognición y comportamiento humano. Madrid: Biblioteca

Nueva.
Pearce, J. M. (1998). Aprendizaje y cognición. (Original inglés de 1997). Barcelona: Ariel.
Pellón, R. y Huidobro, A. (Ed.). (2004). Inteligencia y aprendizaje. Barcelona: Ariel.
Tarpy, R. M. (2000). Aprendizaje: Teoría e investigación contemporáneas. (Original inglés de

1997). Madrid: McGraw-Hill.
Referencias bibliográficas
Abramovitch, R. y Grusec, J. E. (1978). Peer imitation in a natural setting. Child Dev., 03;
49 (1), 60-65.
Alberts, E. y Ehrenfreund, D. (1951). Transposition in children as a function of age. J. Exp.

Psychol., 01; 41 (1), 30-38.
Allison, J. (1989). The nature of reinforcement. En S. B. Klein y R. R. Mowrer (Ed.), Contem-

porary learning theories: Instrumental conditioning theory and the impact of biological constraints
on learning. Hillsdale, NJ, England: Lawrence Erlbaum Associates, Inc., 13-39.
Alloway, T., Wilson, G., y Graham, J. Sniffy (2006). La rata virtual. Madrid: Thompson.
Amsel, A. (1992). Frustration theory: An analysis of dispositional learning and memory. Nueva
York, NY, US: Cambridge University Press.
Anisfeld, M. (1991). Neonatal imitation. Developmental Review, 03; 11 (1), 60-97.
Artigas, A. A., Sansa, J., Blair, C. A. J., Hall, G., y Prados, J. (2006). Enhanced discrimination
between flavor stimuli: Roles of salience modulation and inhibition. J. Exp. Psychol.: Anim.
Behav. Processes, 04; 32 (2), 173-177.
Artigas, A. A., Sansa, J., y Prados, J. (2006). The espinet and the perceptual learning effects
in flavour aversion conditioning: do they depend on a common inhibitory mechanism? The
Quarterly Journal of Experimental Psychology, 59: 471-481.
Azrin, N. H. y Holz, W. C. (1966). Punishment. En W. K. Honig (Ed.), Operant behavior: Areas

of research and application. Englewood Cliffs, NJ: Prentice-Hall.
Azrin, N. H., Holz, W. C., y Hake, D. F. (1963). Fixed-ratio punishment. J. Exp. Anal. Behav.,
6 (2), 141-148.
Azrin, N. H., Hutchinson, R. R., y Hake, D. F. (1966). Extinction-induced aggression. J. Exp.

Anal. Behav., 9 (3), 191-204.
Azrin, N. H. (1969). Effects of punishment intensity during variable-interval reinforcement.

J. Exp. Anal. Behav., 3: 123-142.
Azrin, N. H. (1956). Some effects of two intermittent schedules of immediate and non-
immediate punishment. Journal of Psychology: Interdisciplinary and Applied, 42: 3-21.
Baer, D. M., Peterson, R. F., y Sherman, J. A. (1967). The Development of Imitation by Rein-
forcing Behavioral Similarity to a Model. J. Exp. Anal. Behav., 10 (5), 405-416.
Balaban, M. T., Rhodes, D. L., y Neuringer, A. (1990). Orienting and defense responses to
punishment: Effects on learning. Biol.Psychol., 06; 30 (3), 203-217.
Baldwin, J. M. (1906). Mental development, methods, and processes. Nueva York: Macmillian.
Bandura, A. y Huston, A. C. (1961). Identification as a process of incidental learning. The

Journal of Abnormal and Social Psychology, 09; 63 (2), 311-318.
Bandura, A. (1986). Social foundations of thought and action: A social cognitive theory. Englewood
Cliffs, NJ, US: Prentice-Hall, Inc.
Bandura, A. (1969). Principles of behavior modification. Oxford, England: Holt, Rinehart, &
Winston.
Bandura, A. (1965). Influence of models' reinforcement contingencies on the acquisition of

imitative responses. J. Pers. Soc. Psychol., 06; 1 (6), 589-595.
Bandura, A. (1962). Social learning through imitation. En M. R. Jones (Ed.), Nebraska Sym-
posium on Motivation. Oxford, England: Univer. Nebraska Press, 211-274.
Bandura, A. y McDonald, F. J. (1963). Influence of social reinforcement and the behavior of

models in shaping children's moral judgment. The Journal of Abnormal and Social Psychology,
09; 67 (3), 274-281.
Bandura, A. y Walters, R. H. (1963). Social learning and personality development. Holt Rinehart
and Winston: Nueva York.
Baron, A. y Herpolsheimer, L. R. (1999). Averaging effects in the study of fixed-ratio response

patterns. J. Exp. Anal. Behav., 03; 71 (2), 145-153.
Baum, W. M. (1974). On two types of deviation from the matching law: Bias and undermat-
ching. J. Exp. Anal. Behav., 07; 22 (1), 231-242.
Breland, K. y Breland, M. (1961). The misbehavior of organisms. Am. Psychol., 11; 16 (11),
681-684.
Bullock, D. y Neuringer, A. (1977). Social learning by following: An analysis. J. Exp. Anal.

Behav., 01; 27 (1), 127-135.
Burnstein, E., Stotland, E., y Zander, A. (1961). Similarity to a model and self-evaluation.
The Journal of Abnormal and Social Psychology, 03; 62 (2), 257-264.
Capaldi, E. J. (1967). A sequential hypothesis of instrumental learning. En K. W. Spence y J.

T. Spence (Ed.), The psychology of learning and motivation: I. Oxford, England: Academic Press.
Capaldi, E. J. (1966). Partial reinforcement: A hypothesis of sequential effects. Psychol. Rev.,

09; 73 (5), 459-477.
Chatlosh, D. L., Neunaber, D. J., y Wasserman, E. A. (1985). Response-outcome contingency:

Behavioral and judgmental effects of appetitive and aversive outcomes with college students.
Learn. Motiv., 02; 16 (1), 1-34.
Colwill, R. M. y Rescorla, R. A. (1988). Associations between the discriminative stimulus

and the reinforcer in instrumental learning. J. Exp. Psychol.: Anim. Behav. Processes, 04; 14
(2), 155-164.
Colwill, R. M. y Rescorla, R. A. (1985). Postconditioning devaluation of a reinforcer affects

instrumental responding. J. Exp. Psychol.: Anim. Behav. Processes, 01; 11 (1), 120-132.
Crespi, L. P. (1942). Quantitative variation of incentive and performance in the white rat.
Am. J. Psychol., 55: 467-517.
Davidson, E. S. y Smith, W. P. (1982). Imitation, social comparison, and self-reward. Child

Dev., 08; 53 (4), 928-932.
Dickinson, A., Watt, A., Griffiths, W. J. (1992). Free-operant acquisition with delayed rein-
forcement. The Quarterly Journal of Experimental Psychology B: Comparative and Physiological
Psychology, 10; 45 (3), 241-258.
Dinsmoor, J. A. (1977). Escape, avoidance, punishment: Where do we stand? J. Exp. Anal.

Behav., 07; 28 (1), 83-95.
Dinsmoor, J. A. (1955). Punishment: Ii. an Interpretation of Empirical Findings. Psychol. Rev.,

03; 62 (2), 96-105.
Dinsmoor, J. A. (1954). Punishment: I. The avoidance hypothesis. Psychol. Rev., 01; 61 (1),
34-46.
Espinet, A., Iraola, J. A., Bennett, C. H., y Mackintosh, N. J. (1995). Inhibitory association
between neutral stimuli in flavor- aversion conditioning. Anim. Learn. Behav., 11; 23 (4),
361-368.
Fisher, J. y Hinde, C. A. (1947). The opening of milk bottles by birds. British Birds, 42: 347-357.
Flaherty, C. F. (1996). Incentive relativity. Nueva York, NY, US: Cambridge University Press.
Flora, S. R. y Pavlik, W. B. (1990). Conventional and reversed partial reinforcement effects

in human operant responding. Bulletin of the Psychonomic Society, 09; 28 (5), 429-432.
Gibbon, J. y Church, R. M. (1992). Comparison of variance and covariance patterns in pa-

rallel and serial theories of timing. J. Exp. Anal. Behav., 05; 57 (3), 393-406.
Gibson, E. J. (1969). Principles of perceptual learning and development. East Norwalk, CT, US:
Appleton-Century-Crofts.
Gibson, E. J. y Walk, R. D. (1956). The effect of prolonged exposure to visually presented

patterns on learning to discriminate them. J. Comp. Physiol. Psychol., 06; 49 (3), 239-242.
Gonzalez, R. C. y Gentry, G. V. (1954). Bitterman ME. Relational discrimination of interme-

diate size in the chimpanzee. J. Comp. Physiol. Psychol., 1954 10; 47 (5), 385-388.
Gulliksen, H. (1932). Studies of transfer of response: I. Relative versus absolute factors in the
discrimination of size by the white rat. Journal of Genetic Psychology, 40: 37-51.
Guttman, N. y Kalish, H. I. (1956). Discriminability and stimulus generalization. J. Exp.

Psychol., 01; 51 (1), 79-88.
Hall, G. (2003). Learned changes in the sensitivity of stimulus representations: Associative

and nonassociative mechanisms. The Quarterly Journal of Experimental Psychology B: Compa-
rative and Physiological Psychology, 56B (1), 43-55.
Hammond, L. J. (1980). The effect of contingency upon the appetitive conditioning of free-
operant behavior. J. Exp. Anal. Behav., 11; 34 (3), 297-304.
Hanson, H. M. (1959). Effects of discrimination training on stimulus generalization. J. Exp.

Psychol., 11; 58 (5), 321-334.
Harnick, F. S. (1978). The relationship between ability level and task difficulty in producing
imitation in infants. Child Dev., 03; 49 (1), 209-212.
Hendry, D. P. y Van-Toller, C. (1964). Fixed-ratio punishment with continuous reinforce-

ment. J. Exp. Anal. Behav., 7 (4), 293-300.
Herrnstein, R. J. (1969). Method and theory in the study of avoidance. Psychol. Rev., 01; 76
(1), 49-69.
Herrnstein, R. J. (1961). Relative and absolute strength of response as a function of frequency

of reinforcement. J. Exp. Anal. Behav., 4: 267-272.
Herrnstein, R. J. y Hineline, P. N. (1966). Negative reinforcement as shock-frequency reduc-

tion. J. Exp. Anal. Behav., 9 (4), 421-430.
Hogan, D. E. (1986). Observational learning of a conditional hue discrimination in pigeons.

Learn. Motiv., 02; 17 (1), 40-58.
Holz, W. C. y Azrin, N. H. (1961). Discriminative properties of punishment. J. Exp. Anal.

Behav., 4: 225-232.
Honig, W. K., Boneau, C. A., Burstein, K. R. y Pennypacker, H. S. (1963). Positive and nega-
tive generalization gradients obtained after equivalent training conditions. J. Comp. Physiol.
Psychol., 02; 56 (1), 111-116.
Hull, C. L. (1952). A behavior system: an introduction to behavior theory concerning the individual
organism. New Haven, CT, US: Yale University Press.
Hull, C. L. (1943). Principles of behavior: an introduction to behavior theory. Oxford, England:

Appleton-Century.
Hull, C. L. (1934). Learning: II. The factor of the conditioned reflex. A Handbook of General Expe-
rimental Psychology. Worcester, MA, US: Clark University Press, 382-455.
Hutt, P. J. (1954). Rate of bar pressing as a function of quality and quantity of food reward.
J. Comp. Physiol. Psychol., 06; 47 (3), 235-239.
Jakubczak, L. F. y Walters, R. H. (1959). Suggestibility as dependency behavior. The Journal

of Abnormal and Social Psychology, 07; 59 (1), 102-107.
James, W. (1890). Association. En W. James (Ed.), The principles of psychology, Vol I. Nueva
York, NY, US: Henry Holt and Co., 550-604.
Jenkins, H. M. (1977). Sensitivity of different response systems to stimulus-reinforcer and

response-reinforcer relations. En H. Davis y H. M. B. Hurwitz (Ed.), Operant-Pavlovian inter-
actions. Hillsdale, NJ: Erlbaum.
Jenkins, H. M. y Harrison, R. H. (1962). Generalization gradients of inhibition following

auditory discrimination learning. J. Exp. Anal. Behav., 5 (4), 435-441.
Kawai, M. (1965). Newly acquired pre-cultural behavior of the natural troop of Japanese
monkeys on Koshima islet. Primates, 6: 1-30.
Klass, E. T. (1979). Relative influence of sincere, insincere, and neutral symbolic models. J.
Exp. Child Psychol., 02; 27 (1), 48-59.
Köhler, W. (1939). Simple structural function in the chimpanzee and the chicken. En W. D.
Ellis (Ed.), A source book of gestalt psychology. Nueva York: Harcourt Brace.
Kozlowski, L. T. (1979). Psychosocial influences on cigarette smoking. En N. A. Krasnegor

(Ed.), The behavioral influences on cigarette smoking. NIDA Research Monograph 26. DHEW Pu-
blication No. (ADM) 79-882.
Kuhn, D. (1974). Inducing development experimentally: Comments on a research paradigm.

Developmental Psychology,10: 590-600.
Lashley, K. S. (1924). Studies of the cerebral functionin learning: V. The retention of motor
habits after destruction of so-called motor areas in primates. Archives of Neurology and Psy-
chiatry, 12: 249-276.
Lashley, K. S. y Wade, M. (1946). The Pavlovian theory of generalization. Psychol. Rev., 03;
53 (2), 72-87.
Lawrence, D. H. (1949). Acquired distinctiveness of cues: I. Transfer between discriminations

on the basis of familiarity with the stimulus. J. Exp. Psychol., 12; 39 (6), 770-784.
Lawrence, D. H. y Derivera, J. (1954). Evidence for Relational Transposition. J. Comp. Physiol.

Psychol., 12; 47 (6), 465-471.
Lieberman, D. A., McIntosh, D. C., y Thomas, G. V. (1979). Learning when reward is delayed:
A marking hypothesis. J. Exp. Psychol.: Anim. Behav. Processes, 07; 5 (3), 224-242.
Logue, A. W. (1998). Laboratory research on self-control: Applications to administration.

Review of General Psychology, 06; 2 (2), 221-238.
Mackintosh, N. J. (1983). Conditioning and associative learning. Oxford: Oxford University

Press.
Mackintosh, N. J. y Little, L. (1969). Intradimensional and extradimensional shift learning

by pigeons. Psychonomic Science, 14 (1), 5-6.
Mazur, J. E. (1987). An adjusting procedure for studying delayed reinforcement. En M. L.

Commons, J. E. Mazur, J. A. Nevin y H. Rachlin (Ed.), The effect of delay and of intervening
events on reinforcement value. Hillsdale, NJ, England: Lawrence Erlbaum Associates, Inc, 55-73.
McAllister, W. R. y McAllister, D. E. (1992). Fear determines the effectiveness of a feedback

stimulus in aversively motivated instrumental learning. Learn. Motiv., 02; 23 (1), 99-115.
McCullagh, P. (1986). Model status as a determinant of observational learning and perfor-

mance. Journal of Sport Psychology, 12; 8 (4), 319-331.
McDougall, W. (1908). An Introduction to Social Psychology. Nueva York, NY, US: Methuen.
McLaren, I. P. L. y Mackintosh, N. J. (2000). An elemental model of associative learning: I.

Latent inhibition and perceptual learning. Anim. Learn. Behav., 08; 28 (3), 211-246.
McLaren, I. P. L., Kaye, H., y Mackintosh, N. J. (1989). An associative theory of the repre-
sentation of stimuli: Applications to perceptual learning and latent inhibition. En R. G. M.
Morris (Ed.), Parallel distributed processing: Implications for psychology and neurobiology. Nueva
York, NY, US: Clarendon Press/Oxford University Press, 102-130.
Meltzoff, A. N. y Moore, M. K. (1989). Imitation in newborn infants: Exploring the range of

gestures imitated and the underlying mechanisms. Dev. Psychol., 11; 25 (6), 954-962.
Meltzoff, A. N. y Moore, M. K. (1983). Newborn infants imitate adult facial gestures. Child
Dev., 06; 54 (3), 702-709.
Meltzoff, A. N. y Moore, M. K. Imitation of facial and manual gestures by human

neonates. Science, 10; 198
Miller, N. E. y Dollard, J. (1941). Social learning and imitation. New Haven, CT, US: Yale Uni-
versity Press.
Mineka, S., Cook, M., y Miller, S. (1984). Fear conditioned with escapable and inescapa-
ble shock: Effects of a feedback stimulus. J. Exp. Psychol.: Anim. Behav. Processes, 07; 10 (3),
307-323.
Mischel, W. y Grusec, J. (1966). Determinants of the rehearsal and transmission of neutral

and aversive behaviors. J. Pers. Soc. Psychol., 02; 3 (2), 197-205.
Morgan, C. L. (1896). Habit and Instinct. E. Arnold: Nueva York.
Morgan, C. L. (1894). An introduction to comparative psychology. Londres, England: Walter

Scott.
Mowrer, O. H. y Jones, H. (1945). Habit strength as a function of the pattern of reinforce-

ment. J. Exp. Psychol., 08; 35 (4), 293-311.
Mowrer, O. H. (1947). On the dual nature of learning--a re-interpretation of 'conditioning'

and 'problem-solving.'. Harvard Educational Review, 17, 102-148.
Nation, J. R. y Cooney, J. B. (1982). The time course of extinction-induced aggressive beha-

vior in humans: Evidence for a stage model of extinction. Learn. Motiv., 02; 13 (1), 95-112.
Neuringer, A., Kornell, N., y Olufs, M. (2001). Stability and variability in extinction. J. Exp.
Psychol.: Anim. Behav. Processes, 01; 27 (1), 79-94.
Nevin, J. A. (1999). Analyzing Thorndike's Law of Effect: The question of stimulus-response

bonds. J. Exp. Anal. Behav., 11; 72 (3), 447-450.
Nevin, J. A. (1988). Behavioral momentum and the partial reinforcement effect. Psychol.
Bull., 01; 103 (1), 44-56.
O'Leary, D. E., O'Leary, M. R., y Donovan, D. M. (1976). Social skill acquisition and psycho-
social development of alcoholics: A review. Addict. Behav., 1 (2), 111-120.
Page, H. A. y Hall, J. F. (1953). Experimental extinction as a function of the prevention of a

response. J. Comp. Physiol. Psychol., 02; 46 (1), 33-34.
Page, S. y Neuringer. A. (1985). Variability is an operant. J. Exp. Psychol.: Anim. Behav. Pro-
cesses, 07; 11 (3), 429-452.
Pearce, J. M. y Hall, G. (1978). Overshadowing the instrumental conditioning of a lever-press

response by a more valid predictor of the reinforcer. J. Exp. Psychol.: Anim. Behav. Processes,10;
4 (4), 356-367.
Piaget, J. (1932). The moral judgment of the child. Oxford, England: Harcourt, Brace.
Piaget, J. (1929). The child's conception of the world. Oxford, England: Harcourt, Brace.
Piaget, J. (1926). The language and thought of the child. Oxford, England: Harcourt, Brace.
Premack, D. (1959). Toward empirical behavior laws: I. Positive reinforcement. Psychol. Rev.,
07; 66 (4), 219-233.
Rachlin, H. y Green, L. (1972). Commitment, choice and self-control. J. Exp. Anal. Behav.,
01; 17 (1), 15-22.
Rachlin, H. y Herrnstein, R. J. (1969). Hedonism revisited: On the negative law of effect.

En B. A. Campbell y R. M. Church (Ed.), Punishment and aversive behavior. Nueva York: Ap-
pleton-Century-Crofts.
Raia, C. P., Shillingford, S. W., Miller, H. L. J., y Baier, P. S. (2000). Interaction of procedural
factors in human performance on yoked schedules. J. Exp. Anal. Behav., 11; 74 (3), 265-281.
Reed, P. (1999). Role of a stimulus filling an action-outcome delay in human judgments of

causal effectiveness. J. Exp. Psychol.: Anim. Behav. Processes, 01; 25 (1), 92-102.
Rescorla, R. A. (1991). Associative relations in instrumental learning: The Eighteenth Bartlett

Memorial Lecture. The Quarterly Journal of Experimental Psychology B: Comparative and Physio-
logical Psychology, 02; 43 (1), 1-23.
Rescorla, R. A. (1990). Evidence for an association between the discriminative stimulus and
the response-outcome association in instrumental learning. J. Exp. Psychol.: Anim. Behav. Pro-
cesses, 10; 16 (4), 326-334.
Rescorla, R. A. (1968). Probability of Shock in the Presence and Absence of Cs in Fear Con-
ditioning. J. Comp. Physiol. Psychol., 08; 66 (1), 1-5.
Rescorla, R. A. (1967). Pavlovian Conditioning and its Proper Control Procedures. Psychol.
Rev., 01; 74 (1), 71-80.
Rescorla, R. A. y Lolordo, V. M. (1965). Inhibition of avoidance behavior. J. Comp. Physiol.

Psychol., 06; 59 (3), 406-412.
Rescorla, R. A. y Wagner, A. R. (1972). A theory of Pavlovian conditioning: Variations in the

effectiveness of reinforcement and nonreinforcement. En A. H. Black y W. F. Prokasy (Ed.),
Classical conditioning II: Current research and theory. Nueva York: Appleton-Century-Crofts.
Reynolds, G. S. (1975). A primer of operant conditioning. (Rev ed). Oxford, England: Scott,
Foresman.
Reynolds, G. S. (1961). Attention in the pigeon. J. Exp. Anal. Behav., 4, 203-208.
Rivera, D. M. y Smith, D. D. (1987). Influence of modeling on acquisition and generalization

of computational skills: A summary of research findings from three sites. Learning Disability
Quarterly, 10 (1), 69-80.
Robert, M. (1990). Observational learning in fish, birds, and mammals: A classified biblio-
graphy spanning over 100 years of research. Psychol. Rec., 40 (2), 289-311.
Roberts, M. C., Boone, R. R. y Wurtele, S. K. (1982). Response uncertainty and imitation:

Effects of pre-experience and vicarious consequences. British Journal of Social Psychology, 09;
21 (3), 223-230.
Rosenthal, T. L. y Zimmerman, B. J. (1972). Modeling by exemplification and instruction in

training conservation. Dev. Psychol., 05; 6 (3), 392-401.
Rosenthal, T. L. y Zimmerman, B. J. (1978). Social learning and cognition. Nueva York: Acade-
mic Press.
Schuster, R. y Rachlin, H. (1968). Indifference between punishment and free shock: Evidence
for the negative law of effect. J. Exp. Anal. Behav., 11 (6), 777-786.
Seligman, M. E. y Johnston, J. C. (1973). A cognitive theory of avoidance learning. En F.

J. McGuigan y D. B. Lumsden (Ed.), Contemporary approaches to conditioning and learning.
Oxford, England: V. H. Winston & Sons.
Sidman, M. (1953). Two temporal parameters of the maintenance of avoidance behavior by

the white rat. J. Comp. Physiol. Psychol., 08; 46 (4), 253-261.
Skinner, B. F. (1938). The behavior of organisms: an experimental analysis. Oxford, England:

Appleton-Century.
Solomon, R. L. y Corbit, J. D. (1974). An opponent-process theory of motivation: I. Temporal

dynamics of affect. Psychol. Rev., 03; 81 (2), 119-145.
Solomon, R. L. y Wynne, L. C. (1953). Traumatic avoidance learning: acquisition in normal

dogs. Psychol. Monogr., 67 (4), 19-19.
Spence, K. W. (1936). The nature of discrimination learning in animals. Psychol. Rev., 09;
43 (5), 427-449.
Sutherland, N. S. y Mackintosh, N. J. (1971). Mechanisms of animal discrimination learning.

Nueva York: Academic Press.
Symonds, M, y Hall, G. (1995). Perceptual learning in flavor aversion learning: Roles of

stimulus comparison and latent inhibition of common elements. Learning and Motivation,
26, 203-219.
Thelen, M. H., Dollinger, S. J., y Kirkland, K. D. (1979). Imitation and response certainty.
Journal of Genetic Psychology, 09; 135 (1), 139-152.
Thelen, M. H., Paul, S. C., Dollinger, S. J., y Roberts, M. C. (1978). Response uncertainty and
imitation: The interactive effects of age and task options. Journal of Research in Personality,
09; 12 (3), 370-380.
Thomas, D. R. (1993). A model for adaptation-level effects on stimulus generalization. Psy-

chol. Rev., 10; 100 (4), 658-673.
Thomas, D. R. y Jones, C. G. (1962). Stimulus generalization as a function of the frame of

reference. J. Exp. Psychol., 07; 64 (1), 77-80.
Thomas, D. R., Mood, K., Morrison, S., y Wiertelak. E. (1991). Peak shift revisited: A test of
alternative interpretations. J. Exp. Psychol.: Anim. Behav. Processes, 04; 17 (2), 130-140.
Thorndike, E. L. (1911). Animal Intelligence. Experimental Studies. Oxford, England: Macmillan.
Thorndike, E. L. (1898). Animal intelligence: An experimental study of the associative pro-

cesses in animals. Psychol. Monogr., 06; 2 (4), 1-109.
Thorpe, W. H. (1963). Learning and instinct in animals (2.ª edición). Londres: Methuen.
Timberlake, W. y Allison, J. (1974). Response deprivation: An empirical approach to instru-

mental performance. Psychol. Rev., 03; 81 (2), 146-164.
Tomie, A., Carelli, R. y Wagner, G. C. (1993). Negative correlation between tone (S) and
water increases target biting during S in rats. Anim. Learn. Behav., 11; 21 (4), 355-359.
Trobalon, J. B., Sansa. J., Chamizo, V. D., y Mackintosh, N. J. (1991). Perceptual learning
in maze discriminations. The Quarterly Journal of Experimental Psychology B: Comparative and
Physiological Psychology, 11; 43 (4), 389-402.
Ulrich, R. E. y Azrin, N. H. (1962). Reflexive fighting in response to aversive stimulation. J.

Exp. Anal. Behav., 5 (4), 511-520.
Warden, C. J., Fjeld, H. A., y Koch, A. M. (1940). Imitative behavior in cebus and rhesus
monkeys. Journal of Genetic Psychology, 56: 311-322.
Weisman, R. G. y Litner, J. S. (1969). Positive conditioned reinforcement of Sidman avoi-

dance behavior in rats. J. Comp. Physiol. Psychol., 08; 68 (4), 597-603.
Williams, B. A. (1975). The blocking of reinforcement control. J. Exp. Anal. Behav., 09; 24
(2), 215-226.
Wyrwicka, W. (1978). Imitation of mother's inappropriate food preference in weanling kit-

tens. Pavlov. J. Biol. Sci., 13 (2), 55-72.
Zimmerman, B. J. y Blom, D. E. (1983). Toward an empirical test of the role of cognitive

conflict in learning. Developmental Review, 03; 3 (1), 18-38.

Módulo 3 - Psicología Del Aprendizaje

Cargado por

Copyright:

Formatos disponibles

Módulo 3 - Psicología Del Aprendizaje

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Módulo 3 - Psicología Del Aprendizaje

Cargado por

Copyright:

Formatos disponibles

Condicionamiento

Joan Sansa i Aguilar

Tiempo mínimo de dedicación recomendado: 11 horas

Joan Sansa i Aguilar

Doctor en Psicología por la Univer-

La revisión de este recurso de aprendizaje UOC ha sido coordinada

Cuarta edición: febrero 2020

1. Definición de condicionamiento instrumental......................... 7

2. Preparaciones experimentales: ensayos discretos y

3. Procedimientos de condicionamiento instrumental................ 17

4. Elementos del condicionamiento operante................................ 20

6. Extinción de la respuesta instrumental...................................... 56

8. Teorías del condicionamiento instrumental.............................. 73

8.1.1. Asociaciones E-R ............................................................ 74

10. Aprendizaje por observación.......................................................... 106

Ejercicios de autoevaluación.................................................................. 121

Qué deberíais saber................................................................................... 128

El objetivo de este módulo es proporcionar a los estudiantes conocimientos

A lo largo del módulo se presentarán procedimientos, fenómenos y teorías re-

En el apartado de generalización y discriminación, nos centraremos en aque-

Es crucial, por lo tanto, que la respuesta no se produzca exclusivamente en

Finalmente, el módulo dedica un último apartado al aprendizaje por observa-

1. Definición de condicionamiento instrumental

1.1. La conducta emergente o voluntaria. El hedonismo como

Un ejemplo simple servirá para ilustrar esta situación:

Si entramos en una habitación que está a oscuras, podemos manipular el interruptor

Podemos decir que nuestra conducta es el instrumento que nos permite

Un análisis más detallado de la situación mencionada nos permite darnos

Por lo tanto, la conducta instrumental puede encajar perfectamente en lo que

Descartes diferenció entre la conducta involuntaria y la conducta voluntaria.

No obstante, existe una explicación alternativa de la conducta voluntaria que

Volvamos al ejemplo que nos ocupa. Si al entrar en la habitación a oscuras

Así pues, la conducta voluntaria vendría determinada por las conse-

De hecho, y como veremos a continuación, los procedimientos de condiciona-

1.2. Comparación entre condicionamiento clásico e instrumental

Ya hemos apuntado las diferencias entre el condicionamiento clásico y el con-

La idea básica es que dos acontecimientos que se presentan contiguos en el

son aplicables a los dos tipos de condicionamiento. En todo caso, la diferen-

• En el condicionamiento�clásico los acontecimientos que quedan asocia-

• En cambio, en el condicionamiento�instrumental los acontecimientos

Como consecuencia de estas características, el condicionamiento clásico nos

El primer investigador formalmente aceptado dedicado al estudio del condi-

finamiento y acceder a un bol lleno de comida que se encontraba en el exte-

No es de extrañar que en los primeros ensayos agotara todo el tiempo (por

De hecho, los animales realizaban muchas conductas, la mayoría de las cuales

2. Preparaciones experimentales: ensayos discretos y

2.1. Ensayos discretos

En el procedimiento experimental de Thorndike, el animal quedaba encerrado

La tarea de ensayo discreto más utilizada es la del laberinto. A comienzos del

El laberinto en forma de T (podéis ver la figura anterior, a) está diseñado para

En los laberintos se pueden medir varias variables. En el pasillo se suele calcu-

2.2. Operante libre

Todo este patrón de conducta será un operante, ya que tiene la propiedad de

La caja de condicionamiento consta de un espacio en el que se sitúa al animal.

Esquema de una caja de condicionamiento o caja de Skinner

La preparación del operante libre nos permite estudiar la conducta dentro de

La tasa de respuesta es la frecuencia con la que la conducta aparece por

La manera más habitual de medir la tasa de respuesta es el registro�acumula-

Un registro acumulativo es un modo de representar la forma de repetirse