Condicionamiento Operante
Condicionamiento Operante
Condicionamiento Operante
1.- Introducción
Los mecanismos que hemos estudiado hasta ahora permiten a un organismo aprender acerca de
aspectos de su entorno que no resultan controlables. El CO permite a un organismo aprender a
controlar ciertos aspectos del medio mediante su conducta.
1.1.- Antecedentes
1.1.1.- Thorndike:
A partir de esta clase de estudios, Thorndike formula en 1911 la Ley del Efecto:
Si una respuesta en una situación estimular dada es seguida por un suceso satisfactorio o
placentero, la relación entre la situación y la respuesta se fortalece, de forma que el
organismo tendrá más tendencia a dar esa respuesta en esa situación. Si por el contrario va
seguida de un suceso nocivo o desagradable, la respuesta tenderá a no darse.
Desde el punto de vista del conductismo watsoniano, la anterior formulación resultaba muy
inadecuada, ya que se basa en estados internos del organismo ("satisfactorio", "desagradable",
etc.) inobservables y dudosos. Por otra parte, el intento de Thorndike de definir los “estados
satisfactorios” como aquellos que el organismo no hacía nada por evitar, etc., incurría en
circularidades que los críticos señalaron en repetidas ocasiones.
1
Esquema Tema 4
1.1.3.- Skinner
En los años 30-40, Skinner, adoptando un marco teórico más amplio, consistente y operativo,
reformula la ley del efecto como "ley de refuerzo":
• Las sesiones no se dividen en ensayos, sino que el O. está en una situación en la que
puede emitir la respuesta en cualquier momento y con cualquier frecuencia.
• Se han mostrado óptimos para el estudio de muchos aspectos generales del C.O.
• El dispositivo más típico es la Caja de Skinner, junto con el registro acumulativo, que
permiten estudiar detalladamente la evolución de la tasa de respuesta bajo las situaciones de
aprendizaje.
El fenómeno nuclear del CO consiste en la implantación de una contingencia entre una respuesta
emitida por un organismo y un suceso ambiental (“consecuente” o “consecuencia”) que sigue
consistentemente a esa respuesta. Como resultado, la probabilidad de la respuesta se ve
sistemáticamente modificada a medida que la situación se repite.
En el caso más sencillo, se sitúa a un organimo en una determinada situación controlada (e.g., en
una caja de Skinner y con cierto grado de privación previa de alimento), y se le suministra como
consecuente (reforzador) una cierta cantidad de comida cada vez que emite una respuesta
concreta y predeterminada por el psicólogo (apretar una palanca, picotear un disco, etc.). Se
comprueba que la frecuencia de la respuesta elegida aumenta sistemáticamente a medida que
transcurre el tiempo (recuérdese que en esta clase de experimentos, de "operante libre", no cabe
2
Esquema Tema 4
hablar de ensayos propiamente dichos, sino que se trata de una situación contínua en la que el
organismo lleva la iniciativa).
1.3.1.- Respuesta
• Un castigo puede también ser positivo (p.ej. aparición de un suceso aversivo) o negativo (no-
aparición o retirada de un suceso apetitivo).
• Asimismo, es importante observar que el refuerzo o el castigo no tienen por qué ser
necesariamente “estímulos” en sentido estricto. Por ejemplo, el permitir o impedir al
organismo realizar determinadas conductas pueden actuar como refuerzos o castigos
respectivamente.
1.3.3.- Contingencia
3
Esquema Tema 4
• Por lo tanto, contingencia significa aquí lo mismo que en CC, sólo que ahora se establece
entre una respuesta y un suceso ambiental, en vez de entre dos sucesos ambientales.
1.3.6.- Adquisición
1.3.7.- Extinción
Los cuatro tipos básicos de condicionamiento operante se producen como resultado del
entrenamiento de un organismo mediante el establecimiento de una contingencia entre una R.
operante y uno de los cuatro consecuentes básicos.
4
Esquema Tema 4
Ejemplo: cada vez que una rata presiona una palanca (R), se le administra como
consecuente un trozo de comida; se puede observar que la rata cada vez presiona más
frecuentemente la palanca
Ejemplo: cada vez que una rata se desplaza al lado opuesto de la jaula (R), como
consecuente se interrumpe una descarga eléctrica que se le estaba aplicando; se puede
observar que la rata cada vez cambia de lado más frecuentemente.
5
Esquema Tema 4
Entrenamiento de R. Disminuye
evitación
Ej. : Si se da R, omitir Se usa estímulo apetitivo
una descarga que se
hubiera dado en caso
contrario.
R aumenta.
Se usa un estímulo
aversivo
3.1.3.- Impulso
6
Esquema Tema 4
Hasta ahora hemos considerado sólo el caso en que la realización por parte del organismo de la
conducta elegida va siempre seguida de la consecuencia establecida (la probabilidad del estímulo
reforzador dada la respuesta operante es igual a 1). Esto (que constituye una contingencia total)
es lo que se denomina refuerzo continuo
El refuerzo contínuo no es la única (ni la más eficaz) alternativa para el aprendizaje por CO; por el
contrario, constituye sólo un caso muy particular. Los casos en que la relación respuesta-
consecuente no es completa (es decir, no cualquier emisión de la respuesta va seguida del
consecuente) se denominan situaciones de refuerzo parcial (. Es fácil ver que el refuerzo parcial
es lo más común en situaciones naturales (ajenas al laboratorio o la clínica).
Un programa de refuerzo es una regla que especifica exactamente bajo qué condiciones la
emisión de la respuesta va a ser seguida del reforzador.
Los programas de reforzamiento son, según muchos autores, una de las variables independientes
más poderosas de la psicología, en el sentido de que conociendo el programa concreto
administrado a un organismo, se pueden predecir confiablemente muchas cosas respecto a la
conducta adquirida.
Esto da lugar a los cuatro tipos de programas básicos: RF-n, IF-n, RV-n e IV-n, donde n es el
valor de la razón o el intervalo (o su promedio, si es un programa variable).
Se administra un estímulo reforzador por cada n respuestas. En un programa RF-10, cada décima
emisión de la R va seguida de una recompensa.
7
Esquema Tema 4
Este programa produce una tasa de respuesta típicamente alta y estable. Si la razón es alta, a
menudo el organismo se toma pausas inmediatamente a continuación de la administración del
reforzador.
RF-10 RF-20
Respuestas Pausas
emitidas
acumuladas
Tiempo -->
Registro acumulativo típico de una rata sometida a entrenamiento de recompensa mediante un
programa RF-10 (izda.) y un programa RF-20 (dcha). Los trazos gruesos y cortos indican los puntos en
que se administró recompensa
Los programas de razón variable son especialmente importantes, ya que (dentro de los simples)
son los que más se aproximan a las situaciones naturales.
Los programas RV generan la tasa de respuestas más alta (lo que se manifiesta en el registro
acumulativo por una gran pendiente) y constante (no aparecen pausas, excepto en el caso de
razones muy grandes).
8
Esquema Tema 4
RV-10 RV-20
Respuestas
emitidas
acumuladas
Tiempo -->
Registro acumulativo típico de una rata sometida a entrenamiento de recompensa mediante un
programa RF-10 (izda.) y un programa RF-20 (dcha). Los trazos gruesos y cortos indican los puntos en
que se administró recompensa
IF-30sg.
Respuestas
emitidas Pocas Rs en el
acumuladas principio del
intervalo
Muchas Rs al
final del
intervalo
Tiempo
Los programas IF producen una tasa de respuesta global más baja que los de razón, y menos
estable debido a las variaciones dentro de cada intervalo.
9
Esquema Tema 4
Los programas de intervalo variable son como los anteriores, sólo que el intervalo oscila en torno
a un valor promedio.
IV-30sg.
Respuestas
emitidas
acumuladas
Tiempo
Dan lugar a una tasa de respuesta moderada que, globalmente, es más o menos igual que la de
IF, pero mucho más estable. Al no ser predecible por el organismo la duración del intervalo, no
hay diferencias locales de tasa de respuesta (el organismo responde a un ritmo sostenido).
Por este motivo, es un programa idóneo para establecer Rs que se van a emplear como línea
base de ulteriores tratamientos o experimentos (en particular, se emplean muy a menudo como
punto de partida para el estudio de condicionamiento clásico mediante supresión condicionada –
ver tema 3).
En líneas generales, cabe formular las siguientes conclusiones sobre los cuatro programas
básicos:
10