Professional Documents
Culture Documents
APRENDIZAJE:
Teora e investigacin
contemporneas
(Segunda parte)
Elaborado por
Presentacin
Los esquemas del presente documento constituyen una sntesis de la segunda parte
del libro Aprendizaje: Teora e investigacin contemporneas, de Roger M. Tarpy, Ed.
McGraw-Hill, Madrid, 2003.
Los apartados se corresponden en general con los captulos del libro original.
Se han omitido algunos contenidos.
TARPY, R. M.
Aprendizaje
Trminos
Estmulos
Respuestas
Extincin
Implica omitir la consecuencia que sigue a la R.
El resultado de este procedimiento es una disminucin en la fuerza de la R, una reduccin gradual en la
ejecucin.
No elimina la R totalmente. Si el animal recibe un intervalo de descanso tras la extincin, se produce una
recuperacin espontnea de la R.
TARPY, R. M.
Tipos de CI
Aprendizaje
C de recompensa
Una R produce un resultado deseable. La probabilidad de R aumenta.
Entrenamiento de omisin
Omisin y
extincin
Castigo
La R instrumental va seguida de un EI.
Cuando se administra un EI a continuacin de una R, las claves ambientales circundantes se vuelven aversivas.
Contingencia La supresin es provocada directamente por el castigo contingente e, indirectamente, por el EC provocador de
miedo. Pero el factor ms importante es la contingencia entre la R y la consecuencia aversiva.
Las conductas alternativas suelen aumentar en frecuencia durante el castigo. Cuando se suprime mediante un
castigo la conducta con mayor prioridad en la jerarqua motivacional orientada a la comida (comer), aumenta la
siguiente conducta con mayor fuerza relacionada con la comida (escarbar en la arena).
Escape y evitacin
Implica la terminacin o no-ocurrencia de un EI aversivo.
En el escape, la R termina un EI
TARPY, R. M.
Aprendizaje
Unidades conductuales
R discreta
frente a
conducta
operante
La mayora de los estudios de aprendizaje instrumental se centran en las reacciones motoras voluntarias.
Una tcnica de R discreta implica una R nica, ejecutada slo en un cierto momento.
La tcnica alternativa implica la R operante libre. El experimentador determina qu comportamiento es correcto,
pero el sujeto determina cundo se realiza la conducta.
Clase de R
Conducta verbal.
Topografa
de R
La variabilidad de los componentes del patrn: puede reforzarse a los sujetos no slo por realizar una
R, sino tambin por hacerlo de forma variable. Si no se refuerza selectivamente la variabilidad, puede
darse un alto grado de estereotipia.
Cmo se instaura una conducta, mediante CI, si el sujeto no la realiza en el momento del entrenamiento?
Una tcnica frecuente es el moldeamiento de R, en el que se refuerzan las aproximaciones sucesivas a la R
criterio final. Si el sujeto muestra dificultades para aprender, se escoge la R anterior de la secuencia.
Contingencia respuesta-reforzador
Es el factor ms importante del CI. La relacin de prediccin diferencial es ms importante que la contigidad,
quiz por la percepcin de causalidad.
El aprendizaje tiene lugar si, y slo si, la presentacin de la recompensa depende de la ejecucin previa de una R.
Experimento: la R de palanca aument a medida que se incrementaba la contingencia entre la presin de la
palanca y la recompensa del agua. Cuando la probabilidad de las recompensas ganadas y gratuitas era la misma,
la R a la palanca disminua de modo espectacular.
TARPY, R. M.
Aprendizaje
Razn
variable RV
El n de R requeridas vara de una recompensa a otra. Viene definido por el n medio de R requeridas.
Tasa media global de R superior a la de otros programas. Suele ser muy estable.
Ejemplo humano: mquinas tragaperras.
Intervalo
fijo IF
Si se dispone de seales externas que ayuden a discriminar el paso del tiempo, se muestra una
aceleracin ms pronunciada de la tasa durante el intervalo.
Administrar una recompensa tras un intervalo fijo, sin exigir respuesta, hace que despus se muestre un
patrn de conducta tpico del IF cuando se exige responder.
Intervalo
variable IV
El intervalo entre periodos de reforzamiento disponible vara. Se define por el tiempo medio entre
reforzamientos.
Tasa R estable pero baja. Aumenta en funcin de la tasa de reforzamiento, y aumenta ligeramente justo antes
de la siguiente recompensa.
Ejemplo humano: pesca.
Comparacin
La tasa de R es superior en los programas de razn, puesto que influye en la recompensa. No parece deberse a la
mayor frecuencia de reforzamiento, sino a la diferencia entre el tiempo entre respuestas (TER).
En los programas de intervalo, cuanto menor es la frecuencia con que responde el animal, ms probable es que se
refuerce la siguiente respuesta, ms prxima al final del intervalo temporal. La recompensa fortalece los valores de
TER contiguos a ella: si el TER es breve (razn), el condicionamiento se generaliza; si el TER es amplio, se
fortalece de forma selectiva. Cuanto ms breve es el valor del TER con que los sujetos deben responder,
mayor es la tasa de R.
Cuando se exige al sujeto seguir los mismos valores de TER no se observa diferencia de tasa entre RV e IV.
Programas complejos
Programas
RDB
Programa de reforzamiento diferencial de tasas bajas de respuesta: el sujeto tiene que refrenar su R hasta que
haya transcurrido un cierto perodo de tiempo. Si la R se produce antes de que haya transcurrido el criterio
temporal, el temporizador se reinicia y el intervalo comienza de nuevo.
Con entrenamiento suficiente, la R llega a ser estable y eficaz. Eficacia inversamente relacionada con la magnitud
del valor de RDB.
Los sujetos se entretienen en conductas colaterales durante el tiempo en que estn inhibiendo la R. Parece
tratarse de una reaccin en cadena: cada R es una parte inherente de una cadena y sirve como seal para la
siguiente R. Para algunos investigadores es la forma que tiene el animal de medir el intervalo; para otros estas
conductas resultan reforzadas porque interfieren con la ejecucin de la R, mejorando la eficacia.
TARPY, R. M.
Programas
combinados
Aprendizaje
Castigo
Escape /
evitacin
El aprendizaje est ms relacionado con la magnitud del reforzador en la velocidad de carrera en callejones que
para la tasa de R en la caja de Skinner.
Cuando el requisito de RF resulta demasiado alto, los sujetos dejan de responder por completo (punto de
ruptura). Con un incentivo mayor, los animales persisten ms tiempo (efecto motivacional de la recompensa),
pero no aprenden mejor la tarea.
Hay que tener en cuenta que la magnitud interacciona con el tipo de programa utilizado. El cambio en la tasa
de conducta en funcin de la magnitud de la recompensa puede ser un subproducto del cambio en la distribucin
de los valores de TER.
Otro factor es si se trata o no de un experimento de economa cerrada (toda la comida se obtendr en la
cmara experimental). En ese caso, los animales mantienen un nivel de consumo constante, independientemente
de la duracin del acceso a la comida: si el acceso es breve, los sujetos responden con mayor rapidez, por lo que
la tasa de R est inversamente relacionada con la magnitud de la recompensa.
Cuanto mayor es la intensidad del castigo, ms parece suprimirse la R. El efecto del castigo en la tasa R puede
ser bastante especfico (por ejemplo, suprimiendo de forma selectiva TER largos).
Cuanto ms fuerte es el EI, mayor es la mejora en la ejecucin de escape (p. ej., ms rpida). Tanto la
consecuencia de la R como el nivel de motivacin inicial resultan afectados por esa intensidad: a mayor descarga
elctrica, ms motivacin y ejecucin ms rpida. La rapidez puede deberse a la motivacin.
En la evitacin los efectos son ms complejos. En general, parece directamente relacionada con la intensidad de la
descarga. Igualmente afecta a la evitacin pasiva, pero slo cuando se trata de reacciones naturales del animal.
Por ejemplo, en la caja de lanzadera, la evitacin est inversamente relacionada con la intensidad de descarga. Ello
se debe a que el condicionamiento comporta dos tendencias contrarias: la reaccin de evitacin en s misma
(alejarse) y la evitacin pasiva (no volver al lugar de la anterior descarga).
Inmediatez de la recompensa
En general, la demora interfiere en el aprendizaje de nuevas conductas, adems de en la ejecucin de R muy
arraigadas.
Entrenamiento de
recompensa
La clave externa funciona como un reforzador en s misma (es como otra recompensa).
TARPY, R. M.
Condicionamiento
aversivo
Aprendizaje
Igual que en el de recompensa, el aprendizaje guarda relacin inversa con la demora, y las claves entre R y
recompensa facilitan tambin el C aversivo.
El efecto de la demora en la administracin de un castigo es una reduccin en el grado de supresin de la R: el
castigo es menos eficaz cuando se demora.
Disminucin
motivacin
El contraste de incentivo respalda este punto de vista, mostrando que la conducta resulta afectada tambin por
la condiciones de recompensa anteriores:
Contraste negativo: cuando se cambia a una magnitud inferior de recompensa se da menos vigor de
R que cuando se mantiene desde el principio el nivel bajo.
Contraste positivo: cuando las condiciones de recompensa mejoran de repente, los animales
sobrepasan el nivel de ejecucin y rinden an ms que los sujetos que han recibido esa magnitud de
recompensa desde el comienzo del entrenamiento.
La magnitud de la recompensa afecta a la ejecucin modificando la motivacin del animal para responder en
vez de su aprendizaje, tal como muestran:
Los cambios en la ejecucin tras el cambio de magnitud de recompensa son tan repentinos que es
improbable que el aprendizaje de los animales se vea afectado.
Ref. social
Cambio de la entrada sensorial en el que la presentacin de una luz o un ruido es contingente respecto a una
conducta. Se produce principalmente cuando los animales han experimentado un periodo de privacin sensorial.
Los olores estn entre los E ms salientes para los roedores. El olor de la orina de los ratones dominantes
resulta aversivo para otros ratones. Las ratas ingenuas se aproximan al olor de recompensa y evitan los olores de
frustracin.
Los reforzadores sociales no afectan a la conducta elevando slo el nivel general de estimulacin sensorial, son
reforzadores en s mismos. Para muchos animales, la interaccin social con otras especies tambin es
reforzante.
No todas las R son condicionables en la misma medida, aun utilizando el reforzador adecuado.
Los BRELAND demostraron que una conducta aprendida poda sesgarse progresivamente hacia otra conducta, en
este caso alimentaria, no deseada (conducta inadecuada).
Entrena. de
recompensa
Se da incapacidad para aprender ciertas respuestas de forma eficaz. Algunas respuestas, pero no otras, son ms
relevantes para, o influenciadas por, la recompensa de comida (consistencia evolucionista), por lo que son ms
susceptibles a los efectos de la recompensa de la comida que los que no lo son.
C aversivo
El patrn de supresin provocado por una descarga elctrica es distinto del patrn de aumento de respuesta
provocado por la comida. Es efectiva la supresin para algunas conductas, pero no para otras.
Ven limitada los sujetos la asociacin R-recompensa que forman, o son slo incapaces de expresar estas
asociaciones? Se da falta de aprendizaje o slo carencia de ejecucin?
Pero la dificultad para condicionar una conducta dada puede reflejar tambin una incapacidad para
asociar la conducta con la recompensa (fallo en el aprendizaje asociativo).
Lo que est claro es que la facilidad de condicionamiento refleja que la conducta resulta apropiada al estado de
motivacin del sujeto. Los patrones de conducta ms afectados por el reforzamiento de la comida son aquellos
exhibidos por animales hambrientos en momentos prximos a la comida.
TARPY, R. M.
Aprendizaje
10
Reforzamiento condicionado
Un reforzador secundario Sr es un E inocuo que adquiere las propiedades del reforzador primario (comida,
agua) al emparejarse de forma consistente con el reforzamiento primario. En ocasiones posteriores, la clave
secundaria refuerza por s misma la conducta (EC pavloviano).
Pruebas
Mantenimiento de R
En la fase de extincin, la presentacin del reforzador condicionado mantiene la conducta respecto a la cual es
contingente la clave.
Tambin mantiene la conducta durante la adquisicin en condiciones que, de lo contrario, produciran un dficit en
la conducta (como en demora de recompensa).
Encadenamiento
Tcnica de
adquisicin
Procedimiento de la adquisicin:
1) Los sujetos con reforzamiento secundario reciben un E auditivo seguido de reforzador.
2) Fase de prueba: Se introduce una palanca. Presentacin del E auditivo tras cada presin de palanca.
El E auditivo emparejado previamente con el reforzador tiene el mayor efecto en la presin de palanca.
Un reforzador condicionado no slo mantiene conductas que han sido ya aprendidas y aumenta la frecuencia
de otras nuevas (tcnica de la adquisicin), sino que afecta tambin a la tasa de aprendizaje.
Un reforzador secundario obtiene una fuerza considerable mediante su asociacin con la recompensa (CC).
Los principios para generar un fuerte ref. sec. son los utilizados para entrenar fuertes EC pavlovianos. P. ej., la
fuerza del reforzamiento secundario es una funcin directa de la magnitud e inmediatez del EI.
Segn la hiptesis del E discriminativo, un E secundario acta principalmente como Ed.
En una prueba de ref. sec., la conducta se mantiene a un nivel alto porque cada presentacin de la clave tras
la R desencadena una R adicional.
La contingencia R-clave es ms crtica que la relacin clave-R. Un E puede afectar a la R en virtud de su valor
reforzante, sin afectar simultneamente a la conducta en su papel como Ed.
Conducta de eleccin
Las conductas instrumentales siempre implican una eleccin, al menos entre responder y no responder.
Ley de la igualacin
Enunciado matemtico que describe la relacin entre la tasa de R y la tasa de recompensa. Los animales
equiparan su tasa de R con la tasa a la que se refuerza la accin.
Frecuencia
del reforz.
Cuando se les presenta a los animales la eleccin entre 2 programas concurrentes que difieren en frecuencia de
reforzamiento:
TARPY, R. M.
Condicion.
aversivo
Aprendizaje
La frmula de la igualacin atae tambin a situaciones que comportan consecuencias aversivas.
La ley de la igualacin contribuye a especificar la relacin cuantitativa entre el valor del reforzamiento y la
respuesta.
HERRNSTEIN ha ampliado la ley para incluir no slo la proporcin de las R efectuadas en el programa a en relacin
al b, sino tambin la tasa de R en un solo programa respecto a no responder en absoluto.
Autocontrol
Muchos estudios de autocontrol muestran que las ratas y las palomas actan de forma impulsiva; escogen la
opcin de recompensa ms inmediata pero ms pequea.
Segn la ley de la igualacin, un sujeto ajusta la tasa de R a la tasa del efecto combinado de la magnitud y la
inmediatez. Predomina el efecto de la inmediatez.
Sin embargo, varios factores hacen que los sujetos ejerzan un mayor autocontrol:
Los humanos adultos muestran a menudo un mayor autocontrol, porque desarrollan reglas relativas a
los requisitos para obtener recompensas.
El que un animal demuestre impulsividad o autocontrol depende, en parte, de las actividades que
efecte el sujeto durante el intervalo de demora. Si las recompensas son salientes, los animales
tienden a ser impulsivos; si el atractivo de la recompensa disminuye, y el sujeto puede realizar otras
clases de comportamientos de distraccin, se demuestra un mayor grado de autocontrol.
La experiencia del sujeto afecta al grado de autocontrol. Los sujetos obligados a responder cinco veces
por recompensa presionaron la palanca que requera un mayor esfuerzo ms veces que el grupo que
haba recibido recompensa ms fcilmente.
La impulsividad se evita cuando los sujetos se comprometen con la recompensa grande demorada
antes del punto de eleccin. Si se establece un compromiso de antemano, que evita tener que
enfrentarse a la tentadora eleccin posteriormente, el autocontrol aumenta.
Evaluacin
Problema 1: La ley de igualacin predice que se realizar la misma eleccin siempre que se mantengan los valores
relativos de inmediatez, magnitud y frecuencia de recompensa. Sin embargo, se ha demostrado que la proporcin
de respuestas vara tambin en funcin de los valores absolutos de recompensa.
Problema 2: La ley no siempre predice la conducta de eleccin de forma precisa. Los sujetos suelen cometer 3
errores sistemticos en situaciones de eleccin:
Sesgos: se muestran cuando el sujeto tiene una especial afinidad o preferencia por una de las
elecciones.
Sobreigualacin: tasa de R superior para el mejor de dos programas respecto a lo que predice la
frmula de igualacin. Se produce cuando resulta costoso para el sujeto cambiar al lado de menor
preferencia, cuando el tiempo fuera impuesto normalmente por cambiar de un programa a otro es
relativamente largo.
Teoras de la igualacin
La igualacin es una descripcin de la conducta, que predice cmo se distribuyen preferencias entre dos
opciones, pero no explica por qu (naturaleza subyacente).
Maximizacin
Mejora
TARPY, R. M.
Aprendizaje
Efecto del reforzamiento parcial
Aumento de la resistencia a la extincin que se produce cuando los animales reciben reforzamiento
intermitente (en lugar de continuo) durante la adquisicin.
Si se refuerza slo a un animal en una parte de los ensayos de adquisicin, la velocidad y persistencia de la R
durante la extincin aumenta en relacin a los sujetos que reciben recompensa en todos los ensayos durante la
fase de adquisicin.
Histricamente, se consider una paradoja. Si la recompensa fortalece una R, los animales reforzados de forma
continua deberan persistir durante ms tiempo durante la extincin que los animales reforzados parcialmente.
Las recompensas grandes, cuando se administran en cada ensayo de adquisicin, disminuyen la posterior
resistencia a la extincin. Cuando se administran de forma intermitente, aumentan la resistencia a la
extincin.
N ensayos
La resistencia a la extincin disminuye en funcin del n de ensayos reforzados de forma continua, pero aumenta
con un n mayor de ensayos de reforzamiento parcial.
Patrones de
recompensa
durante la
adquisicin
Una secuencia alterna de recompensa y ausencia de recompensa durante la adquisicin produce menos
resistencia a la extincin que el patrn aleatorio de ensayos de recompensa y no recompensa, aun cuando
se utilice el mismo n de recompensas.
T: los animales con presentacin aleatoria muestran persistencia durante la extincin porque no pueden
distinguir entre las condiciones existentes durante la extincin de las que se experimentaron durante la
adquisicin. Sin embargo, en los sujetos de la condicin alterna no se observa persistencia porque las condiciones
experimentadas a lo largo de la extincin (ausencia de recompensa) son lo bastante distintas de los patrones
estrictamente alternos de recompensa y no recompensa experimentados durante la adquisicin.
Orden de los programas: la resistencia a la extincin es mayor cuando los ensayos reforzados de forma
intermitente se administran tras los ensayos reforzados de forma continua que cuando se invierte el orden. Un
bloque de ensayos con recompensa continua se distingue ms fcilmente de la extincin que un bloque de ensayos
con recompensa parcial.
AMSEL y cols: los sujetos desarrollan la expectativa de recompensa durante la adquisicin. Durante la
extincin, experimentan una reaccin incondicionada denominada frustracin (Rf), que vigoriza la conducta.
La frustracin es un estado de motivacin que vigoriza la conducta. Se produce cuando los animales esperan una
recompensa pero no la reciben.
Los sujetos experimentan mayor frustracin en la fase de extincin cuando la adquisicin conlleva recompensas
grandes que cuando implica recompensas pequeas debido a que es mayor la discrepancia entre las
expectativas y lo que reciben de hecho. Una mayor frustracin implica ms perturbacin y, por tanto, extincin
ms rpida. Sucede lo mismo cuando se da un entrenamiento prolongado.
Mediante el CC se condiciona el E resultante de la reaccin de frustracin y posteriormente acta como un Ed de la
R instrumental, lo que explica la mayor resistencia a la extincin en los sujetos reforzados parcialmente.
El estmulo de frustracin Ef se convierte en un Ed para la respuesta instrumental, por lo que la resistencia a la
extincin es fuerte.
Hiptesis
secuencial
La hiptesis secuencial (de los post-efectos) afirma que los animales tienen recuerdos de las consecuencias
de ensayos previos que no son necesariamente de naturaleza emocional, sino slo la consecuencia de responder.
Los ensayos recompensados dieron un post-efecto en la memoria de recompensa (Er), y al contrario los no
recompensados (En).
Los post-efectos de la recompensa y no recompensa se convierten en parte del abanico de E que el animal
experimenta en la caja de salida durante el siguiente ensayo. Durante la extincin, Er est ausente y En resulta
saliente. La perturbacin en el complejo estimular provoca una reduccin del grado en que los E provocan la
conducta.
Una perturbacin en el complejo estimular durante la extincin acelera su curso. Las conductas extinguidas se
recobran si los animales reciben claves relacionadas con la comida antes de la prueba.
Cuanto mayor es la magnitud de la recompensa, ms salientes son los post-efectos de la recompensa durante la
adquisicin. Por tanto, en la extincin, la omisin de un Er saliente produce un dficit mayor en el complejo
estimular discriminativo que la omisin de un Er dbil.
Efecto del reforzamiento parcial: durante la adquisicin del reforzamiento parcial, se estn formando dos tipos
de memoria (Er y En). Los animales reforzados parcialmente son recompensados por responder en presencia del
En, incorporan el En en su complejo estimular discriminativo y toleran la extincin con mayor facilidad.
TARPY, R. M.
Aprendizaje
Indefensin aprendida
Cuando la R y la recompensa son independientes, deja de producirse el aprendizaje, o aprende el animal algo
sobre su independencia? La indefensin aprendida indica que los sujetos aprenden que su conducta es
independiente de la recompensa. Este aprendizaje tiene efectos perturbadores en el aprendizaje futuro.
Ejemplos
La indefensin aprendida es el hallazgo de que el aprendizaje futuro se retarda si el animal recibe previamente
consecuencias incontrolables.
Transferen.
aversivaaversiva
apetitiva
SELIGMAN y MAIER: el grupo de escape aprendi la nueva tarea con la misma facilidad que los sujetos con
ausencia de descarga, pero el grupo acoplado mostr una perturbacin acusada.
La dificultad del grupo acoplado para aprender puede haberse debido a su incapacidad para controlar la descarga
elctrica en fase 1. Esta falta de control provoc el desarrollo de la expectativa general de que la conducta es
irrelevante respecto a la terminacin de la descarga. La expectativa de falta de control se transfiri a la
nueva situacin, provocando un retardo del aprendizaje.
Se ha observado el mismo tipo de transferencia negativa en situacin de condicionamiento apetitivo, llamada
pereza aprendida.
Algunos autores han sugerido que el perjuicio del aprendizaje no se debe a la transferencia de una expectativa,
Transfer.
sino ms bien a que el animal experimenta un cambio de actividad general. Si la actividad disminuye tras una
motivacional descarga incontrolable, la ejecucin inferior de los sujetos acoplados puede deberse a una disminucin general
cruzada
de actividad.
Se comprueba que cuanta ms inactividad muestra un sujeto en fase 1, independientemente del tratamiento, ms
disminuye la actividad en la fase de prueba.
Pero hay razones para creer que est ocurriendo algo ms que un simple cambio de actividad: se comprueba
transferencia negativa entre situaciones apetitivas y aversivas que conllevan tipos notablemente distintos de tareas
de R.
Maestra
aprendida
Reversibilidad
Los sujetos pueden ser protegidos contra los efectos de la descarga elctrica inescapable administrando antes
una descarga susceptible de escape.
Los reforzadores incontrolables no impiden el aprendizaje posterior si los sujetos experimentan recompensas
controlables antes de la fase de indefensin.
Experimentar un control sobre la administracin de reforzadores no slo elimina los dficit de aprendizaje causados
por el entrenamiento de indefensin, sino que tambin hace que los animales sean inusualmente persistentes
en varias tareas de aprendizaje.
La experiencia con acontecimientos controlables, en nuevas situaciones, aumenta la motivacin y la capacidad para
asociar respuestas y consecuencias.
La condicin de indefensin puede corregirse. La respuesta forzada contribuy a superar el dficit de aprendizaje
provocado por una descarga inescapable.
Cuando las consecuencias son independientes de la conducta, el sujeto desarrolla un estado de indefensin
aprendida, que se manifiesta de 2 formas:
Recibir una descarga inescapable y predecible perjudica el aprendizaje menos que recibir una descarga
no sealada. Sealar la descarga inescapable elimina el dficit de aprendizaje.
La presentacin de E tras la finalizacin de una descarga inescapable elimina el dficit. Los sujetos de un
grupo acoplado con retroalimentacin aprenden tan eficazmente como los de escape y sin descarga.
Hiptesis de
la ansiedad
Los animales que reciben una descarga inescapable desarrollan ansiedad crnica, que hace que aprendan de
modo deficiente despus.
Si se suprimen los olores estresantes, no se muestra efecto de indefensin aprendida.
El miedo crnico hace que los olores del entorno de pre-tratamiento se asocien con la descarga inescapable, y
tiene efectos no asociativos, como aumento de neofobia. Los olores seran por tanto mediadores del efecto de la
indefensin aprendida, quiz provocando un disminucin condicionada de norepinefrina.
Un estmulo de retroalimentacin atena el miedo crnico. Los sujetos de escape crean sus propias seales de
retroalimentacin producidas por la R cuando escapan: cuando una seal predice el final de la descarga, los
animales sienten menos miedo.
La T no explica el que la ansiedad sea innecesaria para que se produzca dficit. Animales tratados con
diazepam mostraban todava dficit de aprendizaje.
10
TARPY, R. M.
T del
procesamiento
cognitivo
Aprendizaje
Los sujetos que reciben descargas inescapables cambian el modo en el que procesan la informacin
posteriormente.
Los animales indefensos aprenden con menor eficacia, independientemente de su estado de ansiedad. Sin
embargo, con una descarga ms intensa se elimina el dficit, medido por velocidad de carrera, pero no medido por
la precisin de la discriminacin: la descarga inescapable provoc dficit cognitivo.
Es posible que los animales indefensos vean afectada su atencin. Las ratas con descarga inescapable eran ms
susceptibles a los efectos perturbadores de las claves irrelevantes que los sujetos con escape o sin descarga.
El efecto de indefensin aprendida se observ slo cuando las claves distractoras estaban presentes. Segn la T
del procesamiento cognitivo, los animales con descarga inescapable resultaran distrados por las luces irrelevantes,
lo que hara ms difcil la ejecucin correcta.
11
TARPY, R. M.
Aprendizaje
11
Penfield
Hebb
Actualidad
Algunas de las primeras investigaciones fueron llevadas a cabo por LASHLEY. Su estrategia consista en daar o
extirpar reas especficas del cerebro y realizar despus pruebas de aprendizaje. La destruccin de hasta la mitad
del tejido cortical influa muy poco en el aprendizaje de laberintos simples, aunque en laberintos ms difciles la
ejecucin resultaba daada en cierta medida.
Principios:
Equipotencialidad: Otras reas del cerebro asumen las funciones del rea daada. Ninguna parte del
crtex es ms importante que otra para aprender tareas.
OLDS y MILNER: ratas equipadas con electrodos en el rea septal presionaban una palanca para administrarse
corriente (autoestimulacin). En otras partes del cerebro se presionaba la palanca para poner fin a la estimulacin.
Las zonas anatmicas que sustentan la autoestimulacin forman un centro de placer.
La autoestimulacin viene sustentada por la amgdala, el hipocampo y el septum, pero la principal rea es el
fascculo frontal medial.
Sistema de recompensa: Las neuronas del fascculo frontal medial descienden desde el rea preptica lateral,
atravesando el hipotlamo, para inervar tres circuitos diferentes:
Circuito eferente: atraviesa el ncleo pontino y la mdula espinal. Expresin de conductas especficas
de la especie.
Sistema ascendente (I): desde el tegmento ventral, asciende a travs del ncleo accumbens hasta la
sustancia innominada y las reas prepticas laterales. Efectos motivacionales del reforzamiento.
Las fibras frontales mediales forman un tracto ascendente (sistema II), que se extiende desde la
sustancia negra hasta el estriado. Facilita la formacin de la memoria.
La presin de la palanca para estimular el estriado (II) conlleva conductas muy estereotipadas; la destruccin del
estriado provoca una disminucin de conductas. La topografa conductual cuando se presiona para proporcionar
estimulacin al sistema I incluye componentes de conductas especficas de la especie, como R alimentarias. El
sistema I, a diferencia del II, est implicado en los aspectos motivacionales de la recompensa.
El sistema principal de castigo es el tracto periventricular.
Teora de la respuesta consumatoria del reforzamiento: lo que los sujetos encuentran reforzante es
precisamente la ejecucin de condeuctas de supervivencia especficas de la especie. La mayora pueden provocarse
mediante estimulacin directa del cerebro, en especial del hipotlamo. Las conductas de supervivencia especficas
de la especie y la estimulacin cerebral reforzante son mediadas por los mismos circuitos neuronales.
12
TARPY, R. M.
Neuroqumica de la
recompensa
Aprendizaje
El sistema de recompensa implica neuronas catecolaminrgicas (nervios en los que las principales sustancias
transmisoras son la noradrenalina y la dopamina). El sistema periventricular aversivo es un sistema colinrgico
(acetilcolina).
La accin de varios antagonistas de la dopamina, como el haloperidol, se asemeja a los efectos de una reduccin
en la recompensa. Aumentan la resistencia a la extincin una vez desaparecidos sus efectos, por lo que deben
reducir el impacto de la recompensa en los ensayos. Esto podra explicar el que algunas drogas psicoactivas, como
la herona, resulten tan reforzantes.
Reduccin
del impulso
Fuerza del
hbito
Potencial
excitatorio
Estado de la t de HULL
Esta t tuvo xito porque era coherente y susceptible de verificacin. Sin embargo:
Teora neo-hulliana: Trabajo de AMSEL sobre el efecto del reforzamiento parcial. El estado de motivacin
aversiva que denomina frustracin equivale a la inhibicin reactiva.
13
TARPY, R. M.
Aprendizaje
Tas. cognitivas (R-E) del aprendizaje
Se centran en la nocin de que los sujetos estn orientados hacia metas, desarrollando representaciones
mentales de su conducta.
Aprendizaje
latente
Mapas
cognitivos
Principio fundamental: los animales obtienen un conocimiento general del entorno, y desarrollan expectativas
sobre las consecuencias de su conducta. El reforzamiento no es necesario para el aprendizaje, slo para la
ejecucin.
Estudio del aprendizaje latente: una vez se proporcion la recompensa en la caja meta, mostraron una mejora
repentina en su ejecucin. Los animales haban aprendido, pero no actuaron de un modo que mostrase su
aprendizaje. El reforzamiento no es necesario para desarrollar un mapa cognitivo del entorno, slo para estimular
una ejecucin eficaz.
Mapas cognitivos: Segn TOLMAN, las ratas desarrollan expectativas sobre las consecuencias de su conducta y
desarrollan mapas cognitivos o mentales de su entorno. No se limitan a efectuar una secuencia de movimientos
musculares.
Crticas:
La conducta no siempre parece estar orientada a metas. Los sujetos actan a menudo slo para explorar
su entorno.
Los animales realizan a menudo conductas con una gran orientacin a metas, pero difcilmente pueden
calificarse de intencionadas (como la polilla que vuela a la bombilla elctrica). El concepto de propsito
es problemtico porque implica que el sujeto tiene cierta nocin interna y autoconocimiento respecto a la
meta de su conducta.
La T de TOLMAN dice poco sobre qu conducta efectuar el animal y que probablemente aprender.
Asociaciones
R-C
Asociaciones
E-C
Asociaciones
jerrquicas
RESCORLA ha demostrado la asociacin de R y consecuencia. Los sujetos adquirieron dos asociaciones R-C
distintas. Esta investigacin respalda la concepcin cognitiva del C instrumental, el sujeto funciona como un
procesador de informacin al aprender asociaciones entre R y objeto meta.
Cuando se devaluaba un reforzador asocindolo con veneno, la tasa de R disminua: los sujetos
recordaban despus el reforzador como aversivo. En cambio, la R al otro reforzador mantuvo su fuerza.
Cuando los sujetos desarrollan una asociacin R-C1, esa asociacin no se ve afectada si la R va seguida
de una consecuencia distinta, C2.
Selecciona la conducta de entre las muchas posibles R del repertorio, siempre que vaya seguida de
un acontecimiento reforzante y no de un castigo (reforzamiento diferencial).
14
TARPY, R. M.
Aprendizaje
Hiptesis de la privacin de R
Principio de
PREMACK
Hiptesis de
la privacin
de R
Economa conductual
Principios econmicos
El anlisis econmico de la conducta comienza con una serie de supuestos sobre la motivacin, los axiomas de la
demanda: los organismos tienen necesidades esenciales, las cuales producen la demanda de los bienes que
satisfacen esas necesidades. Para satisfacer necesidades, los animales tienen que pagar cierto precio o coste.
Demanda
elstica e
inelstica
Curva de
indiferencia
Lnea de
presupuesto
T de la
optimizacin
A medida que aumenta el coste de un bien, la demanda disminuye. En el estudio del aprendizaje y la conducta
animal, puede establecerse una funcin de demanda mediante un programa de razn fija.
La demanda de un reforzador vara no slo con su coste, sino tambin en la medida en que ese bien constituye
una necesidad esencial. Con artculos no esenciales, la demanda se considera elstica: disminuye
sensiblemente con los aumentos de precio. Si se mantiene con bastante estabilidad, se considera inelstica.
Otro factor que afecta a la demanda es la sustitucin. Los individuos pueden sustituir un bien por otro cuando el
coste aumenta; en ese caso, la demanda es muy elstica.
La demanda puede expresarse como una eleccin entre 2 bienes. Un anlisis econmico supone que cada accin
refleja la consecuencia de una eleccin. La eleccin puede expresarse mediante una curva de indiferencia, que
incluye una serie de puntos, cada uno de los cuales representa una combinacin igualmente valiosa de productos.
Aunque una persona sea indiferente respecto a dos puntos cualesquiera a lo largo de una curva, prefiere situarse
en la curva ms externa, porque ah es donde tiene el mayor valor total de bienes.
La familia de curvas de indiferencia muestra las combinaciones de bienes que un sujeto encuentra igualmente
aceptables. Sin embargo, la curva de indiferencia que de hecho mantiene un individuo dado es determinada por el
presupuesto de ese individuo. La lnea de presupuesto muestra la combinacin de bienes que el individuo puede
costearse; el punto de equilibrio es el encuentro entre la curva de indiferencia y la lnea de presupuesto. Si la
lnea de presupuesto cambia, se establece un nuevo punto de equilibrio.
Planes de conducta ptima
El principal objetivo de este enfoque es describir cmo regulan la conducta del sujeto las leyes derivadas del
estudio de la economa. Manejando o regulando su conducta respecto a los costes y los beneficios, un individuo
puede obtener el mximo beneficio de sus esfuerzos.
Los animales maximizan las funciones coste-beneficio mediante la conducta adaptativa. Actuar por
debajo del punto ptimo es poner en peligro el xito en el afrontamiento de las exigencias ambientales. Segn la
T de la optimizacin, diversos planes de conducta reflejan una decisin inconsciente de maximizar el beneficio
respecto a los costes.
Un ejemplo de ello sera la conducta de eleccin de parcela. Invertir demasiado poco tiempo evaluando las
posibles parcelas puede ocasionar un error de apreciacin, y tardar demasiado sera una prdida de tiempo. La
segunda decisin importante es cundo abandonar la parcela despus de alimentarse cierto tiempo. Segn la T
de la bsqueda ptima de comida, el momento en que el sujeto debe abandonar una parcela depende de
diversos factores, entre los que se encuentran la tasa de ingestin de energa dentro de la parcela, el tiempo
necesario para trasladarse de una parcela a otra, y el tiempo requerido en buscar y procurar una presa. Son los
horizontes temporales.
En cuanto a la seleccin de la dieta, un animal ha de seleccionar lo que come teniendo en cuenta sus costes y
beneficios. Comer presas demasiado pequeas produce escasa energa en comparacin con los costes de hallarlas
y obtenerlas. Las presas mayores son mejores pero menos abundantes. Se optar por la presa ms provechosa, la
que produzca mayor cantidad de energapor unidad de tiempo.
Otro aspecto a tener en cuenta es si el sujeto corre el riesgo de ser atrapado por un depredador, por lo que habr
que compensar las conductas de bsqueda de comida y de defensa. Cuando la amenaza de un predador es baja,
el sujeto invierte ms tiempo en la bsqueda de comida que cuando la amenaza es elevada.
15
TARPY, R. M.
Aprendizaje
12
Los animales desarrollan procesos de aprendizaje adaptativos, especficos de la especie, en el contexto del
aprendizaje de respuestas. A lo largo de la evolucin, los individuos que nacieron con la capacidad de efectuar una
R ligeramente ms ventajosa tenan ventaja desde un punto de vista selectivo.
La relacin R-reforzador no puede divorciarse de los E que desencadenan la R. La distincin entre C instrumental y
pavloviano se basa principalmente en diferencias de procedimiento.
Perodo
sensible
Factores
sociales
Teora de la plantilla: las aves nacen con un patrn que se encarga de dar forma a los detalles del canto, una
especie de filtro. La exposicin al canto adecuado entre los 10 y los 50 das da lugar al desarrollo del canto
normal. La plantilla excluye canciones de otras especies.
En el espectrograma, la frecuencia del tono aparece representada en el eje vertical y el tiempo en el horizontal.
La T de la plantilla explica algunos resultados, pero no otros, como que algunas aves aprenden y responden a
cantos que ellas mismas nunca emiten. El aprendizaje del canto es ms flexible de lo que indica la estricta T de
la plantilla, por lo que deben influir otros factores.
El aprendizaje del canto no puede producirse antes o despus de un perodo crtico.
Pinzones cebra: todos los sujetos aislados a los 35 das de edad presentaron canto anormal: la estructura del canto
no se asemejaba a la del padre. La proporcin de elementos compartidos por padre e hijo aumentaba con el
tiempo: los pinzones cebra desarrollan su canto entre los 35 y 65 das.
El perodo sensible no es invariable. Se produce aprendizaje antes y despus. En machos pinzones cebra no
expuestos al macho cantor adulto, se produjo aprendizaje de la madre; tras 35 das de aislamiento, se permiti el
acceso al macho adulto, y se comprob que los sujetos no slo no tienen dificultades para aprender el canto, sino
que ste reemplaza de hecho cualquier canto que pueda haberse aprendido de la madre. Tambin se ha
comprobado aprendizaje posterior al perodo crtico.
La oportunidad de interaccionar socialmente con otro ejemplarde la misma especie constituye un factor importante
en el aprendizaje del canto, y puede permitir superar los dficit creados por el aislamiento.
Impronta
Es razonable suponer que la capacidad de un animal recin nacido para reconocer a un miembro de su propia
especie es innata. Pero en muchos animales se aprende por medio del aprendizaje especfico de fase llamado
impronta.
La impronta se observa ms fcilmente en ejemplares que se encuentran relativamente bien desarrollados en el
momento de su nacimiento, como en el caso de los patos, que siguen a su madre.
Los polluelos no slo siguen a su madre, sino prcticamente cualquier objeto en movimiento poco despus de
su nacimiento. Presentan una preferencia intensa y duradera por el objeto de impronta frente a la madre biolgica.
Perodo
crtico
Caractersticas crticas
de los E de
impronta
16
TARPY, R. M.
Teoras de la
impronta
Aprendizaje
Un planteamiento es que la impronta se basa en el aprendizaje perceptivo. La mera exposicin al E de impronta
crea familiaridad y preferencia.
Una segunda opcin es la T del condicionamiento de la impronta:
1. Las aves jvenes estn preparadas de forma innata para responder a ciertas clases de E (objetos en
movimiento). Los animales encuentras esta estimulacin reforzante y, por tanto, muestran una
conducta filial hacia el objeto.
2. Las aves jvenes desarrollan miedo a los objetos nuevos a medida que crecen. En un principio no los
temen, pero a partir del 2 da aumenta el temor. Un sujeto de mayor edad requiere un perodo ms
amplio de exposicin para que un E de impronta resulte reforzante.
3. La conducta constituye una solucin de dos tendencias competidoras suscitadas por el E: la
tendencia filial o de aproximacin y la reaccin de miedo.
Se explica as que la conducta filial se limite al E expuesto, ya que resulta conocido y reforzante. Sin embargo, este
modelo establece varias predicciones que no han sido respaldadas, como la ausencia de extincin. En algunas
condiciones, los pjaros jvenes reciben la impronta de claves ambientales u objetos estticos.
Para BOLLES, las conductas de evitacin son reacciones defensivas innatas y especficas de una especie dada. Por
tanto, son reacciones de defensa especficas de la especie (RDEE). Sobrevivir a los depredadores es algo
demasiado importante para depender de un proceso de aprendizaje gradual, por lo que la evitacin eficaz debe
haber evolucionado como una capacidad conductual innata.
Cada especie poseera una jerarqua de RDEE. Cuando se enfrenta a una amenaza, el animal efecta primero su
RDEE preferida. Si esa R no es eficaz, el sujeto pone en prctica la siguiente RDEE ms probable.
Conducta de evitacin
Evitacin
activa
La T de las RDEE es respaldada por el hallazgo de que pueden criarse las ratas de forma selectiva respecto a
conductas de evitacin eficaces o deficientes. La raza con evitacin alta acta mejor que aqulla con evitacin
baja independientemente de la condicin de entrenamiento.
Segn la T RDEE, el EC pavloviano induce una reaccin de tipo reflejo. Diversos estudios respaldan la T RDEE
al mostrar que los sujetos efectan una R natural sin ensearles a hacerlo, y que esta R puede consistir en huir o
inmovilizarse, dependiendo de las circunstancias. En presencia de un depredador, cuando las contingencias
impiden la huida, las ratas se inmovilizan.
La T fue cuestionada al mostrar que la evitacin mediante presin de palanca puede aprenderse con bastante
facilidad, siempre que se utilice el reforzador adecuado. El acceso a un rea segura, se permita o no al sujeto
correr hacia ella por s mismo, refuerza intensamente la presin de la palanca.
Cuando la R de la palanca es compatible con, y de hecho forma parte de, la RDEE de huida, el aprendizaje es
mejor que cuando la tarea de evitacin es incompatible con la tendencia de la RDEE. La presin de la palanca se
adquiere fcilmente como una reaccin de evitacin, siempre que sea congruente con la estrategia de defensa
natural de la rata, y que se refuerce adecuadamente ofreciendo al sujeto acceso a un rea segura.
Evitacin
pasiva
La tigmotaxis (tendencia a correr hasta la periferia y permanecer cerca de las paredes) resultaba incompatible con
la R de evitacin pasiva en un grupo, por lo que su conducta de evitacin fue menor: las tareas de evitacin
compatibles con la RDEE de un sujeto se aprenden con mayor facilidad que aqullas que no lo son.
Reacciones defensivas
Las ratas y otras respecies recurren tambin al enterramiento y la agresin cuando se engfrentan a E aversivos.
Enterramiento
Enterrar un objeto constituye una R defensiva. En el experimento de PINEL, los sujetos que no recibieron
ninguna descarga elctrica dedicaron poco tiempo a enterrar la vara; los que recibieron descarga dedicaron
bastante tiempo a enterrar la vara, y acumularon un montculo de material bastante mayor, tratndola como un
objeto aversivo. Esta R ocurre incluso cuando los sujetos son puestos a prueba en un entorno distinto; cuando la
descarga se administra desde el suelo de parrilla; cuando la vara produce descarga frente a otra que no lo hace. El
enterramiento defensivo se ha probado incluso con soluciones venenosas.
No se produce R de enterramiento si existe la posibilidad de escapar. Escaparse e inmovilizarse
constituyen las primeras lneas de defensa, pero cuando esas reacciones no suprimen la fuente de aversin, se
produce el enterramiento defensivo.
Muchas especies no presentan conducta de enterramiento. Puede que se haya desarrollado en las ratas como una
forma de altruismo heredado: las ratas entierran los objetos aversivos de modo que los miembros de su colonia
no los encuentren, pero este acto altruista no ha evolucionado en un animal asocial como el hmster.
Agresin
Las conductas agresivas son otra forma de defensa instrumental. En ratas sometidas a descarga, tanto las ratas
macho como las hembras mordieron el hocico del animal diana, y los mordiscos aumentaron de forma acusada en
funcin de la intensidad de la descarga.
Un ataque constituye una estrategia defensiva slo en ciertas circunstancias. Para las hembras, el ataque
preventivo est dirigido a proteger a los cachorros, y slo se produce cuando aparece un enemigo peligroso.
Al igual que el enterramiento, las conductas de ataque pueden ser slo una entre una serie de reacciones
defensivas efectuadas por una rata, dependiendo de las circunstancias. La huida suele ser la estrategia preferida, y
la inmovilizacin a continuacin. Si stas no logran poner fina a la amenaza, el ataque pasa a ser una opcin.
17
TARPY, R. M.
Aprendizaje
Enfoque de los sistemas de conducta
Aproximacin tradicional
La t de que el reforzamiento produce el aprendizaje y da lugar a la ejecucin es causal, en tanto que el
reforzamiento se considera la causa o explicacin de la conducta.
En el modelo causal, el reforzamiento se representa mediante un vnculo de retroalimentacin que fortalece la
conducta, o el vnculo R-C.
Sin embargo, para TIMBERLAKE es preferible considerar la conducta del animal como parte de un sistema de
conducta funcional integrado, que posee:
1. Un valor de comienzo inicial (entrada del E).
2. Conductas adecuadas para esos valores iniciales (R).
3. La propiedad de modificarse por medio de la consecuencia (retroalimentacin).
Segn el enfoque de los sistemas de conducta, las R y los E parecen ser arbitrarios para el experimentador, pero
no para el sujeto. Las conductas del sujeto, y sus reacciones perceptivas ante los E, se encuentran preorganizadas en unidades funcionales. Aunque el E no fuera conocido en el pasado, el sujeto reacciona segn una
estructura existente, organizada de antemano. El acto de presionar la palanca se integra en un conjunto
existente de capacidades conductuales.
Por tanto, la conducta aprendida se halla pre-organizada, integrada respecto a una nica funcin (como la
alimentacin, reproduccin, defensa, cuidado corporal...). Las caractersticas crticas de un sistema de conducta
son:
Evolucin y
aprendizaje
Un animal nacera con ciertos repertorios conductuales, y la capacidad para aprender evolucionara con respecto a
esos sistemas conductuales. Estas lneas de conducta han perdurado porque aumentaban la probabilidad de
supervivencia y reproduccin. El aprendizaje modifica estas lneas adaptndolas a nuevos ambientes o
reorganizndolas para afrontar nuevos retos ambientales.
El nivel ms inclusivo es el del sistema: es la funcin general que realiza el sistema. ste identifica una serie de
unidades perceptivas y conductuales motoras que contribuyen a una funcin particular de forma integrada.
Subsistema
El susbsistema hace referencia a estrategias coherentes que sirven a la funcin general del sistema. Siempre que
se pone en funcionamiento un subsistema dado, se vuelven salientes para el animal una serie de E particulares y
se inician ciertas lneas de conducta.
El subsistema controla distintas estrategias globales o patrones motores y perceptivos relacionados con la
funcin general.
Modo
Mdulo
Patrn de
accin
18
TARPY, R. M.
Aprendizaje
Los sistemas de conducta y la conducta integrada
Conductas
inadecuadas
Recorrido de
laberintos
Moldeamiento
Conductas
defensivas
Las conducta inadecuadas plantean un serio problema a la t del reforzamiento, porque los animales efectan las
reacciones de alimentacin especficas de la especie en lugar de las simples conductas criterio para las que se
proporciona el reforzamiento. Sin embargo, el enfoque de los sistemas de conducta proporciona una explicacin
coherente: la conducta inadecuada se produce porque el sistema de alimentacin natural del sujeto es
activado por los E; los patrones de accin asociados con la alimentacin son desencadenados automticamente
por estos E, haciendo irrelevante el reforzamiento.
Segn TIMBERLAKE, la accin de correr hasta el final del laberinto no est regida por la consecuencia instrumental
porque los animales se desplazan por corredores aun cuando no se proporciona ninguna recompensa. La conducta
de correr se asemeja a patrones de accin caractersticos de animales que viven en madrigueras.
El moldeamiento consiste en el proceso de fortalecimiento de una R mediante aproximaciones sucesivas. El
reforzamiento fortalecera cada conducta componente individual hasta que se efectuara la R final.
Para el enfoque de los sistemas de conducta, las conductas efectuadas por una rata durante el procedimiento de
moldeamiento reflejan reacciones apetitivas elicitadas, especficas de la especie, que forman parte del
sistema de alimentacin general.
El moldeamiento es similar al automoldeamiento, la entrega de comida activa automticamente partes del sistema
de alimentacin. promueve una combinacin de modos de bsqueda general y focal centrados principalmente en el
rea del comedero y asocia mdulos relacionados con la consecucin o manejo de la comida con el movimiento de
la palanca.
La t de RDEE del aprendizaje de evitacin sostiene que los organismos estn dotados genticamente de
conductas apropiadas para hacer frente a depredadores y otras amenazas aversivas. El enfoque de los sistemas de
conducta argumenta que las conductas efectuadas en situaciones amenazantes implican secuencias
conductuales que son provocadas por el E ambiental relevante.
Segn FANSELOW, la estrategia defensiva de una rata posee tres modos: pre-encuentro, post-encuentro y
prximo a la lucha. La secuencia de conducta natural de la rata, que es una consecuencia de estos distintos
modos de accin, depende de los E ambientales encontrados.
19
TARPY, R. M.
Aprendizaje
13
Generalizacin
Estmulos similares a la clave original pueden producir tambin reacciones, fenmeno que se conoce como
generalizacin del E. Cuanto ms semejantes son las claves, mayor es la reaccin condicionada en la prueba de
generalizacin. Por lo general, la semejanza del E se basa en una caracterstica de tipo fsico, como la intensidad,
la longitud de onda o el tamao.
Discriminacin
La discriminacin es el proceso contrario: responder de forma distinta a dos E basndonos en sus diferencias
aparentes.
Control por
el E
Gradientes de generalizacin
Se da una relacin sistemtica entre la fuerza de la R a los E generalizados y la similitud de esos E con el EC o Ed
original, denominada gradiente de generalizacin.
Medidas de la generalizacin
E mltiples
La tcnica de los E mltiples consiste en condicionar un E+ criterio y despus, durante una sesin de extincin,
presentar el E original junto a otros muchos semejantes (en orden aleatorio). Cada sujeto experimenta todos
los E generalizados, pero tiene el inconveniente de que responder a un E puede afectar la reaccin a otros.
E nico
Consiste en entrenar a los sujetos con el E original y despus ponerlos a prueba con slo una clave generalizada.
Se comparan los grupos. Requiere ms tiempo y es ms costosa, pero la reaccin del sujeto a un E generalizado
no se ve afectada por la exposicin a otros E.
Generalizacin
mantenida
Se refuerza a un sujeto de forma continua por responder a un E+ original (programa intermitente) administrando
peridicamente ensayos de prueba en los que se presenta un E generalizado sin reforzamiento. Los sujetos
experimentan todos los E y la fuerza de la R se mantiene a lo largo de la prueba, pero los sujetos discriminan
eventualmente el E+ original de los generalizados, y puede salir un gradiente artificialmente pronunciado.
Los E generalizados excitatorios producen la conducta, y la magnitud de la R es funcin directa de la similitud entre
los E de entrenamiento y de la prueba. Tambin en los E inhibitorios se da inhibicin condicionada, y el grado de
supresin est relacionado con la semejanza entre el E y las claves generalizadas.
Interaccin
Cuando el entrenamiento inicial implica la discriminacin entre una clave E y otra E+, y se evala despus la
generalizacin en una fase de prueba, se produce el efecto de desplazamiento del mximo.
Consiste en un alejamiento del mximo del gradiente excitatorio respecto al E+ original, en direccin opuesta a la
del E. El mximo de la curva no se encuentra en el E+ original, sino desplazado del E+ en direccin contraria al
E. Cuanto ms prximos se hallan el E del E+, mayor es el desplazamiento del mximo.
Segn SPENCE, los gradientes de generalizacin post-discriminacin se derivan de la interaccin entre los
gradientes de excitacin e inhibicin. Si los gradientes excitatorio e inhibitorio se miden separadamente y se
calculan las sumas algebraicas, el gradiente resultante muestra un desplazamiento del mximo que lo aleja del E+.
Sustrayendo cada valor del gradiente inhibitorio al valor correspondiente en el excitatorio se obtiene el gradiente
combinado o neto.
Teoras de la generalizacin
Como proceso primario
PAVLOV
HULL
La generalizacin es un proceso neurolgico primario. Cuando se activa un rea cerebral mediante un EC+, la
actividad elctrica se extiende a otras reas cercanas del cerebro, excitando as tambin los centros neurolgicos
de otros E.
Una R se condiciona respecto a una regin de valores del E, no a un nico valor. El sistema nervioso que percibe
un E, a diferencia de un instrumento cientfico, se encuentra en un estado constante de oscilacin o flujo; el
cerebro registra varios valores del E cuando percibe una clave, no un nico valor.
20
TARPY, R. M.
Aprendizaje
T LashleyWade
Hiptesis
inversa
La afirmacin de que la generalizacin consiste en un fallo de discriminacin se conoce por el nombre de hiptesis
inversa. Si los sujetos no pueden discriminar, generalizan. Si discriminan, la generalizacin es mnima y el
gradiente pronunciado. Los gradientes de generalizacin reflejan la capacidad del sujeto para discriminar.
Factores
atencionales
El entrenamiento de discriminacin previo afecta a la generalizacin, ya que atrae la atencin del sujeto
hacia la dimensin pertinente del E. En algunos casos, la atencin se debe a la saliencia de las claves; en otros, los
efectos atencionales se transfieren a E no utilizados en la discriminacin.
Modelo de
PEARCE
THOMAS y JONES comprobaron que en un grupo de sujetos, en lugar de mostrar la misma reaccin de
generalizacin a dos E semejantes fsicamente en el mismo grado al original, el mximo de los gradientes se
desplaz respecto al valor original en direccin hacia los E de prueba.
Modelo del
efecto del
nivel de
adaptacin
Para explicar este fenmeno, THOMAS propuso que los sujetos juzgan sus E respecto a un referente ya
almacenado, o representacin subjetiva del valor medio con el que se encuentran. Si los sujetos experimentan slo un valor de E, este valor se convierte en referente. Si experimentan valores mltiples, adquieren un
referente del nivel de adaptacin, o representacin de memoria, correspondiente al valor medio de todos los E. Su
R se basa en este valor medio. [Ecuacin]
Intervalo
entrenamientoprueba
La generalizacin aumenta con el tiempo, no porque el sujeto responda menos a la clave E+ original, sino
porque los E generalizados ms discrepantes, los cuales no produjeron al principio una R de generalizacin fuerte,
ejercen un mayor control a medida que transcurre el tiempo.
Los detalles de un E particular se olvidan con el tiempo.
Contexto
Aunque el transcurso del tiempo hace ms plano el gradiente de generalizacin, un cambio en el contexto
general disminuye la generalizacin. Parece que se distorsionan los detalles del contexto de entrenamiento
original, provocndose as un fallo de recuperacin de memoria. Los sujetos generalizan menos cuando se cambia
el contexto pero generalizan ms a medida que transcurre el tiempo.
Entrenamiento de
discrimin.
previo
21
TARPY, R. M.
Aprendizaje
Entrenamiento de discriminacin: tipos de discriminacin
El entrenamiento de discriminacin comporta la presentacin de reforzamiento tras una R a un E+, pero la omisin
de reforzamiento tras una R a un E. El hecho de que el animal responda de forma distinta a los dos E indica que
ciertas propiedades salientes del E controlan la conducta.
Simultnea
Sucesiva
Discrimin. de
programas
de reforzamiento
Las tcnicas de discriminacin simultnea y sucesiva establecen un contraste entre una condicin reforzada y otra
no reforzada. El programa de recompensa puede variar tambin durante las presentaciones del E+ y el E.
Un ejemplo de simultnea es el programa concurrente, en el que el sujeto escoge entre 2 opciones de R.
Un ejemplo de discrimnacin entre programas de reforzamiento que utiliza una aproximacin sucesiva es el
programa mltiple. Los sujetos obtendran una recompensa, por ejemplo, durante la presentacin de una tecla
verde segn un programa de IV de un minuto, pero cuando el Ed se volviese rojo, la recompensa se obtendra con
un programa de reforzamiento distinto, como un IV de 2 minutos. Los componentes se dan de forma secuencial.
La evidencia de la discrimnacin es la tasa diferencial de R a cada componente.
Discrimin.
condicional
Una discriminacin condicional se produce cuando el sujeto efecta la R1 en presencia del E1, pero una R2
ante E2. La R correcta depende del E presentado. La discriminacin condicional es esencialmente lo mismo que la
inhibicin condicionada y la modulacin en el CC.
Teoras de la discriminacin
HULL-SPENCE
Establece
3 supuestos:
El reforzamiento da lugar a la excitacin condicionada al E+.
La ausencia de reforzamiento produce la inhibicin condicionada al E.
La excitacin y la inhibicin se generalizan a otros E, y estas tendencias contradictorias se suman
algebraicamente para cualquier E dado.
Que un sujeto tenga una reaccin cuando se le presenta un E dado depende de la fuerza relativa de las tendencias
excitatoria e inhibitoria generalizadas a ese E. La ejecucin se hace patente cuando la tendencia excitatoria es
superior a la inhibitoria. Viene respaldado por el desplazamiento del mximo.
La propia atencin resulta afectada cuando se refuerza al sujeto. El cerebro posee analizadores que
reciben y procesan informacin sensorial; cada dimensin de un E se representa mediante un analizador
distinto. Si un E posee un rasgo saliente, como el brillo o el color, la atencin del sujeto resulta
atrada por esa dimensin, y la fuerza del analizador se relaciona con la de la seal entrante. Esto
explica el que los E ms fuertes susciten una mayor atencin y se condicionen con mayor facilidad.
El segundo proceso consiste en la adquisicin de una R. Se desarrolla un vnculo o unin entre una R
especfica y un analizador.
Discrimin.
previa
La experiencia previa con un problema de discriminacin influye en cmo el sujeto aprende el segundo problema.
Es el efecto de fcil a difcil. La explicacin de LAWRENCE fue que los animales atienden mejor a la dimensin
relevante del E con una tarea fcil, y que esta reaccin de atencin facilita la discriminacin difcil en la misma
dimensin. Otra T sostiene que la facilitacin de la discriminacin procede de una mejora en la capacidad
general del sujeto para resolver problemas de discriminacin.
Informacin
del E
El valor informativo de un Ed afecta al aprendizaje de discriminacin. Cuando los sujetos cuentan con
buenos E predictores, si se aade un elemento redundante al compuesto, adquiere escasa fuerza. El Ed adquiere
fuerza como consecuencia de su validez relativa. Estos resultados respaldan la T de la atencin de discriminacin,
los sujetos prestan atencin a los E relevantes o predictivos para resolver la discriminacin.
Efecto de la
consecuencia
diferencial
Se trata de en qu medida la R da lugar a una nica consecuencia. Se responde de forma distinta a E1 con
R1 y a E2 con R2 cuando R1 produce una consecuencia C1 y R2 otra C2. La discriminacin es ms eficaz en la
condicin de consistencia. Se ha explicado la facilitacin del aprendizaje de discriminacin en trminos de la
representacin del reforzador: las distintas consecuencias facilitan que el sujeto adquiera una expectativa de lo que
viene a continuacin de la secuencia E-R.
22
TARPY, R. M.
Aprendizaje
Fenmenos de discriminacin
Efecto del sobreaprendizaje en la inversin
Contradiciendo la T de discriminacin de SPENCE, los animales que recibieron entrenamiento extra
aprendieron la discriminacin inversa con mayor facilidad que el grupo de control. Este efecto se obtiene
slo cuando se emplea un problema de discriminacin relativamente difcil y se administra una recompensa grande
por la R correcta.
T de la
atencin
Disposiciones de aprendizaje
La discriminacin de nuevos objetos mejora si se administra de antemano un entrenamiento de
discriminacin con otros E. La exposicin a muchos problema de discriminacin distintos produce un aumento
espectacular de la capacidad para aprender nuevos problemas.
Un trabajo de HARLOW con monos rhesus demostr un principio importante del aprendizaje: que las experiencias
de aprendizaje previas pueden influir en la capacidad para resolver problemas, la capacidad para aprender en s.
Resulta muy relevante para los organismos en su medio natural, ms expuestos a problemas de discriminacin que
los animales de laboratorio.
La ejecucin de disposiciones de aprendizaje puede diferir segn las especies (aunque est poco probado). Est
clara la variacin en funcin de los E: las ratas son ineficaces ante E visuales, pero muy eficaces con olores, a un
nivel comparable a la ejecucin de los primates. Por tanto, la formacin de disposiciones de aprendizaje no parece
ofrecer una medida simple de la inteligencia general.
Desarrollo
de hiptesis
La T de la formacin de las disposiciones de aprendizaje de HARLOW afirmaba que un sujeto aprende lo que no
ha de hacer. La tendencia a realizar una eleccin incorrecta se inhibira gradualmente. LEVINE propuso que los
animales desarrollan, y ponen despus a prueba, hiptesis sobre los problemas de discriminacin; stas son
confirmadas o rechazadas segn el resultado. La estrategia ms habitual es ganar-continuar con el objeto;
perder-cambiar a otro objeto. La investigacin respalda la T de LEVINE.
La experiencia con problemas de discriminacin se transfiere a nuevos problemas. Se produce la facilitacin slo
cuando se utiliza la misma dimensin estimular (cambio intradimensional) u ocurre tambin con una nueva
dimensin del E (cambio extradimensional)?
La experimentacin sugiere que se dan ambos cambios, pero resulta ms fcil cuando el problema inicial implica
la misma dimensin del E que cuando comporta una nueva dimensin.
La T de la atencin explica esta diferencia: una vez se produce el cambio en fase 2, los sujetos
intradimensionales poseen ya una fuerte R de atencin a la dimensin apropiada; los extradimensionales han de
suprimir la atencin a la dimensin anteriormente relevante y aprender a prestar atencin a la nueva dimensin.
Aadir un rasgo distintivo a la tecla E+ produce un mejor aprendizaje de discriminacin que incluir ese
rasgo en la presentacin del E.
Un fenmeno relacionado es el efecto del rasgo positivo, cuando el rasgo predictivo simple que distingue al E+
del E forma parte fsicamente de la presentacin del E+. El aprendizaje de discriminacin era ms eficaz cuando
la caracterstica distintiva se encontraba en la tecla E+ que cuando formaba parte del E.
Estos resultados se explican recurriendo a 2 conceptos:
La R est relacionada con la atencin. Para efectuar la R correcta, los animales han de prestar
atencin al elemento distintivo; cuando forma parte del E+ se refuerza de forma inmediata, lo cual
fortalece ms la R de atencin.
La ejecucin puede estar relacionada con el seguimiento del signo, reacciones motoras dirigidas hacia
los E asociados con la recompensa, y de alejamiento de claves asociadas con ausencia de recompensa.
Cuando el rasgo forma parte de la presentacin del E+, se facilita el aprendizaje de discriminacin
porque la reaccin es recompensada inmediatamente.
23