Psicometría (UCM - Jesús Privado Zamorano)
Psicometría (UCM - Jesús Privado Zamorano)
Psicometría (UCM - Jesús Privado Zamorano)
El modelo de medida: Es un modelo teórico que va a relacionar el constructo teórico (la variable
independiente) con el comportamiento o la conducta observable. El MdM asume que el constructo es la
causa y el comportamiento la consecuencia. La persona se comporta de equis manera porque en el
constructo que explica ese comportamiento posee una puntuación determinada.
La TCT se centra en la puntuación total del test
La Teoría de Respuesta al Ítem se centra en la puntuación a un ítem.
Veremos la TCT únicamente, en los temas dos y tres.
El modelo de la TCT se desarrollo por Charles E. Spearman. Era ingeniero pero se centro en hacer desarrollos
en el campo psicológico. Sus aportaciones fueron:
-La TCT (sigue vigente)
-La correlación R de Spearman (v. ordinales y concretas)
-Teoría bifactorial de la inteligencia (factor g y específicos)
-Análisis factorial
La TCT es muy sencilla, se basa en una relación lineal. La relación entre X y V es una recta (relación lineal). La
puntuación observada de una persona (Xi) es igual a la puntuación verdadera (Vi) (puntuación ideal sin error)
más la puntuación del error de medida (Ei).
Vi es una constante, siempre vale lo mismo. Es un valor teórico que siempre toma el mismo valor. V no se
puede calcular nunca, pero puede estimarse. Esto es porque es una puntuación ideal del rasgo evaluado (es
un parámetro, es solo estimable). En cambio, equis y el error se pueden calcular, pero son variables
aleatorias (varían siempre, dependen de la muestra que se analice). En cuanto cambiase la muestra va a
cambiar equis y el error. El error en la grafica es la distancia del punto (puntuación de x y v). Hay error cuando
el punto no coincide con la recta.
Todo esto es el modelo propuesto por Spearman. Es una regresión lineal simple entre X y V. La forma de
calcular X y V es una regresión.
Todo esto, en resumen Xi = Vi + Ei, es el primer supuesto de la TCT.
El error hay que entenderlo como ausencia de precisión (a mas error, menos fiabilidad y menos precisión,
por tanto cuanto menos error, habrá mayor precisión al medir).
El error jamás se va a anular del todo, pero se puede minimizar.
El error de medida tiene en psicología dos causas mayoritarias:
Psicometría Apuntes Teoría Alexis Hancevich
1. No se da independencia: la puntuaciones de una persona en una prueba no están relacionadas con
otras pruebas. Una de las maneras de aumentar la fiabilidad es pasar dos veces la prueba al mismo
sujeto, pero eso anula el supuesto de independencia. La solución es aplicar pruebas diferentes
(aunque midan lo mismo).
2. Los rasgos se miden de forma indirecta, no se puede de forma directa. La persona, queriendo o sin
querer, puede responder mal o no contestar a lo que se requiere, por ello gran parte del error se
debe a la respuesta del sujeto. Este error es insalvable.
Otras causas de error es elegir una muestra no representativa, una muestra sesgada, una muestra
demasiado pequeña, existencia de algún fallo al suministrar las instrucciones, etc.
Segundo supuesto de la TCT: La puntuación verdadera Vi se puede estimar a partir de la media de Xi (la
esperanza matemática de Xi). Aplicamos una prueba a un grupo de sujetos y se asume que la media de X de
la muestra será el valor mas cercano al real de V. Por tanto, la media matemática o la esperanza matemática
de los errores vale CERO. Cada sujeto tiene un error, y la media de todos los errores de todos los sujetos vale
cero (unos serán positivos y otros negativos). Como la media de los errores serán cero, puedes calcular Vi a
partir de la media de equis. Veamos un ejemplo:
APLICACIÓN Xi Vi ERROR
1 4 4 0
2 3 4 -1
3 4 4 0
4 5 4 1
5 2 4 -2
6 6 4 2
MEDIA ->>>>>>>>> 4 4 0
EJERCICIO 7
7.1 Un test se aplica 8 veces a un individuo y se obtienen las puntuaciones Xi 5 8 3 6 4 6 5 7.
a) Cual seria la mejor estimación de su verdadero nivel de rasgo? (Vi es el verdadero nivel de rasgo)
P2XV + P2XE = 1
CONCEPTO DE FIABILIDAD: Es hasta qué punto las conductas observadas en las puntuaciones de la prueba
reflejan con precisión V.
Siempre que se aplica una prueba a un grupo de personas o intrasujeto los criterios de respuesta son
diferentes.
El error de medida es cuánto varia la respuesta de una persona de un test a otro.
Aunque se aplique un test varias veces y no se responda igual, si que va a haber una tendencia a responder
de una forma en particular. A esa forma de responder se le denomina consistencia. Se calcula en muestras,
no en intrasujeto, porque te cargas la independencia otra vez.
Cuando la fiabilidad es perfecta, cosa que jamás ocurre, para cualquier valor de V equis tomará exactamente
el mismo valor. La correlación es perfecta.
Cuando la fiabilidad es nula, gráficamente aparecerá una nube de puntos en la cual podremos trazar una
recta pero no habrá correspondencia entre X y V. Dadas varias puntuaciones de V, todas se corresponden a
la misma equis. Eso pasa cuando no hay fiabilidad.
Una prueba se considera fiable cuando el valor de su coeficiente de fiabilidad P 2XV es mayor o igual a 0,7.
Problema 13. La varianza de las Xi de una prueba de discriminación auditiva es de 36. Sabiendo que el 68%
de esa varianza es explicada por puntuaciones verdaderas, calcular:
a) El coeficiente de fiabilidad de la prueba. = 0,68.
b) El error típico de medida, E
Problema 14. Cuanto valdría el coeficiente de fiabilidad bajo las siguientes condiciones
Condición 1. La varianza error fuese el doble de la varianza verdadera.
Por tanto varX=VarV+VarE; VarX= 3VarV
Tienes la ecuación del coeficiente y se resuelve asi:
Problema 17: El error típico de medida de un test representa 1/3 de la desviación típica de las puntuaciones
V. ¿Cuánto vale el coeficiente de fiabilidad del test?
Esto significa que se puede aplicar cualquier de las dos pruebas a los sujetos.
El error típico de medida es la desviación típica del error: Se calcula con la fórmula de las fotos de arriba.
Cuanto menos sea el ETM mayor es la fiabilidad. Si no hubiese error o fuese igual a cero, la fiabilidad sería
perfecta. Nuevamente, esto nunca se da.
¿Que pasa si la fiabilidad valiese cero? Que en ese caso el error no valdría cero, sino que tendría el mismo
valor que la desviación típica de X.
El error típico de medida debe interpretarse en comparación con la X, de forma que cuanto más se
parezcan, menos fiabilidad tiene el test, y viceversa.
La X va a ser siempre mayor que el error típico de medida. A nivel teórico jamás se puede tener una
fiabilidad negativa.
En la práctica, es difícil obtener dos test de medidas paralelas. Salvo en inteligencia y alguna dimensión de
personalidad, lo que se suelen tener son medidas equivalentes (es con lo que se suele trabajar).
¿Que son las medidas equivalentes? Son las medidas que aunque no son paralelas, guardan una relación
entre ellas. Distinguimos entre:
En las pruebas paralelas la correlación entre cualquier par de test va a tener siempre el mismo valor.
De la misma forma, la correlación entre cada test con una variable externa va a tener siempre el mismo
valor.
El valor de fiabilidad en pruebas paralelas es siempre el mismo. Si hay dos pruebas paralelas para un mismo
constructo, esas dos pruebas tendrán el mismo valor de fiabilidad.
En las pruebas equivalentes, esto no sucede asi. Los valores cambian.
Psicometría Apuntes Teoría Alexis Hancevich
Ahora explicamos un poco más detalladamente los tres tipos de pruebas parelelas:
Tauequivalentes: Tienen la misma V pero diferente varianza Error.
Esencialmente equivalentes: Las V y las varianzas error son diferentes, pero las V se parecen bastante. ¿En
qué? En que una V es igual a la otra mas una constante (distinta de cero, porque sino seria tau equivalente).
Linealmente equivalentes: Tienen diferente V y diferente varianza error. En este caso las dos V guardan una
relación lineal (constantes multiplicativa y aditiva). B tiene que ser diferente de uno y a diferente de cero.
1.Variabilidad: Restricción de rango y corrección: Es cuando, por las características (n) de la muestra, no
podemos estimar correctamente el parámetro en cuestión. Por ejemplo, si pasamos un test de CI a alumnos
universitarios no veremos aquellas puntuaciones de sujetos que tengan un CI inferior a 90 (aprox. ), aunque
los haya.
Faltan datos porque falta una parte de la distribución.
La fiabilidad de la población es igual a uno menos el cociente de las varianzas de la muestra y de la población
multiplicado por uno menos la fiabilidad de la muestra con restricción de rango. Al haber restricción de
rango, hay menor variabilidad en la muestra, y por ello la precisión de la medida baja. (asi como la fiabilidad)
2. Longitud del test: Es el numero de ítems. Cuanto mas ítems tenga un test mas fiable será, siempre que
los test cumplan propiedades psicométricas. Se incrementa la fiabilidad de una prueba añadiéndole ítems
paralelos de forma que la longitud final sea igual a la inicial por K. (K va de 1 a infinito). La fiabilidad en base
a K aumenta según la grafica que aparece a continuación. Que ocurre al multiplicar la fiabilidad del test por
K?
Psicometría Apuntes Teoría Alexis Hancevich
La fiabilidad de una prueba hemos visto que depende la variabilidad, la longitud del test.. los cuatro
elementos de antes.
Hay cuatro procedimientos para aumentar la fiabilidad del test, que son los que aparecen arriba. El segundo
hay que saberlo solo a nivel teorico.
1.Formas paralelas
Psicometría Apuntes Teoría Alexis Hancevich
Se construyen dos test paralelos X y X´.
Se aplican las dos pruebas a una muestra representativa (LA MISMA)
Se calcula la correlación entre X y X´.
La correlación de las dos formas paralelas es directamente igual a la fiabilidad de la prueba. Este
procedimiento permite obtener la mejor fiabilidad de las cuatro opciones (fiabilidad mas pura).
Estima la fiabilidad cuando ambas formas son paralelas o equivalentes.
La desventaja que tiene es que es muy complicado conseguir dos test paralelos. De ahí que casi siempre se
trabaje con procedimientos equivalentes en la práctica.
2.Test – Retest
Se aplica dos veces una prueba a los mismos sujetos.
Se correlaciona la medida en los mismos sujetos (entre ambas aplicaciones)
Ventaja: Solo hace falta construir una prueba
Desventaja: Te cargas el supuesto de independencia (se puede dar efecto de aprendizaje).
¿Qué se mide con este procedimiento? Se mide la estabilidad temporal Lo estable que es una medida a lo
largo del tiempo. A mayor estabilidad temporal mayor fiabilidad. Es una forma indirecta de obtener la
fiabilidad.
Si el test es de rendimiento típico, los sujetos en la segunda medida pueden cambiar de forma de
pensar/actitud y dar respuestas diferentes a la primera. Por tanto si en un test de rendimiento típico cambian
las respuestas de los sujetos, se puede infraestimar la fiabilidad.
Hay que acudir al manual de la prueba para poder determinar el intervalo de tiempo óptimo para poder
pasar el test de nuevo.
En los de R.O. los periodos de tiempo suelen ser muy largos (años) para poder pasar la prueba de nuevo sin
aprendizaje.
En los de RT hay que pasarlo a muy poco tiempo (2 o 3 meses) para evitar cambios de pensamiento.
Primeramente explicamos cómo se tendría que tratar la fiabilidad si la división fuese en dos partes, y
posteriormente cómo se trata en el caso de que tomemos cada ítem como parte de la prueba.
Es importante tener en cuenta que cuando hablamos de una aplicación única no equivale a dos formas
paralelas de una prueba, solamente es la misma dividida en partes. Por ello, lo que se mide al
correlacionarlas no es la fiabilidad, sino la consistencia interna.
Para estudiar la consistencia interna, entonces, podemos estudiar la covarianza entre todos los ítems de una
prueba o dividirla en dos partes y estudiar su correlación.
Éstos cuatro procedimientos te dan fiabilidades diferentes, así que hay que elegir muy bien cual se emplea.
Cálculo de la Fiabilidad por Consistencia Interna
Para calcular la fiabilidad, se parte de la covarianza entre los ítems o las partes de la prueba.
En el caso de medidas paralelas, aplicación de Spearman-Brown: Hay que asumir que K=2, ya que cada parte
del test se va a contar como un ítem. Dos medidas paralelas equivalen a K=2. La correlación PXX´ seria la
correlación entre dos mitades, y lo que parece a la izquierda de la fórmula será la fiabilidad final (P2). Esto
es lo del ejercicio 1.
En el caso de medidas equivalentes, aplicación de Ruttman y Flanagan. Para ello nos hará falta conocer las
varianzas de las partes y la varianza total.
Coeficiente Alpha de Cronbach: Estudia la concordancia (grado de acuerdo) entre las respuestas a los ítems.
Cuanto más se parezcan, mayor concordancia y mayor consistencia. Y por ende, mas fiabilidad.
Que un sujeto sea muy consistente: Tiene una tendencia de respuesta definida.
Se emplea la formula del Alpha de Cronbach, para lo cual hacen falta las varianzas de los ítems y la varianza
de toda la prueba (2X).
El alpha es igual al límite inferior del coeficiente de fiabilidad del test (P XX´ ).
Se aplica a todo tipo de ítems, tanto a los conformados por ítems dicotómicos como los que no son
dicotómicos, como las escalas tipo Likert.
No requiere dividir la prueba en partes.
El valor del alpha dependerá de la correlación entre los ítems (a mayor correlación, mayor alpha).
Si el test mide una sola dimensión (p.ej, sólo inteligencia verbal) el alpha de cronbach tiende a valores mas
altos. Depende, además, del numero de ítems (a mayor N, mayor alpha).
Coeficientes KR20: Es la misma fórmula que la anterior, pero únicamente puede utilizarse con ítems
dicotómicos (pueden tener distinta dificultad).
Si el test es totalmente dicotómico, conviene utilizar esto.
Hay que saber que P y Q (de la fórmula) valen 1 entre los dos.
P = probabilidad de acierto y Q = probabilidad de error.
Procedimiento ANOVA
Asume que el test es un proceso de medidas repetidas, cada sujeto pasa por todos los ítems (Modelo de
efectos aleatorios y medidas repetidas).
Trata de explicar la puntuación de un sujeto en un ítem que dependerá de la media del test, el efecto persona
(diferencias individuales de tendencia de respuesta), el efecto ítem (diferencias entre ítems) y el efecto error
(fluctuación del error de medida).
Si se divide la suma de cuadrados persona, entre los grados de libertad, se le llama MEDIA CUADRATICA
PERSONA, siendo N el numero de personas.
La MEDIA CUADRÁTICA ÍTEM, es la suma de cuadrados ítems partido n-1, siendo n el numero de ítems
MEDIA CUADRATICA ERROR.
Asi se calculan las medias cuadráticas para, posteriormente, calcular el cociente de las dos medias
cuadráticas (la de PI y la de PERSONA). Ese resultado, restado a uno es la CORRELACION INTRACLASE. Es la
consistencia o la fiabilidad interna de la prueba, pero obtenida del procedimiento ANOVA. La interpretación:
grado de parecido de todas las puntuaciones a lo largo del ítem. Si responde de forma parecida es muy
consistente a lo largo de la prueba y por tanto es muy fiable la prueba.
4.Fiabilidad interjueces
Se usa cuando vamos a evaluar el comportamiento de unos sujetos.
Un mínimo de dos jueces evalúan la conducta.
Se tiene que calcular el grado de acuerdo de los jueces.
Este cálculo se aplica en estudios de método observacional, no experimental.
Esto tampoco calcularía la fiabilidad sino el grado de acuerdo, pero a mayor fiabilidad interjueces (mayor
correlación entre sus respuestas), mayor fiabilidad tendrá una prueba.
Problema: Hay que entrenar a los jueces en lo que se debe observar, lo cual requiere formación y
entrenamiento.
I = E + NI
Indice de Stafford
Consideraciones finales:
Para dividir la prueba en partes, seleccionamos el modelo dos mitades, donde tendremos que elegir cómo
se dividirá la prueba.
La tabla de resultados nos dará el alpha de Cronbach de cada mitad y la correlación entre ambas
(consistencia interna) y por otro lado nos muestra el coeficiente de Spearman Brown si las dos partes fueran
paralelas y el de Guttman si fueran equivalentes. Si coinciden es que son paralelas.
Para obtener la correlación intraclase con procedimiento ANOVA se debe marcar en ESTADÍSTICOS.
Podremos elegir entre tres tipos de prueba, siendo las siguientes:
En la tabla de los ejercicios comunes, cuando nos dan la varianza total estamos hablando de la varianza
suma, es decir, la suma de la SCP, la SCI, y la SCPI.
Si sig (p) es menor o igual que alpha, se rechaza H0. Es decir que al menos dos ítems tienen medias diferente.
Hay buena fiabilidad si hay variabilidad, por lo que lo común va a ser rechazar la hipótesis nula, ya que si se
mantuviese la fiabilidad sería una mierda.
El índice de correlación intraclase también lo puede calcular el SPSS. Para ello hay que marcar la casilla de
correlación intra-clase con un modelo de efectos aleatorios, dos factores. En el valor de prueba, pondremos
el valor de la H0.
La correlación intraclase se da en la fila inferior de la tabla que muestra SPSS, junto con el intervalo de
confianza y la prueba teórica que se haya elegido con el valor elegido.
Si en esa prueba teórica sig es menor que alfa, se rechaza la H0.
En este tipo de test puede darse el problema de que los sujetos respondan al azar a uno o varios ítems. Para
ello surge la fórmula de corrección de la adivinación de respuesta. Evita que los evaluados acierten al azar,
de forma que no se sobreestime la puntuación que les corresponde.
Psicometría Apuntes Teoría Alexis Hancevich
La probabilidad de acertar al azar es 1/k, donde k es el numero de alternativas. La probabilidad de fallar es
1 - 1/k. La puntuación corregida (Xc) queda de la siguiente forma:
Xc = (A – E) / (k-1)
También puede corregirse la proporción de aciertos. La proporción corregida queda de la siguiente manera:
Pc = (p – Pe) / (k-1)
Sin embargo, este modelo ha sido bastante criticado por varios motivos:
1. Si se responde por azar, lo que se gana y lo que se pierde se compensa solo a partir de un número
grande de ítems. Es decir, la fórmula favorece a aquellos que se arriesgan más.
2. Si se responde al azar habiendo descartado primero una opción, la fórmula quita menos de lo que
debería.
Esta fórmula no tiene en cuenta, por tanto, que un test puede responderse de varias maneras:
completamente a ciegas, guiado por pistas del ítem o guiado por información que posee el evaluado.
Todo esto quiere decir que la fórmula de corrección de la adivinación está basada en el supuesto falso de
que alguien que no sepa la respuesta responderá completamente al azar.
Hay una alternativa de corrección del azar que soluciona estas críticas y que añade a los aciertos las
omisiones y los no intentados, quedando de la siguiente manera:
Xc = A + (O + NI)/k
En test de velocidad, hay que tener en cuenta dos constantes arbitrarias de la siguiente manera, donde C es
k-2:
Xc = A – E/C – O/D
Xw = (w*Ui) / n
En la estimación por intervalos se intenta ver con qué probabilidad (nivel de confianza) un valor desconocido
se encuentra dentro de un intervalo de valores.
En la curva normal, la zona de aceptación es el intervalo de valores, mientras que la zona de rechazo es la
zona que cae fuera del mismo.
Lo que ocupa el intervalo depende del valor de alpha. Si vale 0,01 el intervalo ocupa el 99% de la distribución
yel 95% si vale 0,05. Cuanto mayor sea el intervalo, mayor seguridad de encontrar V. Nunca hay una
seguridad al 100% de encontrar V.
Vamos a asumir para estos cálculos la distribución normal, por lo que todos los cálculos para estimar por
intervalos se harán mediante la tabla Z de la normal. Hay dos posibilidades:
1. Se utiliza para calcular puntos de corte en la toma de decisiones, como si una persona es seleccionada
para algo o si llega a un mínimo de puntuación en el test, etc.
Se puede hacer calculando un intervalo de confianza o haciendo un contraste de hipótesis. Para el
intervalo, se decide cuanto vale V a nivel teórico basándonos en la teoría o en el valor más probable
(en general lo da el enunciado).
Después de calcula el intervalo a partir de V, siendo tal que:
2. Calcular el intervalo en función de X permite ver con que probabilidad la puntuación V se puede
encontrar dentro de un intervalo de valores construido a partir de X. Cuanto mayor sea el IC hay
mayor error, y por ello peor precisión (al final la amplitud del intervalo es el error típico).
Por ello, si el intervalo es muy grande X y V se parecerán poco. Y viceversa.
Se calcula con la misma fórmula de antes (la V prima), pero al construir el intervalo hay un pequeño
cambio: Ahora el error cambia su fórmula y es la siguiente:
Para analizar un ítem y decidir si es adecuado o no, analizamos la frecuencia de respuesta a cada una de sus
opciones. Un ítem adecuado ha de seguir un patrón de frecuencias concreto, que explicaremos un poco más
adelante. Este patrón varía según el tipo de test al que pertenezca.
Hay que eliminar los items que tienen muchos fallos, y los distractores que nunca son elegidos.
Hasta aquí es la teoría del análisis de ítems. Pero, ¿Cómo lo hacemos en la práctica?
Podemos utilizar muchos índices para poder analizar lo que acabamos de ver, y son los siguientes:
El índice de dificultad indica la proporción de aciertos, y toma valores entre cero y uno, siendo 1
extremadamente fácil y 0 extremadamente difícil.
En un test de rendimiento óptimo se aconseja que al principio se sitúen los ítems con un Pi de 0´7, en el
medio con 0´50 y al final con 0´30.
1.4. No entiendo para qué sirve este apartado (índices de tendencia central), tengo que preguntárselo al
profesor.
2.1. Proporción de aciertos: Kelley propone comparar los grupos extremos (percentiles 27y 73). El índice de
proporción de aciertos se calcula de la siguiente manera:
Di es el índice.
Ps es la proporción de aciertos del grupo superior
Pi es la proporción de aciertos del grupo inferior
Di toma valores entre -1 y 1. Si es mayor que cero hay discriminación a favor del grupo superior. Si es menor
que cero hay discriminación a favor del grupo inferior.
Como ya sabemos, se toma el criterio de 0´2,0´3,0´4.. etc.
2.2. Correlaciones.
Las correlaciones estudian la discriminación externa. Elegimos el método de correlación según el tipo de
ítem y tipo de criterio, siendo tal que:
a) Ítem dicotómico y criterio cuantitativo: Biserial, biserial puntual
b) ítem y criterio dicotómicos: Correlación tetracórica
c) Ítem y criterio cuantitativos: Correlación de Pearson
Correlación biserial: Es idéntica a la biserial puntual, la diferencia está en cómo es el ítem. La biserial puntual
se utiliza cuando el inicialmente el ítem ya es dicotómico, y la biserial a secas se utiliza cuando el ítem al
principio es cuantitativo y se convierte en dicotómico.
Psicometría Apuntes Teoría Alexis Hancevich
Vamos, cuando se convierten las opciones incorrectas a cero y la única correcta a uno. De igual forma, las
puntuaciones inferiores a cinco se recodifican en 0 e iguales y superiores a 5 son 1.
IMPORTANTE: Las ecuaciones de las correlaciones biserial y puntual dan DOS opciones cada una, no son
derivaciones.
La relación entre la correlación biserial y la puntual es la siguiente:
La correlación biserial va a tomar valores iguales o mayores que la puntual, nunca menores.
Cuando la dificultad vale 0,5, el resultado es similar en las dos.
Hay diferencia cuando la p se separa mucho de 0,5 (0,25 o 0,75).
La biserial a veces toma mayores que 1, cuando no debería ser así. Esto indica que el ítem es muy asimétrico
y que no sigue una distribución normal. Es decir, cuando un ítem sea muy asimétrico, la biserial puede tomar
valores superiores a 1.
Correlación tetracórica: Al tener una matriz con las frecuencias de respuesta del ítem y el criterio, hay que
denominar:
- A a la frecuencia conjunta del valor mas bajo del criterio y los aciertos del ítem
- B a la frecuencia conjunta del valor mas bajo del criterio y los errores del ítem
- C a la frecuencia conjunta del valor mas alto del criterio y los aciertos del ítem
- D a la frecuencia conjunta del valor mas alto del criterio y los errores del ítem
Es preferible emplear correlaciones a proporciones, aunque con dificultades medias los resultados son
similares.
Conviene utilizar la correlación biserial cuando los ítems son de una dificultad extrema y se aprecian grandes
diferencias de aptitud en la muestra.
Psicometría Apuntes Teoría Alexis Hancevich
Conviene utilizar la correlación biserial-puntual cuando hay semejanzas en la aptitud entre muestras y los
ítems tienen alta consistencia interna (dificultad de 0,5).
Conviene utilizar la correlación tetracórica cuando el ítem y el criterio son dicotómicos.
-Los estadísticos del ítem dependen de la muestra con la que se calculan. Los índices de dificultad y
discriminación varían en cada muestra. Por ello, hay que elegir la muestra mas representativa posible.
-Los estadísticos del test dependen de la muestra también (hay que tener ojo con la restricción de rango).
-El problema de demostrar que dos medidas son paralelas (misma media y misma varianza error) es que es
complicado. El estado ideal de la TCT (paralelismo) es difícil de obtener.
-En la TCT no hablamos de diferentes tipos de error (X=V+E). El error puede tener muchas causas
(distracciones, faltas de comprensión, fatiga, dificultad, efecto práctica..), pero para la TCT el error es único.
-La fiabilidad depende también de los ítems (el numero), ya que si tiene muchos ítems, la fiabilidad va a
tender a aumentar.
-La estimación de V depende de la muestra. En cualquiera de los casos en los que se calcula, depende de la
muestra. En la teoría es el valor poblacional y no debería depender de la muestra, pero por la forma de
estimarlo en la practica si depende.
-El modelo de la TCT es un modelo para el total del test, pero no explica a nivel de ítem que pasa, porque se
centra en el total de la prueba.
La TRI es la que se encarga de explicar qué ocurre en los ítems uno por uno.
-Se asume que hay homocedasticidad de los errores (todos los errores tienen la misma varianza). Para que
se cumpla eso debe haber paralelismo, y si no se da pues no se cumple lo anterior.
-La TCT funciona muy bien para sujetos medios del rasgo, pero no tan bien para los extremos (bien para
medios de la campana de Gauss). La TRI funciona mejor en los extremos. Se complementan las dos.
Tema 4. Validez
La validez se refiere al grado en que la evidencia y la teoría soportan la interpretación de las puntuaciones
de los test. Es el aspecto más importante de un test, más incluso que la fiabilidad.
Psicometría Apuntes Teoría Alexis Hancevich
Según Messick (1990), la validez es un juicio evaluativo global del grado en que la evidencia empírica y las
bases teóricas soportan la adecuación y aprobación de las interpretaciones y acciones basadas sobre las
puntuaciones de los test.
Es un concepto unitario, y es un proceso (es dinámico), no algo puntual.
No depende del tipo de test, depende de la interpretación de las puntuaciones en el mismo.
Para situar la validez dentro de la estructura de la medición de la conducta, veamos la siguiente imagen:
Como se puede apreciar en la imagen, la validez es el último paso para medir el constructo. Es la relación
entre el valor verdadero del rasgo (V) y el constructo teórico como tal.
Evidencias de contenido: Se refiere hasta qué punto el test refleja el dominio del constructo, o hasta qué
punto el contenido del test es una muestra representativa del constructo. Lo suelen analizar expertos
Psicometría Apuntes Teoría Alexis Hancevich
siguiendo un proceso determinado, y se deben especificar bien los límites del dominio del constructo y cómo
se puede evaluar.
El procedimiento es el siguiente: en un primer lugar se debe definir el dominio de contenido, siendo éste las
áreas de contenido que debe recoger el test, los procesos que se evaluarán, y la relevancia
Evidencias de validez sustantiva: Evalúa hasta qué punto los ítems reflejan a nivel teórico el constructo.
Evidencias de validez estructural o interna: Evalúa la estructura del constructo: la dimensionalidad. Se
calcula mediante técnicas de análisis factorial, y veremos esta evidencia dentro de dos temas.
Generalizabilidad: Hasta qué punto se pueden generalizar o replicar los resultados de una muestra, en un
tiempo y una cultura, en otra muestra. En ciencia es muy importante que se repliquen los resultados.
Validez externa: Hay dos tipos:
1. Convergente: Hasta qué punto la prueba correlaciona con otras pruebas que midan lo mismo o
constructos relacionados, puede ser positiva o negativa.
2. Discriminante: Ausencia de relación entre la prueba y otras pruebas con las que NO debería
correlacionar.
Evidencias de valides consecuencial: Evalúa las consecuencias potenciales del test
Volviendo a la introducción del tema, éste sería un ejemplo de red nomológica (pasarlo a limpio):
Para analizar la relación entre los constructos y elaborar así la red nomológica, se pasa un test que mida cada
uno de los rasgos que correlacionan de cualquier forma con el constructo que está siendo objeto de estudio.
Si se comparan la diagonal con los triángulos adyacentes, se considera que hay evidencia de validez
convergente cuando la diagonal secundaria presenta correlaciones superiores que los triángulos adyacentes.
Se trata de validez convergente alta.
Para la validez discriminante, se comparan los valores de la diagonal de validez convergente con los
triángulos marcados en la imagen. Si es mayor que ellos en promedio, se considera que hay alta validez
discriminante.
Para estudiar la estabilidad de las relaciones, se comparan los cuatro triángulos. Si se parecen relativamente
mucho, podríamos afirmar que son estables las relaciones independientemente del método (los rasgos se
relacionan igual entre ellos independientemente del método). En este ejemplo, se parecen dos a dos, pero
no entre todos, por lo que hay diferencias en la medida. El rasgo en concreto está relacionado con el método
que se utiliza para medirlo.
Es la validez cuyo objetivo es, a partir de un test que hace de variable independiente o predictor, predecir
una conducta (variable dependiente) de la mejor forma posible. Hay que destacar que no se refiere a la
conducta que mide el test originalmente, es decir, si el test es de ansiedad la validez de criterio tendría que
mirarse con constructos cercanos y externos, como depresión. Los más habituales son:
-Rendimiento académico
-Rendimiento laboral
Psicometría Apuntes Teoría Alexis Hancevich
-Éxito en la terapia
Este es el tipo de validez más importante. La relación esperada entre el criterio y el constructo original se
basa en la red nomológica. ¿Cómo se analiza? Con la correlación entre el test y el criterio o la regresión lineal
entre ellos, y este último apartado es el que veremos en este tema.
Vamos a ver en este tema la correlación, la regresión lineal simple y la múltiple. En otras palabras,
estudiaremos las relaciones de regresión lineal entre el test y el constructo externo o criterio. Comenzamos:
La puntuación en un criterio es igual a la ordenada en el origen (alfa), la puntuación en un test predictor por
un coeficiente de regresión (beta) y un error.
Para predecir una variable criterio hay que conocer el valor de los siguientes componentes:
- Y es la dependiente (o variable criterio)
- Alfa, que es el origen de la recta (o coeficiente de regresión)
- Beta, que es la pendiente (o coeficiente de regresión)*
- La X, que es la puntuación en el predictor
- La E, que es el error de medida o residuo
Para poder aplicar la regresión lineal simple hay que cumplir cuatro supuestos:
1. Linealidad (tiene que haber una relación lineal entre ambas). Si no se cumple, los coeficientes son
estimadores sesgados y hay que emplear una regresión no lineal. Se comprueba dibujando la grafica.
2. Independencia: Cada puntuación de cada sujeto es independiente de las del resto. Se comprueba de
dos formas: Analizando los residuos (si no están correlacionados o su media es cero) u obteniendo
los datos aleatoriamente de la población.
3. Normalidad: La variable dependiente se tiene que distribuir normalmente para cada valor de la
variable independiente. Se comprueba mediante la media de los errores, es decir, si se distribuyen
normalmente se cumple este supuesto.
4. Homocedasticidad: La varianza de la variable dependiente es igual para todos los valores que puede
tomar la variable independiente. Si eso se cumple, hay homocedasticidad. Se verifica analizando la
varianza de los errores, que debe ser igual a la varianza poblacional.
Psicometría Apuntes Teoría Alexis Hancevich
La ecuación de regresión que hemos explicado antes corresponde a puntuaciones directas, pero también
está la ecuación de regresión tipificada.
A partir de una nube de puntos de X e Y, hay que tratar de determinar que recta es la que mejor se ajusta a
esa nube. Se parte de que hay infinitas rectas, de las cuales hay que quedarse con una (la mejor). Para decidir
la mejor recta se sigue el criterio de mínimos cuadrados.
Se elige un punto al azar y se mira el valor de la altura (Y). Tras ello, se proyecta el punto sobre la recta de
regresión, dando como resultado Y´. Y´ es un valor teórico que no existe, es el valor pronosticado. La
diferencia entre Y´ e Y es el error de predicción o residuo.
La recta de regresión es la que menor error o mayor aproximación tiene para todos los sujetos (la que hace
mínimos todos los errores). Los errores se elevan al cuadrado (ya que si no se anularían) y se suman, y la
suma de menor valor es la más adecuada para predecir el criterio.
Al final obtendremos una recta que trabajará bien con puntuaciones directas (la superior, en la imagen) y en
típicas (la de abajo).
Si elevamos al cuadrado la correlación RXY entre predictor y criterio, obtenemos un valor. Ese valor se
denomina coeficiente de determinación, y es el valor de referencia para ver cuánto se relacionan las
variables entre si. Dicho de otra forma el coeficiente de determinación calcula la bondad de ajuste de una
variable sobre la otra.
Psicometría Apuntes Teoría Alexis Hancevich
La varianza se calcula para cada sujeto, por lo que luego se debe sumar la varianza de todos los sujetos, y
esto equivaldría a la suma de cuadrados total que equivale a la suma de cuadrados de la regresión más la
del error. (Preguntar esto)
Dentro del formato ANOVA, el coeficiente de determinación RXY2 se puede calcular también de la siguiente
forma:
El coeficiente de validez es la correlación entre el test y el criterio externo (conducta relevante). El coeficiente
de validez puede verse afectado por una serie de factores:
La validez, además, tiene una relación muy estrecha con la fiabilidad. Si la fiabilidad es mala, la validez (o
correlación XY) puede verse amenazada. Para asegurarnos de que la validez de una prueba no está limitada
por un factor de fiabilidad, podemos fijarnos en la diferencia entre la máxima correlación que sería posible
Psicometría Apuntes Teoría Alexis Hancevich
para un valor de fiabilidad concreto y la validez que hemos obtenido en nuestra prueba. La correlación
máxima para un valor concreto de fiabilidad se calcula de la siguiente forma:
Una vez tengo el valor de la validez máxima (por ejemplo 0,60), hay que calcular la correlación entre la
variable predictora y la variable criterio (por ejemplo 0,20). Si hay mucha diferencia entre la máxima y la
obtenida, podemos asumir que ha habido algún error.
Hay que señalar que la correlación entre X e Y puede tener determinado error. Para compensarlo, existe un
índice de correlación desatenuada. Este indica el valor de la validez eliminando todo error posible. Se calcula
de la siguiente forma:
Cuanto mayor sea la fiabilidad, mayor será la validez en términos generales. Si cambia alguna fiabilidad, hay
que ver qué efectos ha producido en la validez mediante la ecuación que aparece a continuación:
Apunte aparte: La restricción de tango suele ocurrir en el test. Imaginemos que se presentan mil personas
para un puesto de trabajo, y a modo de filtro se pasa un test de personalidad de los cuales te quedas con
diez.
Esos diez, si los evalúas al año siguiente, seguramente presentarán restricción de rango, tanto en cuanto
quieras saber si esos diez candidatos que se seleccionaron se han presentado como esos diez mejores
candidatos que eran supuestamente en un principio con respecto a la muestra original.
Estudio del grado de generalización de los resultados del test. Se mide el grado de replicabilidad. Como dato,
debería curiosear algo acerca del efecto Mozart.
Psicometría Apuntes Teoría Alexis Hancevich
En cualquier caso, la replicabilidad se estudia mediante los meta – análisis, que estudian hasta qué punto los
datos encontrados en una investigación son generalizables a otras investigaciones y campos.
Un meta – análisis es un reanálisis de los resultados y procedimientos de estudios previos. Sirve además para
estudiar los errores encontrados en cada estudio.
Como fase final, se calcula un tamaño del efecto para el meta-análisis. Cuanto mayor sea el tamaño del
efecto más relevantes son los resultados.
La correlación parcial es la correlación de dos variables controlando el efecto de una tercera, es decir, la
correlación limpia entre dos variables. Supongamos que tenemos tres variables: El nivel de vocabulario de
una persona, el rendimiento en Lengua y el Coeficiente Intelectual. Supongamos también que la correlación
entre Lengua y CI es de 0,70. 0,70 sería el valor de la correlación de Pearson, a la que también se le llama
correlación sin controlar, porque no tiene en cuenta efectos externos (no discrimina la influencia de la
variable vocabulario).
En este ejemplo, la correlación controlada (o parcial) sería de 0,60. Es decir, ya no incluimos en la correlación
entre lengua y el CI el efecto causado por vocabulario, por ello eliminamos el sesgo que dejaba la correlación
de Pearson normal.
La correlación parcial es siempre menor que la original, porque elimina el peso de factores ajenos a la
correlación en si misma.
La correlación inicial o no controlada recibe el nombre de correlación de orden cero.
La correlación semiparcial elimina la relación de vocabulario solo con una de las variables, por ejemplo con
Lengua, dando un valor de 0,5. Siempre es menor que la parcial porque hay más cantidad de similitud entre
dos variables que entre tres.
La regresión lineal múltiple intenta predecir una VD a partir de varias VVII. El modelo general de la regresión
lineal múltiple es el siguiente:
Los supuestos son los mismos que en la regresión lineal simple, excepto uno extra:
Psicometría Apuntes Teoría Alexis Hancevich
La no colinealidad. La colinealidad es la presencia de correlación alta entre al menos dos de las VVII. No debe
haberla, pero si la hay, tenemos varias soluciones: eliminar una de las VVII, combinarlas, o utilizar una
regresión no lineal.
¿Qué patrón de correlaciones sería el ideal? Aquel en el que las VVII no correlacionan de forma elevada entre
si, pero si que correlacionan alto con la VD.
Al igual que en la regresión simple, se trata de ver todas las combinaciones posibles que hay entre todas las
variables, y quedarse con el mejor plano. Tenemos infinitos planos, y para quedarnos con el mejor
elegiremos el que haga mínimos los errores (criterio de mínimos cuadrados).
El coeficiente de determinación se calcula de la misma manera que el anterior, solo que en este caso es
múltiple, y se interpreta igual, de cero a uno.
Psicometría Apuntes Teoría Alexis Hancevich
Regresión jerárquica: Buscar la ecuación de regresión que ofrece el mejor ajuste con el menor número de
VVII. ¿Cómo sabemos cuáles son? Viendo las que tengan mayor coeficiente de determinación semiparcial
con Y.
Este procedimiento tiene la ventaja de que, al ser una combinación de los dos anteriores, va a producir
mejores resultados.
En SPSS, la primera tabla que aparece es la de la bondad de ajuste, que permite comprobar si la regresión
lineal (simple o múltiple) se ajusta a los datos o no.
El modelo 1 es una sola variable predictora.
El modelo 2 son dos variables predictoras.
Si nos preguntan por el ajuste o por una variable en particular, se mira la tabla de la regresión.
Al hacer el contraste, recordemos que el contraste en ANOVA es exclusivamente unilateral, por lo que H1
ha de ser mayor que cero.
En el modelo dos la H0 es igual que antes. El modelo uno de la tabla ANOVA y la tabla de regresión coinciden,
pero el modelo dos NO.
Ecuación de regresión: La ecuación de regresión se construye mirando otra tabla de SPSS, que se adjunta
debajo del párrafo. Encontramos los coeficientes beta en puntuaciones directas y tipificados, pudiendo
además ver si son significativamente mayores o menores que cero.
Por último, tenemos una última tabla que muestra las correlaciones de orden cero, parcial y semiparcial del
modelo. Es la siguiente:
Psicometría Apuntes Teoría Alexis Hancevich
Además de las correlaciones, a la derecha de la tabla encontramos los estadísticos de colinealidad. Son dos
pruebas que comprueban si se cumple el supuesto de no colinealidad o si no: Tolerancia y Factores de
Inflación de Varianza (FIV).
Tolerancia: Toma valores de cero a uno, y se calcula como 1 – R2j. Cuanto más se acerca a uno, menos
colinealidad hay en el modelo. Si es menor a 0,10 se asume que sí que hay colinealidad, por lo que
habría que tomar medidas para eliminarla (son las que hemos visto antes)
Factores de Inflación de Varianza (FIV): Se calcula como 1/Tolerancia. Si es mayor que diez, se asume
que hay colinealidad.
Análisis factorial (AF): Como se vió en los temas anteriores (aunque solo mencionado), la validez de la
estructura interna se mide mediante técnicas de análisis factorial. Por tanto, podemos definir el análisis
factorial como un conjunto de técnicas estadísticas empleadas para representar o resumir un conjunto de
variables observadas en un menor número de variables latentes (no observadas). Se reducen las
puntuaciones de un sujeto en muchas variables en un factor (factor latente). Se utiliza para ver cuántas
dimensiones tiene una prueba. El análisis factorial fue ideado por Galton (1883) que planteó que la idea de
la estadística debería descubrir métodos para resumir los hemos similares para una mejor ejecución, y fue
desarrollado por Spearman (1904). Este desarrolló el AF para validar su teoría bifactorial de la inteligencia
(Factor G y específicos). Por último, su discípulo Thurstone (1931) amplió el AF en su teoría de Aptitudes
Mentales Primarias.
El análisis factorial analiza la varianza común de un conjunto de variables. Con él se obtienen factores
latentes. Es adecuado para validar una teoría y parte de un modelo estadístico.
El análisis factorial sigue en la actualidad dos aproximaciones, denominadas análisis factorial exploratorio
(AFE) y análisis factorial confirmatorio (AFC). Aunque existen muchas diferencias entre ellos, ambos se basan
en el Modelo Lineal General. Sin embargo, y dada la relevancia de sus diferencias, vamos a estudiarlos por
separado.
El AFE se divide en cuatro etapas o fases: preparación inicial de los datos, extracción de los factores, rotación
de los factores, e interpretación de los factores.
a) Preparación inicial de los datos: Se seleccionan las variables que se pretenden analizar y se recogen
las muestras de tamaño adecuado, teniendo en cuenta todas y cada una de las consideraciones vistas
desde el comienzo de la asignatura hasta ahora. La elección debe estar guiada por la teoría. Esta fase
concluye con la matriz de correlaciones o la matriz de covarianza, a elección del investigador. En el
AFE en general se emplea la de correlaciones. Se denomina R y es una matriz de orden p (donde p es
el número de variables). Un análisis preliminar de esta matriz permite saber si vale la pena o no
realizar un AFE o no: Si las correlaciones son muy bajas, no tiene sentido pensar en la existencia de
factores comunes. Hay estadísticos que ayudan en esta toma de decisiones, como los de Kayser-
Meyer-Olkin y la prueba de esfericidad de Barlett.
b) Extracción de los factores: En esta fase se determina el número de factores que permiten explicar las
correlaciones entre las variables. Es también conocida como solución directa.
Transformaciones: Permiten comparar las puntuaciones de una persona en diferentes test, de diferentes
personas en un mismo test, o de diferentes personas en diferentes test. Distinguimos dos tipos:
Interpretación referida a las normas: Las P.D. se interpretan en función de grupos normativos (percentiles,
promedios, etc.)
Interpretación referida a un criterio: Las P.D. no se comparan con un grupo normativo sino con un criterio
(rendimiento laboral o académico, o recuperación de una determinada terapia).
Interpretación referida a normas (grupo normativo o grupo de referencia -grupos de edad o nivel educativo,
o incluso sexo- formado por un criterio relevante). La escala primaria es la puntuación directa que ha
obtenido el sujeto (la puntuación total del test). Es una puntuación sin transformar nada. La escala
Psicometría Apuntes Teoría Alexis Hancevich
transformada es una transformación de la primaria para comparar a un sujeto con el grupo normativo (por
ejemplo, escalas de CI). Hay dos tipos de transformaciones:
- Lineales: No alteran la forma de la distribución
o Estandarizadas: Tipificación de las puntuaciones (PD – Media) / DT. La ventaja es que todas
las PT tienen de Media = 0 y DT=1. Se interpretan como “Cuántas DTs se aleja la PD de la
media”. Por tanto, si un sujeto obtiene una Z=1, su PD está a una DT de la media.
o Estandarizadas derivadas: Es la puntuación T. Se calcula mediante la ecuación
fundamental del escalamiento lineal:
La T es producto de una regresión lineal simple, donde los coeficientes se calculan asi (T=
a + bX)
A= Media de T menos la Media de X
B= DT T entre DT X.
Esto es el caso, por ejemplo, del CI (en típicas).
Los centiles hay que redondearlos porque no tienen decimales. El centil más bajo no se
interpreta porque da error.
Los centiles no son una escala de intervalo, no corresponden con la misma distancia en
PD. No se pueden usar con estadísticos que requieran operaciones aritméticas. Son menos
estables para los valores medios de la distribución que para los valores extremos. Los que
están en la parte central difieren entre sí mucho más que los extremos entre sí. Entonces,
lo que sucede es que la parte central tiene mucha variabilidad y los extremos poca.
Como requisito, es obligatorio elegir correctamente el grupo normativo, para no acabar comparando a la
persona con quienes no se debe.
Tipos de normas:
- Nacionales: Muestras representativas nacionales. Edad, raza, sexo, estatus socioeconómico,
comunidad autónoma.
- Locales: Basados en comunidades más restringidas. Suelen ser el test educativos. Se refiren a la
población con las que el evaluado tiene experiencia directa. Funcionan muy bien para una
comunidad concreta pero no se pueden generalizar fuera de esa comunidad.
- De usuario: Evalúas a un numero de personas y haces los baremos en función de esos sujetos
únicamente. Se aplican por ejemplo en selección de personal al aplicar el test a los que acuden
en el proceso de selección. No son representativos. Es mucho menos útil que un baremo nacional
o local.
- De conveniencia. El peor de todos. Es casi igual que el de usuario. El de conveniencia es el que tu
realizas para baremar una prueba para unos sujetos concretos. Por ejemplo, los que hemos hecho
en clase.
Equivalencia de puntuaciones.
Formas alternativas: Diferentes formas de un mismo test que miden el mismo constructo, por ejemplo tests
adaptativos, en los que cada sujeto responde a un conjunto diferente de ítems. Para ello se utiliza la
equiparación, que son técnicas estadísticas que permiten ajustar o comparar las puntuaciones obtenidas en
diferentes formas de un mismo test. Esto es especialmente útil en diseños de medidas repetidas pre – post.
Únicamente lo veremos a nivel descriptivo. ¿Qué deben cumplir dos medidas para ser equiparables?
- Las dos formas deben medir el mismo constructo teórico
- Las dos formas deben tener la misma fiabilidad
- Indiferencia: Para cada grupo con la misma aptitud, la distribución de frecuencias condicional
sobre una forma es la misma que la otra, es decir, no se debería dar que una forma sea más fácil
y otra más difícil (rendimiento óptimo) ni que los criterios de respuesta cambien (rendimiento
típico)
- Invarianza poblacional: Los resultados con las dos formas deben ser iguales en cualquier grupo
seleccionado. Es decir, que si evalúas a dos grupos con formas distintas el total de sus
puntuaciones no puede diferir de uno a otro (ambos grupos han de tener la misma puntuación).
- Simetría: Se aplica cuando una forma tiene una escala de medida diferente a la otra, sea en rango
de valores o en tipo de escala. Los resultados en una forma han de ser equivalentes a la otra
Psicometría Apuntes Teoría Alexis Hancevich
(guardar una proporción en ambas formas), es decir, que el mismo sujeto no saque una
puntuación alta en una forma y media en la otra.
El problema de estas condiciones es que no suelen cumplirse las cinco. Por ello, en la práctica, si se cumplen
la de invarianza poblacional y la de simetría se asume que son equiparables.
Este procedimiento genera formas simétricas, permite que las puntuaciones de las dos formas
sean equiparables. Obtiene dos formas completamente equiparables. Es el ideal.
- Calibración: Permite unir y vincular dos test más diversos mediante un procedimiento
matemático. Es decir, es menos restrictivo. El problema que tiene es que el cálculo es muy
complejo, lo que implica una muestra de sujetos enorme (entre 1000 y 2000 sujetos). Ha de
cumplirse:
o Han de medir el mismo rasgo
o Han de tener mismo formato de ítems
La ventaja es que las formas pueden no ser iguales en longitud y dificultad. Obtiene dos fórmulas
equiparables.
- Modelación estadística: Se emplea con diferentes Tests que miden el mismo constructo. Este
procedimiento se emplea cuando dos formas miden el mismo rasgo pero son diferentes Tests (no
son equiparables las puntuaciones). No cumple el supuesto de invarianza poblacional, por lo que
no genera formas equiparables.
- Predicción: Se utiliza una forma para predecir la otra mediante la regresión lineal entre ellas. Se
necesita que el grupo haya respondido a las dos formas. Es el peor, pero es el menos restrictivo.
No cumple los dos supuestos principales, por lo que no obtiene formas equiparables. Pero es
mejor que nada.
Todo esto era para igualar dos formas a nivel matemático. Ahora veremos los diseños:
- Grupo único: Es el diseño ideal. A un grupo de sujetos se le aplican las dos formas. Asumiendo
que no hay efecto de aprendizaje, familiaridad o fatiga. Es el menos usado.
- Grupo único con contrabalanceo: Dividimos el grupo en dos y a la mitad se le aplica primero la
forma A y luego la B y a la otra mitad del grupo al revés. Es el mejor.
- Grupos aleatorios equivalentes: Cada forma del test se la aplicamos a un grupo diferente. Los
grupo deben ser equivalentes en el rasgo que mide el test. Cuanto mas grande sea el grupo, más
probable es por azar que estén equoarados.
Psicometría Apuntes Teoría Alexis Hancevich
- Grupos ni equivalentes con ítems de anclaje: Hay dos grupos no equivalentes y dos formas del
test, pero que incluyen ítems de anclaje (ítems comunes a las dos partes).
o Anclaje interno: Los ítems forman parte de las dos formas. La puntuación de cada forma
se calcula con los ítems de anclaje (todos los anclajes forman parte del cálculo del total).
o Anclaje externo: Los ítems no forman parte de las formas. La puntuación total de cada una
no se calcula con los ítems de anclaje.
Si los dos grupos puntuan igual en los ítems de anclaje, se asume que son equivalentes.
Métodos de equiparación:
1. Transformaciones lineales:
a. Equiparación en la media. Las dos formas difieren en una constante: la diferencia de medias.
Se asume que las puntuaciones diferenciales de la forma A (X - XMEDIA) y B (Y-YMEDIA) son
iguales, y se igualan.
b. Equiparación en típicas. Se igualan las diferencias de medias entre las desviaciones típicas.
2. No lineales:
a. Equiparación equipercentil. Produce mejores resultados que la media y la lineal (es mejor
procedimiento). Hace la equiparación basándose en los percentiles de las dos formas. Asume
distribuciones continuas de las puntuaciones. Se hace asi:
Las columnas rojas son copias de las azules recolocadas. Se mira el percentil rojo. ¿dónde cae
en el percentil X?. Què puntuación Y le corresponde? Se garantiza lo máximo posible que las
dos formas sean muy parecidas en puntuaciones. Las puntuaciones X e Y tienen misma media,
D.T, asimetría y curtosis, se encuentran en el rango de la escala inicial.
Psicometría Apuntes Teoría Alexis Hancevich
Limitaciones de la TCT:
- En la TCT hay varianza de los parámetros. La estimación de V depende de la muestra, y no debería
ser así. En la TRI no ocurre esto, pues no depende de los ítems aplicados ni de la muestra.
- En la TCT la precisión del test es la misma para el mismo nivel de rasgo o para todos los sujetos,
es decir, un test es igual de fiable para cualquier sujeto de la muestra sin tener en cuenta sus
condiciones individuales. La precisión depende, además, de la dificultad y discriminación del ítem.
La TRI, por su parte, calcula la fiabilidad para cada sujeto y cada ítem. Es mucho más precisa
porque se adapta a cada uno de los sujetos.
- En la TCT no se ofrecen indicadores de la bondad de ajuste del modelo a los datos. En la TRI
pueden calcular índices de bondad de ajuste.
En la TRI hay modelos para ítems dicotómicos y politómicos, pero en este tema veremos únicamente modeos
test de rendimiento óptimo dicotómicos.
- Curva característica del ítem: El eje vertical es la probabilidad de acertar el ítem para un nivel de
rasgo concreto. La escala del nivel de rasgo va de menos infinito a infinito, pero se representa de
-3 a 3.
En la TRI se emplea el modelo logístico, no lineal, para establecer estas curvas. La regresión lineal
no funciona bien porque tiene peor ajuste.
Psicometría Apuntes Teoría Alexis Hancevich
- Modelo logístico de un parámetro: Asume que los ítems varían sólo en un parámetro de
dificultad. Modelo de Rasch (no hay que sabérselo).
Cuanto más esté desplazada la curva hacia la derecha más difícil será el ítem (para la misma p de
acierto necesitas más nivel de rasgo), por tanto mayor valor tendrá la B. La B se calcula como el
equivalente al nivel de rasgo que tiene una probabilidad de acertar de 0,5. Se mira en la curva
característica del ítem.
- Modelo logístico de dos parámetros: Asume que los ítems varian en dificultad y discriminación.
- Modelo logístico de tres parámetros: Asume que los ítems varian en dificultad, discriminación, y
azar. A menor nivel de rasgo, más difícil es acertar al azar.
El modelo tres es el mas completo, pero requiere de tamaños muestrales bastante grandes (mas de 1000
sujetos). Los modelos 1 y 2 ajustan peor a ítems de opción multiple
El de 1 parametro se austa mal a los datos
- Independencia local fuerte: Las respuestas de una persona a un ítem no depende de las
respuestas a otro ítem. Las respuestas al ítem solo dependen del nivel de rasgo. Las respuestas
tampoco dependen del orden de presentación. La probabilidad de acertar un ítems es
independiente de la probabilidad de acertar otro. Se se da independencia local, se cumple que
no hay correlación entre ítems para un mismo nivel de rasgo (unidimensionalidad). Si se da
dependencia local positiva (no se cumple el supuesto), los ítems presentan correlacion positiva,
entonces miden todos lo mismo pero no lo que se quiere medir. Problema teorico. Si se da
dependencia negativa (correlacion negaetiva) los ítems miden dimensiones diferentes que no
tienen nada ue ver con el objetivo del todo, esto no tiene solución. Asumento que hay i.l.f, la
probabilidad de acertar un numero de ítems es igual al producto de las probabilidades de
acertarlos por separado, y la p de acertar el primero y fallar el segundo es P1 * Q2, y viceversa.
Bondad de ajuste:
La TRI solo se puede aplicar si los datos se ajustan a un modelo. Procedimineto:
- Estudiar el ajuste apra cada ítem entre la probabildad teorica y empírica de escoger cada opcoin
de respuesta según un nivel de rasgo
- Comparar la CCI teorica con la empírica
Metodos:
G2: Agrupa a las personas en intervalos según el nivel de rasgo estimado. Se cimpara la propabilidad
obercada en cada intervalo con la espr<da teóricamente.
Chi2: Es una shitporque tiende a rechazar la H0 y po ell invalidar la vomparacion, igual que el anterior.