Alpha
Alpha
Alpha
TÉCNICAS
PARA LA CONSTRUCCIÓN
DE CUESTIONARIOS
DE ACTITUDES Y OPCIÓN
MÚLTIPLE
INTRODUCCIÓN
Como investigador social, uno se da cuenta de lo importante que son la entrevista y los cuestionarios como
forma de recolección de datos.
Si uno busca bibliografía al respecto, resulta que muchos son los autores que nos platican de la entrevista;
sus técnicas, modelos y etapas; pero nuestra sorpresa nace cuando lo que revisamos bibliográficamente de
cuestionarios sólo va en torno a teoría e interpretación; olvidando la técnica completa y práctica.
El presente trabajo pretende cumplir con el objetivo más elemental en la elaboración de cuestionarios; ¿ como
hacer un cuestionario ?, para ello se exponen las técnicas estadísticas más convenientes.
Desde el inmemorable libro de Allen Edwards, Techniques of Attitude Scale Constructión impreso en 1957,
no se ha vuelto a escribir otro libro igual, un libro que explique clara y sencillamente la elaboración de
cuestionarios de actitudes. Este trabajo pretende explicar al estilo de Edwards los métodos de Likert,
Thurstone y Osgood.
Además de la medición de actitudes se trata, en este trabajo, un capítulo referente a cuestionarios objetivos en
general y de como elaborarlos.
Por último, presentan un anexo con una serie de definiciones sobre la medida de correlación ( elemento
estadístico indispensable para entender la aplicación de la mayoría de las técnicas descritas en este trabajo ) y
los ejercicios de aplicación de las técnicas de confiabilidad.
Creemos que con este libro el profesional y el estudiante encontrarán una respuesta amplia a algunas de sus
dudas sobre la construcción de cuestionarios. ¿ Sirve el cuestionario que elaboré ? ¿ Tiene validez y
confiabilidad ? ¿ Es representativo ?.
AGRADECIMIENTOS
Antes de pasar al contenido del libro me voy a permitir manifestar mi más profundo agradecimiento al Dr.
Gustavo Malo Camacho, Director del INACIPE, quien me brindó todo su apoyo para la publicación de este
libro; asimismo, al Maestro José Luis Rodríguez Herrera, Director de Sistemas Escolares de la UAM, quien
me incentivó de principio a fin en la elaboración del manuscrito; a la Psic. Carmen Islas, quien me apoyó
emocionalmente, además de revisar y criticar el contenido de esta obra.
A ustedes tres:
Muchas gracias.
3
CAPÍTULO 1
CONSTRUCCIÓN DE CUESTIONARIOS
Una manera ideal sería aplicar tanto la entrevista como el cuestionario al mismo sujeto. Sin embargo, como
sabemos, no siempre el investigador tiene todo el tiempo del mundo para hacer una investigación... y mucho
menos los sujetos entrevistados.
a) Abiertos: En los cuales las preguntas que se hacen están hechas para que el sujeto responda TODO lo
que quiera y cuanto se le venga en mente.
b) Cerrados: En los que el sujeto está condicionado a responder o a seleccionar cualquiera de las opciones que
se le presentan.
a. Me molestan.
b. Me producen malestares físicos.
c. No demuestran la capacidad del alumno.
d. Otra.
La desventaja de los cuestionarios abiertos es el cómputo de los resultados; sin embargo, su ventaja es la de
que el sujeto tiene la libertad de expresar lo que desea, sin restringirle ni influirle en su opinión (como sucede
con los cuestionarios cerrados). La gran ventaja que tienen los cuestionarios cerrados es la facilidad que
brindan para el análisis de los resultados, el cómputo y la estadística.
4
En realidad, para hacer un buen cuestionario cerrado se necesita pilotear (probar) las alternativas con un
cuestionario abierto.
El cuestionario más utilizado es el cerrado.
b) Elaborar las áreas que debe abarcar el cuestionario (por ejemplo: datos generales del sujeto, temas a
tratarse, etc.). Se recomienda para este paso que se comuniquen con científicos y/o teóricos del tema que
conozcan el contenido, a grandes rasgos aunque sea, de la investigación.
c) Generar tópicos (destellos intelectuales) de las áreas, elaborando algunas palabras, frases, etc., que nos den
una pista de las preguntas que deberán conformar el cuestionario final.
d) Clasificar los tópicos en las áreas, para distribuir correctamente las ideas.
e) Formular las afirmaciones y/o preguntas que creemos que formarán parte del cuestionario
f) Revisar si las afirmaciones y/o preguntas tienen que ver TODAS ELLAS con la hipótesis de la
investigación.
i) Generar (para el cuestionario piloto) al menos el doble o el triple de ítems (preguntas) que inicialmente se
habían calculado para el cuestionario final; por ejemplo, si se va a trabajar una dimensión de 20 ítems finales,
se deberán construir entre 40 y 70 reactivos. Cada dimensión (área) abarca aproximadamente entre 25 y 30
afirmaciones.
La palabra ACTITUD significa “la predisposición hacia un objeto y/o hacia una situación”. El cuestionario
de actitudes mide precisamente esta predisposición.
Las escalas de actitudes adquirieron mucho auge dado que permitían al investigador elaborar un cuestionario
CONFIABLE con una precisión elevada.
Hay muchas formas de hacer un cuestionario de actitudes, todo depende de la escala que se utilice. Han
existido muchas escalas de actitudes, entre las principales tenemos:
Aunque hay discusiones en torno a la escala de medición que emplean las escalas de actitudes, se ha optado
por considerarlas como INTERVALARES.
Otra de las discusiones que se presentan en torno a las escalas de actitudes es de que no miden lo que hace el
sujeto (la conducta), sino la predisposición hacia esa conducta).
5. ¿Cómo se construye un cuestionario de actitudes?
c). Evitar frases que no tengan relación con el objeto psicológico medido.
d). Evitar frases en las que casi nadie o todos estarían de acuerdo.
h). Evitar frases que contengan universalidad como: todos, siempre, nunca, ninguno, etc.
i). Se deben evitar palabras como SIMPLEMENTE (o pueden utilizarse con cuidado).
Dentro de los métodos de actitudes mencionadas anteriormente, el más utilizado por su sencillez y facilidad
es el de Rangos Sumarizados de Likert.
6
CAPITULO II*
Es una técnica para medir actitudes que cumple con las siguientes características:
Se elabora un cuestionario piloto (prueba) con un mínimo de 70 preguntas por cada dimensión * (Cfr.
capítulo I, punto 3): 35 son favorables y 35 desfavorables al objeto medido. Veamos un ejemplo:
b) Afirmaciones favorables al objeto medido = “la mujer logra mayor libertad si se le permite abortar”.
“Con la legalización del aborto la mujer logra su emancipación”.
c). Afirmaciones desfavorables al objeto medido = “El aceptar el aborto es aceptar el homicidio”, “La
legalización del aborto es un genocidio”
2. ¿Cuántas alternativas?
Esto no indica que no se puedan variar las alternativas, por ejemplo que puedan ir de Muy perfecto a
Imperfecto u otro contínuum, no importa cual.
Las opciones se califican del 0 al 4 o del 1 al 5 (TA = 5, A=4, I=3, D=2, TD=1 o TA=1, A=2, I=3, D=4,
TD=5), respetando siempre la favorabilidad de la pregunta. Así por ejemplo, si se califica el TA con un 5 en
una pregunta favorable, deberá ir un 1 en el TA de una pregunta desfavorable.
*
Por dimensión se entiende el objeto medido,el cualñ puede contener varias áreas ( ejemplo : la dimensión personalidad
puede incluir la áreas de manía, depresión, hipocondriasis, etc. )
7
Se tienen que desarrollar las instrucciones para la forma en que los sujetos van a contestar el cuestionario.
Las instrucciones deben ir en la primera hoja; deben ser lo suficientemente claras como para que no haya
equivocaciones ni confusiones en cuanto a la forma en que debe contestarse el cuestionario.
De preferencia, las instrucciones deben ir en una hoja sola, sin incluir ningún ítem.
Las afirmaciones favorables y desfavorables se revuelven, se pueden sortear para ver la forma en que se van
a quedar en el cuestionario. No van primero las favorables y después las desfavorables; tampoco va una
favorable y una desfavorable; van al azar.
Se aplica el cuestionario piloto. En el caso de haber un área de datos generales (sexo, edad, estado civil,
etc.) se pone antes de las afirmaciones que miden la actitud.
Se analiza cada pregunta por separado para saber si esa pregunta fue confiable o no. La técnica es la
siguiente:
Ejemplo:
AFIRMACION Puntaje
Sujeto 1 2 3 4 5 6 7 . . . . . 70 Total
1 1 4 5 5 1 1 3 . . . . . 3 23
2 2 3 3 3 3 2 4 . . . . . 1 21
3 3 3 1 1 5 5 5 . . . . . 1 23
4 5 5 2 5 2 4 1 . . . . . 1 24
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
50 1 5 3 3 4 1 1 . . . . . 5 18
El cuestionario piloto deber ser aplicado, según Likert, en al menos 50 sujetos. En ocasiones se utilizan 30
Ss, aunque no es suficiente.
b) Se ordenan los sujetos de mayor puntaje a menor puntaje (Siguiendo el ejemplo anterior)
Sujeto 4 ............24
Sujeto 1 ............23
Sujeto 3 ............23
Sujeto 2 ............21
............................
Sujeto 50 ..........18
8
c) Se selecciona el 25 de % sujetos con más altos puntajes y el 25% de sujetos con más bajos puntajes. Así,
como se puede ver, nos quedamos con un 50% de sujetos. Los Ss intermedios (tibios) se eliminan del análisis.
Así, por ejemplo, si se utilizaron 50 Ss nos quedamos con 25, 12 de ellos son de puntajes altos y 13 de ellos
con puntajes bajos (o al revés). Los otros 25 se eliminan del análisis.
d) Se seleccionan los cuestionarios de los Ss escogidos con el criterio anterior. Los demás cuestionarios se
pueden olvidar.
Ejemplo:
CUADRO 2
25% de Sujetos ALTOS
--------------------------------------------------------------------------------
A*
------------------------------------------------------------------
S* 1 2 3 4 . . . 70
-------------------------------------------------------------------------------
1 4 3 1 5 . . . 5
2 4 4 3 3 . . . 2
3 5 5 3 1 . . . 3
4 4 4 3 1 . . . 4
-------------------------------------------------------------------------------
CUADRO 3
25% de Sujetos BAJOS
--------------------------------------------------------------------------------
A*
------------------------------------------------------------------
S* 1 2 3 4 . . . 70
-------------------------------------------------------------------------------
1 1 1 1 1 . . . 1
2 2 3 1 3 . . . 3
3 3 1 2 2 . . . 2
4 1 3 1 1 . . . 1
-------------------------------------------------------------------------------
S*=Sujeto A*=Afirmación
Como se puede observar, se hacen dos tablas: una para el 25% de sujetos altos y otra para el 25% de sujetos
bajos.
Supongamos que se tenían inicialmente 16 sujetos en el análisis, y al sumar sus puntajes seleccionamos a
ocho de ellos (los que tuvieron el más alto puntaje y los que sacaron más bajo puntaje). Los ocho restantes (Ss
tibios) se eliminaron; por tanto, nos quedaron cuatro sujetos con puntajes altos y cuatro con puntajes bajos
(25% en cada grupo) (Cfr. cuadros 2 y 3).
Para poder llevar a cabo este análisis por cada pregunta es necesario vaciar los resultados de la pregunta 1
en los siguientes cuadros:
ANÁLISIS DE LA AFIRMACIÓN
UNO
CUADRO 4 CUADRO 5
25% de sujetos altos 25% de sujetos bajos
9
----------------------------------------- ---------------------------------------
x fa fxa fx2a x fb fxb fx2b
----------------------------------------- ---------------------------------------
1 0 0 0 1 2 2 2
2 0 0 0 2 1 2 4
3 0 0 0 3 1 3 9
4 3 12 48 4 0 0 0
5 1 5 25 5 0 0 0
----------------------------------------- ---------------------------------------
Σ 4 17 73 Σ 4 7 15
----------------------------------------- --------------------------------------
donde:
f) Se calcula la t (student):
f.1. Cuando el número de sujetos con puntajes altos ( na ) es diferente al número de sujetos con puntajes
bajos ( nb ) se calcula la siguiente t (student):
Xa − Xb
t= Ec. (1)
S a2 S b2
+
na nb
donde:
∑f a
∑f b
2
S = la varianza de las distribuciones de las respuestas del grupo
a
( ∑ fxa ) 2
∑ fx 2
−
alto =
∑(X a − X a )2
=
a
∑f a
na ( ∑ f a − 1)
2
S b =la varianza de la distribución de las respuestas del brupo
( ∑ fxb ) 2
∑ fxb2 −
bajo =
∑(X b − X b )2
=
∑f b
nb ( ∑ f b − 1)
f.2. Cuando el número de sujetos con puntajes altos ( na ) es igual al número de sujetos con puntajes bajos ( nb
), es decir, na = nb , la ecuación (1) se puede simplificar así:
Xa − Xb
t= Ec. (2)
∑( X ) + ∑(X )
2 2
a − Xa b − Xb
n(n − 1)
donde:
X a = igual que en la Ec. (1).
X b = igual que en la Ec. (1).
(∑ X )
2
( ∑ fxa ) 2
∑( X ) = ∑X
2
− Xa − = ∑ fx −
2 a 2
∑f
a a a
n a
(∑ X )
2
( ∑ fx ) 2
∑( )
2
Xb − X b = ∑ X b2 − = ∑ fxb2 −
b b
n ∑f b
Por tanto, las dos ecuaciones pueden quedar sustituidas por la terminología que hemos venido utilizando.
Para fines prácticos se podrían sustituir las ecuaciones (1) y (2) de la siguiente manera (Ec. (3) y Ec. (4),
respectivamente):
f.3. Cuando na ≠ nb
∑ fxa ∑ fxb
−
∑ f a ∑ fb
t=
(∑ fxa ) 2 ( ∑ fxb ) 2 Ec.( 3 )
∑ fx 2
− ∑ fx − 2
a
∑f + ∑f
a
b
b
( ∑ fa )( ∑ fa − 1) ( ∑ fb)(∑ fb − 1)
f.4. Cuando na = nb
∑ fxa ∑ fxb
−
∑ fa ∑ fb
t=
( ∑ fxa ) 2 ( ∑ fxb ) 2 Ec. 4
∑ fxa −
2
+ ∑ fxb −
2
∑f ∑ f
( ∑ f )( ∑ f − 1)
11
En cualquiera de las cuatro ecuaciones mencionadas si el puntaje de t (Student) es mayor o igual a 1.75 se
acepta el reactivo para que forme parte del cuestionario final.
A continuación se aplican las ecuaciones Ec. (3) y Ec. (4) en nuestro ejemplo, aunque realmente se debería
aplicar exclusivamente la ecuación (4) porque na = nb (Cfr. cuadro 4 y cuadro 5).
17 7
−
4 4 2.5 2.5
t= = = = 4.62
17
2
7 2 0.29 0.54
73 − 15 −
4 4
+
4(4 − 1) 4(4 − 1)
17 7
−
4 4 2.5 2.5
t= = = = 4.62
17 2 72 0.29 0.54
73 − + 15 −
4 4
4(4 − 1)
Interpretación:
Como nos podermos dar cuenta, la t calculada tanto en Ec. (3) como Ec. (4) nos dió 4.62; como 4.62 es
mayor a 1.75 se acepta la afirmación uno para que forme parte del cuestionario final
Es decir, que de las 70 preguntas iniciales, finalmente nos quedamos con 20 o 25, las cuales tienen puntajes
t altos (mayores a 1.75).
Recordar: de las 20 a 25 preguntas que formarán parte del cuestionario final la mitad deben ser favorables y
la otra mitad desfavorables.
Para elaborar el cuestionario final se sigue el mismo patrón de muestrear las afirmaciones al azar.
h) Después de aplicar el cuestionario final se puede aplicar cualquier método para detectar confiabilidad
general del instrumento (Kuder-Richardson), Spearman-Brown, Cronbach, etc.) (Cfr. capítulo VI).
Con un INSTRUMENTO VALIDO Y CONFIABLE, cualquier investigación que se haga con él traerá
inferencias interesantes y resultados verdaderos.
CAPÍTULO III
c) El método de intervalos sucesivos (Method of succesive intervals) es similar al anterior, con la diferencia
que se calculan las frecuencias con que los reactivos se asignaron a los 11 grupos como base para evaluar la
distancia entre ellos (Marín, 1975).
Aunque en forma muy escueta se han explicado los tres métodos de Thurstone, se recomienda leer más
detenidamente el libro de Allen L. Edwards (1957) para ejemplificar cada uno de los pasos que se deben
seguir al elaborar una escala de actitudes.
Los tres métodos utilizan jueces, cuando menos 100 jueces. Se recomienda tomar a los jueces de acuerdo a un
buen muestreo probabilístico, puesto que uno de los grandes problemas del sistema de Thurstone consiste en
que los juicios del jurado no son representativos de la población, por esta razón, algunos investigadores han
optado por utilizar mejor el método de rangos sumarizados de Likert. Sin embargo, consideramos que los
métodos de Thurstone son mucho más discriminativos que los de Likert, además el posible error puede quedar
resuelto si los jueces se seleccionan cuidadosamente al azar.
Los métodos de comparaciones apareadas y los intervalos sucesivos están diseñados para una escala de
medición de intervalo; mientras que el método de intervalos aparentemente iguales trabaja en escala ordinal.
De esta manera se puede utilizar la estadística apropiada en cada caso.
13
Uno de los problemas a los que se enfrenta un investigador social al trabajar con las actitudes, es el
de saber si las afirmaciones que eligió para medir una cierta actitud, son suficientes y necesarias para lograr
medir lo que se pretende medir con precisión.
En el libro de Edwards (1957), cuando habla del método de comparaciones apareadas, la fórmula para saber el
número de pares presentados a jueces, es la siguiente n(n-1)/2; de tal manera que si se tienen 20 afirmaciones,
se requieren 190 pares de afirmaciones; si se tienen 40 reactivos se requieren 780 pares de afirmaciones y así
sucesivamente; el método de intervalos aparentemente iguales resuelve este problema, puesto que trabaja con
menos jueces, a pesar de tener un número elevado de reactivos.
Originalmente este método fue descrito por Thurstone y Chave en 1929 (Edwards, 1957).
3. ¿Cuántas afirmaciones se elaboran?
Se elaboran las afirmaciones (de 50 a 60) que miden la actitud hacia un cierto objeto, de acuerdo con
las reglas detalladas en el Capítulo I, punto 5.
Se elaboran 11 cartones que tengan de la letra A a la K (del 1 al 11, respectivamente). Se le pide a los
jueces que clasifiquen OBJETIVAMENTE la favorabilidad o desfavorabilidad de un reactivo determinado, de
acuerdo con el siguiente contínnum:
A B C D E F G H I J K
Desfavorable Neutral Favorable
Es importante hacer hincapié en que se les está pidiendo a los jueces que sometan a un juicio objetivo
la tendencia (favorable o desfavorable) de cada ítem, NO SUS SENTIMIENTOS U OPINIONES QUE
TENGAN AL RESPECTO.
Según Thurstone y Chave (1929), 300 jueces se tardan en clasificar 120 afirmaciones en un tiempo
aproximado de 45 minutos.
Los puntajes que se le dan a los juicios van desde 1 hasta 11, considerándose la misma distancia entre
el 1 y el 2, el 2 y el 3, etc. Así 1=A (desfavorable), 2=B, 3=C, 4=D, 5=E, 6=F (neutral), 7=G, 8=H, 9=I, 10=J,
11=K (favorable).
Se calcula el valor escalar Ec. (5) y el rango intercuartilar (Ec. (6)) de cada afirmación de acuerdo
con las siguientes fórmulas:
14
donde:
VE=valor escalar o mediana o C50.
L= el límite inferior del intervalo en el cual la mediana se pasa.
frai=frecuencia relativa acumulada inferior; frecuencia por debajo del intervalo en donde la mediana
se encuentra .
frs = frecuencia relativa superior dentro del intervalo en el que el valor de la mediana se pasa.
I=la longitud del intervalo (en Thurstone siempre es 1).
donde:
Q=rango intercuartilar.
C75 =centil 75 (la misma fórmula que la de VE (Ec. (5) ), pero en lugar de .50 se sustituye .75)
C25 =centil 25 (la misma fórmula que la de VE (Ec. (5) ), pero en lugar de .50 se sustituye .25)
El rango intercuartilar (Q) tiene la función de medida de variación de ladistribución de los jueces.
A continuación se desarrolla un ejemplo del cálculo de VE y de Q:
Tomemos del cuadro 6 la primera afirmación y veamos la calificación que obtiene este reactivo a
partir de los jueces:
CUADRO 6
C A T E G O R Í A
Desfa- Neutral Favora
Afirma vorable --------- -
ción A B C D E - G H I J ble
1 2 3 4 5 F 7 8 9 10 K
6 11
f 2 2 6 2 6 62 64 26 18 8 4
1 fr .01 .01 .03 .01 .03 .31 .32 .13 .09 .04 .02
fra .01 .02 .05 .06 .09 .40 .72 .85 .94 .98 1.00
f 0 0 0 10 40 28 50 26 28 14 4
2 fr .00 .00 .00 .05 .20 .14 .25 .13 .14 .07 .02
fra .00 .00 .00 .05 .25 .39 .64 .77 .91 .98 1.00
f 0 0 0 2 8 6 26 44 56 44 14
3 fr .00 .00 .00 .01 .04 .04 .13 .22 .28 .22 .07
fra.001 .001 .00 .01 .05 .08 .21 .43 .71 .93 1.00
donde:
f = la frecuencia absoluta (número de jueces que clasifican al reactivo de acuerdo a su grado de
favorabilidad). Por ejemplo, la afirmación Num. 1 fue clasificada como desfavorable por dos
jueces (A); neutral por 62 jueces (F), y favorable por 4 jueces (K).
fr = la frecuencia relativa (Número de jueces que están dentro de cada clasificación, dividida entre el
total de jueces. Por ejemplo en la afirmación Num. 1 los 62 jueces que cayeron en la
clasificación 6 (F) divididos entre el número total de jueces (200), nos da .31).
fra = la frecuencia relativa acumulada (suma acumulada de las frecuencias relativas -fr-. Así por
ejemplo en la Afirmación Núm. 2 en la clasificación D, la fr vale .05, sumando al fr de E (.20)
da en fra = .25; este .25 sumdo al fr de F (.14) da .39, y así sucesivamente).
15
Para calcular la mediana o C50 de la distribución de los jueces es necesario multiplicar .50 X número
total de jueces. En nuestro ejemplo sería .50 X 200 =100.
A continuación se van sumando las f hasta pasarse de los 100; 2+2+6+2+6+62=80, todavía faltan 20
para los 100. Estos 20 se encuentran en el intervalo siguiente, el cual tiene 64 jueces. No importa si se pasa
(80+64=144). Si vemos con cuidado, el intervalo en el cual se encuentran los 64 fue el G(7). Por tanto, el
límite inferior del intervalo en el cual la mediana se pasa, en nuestro ejemplo es el límite inferior de 7=6.5.
b) frai = frecuencia relativa acumulada inferior; frecuencia por debajo del intervalo en donde la mediana se
encuentra. Ya vimos que la mediana se encuentra en el intervalo G(7), por tanto frai será el anterior, es decir
F(6) y la frecuencia relativa acumulada que se encuentra por debajo de F(6) es de .40.
c) frs= frecuencia relativa superior dentro del intervalo en el que el valor de la mediana se pasa. Si la mediana
se encuentra en G(7), el intervalo que se pasaría sería el mismo G(7), puesto que no hay que olvidar que la
mediana de 100 se pasa por 44 sujetos en este intervalo, por tanto la frecuencia relativa que hay debajo de
G(7) es .32.
a) L=.75 X 200 = 150; 2+2+6+2+6+62+64=144 faltan seis jueces para completar los 150, los cuales se
encuentran en el siguiente intervalo H (8) con 26 sujetos. Por tanto, el límite inferior es de 7.5.
b) frai = el intervalo anterior al H(8) en el cual se encuentra el C75 es G(7); por tanto, la frecuencia relativa
acumulada que se encuentra por debajo de este intervalo es .72.
c) frs= el intervalo en el que el C75 se pasa es el mismo H(8) que se excede por 20 jueces. Por tanto, la
frecuencia relativa por debajo de H(8) es .13.
d) I = 1.0.
C75 = 7.5 + ((.75-.72)/.13)(1.0) =7.7 (Cfr. Ec. (5))
a) L = 5.5
b) frai = .09
c) frs = .31
d) I = 1.0
C25 = 5.5 + ((.25-.09)/.31)(1.0) =6.0 (Cfr. Ec. (6))
Resumiendo la afirmación No. 1 tiene un VE =6.8 y una Q = 1.7. Este mismo procedimiento se debe efectuar
para todas las afirmaciones. Es decir, tendremos tanto valores escalares y rangos intercuartilares como
afirmaciones tenga el cuestionario.
16
Se ordenan todos los reactivos de acuerdo a sus VE en orden progresivo ascendente; por ejemplo,
supongamos que se tienen los siguientes valores de 10 afirmaciones:
CUADRO 7
------------------------------------------------------
Afirmación VE Q
-----------------------------------------------------
1 .66 1.8
2 1.45 2.1
3 1.78 1.6
4 2.53 1.3
5 2.53 1.9
6 4.86 2.9
7 5.20 1.2
8 7.36 9.4
9 9.42 3.6
10 10.93 1.0
----------------------------------------------------
Se deben seleccionar de 20 a 25 afirmaciones por cada dimensión, las cuales formarán parte del
cuestionario final. Lo idóneo sería 22 afirmaciones para abarcar todo el contínuum desfavorable-favorable.
Idealmente las afirmaciones que formen el cuestionario deberían cumplir con los siguientes requisitos:
a) Los VE deberán aproximarse lo más posible a los 22 valores 1, 1.5, 2, 2.5, 3, 3.5, 4, 4.5, 7, 7.5, 8,
8.5, 9, 9.5, 10, 10.5, 11. Por ejemplo, la afirmación 9 del cuadro 7 se acerca bastante al 9.5 como ideal del
contínuum (9.42 sustituiría al 9.5).
b) Sus Q deberán ser lo más pequeños posible para asegurar la homogeneidad y concordancia entre
los jueces. Si analizamos con cuidado el cuadro 7, las afirmaciones 4 y 5 poseen el mismo VE (2.53) pero no
el mismo Q; el criterio de selección se hará en torno a la afirmación 4, que es la que tiene el Q más pequeño
(1.3 menor a 1.9). Se recomienda elaborar unas 50 o 60 afirmaciones piloto con objeto de tener las suficientes
para seleccionar las mejores y poder abarcar el contínuum.
Se elabora el cuestionario final con las 20, 22 o 25 preguntas seleccionadas y se aplica directamente a la
muestra en estudio.
Los Ss. solamente contestarán si están de acuerdo o en desacuerdo con cada afirmación.
17
CAPITULO IV
El método del diferencial semántico (DS) de Charles E. Osgood no había sido elaborado para medir
actitudes, sino que se encaminó para explorar las dimensiones del significado.
El diferencial semántico mide las reacciones de los individuos a objetos semánticos (Summers, 1976); sin
embargo, Oswood, Tannenbaum y Suci (1957) definieron su posición con respecto a la adaptación del
diferencial semántico a la medición de actitudes.
En cuanto a la confiabilidad del diferencial semántico “Tannenbaum (1953) obtuvo datos de confiabilidad
TEST-RETEST. Seis conceptos... fueron juzgados en relación a seis escalas evaluativas.... por 135 sujetos en
dos ocasiones separadas entre sí por cinco semanas... Los coeficientes Test-retest variaron desde .87 a .93...
(Summers, 1976, p.280).
En cuanto a la validez del diferencial semántico se considera bastante razonable. Al compararse con el método
de Thurstone se obtuvieron coeficientes de validez que se elevan a 0.90 o más, y de manera similar sucedió
con respecto la comparación entre el diferencial semántico y la escala de Guttman.
El método del diferencial semántico es fácil de preparar, aplicar y codificar.
Cuando los sujetos están muy involucrados en determinado asunto y desean dar respuestas deseables
socialmente, es conveniente utilizar otra técnica que no sea la del Diferencial Semántico.
El DS mide el significado connotativo de diversos estímulos (colores, objetos, dibujos, etc.), pero básicamente
de estímulos verbales. Presenta tres supuestos básicos.
a). El resultado de la evaluación o juicio puede concebirse como el lugar en que el estímulo ocupa en un
continuo experiencial definido por dos términos (adjetivos bipolares).
18
b). Muchos de los continuos experenciales son esencialmente equivalentes, y por tanto se pueden
representar unidimensionalmente.
c) Un espacio semántico (numero limitado de continuos que miden cualquier estímulo) contiene básicamente
tres factores importantes: factor evaluativo (V) factor potencia (F) y factor actividad (A).
Supongamos que vamos a medir autoimagen entre solteros y casados; la variable dependiente (autoimagen) es
el estímulo. Si analizamos nuestro ejemplo podemos inferir que la autoimagen podrá dividirse en tres áreas de
estudio: biológica, psicológica y social.
Dichas áreas pueden formar parte del cuestionarios (Cfr. Capítulo Y punto 3). Cada una de estas tres
divisiones se convierte, a su vez, en un subestímulo biológico... ¿Cuántas afirmaciones se le pueden ocurrir a
usted que estén relacionadas con la autoimagen biológica? Podrían ser:
Es necesario seleccionar los estímulos (o sub-sub-estímulos que hablamos antes) que mejor midan la variable
de tal manera que es conveniente descartar aquellos estímulos (frases) que menos tienen que ver con el objeto
medido.
¿Cuáles de las siete frases de nuestro ejemplo anterior usted eliminaría por medir menos el aspecto biológico
de la autoimagen? ¿Eliminaría mi barriga o mis oídos? Un criterio más objetivo para eliminar las frases que
menos tienen que ver con la variable medida es poniéndolas a prueba con un grupo de jueces y calcular a cada
estimulo su valor escalar y rango intercuartílico (Cfr. el método Thurstone, capítulo III de este libro). Se les
podrían presentar las siguientes instrucciones a los jueces: “A continuación aparecen una serie de frases, las
cuales quisiéramos que usted calificara del 1 al 5 dándole el número 1 a la frase que a su criterio más tenga
que ver con la variable de autoimagen biológica; el número 2 para la frase que le sigue en importancia, hasta
el número 5, que se lo dará a la frase que menos tiene que ver con la variable”.*
En seguida se les deben prestar a los jueces las frases en esta forma:
Mi cerebro ( )
Mi barriga ( )
Mis oídos ( )
Mis piernas ( )
Mi cuerpo ( )
Una vez aplicadas a los jueces entre 50 y 75, se procede a calcular el valor escalar y rango intercuartílico de
cada frase.
Se seleccionaran aquellas frases que tengan el valor escalar y rango intercuartílico más bajo.
*
Los números y palabras en bastardillas del párrafo anterior indican que variarán de una investigación a otra,
dependiendo la cantidad de frases y la variable medida.
19
Eso depende de las áreas que mida el instrumento; sin embargo, entre cuatro y siete frases por área es
suficiente.
En nuestro ejemplo de autoimagen serían 15 frases (cinco para el área biológica, cinco para el área
psicológica y cinco para el área social). Es recomendable presentarle a los jueces el doble de los estímulos de
los que se van a seleccionar. Por ejemplo si se van a seleccionar cuatro estímulos habría que presentarle a los
jueces ocho; si fueran siete se presentarían 14, etc.
Es importante remarcar que este procedimiento de selección de frases estímulo no está expuesto por Osgood;
sin embargo es un sistema bastante objetivo para poder seleccionar cada frase o palabra que será utilizado en
el DS.
Una vez escogidas las frases se deben seleccionar los adjetivos bipolares que deben llevar todas ellas.
Para mantener la objetividad en la selección del estímulo que se presenta a los sujetos es necesario escoger
adjetivos bipolares de la estructura EPA, o sea que se deben considerar adjetivos de los tres factores:
Evaluativo, potencial y Actividad; sin embargo, según Marín (1975) se puede escoger uno de los factores de
acuerdo a la dimensión que se quiere estudiar y “desde luego aquellos que tengan una relación directa con el
estímulo” (Marín, 1975, pp.51-52). Con esto se quiere decir que al seleccionar una frase, los adjetivos
bipolares deben tener sentido para ese estímulo. Si, por ejemplo, se escoge el adjetivo grande-chico, podría
perfectamente aplicarse a una frase: “Yo, como persona”; sin embargo, el adjetivo amrgo-dulce tiene menos
aplicabilidad a “yo, como persona”.
7. ¿Qué adjetivos bipolares pertenecen al factor Evaluativo, cuáles al de Potencia y cuáles al de Actividad?
El número de adjetivos que pueda existir es tan grande como el idioma en sí; sin embargo, unos adjetivos
tienen más peso y funcionan mejor que otros, dependiendo del idioma, la cultura e idiosincrasia de un país
(Díaz Guerrero y Salas, 1975).
Para saber qué adjetivo pesa más que otro se lleva a cabo un análisis factorial junto con una lista estandarizada
de sustantivos y se obtienen los calificativos para formar los opuestos y se construyen las escalas bipolares
(Díaz Guerrero y Salas, 1975, pp. 57-67). Como este procedimiento es lento y difícil, en México se probaron
los adjetivos bipolares que más tienen que ver con la cultura mexicana (Díaz Guerrero y Salas, 1975).
A continuación aparecen los factores y adjetivos bipolares que le corresponden (cuadro 8).
Cuadro 8
Notas importantes:
a) La lista de adjetivos bipolares que se encuentran anterior a la línea punteada fue elaborada por Díaz
Guerrero y Salas (1975) en México, y la segunda lista (por debajo de la línea) fue presentada por Marín
(1975).
b) Díaz Guerrero (1975) menciona una forma abreviada del DS en la que incluye todos los adjetivos
bipolares que aparecen con asterisco (*) con los siguientes cambios: en lugar de suave-duro colocó blando-
duro y agregó dos adjetivos más: agradable-desagradable y familiar-no familiar.
c) El signo positivo (+) indica que el adjetivo alineado en esa columna es favorable al factor; mientras que el
signo negativo (-) indica que el adjetivo es desfavorable al factor. Por ejemplo, bueno es favorable al factor
de Evaluación y malo es desfavorable.
La cantidad varía; sin embargo, Díaz Guerrero (1975) selecciona tres o cuatro de cada factor (EPA).
Los adjetivos que tienen un asterisco (*) serían un ejemplo claro de los que podrían seleccionarse; sin
embargo, habría que fijarse en el adjetivo bipolar que más tenga sentido con lo que se está midiendo (Cfr.
punto 6 de este capítulo).
Seleccionadas las frases (estímulos) y los adjetivos bipolares correspondientes, se procede a elaborar el
cuestionario que será aplicado a los sujetos con todo y sus instrucciones.
“A continuación aparecen una serie de conceptos o frases, las cuales debe someter a su juicio personal. En
cada página se encuentra un concepto o frase diferente, debajo del cual (o la cual) se encuentra una escala en
la cual deberá evaluarse el concepto o frase.
Usted debe colocar una cruz en el espacio que a su juicio mejor mida el concepto o la frase.
Entre más cerca se ponga la cruz (X) del adjetivo, más se está de acuerdo con ese adjetivo.
Trate de no clasificar algún concepto o frase dentro del espacio D (neutro); sin embargo, si considera que la
escala no tiene ninguna relación con el concepto o frase cruce el espacio D.
X
Bueno ____:____:____:____:____:____:____: Malo
Trate a cada escala por separado y no vuelva atrás una vez que ya marcó algo. Conteste tan rápido como le
sea posible, ya que lo que cuenta es lo primero que le venga a la mente; sin embargo, debe hacerlo con mucho
cuidado.
Una vez colocadas las instrucciones en una hoja por separado se presenta cada concepto o cada frase en una
hoja (también por separado)
Ejemplo:
Cuadro 9
_____________________________________________________
Mi cuerpo
Como se puede observar, los nueve adjetivos calificativos bipolares pertenecen a los tres factores
(EPA) de tres en tres, respectivamente (Cfr. Cuadro 8).
Los adjetivos se revuelven entre los factores y la favorabilidad, o sea que no tienen que estar alineados
necesariamente (los tres o cinco adjetivos del factor evaluativo, en primer lugar; los tres o cinco adjetivos del
factor potencia en segundo lugar, etc.). Como sucede en nuestro ejemplo; sin embargo, es conveniente
revolverlos para evitar prejuiciar al sujeto. Por otro lado, si observamos con cuidado el ejemplo del Cuadro 9,
cuatro adjetivos van de positivo (favorable) a negativo (desfavorable) y cinco de negativo (desfavorable) a
positivo (favorable).
Cuadro 10
__________________________________________
De + a - De - a +
_________________________________________
Bueno Despreciable
Lindo Débil
Grande Corto
Joven Pasivo
Lento
Es importante compensar que la mitad de los adjetivos bipolares vayan de + a - y la otra mitad de - a + ;
podrían también intercalarse uno y uno para evitar que el sujeto no ponga atención y prejuiciarlo en las
respuestas.
Mi cuerpo
Bueno___:___:___:___:___:___:___: Malo
7 6 5 4 3 2 1
Lento ___:___:___:___:___:___:___: Rápido
1 2 3 4 5 6 7
Grande___:___:___:___:___:___:___: Chico
7 6 5 4 3 2 1
Quizá piense que de lo que se trata es de hacer más puntos o muchos puntos, y por lo tanto desvirtuaría todo el
sentido del DS.
Sin embargo, esto podría aceptarse si el número de cuestionarios a aplicarse fuera muy grande, siempre y
cuando se agregara en la INSTRUCCIÓN:
“Los números que hay debajo de cada línea nada tienen que ver con su juicio; tampoco se trata de hacer más
puntos o menos puntos, tan sólo queremos saber su opinión al respecto.”
23
Una vez seleccionadas las frases, los adjetivos bipolares y la escala, la estadística que puede aplicarse depende
de lo que se busca. Como la escala adjudicada es intervalar, se pueden calcular medias, desviaciones estándar,
correlaciones de Pearson, etc., o lo que sea necesario para responder a las hipótesis.
Cuadro 11
2 13 78
26
15
11
14
11
3 12 71
21
13
14
La primea Fase La segunda Fase La tercera Fase La Cuarta Fase La quinta Fase
Puntaje Suma del Puntaje Suma del Puntaje Suma del Puntaje Suma del Puntaje Suma del
área área área área área
15 76 27 76 11 76 12 76 11 76
13 78 25 78 15 78 11 78 14 78
11 71 12 71 21 71 13 71 14 71
Se calcularán las cinco correlaciones de Pearson, y si la correlación es positivamente significativa quiere decir
que la frase tiene consistencia con respecto al área.
Según la experiencia de Osgood, Tannenbaum y Suci (1953), el tiempo que se tarda un sujeto en contestar un
cuestionario del DS depende de la cantidad de frases o conceptos (estímulos) y la cantidad de adjetivos
bipolares para cada estímulo.
A grandes rasgos, determinaron durante 10 años que a un estudiante universitario, al nivel más bajo, le toma
de 10 a 15 minutos responder 10 conceptos o frases con 10 escalas bipolares cada uno o una (un total de 100
ítems); alrededor de una hora para 40 conceptos con 10 escalas bipolares cada uno (400 ítems).
Estos cálculos son gruesas aproximaciones que varían, dependiendo del tipo de frase o concepto y de los
adjetivos.
a) Rápido de elaborarse.
b) Maneja una estadística sencilla.
c) Es de fácil y rápida aplicación.
d) Generalmente presenta alta confiabilidad y validez.
Puede aplicarse con cualquier clase de estímulos: adjetivos, verbos, grupos étnicos, autoimagen, láminas de
pruebas proyectivas, figuras, nombres de personas, etc. (Marín, 1975).
CAPÍTULO V
Para este tipo de cuestionarios (o pruebas) se deben calcular los coeficientes de confiabilidad, así como la
validez; sin embargo, es importante realizar un estudio detallado de las opciones, la clave (respuesta correcta),
el índice de dificultad y el índice de discriminación. Asimismo, las etapas de elaboración de un cuestionario
de opción múltiple no difiere de los mencionados en el Capítulo I, punto 3.
A continuación se detallan los procedimientos más importantes que se deben tomar en cuenta cuando se
elaboran pruebas objetivas (exámenes, tests psicológicos, etc.).
Aquí nos referiremos a los porcentajes y números absolutos de cada ítem, analizando específicamente la
frecuencia absoluta y porcentajes de cada opción, contrastándola con el número total de sujetos presentados.
25
De esta manera, la frecuencia (Frec.) es la cantidad de sujetos que escogen cada opción.
Para ver un ejemplo se recomienda confrontar el primer ejercicio de aplicación de este trabajo (cfr. capítulo
VII puntos 3 y 4).
Se entiende por la clave la opción correcta. No todos los cuestionarios de opción múltiple tienen una clave
(por ejemplo, los de opinión).
La estadística que se utiliza es de frecuencias y porcentajes para cada clave por cada 20% de sujetos, los
cuales irán clasificados desde los puntajes más bajos hasta los más altos. De esta manera, el análisis se hará
desde el 20% de sujetos con más bajo puntaje hasta el 20% de sujetos con más alto puntaje.
En cada 20% se pondrá la frecuencia y porcentajes de sujetos que acertaron a la clave de un ítem determinado
(Cfr. Ec. (8) y capítulo VII punto 4).
Se utiliza para analizar qué tan efectivo es un ítem. Cada ítem debe discriminar correctamente, es decir, los
sujetos con altos puntajes deberán tener, en proporción mayor, el número de respuestas concretas que los
sujetos con bajos puntajes.
Por lo general este índice se calcula contrastando el 25% de sujetos de más alto puntaje con el 25% de sujetos
de más bajo puntaje (tal y como lo hace la técnica de rangos sumarizados de Likert) (Cfr. capítulo II punto 7);
se sugiere contrastar este índice (ID-25) con otro que contraste el 50% de sujetos con alto puntaje con el 50%
de los sujetos de puntajes más bajos; de la misma manera se puede calcular con el 33%. Se denominarán ID-
50 e ID-33, respectivamente.
Para analizar un ejemplo del ID se recomienda ver el primer ejercicio de aplicación de este libro (Cfr. capítulo
VII punto I ).
El ID debe ser mayor o igual a 0.40. El valor máximo que se puede obtener es ID=1.00 (indicará que es
perfectamente discriminatorio).
El DIF debe oscilar entre 0.20 y 0.80, considerando como ideal 0.50. Un valor DIF = 1.00 indica que el ítem
es totalmente fácil y un valor DIF = 0 indica que el ítem es totalmente difícil (Cfr. capítulo VII punto 2).
donde:
S2i = La varianza del ítem i.
p = Proporción de gentes que contestan correctamente el ítem.
q = 1-p.
Se propone el siguiente formato de salida para reportar el análisis de cada ítem con cinco opciones:
EXAMEN: CÓDIGO:
ANÁLISIS GENERAL
OPCIÓN ÍNDICES
______________________________________ ID - 25 =
A B C D E ID -33 =
______________________________________ ID -50 =
DIF =
Frec. % S2 i =
______________________________________
CAPITULO VI
Si tomamos una investigación y la analizamos con calma, veremos que pueden suceder dos cosas :
Tanto en a1 como en b2 se peca de ignorancia. Asunto sumamente peligroso si se trata de inferir o representar
una cierta realidad.
¿Cómo sabemos si medimos con precisión?, o lo que es peor ¿ como sabemos si medimos lo que quisimos
medir ? Total, si no se sabe la confiabilidad y validez de una investigación, del diseño o del instrumento
quiere decir que medimos algo (quién sabe qué) y a lo mejor mal (sin precisión).
Muy pocas. Creemos que este problema de ignorancia metodológica y estadística no es problema de
investigador sino de las fuentes a las que recurre para documentarse y saber cómo se calculan o se aplican la
confiabilidad y validez. Muchos autores se pierden en el paraíso de las definiciones abstractas y en ocasiones
ambiguas de estos conceptos, sin dar a conocer un ejemplo PRACTICO de cómo podrían aplicarse.
En este libro no se pretende hacer un panegírico empíricista ni un exordio al pragmatismo, pero por lo
menos se busca que el estudioso sea capaz de aplicar (llevar a la PRACTICA) los dos conceptos clásicos de
una investigación empírica: Confiabilidad y Validez.
a) Congruencia porque las variables y sus indicadores deberán medir la misma cosa.
b) Precisión porque uno mismo deberá de reproducir varias veces la investigación y deberá obtener los
mismos resultados.
c) Objetividad porque varios experimentadores deberán realizar la misma investigación y llevar a las mismas
conclusiones.
d) Constancia porque la forma de medición del objeto no debe alterar los resultados.
De alguna otra manera sería la correspondencia entre las variables, los indicadores, las definiciones y la
operacionalización de éstos.
Es decir, la validez interpreta la relación lógica entre las definiciones y las construcciones (ítems,
afirmaciones, preguntas, aparatos eléctricos, etc) así como la relación empírica del objeto medido con las
hipótesis; en una palabra, representatividad. ¿Es representativo nuestro estudio?
Para entender mejor la diferencia entre los dos conceptos veamos los siguientes diagramas (Phillips, 1980)
:
DIAGRAMA No. 1
*
29
*
*
*
*
Supongamos un “tiro al blanco” al cual se le disparan cinco tiros. En el diagrama No. 1 se puede observar
como todos los tiros se encuentran dispersos. Aquí no hay ni precisión ni tampoco se dispara a donde se
debería de disparar (al centro del blanco), por tanto el francotirador no tiene ni confiabilidad ni validez.
**
***
**
**
*
En el diagrama No. 2 el rifle o el francotirador se encuentran suficientemente mejorados; hasta se podría decir
que son bastante precisos (confiables), todos los puntos están muy cerca uno del otro. El grave problema del
tirador es que no le está dando a donde le debería de dar (al centro del blanco), se podría decir que el tirador
tiene problemas de validez, pero no de confiabilidad.
En el diagrama No. 3 el tirador da con precisión los cinco tiros exactamente en el blanco. Aquí, se ha
disparado con confiabilidad y validez.
Como nos podemos dar cuenta, las malas investigaciones corresponden al Diagrama No. 1 que miden todo
menos lo que pretenden. Las investigaciones regulares corresponden al Diagrama No. 2 que miden algo muy
bien, pero no lo que pretenden medir; por último las buenas investigaciones corresponden al Diagrama No. 3
las cuales miden con precisión lo que pretenden medir.
El Diagrama No. 2 representa como una investigación puede ser confiable pero no válida, sin embargo, no se
puede hacer que una investigación mida lo que pretenda medir sin la precisión. Por tanto, es un requisito para
la validez, la confiabilidad.
En general, los estudios concuerdan en que hay 6 formas de obtener confiabiabilidad de una prueba o escala:
La confiabilidad se consigue, en este caso (Marin, 1975) aplicando las misma prueba a los mismos sujetos en
dos ocasiones distintas.
Se debe mantener constantes todas las condiciones y variar únicamente el momento en el que se aplica la
prueba.
Para evitar caer en la sensibilización de la primera sobre la segunda aplicación (Cfr. factores que atentan
contra la validez interna en Campbell y Stanley, 1970, p. 17) se deben dejar transcurrir entre uno y seis
meses.
El cálculo estadístico es muy sencillo, todo depende del coeficiente de correlación (para mayor información
Cfr. anexo).
r=
(∑ X )(∑ Y )
N ∑ XY −
[ N ∑ X − (∑ X ) ][ N ∑ Y − (∑ Y ) ]
- - - - - - - - - - - - - - - - - - - - - - Ec. 11
2 2 2 2
donde :
La confiabilidad se consigue en este caso, aplicándole a los mismos sujetos dos pruebas distintas,
consideradas como paralelas porque miden lo mismo.
El cálculo estadístico es en realidad el mismo que en el caso anterior, con el coeficiente de correlación
(Cfr.anexo).
Sustituyendo en la Ec. (11 ) la “X” representa la primera prueba y la “Y” la segunda prueba.
Se debe tener cuidado para que en realidad las dos pruebas midan lo mismo.
Lo complicado de este método radica en elaborar dos instrumentos en lugar de uno.
Para saber como se aplica el coeficiente de correlación de Pearson se recomienda confrontar el anexo de este
libro.
El modelo alpha está basado en el cálculo del de Cronbach y es quizá el coeficiente de confiabilidad más
utilizado por los investigadores.
31
K
K
∑ si2
α= 1 − i =1 2 Ec. (12)
K −1 sT
donde :
K = número de ítems (preguntas, afirmaciones, reactivos, etc.).
si2 = la varianza el instrumento del ítem “i” (subprueba, variable, columna “i”).
sT2 = la varianza de la suma de los K ítems.
En muchas ocasiones, es necesario estandarizar los valores (las observaciones) del cuestionario, dividiéndolos
a cada uno de ellos, entre la desviación estándar del ítem, en este caso, el alpha de Cronbach se denomina
“alpha estandarizada”.
Kr
αs =
[
1+ (K −1)r ] - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -Ec. (13)
donde :
K = número de ítems.
r = la media de las correlaciones entre los ítems (Cfr. Ec. (11) y Anexo).
La confiabilidad se consigue correlacionando una mitad de los reactivos del cuestionario con la otra mitad.
Generalmente se usan las preguntas pares por un lado (X) y las preguntas nones por el otro (Y); aunque se
pueden correlacionar las mitades tomando los ítems, para cada mitad, totalmente al azar. Otra forma sería
correlacionar la primera mitad de ítems contra la segunda mitad ( tal y como lo hace el paquete
computacional SPSS Statistical Package for the Social Sciences release 7-9, 1931). Para calcular esta forma
de confiabilidad, es necesario saber si hay igualdad de varianzas en las dos mitades, para tal efecto, es
necesario aplicar una F de Snedecor (Cfr. Ec. (14) para probar las hipótesis :
H0 :σ 12 = σ 22
Ha : σ 12 ≠ σ 22
donde :
σ 12 = varianza de la primera mitad.
σ 22 = varianza de la segunda mitad.
e.1) El primero (rSb ) se utiliza cuando las varianzas de las dos mitades (X y Y) son iguales
significativamente y con un número de ítems igual en cada mitad.
e.2) El segundo (rg ) se utiliza cuando las varianzas de las dos mitades (X y Y) son distintas
significativamente ( el número de ítems de cada mitad puede ser diferente ).
e.3) El tercero (rr ) se utiliza cuando las varianzas son iguales o diferentes, pero con el mismo número de
ítems en cada mitad.
CUADRO 12
S P2
F= - - - - - - - - - - - - - - - - - - Ec. (14)
S N2
donde :
2
S P = es la varianza mas alta.
2
S N = es la varianza mas baja de las mitades.
e.2) Modelo de Spearman-Brown ( rsb ) : Para el caso en el que las varianzas y el número de ítems en
cada mitad son iguales.
2r
rsb = - - - - - - - - - - - - - - - - Ec. (15)
1 + r
donde :
r = es el coeficiente de correlación de Pearson entre las mitades ( Cfr. Ec. (11) y anexo ).
33
Para el caso en que las varianzas sean distintas pero con el mismo número de ítems en cada mitad.
SD2
rr = 1 − 2 - - - - - - - - - - - - - - -Ec. (17)
ST
donde :
2
S D = es la varianza de las diferencias entre las puntuaciones, de cada caso, en las dos mitades de la
prueba.
∑D ∑ D
2 2
S 2
D = −
K K
2
S T = es la varianza de las puntuaciones totales.
∑T ∑T
2 2
ST2 = −
K K
Este tipo de confiabilidad es utilizado por los investigadores cuando se desea saber si la varianza de un
reactivo afecta significativame los resultados de la prueba.
Se usan básicamente dos tipos de fórmulas; una es Kunder-Richardson 20 (KR20 ) y otra 21 ( KR21 ).
K ∑ pq
KR20 = 1 − 2 - - - - - - - - - - - Ec. (18)
K − 1 ST
donde :
K = número de ítems.
P = proporción de casos que contestaron correctamente el ítem.
q = 1 - p.
S T2 = la varianza de la suma de los K ítems.
Como podrá darse cuenta el lector, la diferencia entre KR20 Ec. (18) y α Ec. (12) es que en el primero
2 2
aparece ∑ pq y en el segundo aparece s . En realidad se trata de lo mismo, puesto que la varianza ( si
i
) en una distribución normal es lo mismo que “pq” ( p por q ) en una distribución binominal, por tanto :
K K
∑S
i =1
i
2
= ∑ pq
i =1
Por eso decíamos que KR20 y α eran muy similares (Cfr. Ec. (12) y (13) ).
Toma en cuenta el promedio de respuestas correctas. Se utiliza generalmente cuando los datos se encuentran
en escala ordinal, inervalo o razón (Por ejemplo, actitudes, distancia social, etc.). Si se calcula para datos
dicotomáticos, el resultado es muy semejante a KR20 .
K M (K − M )
KR21 = 1 − - - - - - - - - - - -Ec. (19)
K −1 KST2
donde :
K = el número de ítems.
M = la media de la suma de los K ítems.
S T2 = la varianza de la suma de los K ítems.
En cualquiera de los coeficientes de confiabilidad, se debe obtener un valor mayor o igual a 0.75.
En caso de no ser así, se deberá revisar minuciosamente el instrumento, sin embargo, la confiabilidad
depende esencialmente de número de sujetos (n) o ítems utilizados (K). En la medida que K aumenta, la
35
correlación y la confiabilidad aumentan (si y sólo si las varianzas de los reactivos son similares, de otra
manera, la correlación y la confiabilidad disminuyen).
Otra gran utilidad del cálculo de la confiabilidad es para determinar el tamaño de un cuestionario, es decir, el
número de reactivos que se necesitan para lograr una mejor (o peor) confiabilidad.
Con el coeficiente de confiabilidad se puede entimar el tamaño del cuestionario de la siguiente manera :
Cd (1 − Conf )
P= - - - - - - - - - - - - - Ec. (20)
Conf (1 − Cd )
donde :
P = la proporción de preguntas que deben implementar.
Cd = la confiabilidad deseada (para nuestro caso podría variar desde 0.70 hasta 0.99) se recomienda,
cuando nenos 75 % = .75
Conf.= la confiabilidad obtenida en el cuestionario a través de cualquier método ( rsb , rg, , rr , etc.)
n = número de ítems del cuestionario o prueba.
N = longitud de la prueba (en ítems) que se necesitan para alcanzar la confiabilidad
deseada (Cd).
Los autores difieren en algunos tipos de validez, Kerlinger (1975) dice que se deben considerar la validez del
contenido, de criterio, de construcción, interna y externa. David Magnusson (1976) habla también de una
validez predictiva. Downie y Heath (1973) tratan la validez de criterio conexo.
Sin embargo, se puede concluir que hay básicamente cuatro tipos de validez utilizados por los metodólogos de
la investigación ( además de la validez interna y externa ) éstos son :
La validez interna expresa una relación lógica, es decir, mide la adecuación entre las definiciones y la
operacionalización, entre todas las construcciones hipotéticas con las áreas de instumento de medición.
La validez externa expresa una relación empírica, es decir, manifiesta la representatividad de la investigación.
Existen factores que atentan contra la validez interna y externa en los diseños (Campbell y Stamley, 1970)
estos factores son una serie de variables extrañas que se deben considerar al elaborar un diseño de
investigación (Cfr. Marín, 1975).
El criterio externo se refiere a otro instrumento o técnica que mida la misma característica en estudio.
Un requisito indispensable, es que las dos técnicas o instrumentos sean aplicados casi al mismo tiempo (que
no pasen más de cinco días entre la aplicación de uno u otro) un ejemplo sería el sigiuiente :
36
Supongamos que usted elabora un cuestionario para medir inteligencia al que denominaremos INTELI. Para
calcular la validez concurrente es necesario correlacionar INTELI con un criterio externo que también mida
inteligencia. Podríamos escoger el WAIS o el test de Dominós o el Test de matrices pregresivas de RAVEN,
no importa qué criterio se escoja, la correlación debe ser positiva significativamente.
Si aplicamos la prueba INTELI a 10 sujetos y a los dos días el test de Raven a los mismos 10 sujetos, las
puntuaciones podrían ser las siguientes :
CUADRO 13
Se deberá calcular el coeficiente de correlación de Pearson (Cfr. Ec. (11) y anexo ) para determinar la validez
concurrente del instrumento de medición INTELI.
Una vez aplicada la Ec. (11) en este ejemplo, la r fué igual a 0.74 significativa al .05. Esto significa que
nuestro invento (INTELI) tiene ciertos problemas de concurrencia, puesto que debería tener un coeficiente
positivo r > .80 (mayor o igual a 0.80) para asegurar que empezamos a medir lo que pretendemos medir.
Una correlación negativa en nuestro ejemplo nos indicaría que : en la medida que más inteligentes salen los
Ss., en la prueba de Raven menos inteligentes salen en la de INTELI y viceversa; lo cual no podría ser, puesto
que ambas pruebas habían sido usadas con la misma escala.
La diferencia básica entre la validez predictiva y la validez concurrente está en que la validez predictiva se
correlaciona con un criterio externo el cual no es aplicado al mismo tiempo que nuestro instrumento; mientras
que en la validez concurrente se aplica al mismo tiempo que el criterio externo.
Un ejemplo claro de esto sería la correlación entre el puntaje de un examen de admisión a la Universidad y las
calificaciones que estos mismos sujetos tuvieran durante su trayectoria académica. Además se podría
responder satisfactoriamente a la pregunta :
¿Puede el examen de admisión predecir la conducta académica de los estudiantes?
Es claro que con el paso del tiempo intervienen otros factores que no dependen directamente del instrumento
diseñado, puesto que si por ejemplo deseamos saber si el examen de admisión logra predecir la conducta de
los sujetos dentro de cinco años, muy probablemente salgamos defraudados de nuestro instrumento; sin
embargo, la decepción será totalmente injustificada, puesto que en el transcurso de cinco años la conducta
humana pudo haber tenido modificaciones por múltiples factores.
Por eso se recomienda, al seleccionar el CRITERIO, que se tengan las debidas precauciones metodólogicas;
una cosa sería validez predictiva de nuestro instrumento y otra las relaciones interesantes que podría tener
nuestro instrumento con otros factores y fenómenos de la realidad.
37
Al seleccionar el criterio “predictivo” se recomienda que éste no sea anterior ni posterior a los seis meses de
aplicación del instrumento que pretendemos validar.
Volviendo a nuestro ejemplo, la conducta académica de los estudiante se medirá hasta los primeros seis meses
de su estancia en la Universidad, garantizando así, que al correlacionarla con el puntaje de admisión, sirva
como criterio externo para medir validez predictiva.
Veámoslo estadísticamente :
CUADRO 14
Decimos que son “ malas noticias “ puesto que esto indica que el instrumento está mal diseñado y no mide lo
que pretende medir.
La correlación debería de ser positiva significativamente. Sin embargo, una correlación negativa no dice
necesariamente que el instrumento no es válido.
¿Es el criterio externo el adecuado para correlacionarse con el instrumento? ¿Hemos seleccionado el mejor
criterio externo?
“Para lograr criterios indisputables, se puede optar por una operación práctica, o bien por establecerlos como
consecuencia de una definición operacional” (Cronbach y Meehl (1955).
....”La escala de Binet fue considerada de valor en sus comienzos, porque los puntajes de los niños tenían
tendencia a concordar con los juicios que sobre ellos emitían sus profesores. Si no hubiese mostrado esta
concordancia, se la habría descartado.
....El juicio del profesor solía constituir, al comienzo, el criterio de validación de un test de inteligencia.
Pero en la actualidad, si un niño tiene un CI (consciente intelectual) de 135 y tres de sus profesores se quejan
de lo tonto que es, no concluimos de ningún modo que la prueba ha fracasado.
Una forma de ir más allá de la validez predictiva sería validar la interpretación y dar a conocer los hechos de
la forma en que se operacionalizó el criterio externo.
Por ejemplo, al correlacionar los puntajes del examen de admisión con el rendimiento académico de los
estudiantes obtuvimos en el ejemplo una r = - 0.94. ¿No es esta correlación negativa un producto de la mala
selección del criterio? ¿Qué otros factores influyeron durante la administración del examen de admisión?
La validez de concepto propone una validación indirecta y suele emplearse en problemas como la influencia
de connotaciones bio-psico-sociales y culturales en la aplicación de un instrumento de medición.
En otras palabras ¿Existe la posibilidad de encontrar en los Ss algunas características determinadas que
influyan en su puntaje (obtenido por un instrumento de medición) ?
c.1).- Diferencias entre grupos : a través de puntajes (student) o análisis de varianza se pueden determinar
las diferencias entre grupos.
Si existe diferencia habría que considerar tal diferencia en la interpretación.
Supongamos que se utiliza el inventario de Harrison G. Gough sobre la configuración psicológica individual
(1957) en el cual se establece claramente la diferencia entre el perfil masculino y el perfil femenino para
calificar. A esta conclusión se llega a través de una validez de conceptos puesto que la condición sexual fue
elemento sobresaliente dentro de la interpretación.
Lo mismo sucede entre los Baremos de las distintas pruebas psicométricas en los que se establecen los
distintos criterios de calificación dependiendo el país, nacionalidad, edad y sexo, de los respondientes.
c.2).- Matrices de correlación y análisis factorial : a través de técnicas como la de correlación (Cfr. Ec. (11)
y anexo ) o análisis más complicados como el factorial en el cual se establecen una serie de variables o
factores que podrían afectar la puntuación (explicando la varianza) de un objeto al contestar una prueba )Ej.:
personalidad, fatiga, motivación, ansiedad, etc.) y se correlacionan entre sí.
Esto implica un trabajo enorme, para lo cual se recomienda utilizar directamente la computadora (Nie y Hull,
1975).
c.3).- Estudios sobre la estructura interna : a través de correlacionar cada área con los ítems que contiene
(Cfr. Diferencial Semántico, Capítulo IV, punto 13).
Por ejemplo, si el área de “legalización del aborto” en un cuestionario, incluyera seis ítems de un total de 30,
se tendrá que correlacionar la puntuación total del área contra el puntaje de cada ítem; además de
correlacionar cada área con la puntuación del cuestionario global. Veámoslo esquemáticamente :
CUESTIONARIO
Por lo tanto, para un cuestionario de nueve preguntas con tres áreas se deberán hacer 15 correlaciones (Cfr.
cuadro 15).
CUADRO 15
Además :
Y por último :
Para analizar un ejemplo práctico de esto, se recomienda leer el Diferencial Semántico de Osgood en este
libro (Capítulo IV, punto 13).
c.4).- Estudio sobre las posibilidades de cambio : a través de aplicar el mismo instrumento en condiciones
experimentales distintas (en laboratorio, en el campo, etc. ) y detectar si existen diferencias significativas en
los puntajes.
Podrían ser, también, las malas instrucciones el factor que influyera en un bajo puntaje.
c.5).- Estudios sobre el proceso : a través de observar el proceso de rendimiento del sujeto al administrarle un
test, supungamos.... “ que se tiene una prueba que supuestamente mide la capacidad matemática, si se
observa, sin embargo, que los estudiantes suelen cometer a menudo faltas que se deben a una lectura errada
de los problemas, ello hace cambiar totalmente el significado que pueda tener un puntaje bajo” (Cronbach y
Mehl, 1955).
Una forma general que podría auxiliarnos al cálculo numérico de la validez de concepto es el coeficiente de
determinación ( r2 ) que no es otra cosa que el coeficiente de correlación elevado al cuadrado.
40
Supongamos que existe una correlación de 0.85 entre la puntuación de un test de inteligencia y el rasgo de
ansiedad del sujeto al efectuar el test. ¿Es posible afirmar que el test de inteligencia se ve totalmente afectado
por la ansiedad del sujeto? Para responder a esta pregunta utilizamos el coeficiente de determinación : 0.852
= r2 = 0.72 lo que nos estaría diciendo que al menos un 72 % de la variabilidad efectiva del test no tiene
nada que ver con inteligencia (el factor ansiedad afecta decisivamente sobre el puntaje del sujeto en la
prueba).
Si r2 se encuentra entre los valores 0.36 y 1 indica que el instrumento diseñado tiene graves problemas de
validez de construcción.
Para finalizar, es conveniente hacer hincapié en que no es necesario aplicar las 5 técnicas antes mencionadas,
eso depende del investigador y del grado de validez que desee obtener.
d).- Validez de contenido :
Este tipo de validez manifiesta la representatividad o suficiencia del muestreo del contenido de una prueba
(Kerlinger, 1975).
Por contenido entendemos las áreas, materias, temas, subtemas, preguntas, reactivos, ítems, afirmaciones y
tópicos de un instrumento.
....”Un reactivo que carecería de validez de contenido representará características relativas a las relaciones
sexuales o familiares de la persona, cuando en realidad se pretendía medir la actitud hacia la situación política
de un país” (Marín, 1975).
En una palabra la validación de contenido consiste en probar que las preguntas, tópicos o afirmaciones de un
instrumento de medición tengan que ver con lo que se está midiendo. Consiste básicamente en el JUICIO.
Generalmente otros jueces “competentes” deben juzgar el contenido del cuestionario o test.
Aquí podemos mencionar, que la forma más práctica de medir validez de contenido sería a través de
calificar a cada ítem con los valores escalares y rangos intercuartilares una vez que han sido presentados a
dichos jueces (personas competentes que entiendan lo que se prretende medir) y los cuales hayan
seleccionado aquellos ítems que, a su criterio y juicio personal, deberían estar en el instrumento final.
Para ver una aplicación práctica y estadística de esto, se recomienda leer el capítulo III dedicado a Thurstone
en este libro.
Después de analizar estos cuatro tipos de validez, ¿es necesario aplicar todos para tener un instrumento
válido? Por supuesto que no, sin embargo, depende del investigador que tanto quiere estar seguro de que en
realidad midió lo que siempre quiso medir.
Para finalizar con la exposición teórica, conviene aclarar lo siguiente :
Por falta de espacio, no se ha incluido en este libro un capítulo dedicado al análisis factorial (Cfr. el punto c.2
de este capítulo ) el cual merece especial atención para la construcción de escalas y cuestionarios en general;
como complemento a este libro se recomienda leer a Harman (1976), Kim y Mueller (1982a), (1982b) y Child
(1973).
41
CAPITULO VII.
SUPOSICIÓN :
Supongamos que tenemos un Examen de Razonamiento Verbal con 10 ítems, aplicado a 20 aspirantes y cuyas
respuestas fueron las siguientes :
CUADRO 16
I T E M S
Sujetos 1 2 3 4 5 6 7 8 9 10 No. correctas
1 A A B A C D E A B C 4
2 B B B C C A A B C D 6
3 E B E D D E C C A B 2
4 A B C D E E B C D E 3
5 A A A A A A A A A A 2
6 A A B A B A B A B A 3
7 C A C B B A D E C C 2
8 C A B B C C D D E E 3
9 B B B B C A E E C C 4
10 C A A B B B A A A A 1
11 A A A A A A B D E E 1
12 B B C D E E A A B C 3
13 A B B C C E D A C D 10
14 A B C C C E D C A D 7
15 A C B C C D A A A D 6
16 A C B C C C A A A D 6
17 B A B B C E D B C D 6
18 B A B C C D E A C E 5
19 B A B A C E D A C D 7
20 A B A B C E A C C C 5
CLAVES A B B C C E D A C D 86
42
Para calcular las estadísticas para el “Análisis de cada ítem por separado “ es conveniente hacer una
clasificación de los sujetos desde los puntajes más altos a los más bajos (basándonos en la cantidad de
respuestas correctas).
CUADRO 17
A continuación, se dividen los sujetos en 2 grupos : superiores (con las más altas puntuaciones en el test) e
inferiores (con las más bajas puntuaciones en el test).
Los 2 grupos se forman en 4 porcentajes (con el 20%, 25%, 33%, y 50% de los sujetos) para calcular (con los
tres últimos ) los “indices” (Cfr. Ec. (8) y Ec. (9) ). El 20% nos ayudará para elaborar el cuadro de
“Distribución de claves y distractores” (Cfr. capítulo V punto 6). Posteriormente hay que hace el recuento por
ítem de la cantidad de sujetos que acertaron correctamente a la clave.
CUADRO 18
15 11 13 11 13 11
14 10 14 10 14 10
19 7 19 7 19 7
2 5 2 5 2 5
15 3 15 3 15 3
16 4 16 4
17 12 17 12
18 8
20 6
1 9
Una vez elaborados los grupos altos y bajos, se procede a ver cuántas respuestas correctas hay por cada grupo
para cada ítem.
En este ejemplo sólo se analizará el ítem número 1 ya que para todos los reactivos precede de la misma
manera.
Las respuestas al ítem Núm. 1 fueron las siguientes (Cfr. cuadro 16) :
CUADRO 19
SUJETOS
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
A B E A A A C C B C A B A A A A B B B A
De esta manera, si tomamos el grupo de los altos a un 25% estará formado por los sujetos : 13, 14, 19, 2 y 15
los cuales respondieron de la siguiente manera al ítem Núm. 1 (Cfr. cuadro 16)
CUADRO 20
Sujeto Respuesta
13 A
14 A
19 B
2 B
15 A
.
La clave para el ítem 1 es la A . Hay tres sujetos que acertaron a la respuesta correcta, por tanto, la
calificación que obtiene el grupo es de 3.
Se procede de igual manera para todos los demás grupos. Los resultados son los siguientes:
Como ya se dijo, la utilidad de esta parte es para calcular los índices de discriminación.
44
3− 2
ID - 25 = = 0,20
10 / 2
4−3
ID - 33 = = 0.14 (* )
14 / 2
6−4
ID - 50 = = 0.20
20 / 2
* Para el caso en que la distribución de sujetos en los porcentajes requeridos no es exacto, se utiliza el número próximo
siguiente; el 33% de 20 sujetos es 6.67, se toman, por tanto, 7 sujetos.
Los índices de discriminación están por abajo del 0.40 sugerida como mínimo, esto indica que el ítem
merece ser revisado en su planteamiento, opciones, etc.
10
DIF = = 0.50
20
Un DIF de 0.50 es lo ideal para que un ítem no sea ni muy fácil ni muy difícil.
Se cuentan las frecuencias presentadas a cada alternativa, de esta manera, se calcula la frecuencia absoluta
(Frec.), si observamos las respuestas al ítem No. 1 (Cfr. Cuadro 19 ) observamos que hay 10 “A”, 6 “B”, 3
”C” Y 1 “E”. Esto va en la parte de Frec. del cuadro de “Análisis General” (Cfr. capítulo V punto 6).
Inmediatamente abajo se pone el porcentaje de cada opción con respecto al total de sujetos, así, la opción “A”
tiene una Frec. de 10 y un % de 10/20 = 0.50 x 100 = 50% (Cfr. Ec. (7) ), de esta misma manera se llena
todo el cuadro (Cfr. cuadro 22) .
Para llenar este cuadro es necesario repartir a los 20 sujetos en grupos de 20%. En este caso, quedarían 5
grupos con 4 aspirantes cada uno de ellos, lo importante es que también estén ordenados del grupo de 20%
con más bajo puntaje al de más alto puntaje.
Cuadro 21
Grupos Sujetos
20% Siguiente 3, 4, 12 y 8
20% Siguiente 6, 9, 1 y 20
20% Altos. 2, 19, 14 y 13
A continuación hay que ver cómo se distribuyen las opciones para cada grupo, por ejemplo: Para el 20% de
sujetos con más altos puntajes en la prueba, se encontró que contestaron en el ítem No. 1 dos “A” (sujetos 14
y 13) y dos “B” (sujetos 2 y 19).
Esto mismo se hace con los otros grupos. Posteriormente se calculan porcentajes por renglón (Ren. % ) por
columna (Col. % ) y total (Cfr. Cuadro 22 ).
La proporción de gente que contestaron correctamente al ítem No. 1 fueron 10/20 = 0.50 = p
y q = 1 - 0.50 = 0.50.
Por tanto, la varianza del ítem 1 es S12 = pq = 0.50 x 0.50 = 0.25.
A continuación, el cuadro 22 muestra una forma de presentar los resultados del análisis de opción, los índices
de discriminación y dificultad; y la distribución de claves y distractores (Cfr. capítulo V, punto 6 ).
ANÁLISIS DE CADA ÍTEM.
ANÁLISIS GENERAL
OPCIÓN ÍNDICES
A B C D E ID - 25 = 0.20
ID - 33 = 0.14
Frec. 10 6 3 0 1
ID - 50 = 0.20
% 50 30 15 0 5 DIF = 0.50
S12 = 0.25
0 0 0 0 0
0 1 0 0 0 1
E 0 20 0 0 0
0 100 0 0 0 5
Total 4 5 4 3 4 20
20 25 20 15 20 100
CAPITULO VIII
En este ejercicio se utilizarán las ecuaciones (10), (11), (14), (15), (17), (18), (19), (20), (21) y (22).
SUPOSICIÓN :
CUADRO 22
Sujeto (1) (2) (3) (4) (5) (6) (7) (8) (9)
X Y X2 Y2 XY D D2 T T2
1 3 1 9 1 3 2 4 4 16
2 3 3 9 9 9 0 0 6 36
3 0 2 0 4 0 -2 4 2 4
4 1 2 1 4 2 -1 1 3 9
5 1 1 1 1 1 0 0 2 4
6 2 1 4 1 2 1 1 3 9
7 2 0 4 0 0 2 4 2 4
8 3 0 9 0 0 3 9 3 9
9 3 1 9 1 3 2 4 4 16
10 0 1 0 1 0 -1 1 1 1
11 1 0 1 0 0 0 0 1 1
12 0 3 0 9 0 -3 9 3 9
13 5 5 25 25 25 0 0 10 100
14 3 4 9 16 12 -1 1 7 49
15 3 3 9 9 9 0 0 6 36
16 3 3 9 9 9 0 0 6 36
47
17 4 2 16 4 8 2 4 6 36
18 3 2 9 4 6 1 1 5 25
19 4 3 16 9 12 1 1 7 49
20 3 2 9 4 6 1 1 5 25
Los valores salieron del Cuadro 16. La columna (1) X, significa la suma de respuestas correctas tomando en
cuenta las preguntas nones (impares: 1, 3, 7, ....N) para cada sujeto.
La columna (2) Y , significa la suma de respuestas correctas tomando en cuenta las preguntas pares (2, 4, 6, 8,
. . . , N + 1 ) para cada sujeto.
Por ejemplo, tomenos del Cuadro 16 al sujeto No. 13 y veamos sus respuestas a los 10 ítems.
ITEMS
1 2 3 4 5 6 7 8 9 10
Sujeto 14: A B C C C E D C A D
Claves A B B C C E D A C D
Si dividimos los grupos de ítems en nones y pares (“X” y “Y”, respectivamente ) quedarían así :
La columna (3), X2, significa que el valor obtenido en la columna (1) es elevado al cuadrado; en nuestro
ejemplo anterior es el 32 = 9 y este valor aparece en la columna (3), se precede de igual manera con la
columna (4) respecto a Y.
La columna (7) es el valor obtenido en la columna (6) elevado al cuadrado; en nuestro ejemplo : D = -1 por
tanto D2 = 12 = 1.
La columna (9) es el número obtenido en la columna (8) elevado al cuadrado; en nuestro ejemplo como T =
7, por tanto, T2 = 72 = 49.
Después de elaborar este cuadro (Cfr. Cuadro 22), se precede a calcular los coeficientes de confiabilidad.
Para calcular F es necesario calcular las varianzas de las dos mitades (una mitad se refiere a las correctas que
hay en el grupo de los ítems nones y la otra mitad se refiere al grupo de los ítems pares ).
48
3, 3, 0, 1, 1, 2, 2, 3, 3, 0, 1, 0, 5, 3, 3, 3, 4, 3, 4, 3.
1, 3, 2, 2, 1, 1, 0, 0, 1, 1, 0, 3, 5, 4, 3, 3, 2, 2, 3, 2.
La fórmula de la varianza es :
∑(X )
N 2
i −X
S2 = i =1
- - - - - - - - - - Ec. (21)
N
En donde :
S 2 = Varianza.
Xi = Cada uno de los valores (de X ó Y).
X = La media (de X ó Y)
N = No. total de sujetos.
∑X i
X= i =1
- - - - - - - - - - - - - - Ec. (22 )
N
Cabe hacer mención que se calculan dos varianzas : una para “X” y otra para “Y”:
respectivamente .
Para probar Ho: σ 2x = σ 2y se tiene que calcular la F dividiendo la varianza mayor entre la menor (Cfr.
Ec (14) ); en nuestro ejemplo la varianza mayor es la de 1.93 que corresponde a la X; mientras que la
varianza menor es la de Y con 1.75; por tanto :
Fα / 2 ( NX - 1, NY - 1 ) y F1 - α / 2 ( NX - 1, NY - 1 )
49
donde :
NX = número de reactivos de la “mitad” cuya varianza fue la mayor (V1 ).
Ny = número de reactivos de la otra “mitad” cuya varianza fue la menor (V2 ).
α = nivel de significancia.
En nuestro ejemplo, Nx = 10 y Ny = 10; El α = 0.05 (la razón por la cual se eligió este nivel de
significancia, es totalmente arbitraria. Para Ciencias Sociales se recomienda utilizar entre .05 y .01 ).
De esta manera :
Si el valor de la F calculada (1.10) se encuentra que entre los valores de la F de tablas (de .248 y 4.03) se
acepta Ho, es decir, que las varianzas son iguales, si no se encuantra la F calculada entre este intervalo, se
dice que la Ho se rechaza y por tanto, se infiere que las varianzas de las mitades son distintas.
Hay que recordar que el cálculo de la F se hace con objeto de determinar si se usará la confiabilidad de
Spearman-Brown y Rulon, no es conveniente utilizar el modelo de Guttman (Cfr. Cuadro 12 ).
Para calcular rsb es necesaria la correlación entre las dos mitades X y Y (Cfr. Ec. (11) y anexo ) .
2∗0.42
rsb = = 059
.
1 + 0.42
(Cfr. Ec. (15) ).
2
Primero se calculan S D y S T2 (Cfr. Ec. (17) )
∑D ∑ D
2 2 2
45 3
S 2
= − = − = 2.23
20 20
D
K K
2 2
T2 T 474 86
ST2 = − = − = 5.21 ; Por tanto,
K K 20 20
2.23
rr = 1 − = 0.57
5.21
50
Se calcula una tabla de proporciones de respuestas correctas (p) por ítem. Es decir, el número de respuestas
correctas de cada ítem dividido entre el total de sujetos. (Cfr. Cuadro 22 y recordar que q = 1 - p ).
Por ejemplo : el ítem No. 1 fue contestado correcatmente por 10 sujetos, entonces p = 10/20 = .50 (Cfr. la
columna 1 del Cuadro 16 ).
A continuación hay que calcular la varianza de las puntuaciones totales, para esto necesita el Cuadro 16 con
objeto de calcular la varianza del “No. de CORRECTAS”. Por tanto, la ST2 se haría con las siguientes
puntuaciones (Cfr. columna 8 del cuadro 22) :
4, 6, 2, 3, 2, 3, 4, 1, 1, 3, 10, 7, 6, 6, 6, 5, 7, 5.
CUADRO 23
Item P Q PQ
1 0.50 0.50 0.25
2 0.40 0.60 0.24
3 0.55 0.45 0.25
4 0.30 0.70 0.21
5 0.60 0.40 0.24
6 0.40 0.60 0.24
7 0.30 0.70 0.21
8 0.50 0.50 0.25
9 0.40 0.60 0.24
10 0.35 0.65 0.23
_____
2.36
ST2 = 5.21 (Es el mismo resultado que el obtenido en la ST2 de RULON, Cfr. punto 3 de este capítulo).
10 5.21 − 2.36
KR20 = = 0.61 (Cfr. Ec. (18) ).
10 − 1 5.21
10 4.30(10 − 4.30
KR21 = 1 − = 0.59
10 − 1 10∗5.21
Spearman-Brown = 0.59
Rulon = 0.57
KR20 = 0.61
KR21 = 0.59
Ninguno de estos coeficientes fue mayor o igual al 0.75 considerado como la confiabilidad aceptable.
Además, para una N = 20 o N = 40 el 0.61, 0.59 y el 0.57 son demasiado bajos. Por tanto, podemos concluir
que no tenemos la confiabilidad necesaria en el instrumento diseñado para el ejercicio. Había que iniciar una
revisión minuciosa del instrumento.
6.- Cálculo de la “Extesión de la Prueba” (Cfr. Ec. (20) ) :
No es necesario considerar los cuatro coeficientes de confiabilidad ( rsb, rr, KR20 o KR21 ) para calcular la
extensión de la prueba, se escoge el modelo más apropiado a nuestra investigación.
Por tanto, para incrementar la confiabilidad obtenida de 0.59 a 0.70 habría que aumentar 7 ítems más al
cuestionario, o sea, que tendríamos un instrumento con 17 ítems para lograr una confiabilidad de 0.70. E l
Cuadro 24 muestra cuántos ítems se necesitarían para distintos niveles de confiabilidad.
CUADRO 24
Cd P N
0.71 1.70 17
52
0.72 1.79 18
0.73 1.87 19
. . .
. . .
. . .
0.96 16.67 167
0.97 22.46 225
0.98 34.05 341
0.99 68.79 688
Esto mismo puede hacerse para cada uno de los otros índices de confiabilidad ( Rulon, KR20 y KR21 ).
No se olvide al investigador, que la confiabilidad mínima aceptable en las ciencias sociales es de 0.75
(aunque puede variar ). En realidad, la aplicación de la fórmula para el cálculo de la “Extensión de la Prueba”
(Ec. (20) ) debe hacerse a partir de valores Cd. mayores o iguales al 0.75.
CAPITULO IX.
En este ejercicio se utilizarán las ecuaciones (11), (12), (13), (15), (16), (21), (22) y (23).
SUPOSICION :
Para llevar a cabo el cálculo de las distintas confiabilidades nos basaremos en un ejemplo hipotético de un
cuestionario de 6 preguntas tipo Likert (por supuesto que un instrumento con 6 ítems muy probablemente no
sea válido, sin embargo, lo que se pretende es hacer un ejemplo didáctico para que el investigador practique
estos coeficientes ). Dicho cuestionario hipotético es aplicado a 5 sujetos (aunque la muestra no es
representativa, son suficientes casos para que el estudioso lleve a cabo los cálculos correspondientes en forma
práctica).
CUADRO 25
Sujeto ítems
P1 P2 P3 P4 P5 P6
1 4 5 2 1 4 4
2 5 5 4 5 5 1
3 4 5 2 4 4 4
4 4 5 2 2 4 1
5 4 5 2 2 4 4
53
Lo primero que hay que hacer es calcular la varianza, por separado de P1, P2 , .... , P6 (de esta manera
2
obtendremos las 6 S i (Cfr. Ec (21) ).
Tomenos a P1 cuyos valores son 4, 5, 4, 4, 4, (Cfr. cuadro 25 ) la media ( X ) de estos valore es de 4.2
(Cfr. Ec. (22) ) y la varianza es de 0.16 (Cfr. Ec. (21) ). Esta último cifra salió así :
ítems: P1, P2 P3 P4 P5 P6
Vrianzas : 0.16 0.16 0.64 2.16 0.16 2.16
∑S
i =1
i
2
= ( 0.16 + 0.16 + 0.64 + 2.16 + 0.16 + 2.16 ) = 5.44
2
A continuación se calcula la ST : se deben sumar las puntuaciones para cada caso o (sujeto); para el primer
caso la suma sería así (Cfr. al sujeto 1 del cuadro 25 ).
4 + 5 + 2 + 1 + 4 + 4 + = 20
CUADRO 26
1 20
2 25
3 23
4 18
5 20
2
Se calcula la varianza (Cfr. Ec. (21) ) para la “suma de puntuaciones” ( ST ).
ST2 = 6.16
Para obtener el ALPHA de Cronbach, simplemente nos resta sustituir los elementos :
6 5.44
α= 1 − = 014026
. (Cfr. Ec. (12) ).
6 − 1 616.
Lo primero que hay que hacer es calcular las correlaciones de Pearson entre todas las parejas de ítems (Cfr.
Ec. (11) y anexo ) .
P1 vs P 2; P1 . vs P3 ; P1 vs P4; P1 vs P5; P1 vs P6
P2 vs P3 ; P2 vs P4 ; P2 vs P5 ; P2 vs P6
P3 vs P 4; P3 vs P 5; P3 vs P6;
P4 vs P 5; P4 vs P6
P5 vs P6
Po tanto, se tendrán que realizar 15 correlaciones. Para saber el número de correlaciones que se tienen que
calcular, se puede aplicar la siguiente fórmula :
N i ( N i − 1)
Num. de correlaciones a realizarse = Ec. ( 23).
3
donde :
Ni = número de ítems.
6(6 − 1)
En nuestro caso Ni = 6, por tanto, = 15
2
Veamos el ejercicio de P1 ( X ) vs P2 ( Y ) ;
X Y X2 Y2 XY
4 5 16 25 20
5 5 25 25 25
4 5 16 25 20
4 5 16 25 20
4 4 16 16 16
21 24 89 116 101
(5∗101) − (21∗24)
r= = 0.25
[ ][
(5∗89) − 212 (5∗116) − 24 2 ]
De esta misma manera se calculan las 15 correlaciones. A continuación del cuadro 28 muestra la matriz de
las 15 correlaciones obtenidas en los 6 ítems:
CUADRO 28
55
ITEMS P1 P2 P3 P4 P5 P6
P1 1.0000
P2 0.2500 1.0000
P3 1.0000 0.2500 1.0000
P4 0.7484 0.2721 0.7484 1.0000
P5 1.0000 1.0000 1.0000 0.7484 1.0000
P6 -0.6123 -0.6123 -0.6123 -0.3888 -0.6123 1.0000
Para calcular r (la media de las correlaciones) se tienen que sumar las 15 correlaciones y dividirlas entre 15
:
(0.25) + (100
. ) +L+ ( −0.6123)
r= = 0.2422
15
Para obtener finalmente el ALPHA estandarizada ( α S ) hay que sustituir :
(6∗0.2422)
αS = = 0.65728
1 + [(6 − 1)∗ (0.2422)]
Esta confiabilidad es bastante más alta que la obtenida directamente por el método ALPHA no estandarizado :
Por esta razón, se debe tener mucho cuidado al elegir el modelo de confiabilidad más apropiado.
Supongamos que la primera mitad la forman los primeros tres ítems del cuestionario hipotético (P1, P2, P3,) y
la segunda mitad la forman los siguientes tres ítems ( P4, P5, P6) . Entonces X es igual a la suma de P1, P2, P3
y Y es igual a la suma de P4, P5, P6.
CUADRO 29
11 9
14 11
11 12
11 7
10 10
Efectuando la correlación de Pearson entre X y Y (Cfr. Ec. (11) y anexo ), se obtiene rxy; de esta manera :
56
rxy = 0.2913
2 × (0.2913)
rSb = =0.4511
1 + 0.2913
Se recomienda probar con una F, la hipótesis de igualdad de varianzas para asegurarse si es mejor interpretar
el coeficiente de confiabilidad de Spearson-Brown o el de Guttman o Rulon a través de la Ec. (14).
En nuestro ejemplo :
Se le recomienda al estudioso calcular estos dos coeficientes para que practique la técnica. Como puede
observarse, la segunda mitad tiene una pésima confiabilidad (además es negativa); no hay que olvidar que la
confiabilidad debe ser lo más cercana a uno (no a -1).
Si le llegase a suceder algo similar al investigador, tendría que revisar minuciosamente su cuestionario .
2 2 2
Para poder calcular la ST1 , la ST 2 y la ST de la Ec. (16) se tienen que sumar las puntuaciones (Cfr.
los cuadros 26 y 29).
El cuadro 30 muestra un resumen de los cuadros 26y 29.
CUADRO 30
T1 (6 X) T2 (6 Y) T (X + Y)
11 9 20
14 11 25
11 12 23
11 7 18
10 10 20
2
ST1 =1.84
ST22 =2.96
ST2 = 6.06
Finalmente hay que sustituir en la Ec. (16) para obtener el coeficiente de Guttman :
57
. − 184
2(616 . − 2.96)
rg = = 0.4415
616
.
Como puede observarse, la confiabilidad es muy parecida a la obtenida en el modelo de Spearman-Brown (rsb
).
Para resumir, se presentan en el cuadro 31 todos los coeficientes obtenidos a partir del cuestionario hipotético:
CUADRO 31
Como podemos observar el investigador, hay diferencias entre los coeficientes, por esta razón se recomienda
elegir el modelo apropiado de acuerdo con las características de los datos que serán analizados ( Cfr. el cuadro
12 ).
ANEXO
CORRELACION
Definición 1 :
Sean X1, X2, X3,.... Xn los valores de la variable X. Sean Y1, Y2, Y3, ...., Yn los valores de la variable Y.
Entonces se puede hablar de N pares (X1, Y1), (X2, Y2), ... (Xn, Yn) demoninados parejas ordenadas.
Definición 2 :
Se le denomina correlación a la relación de las dos variables X, Y.
Definición 3 :
Es distinto hablar de correlación que de dependencia. El hecho de que dos variables estén correlacionadas, no
indica que sean dependientes.
Definición 4 :
Se dice que el coeficiente que calcula el grado de relación entre las dos variables (X, Y) es el “coeficiente de
correlación”; dicho coeficiente puede salir positivo o negativo. Se entiende por un coeficiente de correlación
58
positivo que las variables son diferente proporcionales (en la medida que se incrementa una, se incrementa la
otra) ( Cfr. figura 1).
Figura 1
Y2
Y1
X1 X2
Como se puede observar, en la medida que incrementa X1 a X2; también se incrementa Y1 a Y2.
Se dice que un coeficiente de correlación es negativo cuando las variables son inversamente proporcionales.
Es decir, en la medida que incrementa una de ellas, la otra decrementa (Cfr. figura 2 ).
Figura 2
Y
Y1
Y2
X1 X2
Definición 5 :
El coeficiente de correlación se encuentra en el intervalo ( -1, + 1 ), es decir, que los valores considerados
como “perfectos” (la mejor relación entre, al menos dos variables) son el -1 y el +1. El “ -1 ” indica
correlación perfecta negativa (inversamente proporcional), es decir, los puntos están acomodados en forma de
una recta. (Cfr. figura 3).
Figura 3.
59
Mientras que la correlación positiva perfecta ( + 1 ) es cuando los puntos están acomodados dentro de una
recta en forma directamente proporcional (Cfr. figura 4).
Figura 4.
Definición 6 :
Se dice que la correlación es nula perfecta cuando se obtiene un coeficiente de correlación igual a cero, es
decir, que los puntos están tan dispersos que no hay forma de establecer alguna trayectoria específica (Cfr.
figura 5).
Figura 5.
***
******
******** * *
****** * * * * * *
********* * *
****** * *
*****
Definición 7 :
Existen diferentes coeficientes de correlación dependiendo la escala de medición que se utilice. Los
coeficiente más utilizados son :
Escala Coeficiente
Definición 8 :
El número que se obtiene de los cálculos de algún coeficiente de correlación se debe interpretar de dos manera
:
Figura 6 Figura 7
Y Y
60
X X
Figura 8
Y
X
Definición 9 :
El hecho de tener un coeficiente de correlación con una muy alta cantidad (Ejemplo : 0.90), no nos indica a
qué nivel es signidativo. Por tanto, hay que probar la “significación del coeficiente de correlación” con las
siguientes hipótesis estadísticas :
Ho = la correlación = 0.
Ha = la correlación ≠ 0.
Si se rechaza Ho significa que el coeficiente sí fue significativo y por tanto es diferente de 0. Esto es lo que
siempre debe suceder.
Atodos los coeficientes de correlación se les debe calcular su prueba de significación porque si no es así, no se
sabe la confiabilidad a la que dicho coeficiente está sujeto.
Cada coeficiente de correlación tiene sus propias fórmulas para probar su significación.
A continuación solamente detallaremos el coeficiente de correlación de Pearson.
Correlación de Pearson
Es uno de los coeficientes más utilizados para las escalas intervalores o de razón. Hay muchas formas de
calcularlo, sim embargo, la fórmula más sencilla es la siguiente :
N ∑ XY − ∑ X ∑ Y
r=
[N∑ X 2
][
− (∑ X ) 2 N ∑ Y 2 − (∑ Y )2 ]
Ejemplo :
61
En un estudio criminológico sobre “agresividad y frustración” de los presos del D..F., se sometió a un grupo
de ocho presos a dos tipos de pruebas; la primera medía agresión y la otra frustración.
El criminólogo quizo encontrar la relación que había entre los puntajes de una y otra prueba, probó la
significación del coeficiente de correlación y calculó el coeficiente de determinación.
Los datos son los siguientes :
63 65
64 67
70 69
72 70
65 64
67 68
68 71
66 63
X Y XY X2 Y2
Sustituyendo en la ecuación :
b).- La cantidad de 0.6978 es una correlación no considerada como muy alta (se aleja de + 1)
La prueba de significación para el coeficiente de Pearson está dado por una “t” (student) si hay menos de 30
sujetos o por una “z” si existen más de 30 sujetos.
Como en nuestro caso sólo tenenos 8 sujetos; utilizamoa una “t” (student) que prueba :
62
H0 : r = 0
Ha : r ≠ 0
Con la fórmula :
r
t= N −2
1− r2
Sustituyendo :
0.6978
t= 8 − 2 = 0.9742 ( 2.4495 ) = 2.3863
1 − 0.69782
El 2.3863 cayó en zona de aceptación, por tanto se acepta Ho y no fue significativo (p>.05).
t.05( 6 ) = ± 2.447
De esta manera :
El porcentaje de variación de una variable a partir de la otra. Su fórmula es R2 (el cuadrado del coeficiente
de correlación).
r2 = R2 = 0.6978 = 0.4869
Interpretación : en la medida que varía la frustración, hay un 48.60% de seguridad que también varíe la
agresión. Es decir, existe un 48.69% de posibilidad de que la frustración medida con el Test, no sea
solamente frustración.
r
Z=
Sr
donde :
r = Coeficiente de correlaciones de Pearson
1
Sr =
N −1
63
Para ampliar más este tema y el de prueba de hipótesis, se recomienda leer Dixon y Massey (1965), Downie y
Heat (1973), Phillips (1980), Kerlinger (1975) y Henkel (1982).
CURSO TALLER:
64
CONTENIDO
• Modelación.
- Importancia de la estadística en la investigación.
- ¿ Por qué muestrear ?
• Medidas de Correlación.
• Cuestionarios.
- Tipos de cuestionarios.
- Como costruír un cuestionario.
• Modelación.
- Importancia de la estadística en la investigación.
- ¿ Por qué muestrear ?
66
• Cuestionarios.
- Tipos de cuestionarios. ( pág. 3 cap. I )
a) Abiertos: En los cuales las preguntas que se hacen están hechas para que el sujeto
responda TODO lo que quiera y cuanto se le venga en mente.
2) Elaborar las áreas que debe abarcar el cuestionario (por ejemplo: datos generales del
sujeto, temas a tratarse, etc.). Se recomienda para este paso que se comuniquen con
científicos y/o teóricos del tema que conozcan el contenido, a grandes rasgos aunque sea, de
la investigación.
3) Generar tópicos (destellos intelectuales) de las áreas, elaborando algunas palabras, frases,
etc., que nos den una pista de las preguntas que deberán conformar el cuestionario final.
4) Clasificar los tópicos en las áreas, para distribuir correctamente las ideas.
5) Formular las afirmaciones y/o preguntas que creemos que formarán parte del
cuestionario
6) Revisar si las afirmaciones y/o preguntas tienen que ver TODAS ELLAS con la hipótesis
de la investigación.
Hay muchas formas de hacer un cuestionario de actitudes, todo depende de la escala que se
utilice. Han existido muchas escalas de actitudes, entre las principales tenemos:
c). Evitar frases que no tengan relación con el objeto psicológico medido.
d). Evitar frases en las que casi nadie o todos estarían de acuerdo.
h). Evitar frases que contengan universalidad como: todos, siempre, nunca, ninguno, etc.
i). Se deben evitar palabras como SIMPLEMENTE (o pueden utilizarse con cuidado).
2. ¿Cuántas alternativas?
Se trabaja con 5 (cinco) alternativas que son las siguientes:
Esto no indica que no se puedan variar las alternativas, por ejemplo que puedan ir de Muy
perfecto a Imperfecto u otro contínuum, no importa cual.
De preferencia, las instrucciones deben ir en una hoja sola, sin incluir ningún ítem.
Se analiza cada pregunta por separado para saber si esa pregunta fue confiable o no.
a) Generar una sábana (hoja de codificaciones) de resultados de los cuestionarios.
b) Se ordenan los sujetos de mayor puntaje a menor puntaje (Siguiendo el ejemplo
anterior)
c) Se selecciona el 25 de % sujetos con más altos puntajes y el 25% de sujetos con
más bajos puntajes. Así, como se puede ver, nos quedamos con un 50% de sujetos. Los
Ss intermedios (tibios) se eliminan del análisis. Así, por ejemplo, si se utilizaron 50 Ss
nos quedamos con 25, 12 de ellos son de puntajes altos y 13 de ellos con puntajes bajos
(o al revés). Los otros 25 se eliminan del análisis.
d) Se seleccionan los cuestionarios de los Ss escogidos con el criterio anterior. Los
demás cuestionarios se pueden olvidar.
e) Se analiza cada pregunta por separado.
f) Se calcula la t (student): Si el puntaje t es menor al nivel de significancia
propuesto ( en tablas ) se RECHAZA la afirmación.
g) El cuestionario final debe contener entre 20 y 25 afirmaciones. Para elaborar el
cuestionario final se sigue el mismo patrón de muestrear las afirmaciones al azar.
h) Después de aplicar el cuestionario final se puede aplicar cualquier método para
detectar confiabilidad general del instrumento (Kuder-Richardson), Spearman-
Brown, Cronbach, etc.)
i) Calcular, en lo posible, la validez predictiva, concurrente, de construcción y
cuidar la validez de apariencia
b). Muchos de los continuos experenciales son esencialmente equivalentes, y por tanto se
pueden representar unidimensionalmente.
Es necesario seleccionar los estímulos (o sub-sub-estímulos que hablamos antes) que mejor
midan la variable de tal manera que es conveniente descartar aquellos estímulos (frases) que
menos tienen que ver con el objeto medido.
Se seleccionaran aquellas frases que tengan el valor escalar y rango intercuartílico más
bajo.
Eso depende de las áreas que mida el instrumento; sin embargo, entre cuatro y siete frases
por área es suficiente.
Una vez escogidas las frases se deben seleccionar los adjetivos bipolares que deben llevar
todas ellas.
El número de adjetivos que pueda existir es tan grande como el idioma en sí; sin embargo,
unos adjetivos tienen más peso y funcionan mejor que otros, dependiendo del idioma, la
cultura e idiosincrasia de un país (Díaz Guerrero y Salas, 1975).
Para saber qué adjetivo pesa más que otro se lleva a cabo un análisis factorial junto con una
lista estandarizada de sustantivos y se obtienen los calificativos para formar los opuestos y
se construyen las escalas bipolares (Díaz Guerrero y Salas, 1975, pp. 57-67). Como este
procedimiento es lento y difícil, en México se probaron los adjetivos bipolares que más
tienen que ver con la cultura mexicana (Díaz Guerrero y Salas, 1975).
La cantidad varía; sin embargo, Díaz Guerrero (1975) selecciona tres o cuatro de cada
factor (EPA).
“A continuación aparecen una serie de conceptos o frases, las cuales debe someter a su
juicio personal. En cada página se encuentra un concepto o frase diferente, debajo del cual
(o la cual) se encuentra una escala en la cual deberá evaluarse el concepto o frase.
Una vez colocadas las instrucciones en una hoja por separado se presenta cada concepto o
cada frase en una hoja (también por separado)
Los adjetivos se revuelven entre los factores y la favorabilidad, o sea que no tienen que
estar alineados necesariamente (los tres o cinco adjetivos del factor evaluativo, en primer
lugar; los tres o cinco adjetivos del factor potencia en segundo lugar, etc.).
a) Congruencia porque las variables y sus indicadores deberán medir la misma cosa.
b) Precisión porque uno mismo deberá de reproducir varias veces la investigación y deberá
obtener los mismos resultados.
d) Constancia porque la forma de medición del objeto no debe alterar los resultados.
De alguna otra manera sería la correspondencia entre las variables, los indicadores, las
definiciones y la operacionalización de éstos.
Es decir, la validez interpreta la relación lógica entre las definiciones y las construcciones
(ítems, afirmaciones, preguntas, aparatos eléctricos, etc) así como la relación empírica del
objeto medido con las hipótesis; en una palabra, representatividad. ¿Es representativo
nuestro estudio?