Alpha

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 73

1

ABRAHAM NADELSTICHER MITRANI

TÉCNICAS
PARA LA CONSTRUCCIÓN
DE CUESTIONARIOS
DE ACTITUDES Y OPCIÓN
MÚLTIPLE

INSTITUTO NACIONAL DE CIENCIAS PENALES


MÉXICO, 1983
2

INTRODUCCIÓN

Como investigador social, uno se da cuenta de lo importante que son la entrevista y los cuestionarios como
forma de recolección de datos.

Si uno busca bibliografía al respecto, resulta que muchos son los autores que nos platican de la entrevista;
sus técnicas, modelos y etapas; pero nuestra sorpresa nace cuando lo que revisamos bibliográficamente de
cuestionarios sólo va en torno a teoría e interpretación; olvidando la técnica completa y práctica.

El presente trabajo pretende cumplir con el objetivo más elemental en la elaboración de cuestionarios; ¿ como
hacer un cuestionario ?, para ello se exponen las técnicas estadísticas más convenientes.

Desde el inmemorable libro de Allen Edwards, Techniques of Attitude Scale Constructión impreso en 1957,
no se ha vuelto a escribir otro libro igual, un libro que explique clara y sencillamente la elaboración de
cuestionarios de actitudes. Este trabajo pretende explicar al estilo de Edwards los métodos de Likert,
Thurstone y Osgood.

Si abrimos el libro de Metodología de la Investigación y deseamos saber como calcular la confiabilidad y


validez de nuestro instrumento, lo más seguro es que terminemos abrumados por la teoría abstracta, sin saber
concretamente como hacerlo. Otro propósito de este trabajo va encaminado a aclarar estos dos
conceptos ( confiabilidad y validez ) y ejemplificar su forma de aplicación a nuestra investigación.

Además de la medición de actitudes se trata, en este trabajo, un capítulo referente a cuestionarios objetivos en
general y de como elaborarlos.

Por último, presentan un anexo con una serie de definiciones sobre la medida de correlación ( elemento
estadístico indispensable para entender la aplicación de la mayoría de las técnicas descritas en este trabajo ) y
los ejercicios de aplicación de las técnicas de confiabilidad.

Creemos que con este libro el profesional y el estudiante encontrarán una respuesta amplia a algunas de sus
dudas sobre la construcción de cuestionarios. ¿ Sirve el cuestionario que elaboré ? ¿ Tiene validez y
confiabilidad ? ¿ Es representativo ?.

AGRADECIMIENTOS

Antes de pasar al contenido del libro me voy a permitir manifestar mi más profundo agradecimiento al Dr.
Gustavo Malo Camacho, Director del INACIPE, quien me brindó todo su apoyo para la publicación de este
libro; asimismo, al Maestro José Luis Rodríguez Herrera, Director de Sistemas Escolares de la UAM, quien
me incentivó de principio a fin en la elaboración del manuscrito; a la Psic. Carmen Islas, quien me apoyó
emocionalmente, además de revisar y criticar el contenido de esta obra.
A ustedes tres:
Muchas gracias.
3

CAPÍTULO 1

CONSTRUCCIÓN DE CUESTIONARIOS

1.¿ Qué es un cuestionario?


Un cuestionario es un instrumento de recolección de información. A diferencia de la entrevista, el cuestionario
es mucho más rápido y menos costoso. Algunas desventajas del cuestionario son: la de no detectar el lenguaje
del cuerpo ni las emociones que surgen al momento de contestarlo.

Una manera ideal sería aplicar tanto la entrevista como el cuestionario al mismo sujeto. Sin embargo, como
sabemos, no siempre el investigador tiene todo el tiempo del mundo para hacer una investigación... y mucho
menos los sujetos entrevistados.

2.¿ Cuántos tipos de cuestionarios hay?

Existen básicamente tres tipos de cuestionarios:

a) Abiertos: En los cuales las preguntas que se hacen están hechas para que el sujeto responda TODO lo
que quiera y cuanto se le venga en mente.

Ej.: ¿Por qué no le gustan los exámenes?


.......................................................
.......................................................
.......................................................

b) Cerrados: En los que el sujeto está condicionado a responder o a seleccionar cualquiera de las opciones que
se le presentan.

Ej.: ¿Por qué no le gustan los exámenes?

a. Me molestan.
b. Me producen malestares físicos.
c. No demuestran la capacidad del alumno.
d. Otra.

Otros ejemplos serían el de actitudes y opción múltiple.

c) Mixtos: Contienen tanto preguntas cerradas como abiertas.

La desventaja de los cuestionarios abiertos es el cómputo de los resultados; sin embargo, su ventaja es la de
que el sujeto tiene la libertad de expresar lo que desea, sin restringirle ni influirle en su opinión (como sucede
con los cuestionarios cerrados). La gran ventaja que tienen los cuestionarios cerrados es la facilidad que
brindan para el análisis de los resultados, el cómputo y la estadística.
4

En realidad, para hacer un buen cuestionario cerrado se necesita pilotear (probar) las alternativas con un
cuestionario abierto.
El cuestionario más utilizado es el cerrado.

3. ¿Cómo construir un cuestionario?

Los pasos a seguir para construir un cuestionario son los siguientes:

a) Tener a la vista las hipótesis de investigación.

b) Elaborar las áreas que debe abarcar el cuestionario (por ejemplo: datos generales del sujeto, temas a
tratarse, etc.). Se recomienda para este paso que se comuniquen con científicos y/o teóricos del tema que
conozcan el contenido, a grandes rasgos aunque sea, de la investigación.

c) Generar tópicos (destellos intelectuales) de las áreas, elaborando algunas palabras, frases, etc., que nos den
una pista de las preguntas que deberán conformar el cuestionario final.

d) Clasificar los tópicos en las áreas, para distribuir correctamente las ideas.

e) Formular las afirmaciones y/o preguntas que creemos que formarán parte del cuestionario

f) Revisar si las afirmaciones y/o preguntas tienen que ver TODAS ELLAS con la hipótesis de la
investigación.

g) Revisar la redacción y ortografía de CADA PREGUNTA.

h) Verificar la validez concurrente y de apariencia (Cfr. capítulo VI, punto 6)

i) Generar (para el cuestionario piloto) al menos el doble o el triple de ítems (preguntas) que inicialmente se
habían calculado para el cuestionario final; por ejemplo, si se va a trabajar una dimensión de 20 ítems finales,
se deberán construir entre 40 y 70 reactivos. Cada dimensión (área) abarca aproximadamente entre 25 y 30
afirmaciones.

4. ¿Qué es un cuestionario de actitudes?

El cuestionario de actitudes es un instrumento de recolección de información, que cumple con las


características de un cuestionario convencional (en cuanto a su elaboración)

La palabra ACTITUD significa “la predisposición hacia un objeto y/o hacia una situación”. El cuestionario
de actitudes mide precisamente esta predisposición.

La medición de las actitudes se basa principalmente en la teoría del JUICIO COMPARATIVO de


Thurstone con la que se establece la posibilidad de cuantificar TODA experiencia subjetiva.

Las escalas de actitudes adquirieron mucho auge dado que permitían al investigador elaborar un cuestionario
CONFIABLE con una precisión elevada.

Hay muchas formas de hacer un cuestionario de actitudes, todo depende de la escala que se utilice. Han
existido muchas escalas de actitudes, entre las principales tenemos:

a) Método de comparaciones apareadas de Thurstone.


b) Método de intervalos aparentemente iguales de Thurstone.
c) Método de intervalos sucesivos de Thurstone.
d) Método de rangos sumarizados de Likert.
5

e) Método de diferencial semántico de Osgood.


f) Método del escalograma de Guttman.

Aunque hay discusiones en torno a la escala de medición que emplean las escalas de actitudes, se ha optado
por considerarlas como INTERVALARES.
Otra de las discusiones que se presentan en torno a las escalas de actitudes es de que no miden lo que hace el
sujeto (la conducta), sino la predisposición hacia esa conducta).
5. ¿Cómo se construye un cuestionario de actitudes?

Como ya se dijo anteriormente, la forma de elaborar un cuestionario de actitudes es idéntica a la de


cualquier otro cuestionario, con algunas pequeñas modalidades (dependiendo del método empleado)- Por lo
general , se deben elaborar estos cuestionarios con AFIRMACIONES no con preguntas. Por ejemplo: “Los
hospitales psiquiátricos son importantes para el desarrollo de la sociedad”, y una persona debe contestar si
está de acuerdo o en desacuerdo con esa afirmación.

Las afirmaciones deben cumplir ciertas condiciones:


a). Evitar frases que se refieran al pasado en vez del presente.

b). Evitar frases que puedan ser interpretadas en más de un sentido.

c). Evitar frases que no tengan relación con el objeto psicológico medido.

d). Evitar frases en las que casi nadie o todos estarían de acuerdo.

e). Utilizar un lenguaje claro, simple y directo.

f). Los reactivos deben ser cortos, de no más de 20 palabras.

g). Cada reactivo debe contener SOLO UNA IDEA.

h). Evitar frases que contengan universalidad como: todos, siempre, nunca, ninguno, etc.

i). Se deben evitar palabras como SIMPLEMENTE (o pueden utilizarse con cuidado).

j). Evitar palabras que pueden provocar equívocos.

k). Evitar el empleo de frases negativas complejas. (Marín, 1975).

Dentro de los métodos de actitudes mencionadas anteriormente, el más utilizado por su sencillez y facilidad
es el de Rangos Sumarizados de Likert.
6

CAPITULO II*

MÉTODO DE RANGOS SUMARIZADOS DE LIKERT

Es una técnica para medir actitudes que cumple con las siguientes características:

1. ¿Cuántas preguntas se deben realizar?

Se elabora un cuestionario piloto (prueba) con un mínimo de 70 preguntas por cada dimensión * (Cfr.
capítulo I, punto 3): 35 son favorables y 35 desfavorables al objeto medido. Veamos un ejemplo:

a). Objeto medido = legalización del aborto (variable dependiente).

b) Afirmaciones favorables al objeto medido = “la mujer logra mayor libertad si se le permite abortar”.
“Con la legalización del aborto la mujer logra su emancipación”.

c). Afirmaciones desfavorables al objeto medido = “El aceptar el aborto es aceptar el homicidio”, “La
legalización del aborto es un genocidio”

2. ¿Cuántas alternativas?

Se trabaja con 5 (cinco) alternativas que son las siguientes:

a) Totalmente de Acuerdo (TA)


b) Acuerdo (A)
c) Indiferente (I)
d) Desacuerdo (D)
e) Totalmente Desacuerdo (TD)

Esto no indica que no se puedan variar las alternativas, por ejemplo que puedan ir de Muy perfecto a
Imperfecto u otro contínuum, no importa cual.

3. ¿Cómo calificar las opciones?

Las opciones se califican del 0 al 4 o del 1 al 5 (TA = 5, A=4, I=3, D=2, TD=1 o TA=1, A=2, I=3, D=4,
TD=5), respetando siempre la favorabilidad de la pregunta. Así por ejemplo, si se califica el TA con un 5 en
una pregunta favorable, deberá ir un 1 en el TA de una pregunta desfavorable.

RECORDAR QUE LA CALIFICACIÓN DEBE SER INVERSA, DEPENDIENDO DE LA


FAVORABILIDAD O DESFAVORABILIDAD DE LA PREGUNTA.

4. ¿Cómo se elaboran las instrucciones?

*
Por dimensión se entiende el objeto medido,el cualñ puede contener varias áreas ( ejemplo : la dimensión personalidad
puede incluir la áreas de manía, depresión, hipocondriasis, etc. )
7

Se tienen que desarrollar las instrucciones para la forma en que los sujetos van a contestar el cuestionario.
Las instrucciones deben ir en la primera hoja; deben ser lo suficientemente claras como para que no haya
equivocaciones ni confusiones en cuanto a la forma en que debe contestarse el cuestionario.

De preferencia, las instrucciones deben ir en una hoja sola, sin incluir ningún ítem.

5. ¿Cómo se intercalan las afirmaciones?

Las afirmaciones favorables y desfavorables se revuelven, se pueden sortear para ver la forma en que se van
a quedar en el cuestionario. No van primero las favorables y después las desfavorables; tampoco va una
favorable y una desfavorable; van al azar.

6. ¿Qué hacer con el cuestionario piloto?

Se aplica el cuestionario piloto. En el caso de haber un área de datos generales (sexo, edad, estado civil,
etc.) se pone antes de las afirmaciones que miden la actitud.

7. ¿Cómo se analiza cada afirmación?

Se analiza cada pregunta por separado para saber si esa pregunta fue confiable o no. La técnica es la
siguiente:

a) Generar una sábana (hoja de codificaciones) de resultados de los cuestionarios.

Ejemplo:

AFIRMACION Puntaje
Sujeto 1 2 3 4 5 6 7 . . . . . 70 Total
1 1 4 5 5 1 1 3 . . . . . 3 23
2 2 3 3 3 3 2 4 . . . . . 1 21
3 3 3 1 1 5 5 5 . . . . . 1 23
4 5 5 2 5 2 4 1 . . . . . 1 24
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
50 1 5 3 3 4 1 1 . . . . . 5 18

El cuestionario piloto deber ser aplicado, según Likert, en al menos 50 sujetos. En ocasiones se utilizan 30
Ss, aunque no es suficiente.

b) Se ordenan los sujetos de mayor puntaje a menor puntaje (Siguiendo el ejemplo anterior)

Sujeto 4 ............24
Sujeto 1 ............23
Sujeto 3 ............23
Sujeto 2 ............21
............................
Sujeto 50 ..........18
8

c) Se selecciona el 25 de % sujetos con más altos puntajes y el 25% de sujetos con más bajos puntajes. Así,
como se puede ver, nos quedamos con un 50% de sujetos. Los Ss intermedios (tibios) se eliminan del análisis.
Así, por ejemplo, si se utilizaron 50 Ss nos quedamos con 25, 12 de ellos son de puntajes altos y 13 de ellos
con puntajes bajos (o al revés). Los otros 25 se eliminan del análisis.

d) Se seleccionan los cuestionarios de los Ss escogidos con el criterio anterior. Los demás cuestionarios se
pueden olvidar.

e) Se analiza cada pregunta por separado de la siguiente manera:

Ejemplo:
CUADRO 2
25% de Sujetos ALTOS
--------------------------------------------------------------------------------
A*
------------------------------------------------------------------
S* 1 2 3 4 . . . 70
-------------------------------------------------------------------------------
1 4 3 1 5 . . . 5
2 4 4 3 3 . . . 2
3 5 5 3 1 . . . 3
4 4 4 3 1 . . . 4
-------------------------------------------------------------------------------

CUADRO 3
25% de Sujetos BAJOS
--------------------------------------------------------------------------------
A*
------------------------------------------------------------------
S* 1 2 3 4 . . . 70
-------------------------------------------------------------------------------
1 1 1 1 1 . . . 1
2 2 3 1 3 . . . 3
3 3 1 2 2 . . . 2
4 1 3 1 1 . . . 1
-------------------------------------------------------------------------------
S*=Sujeto A*=Afirmación

Como se puede observar, se hacen dos tablas: una para el 25% de sujetos altos y otra para el 25% de sujetos
bajos.
Supongamos que se tenían inicialmente 16 sujetos en el análisis, y al sumar sus puntajes seleccionamos a
ocho de ellos (los que tuvieron el más alto puntaje y los que sacaron más bajo puntaje). Los ocho restantes (Ss
tibios) se eliminaron; por tanto, nos quedaron cuatro sujetos con puntajes altos y cuatro con puntajes bajos
(25% en cada grupo) (Cfr. cuadros 2 y 3).

Ahora analicemos la afirmación (A) número uno.

Para poder llevar a cabo este análisis por cada pregunta es necesario vaciar los resultados de la pregunta 1
en los siguientes cuadros:

ANÁLISIS DE LA AFIRMACIÓN
UNO

CUADRO 4 CUADRO 5
25% de sujetos altos 25% de sujetos bajos
9

----------------------------------------- ---------------------------------------
x fa fxa fx2a x fb fxb fx2b
----------------------------------------- ---------------------------------------
1 0 0 0 1 2 2 2
2 0 0 0 2 1 2 4
3 0 0 0 3 1 3 9
4 3 12 48 4 0 0 0
5 1 5 25 5 0 0 0
----------------------------------------- ---------------------------------------
Σ 4 17 73 Σ 4 7 15
----------------------------------------- --------------------------------------
donde:

f=frecuencia de la respuesta (número (n) de sujetos que respondieron)


fx=frecuencia por alternativa.
x= alternativa (del 1 al 5).
fx2 =frecuencia (por la alternativa cuadrada).
a=altos.
b=bajos.

f) Se calcula la t (student):

f.1. Cuando el número de sujetos con puntajes altos ( na ) es diferente al número de sujetos con puntajes
bajos ( nb ) se calcula la siguiente t (student):

Xa − Xb
t= Ec. (1)
S a2 S b2
+
na nb

donde:

X a = la media del puntaje de los sujetos altos =


∑ fx a

∑f a

Xb = la media del puntaje de los sujetos bajos =


∑ fx b

∑f b
2
S = la varianza de las distribuciones de las respuestas del grupo
a

( ∑ fxa ) 2
∑ fx 2

alto =
∑(X a − X a )2
=
a
∑f a

na ( ∑ f a − 1)
2
S b =la varianza de la distribución de las respuestas del brupo
( ∑ fxb ) 2
∑ fxb2 −
bajo =
∑(X b − X b )2
=
∑f b

nb ( ∑ f b − 1)

na = número de sujetos del grupo alto= Σfa.


10

nb = número de sujetos del grupo bajo=Σfb.

f.2. Cuando el número de sujetos con puntajes altos ( na ) es igual al número de sujetos con puntajes bajos ( nb
), es decir, na = nb , la ecuación (1) se puede simplificar así:

Xa − Xb
t= Ec. (2)
∑( X ) + ∑(X )
2 2
a − Xa b − Xb
n(n − 1)

donde:
X a = igual que en la Ec. (1).
X b = igual que en la Ec. (1).
(∑ X )
2
( ∑ fxa ) 2
∑( X ) = ∑X
2
− Xa − = ∑ fx −
2 a 2

∑f
a a a
n a

(∑ X )
2
( ∑ fx ) 2

∑( )
2
Xb − X b = ∑ X b2 − = ∑ fxb2 −
b b

n ∑f b

Por tanto, las dos ecuaciones pueden quedar sustituidas por la terminología que hemos venido utilizando.
Para fines prácticos se podrían sustituir las ecuaciones (1) y (2) de la siguiente manera (Ec. (3) y Ec. (4),
respectivamente):

f.3. Cuando na ≠ nb

 ∑ fxa   ∑ fxb 
  −  
 ∑ f a   ∑ fb 
t=
(∑ fxa ) 2 ( ∑ fxb ) 2 Ec.( 3 )
∑ fx 2
− ∑ fx − 2
a
∑f + ∑f
a
b
b

( ∑ fa )( ∑ fa − 1) ( ∑ fb)(∑ fb − 1)

f.4. Cuando na = nb

 ∑ fxa   ∑ fxb 
  −  
 ∑ fa   ∑ fb 
t=
 ( ∑ fxa ) 2 ( ∑ fxb ) 2  Ec. 4
 ∑ fxa −
2
+ ∑ fxb −
2

 ∑f ∑ f 
( ∑ f )( ∑ f − 1)
11

En cualquiera de las cuatro ecuaciones mencionadas si el puntaje de t (Student) es mayor o igual a 1.75 se
acepta el reactivo para que forme parte del cuestionario final.

Si el puntaje t es menor a 1.75 se RECHAZA la afirmación.

A continuación se aplican las ecuaciones Ec. (3) y Ec. (4) en nuestro ejemplo, aunque realmente se debería
aplicar exclusivamente la ecuación (4) porque na = nb (Cfr. cuadro 4 y cuadro 5).

f.5. Con Ec. (3) (Cfr. cuadros 4 y 5).

 17   7 
  − 
 4   4 2.5 2.5
t= = = = 4.62
 17  
2
7  2 0.29 0.54
 73 −  15 − 
 4   4
+
4(4 − 1) 4(4 − 1)

f.6. Con Ec. (4) (Cfr. cuadros 4 y 5).

 17   7 
  − 
 4   4 2.5 2.5
t= = = = 4.62
 17 2   72  0.29 0.54
 73 −  +  15 − 
 4   4
4(4 − 1)

Interpretación:

Como nos podermos dar cuenta, la t calculada tanto en Ec. (3) como Ec. (4) nos dió 4.62; como 4.62 es
mayor a 1.75 se acepta la afirmación uno para que forme parte del cuestionario final

g) El cuestionario final debe contener entre 20 y 25 afirmaciones.

Es decir, que de las 70 preguntas iniciales, finalmente nos quedamos con 20 o 25, las cuales tienen puntajes
t altos (mayores a 1.75).

Recordar: de las 20 a 25 preguntas que formarán parte del cuestionario final la mitad deben ser favorables y
la otra mitad desfavorables.

Para elaborar el cuestionario final se sigue el mismo patrón de muestrear las afirmaciones al azar.

h) Después de aplicar el cuestionario final se puede aplicar cualquier método para detectar confiabilidad
general del instrumento (Kuder-Richardson), Spearman-Brown, Cronbach, etc.) (Cfr. capítulo VI).

i) Calcular, en lo posible, la validez predictiva, concurrente, de construcción y cuidar la validez de


apariencia (Cfr. capítulo VI).
12

Con un INSTRUMENTO VALIDO Y CONFIABLE, cualquier investigación que se haga con él traerá
inferencias interesantes y resultados verdaderos.

Si el INSTRUMENTO ES INVALIDO Y DESCONFIABLE, cualquier investigación que salga de él nos


conducirá, en consecuencia, a inferencias e interpretaciones falsas.

CAPÍTULO III

MÉTODO DE INTERVALOS APARENTEMENTE


IGUALES DE THURSTONE

1. ¿Cúantas formas de medir actitudes tiene Thurstone?

L. L. Thurstone ha creado tres formas para medir las actitudes:


a) Método de comparaciones apareadas. ( escala de medición de intervalo )
b) Método de intervalos aparentemente iguales. ( escala ordinal )
c) Método de intervalos sucesivos. ( escala de medición de intervalo )

a) El método de comparaciones apareadas (Method of paired comparisons) consiste en la presentación de un


número considerable de pares de afirmaciones, las cuales serán calificadas por jueces, en cuanto al grado de
favorabilidad de los reactivos hacia el objeto medido. Posteriormente se calculan probabilidades, puntajes Z y
se presentan a los Ss.

b) El método de intervalos aparentemente iguales (Method of egual appearing intervals) consiste en la


formación de 11 grupos, que van desde totalmente desfavorable (1) hasta totalmente favorable (11) hacia el
objeto actitudinal medido. Se calculan los valores escalares y rangos intercuartiles para seleccionar los
mejores reactivos. Finalmente se presentan a los Ss.

c) El método de intervalos sucesivos (Method of succesive intervals) es similar al anterior, con la diferencia
que se calculan las frecuencias con que los reactivos se asignaron a los 11 grupos como base para evaluar la
distancia entre ellos (Marín, 1975).

Aunque en forma muy escueta se han explicado los tres métodos de Thurstone, se recomienda leer más
detenidamente el libro de Allen L. Edwards (1957) para ejemplificar cada uno de los pasos que se deben
seguir al elaborar una escala de actitudes.
Los tres métodos utilizan jueces, cuando menos 100 jueces. Se recomienda tomar a los jueces de acuerdo a un
buen muestreo probabilístico, puesto que uno de los grandes problemas del sistema de Thurstone consiste en
que los juicios del jurado no son representativos de la población, por esta razón, algunos investigadores han
optado por utilizar mejor el método de rangos sumarizados de Likert. Sin embargo, consideramos que los
métodos de Thurstone son mucho más discriminativos que los de Likert, además el posible error puede quedar
resuelto si los jueces se seleccionan cuidadosamente al azar.

Los métodos de comparaciones apareadas y los intervalos sucesivos están diseñados para una escala de
medición de intervalo; mientras que el método de intervalos aparentemente iguales trabaja en escala ordinal.
De esta manera se puede utilizar la estadística apropiada en cada caso.
13

A continuación detallaremos la forma de trabajar el método de intervalos aparentemente iguales de Thurstone;


la razón por la que se eligió este método fue para demostrarse que es el de más alta confiabilidad respecto a
los otros dos métodos (0.75, según Shaw y Wright, 1967).

2. ¿En qué consiste el método de intervalos aparentemente iguales?

Uno de los problemas a los que se enfrenta un investigador social al trabajar con las actitudes, es el
de saber si las afirmaciones que eligió para medir una cierta actitud, son suficientes y necesarias para lograr
medir lo que se pretende medir con precisión.

En el libro de Edwards (1957), cuando habla del método de comparaciones apareadas, la fórmula para saber el
número de pares presentados a jueces, es la siguiente n(n-1)/2; de tal manera que si se tienen 20 afirmaciones,
se requieren 190 pares de afirmaciones; si se tienen 40 reactivos se requieren 780 pares de afirmaciones y así
sucesivamente; el método de intervalos aparentemente iguales resuelve este problema, puesto que trabaja con
menos jueces, a pesar de tener un número elevado de reactivos.

Originalmente este método fue descrito por Thurstone y Chave en 1929 (Edwards, 1957).
3. ¿Cuántas afirmaciones se elaboran?

Se elaboran las afirmaciones (de 50 a 60) que miden la actitud hacia un cierto objeto, de acuerdo con
las reglas detalladas en el Capítulo I, punto 5.

4. ¿Qué se le pide a los jueces?

Se elaboran 11 cartones que tengan de la letra A a la K (del 1 al 11, respectivamente). Se le pide a los
jueces que clasifiquen OBJETIVAMENTE la favorabilidad o desfavorabilidad de un reactivo determinado, de
acuerdo con el siguiente contínnum:

A B C D E F G H I J K
Desfavorable Neutral Favorable

Es importante hacer hincapié en que se les está pidiendo a los jueces que sometan a un juicio objetivo
la tendencia (favorable o desfavorable) de cada ítem, NO SUS SENTIMIENTOS U OPINIONES QUE
TENGAN AL RESPECTO.

Según Thurstone y Chave (1929), 300 jueces se tardan en clasificar 120 afirmaciones en un tiempo
aproximado de 45 minutos.

Los puntajes que se le dan a los juicios van desde 1 hasta 11, considerándose la misma distancia entre
el 1 y el 2, el 2 y el 3, etc. Así 1=A (desfavorable), 2=B, 3=C, 4=D, 5=E, 6=F (neutral), 7=G, 8=H, 9=I, 10=J,
11=K (favorable).

5. ¿Cómo se escogen las mejores afirmaciones?

Se calcula el valor escalar y el rango intercuartilar de cada afirmación. El cuadro 6 contiene un


ejemplo de cómo realizar estos cálculos.

Supongamos 3 afirmaciones de un cuestionario de actitudes, las cuales fueron sometidas a 200


jueces (Edwards, 1957).

Se calcula el valor escalar Ec. (5) y el rango intercuartilar (Ec. (6)) de cada afirmación de acuerdo
con las siguientes fórmulas:
14

VE = L + ( (.50 -frai )/frs)I Ec. (5)

donde:
VE=valor escalar o mediana o C50.
L= el límite inferior del intervalo en el cual la mediana se pasa.
frai=frecuencia relativa acumulada inferior; frecuencia por debajo del intervalo en donde la mediana
se encuentra .
frs = frecuencia relativa superior dentro del intervalo en el que el valor de la mediana se pasa.
I=la longitud del intervalo (en Thurstone siempre es 1).

Q= C75 -C25 . Ec. (6)

donde:
Q=rango intercuartilar.
C75 =centil 75 (la misma fórmula que la de VE (Ec. (5) ), pero en lugar de .50 se sustituye .75)
C25 =centil 25 (la misma fórmula que la de VE (Ec. (5) ), pero en lugar de .50 se sustituye .25)

El rango intercuartilar (Q) tiene la función de medida de variación de ladistribución de los jueces.
A continuación se desarrolla un ejemplo del cálculo de VE y de Q:

Tomemos del cuadro 6 la primera afirmación y veamos la calificación que obtiene este reactivo a
partir de los jueces:
CUADRO 6

C A T E G O R Í A
Desfa- Neutral Favora
Afirma vorable --------- -
ción A B C D E - G H I J ble
1 2 3 4 5 F 7 8 9 10 K
6 11

f 2 2 6 2 6 62 64 26 18 8 4
1 fr .01 .01 .03 .01 .03 .31 .32 .13 .09 .04 .02
fra .01 .02 .05 .06 .09 .40 .72 .85 .94 .98 1.00

f 0 0 0 10 40 28 50 26 28 14 4
2 fr .00 .00 .00 .05 .20 .14 .25 .13 .14 .07 .02
fra .00 .00 .00 .05 .25 .39 .64 .77 .91 .98 1.00
f 0 0 0 2 8 6 26 44 56 44 14
3 fr .00 .00 .00 .01 .04 .04 .13 .22 .28 .22 .07
fra.001 .001 .00 .01 .05 .08 .21 .43 .71 .93 1.00

donde:
f = la frecuencia absoluta (número de jueces que clasifican al reactivo de acuerdo a su grado de
favorabilidad). Por ejemplo, la afirmación Num. 1 fue clasificada como desfavorable por dos
jueces (A); neutral por 62 jueces (F), y favorable por 4 jueces (K).
fr = la frecuencia relativa (Número de jueces que están dentro de cada clasificación, dividida entre el
total de jueces. Por ejemplo en la afirmación Num. 1 los 62 jueces que cayeron en la
clasificación 6 (F) divididos entre el número total de jueces (200), nos da .31).
fra = la frecuencia relativa acumulada (suma acumulada de las frecuencias relativas -fr-. Así por
ejemplo en la Afirmación Núm. 2 en la clasificación D, la fr vale .05, sumando al fr de E (.20)
da en fra = .25; este .25 sumdo al fr de F (.14) da .39, y así sucesivamente).
15

Para calcular VE o C50 :

a) L= límite inferior del intervalo en el cual la mediana se pasa.

Para calcular la mediana o C50 de la distribución de los jueces es necesario multiplicar .50 X número
total de jueces. En nuestro ejemplo sería .50 X 200 =100.

A continuación se van sumando las f hasta pasarse de los 100; 2+2+6+2+6+62=80, todavía faltan 20
para los 100. Estos 20 se encuentran en el intervalo siguiente, el cual tiene 64 jueces. No importa si se pasa
(80+64=144). Si vemos con cuidado, el intervalo en el cual se encuentran los 64 fue el G(7). Por tanto, el
límite inferior del intervalo en el cual la mediana se pasa, en nuestro ejemplo es el límite inferior de 7=6.5.

b) frai = frecuencia relativa acumulada inferior; frecuencia por debajo del intervalo en donde la mediana se
encuentra. Ya vimos que la mediana se encuentra en el intervalo G(7), por tanto frai será el anterior, es decir
F(6) y la frecuencia relativa acumulada que se encuentra por debajo de F(6) es de .40.

c) frs= frecuencia relativa superior dentro del intervalo en el que el valor de la mediana se pasa. Si la mediana
se encuentra en G(7), el intervalo que se pasaría sería el mismo G(7), puesto que no hay que olvidar que la
mediana de 100 se pasa por 44 sujetos en este intervalo, por tanto la frecuencia relativa que hay debajo de
G(7) es .32.

d) I= amplitud del intervalo =1.0.


Ahora sí podemos proceder a calcular VE.
VE = 6.5 + ((.50-.40)/.32)(1.0)=6.8 ( Cfr. Ec. (5))

Para calcular Q se efectúan los mismos pasos.

Para calcular C75 :

a) L=.75 X 200 = 150; 2+2+6+2+6+62+64=144 faltan seis jueces para completar los 150, los cuales se
encuentran en el siguiente intervalo H (8) con 26 sujetos. Por tanto, el límite inferior es de 7.5.

b) frai = el intervalo anterior al H(8) en el cual se encuentra el C75 es G(7); por tanto, la frecuencia relativa
acumulada que se encuentra por debajo de este intervalo es .72.

c) frs= el intervalo en el que el C75 se pasa es el mismo H(8) que se excede por 20 jueces. Por tanto, la
frecuencia relativa por debajo de H(8) es .13.

d) I = 1.0.
C75 = 7.5 + ((.75-.72)/.13)(1.0) =7.7 (Cfr. Ec. (5))

Para calcular C25:

a) L = 5.5
b) frai = .09
c) frs = .31
d) I = 1.0
C25 = 5.5 + ((.25-.09)/.31)(1.0) =6.0 (Cfr. Ec. (6))

Finalmente Q = C75 - C25 = 7.7 - 6.0 = 1.7 (Cfr. Ec. (6))

Resumiendo la afirmación No. 1 tiene un VE =6.8 y una Q = 1.7. Este mismo procedimiento se debe efectuar
para todas las afirmaciones. Es decir, tendremos tanto valores escalares y rangos intercuartilares como
afirmaciones tenga el cuestionario.
16

6. ¿ Cómo se ordenan los reactivos?

Se ordenan todos los reactivos de acuerdo a sus VE en orden progresivo ascendente; por ejemplo,
supongamos que se tienen los siguientes valores de 10 afirmaciones:

CUADRO 7
------------------------------------------------------
Afirmación VE Q
-----------------------------------------------------
1 .66 1.8
2 1.45 2.1
3 1.78 1.6
4 2.53 1.3
5 2.53 1.9
6 4.86 2.9
7 5.20 1.2
8 7.36 9.4
9 9.42 3.6
10 10.93 1.0
----------------------------------------------------

7. ¿Cuántas afirmaciones se seleccionan para el cuestionario final?

Se deben seleccionar de 20 a 25 afirmaciones por cada dimensión, las cuales formarán parte del
cuestionario final. Lo idóneo sería 22 afirmaciones para abarcar todo el contínuum desfavorable-favorable.
Idealmente las afirmaciones que formen el cuestionario deberían cumplir con los siguientes requisitos:

a) Los VE deberán aproximarse lo más posible a los 22 valores 1, 1.5, 2, 2.5, 3, 3.5, 4, 4.5, 7, 7.5, 8,
8.5, 9, 9.5, 10, 10.5, 11. Por ejemplo, la afirmación 9 del cuadro 7 se acerca bastante al 9.5 como ideal del
contínuum (9.42 sustituiría al 9.5).

b) Sus Q deberán ser lo más pequeños posible para asegurar la homogeneidad y concordancia entre
los jueces. Si analizamos con cuidado el cuadro 7, las afirmaciones 4 y 5 poseen el mismo VE (2.53) pero no
el mismo Q; el criterio de selección se hará en torno a la afirmación 4, que es la que tiene el Q más pequeño
(1.3 menor a 1.9). Se recomienda elaborar unas 50 o 60 afirmaciones piloto con objeto de tener las suficientes
para seleccionar las mejores y poder abarcar el contínuum.

8. ¿Qué opciones se le presentan a los sujetos?

Se elabora el cuestionario final con las 20, 22 o 25 preguntas seleccionadas y se aplica directamente a la
muestra en estudio.

Los Ss. solamente contestarán si están de acuerdo o en desacuerdo con cada afirmación.
17

CAPITULO IV

MÉTODO DEL DIFERENCIAL SEMÁNTICO DE OSGOOD

El método del diferencial semántico (DS) de Charles E. Osgood no había sido elaborado para medir
actitudes, sino que se encaminó para explorar las dimensiones del significado.

El diferencial semántico mide las reacciones de los individuos a objetos semánticos (Summers, 1976); sin
embargo, Oswood, Tannenbaum y Suci (1957) definieron su posición con respecto a la adaptación del
diferencial semántico a la medición de actitudes.

1.¿Qué confiabilidad y validez tiene el Diferncial Semántico (DS)?

En cuanto a la confiabilidad del diferencial semántico “Tannenbaum (1953) obtuvo datos de confiabilidad
TEST-RETEST. Seis conceptos... fueron juzgados en relación a seis escalas evaluativas.... por 135 sujetos en
dos ocasiones separadas entre sí por cinco semanas... Los coeficientes Test-retest variaron desde .87 a .93...
(Summers, 1976, p.280).
En cuanto a la validez del diferencial semántico se considera bastante razonable. Al compararse con el método
de Thurstone se obtuvieron coeficientes de validez que se elevan a 0.90 o más, y de manera similar sucedió
con respecto la comparación entre el diferencial semántico y la escala de Guttman.
El método del diferencial semántico es fácil de preparar, aplicar y codificar.
Cuando los sujetos están muy involucrados en determinado asunto y desean dar respuestas deseables
socialmente, es conveniente utilizar otra técnica que no sea la del Diferencial Semántico.

2. ¿Qué supuestos presenta el DS?

El DS mide el significado connotativo de diversos estímulos (colores, objetos, dibujos, etc.), pero básicamente
de estímulos verbales. Presenta tres supuestos básicos.

a). El resultado de la evaluación o juicio puede concebirse como el lugar en que el estímulo ocupa en un
continuo experiencial definido por dos términos (adjetivos bipolares).
18

b). Muchos de los continuos experenciales son esencialmente equivalentes, y por tanto se pueden
representar unidimensionalmente.

c) Un espacio semántico (numero limitado de continuos que miden cualquier estímulo) contiene básicamente
tres factores importantes: factor evaluativo (V) factor potencia (F) y factor actividad (A).

A los tres factores se les denomina estructura EPA.

3. ¿Qué es lo primero que se hace para elabora una escala de DS?


Seleccionar los estímulos que aparentemente midan lo que plantean las hipótesis.

Supongamos que vamos a medir autoimagen entre solteros y casados; la variable dependiente (autoimagen) es
el estímulo. Si analizamos nuestro ejemplo podemos inferir que la autoimagen podrá dividirse en tres áreas de
estudio: biológica, psicológica y social.

Dichas áreas pueden formar parte del cuestionarios (Cfr. Capítulo Y punto 3). Cada una de estas tres
divisiones se convierte, a su vez, en un subestímulo biológico... ¿Cuántas afirmaciones se le pueden ocurrir a
usted que estén relacionadas con la autoimagen biológica? Podrían ser:

a) Mi cerebro e). Mis piernas


b) Mi cuerpo f). Mis genes
c) Mis células e). Mis oídos
d) Mi barriga g) etc.
Cada una de estas palabras o frases son el sub-sub-estímulo de la autoimagen. En realidad estos sub-
subestímulos a los que se refiere Oswood en el DS.

4. ¿Cómo se seleccionan los estímulos?

Es necesario seleccionar los estímulos (o sub-sub-estímulos que hablamos antes) que mejor midan la variable
de tal manera que es conveniente descartar aquellos estímulos (frases) que menos tienen que ver con el objeto
medido.
¿Cuáles de las siete frases de nuestro ejemplo anterior usted eliminaría por medir menos el aspecto biológico
de la autoimagen? ¿Eliminaría mi barriga o mis oídos? Un criterio más objetivo para eliminar las frases que
menos tienen que ver con la variable medida es poniéndolas a prueba con un grupo de jueces y calcular a cada
estimulo su valor escalar y rango intercuartílico (Cfr. el método Thurstone, capítulo III de este libro). Se les
podrían presentar las siguientes instrucciones a los jueces: “A continuación aparecen una serie de frases, las
cuales quisiéramos que usted calificara del 1 al 5 dándole el número 1 a la frase que a su criterio más tenga
que ver con la variable de autoimagen biológica; el número 2 para la frase que le sigue en importancia, hasta
el número 5, que se lo dará a la frase que menos tiene que ver con la variable”.*
En seguida se les deben prestar a los jueces las frases en esta forma:
Mi cerebro ( )
Mi barriga ( )
Mis oídos ( )
Mis piernas ( )
Mi cuerpo ( )

Una vez aplicadas a los jueces entre 50 y 75, se procede a calcular el valor escalar y rango intercuartílico de
cada frase.
Se seleccionaran aquellas frases que tengan el valor escalar y rango intercuartílico más bajo.

*
Los números y palabras en bastardillas del párrafo anterior indican que variarán de una investigación a otra,
dependiendo la cantidad de frases y la variable medida.
19

5. ¿Cuántas frases se deben seleccionar?

Eso depende de las áreas que mida el instrumento; sin embargo, entre cuatro y siete frases por área es
suficiente.

En nuestro ejemplo de autoimagen serían 15 frases (cinco para el área biológica, cinco para el área
psicológica y cinco para el área social). Es recomendable presentarle a los jueces el doble de los estímulos de
los que se van a seleccionar. Por ejemplo si se van a seleccionar cuatro estímulos habría que presentarle a los
jueces ocho; si fueran siete se presentarían 14, etc.

Es importante remarcar que este procedimiento de selección de frases estímulo no está expuesto por Osgood;
sin embargo es un sistema bastante objetivo para poder seleccionar cada frase o palabra que será utilizado en
el DS.

6. ¿Cómo se seleccionan los adjetivos bipolares?

Una vez escogidas las frases se deben seleccionar los adjetivos bipolares que deben llevar todas ellas.

Para mantener la objetividad en la selección del estímulo que se presenta a los sujetos es necesario escoger
adjetivos bipolares de la estructura EPA, o sea que se deben considerar adjetivos de los tres factores:
Evaluativo, potencial y Actividad; sin embargo, según Marín (1975) se puede escoger uno de los factores de
acuerdo a la dimensión que se quiere estudiar y “desde luego aquellos que tengan una relación directa con el
estímulo” (Marín, 1975, pp.51-52). Con esto se quiere decir que al seleccionar una frase, los adjetivos
bipolares deben tener sentido para ese estímulo. Si, por ejemplo, se escoge el adjetivo grande-chico, podría
perfectamente aplicarse a una frase: “Yo, como persona”; sin embargo, el adjetivo amrgo-dulce tiene menos
aplicabilidad a “yo, como persona”.

7. ¿Qué adjetivos bipolares pertenecen al factor Evaluativo, cuáles al de Potencia y cuáles al de Actividad?

El número de adjetivos que pueda existir es tan grande como el idioma en sí; sin embargo, unos adjetivos
tienen más peso y funcionan mejor que otros, dependiendo del idioma, la cultura e idiosincrasia de un país
(Díaz Guerrero y Salas, 1975).
Para saber qué adjetivo pesa más que otro se lleva a cabo un análisis factorial junto con una lista estandarizada
de sustantivos y se obtienen los calificativos para formar los opuestos y se construyen las escalas bipolares
(Díaz Guerrero y Salas, 1975, pp. 57-67). Como este procedimiento es lento y difícil, en México se probaron
los adjetivos bipolares que más tienen que ver con la cultura mexicana (Díaz Guerrero y Salas, 1975).
A continuación aparecen los factores y adjetivos bipolares que le corresponden (cuadro 8).

Cuadro 8

EVALUACION POTENCIA A C T I VID A D


+ - + - + -
Bueno Malo* Gigante Enano* Activo Pasivo*
Amoroso Odioso Mayor Menor* Rápido Lento*
Admirable Despreciable* Grande Chico* Joven Viejo*
Simpático Antipático* Inmenso Diminuto Mucho Poco
Maravilloso Espantoso Fuerte Débil* Trabajador Perezoso
Lindo Horrible Largo Corto Caliente Frío
Optimista Pesimista Suave Duro Violento Moderado
Completo Incompleto Severo Benigno Rápido Despacio
Altruista Egoísta Reprimido Libre Completo Simple
Bondadoso Cruel Pesado Liviano
Agradecido Desagradecido Opaco Transparente
Limpio Sucio Grande Pequeño
20

Claro Oscuro Masculino Femenino


Bello Feo
Alto Bajo
Importante Insignificante
Cierto Falso
Positivo Negativo
Saludable Enfermo

Notas importantes:

a) La lista de adjetivos bipolares que se encuentran anterior a la línea punteada fue elaborada por Díaz
Guerrero y Salas (1975) en México, y la segunda lista (por debajo de la línea) fue presentada por Marín
(1975).

b) Díaz Guerrero (1975) menciona una forma abreviada del DS en la que incluye todos los adjetivos
bipolares que aparecen con asterisco (*) con los siguientes cambios: en lugar de suave-duro colocó blando-
duro y agregó dos adjetivos más: agradable-desagradable y familiar-no familiar.

c) El signo positivo (+) indica que el adjetivo alineado en esa columna es favorable al factor; mientras que el
signo negativo (-) indica que el adjetivo es desfavorable al factor. Por ejemplo, bueno es favorable al factor
de Evaluación y malo es desfavorable.

8. ¿Cuántos adjetivos bipolares se deben escoger?

La cantidad varía; sin embargo, Díaz Guerrero (1975) selecciona tres o cuatro de cada factor (EPA).

Los adjetivos que tienen un asterisco (*) serían un ejemplo claro de los que podrían seleccionarse; sin
embargo, habría que fijarse en el adjetivo bipolar que más tenga sentido con lo que se está midiendo (Cfr.
punto 6 de este capítulo).

9. ¿Qué instrucciones debe llevar el DS?

Seleccionadas las frases (estímulos) y los adjetivos bipolares correspondientes, se procede a elaborar el
cuestionario que será aplicado a los sujetos con todo y sus instrucciones.

Las instrucciones pueden ser las siguientes:

“A continuación aparecen una serie de conceptos o frases, las cuales debe someter a su juicio personal. En
cada página se encuentra un concepto o frase diferente, debajo del cual (o la cual) se encuentra una escala en
la cual deberá evaluarse el concepto o frase.

La escala contiene dos adjetivos opuestos separados por siete espacios:

Bueno ____:____:____:____:____:____:____: Malo


A B C D E F G

Usted debe colocar una cruz en el espacio que a su juicio mejor mida el concepto o la frase.

Si coloca la cruz ( X ) en A indica: extremadamente bueno


en B indica: bastante bueno
en C indica: poco bueno
en D indica: ni bueno ni malo
en E indica: poco malo
en F indica: bastante malo
21

en G indica: extremadamente malo

Entre más cerca se ponga la cruz (X) del adjetivo, más se está de acuerdo con ese adjetivo.

Trate de no clasificar algún concepto o frase dentro del espacio D (neutro); sin embargo, si considera que la
escala no tiene ninguna relación con el concepto o frase cruce el espacio D.

Coloque con cuidado la cruz para que no quede así:

X
Bueno ____:____:____:____:____:____:____: Malo

Trate a cada escala por separado y no vuelva atrás una vez que ya marcó algo. Conteste tan rápido como le
sea posible, ya que lo que cuenta es lo primero que le venga a la mente; sin embargo, debe hacerlo con mucho
cuidado.

Agradecemos de antemano su colaboración.”

10 ¿Cómo se presentan los estímulos?

Una vez colocadas las instrucciones en una hoja por separado se presenta cada concepto o cada frase en una
hoja (también por separado)

TODAS LAS FRASES Y CONCEPTOS LLEVAN LOS


MISMOS ADJETIVOS BIPOLARES

Ejemplo:
Cuadro 9
_____________________________________________________
Mi cuerpo

Bueno ____:____:____:____:____:____:____: Malo


Lindo ____:____:____:____:____:____:____: Horrible
Despreciable ____:____:____:____:____:____:____: Admirable
Grande ____:____:____:____:____:____:____: Chico
Débil ____:____:____:____:____:____:____: Fuerte
Corto ____:____:____:____:____:____:____: Largo
Joven ____:____:____:____:____:____:____: Viejo
Pasivo ____:____:____:____:____:____:____: Activo
Lento ____:____:____:____:____:____:____: Rápido
____________________________________________________________

Como se puede observar, los nueve adjetivos calificativos bipolares pertenecen a los tres factores
(EPA) de tres en tres, respectivamente (Cfr. Cuadro 8).

11 ¿Cómo se colocan los adjetivos bipolares?


22

Los adjetivos se revuelven entre los factores y la favorabilidad, o sea que no tienen que estar alineados
necesariamente (los tres o cinco adjetivos del factor evaluativo, en primer lugar; los tres o cinco adjetivos del
factor potencia en segundo lugar, etc.). Como sucede en nuestro ejemplo; sin embargo, es conveniente
revolverlos para evitar prejuiciar al sujeto. Por otro lado, si observamos con cuidado el ejemplo del Cuadro 9,
cuatro adjetivos van de positivo (favorable) a negativo (desfavorable) y cinco de negativo (desfavorable) a
positivo (favorable).

Cuadro 10
__________________________________________
De + a - De - a +
_________________________________________
Bueno Despreciable
Lindo Débil
Grande Corto
Joven Pasivo
Lento

Es importante compensar que la mitad de los adjetivos bipolares vayan de + a - y la otra mitad de - a + ;
podrían también intercalarse uno y uno para evitar que el sujeto no ponga atención y prejuiciarlo en las
respuestas.

12. ¿Cómo se califica el DS?


De acuerdo a Osgood, Tannenbaum y Suci (1953) el DS se puede calificar del 1 al 7 o del -3 al +3,
otorgándosele el valor más alto (7 o +3, según la escala, al adjetivo más positivo, y el valor más bajo (1 o -3,
según la escala) al adjetivo más negativo. Así, por ejemplo, el adjetivo bipolar bueno-malo se puede calificar:

Bueno ____:____:____:____:____:____:____: Malo


7 6 5 4 3 2 1

Bueno ____:____:____:____:____:____:____: Malo


-3 -2 -1 0 +1 +2 +3
Empero, cualquier escala puede utilizarse (del 0 al 6 o del 10 al 70), etc.); no afecta en nada , siempre y
cuando el valor más alto lo tenga el adjetivo más positivo y el valor más bajo lo tenga el adjetivo más
negativo.

NO ES CONVENIENTE PRESENTARLE AL SUJETO LA


ESCALA (LOS NÚMEROS) CON LA QUE SE CALIFICA

Supongamos que se le presentara al sujeto el siguiente estímulo:

Mi cuerpo
Bueno___:___:___:___:___:___:___: Malo
7 6 5 4 3 2 1
Lento ___:___:___:___:___:___:___: Rápido
1 2 3 4 5 6 7
Grande___:___:___:___:___:___:___: Chico
7 6 5 4 3 2 1
Quizá piense que de lo que se trata es de hacer más puntos o muchos puntos, y por lo tanto desvirtuaría todo el
sentido del DS.
Sin embargo, esto podría aceptarse si el número de cuestionarios a aplicarse fuera muy grande, siempre y
cuando se agregara en la INSTRUCCIÓN:
“Los números que hay debajo de cada línea nada tienen que ver con su juicio; tampoco se trata de hacer más
puntos o menos puntos, tan sólo queremos saber su opinión al respecto.”
23

Una vez seleccionadas las frases, los adjetivos bipolares y la escala, la estadística que puede aplicarse depende
de lo que se busca. Como la escala adjudicada es intervalar, se pueden calcular medias, desviaciones estándar,
correlaciones de Pearson, etc., o lo que sea necesario para responder a las hipótesis.

13. ¿Cómo se puede validar conceptualmente el DS?


Se recomienda correlacionar cada estímulo (frase) con el área general. Por ejemplo, si analizamos el área de
autoimagen biológica, la cual consta de cinco conceptos o frases, se debe correlacionar el área de autoimagen
con cada uno de los conceptos o frases que la componen. Dicha correlación podría llevarse a cabo a través del
coeficiente de Pearson (Cfr. Anexo).
Esto servirá para detectar la validez y consistencia interna de cada área (sería una forma de asegurarse de que
la selección de las frases hecha por los jueces ha sido correcta).

Veámoslo estadísticamente con un ejemplo de tres sujetos:

Cuadro 11

Sujetos 5 fases de área biológica Suma del área biológica

2 13 78
26
15
11
14

11
3 12 71
21
13
14

* Los cinco puntajes salieron de la suma de los


adjetivos bipolares en cada frase.

Se deben llevar a cabo cinco correlaciones, una para cada frase:

La primea Fase La segunda Fase La tercera Fase La Cuarta Fase La quinta Fase
Puntaje Suma del Puntaje Suma del Puntaje Suma del Puntaje Suma del Puntaje Suma del
área área área área área
15 76 27 76 11 76 12 76 11 76
13 78 25 78 15 78 11 78 14 78
11 71 12 71 21 71 13 71 14 71

Se calcularán las cinco correlaciones de Pearson, y si la correlación es positivamente significativa quiere decir
que la frase tiene consistencia con respecto al área.

Si la correlación es significativamente negativa o no hay correlación, significa que la frase no tiene


consistencia con el área.

14. ¿ En cuánto tiempo se resuelve el DS?


24

Según la experiencia de Osgood, Tannenbaum y Suci (1953), el tiempo que se tarda un sujeto en contestar un
cuestionario del DS depende de la cantidad de frases o conceptos (estímulos) y la cantidad de adjetivos
bipolares para cada estímulo.

A grandes rasgos, determinaron durante 10 años que a un estudiante universitario, al nivel más bajo, le toma
de 10 a 15 minutos responder 10 conceptos o frases con 10 escalas bipolares cada uno o una (un total de 100
ítems); alrededor de una hora para 40 conceptos con 10 escalas bipolares cada uno (400 ítems).
Estos cálculos son gruesas aproximaciones que varían, dependiendo del tipo de frase o concepto y de los
adjetivos.

En general se puede decir que el DS reúne varias características esenciales:

a) Rápido de elaborarse.
b) Maneja una estadística sencilla.
c) Es de fácil y rápida aplicación.
d) Generalmente presenta alta confiabilidad y validez.

Puede aplicarse con cualquier clase de estímulos: adjetivos, verbos, grupos étnicos, autoimagen, láminas de
pruebas proyectivas, figuras, nombres de personas, etc. (Marín, 1975).

CAPÍTULO V

CUESTIONARIOS DE OPCIÓN MÚLTIPLE

Para este tipo de cuestionarios (o pruebas) se deben calcular los coeficientes de confiabilidad, así como la
validez; sin embargo, es importante realizar un estudio detallado de las opciones, la clave (respuesta correcta),
el índice de dificultad y el índice de discriminación. Asimismo, las etapas de elaboración de un cuestionario
de opción múltiple no difiere de los mencionados en el Capítulo I, punto 3.

A continuación se detallan los procedimientos más importantes que se deben tomar en cuenta cuando se
elaboran pruebas objetivas (exámenes, tests psicológicos, etc.).

1. ¿Cómo se calculan los porcentajes en los cuestionarios objetivos?

Aquí nos referiremos a los porcentajes y números absolutos de cada ítem, analizando específicamente la
frecuencia absoluta y porcentajes de cada opción, contrastándola con el número total de sujetos presentados.
25

De esta manera, la frecuencia (Frec.) es la cantidad de sujetos que escogen cada opción.

Porcentaje de sujetos que escogieron una opción = .. Frecuancia .X 100 Ec.


(7)
Total de sujetos presentados al examen

Para ver un ejemplo se recomienda confrontar el primer ejercicio de aplicación de este trabajo (cfr. capítulo
VII puntos 3 y 4).

2. ¿Cómo se analiza la clave?

Se entiende por la clave la opción correcta. No todos los cuestionarios de opción múltiple tienen una clave
(por ejemplo, los de opinión).

La estadística que se utiliza es de frecuencias y porcentajes para cada clave por cada 20% de sujetos, los
cuales irán clasificados desde los puntajes más bajos hasta los más altos. De esta manera, el análisis se hará
desde el 20% de sujetos con más bajo puntaje hasta el 20% de sujetos con más alto puntaje.

En cada 20% se pondrá la frecuencia y porcentajes de sujetos que acertaron a la clave de un ítem determinado
(Cfr. Ec. (8) y capítulo VII punto 4).

3. ¿Qué es el Índice de Discriminación (ID)?

Se utiliza para analizar qué tan efectivo es un ítem. Cada ítem debe discriminar correctamente, es decir, los
sujetos con altos puntajes deberán tener, en proporción mayor, el número de respuestas concretas que los
sujetos con bajos puntajes.

Por lo general este índice se calcula contrastando el 25% de sujetos de más alto puntaje con el 25% de sujetos
de más bajo puntaje (tal y como lo hace la técnica de rangos sumarizados de Likert) (Cfr. capítulo II punto 7);
se sugiere contrastar este índice (ID-25) con otro que contraste el 50% de sujetos con alto puntaje con el 50%
de los sujetos de puntajes más bajos; de la misma manera se puede calcular con el 33%. Se denominarán ID-
50 e ID-33, respectivamente.

Para analizar un ejemplo del ID se recomienda ver el primer ejercicio de aplicación de este libro (Cfr. capítulo
VII punto I ).

Número de sujetos del Número de sujetos del


grupo superior que _ grupo inferior que
contesto correctamente contesto correctamente
al Item al Ítem
ID= --------------------------------------------------------------------------------------------------
Ec. (8)
(Total de sujetos del grupo superior + Total de sujetos del grupo inferior)/2

El ID debe ser mayor o igual a 0.40. El valor máximo que se puede obtener es ID=1.00 (indicará que es
perfectamente discriminatorio).

4. ¿Qué es el Índice de Dificultad (DIF)?

Indica el grado de dificultad de un ítem.


26

Número de sujetos que contestaron correctamente a la clave


DIF = -------------------------------------------------------------------------------------- Ec.
(9)
Total de sujetos

El DIF debe oscilar entre 0.20 y 0.80, considerando como ideal 0.50. Un valor DIF = 1.00 indica que el ítem
es totalmente fácil y un valor DIF = 0 indica que el ítem es totalmente difícil (Cfr. capítulo VII punto 2).

5. ¿Qué es la varianza de un ítem?

Se utiliza para detectar el grado de variación de un ítem.

S2i = pq Ec. (10)

donde:
S2i = La varianza del ítem i.
p = Proporción de gentes que contestan correctamente el ítem.
q = 1-p.

Un ejercicio se encuentra en el capítulo VII punto 5.

6. ¿Cómo conviene reportar el análisis de cada ítem?

Se propone el siguiente formato de salida para reportar el análisis de cada ítem con cinco opciones:

ANÁLISIS DE CADA ITEM

EXAMEN: CÓDIGO:

Ítem No. Fecha de aplicación:


Clave: Total de sujetos al examen:

ANÁLISIS GENERAL

OPCIÓN ÍNDICES
______________________________________ ID - 25 =
A B C D E ID -33 =
______________________________________ ID -50 =
DIF =
Frec. % S2 i =
______________________________________

DISTRIBUCIÓN DE CLAVES Y DISTRACTORES

Frec. Bajos Altos


Col % ------------- ---------- Total
Ren % 20% 20% 20% 20% 20%
O A
P B
C C
I D
O E
N
Total
E
S
27

CAPITULO VI

CONFIABILIDAD Y VALIDEZ EN LOS CUESTIONARIOS

Si tomamos una investigación y la analizamos con calma, veremos que pueden suceder dos cosas :

a) El estudio no reporta la confiabilidad y validez.


b) El estudio si reporta la confiabilidad y validez.
Si consideramos a todas las investigaciones del grupo a. podremos llegar a dos conclusiones :

a1) El investigador no las reportó porque no las consideró necesario.


28

b2) El investigador no sabe que son, ni para que sirven.

Tanto en a1 como en b2 se peca de ignorancia. Asunto sumamente peligroso si se trata de inferir o representar
una cierta realidad.

¿Cómo sabemos si medimos con precisión?, o lo que es peor ¿ como sabemos si medimos lo que quisimos
medir ? Total, si no se sabe la confiabilidad y validez de una investigación, del diseño o del instrumento
quiere decir que medimos algo (quién sabe qué) y a lo mejor mal (sin precisión).

Un estudio debe reportar la confiabilidad y la validez por dos razones :

b1) Se evidencia qué tan Efectiva es la investigación.


b2) Se dejan de ocultar las limitaciones reales a las que se enfrentó la investigación.

1- ¿Cuántas investigaciones reportan la confiabilidad y validez de sus técnicas, instrumentos y diseños?

Muy pocas. Creemos que este problema de ignorancia metodológica y estadística no es problema de
investigador sino de las fuentes a las que recurre para documentarse y saber cómo se calculan o se aplican la
confiabilidad y validez. Muchos autores se pierden en el paraíso de las definiciones abstractas y en ocasiones
ambiguas de estos conceptos, sin dar a conocer un ejemplo PRACTICO de cómo podrían aplicarse.

En este libro no se pretende hacer un panegírico empíricista ni un exordio al pragmatismo, pero por lo
menos se busca que el estudioso sea capaz de aplicar (llevar a la PRACTICA) los dos conceptos clásicos de
una investigación empírica: Confiabilidad y Validez.

2.-¿Qué son la confiabilidad y validez?

La Confiabilidad podría entenderse como la congruencia, precisión, objetividad y constancia de una


investigación (Zetterberg, 1973).

a) Congruencia porque las variables y sus indicadores deberán medir la misma cosa.

b) Precisión porque uno mismo deberá de reproducir varias veces la investigación y deberá obtener los
mismos resultados.

c) Objetividad porque varios experimentadores deberán realizar la misma investigación y llevar a las mismas
conclusiones.

d) Constancia porque la forma de medición del objeto no debe alterar los resultados.

La validez podría entenderse: ¿cómo medir o que se pretende medir?

De alguna otra manera sería la correspondencia entre las variables, los indicadores, las definiciones y la
operacionalización de éstos.
Es decir, la validez interpreta la relación lógica entre las definiciones y las construcciones (ítems,
afirmaciones, preguntas, aparatos eléctricos, etc) así como la relación empírica del objeto medido con las
hipótesis; en una palabra, representatividad. ¿Es representativo nuestro estudio?
Para entender mejor la diferencia entre los dos conceptos veamos los siguientes diagramas (Phillips, 1980)
:

DIAGRAMA No. 1

*
29

*
*

*
*

Supongamos un “tiro al blanco” al cual se le disparan cinco tiros. En el diagrama No. 1 se puede observar
como todos los tiros se encuentran dispersos. Aquí no hay ni precisión ni tampoco se dispara a donde se
debería de disparar (al centro del blanco), por tanto el francotirador no tiene ni confiabilidad ni validez.

DIAGRAMA No. 2 DIAGRAMA No. 3

**
***

**
**
*

En el diagrama No. 2 el rifle o el francotirador se encuentran suficientemente mejorados; hasta se podría decir
que son bastante precisos (confiables), todos los puntos están muy cerca uno del otro. El grave problema del
tirador es que no le está dando a donde le debería de dar (al centro del blanco), se podría decir que el tirador
tiene problemas de validez, pero no de confiabilidad.

En el diagrama No. 3 el tirador da con precisión los cinco tiros exactamente en el blanco. Aquí, se ha
disparado con confiabilidad y validez.
Como nos podemos dar cuenta, las malas investigaciones corresponden al Diagrama No. 1 que miden todo
menos lo que pretenden. Las investigaciones regulares corresponden al Diagrama No. 2 que miden algo muy
bien, pero no lo que pretenden medir; por último las buenas investigaciones corresponden al Diagrama No. 3
las cuales miden con precisión lo que pretenden medir.

3.- ¿Una investigación podría ser válida pero no confiable?

El Diagrama No. 2 representa como una investigación puede ser confiable pero no válida, sin embargo, no se
puede hacer que una investigación mida lo que pretenda medir sin la precisión. Por tanto, es un requisito para
la validez, la confiabilidad.

4.-¿ Cuántas formas de confiabilidad hay?


30

Se puede calcular la confiabilidad para una investigación en general (Cfr. la intersubjetividad e


intrasubjetividad en la definición. Punto 2 de este capítulo) o para los diseños e instrumentos en específico.

En general, los estudios concuerdan en que hay 6 formas de obtener confiabiabilidad de una prueba o escala:

a) Antes y después (Test-Retest) :

La confiabilidad se consigue, en este caso (Marin, 1975) aplicando las misma prueba a los mismos sujetos en
dos ocasiones distintas.

Se debe mantener constantes todas las condiciones y variar únicamente el momento en el que se aplica la
prueba.
Para evitar caer en la sensibilización de la primera sobre la segunda aplicación (Cfr. factores que atentan
contra la validez interna en Campbell y Stanley, 1970, p. 17) se deben dejar transcurrir entre uno y seis
meses.
El cálculo estadístico es muy sencillo, todo depende del coeficiente de correlación (para mayor información
Cfr. anexo).

r=
(∑ X )(∑ Y )
N ∑ XY −

[ N ∑ X − (∑ X ) ][ N ∑ Y − (∑ Y ) ]
- - - - - - - - - - - - - - - - - - - - - - Ec. 11
2 2 2 2

donde :

r = coeficiente de correlación de Pearson.


N = No. de sujetos.
X = puntuación de la prueba “antes de” (TEST).
Y = puntuación de la prueba “después de” (RETEST).

La correlación debe ser significativa y mayor a 0.75.

b) Formas paralelas (Paralell Forms) :

La confiabilidad se consigue en este caso, aplicándole a los mismos sujetos dos pruebas distintas,
consideradas como paralelas porque miden lo mismo.

El cálculo estadístico es en realidad el mismo que en el caso anterior, con el coeficiente de correlación
(Cfr.anexo).

Sustituyendo en la Ec. (11 ) la “X” representa la primera prueba y la “Y” la segunda prueba.

Se debe tener cuidado para que en realidad las dos pruebas midan lo mismo.
Lo complicado de este método radica en elaborar dos instrumentos en lugar de uno.

Para saber como se aplica el coeficiente de correlación de Pearson se recomienda confrontar el anexo de este
libro.

c) Forma general del modelo ALPHA ( α ) :

El modelo alpha está basado en el cálculo del de Cronbach y es quizá el coeficiente de confiabilidad más
utilizado por los investigadores.
31

 K

K 
 ∑ si2 
α= 1 − i =1 2  Ec. (12)
K −1 sT 
 
 

donde :
K = número de ítems (preguntas, afirmaciones, reactivos, etc.).
si2 = la varianza el instrumento del ítem “i” (subprueba, variable, columna “i”).
sT2 = la varianza de la suma de los K ítems.

Un ejercicio de aplicación se encuentra en el Capítulo IX punto 1.

d) Forma general del modelo ALPHA estandarizado ( α S ) :

En muchas ocasiones, es necesario estandarizar los valores (las observaciones) del cuestionario, dividiéndolos
a cada uno de ellos, entre la desviación estándar del ítem, en este caso, el alpha de Cronbach se denomina
“alpha estandarizada”.

Kr
αs =
[
1+ (K −1)r ] - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -Ec. (13)

donde :
K = número de ítems.
r = la media de las correlaciones entre los ítems (Cfr. Ec. (11) y Anexo).

Un ejercicio de aplicación se encuentra en el Capítulo IX punto 2.

e) División por mitades (Split-half) :

La confiabilidad se consigue correlacionando una mitad de los reactivos del cuestionario con la otra mitad.
Generalmente se usan las preguntas pares por un lado (X) y las preguntas nones por el otro (Y); aunque se
pueden correlacionar las mitades tomando los ítems, para cada mitad, totalmente al azar. Otra forma sería
correlacionar la primera mitad de ítems contra la segunda mitad ( tal y como lo hace el paquete
computacional SPSS Statistical Package for the Social Sciences release 7-9, 1931). Para calcular esta forma
de confiabilidad, es necesario saber si hay igualdad de varianzas en las dos mitades, para tal efecto, es
necesario aplicar una F de Snedecor (Cfr. Ec. (14) para probar las hipótesis :
H0 :σ 12 = σ 22
Ha : σ 12 ≠ σ 22

donde :
σ 12 = varianza de la primera mitad.
σ 22 = varianza de la segunda mitad.

De esta manera se podrá saber si se utiliza :


32

e.1) El coeficiente Spearman-Brown ( rSb ).

e.2) El coeficiente Guttman ( rg ).

e.3) El coeficiente Rulon ( rr ).

e.1) El primero (rSb ) se utiliza cuando las varianzas de las dos mitades (X y Y) son iguales
significativamente y con un número de ítems igual en cada mitad.

e.2) El segundo (rg ) se utiliza cuando las varianzas de las dos mitades (X y Y) son distintas
significativamente ( el número de ítems de cada mitad puede ser diferente ).

e.3) El tercero (rr ) se utiliza cuando las varianzas son iguales o diferentes, pero con el mismo número de
ítems en cada mitad.

El siguiente cuadro sintetiza las características de los tres coeficientes :

CUADRO 12

TIPOS DE CONFIABILIDAD VARIANZAS No. DE ITEMS EN CADA


NIVEL.
rsb iguales iguales.
rg diferentes. diferentes.
rr iguales o diferentes. iguales.

e.1) Prueba F: Para detectar la diferencia entre las varianzas.

S P2
F= - - - - - - - - - - - - - - - - - - Ec. (14)
S N2

donde :
2
S P = es la varianza mas alta.
2
S N = es la varianza mas baja de las mitades.

Un ejercicio de aplicación se encuentra en el capítulo VIII punto 1.

e.2) Modelo de Spearman-Brown ( rsb ) : Para el caso en el que las varianzas y el número de ítems en
cada mitad son iguales.
2r
rsb = - - - - - - - - - - - - - - - - Ec. (15)
1 + r
donde :
r = es el coeficiente de correlación de Pearson entre las mitades ( Cfr. Ec. (11) y anexo ).
33

Un ejercicio de aplicación se encuentra en el capítulo VIII punto 2 y en el capítulo IX punto 3.

e.3) Modelo de Guttman ( rg ) :


Se utiliza generalmente cuando las mitades poseen confiabilidades distintas, cuando las varianzas de las dos
mitades son diferentes o cuando no se tiene el mismo número de reactivos ( ítems ) en cada mitad.

Supone, al igual que el modelo de Spearman-Brown, una división por mitades.


2( ST2 − ST21 − ST22 )
rg = --------- Ec. (16)
ST2
donde :
2
S T = la varianza de la suma de las puntuaciones de los K ítems (es igual al modelo ALPHA, Ec. (12) ).
2
S T 1 = la varianza de la suma de las puntuaciones de la primera mitad ( es la “X” del modelo Spearman-
Brown, Ec. (15) )
S T2 2 = la varianza de la suma de las puntuaciones de los ítems de la segunda mitad ( es la “Y” del modelo
Spearman-Brown, Ec. (15) ).

Un ejercicio de aplicación se encuentra en el Capítulo IX, punto 4.

e.4).- Modelo Rulon ( rr ) :

Para el caso en que las varianzas sean distintas pero con el mismo número de ítems en cada mitad.
SD2
rr = 1 − 2 - - - - - - - - - - - - - - -Ec. (17)
ST
donde :
2
S D = es la varianza de las diferencias entre las puntuaciones, de cada caso, en las dos mitades de la
prueba.

∑D  ∑ D
2 2

S 2
D = −  
K  K 
2
S T = es la varianza de las puntuaciones totales.

∑T  ∑T 
2 2

ST2 = −  
K  K 

D = mitad (X) menos la segunda mita (Y).


D = X-Y
K = número de ítems.
T = suma de las puntuaciones correctas de las dos mitades; de tal manera que ∑ T, es la suma del
total de
correctas de toda la prueba.

Un ejercicio de aplicacioón se encuentra en el capítulo VIII, punto 3.


34

f).- Método de Kuder-Richardson (KR) :

Este tipo de confiabilidad es utilizado por los investigadores cuando se desea saber si la varianza de un
reactivo afecta significativame los resultados de la prueba.
Se usan básicamente dos tipos de fórmulas; una es Kunder-Richardson 20 (KR20 ) y otra 21 ( KR21 ).

f.1 ) Modelo Kuder- Richardson 20 (KR20 ):


Se utiliza cuando los ítems o variables tienen valores dicotómicos (correcto - incorrecto; falso-verdadero; etc).
Su fórmula es idéntica a la del modelo α de Cronbach (Cfr. Ec. (12) ).

K  ∑ pq 
KR20 = 1 − 2  - - - - - - - - - - - Ec. (18)
K − 1  ST 
donde :
K = número de ítems.
P = proporción de casos que contestaron correctamente el ítem.
q = 1 - p.
S T2 = la varianza de la suma de los K ítems.
Como podrá darse cuenta el lector, la diferencia entre KR20 Ec. (18) y α Ec. (12) es que en el primero
2 2
aparece ∑ pq y en el segundo aparece s . En realidad se trata de lo mismo, puesto que la varianza ( si
i
) en una distribución normal es lo mismo que “pq” ( p por q ) en una distribución binominal, por tanto :

K K

∑S
i =1
i
2
= ∑ pq
i =1
Por eso decíamos que KR20 y α eran muy similares (Cfr. Ec. (12) y (13) ).

Un ejercicio de aplicación se encuentra en el capítulo VIII, punto 4.

f.2).- Modelo Kuder-Richardson 21 ( KR20 ) :

Toma en cuenta el promedio de respuestas correctas. Se utiliza generalmente cuando los datos se encuentran
en escala ordinal, inervalo o razón (Por ejemplo, actitudes, distancia social, etc.). Si se calcula para datos
dicotomáticos, el resultado es muy semejante a KR20 .
K  M (K − M )
KR21 = 1 −  - - - - - - - - - - -Ec. (19)
K −1 KST2 
donde :
K = el número de ítems.
M = la media de la suma de los K ítems.
S T2 = la varianza de la suma de los K ítems.

Un ejercicio de aplicación se encuentra en el Capítulo VIII, punto 5.

En cualquiera de los coeficientes de confiabilidad, se debe obtener un valor mayor o igual a 0.75.
En caso de no ser así, se deberá revisar minuciosamente el instrumento, sin embargo, la confiabilidad
depende esencialmente de número de sujetos (n) o ítems utilizados (K). En la medida que K aumenta, la
35

correlación y la confiabilidad aumentan (si y sólo si las varianzas de los reactivos son similares, de otra
manera, la correlación y la confiabilidad disminuyen).

5.- ¿Cómo se calcula el tamaño de un cuestionario?

Otra gran utilidad del cálculo de la confiabilidad es para determinar el tamaño de un cuestionario, es decir, el
número de reactivos que se necesitan para lograr una mejor (o peor) confiabilidad.
Con el coeficiente de confiabilidad se puede entimar el tamaño del cuestionario de la siguiente manera :

Cd (1 − Conf )
P= - - - - - - - - - - - - - Ec. (20)
Conf (1 − Cd )
donde :
P = la proporción de preguntas que deben implementar.
Cd = la confiabilidad deseada (para nuestro caso podría variar desde 0.70 hasta 0.99) se recomienda,
cuando nenos 75 % = .75
Conf.= la confiabilidad obtenida en el cuestionario a través de cualquier método ( rsb , rg, , rr , etc.)
n = número de ítems del cuestionario o prueba.
N = longitud de la prueba (en ítems) que se necesitan para alcanzar la confiabilidad
deseada (Cd).

Un ejercicio de aplicación se encuentra en el capítulo VIII, punto 6.

6.- ¿Cuántas clases de validez hay?

Los autores difieren en algunos tipos de validez, Kerlinger (1975) dice que se deben considerar la validez del
contenido, de criterio, de construcción, interna y externa. David Magnusson (1976) habla también de una
validez predictiva. Downie y Heath (1973) tratan la validez de criterio conexo.

Sin embargo, se puede concluir que hay básicamente cuatro tipos de validez utilizados por los metodólogos de
la investigación ( además de la validez interna y externa ) éstos son :

a).- Validez Concurrente.


b).- Validez predictiva.
c).- Validez de construcción.
d).- Validez de contenido.

La validez interna expresa una relación lógica, es decir, mide la adecuación entre las definiciones y la
operacionalización, entre todas las construcciones hipotéticas con las áreas de instumento de medición.
La validez externa expresa una relación empírica, es decir, manifiesta la representatividad de la investigación.
Existen factores que atentan contra la validez interna y externa en los diseños (Campbell y Stamley, 1970)
estos factores son una serie de variables extrañas que se deben considerar al elaborar un diseño de
investigación (Cfr. Marín, 1975).

a).- Validez concurrente :


Se considera como una validación orientada por criterios, consiste en la correlación entre el puntaje arrojado
por el instrumento (que nosotros elaboramos) y un criterio externo.

El criterio externo se refiere a otro instrumento o técnica que mida la misma característica en estudio.
Un requisito indispensable, es que las dos técnicas o instrumentos sean aplicados casi al mismo tiempo (que
no pasen más de cinco días entre la aplicación de uno u otro) un ejemplo sería el sigiuiente :
36

Supongamos que usted elabora un cuestionario para medir inteligencia al que denominaremos INTELI. Para
calcular la validez concurrente es necesario correlacionar INTELI con un criterio externo que también mida
inteligencia. Podríamos escoger el WAIS o el test de Dominós o el Test de matrices pregresivas de RAVEN,
no importa qué criterio se escoja, la correlación debe ser positiva significativamente.
Si aplicamos la prueba INTELI a 10 sujetos y a los dos días el test de Raven a los mismos 10 sujetos, las
puntuaciones podrían ser las siguientes :
CUADRO 13

SUJETO INTELI RAVEN


1. 76 62
2. 74 66
3. 72 81
4. 61 56
5. 60 55
6. 59 95
7. 81 50
8. 95 50
9. 88 45
10. 90 33

Se deberá calcular el coeficiente de correlación de Pearson (Cfr. Ec. (11) y anexo ) para determinar la validez
concurrente del instrumento de medición INTELI.
Una vez aplicada la Ec. (11) en este ejemplo, la r fué igual a 0.74 significativa al .05. Esto significa que
nuestro invento (INTELI) tiene ciertos problemas de concurrencia, puesto que debería tener un coeficiente
positivo r > .80 (mayor o igual a 0.80) para asegurar que empezamos a medir lo que pretendemos medir.
Una correlación negativa en nuestro ejemplo nos indicaría que : en la medida que más inteligentes salen los
Ss., en la prueba de Raven menos inteligentes salen en la de INTELI y viceversa; lo cual no podría ser, puesto
que ambas pruebas habían sido usadas con la misma escala.

b).- Validez predictiva :

También se considera como una forma de validación orientada por criterios.


Consiste en la correlación entre el puntaje arrojado por el instrumento (que nosotros elaboramos) y un criterio
externo.

La diferencia básica entre la validez predictiva y la validez concurrente está en que la validez predictiva se
correlaciona con un criterio externo el cual no es aplicado al mismo tiempo que nuestro instrumento; mientras
que en la validez concurrente se aplica al mismo tiempo que el criterio externo.

Un ejemplo claro de esto sería la correlación entre el puntaje de un examen de admisión a la Universidad y las
calificaciones que estos mismos sujetos tuvieran durante su trayectoria académica. Además se podría
responder satisfactoriamente a la pregunta :
¿Puede el examen de admisión predecir la conducta académica de los estudiantes?

Es claro que con el paso del tiempo intervienen otros factores que no dependen directamente del instrumento
diseñado, puesto que si por ejemplo deseamos saber si el examen de admisión logra predecir la conducta de
los sujetos dentro de cinco años, muy probablemente salgamos defraudados de nuestro instrumento; sin
embargo, la decepción será totalmente injustificada, puesto que en el transcurso de cinco años la conducta
humana pudo haber tenido modificaciones por múltiples factores.

Por eso se recomienda, al seleccionar el CRITERIO, que se tengan las debidas precauciones metodólogicas;
una cosa sería validez predictiva de nuestro instrumento y otra las relaciones interesantes que podría tener
nuestro instrumento con otros factores y fenómenos de la realidad.
37

Al seleccionar el criterio “predictivo” se recomienda que éste no sea anterior ni posterior a los seis meses de
aplicación del instrumento que pretendemos validar.

Volviendo a nuestro ejemplo, la conducta académica de los estudiante se medirá hasta los primeros seis meses
de su estancia en la Universidad, garantizando así, que al correlacionarla con el puntaje de admisión, sirva
como criterio externo para medir validez predictiva.
Veámoslo estadísticamente :
CUADRO 14

sujeto puntuaje en el examen de admision promedio de calificaciones en el


primer semestre de la universidad
1. 100 32
2. 56 44
3. 88 22
4. 32 66
5. 45 71
6. 91 16
7. 33 85
8. 12 99
9. 19 83
10. 26 71

¿Cuál sería la validez predictiva del examen de admisión?


La respuesta es muy sencilla, solamente calculamos el coeficiente de correlación de Pearson (Cfr. Ec. (11) y
anexo ) y obtenemos el resultado r = - 0.94, con = 05. Esta correlación negativa nos da “ malas noticias
“, puesto que es inversamente proporcional, es decir, entre mayor puntuaje de admisión obtengan los alumnos,
más bajas calificaciones obtendrán en su primer semestre de la Universidad; y viceversa.

Decimos que son “ malas noticias “ puesto que esto indica que el instrumento está mal diseñado y no mide lo
que pretende medir.

La correlación debería de ser positiva significativamente. Sin embargo, una correlación negativa no dice
necesariamente que el instrumento no es válido.

Hemos llegado a un punto crucial dentro de las decisiones en una investigación.:

¿Es el criterio externo el adecuado para correlacionarse con el instrumento? ¿Hemos seleccionado el mejor
criterio externo?

“Para lograr criterios indisputables, se puede optar por una operación práctica, o bien por establecerlos como
consecuencia de una definición operacional” (Cronbach y Meehl (1955).

....”La escala de Binet fue considerada de valor en sus comienzos, porque los puntajes de los niños tenían
tendencia a concordar con los juicios que sobre ellos emitían sus profesores. Si no hubiese mostrado esta
concordancia, se la habría descartado.

....El juicio del profesor solía constituir, al comienzo, el criterio de validación de un test de inteligencia.
Pero en la actualidad, si un niño tiene un CI (consciente intelectual) de 135 y tres de sus profesores se quejan
de lo tonto que es, no concluimos de ningún modo que la prueba ha fracasado.

Muy al contrario, si no ha habido errores en el procedimiento de aplicación de test, consideramos que su


puntaje representa un juicio válido acerca de una cualidad importante y que es nuestra tarea de determinar
cuáles modifican el rendimiento o hacen variar el juicio del profesor”.
38

En resumen, el peligro que corremos al seleccionar un criterio externo, radica en la inadecuación de


correlacionarlo con el instrumento cuando en realidad el criterio no es operacionalizado en forma similar ni es
suficiente para establecer interpretaciones.

Una forma de ir más allá de la validez predictiva sería validar la interpretación y dar a conocer los hechos de
la forma en que se operacionalizó el criterio externo.
Por ejemplo, al correlacionar los puntajes del examen de admisión con el rendimiento académico de los
estudiantes obtuvimos en el ejemplo una r = - 0.94. ¿No es esta correlación negativa un producto de la mala
selección del criterio? ¿Qué otros factores influyeron durante la administración del examen de admisión?

c).- Validez de construcción ( o de concepto ) :


Este tipo de validez se utiliza, generalmente, cuando no existe un criterio externo claro y evidente ( que no se
preste a confusiones ) en la interpretación.
Entendemos por concepto el atributo que postulamos para los individuos y que habrá de reflejarse a través del
rendimiento obtenido en un test ( Cronbach y Meehl, 1955).

La validez de concepto propone una validación indirecta y suele emplearse en problemas como la influencia
de connotaciones bio-psico-sociales y culturales en la aplicación de un instrumento de medición.
En otras palabras ¿Existe la posibilidad de encontrar en los Ss algunas características determinadas que
influyan en su puntaje (obtenido por un instrumento de medición) ?

Para efectuar la validez de construcción se pueden utilizar las siguientes técnicas :

c.1).- Diferencias entre grupos : a través de puntajes (student) o análisis de varianza se pueden determinar
las diferencias entre grupos.
Si existe diferencia habría que considerar tal diferencia en la interpretación.

Supongamos que se utiliza el inventario de Harrison G. Gough sobre la configuración psicológica individual
(1957) en el cual se establece claramente la diferencia entre el perfil masculino y el perfil femenino para
calificar. A esta conclusión se llega a través de una validez de conceptos puesto que la condición sexual fue
elemento sobresaliente dentro de la interpretación.

Lo mismo sucede entre los Baremos de las distintas pruebas psicométricas en los que se establecen los
distintos criterios de calificación dependiendo el país, nacionalidad, edad y sexo, de los respondientes.

c.2).- Matrices de correlación y análisis factorial : a través de técnicas como la de correlación (Cfr. Ec. (11)
y anexo ) o análisis más complicados como el factorial en el cual se establecen una serie de variables o
factores que podrían afectar la puntuación (explicando la varianza) de un objeto al contestar una prueba )Ej.:
personalidad, fatiga, motivación, ansiedad, etc.) y se correlacionan entre sí.
Esto implica un trabajo enorme, para lo cual se recomienda utilizar directamente la computadora (Nie y Hull,
1975).

c.3).- Estudios sobre la estructura interna : a través de correlacionar cada área con los ítems que contiene
(Cfr. Diferencial Semántico, Capítulo IV, punto 13).
Por ejemplo, si el área de “legalización del aborto” en un cuestionario, incluyera seis ítems de un total de 30,
se tendrá que correlacionar la puntuación total del área contra el puntaje de cada ítem; además de
correlacionar cada área con la puntuación del cuestionario global. Veámoslo esquemáticamente :

CUESTIONARIO

Area 1 Area 2 Area 3


39

Ite. Ite. Ite. Ite. Ite. Ite. Ite. Ite. Ite.


1 2 3 4 5 6 7 8 9

Por lo tanto, para un cuestionario de nueve preguntas con tres áreas se deberán hacer 15 correlaciones (Cfr.
cuadro 15).

CUADRO 15

Puntaje del ítem Suma de puntajes del


No. área
Vs.
1 1
2 1
3 1
4 2
5 2
6 2
7 3
8 3
9 3

Además :

Area 1 Vs. Cuestionario (Porcentaje total)


Area 2 Vs. Cuestionario (Porcentaje total)
Area 3 Vs. Cuestionario (Porcentaje total)

Y por último :

Area 1 Vs. Area 2


Area 2 Vs. Area 3
Area 3 Vs. Area 3

Para analizar un ejemplo práctico de esto, se recomienda leer el Diferencial Semántico de Osgood en este
libro (Capítulo IV, punto 13).

c.4).- Estudio sobre las posibilidades de cambio : a través de aplicar el mismo instrumento en condiciones
experimentales distintas (en laboratorio, en el campo, etc. ) y detectar si existen diferencias significativas en
los puntajes.
Podrían ser, también, las malas instrucciones el factor que influyera en un bajo puntaje.

c.5).- Estudios sobre el proceso : a través de observar el proceso de rendimiento del sujeto al administrarle un
test, supungamos.... “ que se tiene una prueba que supuestamente mide la capacidad matemática, si se
observa, sin embargo, que los estudiantes suelen cometer a menudo faltas que se deben a una lectura errada
de los problemas, ello hace cambiar totalmente el significado que pueda tener un puntaje bajo” (Cronbach y
Mehl, 1955).

Una forma general que podría auxiliarnos al cálculo numérico de la validez de concepto es el coeficiente de
determinación ( r2 ) que no es otra cosa que el coeficiente de correlación elevado al cuadrado.
40

Supongamos que existe una correlación de 0.85 entre la puntuación de un test de inteligencia y el rasgo de
ansiedad del sujeto al efectuar el test. ¿Es posible afirmar que el test de inteligencia se ve totalmente afectado
por la ansiedad del sujeto? Para responder a esta pregunta utilizamos el coeficiente de determinación : 0.852
= r2 = 0.72 lo que nos estaría diciendo que al menos un 72 % de la variabilidad efectiva del test no tiene
nada que ver con inteligencia (el factor ansiedad afecta decisivamente sobre el puntaje del sujeto en la
prueba).
Si r2 se encuentra entre los valores 0.36 y 1 indica que el instrumento diseñado tiene graves problemas de
validez de construcción.

Para finalizar, es conveniente hacer hincapié en que no es necesario aplicar las 5 técnicas antes mencionadas,
eso depende del investigador y del grado de validez que desee obtener.
d).- Validez de contenido :

Este tipo de validez manifiesta la representatividad o suficiencia del muestreo del contenido de una prueba
(Kerlinger, 1975).
Por contenido entendemos las áreas, materias, temas, subtemas, preguntas, reactivos, ítems, afirmaciones y
tópicos de un instrumento.

....”Un reactivo que carecería de validez de contenido representará características relativas a las relaciones
sexuales o familiares de la persona, cuando en realidad se pretendía medir la actitud hacia la situación política
de un país” (Marín, 1975).

En una palabra la validación de contenido consiste en probar que las preguntas, tópicos o afirmaciones de un
instrumento de medición tengan que ver con lo que se está midiendo. Consiste básicamente en el JUICIO.
Generalmente otros jueces “competentes” deben juzgar el contenido del cuestionario o test.
Aquí podemos mencionar, que la forma más práctica de medir validez de contenido sería a través de
calificar a cada ítem con los valores escalares y rangos intercuartilares una vez que han sido presentados a
dichos jueces (personas competentes que entiendan lo que se prretende medir) y los cuales hayan
seleccionado aquellos ítems que, a su criterio y juicio personal, deberían estar en el instrumento final.
Para ver una aplicación práctica y estadística de esto, se recomienda leer el capítulo III dedicado a Thurstone
en este libro.
Después de analizar estos cuatro tipos de validez, ¿es necesario aplicar todos para tener un instrumento
válido? Por supuesto que no, sin embargo, depende del investigador que tanto quiere estar seguro de que en
realidad midió lo que siempre quiso medir.
Para finalizar con la exposición teórica, conviene aclarar lo siguiente :

Por falta de espacio, no se ha incluido en este libro un capítulo dedicado al análisis factorial (Cfr. el punto c.2
de este capítulo ) el cual merece especial atención para la construcción de escalas y cuestionarios en general;
como complemento a este libro se recomienda leer a Harman (1976), Kim y Mueller (1982a), (1982b) y Child
(1973).
41

CAPITULO VII.

PRIMER EJERCICIO DE APLICACIÓN.

En este ejercicio se utilizarán las ecuaciones (7), (8), (9), y (10).

SUPOSICIÓN :

Supongamos que tenemos un Examen de Razonamiento Verbal con 10 ítems, aplicado a 20 aspirantes y cuyas
respuestas fueron las siguientes :

CUADRO 16

I T E M S
Sujetos 1 2 3 4 5 6 7 8 9 10 No. correctas
1 A A B A C D E A B C 4
2 B B B C C A A B C D 6
3 E B E D D E C C A B 2
4 A B C D E E B C D E 3
5 A A A A A A A A A A 2
6 A A B A B A B A B A 3
7 C A C B B A D E C C 2
8 C A B B C C D D E E 3
9 B B B B C A E E C C 4
10 C A A B B B A A A A 1
11 A A A A A A B D E E 1
12 B B C D E E A A B C 3
13 A B B C C E D A C D 10
14 A B C C C E D C A D 7
15 A C B C C D A A A D 6
16 A C B C C C A A A D 6
17 B A B B C E D B C D 6
18 B A B C C D E A C E 5
19 B A B A C E D A C D 7
20 A B A B C E A C C C 5

CLAVES A B B C C E D A C D 86
42

Para calcular las estadísticas para el “Análisis de cada ítem por separado “ es conveniente hacer una
clasificación de los sujetos desde los puntajes más altos a los más bajos (basándonos en la cantidad de
respuestas correctas).

CUADRO 17

Sujeto (Respuestas correctas)


Puntuación en el Test.
13 10
14 7
19 7
2 6
15 6
16 6
17 6
18 5
20 5
1 4
9 4
6 3
8 3
12 3
4 3
3 2
5 2
7 2
10 1
11 1

A continuación, se dividen los sujetos en 2 grupos : superiores (con las más altas puntuaciones en el test) e
inferiores (con las más bajas puntuaciones en el test).

Los 2 grupos se forman en 4 porcentajes (con el 20%, 25%, 33%, y 50% de los sujetos) para calcular (con los
tres últimos ) los “indices” (Cfr. Ec. (8) y Ec. (9) ). El 20% nos ayudará para elaborar el cuadro de
“Distribución de claves y distractores” (Cfr. capítulo V punto 6). Posteriormente hay que hace el recuento por
ítem de la cantidad de sujetos que acertaron correctamente a la clave.

Los grupos quedarían así (basándonos en el cuadro 17) :

CUADRO 18

25% 33% 50%


Altos Bajos Altos Bajos Altos Bajos
43

15 11 13 11 13 11
14 10 14 10 14 10
19 7 19 7 19 7
2 5 2 5 2 5
15 3 15 3 15 3
16 4 16 4
17 12 17 12
18 8
20 6
1 9

Una vez elaborados los grupos altos y bajos, se procede a ver cuántas respuestas correctas hay por cada grupo
para cada ítem.
En este ejemplo sólo se analizará el ítem número 1 ya que para todos los reactivos precede de la misma
manera.

Las respuestas al ítem Núm. 1 fueron las siguientes (Cfr. cuadro 16) :

CUADRO 19

SUJETOS

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
A B E A A A C C B C A B A A A A B B B A

La clave (respuesta correcta ) es la A.


Como puede observase, el análisis de los ítems se hace por columna (Cfr. cuadro 16) y no por renglón

De esta manera, si tomamos el grupo de los altos a un 25% estará formado por los sujetos : 13, 14, 19, 2 y 15
los cuales respondieron de la siguiente manera al ítem Núm. 1 (Cfr. cuadro 16)

CUADRO 20

Sujeto Respuesta

13 A
14 A
19 B
2 B
15 A
.
La clave para el ítem 1 es la A . Hay tres sujetos que acertaron a la respuesta correcta, por tanto, la
calificación que obtiene el grupo es de 3.

Se procede de igual manera para todos los demás grupos. Los resultados son los siguientes:

25% 33% 50%


Altos Bajos Altos Bajos Altos Bajos
3 2 4 3 6 4

Como ya se dijo, la utilidad de esta parte es para calcular los índices de discriminación.
44

1.- Cálculo de los índices de discriminación (Cfr. Ec. (8) ).

3− 2
ID - 25 = = 0,20
10 / 2

4−3
ID - 33 = = 0.14 (* )
14 / 2

6−4
ID - 50 = = 0.20
20 / 2

* Para el caso en que la distribución de sujetos en los porcentajes requeridos no es exacto, se utiliza el número próximo
siguiente; el 33% de 20 sujetos es 6.67, se toman, por tanto, 7 sujetos.
Los índices de discriminación están por abajo del 0.40 sugerida como mínimo, esto indica que el ítem
merece ser revisado en su planteamiento, opciones, etc.

2.- Cálculo de índice de dificultad (Cfr. Ec. (9) ).

Número de sujetos que contestaron correctamente al ítem = 10 (Cfr. Cuadro 19 ).

Número total de sujetos = 20

10
DIF = = 0.50
20
Un DIF de 0.50 es lo ideal para que un ítem no sea ni muy fácil ni muy difícil.

3.- Cálculo de la tabla de “ Análisis General “.

Se cuentan las frecuencias presentadas a cada alternativa, de esta manera, se calcula la frecuencia absoluta
(Frec.), si observamos las respuestas al ítem No. 1 (Cfr. Cuadro 19 ) observamos que hay 10 “A”, 6 “B”, 3
”C” Y 1 “E”. Esto va en la parte de Frec. del cuadro de “Análisis General” (Cfr. capítulo V punto 6).
Inmediatamente abajo se pone el porcentaje de cada opción con respecto al total de sujetos, así, la opción “A”
tiene una Frec. de 10 y un % de 10/20 = 0.50 x 100 = 50% (Cfr. Ec. (7) ), de esta misma manera se llena
todo el cuadro (Cfr. cuadro 22) .

4.- Cálculo de la tabla de “ Distribución de la Clave y los Distractores “

Para llenar este cuadro es necesario repartir a los 20 sujetos en grupos de 20%. En este caso, quedarían 5
grupos con 4 aspirantes cada uno de ellos, lo importante es que también estén ordenados del grupo de 20%
con más bajo puntaje al de más alto puntaje.

Siguiendo la clasificación del cuadro 17 los grupos quedarían así :

Cuadro 21

Grupos Sujetos

20% Bajos 11, 10, 7 y 5


45

20% Siguiente 3, 4, 12 y 8
20% Siguiente 6, 9, 1 y 20
20% Altos. 2, 19, 14 y 13

A continuación hay que ver cómo se distribuyen las opciones para cada grupo, por ejemplo: Para el 20% de
sujetos con más altos puntajes en la prueba, se encontró que contestaron en el ítem No. 1 dos “A” (sujetos 14
y 13) y dos “B” (sujetos 2 y 19).
Esto mismo se hace con los otros grupos. Posteriormente se calculan porcentajes por renglón (Ren. % ) por
columna (Col. % ) y total (Cfr. Cuadro 22 ).

5.- Cálculo de la varianza del ítem (Cfr. Ec. (10) ) :

La proporción de gente que contestaron correctamente al ítem No. 1 fueron 10/20 = 0.50 = p
y q = 1 - 0.50 = 0.50.
Por tanto, la varianza del ítem 1 es S12 = pq = 0.50 x 0.50 = 0.25.

A continuación, el cuadro 22 muestra una forma de presentar los resultados del análisis de opción, los índices
de discriminación y dificultad; y la distribución de claves y distractores (Cfr. capítulo V, punto 6 ).
ANÁLISIS DE CADA ÍTEM.

EXAMEN : Razonamiento verbal. CÓDIGO MXMXAMXMXA

Ítem No. 1 Fecha de aplicación : 13 - IV - 83

Clave : A Total de sujetos al examen : 20

ANÁLISIS GENERAL

OPCIÓN ÍNDICES
A B C D E ID - 25 = 0.20
ID - 33 = 0.14
Frec. 10 6 3 0 1
ID - 50 = 0.20
% 50 30 15 0 5 DIF = 0.50
S12 = 0.25

DISTRIBUCIÓN DE LA CLAVE Y DISTRACTORES


Frec. Bajos Total
Col. % Total
Ren % 20 % 20 % 20 % 20 % 20 %
2 2 3 1 2 10
A 50 40 75 33 50 50
20 20 30 10 20
0 1 1 2 2 6
B 0 20 25 66 50 30
0 17 17 33 33
2 1 0 0 0 3
C 50 20 0 0 0 15
67 33 0 0 0
0 0 0 0 0 0
D 0 0 0 0 0 0
46

0 0 0 0 0
0 1 0 0 0 1
E 0 20 0 0 0
0 100 0 0 0 5
Total 4 5 4 3 4 20
20 25 20 15 20 100

CAPITULO VIII

SEGUNDO EJERCICIO DE APLICACIÓN

En este ejercicio se utilizarán las ecuaciones (10), (11), (14), (15), (17), (18), (19), (20), (21) y (22).

SUPOSICIÓN :

Supongamos un cuestionario de 10 preguntas, al cual se le va a calcular la confiabilidad, por tanto, es


necesario hacer el siguiente cuadro para utilizar el método de división por mitades (Cfr. Capítulo 6, punto 4,
inciso e ).

CUADRO 22

Sujeto (1) (2) (3) (4) (5) (6) (7) (8) (9)
X Y X2 Y2 XY D D2 T T2

1 3 1 9 1 3 2 4 4 16
2 3 3 9 9 9 0 0 6 36
3 0 2 0 4 0 -2 4 2 4
4 1 2 1 4 2 -1 1 3 9
5 1 1 1 1 1 0 0 2 4
6 2 1 4 1 2 1 1 3 9
7 2 0 4 0 0 2 4 2 4
8 3 0 9 0 0 3 9 3 9
9 3 1 9 1 3 2 4 4 16
10 0 1 0 1 0 -1 1 1 1
11 1 0 1 0 0 0 0 1 1
12 0 3 0 9 0 -3 9 3 9
13 5 5 25 25 25 0 0 10 100
14 3 4 9 16 12 -1 1 7 49
15 3 3 9 9 9 0 0 6 36
16 3 3 9 9 9 0 0 6 36
47

17 4 2 16 4 8 2 4 6 36
18 3 2 9 4 6 1 1 5 25
19 4 3 16 9 12 1 1 7 49
20 3 2 9 4 6 1 1 5 25

Total 47 39 149 111 107 3 45 86 474

Los valores salieron del Cuadro 16. La columna (1) X, significa la suma de respuestas correctas tomando en
cuenta las preguntas nones (impares: 1, 3, 7, ....N) para cada sujeto.
La columna (2) Y , significa la suma de respuestas correctas tomando en cuenta las preguntas pares (2, 4, 6, 8,
. . . , N + 1 ) para cada sujeto.
Por ejemplo, tomenos del Cuadro 16 al sujeto No. 13 y veamos sus respuestas a los 10 ítems.

ITEMS

1 2 3 4 5 6 7 8 9 10
Sujeto 14: A B C C C E D C A D
Claves A B B C C E D A C D

Si dividimos los grupos de ítems en nones y pares (“X” y “Y”, respectivamente ) quedarían así :

Grupo de preguntas nones (X) : 1, 3, 5, 7, y 9


Grupo de preguntas pares (Y) : 2, 4, 6, 8, y 10
El sujeto 14 acertó a las preguntas 1, 2, 4, 5, 6, 7 y 10; de estas 7 respuestas correctas, 3 de ellas pertenecen a
X y las otras 4 a Y; de tal manera que el 3 se pone sobre la columna (1) y el 4 sobre la columna (2). (Cfr.
Cuadro 22, sujeto 14).

Se hace lo mismo con todos los sujetos.

La columna (3), X2, significa que el valor obtenido en la columna (1) es elevado al cuadrado; en nuestro
ejemplo anterior es el 32 = 9 y este valor aparece en la columna (3), se precede de igual manera con la
columna (4) respecto a Y.

La columna (5) es la multiplicación del valor X por el de Y; en nuestro ejemplo es 3 x 4 = 12.

La columna (6) es la diferencia de X y Y (X y Y); en nuestro ejemplo sería 3 - 4 = -1.

La columna (7) es el valor obtenido en la columna (6) elevado al cuadrado; en nuestro ejemplo : D = -1 por
tanto D2 = 12 = 1.

La columna (8) es la suma de X y Y (X + Y); en nuestro ejemplo es 3 + 4 = 7.

La columna (9) es el número obtenido en la columna (8) elevado al cuadrado; en nuestro ejemplo como T =
7, por tanto, T2 = 72 = 49.

En el “Total” aparecen las sumas por columna.

Después de elaborar este cuadro (Cfr. Cuadro 22), se precede a calcular los coeficientes de confiabilidad.

1.- Cálculo de F (Snedecor) (Cfr. Ec. (14) ).:

Para calcular F es necesario calcular las varianzas de las dos mitades (una mitad se refiere a las correctas que
hay en el grupo de los ítems nones y la otra mitad se refiere al grupo de los ítems pares ).
48

Así de X (Columna (1) ) los valores fueron :

3, 3, 0, 1, 1, 2, 2, 3, 3, 0, 1, 0, 5, 3, 3, 3, 4, 3, 4, 3.

De Y (Columna (2) ) los valores fueron :

1, 3, 2, 2, 1, 1, 0, 0, 1, 1, 0, 3, 5, 4, 3, 3, 2, 2, 3, 2.

La fórmula de la varianza es :

∑(X )
N 2
i −X
S2 = i =1
- - - - - - - - - - Ec. (21)
N
En donde :
S 2 = Varianza.
Xi = Cada uno de los valores (de X ó Y).
X = La media (de X ó Y)
N = No. total de sujetos.

∑X i
X= i =1
- - - - - - - - - - - - - - Ec. (22 )
N
Cabe hacer mención que se calculan dos varianzas : una para “X” y otra para “Y”:
respectivamente .

Así para X (Columna (1) ) :


X = 47 /20 = 2.35 (Cfr. Ec. (22) ).

(3 − 2.35) 2 + (3 − 2.35) 2 + (0 − 2.35) 2 +L+ (3 − 2.35) 2


S x2 = = 193
. (Cfr. Ec. (21) ).
20

Para Y (Columna (2) ) :

X = 1.95 (Cfr. Ec. (22).


S y2 = 1.75 (Cfr. EC. (21).

Para probar Ho: σ 2x = σ 2y se tiene que calcular la F dividiendo la varianza mayor entre la menor (Cfr.
Ec (14) ); en nuestro ejemplo la varianza mayor es la de 1.93 que corresponde a la X; mientras que la
varianza menor es la de Y con 1.75; por tanto :

F = 1.93 / 1.75 = 1.10

A continuación se deberá buscar en las tablas de F:

Fα / 2 ( NX - 1, NY - 1 ) y F1 - α / 2 ( NX - 1, NY - 1 )
49

donde :
NX = número de reactivos de la “mitad” cuya varianza fue la mayor (V1 ).
Ny = número de reactivos de la otra “mitad” cuya varianza fue la menor (V2 ).
α = nivel de significancia.

En nuestro ejemplo, Nx = 10 y Ny = 10; El α = 0.05 (la razón por la cual se eligió este nivel de
significancia, es totalmente arbitraria. Para Ciencias Sociales se recomienda utilizar entre .05 y .01 ).

De esta manera :

F.025 (9,9) = en tablas .248 (Cfr. Apéndice 3)

F.975 (9,9) = en tablas 4.03 (Cfr. Apéndice 3).

Si el valor de la F calculada (1.10) se encuentra que entre los valores de la F de tablas (de .248 y 4.03) se
acepta Ho, es decir, que las varianzas son iguales, si no se encuantra la F calculada entre este intervalo, se
dice que la Ho se rechaza y por tanto, se infiere que las varianzas de las mitades son distintas.

Hay que recordar que el cálculo de la F se hace con objeto de determinar si se usará la confiabilidad de
Spearman-Brown y Rulon, no es conveniente utilizar el modelo de Guttman (Cfr. Cuadro 12 ).

2.- Cálculo el modelo de Spearman-Brown ( rsb ) (Cfr. Ec. (15) ) :

Para calcular rsb es necesaria la correlación entre las dos mitades X y Y (Cfr. Ec. (11) y anexo ) .

Substituyendo los valores del Cuadro 22 en la Ec. (11).


(20∗107) − (47∗39)
r= = 0.42
[ ][
(20∗149) − 47 2 (20∗111) − 39 2 ]
De esta manera Spearman-Brown es :

2∗0.42
rsb = = 059
.
1 + 0.42
(Cfr. Ec. (15) ).

3.- Cálculo del modelo de Rulon (rr ) ( Cfr. Ec. (17) ) :

También se utiliza el Cuadro 22.

2
Primero se calculan S D y S T2 (Cfr. Ec. (17) )

∑D  ∑ D
2 2 2
45  3 
S 2
= −   = −   = 2.23
20  20 
D
K  K 

2 2
T2  T  474  86 
ST2 = −  = −   = 5.21 ; Por tanto,
K  K  20  20 
2.23
rr = 1 − = 0.57
5.21
50

4.- Cálculo de método Kunder-Richardson 20 (KR20 ) (Cfr. Ec. (18) ) :

Se calcula una tabla de proporciones de respuestas correctas (p) por ítem. Es decir, el número de respuestas
correctas de cada ítem dividido entre el total de sujetos. (Cfr. Cuadro 22 y recordar que q = 1 - p ).
Por ejemplo : el ítem No. 1 fue contestado correcatmente por 10 sujetos, entonces p = 10/20 = .50 (Cfr. la
columna 1 del Cuadro 16 ).

Si se recuerda, pq es la varianza de un ítem (Cfr. Ec. (10) ).

A continuación hay que calcular la varianza de las puntuaciones totales, para esto necesita el Cuadro 16 con
objeto de calcular la varianza del “No. de CORRECTAS”. Por tanto, la ST2 se haría con las siguientes
puntuaciones (Cfr. columna 8 del cuadro 22) :

4, 6, 2, 3, 2, 3, 4, 1, 1, 3, 10, 7, 6, 6, 6, 5, 7, 5.

Se calcula tal y como se hizo anteiormente en la Ec. (21).

CUADRO 23

Item P Q PQ
1 0.50 0.50 0.25
2 0.40 0.60 0.24
3 0.55 0.45 0.25
4 0.30 0.70 0.21
5 0.60 0.40 0.24
6 0.40 0.60 0.24
7 0.30 0.70 0.21
8 0.50 0.50 0.25
9 0.40 0.60 0.24
10 0.35 0.65 0.23
_____

2.36

ST2 = 5.21 (Es el mismo resultado que el obtenido en la ST2 de RULON, Cfr. punto 3 de este capítulo).

 10   5.21 − 2.36 
KR20 =    = 0.61 (Cfr. Ec. (18) ).
 10 − 1  5.21 

5.- Cálculo del método de Kunder-Richarson 21 (kr21 ) (Cfr. EC. (19) ).


51

Para calcular KR21 se necesitan varios elementos :

S = La misma que en KR20


N = Número de ítems.
M = El promedio de “Correctas” en el examen (Cfr. Ec. (22) ).

La media (M) se calcula dividiendo 86/20 = 4.30 (Cfr. Cuadro 16 )

Ahora simplemente hay que sustituir los valores en la Ec. (19) :

 10   4.30(10 − 4.30 
KR21 =   1 −  = 0.59
 10 − 1  10∗5.21 

Como pudo observarse, los coeficients de confiabilidad fueron los siguientes :

Spearman-Brown = 0.59
Rulon = 0.57
KR20 = 0.61
KR21 = 0.59

Ninguno de estos coeficientes fue mayor o igual al 0.75 considerado como la confiabilidad aceptable.

Además, para una N = 20 o N = 40 el 0.61, 0.59 y el 0.57 son demasiado bajos. Por tanto, podemos concluir
que no tenemos la confiabilidad necesaria en el instrumento diseñado para el ejercicio. Había que iniciar una
revisión minuciosa del instrumento.
6.- Cálculo de la “Extesión de la Prueba” (Cfr. Ec. (20) ) :

No es necesario considerar los cuatro coeficientes de confiabilidad ( rsb, rr, KR20 o KR21 ) para calcular la
extensión de la prueba, se escoge el modelo más apropiado a nuestra investigación.

Si escogiéramos el modelo de Spearman-Brown (rsb ), el cálculo de la extensión de la prueba sería el siguiente


(Cfr. Ec. (20) ).

Conf. = rsb = 0.59


Cd. = Desde 0.70 hasta 0.99
N = 10

Por tanto, para una Cd. de 0.70,


0.70(1 − 0.59)
P= = 161
.
0.59(1 − 0.70)

N = 1.61 X 10 = 16.11; aprox. 17 ítems.

Por tanto, para incrementar la confiabilidad obtenida de 0.59 a 0.70 habría que aumentar 7 ítems más al
cuestionario, o sea, que tendríamos un instrumento con 17 ítems para lograr una confiabilidad de 0.70. E l
Cuadro 24 muestra cuántos ítems se necesitarían para distintos niveles de confiabilidad.

CUADRO 24

Cd P N

0.71 1.70 17
52

0.72 1.79 18
0.73 1.87 19
. . .
. . .
. . .
0.96 16.67 167
0.97 22.46 225
0.98 34.05 341
0.99 68.79 688

Se le recomienda al estudioso hacer el ejercicio para los distintos Cd.

Esto mismo puede hacerse para cada uno de los otros índices de confiabilidad ( Rulon, KR20 y KR21 ).

No se olvide al investigador, que la confiabilidad mínima aceptable en las ciencias sociales es de 0.75
(aunque puede variar ). En realidad, la aplicación de la fórmula para el cálculo de la “Extensión de la Prueba”
(Ec. (20) ) debe hacerse a partir de valores Cd. mayores o iguales al 0.75.

CAPITULO IX.

TERCER EJERCICIO DE APLICACION.

En este ejercicio se utilizarán las ecuaciones (11), (12), (13), (15), (16), (21), (22) y (23).

SUPOSICION :

Para llevar a cabo el cálculo de las distintas confiabilidades nos basaremos en un ejemplo hipotético de un
cuestionario de 6 preguntas tipo Likert (por supuesto que un instrumento con 6 ítems muy probablemente no
sea válido, sin embargo, lo que se pretende es hacer un ejemplo didáctico para que el investigador practique
estos coeficientes ). Dicho cuestionario hipotético es aplicado a 5 sujetos (aunque la muestra no es
representativa, son suficientes casos para que el estudioso lleve a cabo los cálculos correspondientes en forma
práctica).

CUADRO 25

Sujeto ítems
P1 P2 P3 P4 P5 P6
1 4 5 2 1 4 4
2 5 5 4 5 5 1
3 4 5 2 4 4 4
4 4 5 2 2 4 1
5 4 5 2 2 4 4
53

1.- Cálculo de modelo ALPHA ( α ) (Cfr. Ec. 12 ) ) :

Lo primero que hay que hacer es calcular la varianza, por separado de P1, P2 , .... , P6 (de esta manera
2
obtendremos las 6 S i (Cfr. Ec (21) ).

Tomenos a P1 cuyos valores son 4, 5, 4, 4, 4, (Cfr. cuadro 25 ) la media ( X ) de estos valore es de 4.2
(Cfr. Ec. (22) ) y la varianza es de 0.16 (Cfr. Ec. (21) ). Esta último cifra salió así :

(4 − 4.2) 2 + (5 − 4.2) 2 +L+ (4 − 4.2) 2


S12 = = 016
.
5
Por tanto, las 6 varianzas calculadas fueron las siguientes :

ítems: P1, P2 P3 P4 P5 P6
Vrianzas : 0.16 0.16 0.64 2.16 0.16 2.16

∑S
i =1
i
2
= ( 0.16 + 0.16 + 0.64 + 2.16 + 0.16 + 2.16 ) = 5.44

2
A continuación se calcula la ST : se deben sumar las puntuaciones para cada caso o (sujeto); para el primer
caso la suma sería así (Cfr. al sujeto 1 del cuadro 25 ).

4 + 5 + 2 + 1 + 4 + 4 + = 20

Por tanto, para los cinco sujetos el cuadro 26 quedaría así :

CUADRO 26

Sujeto Suma de puntuaciones

1 20
2 25
3 23
4 18
5 20

2
Se calcula la varianza (Cfr. Ec. (21) ) para la “suma de puntuaciones” ( ST ).
ST2 = 6.16

Para obtener el ALPHA de Cronbach, simplemente nos resta sustituir los elementos :

6  5.44 
α= 1 −  = 014026
. (Cfr. Ec. (12) ).
6 − 1  616. 

La confiabilidad debe ser lo más cercana a uno (1).


54

En este caso la confiabilidad es baja.

2.- Cálculo del modelo ALPHA estandarizado ( ) (Cfr. Ec. (13) ) :

Lo primero que hay que hacer es calcular las correlaciones de Pearson entre todas las parejas de ítems (Cfr.
Ec. (11) y anexo ) .

P1 vs P 2; P1 . vs P3 ; P1 vs P4; P1 vs P5; P1 vs P6
P2 vs P3 ; P2 vs P4 ; P2 vs P5 ; P2 vs P6
P3 vs P 4; P3 vs P 5; P3 vs P6;
P4 vs P 5; P4 vs P6
P5 vs P6

Po tanto, se tendrán que realizar 15 correlaciones. Para saber el número de correlaciones que se tienen que
calcular, se puede aplicar la siguiente fórmula :

N i ( N i − 1)
Num. de correlaciones a realizarse = Ec. ( 23).
3

donde :
Ni = número de ítems.

6(6 − 1)
En nuestro caso Ni = 6, por tanto, = 15
2
Veamos el ejercicio de P1 ( X ) vs P2 ( Y ) ;

Los valores son tomados del cuadro 25


CUADRO 27

X Y X2 Y2 XY

4 5 16 25 20
5 5 25 25 25
4 5 16 25 20
4 5 16 25 20
4 4 16 16 16

21 24 89 116 101

(5∗101) − (21∗24)
r= = 0.25
[ ][
(5∗89) − 212 (5∗116) − 24 2 ]
De esta misma manera se calculan las 15 correlaciones. A continuación del cuadro 28 muestra la matriz de
las 15 correlaciones obtenidas en los 6 ítems:

CUADRO 28
55

ITEMS P1 P2 P3 P4 P5 P6

P1 1.0000
P2 0.2500 1.0000
P3 1.0000 0.2500 1.0000
P4 0.7484 0.2721 0.7484 1.0000
P5 1.0000 1.0000 1.0000 0.7484 1.0000
P6 -0.6123 -0.6123 -0.6123 -0.3888 -0.6123 1.0000

Para calcular r (la media de las correlaciones) se tienen que sumar las 15 correlaciones y dividirlas entre 15
:

(0.25) + (100
. ) +L+ ( −0.6123)
r= = 0.2422
15
Para obtener finalmente el ALPHA estandarizada ( α S ) hay que sustituir :
(6∗0.2422)
αS = = 0.65728
1 + [(6 − 1)∗ (0.2422)]

Esta confiabilidad es bastante más alta que la obtenida directamente por el método ALPHA no estandarizado :

Alpha no estandarizada Alpha estandarizada


0.14026 0.65728

Por esta razón, se debe tener mucho cuidado al elegir el modelo de confiabilidad más apropiado.

3.- Cálculo del modelo Spearman-Brown ( rSb ) (Cfr. Ec. (15) ) :

Supongamos que la primera mitad la forman los primeros tres ítems del cuestionario hipotético (P1, P2, P3,) y
la segunda mitad la forman los siguientes tres ítems ( P4, P5, P6) . Entonces X es igual a la suma de P1, P2, P3
y Y es igual a la suma de P4, P5, P6.

El cuadro 29 muestra cómo quedarían formadas las dos mitades :

CUADRO 29

X (primera mitad) Y (segunda mitad)

11 9
14 11
11 12
11 7
10 10

Efectuando la correlación de Pearson entre X y Y (Cfr. Ec. (11) y anexo ), se obtiene rxy; de esta manera :
56

rxy = 0.2913

Ahora simplemente hay que sustituir en le Ec. (15) :

2 × (0.2913)
rSb = =0.4511
1 + 0.2913

Se recomienda probar con una F, la hipótesis de igualdad de varianzas para asegurarse si es mejor interpretar
el coeficiente de confiabilidad de Spearson-Brown o el de Guttman o Rulon a través de la Ec. (14).

(Cfr. punto 1 del capítulo VIII).


Puede calcularse al ALPHA (Cfr. Ec. (12) ) para cada una de las mitades con objeto de analizar la
consistencia interna de cada mitad, por separado.

En nuestro ejemplo :

ALPHA de Cronbach de la primera mitad (X) = 0.7173

ALPHA de Cronbach de la segunda mitad (Y) = -0.7173

Se le recomienda al estudioso calcular estos dos coeficientes para que practique la técnica. Como puede
observarse, la segunda mitad tiene una pésima confiabilidad (además es negativa); no hay que olvidar que la
confiabilidad debe ser lo más cercana a uno (no a -1).
Si le llegase a suceder algo similar al investigador, tendría que revisar minuciosamente su cuestionario .

4.- Cálculo del modelo de Guttman ( rg ) (Cfr. Ec. (16) ) :

2 2 2
Para poder calcular la ST1 , la ST 2 y la ST de la Ec. (16) se tienen que sumar las puntuaciones (Cfr.
los cuadros 26 y 29).
El cuadro 30 muestra un resumen de los cuadros 26y 29.

CUADRO 30

T1 (6 X) T2 (6 Y) T (X + Y)

11 9 20
14 11 25
11 12 23
11 7 18
10 10 20

Las varianzas (Cfr. Ec. 21) calculadas son :

2
ST1 =1.84
ST22 =2.96
ST2 = 6.06

Finalmente hay que sustituir en la Ec. (16) para obtener el coeficiente de Guttman :
57

. − 184
2(616 . − 2.96)
rg = = 0.4415
616
.
Como puede observarse, la confiabilidad es muy parecida a la obtenida en el modelo de Spearman-Brown (rsb
).
Para resumir, se presentan en el cuadro 31 todos los coeficientes obtenidos a partir del cuestionario hipotético:

CUADRO 31

Alpha Alpha estandarizada Spearman-Brown Guttman


( α ) (α S ) ( rSb ) ( rg )

0.14026 0.65728 0.4511 0.4415

Como podemos observar el investigador, hay diferencias entre los coeficientes, por esta razón se recomienda
elegir el modelo apropiado de acuerdo con las características de los datos que serán analizados ( Cfr. el cuadro
12 ).

ANEXO

CORRELACION

Definición 1 :
Sean X1, X2, X3,.... Xn los valores de la variable X. Sean Y1, Y2, Y3, ...., Yn los valores de la variable Y.
Entonces se puede hablar de N pares (X1, Y1), (X2, Y2), ... (Xn, Yn) demoninados parejas ordenadas.

Definición 2 :
Se le denomina correlación a la relación de las dos variables X, Y.

Definición 3 :
Es distinto hablar de correlación que de dependencia. El hecho de que dos variables estén correlacionadas, no
indica que sean dependientes.

Definición 4 :
Se dice que el coeficiente que calcula el grado de relación entre las dos variables (X, Y) es el “coeficiente de
correlación”; dicho coeficiente puede salir positivo o negativo. Se entiende por un coeficiente de correlación
58

positivo que las variables son diferente proporcionales (en la medida que se incrementa una, se incrementa la
otra) ( Cfr. figura 1).
Figura 1

Y2

Y1

X1 X2

Como se puede observar, en la medida que incrementa X1 a X2; también se incrementa Y1 a Y2.
Se dice que un coeficiente de correlación es negativo cuando las variables son inversamente proporcionales.
Es decir, en la medida que incrementa una de ellas, la otra decrementa (Cfr. figura 2 ).

Figura 2
Y

Y1

Y2

X1 X2

Como puede observarse, en la medida que aumenta X1 a X2 disminuye Y2 a Y1.

Definición 5 :

El coeficiente de correlación se encuentra en el intervalo ( -1, + 1 ), es decir, que los valores considerados
como “perfectos” (la mejor relación entre, al menos dos variables) son el -1 y el +1. El “ -1 ” indica
correlación perfecta negativa (inversamente proporcional), es decir, los puntos están acomodados en forma de
una recta. (Cfr. figura 3).

Figura 3.
59

Mientras que la correlación positiva perfecta ( + 1 ) es cuando los puntos están acomodados dentro de una
recta en forma directamente proporcional (Cfr. figura 4).

Figura 4.

Definición 6 :

Se dice que la correlación es nula perfecta cuando se obtiene un coeficiente de correlación igual a cero, es
decir, que los puntos están tan dispersos que no hay forma de establecer alguna trayectoria específica (Cfr.
figura 5).

Figura 5.

***
******
******** * *
****** * * * * * *
********* * *
****** * *
*****

Definición 7 :

Existen diferentes coeficientes de correlación dependiendo la escala de medición que se utilice. Los
coeficiente más utilizados son :

Escala Coeficiente

Nominal Coef. de contingencia


Ordinal Kendall o Spearsman
Intervalar Pearson

Definición 8 :

El número que se obtiene de los cálculos de algún coeficiente de correlación se debe interpretar de dos manera
:

a).- El signo (Cfr. definiciones 4 y 5 );

b).- La cantidad (Cfr. figuras 6, 7 y 8 ).

Figura 6 Figura 7
Y Y
60

X X

Figura 8
Y

X
Definición 9 :

El hecho de tener un coeficiente de correlación con una muy alta cantidad (Ejemplo : 0.90), no nos indica a
qué nivel es signidativo. Por tanto, hay que probar la “significación del coeficiente de correlación” con las
siguientes hipótesis estadísticas :

Ho = la correlación = 0.

Ha = la correlación ≠ 0.

donde : la correlación = es el signo que se le da al coeficiente específico.

Si se acepta la Ho significa que el coeficiente de correlación no fue significativo para el alfa


( α ) que se haya supuesto.

Si se rechaza Ho significa que el coeficiente sí fue significativo y por tanto es diferente de 0. Esto es lo que
siempre debe suceder.
Atodos los coeficientes de correlación se les debe calcular su prueba de significación porque si no es así, no se
sabe la confiabilidad a la que dicho coeficiente está sujeto.
Cada coeficiente de correlación tiene sus propias fórmulas para probar su significación.
A continuación solamente detallaremos el coeficiente de correlación de Pearson.

Correlación de Pearson

Es uno de los coeficientes más utilizados para las escalas intervalores o de razón. Hay muchas formas de
calcularlo, sim embargo, la fórmula más sencilla es la siguiente :

N ∑ XY − ∑ X ∑ Y
r=
[N∑ X 2
][
− (∑ X ) 2 N ∑ Y 2 − (∑ Y )2 ]
Ejemplo :
61

En un estudio criminológico sobre “agresividad y frustración” de los presos del D..F., se sometió a un grupo
de ocho presos a dos tipos de pruebas; la primera medía agresión y la otra frustración.

El criminólogo quizo encontrar la relación que había entre los puntajes de una y otra prueba, probó la
significación del coeficiente de correlación y calculó el coeficiente de determinación.
Los datos son los siguientes :

Agresión (X) Frustración (Y)

63 65
64 67
70 69
72 70
65 64
67 68
68 71
66 63

1).- Coeficiente de correlación :

Se calcula PEARSON dado que los datos se encuentran en escala intervalar.

X Y XY X2 Y2

63 65 4095 3969 4225


64 67 4288 4096 4489
70 69 4830 4900 4761
72 70 5040 5184 4900
65 64 4160 4225 4096
67 68 4556 4489 4624
68 71 4828 4624 5041
66 63 4158 4356 3969

535 537 35955 35843 36105

Sustituyendo en la ecuación :

(8 × 35955) − (535 × 537)


r= = 0.6978
[ ][
(8 × 35843) − 5352 (8 × 36105) − 537 2 ]
a).- La correlación es positiva : la agresión y la frustración son directamente proporcionales.

b).- La cantidad de 0.6978 es una correlación no considerada como muy alta (se aleja de + 1)

2).- Prueba de significación :

La prueba de significación para el coeficiente de Pearson está dado por una “t” (student) si hay menos de 30
sujetos o por una “z” si existen más de 30 sujetos.

Como en nuestro caso sólo tenenos 8 sujetos; utilizamoa una “t” (student) que prueba :
62

H0 : r = 0
Ha : r ≠ 0

Con la fórmula :
r
t= N −2
1− r2

Sustituyendo :
0.6978
t= 8 − 2 = 0.9742 ( 2.4495 ) = 2.3863
1 − 0.69782

Las tablas se encuentran en el apéndice 1 de este libro.

El 2.3863 cayó en zona de aceptación, por tanto se acepta Ho y no fue significativo (p>.05).

t.05( 6 ) = ± 2.447

De esta manera :

El coeficiente de correlación no es significativamente distinto de cero.

3.- El coeficiente de determinación :

El porcentaje de variación de una variable a partir de la otra. Su fórmula es R2 (el cuadrado del coeficiente
de correlación).

r2 = R2 = 0.6978 = 0.4869

Interpretación : en la medida que varía la frustración, hay un 48.60% de seguridad que también varíe la
agresión. Es decir, existe un 48.69% de posibilidad de que la frustración medida con el Test, no sea
solamente frustración.

Para el caso en que N > 30 se utiliza Z.

r
Z=
Sr
donde :
r = Coeficiente de correlaciones de Pearson

1
Sr =
N −1
63

Se contrasta la Z con las tablas (Cfr. Apéndice 2).

Para ampliar más este tema y el de prueba de hipótesis, se recomienda leer Dixon y Massey (1965), Downie y
Heat (1973), Phillips (1980), Kerlinger (1975) y Henkel (1982).

COLEGIO DE BACHILLERES DEL ESTADO DE


GUERRERO
SECRETARÍA ACADÉMICA Y CULTURAL
UNIDAD DE EVALUACIÓN E INVESTIGACIÓN

CURSO TALLER:
64

“TÉCNICAS ESTADÍSTICAS SOBRE VALIDEZ Y CONFIABILIDAD


DE CUESTIONARIOS”

CONTENIDO

• Modelación.
- Importancia de la estadística en la investigación.
- ¿ Por qué muestrear ?

• Medidas de Tendencia central.


- Moda, Mediana y Media.

• Medidas de Correlación.

• Cuestionarios.

- Tipos de cuestionarios.
- Como costruír un cuestionario.

a ) Recomendaciones para construír un cuestionario de actitudes y de opción


múltiple.
- Métodos de análisis de cuestionarios para medir actitudes.
a) Método de rangos sumarizados de Likert.
b) Método de intervalos aparentemente iguales de Thurstone.
c) Método del Diferencial Semantico de Osgood.
- Métodos de análisis de Cuestionario de opción múltiple.
a ) ¿Cómo se calculan los porcentajes en los cuestionarios objetivos?
b ) ¿Cómo se analiza la clave?
c ) ¿Qué es el Índice de Discriminación (ID)?
d ) ¿Qué es el Índice de Dificultad (DIF)?
e ) ¿Qué es la varianza de un ítem?
f ) ¿Cómo conviene reportar el análisis de cada ítem?

• Validez y confiabilidad de cuestionarios.


- Conceptos.
- Tipos de confiabilidad y método de cálculo.
a ) Antes y después ( Test - Retest ).
b ) Formas paralelas ( Paralle Forms ).
c ) Forma general del modelo ALPHA.
65

d ) Forma general del modelo ALPHA estandarizado.


e ) División por mitades ( Split - half ).
e.1 ) El coeficiente de Spearman - Brown.
e.2 ) El coeficiente de Guttman.
e.3 ) El coeficiente de Rulon.
f ) Método de Kuder - Richardson.
f.1 ) Modelo de Kuder - Richardson 20 ( KR20 )
f.2 ) Modelo de Kuder - Richardson 21 ( KR21 )
- ¿ Como se calcula el tamaño de un cuestionario ?
- Tipos de validez.
a ) Validez concurrente.
b ) Validez predictiva.
c ) Validez de construcción ( o de concepto )
c.1 ) Diferencias entre grupos.
c.2 ) Matrices de correlación y análisis Factorial.
c.3 ) Estudios sobre la estructura interna.
c.4 ) Estudio sobre las posibilidades de intercambio.
c.5 ) Estudios sobre el proceso.
d ) Validez de contenido.

CONFIABILIDAD Y VALIDEZ DE INSTRUMENTOS DE


RECOPILACIÓN DE INFORMACIÓN

• Modelación.
- Importancia de la estadística en la investigación.
- ¿ Por qué muestrear ?
66

• Medidas de Tendencia central.


- Moda, Mediana y Media.
• Medidas de Correlación.

• Cuestionarios.
- Tipos de cuestionarios. ( pág. 3 cap. I )

Existen básicamente tres tipos de cuestionarios:

a) Abiertos: En los cuales las preguntas que se hacen están hechas para que el sujeto
responda TODO lo que quiera y cuanto se le venga en mente.

b) Cerrados: En los que el sujeto está condicionado a responder o a seleccionar


cualquiera de las opciones que se le presentan.

c) Mixtos: Contienen tanto preguntas cerradas como abiertas.

- Como costruír un cuestionario. ( pag. 4 cap. I )

Los pasos a seguir para construir un cuestionario son los siguientes:

1) Tener a la vista las hipótesis de investigación.

2) Elaborar las áreas que debe abarcar el cuestionario (por ejemplo: datos generales del
sujeto, temas a tratarse, etc.). Se recomienda para este paso que se comuniquen con
científicos y/o teóricos del tema que conozcan el contenido, a grandes rasgos aunque sea, de
la investigación.

3) Generar tópicos (destellos intelectuales) de las áreas, elaborando algunas palabras, frases,
etc., que nos den una pista de las preguntas que deberán conformar el cuestionario final.

4) Clasificar los tópicos en las áreas, para distribuir correctamente las ideas.

5) Formular las afirmaciones y/o preguntas que creemos que formarán parte del
cuestionario

6) Revisar si las afirmaciones y/o preguntas tienen que ver TODAS ELLAS con la hipótesis
de la investigación.

7) Revisar la redacción y ortografía de CADA PREGUNTA.


8) Verificar la validez concurrente y de apariencia (Cfr. capítulo VI, punto 6)

9) Generar (para el cuestionario piloto) al menos el doble o el triple de ítems (preguntas)


que inicialmente se habían calculado para el cuestionario final; por ejemplo, si se va a
67

trabajar una dimensión de 20 ítems finales, se deberán construir entre 40 y 70 reactivos.


Cada dimensión (área) abarca aproximadamente entre 25 y 30 afirmaciones.

a ) Recomendaciones para construír un cuestionario de


actitudes y de opción múltiple.

Hay muchas formas de hacer un cuestionario de actitudes, todo depende de la escala que se
utilice. Han existido muchas escalas de actitudes, entre las principales tenemos:

a) Método de comparaciones apareadas de Thurstone.


b) Método de intervalos aparentemente iguales de Thurstone.
c) Método de intervalos sucesivos de Thurstone.
d) Método de rangos sumarizados de Likert.
e) Método de diferencial semántico de Osgood.
f) Método del escalograma de Guttman.

¿ Como se construye un cuestionario de actitudes ?

Las afirmaciones deben cumplir ciertas condiciones:

a). Evitar frases que se refieran al pasado en vez del presente.

b). Evitar frases que puedan ser interpretadas en más de un sentido.

c). Evitar frases que no tengan relación con el objeto psicológico medido.

d). Evitar frases en las que casi nadie o todos estarían de acuerdo.

e). Utilizar un lenguaje claro, simple y directo.

f). Los reactivos deben ser cortos, de no más de 20 palabras.

g). Cada reactivo debe contener SOLO UNA IDEA.

h). Evitar frases que contengan universalidad como: todos, siempre, nunca, ninguno, etc.

i). Se deben evitar palabras como SIMPLEMENTE (o pueden utilizarse con cuidado).

j). Evitar palabras que pueden provocar equívocos.

k). Evitar el empleo de frases negativas complejas. (Marín, 1975).


- Métodos de análisis de cuestionarios para medir actitudes.
a) Método de rangos sumarizados de Likert.
68

1. ¿Cuántas preguntas se deben realizar?


Se elabora un cuestionario piloto (prueba) con un mínimo de 70 preguntas por cada
dimensión * (Cfr. capítulo I, punto 3): 35 son favorables y 35 desfavorables al objeto
medido. Veamos un ejemplo:

2. ¿Cuántas alternativas?
Se trabaja con 5 (cinco) alternativas que son las siguientes:

a) Totalmente de Acuerdo (TA)


b) Acuerdo (A)
c) Indiferente (I)
d) Desacuerdo (D)
e) Totalmente Desacuerdo (TD)

Esto no indica que no se puedan variar las alternativas, por ejemplo que puedan ir de Muy
perfecto a Imperfecto u otro contínuum, no importa cual.

3. ¿Cómo calificar las opciones?


Las opciones se califican del 0 al 4 o del 1 al 5 (TA = 5, A=4, I=3, D=2, TD=1 o TA=1,
A=2, I=3, D=4, TD=5), respetando siempre la favorabilidad de la pregunta. Así por
ejemplo, si se califica el TA con un 5 en una pregunta favorable, deberá ir un 1 en el TA de
una pregunta desfavorable.

4. ¿Cómo se elaboran las instrucciones?


Se tienen que desarrollar las instrucciones para la forma en que los sujetos van a contestar
el cuestionario. Las instrucciones deben ir en la primera hoja; deben ser lo suficientemente
claras como para que no haya equivocaciones ni confusiones en cuanto a la forma en que
debe contestarse el cuestionario.

De preferencia, las instrucciones deben ir en una hoja sola, sin incluir ningún ítem.

5. ¿Cómo se intercalan las afirmaciones?


Las afirmaciones favorables y desfavorables se revuelven, se pueden sortear para ver la
forma en que se van a quedar en el cuestionario. No van primero las favorables y después
las desfavorables; tampoco va una favorable y una desfavorable; van al azar.

6. ¿Qué hacer con el cuestionario piloto?


Se aplica el cuestionario piloto. En el caso de haber un área de datos generales (sexo, edad,
estado civil, etc.) se pone antes de las afirmaciones que miden la actitud.
7. ¿Cómo se analiza cada afirmación?
69

Se analiza cada pregunta por separado para saber si esa pregunta fue confiable o no.
a) Generar una sábana (hoja de codificaciones) de resultados de los cuestionarios.
b) Se ordenan los sujetos de mayor puntaje a menor puntaje (Siguiendo el ejemplo
anterior)
c) Se selecciona el 25 de % sujetos con más altos puntajes y el 25% de sujetos con
más bajos puntajes. Así, como se puede ver, nos quedamos con un 50% de sujetos. Los
Ss intermedios (tibios) se eliminan del análisis. Así, por ejemplo, si se utilizaron 50 Ss
nos quedamos con 25, 12 de ellos son de puntajes altos y 13 de ellos con puntajes bajos
(o al revés). Los otros 25 se eliminan del análisis.
d) Se seleccionan los cuestionarios de los Ss escogidos con el criterio anterior. Los
demás cuestionarios se pueden olvidar.
e) Se analiza cada pregunta por separado.
f) Se calcula la t (student): Si el puntaje t es menor al nivel de significancia
propuesto ( en tablas ) se RECHAZA la afirmación.
g) El cuestionario final debe contener entre 20 y 25 afirmaciones. Para elaborar el
cuestionario final se sigue el mismo patrón de muestrear las afirmaciones al azar.
h) Después de aplicar el cuestionario final se puede aplicar cualquier método para
detectar confiabilidad general del instrumento (Kuder-Richardson), Spearman-
Brown, Cronbach, etc.)
i) Calcular, en lo posible, la validez predictiva, concurrente, de construcción y
cuidar la validez de apariencia

b) Método de intervalos aparentemente iguales de Thurstone.

1. ¿Cúantas formas de medir actitudes tiene Thurstone?

L. L. Thurstone ha creado tres formas para medir las actitudes:


b.1 ) Método de comparaciones apareadas ( escala de medición de intervalo ). El
método de comparaciones apareadas (Method of paired comparisons) consiste en la
presentación de un número considerable de pares de afirmaciones, las cuales serán
calificadas por jueces, en cuanto al grado de favorabilidad de los reactivos hacia el objeto
medido. Posteriormente se calculan probabilidades, puntajes Z y se presentan a los Ss.

b.2 ) Método de intervalos aparentemente iguales ( Escala de medición ordinal ). El


método de intervalos aparentemente iguales (Method of egual appearing intervals) consiste
en la formación de 11 grupos, que van desde totalmente desfavorable (1) hasta totalmente
favorable (11) hacia el objeto actitudinal medido. Se calculan los valores escalares y rangos
intercuartiles para seleccionar los mejores reactivos. Finalmente se presentan a los Ss.

b.3 ) Método de intervalos sucesivos ( Escala de medición de intervalo ). El método de


intervalos sucesivos (Method of succesive intervals) es similar al anterior, con la diferencia
que se calculan las frecuencias con que los reactivos se asignaron a los 11 grupos como
base para evaluar la distancia entre ellos (Marín, 1975).
c) Método del Diferencial Semantico de Osgood.
70

El diferencial semántico mide las reacciones de los individuos a objetos semánticos


(Summers, 1976); sin embargo, Oswood, Tannenbaum y Suci (1957) definieron su posición
con respecto a la adaptación del diferencial semántico a la medición de actitudes.
2.- ¿Qué supuestos presenta el DS?

El DS mide el significado connotativo de diversos estímulos (colores, objetos, dibujos,


etc.), pero básicamente de estímulos verbales. Presenta tres supuestos básicos.

a). El resultado de la evaluación o juicio puede concebirse como el lugar en que el


estímulo ocupa en un continuo experiencial definido por dos términos (adjetivos bipolares).

b). Muchos de los continuos experenciales son esencialmente equivalentes, y por tanto se
pueden representar unidimensionalmente.

c) Un espacio semántico (numero limitado de continuos que miden cualquier estímulo)


contiene básicamente tres factores importantes: factor evaluativo (V) factor potencia (F) y
factor actividad (A).

3. ¿Qué es lo primero que se hace para elabora una escala de DS?


Seleccionar los estímulos que aparentemente midan lo que plantean las hipótesis.

4. ¿Cómo se seleccionan los estímulos?

Es necesario seleccionar los estímulos (o sub-sub-estímulos que hablamos antes) que mejor
midan la variable de tal manera que es conveniente descartar aquellos estímulos (frases) que
menos tienen que ver con el objeto medido.
Se seleccionaran aquellas frases que tengan el valor escalar y rango intercuartílico más
bajo.

5. ¿Cuántas frases se deben seleccionar?

Eso depende de las áreas que mida el instrumento; sin embargo, entre cuatro y siete frases
por área es suficiente.

6. ¿Cómo se seleccionan los adjetivos bipolares?

Una vez escogidas las frases se deben seleccionar los adjetivos bipolares que deben llevar
todas ellas.

7. ¿Qué adjetivos bipolares pertenecen al factor Evaluativo, cuáles al de Potencia y cuáles


al de Actividad?
71

El número de adjetivos que pueda existir es tan grande como el idioma en sí; sin embargo,
unos adjetivos tienen más peso y funcionan mejor que otros, dependiendo del idioma, la
cultura e idiosincrasia de un país (Díaz Guerrero y Salas, 1975).
Para saber qué adjetivo pesa más que otro se lleva a cabo un análisis factorial junto con una
lista estandarizada de sustantivos y se obtienen los calificativos para formar los opuestos y
se construyen las escalas bipolares (Díaz Guerrero y Salas, 1975, pp. 57-67). Como este
procedimiento es lento y difícil, en México se probaron los adjetivos bipolares que más
tienen que ver con la cultura mexicana (Díaz Guerrero y Salas, 1975).

8. ¿Cuántos adjetivos bipolares se deben escoger?

La cantidad varía; sin embargo, Díaz Guerrero (1975) selecciona tres o cuatro de cada
factor (EPA).

9. ¿Qué instrucciones debe llevar el DS?

Seleccionadas las frases (estímulos) y los adjetivos bipolares correspondientes, se procede a


elaborar el cuestionario que será aplicado a los sujetos con todo y sus instrucciones.

Las instrucciones pueden ser las siguientes:

“A continuación aparecen una serie de conceptos o frases, las cuales debe someter a su
juicio personal. En cada página se encuentra un concepto o frase diferente, debajo del cual
(o la cual) se encuentra una escala en la cual deberá evaluarse el concepto o frase.

10 ¿Cómo se presentan los estímulos?

Una vez colocadas las instrucciones en una hoja por separado se presenta cada concepto o
cada frase en una hoja (también por separado)

11 ¿Cómo se colocan los adjetivos bipolares?

Los adjetivos se revuelven entre los factores y la favorabilidad, o sea que no tienen que
estar alineados necesariamente (los tres o cinco adjetivos del factor evaluativo, en primer
lugar; los tres o cinco adjetivos del factor potencia en segundo lugar, etc.).

12. ¿Cómo se califica el DS?


De acuerdo a Osgood, Tannenbaum y Suci (1953) el DS se puede calificar del 1 al 7 o del
-3 al +3, otorgándosele el valor más alto (7 o +3, según la escala, al adjetivo más positivo, y
el valor más bajo (1 o -3, según la escala) al adjetivo más negativo.

13. ¿Cómo se puede validar conceptualmente el DS?


Se recomienda correlacionar cada estímulo (frase) con el área general.
72

- Métodos de análisis de Cuestionario de opción múltiple.

¿Cómo se calculan los porcentajes en los cuestionarios objetivos?


¿Cómo se analiza la clave?
¿Qué es el Índice de Discriminación (ID)?
¿Qué es el Índice de Dificultad (DIF)?
¿Qué es la varianza de un ítem?
¿Cómo conviene reportar el análisis de cada ítem?

• Validez y confiabilidad de cuestionarios.


- Conceptos. ¿Qué son la confiabilidad y validez?

La Confiabilidad podría entenderse como la congruencia, precisión, objetividad y


constancia de una investigación (Zetterberg, 1973).

a) Congruencia porque las variables y sus indicadores deberán medir la misma cosa.

b) Precisión porque uno mismo deberá de reproducir varias veces la investigación y deberá
obtener los mismos resultados.

c) Objetividad porque varios experimentadores deberán realizar la misma investigación y


llevar a las mismas conclusiones.

d) Constancia porque la forma de medición del objeto no debe alterar los resultados.

La validez podría entenderse: ¿cómo medir o que se pretende medir?

De alguna otra manera sería la correspondencia entre las variables, los indicadores, las
definiciones y la operacionalización de éstos.
Es decir, la validez interpreta la relación lógica entre las definiciones y las construcciones
(ítems, afirmaciones, preguntas, aparatos eléctricos, etc) así como la relación empírica del
objeto medido con las hipótesis; en una palabra, representatividad. ¿Es representativo
nuestro estudio?

- Tipos de confiabilidad y método de cálculo.


a ) Antes y después ( Test - Retest ).
b ) Formas paralelas ( Paralle Forms ).
c ) Forma general del modelo ALPHA.
d ) Forma general del modelo ALPHA estandarizado.
e ) División por mitades ( Split - half ).
e.1 ) El coeficiente de Spearman - Brown.
e.2 ) El coeficiente de Guttman.
e.3 ) El coeficiente de Rulon.
73

f ) Método de Kuder - Richardson.


f.1 ) Modelo de Kuder - Richardson 20 ( KR20 )
f.2 ) Modelo de Kuder - Richardson 21 ( KR21 )
- ¿ Como se calcula el tamaño de un cuestionario ?
- Tipos de validez.
a ) Validez concurrente.
b ) Validez predictiva.
c ) Validez de construcción ( o de concepto )
c.1 ) Diferencias entre grupos.
c.2 ) Matrices de correlación y análisis Factorial.
c.3 ) Estudios sobre la estructura interna.
c.4 ) Estudio sobre las posibilidades de intercambio.
c.5 ) Estudios sobre el proceso.
d ) Validez de contenido.

Acapulco, Gro. 3 de Mayo de 1996.

También podría gustarte