Justificación Estadistica
Justificación Estadistica
Justificación Estadistica
TEST:
Autores:
Docente:
Guevara Cordero, Claudia
Lima, 2023
JUSTIFICACIÓN ESTADÍSTICA
Cuando se construye un test por primera vez, es importante garantizar las propiedades de
confiabilidad y de validez. La confiabilidad es donde se agrupan todo un conjunto de métodos y
técnicas utilizadas por los psicólogos para estimar el grado de precisión con el que están midiendo
sus variables (Muñiz,1998). La validez determina la cantidad de error de los instrumentos de
medida, es básico para cualquier ciencia, y hemos visto en líneas generales cómo se lleva a cabo
para el caso de los tests desde distintos enfoques psicométricos (Muñiz, 1998). La validación de
un test abarca todas las cuestiones experimentales, estadísticas y filosóficas por medio de las
cuales se evalúan las hipótesis y teorías científicas (Messick, 1989). No obstante, antes de iniciar
con el análisis estadístico, es importante primero realizar la depuración o limpieza de la base de
datos.
Confiabilidad
La confiabilidad es la estabilidad que se presenta en las puntuaciones de los resultados de una
persona al ser obtenidas, cuando el proceso de medida se repite un indeterminado número de
veces, en condiciones semejantes. Naturalmente, no es posible medir repetidamente un número
repetido de veces a los mismos participantes (Prieto y Delgado, 2010).
Así también, existen diferentes métodos para el cálculo de la confiabilidad, entre ellos:
- Confiabilidad por el método test – retest: Este método trata sobre la aplicación de un
determinado test en dos ocasiones a una determinada muestra de personas. Siempre
manteniendo el atributo estable (Prieto y Delgado, 2010).
Tabla 1
Medi DE Alfa de ω de
a Cronbach McDonald
También es importante analizar la confiabilidad de cada uno de los ítems, lo cual se observará en
la tabla 2, por medio del índice de Correlación item test corregido (R it-c) o también llamado índice
de discriminación, el cual para algunos autores debe superar el .200 que es considerado como
ítems marginales, que normalmente necesitan y están sujetos a mejora (Ebel y Fribie, 1991), o el
.300 considerado como razonablemente bueno pero posiblemente sujeto a mejorar (Ebel y Fribie,
1991) o incluso el .400 para que sean catálogados como muy buenos ítems (Ebel y Fribie, 1991).
En el presente caso, se usó el criterio de .600.
Tabla 2
Si se descarta el elemento
En el caso anterior, fueron eliminados los ítems 3, 4, 7 y 9 por no superar el criterio de .600,
quedando así por ahora un total de 11 ítems de 15 que iniciaron.
Validez
La validez hace referencia al grado en que la evidencia y la teoría respaldan las interpretaciones
de las puntuaciones de una prueba para usos propuestos de las pruebas (AERA et. al., 2014).
- V de contenido: Este tipo de validez hace referencia no sólo a los ítems que componen el
instrumento de medida, sino a las instrucciones para su administración, corrección y
puntuación (Abad et. al., 2011).
- V de relación con otras variables: Es la correlación entre los puntajes en una prueba y un
criterio externo relevante, como el rendimiento en una tarea o el éxito en un dominio
específico (Shavelson, 2007).
En el caso del presente test, se hará uso de la validez de contenido y la validez de estructura
interna.
A. VALIDEZ DE CONTENIDO
Esta validez fue calculada bajo el método de jueces expertos, que se define como una opinión
informada de personas con trayectoria en el tema, que son reconocidas por otros como expertos
cualificados en éste, y que pueden dar información, evidencia, juicios y valoraciones (Escobar,
2008). Los jueces determinan si los reactivos sometidos a su consideración pertenecen o no al
dominio definido, a su vez evalúan la redacción de los elementos (Aliaga, 2006). Y en este caso
se recurrió al método de agregados individuales, el cual consiste en seleccionar 5 expertos o más,
en donde la validación la efectúa cada experto de forma individual y sin contacto con el resto para
así evitar los sesgos de los datos ocasionados por conflictos interpersonales, presiones entre los
expertos, etc. (Corral, 2009). Calculándose por medio del V de Aiken, el cual debía ser superior
a .70, dicho coeficiente alcanza valores entre el 0 y el 1, que indican que mientras más se aproxime
al 1 o se iguale a este, mayor validez de contenido tendrá el ítem en estudio (Escurra, 1988).
En el caso del presente test, los resultados hallados se muestran en la siguiente tabla:
Tabla 3
Item 1 1.00 1.00 1.00 1.00 1.00 1.00 0.75 1.00 0.97
Item 2 0.50 1.00 0.75 0.50 0.00 1.00 0.50 1.00 0.66
Item 3 0.75 0.50 1.00 1.00 1.00 0.75 0.75 1.00 0.84
Item 4 0.50 0.75 1.00 1.00 1.00 1.00 0.75 1.00 0.88
Item 5 0.25 0.50 1.00 1.00 0.75 1.00 0.75 1.00 0.78
Item 6 0.00 1.00 1.00 1.00 0.50 1.00 0.75 1.00 0.78
Item 7 0.50 0.75 1.00 0.50 0.50 0.25 0.25 1.00 0.59
Item 8 1.00 0.75 1.00 0.50 0.00 0.50 0.75 1.00 0.69
Item 9 0.75 0.75 1.00 1.00 1.00 1.00 0.75 1.00 0.91
Item 10 0.75 0.75 0.75 0.75 0.00 0.50 0.75 1.00 0.66
Item 11 0.75 0.50 0.25 1.00 0.00 0.75 0.75 1.00 0.63
Item 12 0.25 0.75 0.00 1.00 0.25 1.00 0.75 1.00 0.63
Item 13 0.50 0.25 0.75 0.75 0.75 0.50 0.75 1.00 0.66
Item 14 0.00 0.75 1.00 1.00 1.00 0.75 0.75 1.00 0.78
Item 15 1.00 0.25 0.00 1.00 1.00 0.75 0.75 1.00 0.72
Item 16 0.75 0.50 0.75 1.00 0.50 1.00 0.75 1.00 0.78
Item 17 1.00 0.50 0.00 1.00 0.00 0.25 0.75 1.00 0.56
Item 18 0.50 0.50 0.00 1.00 0.50 0.50 0.75 1.00 0.59
Item 19 0.75 0.00 0.00 1.00 0.75 1.00 0.75 1.00 0.66
Item 20 0.25 0.25 1.00 1.00 0.50 1.00 0.75 1.00 0.72
Item 21 1.00 0.50 1.00 1.00 0.75 1.00 0.75 1.00 0.88
Item 22 0.50 0.00 1.00 1.00 0.25 0.50 0.75 1.00 0.63
Item 23 1.00 0.50 0.00 1.00 0.50 0.75 0.5 1.00 0.66
Item 24 0.50 0.75 0.00 1.00 0.75 0.50 0.5 1.00 0.63
Item 25 1.00 0.75 0.00 1.00 1.00 1.00 0.75 1.00 0.81
Item 26 1.00 0.00 0.25 1.00 0.25 0.25 0.75 1.00 0.56
Item 27 0.50 0.00 0.25 1.00 1.00 0.50 0.75 1.00 0.63
Item 28 0.25 0.50 0.25 1.00 1.00 1.00 0.75 1.00 0.72
Item 29 1.00 0.00 0.75 1.00 0.75 0.75 0.75 1.00 0.75
Item 30 1.00 1.00 1.00 1.00 1.00 0.50 0.75 1.00 0.91
Como se aprecia en la tabla 3, quince ítems (ítem 2, ítem 7, ítem 8, ítem 10, ítem 11, ítem 12,
ítem 13, ítem 17, ítem 18, ítem 19, ítem 22, ítem 23, ítem 24, ítem 26, ítem 27) tuvieron que ser
eliminados debido a que no superaron el criterio anteriormente dicho de .70 quedándose así el test
con 15 ítems de un total de 30 items.
Otro proceso, que se hizo para darle validez de contenido al test, fue la aplicación de la prueba
piloto, el cual consiste en la validación y coherencia de los instrumentos y procedimientos de
recolección de datos (Burgos y Escalona, 2017). En este caso, se trabajó con una pequeña muestra
de 60 personas, donde se recibieron comentarios de mejora entre el público participante como por
ejemplo la redacción simple de los ítems, la opción de colocar el carné de extranjería; aunque,
por otro lado, se pudo percibir algunas conductas de desinterés por parte de los participantes.
Finalmente, bajo estas dos estrategias (revisión de jueces expertos y aplicación piloto), se
garantiza la validez de contenido del presente test.
Esta será analizada por medio del Análisis Factorial Exploratorio (AFE) el cual es una técnica
que consiste en explorar el conjunto de variables latentes o factores comunes que explican las
respuestas a los ítems de un test. El objetivo de este estudio es contribuir a difundir y a aplicar
estos nuevos estándares. (Abad et. al., 2011)
No obstante, para dar por aprobado un AFE primero tiene que cumplirse dos requisitos
importantes:
La prueba de KMO permite valorar el grado en que cada una de las variables es predecible
a partir de las demás. Este estadístico se distribuye en valores entre 0 y 1, y cuanto mayor
es el valor, más relacionadas estarán las variables entre sí. Se recomienda que la matriz
apropiada para realizar la factorización sea mayor o igual que 0,80 (Kaiser, 1970).
- Prueba de Esfericidad de Bartlett, que tenga una significación (p) menor a .050
Prueba de Esfericidad de
Bartlett
χ² gl p
Tabla 5
Global 0.936
ITEM 1 0.936
ITEM 5 0.935
ITEM 6 0.938
ITEM 8 0.940
ITEM 10 0.934
ITEM 11 0.958
ITEM 12 0.938
ITEM 13 0.954
ITEM 14 0.899
ITEM 15 0.932
De esta forma, al haber cumplido con los dos requisitos previos, se garantiza que en la presente
base de datos se puede realizar el análisis factorial exploratorio.
Tabla 6
Cargas de los Factores
Factor
1 2 3 Unicidad
En esta tabla se tuvo que eliminar aquellos ítems que no tuvieron cargas en ninguno de los factores
(tal como el item 3, item 4, item 7, item 9), mientras que, por otro lado, también se eliminaron a
los ítems que tuvieron doble carga, como fue el caso del ítem 2 quedándose así el instrumento
con un total de 10 ítems repartidos en 3 factores.
La siguiente tabla muestra la varianza total explicada por los factores, es decir el nivel de
efectividad general que tiene el test.
Tabla 7
Finalmente, la última tabla muestra la composición de los ítems que sobrevivieron y que formarán
parte de todo el test final.
Tabla 8
Es así, que luego de todo este proceso, se garantiza haber construido un instrumento con
confiabilidad y validez.
No obstante, la confiabilidad tendrá que ser nuevamente calculada, debido a que en esta etapa de
validez se han eliminado más ítems.
Referencias:
Abad, F. J., Olea, J., Ponsoda, J., y García, C. (2011). Medición en ciencias sociales y de la salud.
Madrid. Síntesis.
Alarcón G. , Aidé L., Balderrama J. , & Edel, R. (2017). Validez de contenido por juicio de
expertos: propuesta de una herramienta virtual. Apertura (Guadalajara, Jal.), 9(2), 42-53.
https://doi.org/10.32870/ap.v9n2.993
Arias, A., y Sireci, S. (2021). Validez y Validación para Pruebas Educativas y Psicológicas:
Teoría y Recomendaciones. Revista Iberoamericana de psicología, 14(1), 11–22.
https://doi.org/10.33881/2027-1786.rip.14102
Bonillo, A. (2023). Sistematización del proceso de depuración de los datos en estudio con
seguimientos. https://www.tdx.cat/bitstream/handle/10803/5481/abm1de1.pdf?sequence=1
Escurra Mayaute, L. (1). Cuantificación de la validez de contenido por criterio de jueces. Revista
De Psicología, 6(1-2), 103-111. https://doi.org/10.18800/psico.198801-02.008
Fornell, C., & Larcker, D. F. (1981). Evaluating Structural Equation Models with Unobservable
Variables and Measurement Error. Journal of Marketing Research, 18(1), 39–50.
https://doi.org/10.2307/3151312
Muñiz, J., & Fonseca-Pedrero, E. (2019). Diez pasos para la construcción de un test. Psicothema,
2019. 31 (1). 7-16 https://doi.org/10.7334/psicothema2018.291
Prieto, G., & Delgado, A. R. (2010). Fiabilidad y validez. Papeles del psicólogo, 31(1), 67-74.
https://www.redalyc.org/pdf/778/77812441007.pdf
Rubia, José Moral de la. (2019). Revisión de los criterios para validez convergente estimada a
través de la Varianza Media Extraída. Psychologia. Avances de la Disciplina, 13(2), 25-41. Epub
January 12, 2021.https://www.redalyc.org/journal/2972/297261276003/html/