Analisis de Datos 1-8
Analisis de Datos 1-8
Analisis de Datos 1-8
Estudio de las muestras para conocer la población a la que representan. La inferencia siempre se hace
en términos probabilísticos (afirmamos con una cierta probabilidad de éxito). El error muestral es la
diferencia entre el resultado obtenido en la muestra y el que habríamos obtenido si se hubiese trabajado
con la población.
Para cada característica de la muestra que evaluemos se obtiene lo que se conoce como estadístico:
índices descriptivos de centralidad (Media), variabilidad (Varianza), etc. A partir de los estadísticos
obtenidos en la muestra (lo concreto), se realizan afirmaciones sobre los parámetros de la población (lo
general)
DISTRIBUCIONES DE PROBABILIDAD
Teorema Central del límite: Si una población tiene una media µ y una varianza σ2 finitas, la
distribución de las medias muestrales de tamaño “n” extraídas de manera aleatoria e independiente,
se aproxima a la forma de una distribución normal con varianza σ2/n y media µ conforme el
tamaño de n se va incrementando. __
N ( µ , σ / √ n)
PROBLEMAS EJEMPLO
Los tiempos requeridos por un cierto autobús para alcanzar uno de sus destinos en una ciudad
grande forman una distribución normal con una desviación típica σ =1 minuto. Si se elige al azar una
muestra de 17 tiempos, encuentre la probabilidad de que la cuasi varianza muestral sea mayor que 2.
Se busca el valor de ji-cuadrado correspondiente a S2n-1=2
(n-1) S2n-1 16 · 2
X2n-1 = --------------------- X2n-1 = ------------ = 32
σ2 12
El valor de 32 se busca en la tabla Chi Cuadrado con 16 grados de
libertad. A este valor le corresponde una probabilidad de 0,99. En
consecuencia, 1-0´99 = 0´01 P(S2n-1 >2)
Un partido político cree que el 60% del electorado está a favor de su programa. Como su líder
encuentra que esta predicción es demasiado optimista decide hacer un sondeo con una muestra de
90 personas. ¿Cuál es la probabilidad de que como máximo 60 personas estén a favor de su partido?
0´67 – 0´60
P (60/90 = 0´67) Z = --------------------- Z = (1´35) se corresponde con p = 0´9115
√ 0´6 · 0´4 / 90
Generalmente se desconocen los parámetros de la población por lo que se hace necesario estimarlos a
partir de los valores muestrales. Un estimador es un estadístico que utilizamos para estimar
parámetros. Se pueden considerar dos formas de estimar los parámetros poblacionales: estimación
puntual (Conocida como método de los momentos de Pearson, se extrapola el estadístico de la
muestra directamente a la población) y estimación por intervalos (establece un rango de valores
dentro del cual estaría el valor del parámetro, con una determinada probabilidad)
1.- Carencia de sesgo: un estimador es insesgado o centrado cuando el valor del estadístico (en las
infinitas muestras de tamaño “n” extraídas de una población) coincide con el valor del parámetro que
queremos estimar U es un estimador insesgado de θ, si E (U) = θ
La media, la proporción y la cuasi varianza de la muestra son estimadores insesgados de sus valores
poblacionales
2.- Eficiencia (Precisión): Se considera la inversa de la varianza de su distribución muestral. Cuanto
mayor es el cociente, mayor es la eficiencia. Eficiencia θ = 1 / σ20 (A mayor varianza, menor
eficiencia). La Media Aritmética es más eficiente que la Mediana. La Varianza es más eficiente que la
Cuasi varianza. Cuando tenemos distintos estimadores y queremos determinar el más eficiente, se
comparan sus eficiencias. Ejemplo: La varianza de la distribución muestral de dos estimadores es 2 y
1,5. Para un mismo tamaño muestral, la eficiencia relativa sería 1,5 / 2 = 0,75. Si el cociente fuera 1
serían iguales.
3.- Suficiencia: el estimador utiliza toda la información de la muestra para estimar el parámetro
(Ejemplo: La media muestral sería suficiente para estimar la media poblacional. No lo sería la amplitud
intercuartílica para estimar la varianza poblacional)
4.- Consistencia: El requisito mínimo que se le exige a un estimador es que sea consistente. Un
estimador es consistente si, a medida que se dispone de más información (que aumenta el tamaño de
la muestra), aumenta la probabilidad de que la estimación coincida con el parámetro. La media, la
proporción y la varianza insesgada son consistentes porque son estimadores insesgados de los
parámetros correspondientes y en sus límites valen cero (su sesgo y su varianza tienden a 0 a media
que aumenta n)
Cuando el valor del parámetro (población) coincide con el valor del estadístico (muestra), se considera
que la estimación (inferencia sobre la población a partir de la muestra) es insesgada. Siempre que
operemos se debe procurar que nuestros estimadores sean insesgados y tengan una varianza pequeña;
estas dos características se denominan acuracidad.
Una estimación por intervalos expresa el grado de confianza con el que se espera que esté el valor
del parámetro dentro del intervalo, por lo que se suele llamar intervalo de confianza. La amplitud del
intervalo nos indicará su precisión. A menor amplitud, más precisión, más informativo es, más útil.
Una estimación por intervalos depende de cuatro parámetros: una estimación puntual del
parámetro; una medida de variabilidad; una probabilidad (nivel de confianza) y un supuesto acerca de
la distribución en la población.
N(0,1) t n-1 gl
Distribución Normal (Conocida σ2) Desconocida la σ2 (Muestras pequeñas)
_ _ _ _ _ _
X + (Z α/2) · (σX) < µ < X + (Z1- α/2) · (σX) X + (t α/2) · (Sn- 1/√ n) < µ < X + (t1- α/2) · (Sn- 1/√ n)
Problemas ejemplo: Se midieron los niveles de depresión en una muestra de 100 personas.
Asumiendo un nivel de medida de intervalo y que la variable se distribuye normalmente en la
población, se calculó la media de las puntuaciones y se obtuvo un valor de (Media = 8) y una cuasi
desviación típica = 2. Hallar los límites del intervalo de confianza para la media de la población
con un nivel de confianza del 99%.
_
Datos X = 8 Distribución normal de la VD α = 0,01 Sn- 1 = 2
Hallar los límites del intervalo de confianza suponiendo que la muestra está compuesta por 25
personas, a un nivel de confianza del 95%.
_
Datos X = 8 Distribución normal de la VD α = 0,05 Sn- 1 = 2
_ _
Intervalo de confianza X ± (t α · Sn- 1 / √ n) = Límite superior y Límite inferior
Problemas Ejemplo: En una muestra aleatoria de 20 sujetos, extraída de una población normal, se ha
obtenido una media de 24 puntos y una cuasi desviación típica de 10,8 puntos. Averiguar los límites del
intervalo de confianza para la varianza de la población, suponiendo α = 0,05.
Según las tablas χ2n-1 (χ219) para (α / 2 = 0,025) 8,91 y para (1 - α / 2 = 0,975) 32,9
(19 · 10,82) / 32,9 < σ2 < (19 · 10,82) / 8,91 Límites del intervalo de confianza [67,36 y 248,7]
Con un margen de error del 8% el tratamiento será efectivo entre el 69% y el 87% de los casos.
La amplitud del intervalo de confianza depende de dos factores: el nivel de confianza y el error típico de
la distribución muestral del estadístico (La suma de ambos E = Error máximo de estimación). Cuanto
mayor es el tamaño de la muestra mayor es la precisión del intervalo y mayor la precisión de la
estimación. Cuanto menor es el error típico, menor es el intervalo de confianza y, por tanto, más preciso
(para reducirlo se aumenta el tamaño muestral)
Problemas Ejemplo: Por experiencias anteriores se sabe que las estaturas de los soldados tienen una
varianza de 64 cm. ¿Qué tamaño debe tener la muestra para que la media estimada no se aleje más de
± 1, 5 puntos de la media poblacional?: considere (α = 0,02).
Con un margen de error del 2% debemos tomar una muestra de 154 soldados.
Un estudio sobre la proporción de fumadores entre el personal de un hospital estableció que sólo
fumaban el 35%. Si el análisis se efectuó con un nivel de confianza del 95%, ¿Qué tamaño debió
tener la muestra para que la proporción estimada no se aleje más de ± 0,15 puntos de la proporción
poblacional?: considere (α = 0,05).
Con un margenSude
distribución
error del está5%
prohibida
debemos| Descargado
tomarporuna
Maria Fernandezde
muestra (mariajose_ccs@yahoo.com)
39 personas.
Hipótesis estadística: proposición (afirmación) sobre algún aspecto de la distribución de una población
(parámetro, forma, etc.) que puede someterse a prueba a través de una muestra aleatoria de esa
población. No tiene por qué suponerse interés científico.
Contraste de hipótesis: Procedimiento por el cual decidimos si una propuesta sobre la población
puede aceptarse o no. Su finalidad es generalizar un resultado muestral a la población de la que procede
la muestra. Siempre se formulan dos hipótesis (exhaustivas y mutuamente excluyentes); de tal modo,
que el rechazo de una implica la aceptación de la otra.
H0 (hipótesis nula): se acepta provisionalmente como verdadera y se somete a contraste.
H1 (hipótesis alternativa): se acepta al rechazar la hipótesis nula.
La media (µ) es algún valor La media (µ) es algún valor La media (µ) es algún valor
Igual o distinto a (X) No inferior a (X). No superior a (X).
Ho : µ = X Ho : µ ≥ X Ho : µ ≤ X
H1 : µ ≠ X H1 : µ < X H1 : µ > X
Se trata de averiguar la discrepancia entre los datos empíricos observados en la muestra y los datos
teóricos que planteamos en la H0.
Regla de decisión: Tomando en consideración el valor o los valores críticos (máxima diferencia
que cabe esperar por simple azar entre los datos empíricos y los teóricos) y a partir del nivel de
significación. Acumulado en los contrastes unilaterales (α) y dividido por dos en los bilaterales (α/2)
Nivel crítico (p) Calcular la probabilidad de obtener unos resultados como los observados en la
muestra bajo el supuesto de que la H0 es cierta.
Zona de rechazo (depende de que el contraste sea bilateral o unilateral). Teniendo en cuenta el riesgo
adoptado se determinan los valores del estadístico y se decide si la hipótesis nula es verdadera o falsa.
Nunca puede afirmarse categóricamente que la hipótesis es cierta o falsa, se afirma con un determinado
nivel de probabilidad. Así, ¿Cómo decidir sobre la hipótesis nula? Dos métodos equivalentes:
Ho (Cierta) (p) es mayor que (α) El valor se encuentra en el intervalo de confianza. El valor del
estadístico está entre los valores críticos.
Ho (Falsa) (p) es menor o igual que (α) El valor está fuera del intervalo de confianza. El valor del
estadístico supera o es inferior a los valores críticos.
El nivel de significación (α) se fija de antemano, mientras que el nivel crítico p es consecuencia
del resultado obtenido al aplicar el estadístico de contraste.
El contraste bilateral es más conservador que el contraste unilateral (es más difícil rechazar la H0)
4.- Fijar α (regla de decisión). La zona de rechazo de la H0 estará formada por todos los valores del
estadístico cuya probabilidad de ser obtenidos es muy pequeña bajo el supuesto de que la H0 es
cierta.
5.- Cálculo del estadístico de contraste con los datos obtenidos en la muestra.
Queremos contrastar la hipótesis que supone que la media poblacional en un test de atención de los
estudiantes de la ESO es de 35 puntos. La distribución de la variable en la población es normal con
varianza = 225. Extraemos una muestra aleatoria de 144 alumnos y obtenemos: una media = 32 puntos.
Fijamos un nivel de significación α = 0,05.
Los contrastes de hipótesis están basados en estadísticos (medidas de discrepancia) y tienen una
distribución de probabilidad conocida; así, todas las decisiones llevan aparejadas una probabilidad de
ocurrencia. Al tomar una decisión sobre una H0 pueden darse cuatro situaciones (dos de ellas son
decisiones acertadas y dos erróneas). Siempre debemos proponernos que (1 - α) y (1 - β) sean altos
y que α y β sean bajos.
Siempre se cumple α + (1 - α) = 1 y β + (1 - β) = 1
Error tipo II (β) Bajo la distribución de H1 cuando aceptamos erróneamente la H0 siendo falsa (β =
probabilidad de cometer error de tipo II)
Potencia de contraste (1–β) Representa la probabilidad de rechazar la H0 siendo falsa = la
probabilidad de aceptar una H1 verdadera (probabilidad de obtener un resultado estadísticamente
significativo) 1 – β = Probabilidad de no cometer Error tipo II.
Tamaño del efecto: Expresa la magnitud de la diferencia observada entre la H0 (el valor teórico) y la
H1 (el valor observado)
Un contraste de hipótesis es un procedimiento para decidir si una hipótesis se acepta como válida
o se rechaza. Los principales pasos para tomar la decisión son:
MEDIA POBLACIONAL
2
PARAMÉTRICOS CONOCIDA σ
2
DESCONOCIDA σ
Supuestos (Razones que justifican su elección): Disponemos de una muestra aleatoria de “n”
observaciones aleatorias e independientes. La variable dependiente sigue una distribución normal
en la población y está medida, al menos, a nivel de intervalo. Podemos conocer o no el valor de la
varianza poblacional (también aplicable a cualquier otro tipo de distribución, con varianza
desconocida, si n ≥ 30, según el Teorema Central del Límite)
Hipótesis Estadísticas: µ0 es el valor concreto de la media poblacional acerca del cual queremos
comprobar si µ es diferente, menor o mayor // Se aconseja formular primero H1
Estadístico de contraste:
_ __
Conocida la varianza de la población Z = (Y - µ0) / σ / √ n
_ _
Y es la media muestral // σ / √n es el error típico de la media
µ0 es el valor propuesto para la media poblacional por H0
El Estadístico de Contraste sigue la distribución N (0,1)
_ __
Desconocida la varianza de la población T = (Y - µ0) / S n-1 / √ n
_
S2n-1 = (Y – Y)2 / n – 1 es la cuasi varianza muestal (estimador insesgado de varianza poblacional)
El Estadístico de Contraste sigue la distribución T de Student con n – 1 gl. (Cuando gl > 30 la
distribución T de Student se aproxima a la normal).
n S2
2 2 2
Relación entre la varianza y la cuasi varianza muestral (n-1) S n-1 = n S // Luego S n-1 = ---------
n-1
Intervalo de confianza: _ _
Y + Z α/2 · σ / √n = LS y LI (conocida σ2 poblacional)
_ ______
Y + T n-1; α/2 · Sn-1 / √n = LS y LI (desconocida σ2 poblacional)
PRUEBA DE LOS SIGNOS: Considera que el valor de la mediana bajo la H0 es correcto; por tanto,
en la población, existirán similares valores por encima y por debajo (mismo número de signos
positivos y negativos al calcular la diferencia entre cada valor y la mediana propuesta en la H0)
Supuestos (Razones que justifican su elección): muestra aleatoria de “n” observaciones aleatorias
e independientes de una población con mediana desconocida. Contraste sobre el Promedio
Poblacional. Desconocemos el cumplimiento de los supuestos paramétricos. Asumimos que la
distribución de la variable es continua por lo que no debemos encontrar diferencias nulas, si
aparecen, se descartan). Datos directos, sin agrupar, medidos, al menos, en una escala ordinal.
Hipótesis Estadísticas:
Contraste Bilateral: H0: η = η0
H1: η ≠ η0
Contraste Unilateral Izquierdo H0: η ≥ η0
H1: η < η0
Contraste Unilateral Derecho H0: η ≤ η0
H1: η > η0
η0 es el Su
valor concreto
distribución de la mediana
está prohibida poblacional
| Descargado // Se aconseja
por Maria Fernandez formular primero la H1
(mariajose_ccs@yahoo.com)
Estadístico de contraste: (S+ ó S-) se obtienen al restar cada una de las observaciones del valor
de la mediana propuesto por la H0. Si alguna diferencia es nula, se elimina, reduciéndose el tamaño
de la muestra. ____
Cuando la muestra es grande se aproxima a la normal mediante [S+ (ó S-) – n/2] / √ n/4
PRUEBA DE WILCOXON: Conocida como “prueba de rangos y signos”, gana en precisión con
respecto a la prueba de los Signos, ya que aprovecha mejor la información disponible; tiene en
cuenta, a la vez, el signo de las diferencias y la magnitud de las mismas. Wilcoxon es una prueba
más precisa.
Supuestos (Razones que justifican su elección): Disponemos de una muestra aleatoria de “n”
observaciones aleatorias e independientes. Se trata de un contraste sobre el Promedio Poblacional.
Desconocemos el cumplimiento de los supuestos paramétricos. La distribución de la variable en la
población ha de ser simétrica y continua. Datos directos, sin agrupar. Nivel de medida de los
datos, al menos, de intervalo.
Cálculo del Estadístico de Contraste: (∑R+ ó ∑R-) suma de rangos positivos y negativos.
Conocemos los datos obtenidos en la muestra // Calculamos las diferencias entre cada observación
y la mediana propuesta por la H0. Se eliminan las diferencias nulas, reduciendo el tamaño muestral
“n” // Estas diferencias, en valor absoluto, se ordenan de menor a mayor, y se sustituye cada una de
ellas por el rango que le corresponde // Si hay empates, se adopta el “criterio del rango medio”; es
decir, se le atribuye a cada una el rango promedio de los rangos que les hubieran correspondido de
ser diferentes // A cada rango se le añade el signo + o – de la puntuación de diferencia
correspondiente y se suman, obteniendo R+ y R-
Distribución muestral del estadístico: distribución de valores de Wilcoxon. Para utilizar la tabla W
de Wilcoxon se selecciona el sumatorio más pequeño y se toma la decisión mediante los valores
críticos.
PROBLEMAS EJEMPLO
CONTRASTE SOBRE LA MEDIA (VARIANZA POBLACIONAL CONOCIDA)
Vamos a plantear otro supuesto que modificaría la definición de las hipótesis Sospechamos,
antes de realizar el experimento, que la modificación en el proceso de fabricación aumenta el
grado alcohólico.
Supuestos: Similares; Hipótesis (Contraste unilateral derecho): H0: µ = 12´5 y H1: µ > 12´5
Estadístico de contraste: Similar
Valores críticos: con α = 0´05 y un contraste unilateral derecho 1´65
Decisión estadística: El valor del estadístico de contraste (0´217) se sitúa en la región de
aceptación (por debajo del valor crítico 1´65); por tanto aceptamos H0.
El nivel crítico (p): asociado al estadístico de contraste (0´217) es 0´4129 (1-0´5871) que resulta
mayor que el nivel de significación fijado (α = 0´05); por tanto, aceptamos H0
Conclusión: El cambio en la fabricación no ha modificado significativamente el grado alcohólico.
Interpretación: Con la información de la que disponemos no hemos encontrado evidencia
suficiente de que la media no sea igual a 12.5
Su distribución está prohibida | Descargado por Maria Fernandez (mariajose_ccs@yahoo.com)
Siguiendo con el ejemplo del grado alcohólico de los vinos de la denominación de origen de
Ribera de Duero, los resultados del contraste bilateral desconocida la varianza de la población
(suponiendo que no nos hubieran facilitado este parámetro), serían:
Problema ejemplo: Una determinada empresa utiliza, desde hace muchos años, un test de aptitudes
para seleccionar a sus empleados. Para dicho test tiene establecido que la mediana está en 180. El
psicólogo de la empresa quiere probar que efectivamente la mediana sigue siendo correcta (probar la
H0 de que la mediana en la población es igual a 180). Para ello obtiene una muestra de 15
trabajadores y les aplica el test obteniendo los siguientes resultados:
189 233 195 160 212 176 231 202 193 174 166 248 199 213 185
Estadísticos de Contraste:
Signos: Previamente ordenamos las puntuaciones (la mediana es un índice de posición). Restando
180 a cada una de las 15 puntuaciones obtenidas por los sujetos, obtenemos 11 (S+) y 4 (S-)
160 166 174 176 185 189 193 195 199 202 212 213 231 233 248 ORDEN
-20 -14 -6 -4 5 9 13 15 19 22 32 33 51 53 68 RESTA
- - - - + + + + + + + + + + + SIGNOS
Wilcoxon: Más precisa. Después de ordenar las puntuaciones de menor a mayor y ordenar las
diferencias con la mediana en valor absoluto, obtenemos:
160 166 174 176 185 189 193 195 199 202 212 213 231 233 248 ORDEN
-20 -14 -6 -4 5 9 13 15 19 22 32 33 51 53 68 RESTA
-4 5 -6 9 13 -14 15 19 -20 22 32 33 51 53 68 ORDEN
- + - + + - + + - + + + + + + SIGNOS
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 RANGOS
Decisión estadística:
Signos: Función de distribución Binomial (Tabla II); para n = 15 y probabilidad = 0,50, encontramos el
valor 0,0592 P (S- ≤ 4) = 0,0592. Para averiguar el nivel crítico p, multiplicamos por 2 la
probabilidad asociada al estadístico de contraste (0´0592 · 2 = 0´1184) dado que es bilateral.
Wilcoxon: Tablas para un contraste bilateral con α/2 = 0,025 y n = 15; el valor crítico es 26
Conclusión:
Signos: Como p (0´1184) es mayor que α (0,05) Mantenemos H0. También tabla (Test de signos dos
direcciones) para n =15 y α = 0,05, y un contraste bilateral, el valor crítico es igual a 3 como S- = 4 >
3 (Mantenemos H0)
Wilcoxon (más precisa): Como 19 (se toma la suma menor) < 26 Rechazamos la H0
Interpretación:
Signos: Teniendo en cuenta los resultados, es posible seguir manteniendo que la Mediana de la
población de referencia es 180, con un α = 0,05.
Wilcoxon: Teniendo en cuenta los resultados, no es posible seguir manteniendo que la Mediana de la
población de referencia es 180, con un α = 0,05.
Supuestos (Razones que justifican su elección): Disponemos de una muestra aleatoria de “n”
observaciones aleatorias e independientes. La variable dependiente sigue una distribución normal y
está medida, al menos, a nivel de intervalo.
Hipótesis Estadísticas:
2 2
Contraste Bilateral: H0: σ = σ 0
2 2
H1: σ ≠ σ 0
2 2
Contraste Unilateral Izquierdo H0: σ ≥ σ 0
2 2
H1: σ < σ 0
2 2
Contraste Unilateral Derecho H0: σ ≤ σ 0
2 2
H1: σ > σ 0
σ20 es el valor concreto de la varianza poblacional acerca del cual queremos comprobar si la
varianza poblacional es diferente, menor o mayor // Se aconseja formular primero H1.
σ2o es el valor propuesto para la varianza poblacional por H0 y S2n-1 = la cuasi varianza muestral. El
Estadístico de Contraste sigue una distribución Chi-Cuadrado con (n-1) gl.
Supuestos (Razones que justifican su elección): Disponemos de una muestra aleatoria de “n”
observaciones aleatorias e independientes. La variable dependiente es dicotómica.La proporción es
el cociente entre el número de veces que aparece la observación dividido entre el número total de
observaciones)
Hipótesis Estadísticas:
Contraste Bilateral: H0: π = π0
H1: π ≠ π0
Contraste Unilateral Izquierdo Ho: π ≥ π0
H1: π < π0
Contraste Unilateral Derecho H0: π ≤ π0
H1: π > π0
PROBLEMAS EJEMPLO
Contraste de hipótesis sobre la varianza: Los resultados de un reciente estudio indican que 81
estudiantes de primero de Psicología de la UNED, elegidos mediante muestreo aleatorio simple,
estudian una media de 6 horas a la semana, con una cuasi desviación típica de 3. La población
universitaria europea estudia, también, una media de 6 horas a la semana, pero con una desviación
típica de 2. Queremos saber si la variabilidad encontrada en nuestra muestra es estadísticamente
diferente de la de la población de estudiantes europeos. Trabajaremos a un nivel de confianza del
95 %.
_
Supuestos: Muestra aleatoria de 81 estudiantes de la UNED (X = 6 y SX = 3). Datos de la población
de estudiantes europea (µ = 6 y σ = 2) para α = 0,05. La variable dependiente está medida, al
menos, a nivel de intervalo. Se plantea un CH sobre la varianza.
Decisión estadística:
A partir de los valores críticos (80 gl; α/2 = 0,025 y 1-α/2 = 0,975) 57´15 y 106´63.
Rechazamos la H0 porque el valor muestral del estadístico de contraste (180) > el valor
crítico superior (χ2 = 106´63)
Si tenemos en cuenta el nivel crítico p (χ2 = 180 con 80 gl encontramos que p es < 0´005)
y dado que p < α (0´05) Rechazamos H0.
Considerando el intervalo de confianza: Rechazamos H0 (σ2 = 4 no está en el intervalo)
80 · 9 80 · 9
Intervalo de confianza ---------------- < σ2 < ----------------- (6´75 y 12´61)
106´63 57´11
Hipótesis: Contraste bilateral (no se especifica ninguna dirección a favor o en contra). Sabemos
que π = 3/5 = 0,6 y la hipótesis nula se centra si nuestros datos son compatibles con este resultado
(teóricamente poblacional). Luego H0: π = 0´6; H1: π ≠ 0´6
Estadístico de contraste: Nuestra proporción es 435/750 = 0´58. Con estos datos aplicamos la
fórmula del estadístico de contraste Z = (0´58 – 0´6) / (√ 0´6·0´4 / 750) = - 0´02 / 0´0179 = - 1´12.
Valores críticos: Al tratarse de un contraste bilateral deben ser dos valores. Buscando en las tablas
de la curva normal con α = 0´04 (bilateral α/2 = 0´02 y 1-α/2 = 0´98) encontramos las puntuaciones
típicas (- 2´05 y 2´05)
Su distribución está prohibida | Descargado por Maria Fernandez (mariajose_ccs@yahoo.com)
Decisión estadística:
Teniendo en cuenta los anteriores valores críticos (- 2´05 y 2´05), Aceptamos la H0 porque el
valor muestral del estadístico de contraste (- 1´12) > el valor crítico inferior (- 2´05)
Si tenemos en cuenta el nivel crítico p (Z (-1´12) = 0´1314; luego 2 · 0´1314 = 0´2628). Como p
(0´2628) > que α (0´04) Aceptamos H0.
Considerando el intervalo de confianza: Aceptamos H0 (0´6 está en el intervalo)
____________ __________________
P ± |Zα/2| √ (π0 (1 - π0) / n 0´58 ± 2´05 √ (0´58 (1 – 0´58) / 750 = (0´543 y 0´617)
Conclusión e interpretación: Dado que hemos aceptado la hipótesis nula (π = 0´6) podemos
afirmar que el 60% de la población española están en contra de la inmigración ilegal; por tanto, el
40% estará a favor.
Problema ejemplo: La aplicación de un test entre docentes tiene, por experiencias anteriores, una
media de 55 y una varianza de 121, N (55, 121). Un psicólogo educativo considera que en la actualidad
el promedio se ha incrementado, pasando a ser de 60 puntos. Para contrastar esta hipótesis somete al
test a 50 individuos extraídos aleatoriamente de la población y obtiene una media de 58. Fijando un
nivel de significación α = 0,01. ¿Puede aceptarse la hipótesis del psicólogo?
Hipótesis estadísticas (contraste unilateral derecho): H0: µ0 = 55 y H1: µ1 > 55 (µ1 = 60)
Descripción de la variable y de los datos muestrales: Variable medida a nivel de intervalo, distribución
normal, con varianza conocida N (55, 121) y observaciones aleatorias e independientes.
Estadístico de contraste y cálculo: Bajo la H0: µ0 = 55, tipificamos la media muestral = 58.
_ ___
Z = (Y – µ0) / σY Z = (58 - 55) / (11 / √ 50) = 1,93
Decisión estadística:
A partir del valor crítico (para α = 0,01. Se trata de un contraste unilateral, acumula α en una
sola cola Z = 2,33). Como 1´93 (valor del estadístico de contraste) < 2´33 (valor crítico) Se
acepta la H0.
A partir del nivel crítico p (al valor del estadístico de contraste 1´93 le corresponde en las tablas
una probabilidad de p (Z < 1,93) = 0,9732 1-0´9732 = 0´0268). Al tratarse de un contraste
unilateral p = 0´0268 > α = 0´01; Por tanto, Se acepta la H0
Su distribución está prohibida | Descargado por Maria Fernandez (mariajose_ccs@yahoo.com)
Interpretación de los resultados: Para un nivel de significación α = 0,01, no podemos afirmar que la
media poblacional se ha incrementado en la actualidad.
Bajo la Hipótesis nula (H0: µ0 = 55) se determina el límite entre la región de aceptación y rechazo
(Contraste unilateral derecho)
_ -----------------------------------|-----
Z = (Yc – µ0) / σY Z = 2,33 Z = (Yc - 55) / (11 / √50); Yc = 58,62
_ ------------------|------------------------------
Z = (Yc – µ1) / σY Z = (58,62 - 60) / (11 / √50); Z = (- 0,89)
Probabilidad de obtener una Z ≤ (- 0,89) Z (-0,89) = 0,1867 β = 0,1867 (error tipo II)
Potencia de Contraste (1 – β) = 0,8133
TIPOS DE MUESTRAS
CONTRASTE DE HIPÓTESIS
Observaciones independientes
Supuestos Nivel de medida de intervalo o razón
Distribuciones normales en la población ó (n1 ≥ 30 y n2 ≥ 30)
Estadístico
de
Contraste
Dos centros de Educación Especial vienen utilizando, desde hace dos años, métodos diferentes
para estimular las funciones superiores de los niños con retraso mental. El director de uno de los
centros sostiene que su método (Método A) logra mejores resultados que el del otro centro (Método
B). Para estudiar esta cuestión, fijamos α = 0,03, extraemos aleatoria e independientemente dos
muestras de niños, una en cada centro (nA = 120 y nB = 50) y les medimos el cociente intelectual (CI)
en una escala de intervalo. Los niños de ambos centros iniciaron el programa de estimulación con
un CI medio igual a 70 y los CI medios tras el programa fueron 79 para los niños estimulados con el
método A y 74 para los estimulados con el método B. La distribución de los CI es normal en las
poblaciones con σA = 18 y σB = 12 y todas las observaciones son independientes entre sí.
Hipótesis: Planteamos un contraste unilateral derecho (queremos probar si el método A es más eficaz)
Regla de decisión:
Valores críticos (para un nivel de confianza del 97% y un contraste unilateral, el valor crítico es
Z0´97 = (1´88)
Nivel crítico p (el estadístico de contraste 2´12 se asocia a una probabilidad p = P (Z ≥ 2,12)
1 – 0,983 = 0,017
Conclusión: Se rechaza H0 [el estadístico de contraste 2´12 > 1´88 (valor crítico) y también p =
0,017 (nivel crítico) < α = 0,03 (nivel de significación)].
Interpretación: El programa de estimulación del CI ha sido eficaz con un nivel de confianza del
97% (mejor el método A que el método B)
Intervalo de confianza: Para realizarlo suponemos que se trata de un contraste bilateral; por tanto,
habría que reformular las hipótesis:
_ _
(Y1 – Y2) ± | Z α/2 | · Error típico Límite superior y Límite inferior
(79 – 74) ± (0,03/2 = Z (-2´17) · 2,36 (denominador e. contraste) = 5 ± 5´12 (- 0´12 y 10´12)
Decisión: Aceptamos H0 (el intervalo de confianza contiene el valor 0, luego asumimos que la
diferencia de medias en la población puede tomar ese valor
En una investigación psicopedagógica se pasó la misma prueba de nivel de lectura a dos grupos de
niños: los participantes habían sido elegidos de forma aleatoria de entre los alumnos de EGB de dos
provincias españolas. Los datos se muestran en la tabla. La variable se midió en una escala de
intervalo y se supone que σ2A = σ2B
Supuestos: Disponemos de dos muestras independientes (dos grupos de niños) que se someten a
una prueba de lectura. La variable dependiente medida a nivel de intervalo. Varianzas
poblacionales desconocidas y supuestamente iguales (σ2A = σ2B). Muestras grandes (121 y 61).
Hipótesis: Planteamos un contraste bilateral para ver si las diferencias se deben al azar.
_________________________________________________
Error típico = √[( n1 – 1) S21 + (n2 – 1) S22 / (n1 + n2 – 2)] · (1 / n1 ) + (1 / n2 )
______
Error típico = √0´1665 = 0,408
Regla de decisión:
Valores críticos (tabla t de Student con 121 + 61 – 2 = 180 grados de libertad y α = 0,05). Se trata
de un contraste bilateral y son muestras grandes; por tanto, utilizamos Z0´025 (- 1´96) y Z0´975 = (1´96)
Nivel crítico p (el estadístico de contraste 4´90 se asocia a una probabilidad < 0´0005 que es más
pequeña que α)
Conclusión: Rechazamos H0 (el estadístico de contraste 4´90 no está entre los valores críticos ±
1´96 y de igual forma, considerando el nivel p crítico, p < α)
Interpretación: El rendimiento medio en la prueba de lectura no es igual en los dos grupos con un
nivel de significación α = 0,05.
Intervalo de confianza:
_ _
(Y1 – Y2 ) ± | tα (n1 + n2 – 2) | · Error típico = (Límites inferior y superior)
(40 – 38) ± 1´96 · 0´408 = 2 ± 0´8 = (1´2 y 2´08) Rechazamos H0 (el intervalo de confianza no
contiene el valor 0, luego asumimos que la diferencia de medias en la población no puede tomar
ese valor)
Distintos estudios muestran que la relajación es eficaz para reducir la ansiedad precompetitiva.
Siguiendo esta línea de investigación y habiendo hipotetizado una reducción de la ansiedad en las
escaladoras tratadas con relajación, extraemos aleatoria e independientemente 12 escaladoras y
les asignamos aleatoriamente a las dos condiciones del experimento: la mitad de las escaladoras se
somete a un programa de relajación durante seis meses y la otra mitad no realiza ningún tipo de
relajación (suponemos que las poblaciones se distribuyen normalmente con distinta varianza). Al
finalizar el programa de relajación, medimos la ansiedad precompetitiva de todas las escaladoras,
obteniendo una ansiedad media de 8 y una varianza insesgada de 150 en el grupo “sin relajación” y
una ansiedad media de 6´5 y una varianza sesgada de 100 en el grupo “con relajación”. El nivel de
significación alfa se fijó en 0,05, la variable dependiente está medida a nivel de intervalo y a mayor
puntuación mayor ansiedad. ¿Podemos afirmar que realmente la ansiedad precompetitiva de las
escaladoras se reduce utilizando técnicas de relajación?
(150 / 6 + 83 / 6)2
gl = ----------------------------------------------------- =
[(150 / 6)2 / (6 – 1) + (83 / 6)2 / (6 – 1)
Regla de decisión:
Valor crítico para α = 0,05 Según la tabla t de Student (contraste unilateral derecho), con 9 gl
encontramos el valor t9; 0´05 = 1´833
Nivel crítico p el valor del E. Contraste T = 0´24, con 9 gl se encuentra entre 0´55 < p < 0´60
Conclusión e interpretación: Se acepta H0 para un nivel de confianza del 95%. Según el valor
crítico (contraste unilateral derecho) T (0´24) < 1´833 Aceptamos H0.
Según el nivel p crítico (0´55 < p < 0´60) > que el valor de α = 0,05. La ansiedad precompetitiva de
las escaladoras no disminuye utilizando técnicas de relajación.
U1 = S1 - ½ n 1 (n1 + 1) // U2 = S2 - ½ n 2 (n2 + 1)
Distribución
Muestral Utilizamos la tabla U de Mann-Whitney-Wilcoxon
PROBLEMA EJEMPLO
En una investigación de Psicología Social sobre valores, se han extraído dos muestras aleatorias de
personas. Una muestra se extrajo de una región del interior de la Península (n=5) y la otra de la
costa (n=6). Los participantes cumplimentaron un cuestionario de xenofobia, que ofrece
puntuaciones en una escala ordinal, obteniendo los resultados que se presentan en la Tabla 1 (a
mayor puntuación mayor xenofobia). Se desea saber si la tendencia central de los habitantes de la
costa es más baja que la de los del interior. Se asume que las distribuciones de la variable en las
dos poblaciones tienen la misma forma (si difieren sólo lo hacen en su tendencia central)
Interior 6 14 10 18 20
Costa 16 12 4 8 2 22
Hipótesis: La hipótesis nula siempre es aquella que afirma lo contrario de lo que el investigador
desea probar. Desea probar que la tendencia central (contraste no paramétrico, mediana) en
habitantes de la costa es menor que en habitantes del interior. Contraste unilateral izquierdo
Estadístico de contraste:
1º.- Ordenamos el total de las puntuaciones de menor a mayor (puntuaciones de interior en negrita)
2 4 6 8 10 12 14 16 18 20 22
2 4 6 8 10 12 14 16 18 20 22
1 2 3 4 5 6 7 8 9 10 11
3º.- Sumamos los rangos de cada grupo: Rangos de interior (negrita) S1 = 3+ 5+ 7+ 9 +10 = 34
Rangos de costa S2 = 1+2+4+6+8+11 = 32
Regla de decisión:
Conclusión: Dado que el nivel crítico p (0´268) es mayor que α (0´05) Aceptamos H0
Interpretación: Las distribuciones del interior y las de la costa no difieren en cuanto a las medianas
en sus apreciaciones sobre la xenofobia.
D=0 D≠0
_____________________
Z = (P1 – P2 ) - 0 / √ P (1 - P ) · (1 / n1 ) + (1 / n2 ) ___________________________
Estadístico Z = (P1 – P2) - λ. / √ P1 (1 – P1 ) / n1 + P2 (1 – P2 ) / n2
Contraste Donde P = (n1 · P1 ) + (n2 · P2 ) / (n1 + n2 )
Distribución
Muestral Normal tipificada N (0, 1)
PROBLEMAS EJEMPLO
El grado de dificultad de las preguntas de un test se suele medir por el número de los sujetos que
los aciertan, o más exactamente, por la proporción de aciertos. Para averiguar si dos preguntas de
un determinado test de aptitud general difieren en dificultad, hemos seleccionado una muestra
aleatoria simple de 200 sujetos y los hemos repartido aleatoriamente en dos grupos de 100. Un
grupo de sujetos ha respondido a la pregunta 1 y el otro a la pregunta 2. La pregunta 1 la han
acertado 70 sujetos y la 2 la han acertado 60. El nivel de significación α se fijó en 0,05.
Supuestos: Tenemos una muestra aleatoria de n = 200 sujetos, repartidos en dos grupos
independientes de 100 (cada uno responde a una pregunta y se considera el acierto o el error
variable dicotómica). Se fija α = 0,05. Se dan los supuestos para realizar un Contraste de
Proporciones al comparar el grado de dificultad de las dos preguntas del test.
Hipótesis: Planteamos un contraste bilateral para ver si las preguntas difieren en dificultad.
H0: π1 = π2 // H1: π1 ≠ π2
P = (n1 · G1) + (n2 · G2) / (n1 + n2) (100 · 0,7) + (100 · 0,6) / (100 + 100) = 0,65
_______________________________
Z = (0,7 – 0,6) / √ 0,65 (1 – 0,65) · (1 / 100) + (1 / 100) = 1,48
Regla de decisión:
Valores críticos (para un nivel de confianza del 95% y un contraste bilateral, los valores críticos
son ± 1´96 Z0´025 (- 1´96) y Z0´975 = (1´96)
Nivel crítico p [el estadístico de contraste (Z = 1,48) en la tabla de la curva normal deja por debajo
0,9306] Probabilidad (Z ≥ 1,48) = 1 - 0,9306 = 0,0694; al ser bilateral 2 · 0,069 = 0,1388.
Conclusión: Aceptamos H0 (el estadístico de contraste 1´48 está entre los valores críticos ± 1´96 y
de igual forma, considerando el nivel p crítico, p (0´1388) > α (0´05)
Interpretación: Para un nivel de confianza del 95%, aceptamos la hipótesis nula (las preguntas no
difieren en dificultad)
Aceptamos H0 (el intervalo de confianza contiene el valor 0, luego asumimos que la diferencia de
medias en la población puede tomar ese valor)
2 2 2 2
Estadístico F =S 1 / S 2 Donde S 1 ≥S 2 (varianzas insesgadas)
Contraste
Intervalo
2 2 2 2 2 2
confianza (f α / 2 ; n1 – 1 y n2 – 1) ·Ŝ 1 / Ŝ 2 < σ 1 / σ 2 < (f 1 – α / 2 ; n1 – 1 y n2 – 1) ·Ŝ1 / Ŝ 2
PROBLEMAS EJEMPLO
Deseamos contrastar si las pacientes anoréxicas (PA) son más variables, en cuanto a su nivel de
estrés, que las pacientes bulímicas (PB). Para ello, extraemos dos muestras aleatorias de dichas
pacientes y se obtienen los siguientes datos sobre su nivel de estrés (donde a mayor puntuación
mayor estrés), considere α = 0,05:
PA 4 6 8 12 16
PB 3 5 7 9 14
Sabemos que la variable “nivel de estrés” está medida a nivel de intervalo y distribuida normalmente en
ambas poblaciones.
Hipótesis: H0: σ2PA / σ2PB ≤ 1 y H1: σ2PA / σ2PB > 1. Contraste Unilateral Derecho.
Conclusión e interpretación: No se rechaza H0 porque 1,3 (estadístico de contraste) < 6,39 (valor
crítico). Por tanto, las pacientes anoréxicas (PA) no son más variables que las bulímicas (PB) en
cuanto a su nivel de estrés considerando un nivel de confianza del 95%.
0,10) · (23,2 / 17,8) = 0,13 < σ21 / σ22 < (9,60) · (23,2 / 17,8) = 12,48
Siendo los valores críticos: f 0,025; 4 y 4 gl = 9,60 y f 0,975; 4 y 4 gl = 1 / 9,60 0,10 (propiedad recíproca).
Decisión: Como la H0 debe plantear que las varianzas son iguales (σ21 / σ22 = 1) y apreciamos que
uno está dentro del intervalo de confianza (0,13 y 12,48). Se aceptaría la H0 (las varianzas de
ambas poblaciones son iguales)
La magnitud o tamaño del efecto alude al índice que mide el efecto que tiene un tratamiento. Deben
estar implicados al menos dos grupos (el experimental y el control). Es independiente del tamaño
muestral.
|YTRATAMIENTO – YCONTROL |
Índice d = -------------------------------------------------------
√[( n1 – 1) Ŝ21 + (n2 – 1) Ŝ22 / (n1 + n2 – 2)]
Según Cohen (1988) Magnitud del efecto [pequeño (d = 0´2); mediano (d = 0´5) y grande (d =
0´8 o superior)
ENTRENAMIENTO PSICOLÓGICO 37 14 38 43 35
ENTRENAMIENTO TÉCNICO 29 36 11 17 13
La d = 1´35 es la distancia estandarizada entre las medias de los dos grupos y su probabilidad
asociada (0´9115) El 91´15% de los sujetos con entrenamiento psicológico mejoran respecto a
los que únicamente reciben entrenamiento técnico.
Las muestras relacionadas nos ayudan a reducir la varianza de error. Así, cuanto mayor sea la
relación entre ambas muestras, menor será la varianza de la distribución muestral de las diferencias
y, por tanto, mayor el estadístico de contraste.
CONTRASTES DE HIPÓTESIS:
Observaciones independientes
Supuestos Nivel de medida de intervalo o razón
Distribuciones normales en la población de diferencias ó bien (n ≥ 30)
_ __ _ __
2
Estadístico Z = (D – µd) / (σd / √ n ) T = (D – µd) / (Ŝ d / √ n )
Contraste
Distribución
Muestral Normal Tipificada: (0, 1) “t” de Student: gl = n-1
_ __ _ __
Intervalo D ± | Z α/2 | · σD / √ n = (Lím. infer y sup) D ± | t α/2; n– 1 | · SD / √ n = (Lím. infer y sup)
confianza Distribución Muestral Z con N (0,1) Distribución Muestral T con (n – 1) gl
Se desea estudiar si los alumnos de la ESO son más variables en cuanto a su nivel de
concentración antes y después de haberles sometido a una terapia. Sobre una muestra aleatoria de
7 alumnos se toman medidas del nivel de concentración previo y posterior a la aplicación de la
terapia, obteniéndose los siguientes resultados (a mayor puntuación, mayor concentración):
MEDIDA PREVIA 12 9 11 10 9 6 7
MEDIDA POSTERIOR 7 5 6 6 5 6 7
Sabiendo que para aplicar el estadístico de contraste se resta la medida posterior de la previa, que
la concentración es una variable medida a nivel de intervalo y que se distribuye normalmente en
ambas poblaciones, tómese un nivel de significación α = 0,05 y compruebe si los alumnos se
concentran más al finalizar la terapia.
Hipótesis: La hipótesis alternativa es la hipótesis del investigador. Del planteamiento del problema
se deduce de que se trata de un contraste unilateral izquierdo donde:
2
Medida Medida Diferencia D - DMedia (D - DMedia)
Previa Posterior Posterior - Previa
12 7 -5 - 1,86 3,4596
9 5 -4 - 0,86 0,7396
11 6 -5 - 1,86 3,4596
10 6 -4 - 0,86 0,7396
9 5 -4 - 0,86 0,7396
6 6 0 3,14 9,86
7 7 0 3,14 9,86
Σ = 64 Σ = 42 Σ = (- 22) Σ = 28,86
_
Averiguamos la media (D) y la varianza insesgada (Ŝ2d) de las puntuaciones diferencia:
_ __ __
Desconocida la varianza de la población: T = (D – 0) / (Ŝ2d) / √ n) T = (- 3,14) / (4,81 / √ 7) = - 1,7
__________________ _ _ _
Donde: Ŝ2d = √ Σ (Di – DMedia)2 / (n – 1) y D = Y1 – Y2 = Σ Di / n
________ _
Ŝ2d = √ 28,86 / 6 = 4,81 y D = (- 22) / 7 = (- 3,14)
Regla de decisión:
Valor crítico (contraste unilateral izquierdo) - 1,943 (valor crítico T0, 05 y 6 gl)
Nivel crítico p sólo puede obtenerse el valor aproximado, porque 1,7 no figura en la tabla T de
Student para n–1 = 6 gl. El valor 1,7 está entre 0,10 (1,4) y 0,05 (1,9).
(-3´14) ± 1´943 · 4´81 / 2´64 (- 3´14) ± 3´54 (0´4 y 6´68) No contiene el 0, Rechazamos H0
Unos psicólogos hipotetizan que los hombres (H) con más de 20 años son más afectuosos hacia su
pareja que las mujeres (M). Extrae una muestra aleatoria de 8 parejas casadas y les mide el grado
de afectividad hacia la pareja, obteniendo los datos que aparecen a continuación (a mayor
puntuación mayor afectividad hacia la pareja). Se sabe que la puntuación en afectividad es una
variable medida a nivel de intervalo que se distribuye normalmente y que las observaciones entre
las muestras no son independientes. Se fija alfa en 0´01. Suponemos conocida la varianza de las
diferencias (σ2d = 5).
PAREJAS 1 2 3 4 5 6 7 8
HOMBRES 13 5 6 9 10 7 11 8
MUJERES 1 9 8 6 5 8 3 5
Supuestos: Se sabe que la puntuación en afectividad es una variable medida a nivel de intervalo,
que se distribuye normalmente en ambas poblaciones y que conocemos la varianza de las
diferencias (σ2d = 25). Se fija α en 0,04. Según el enunciado Diferencia de medias (muestras
relacionadas)
Estadístico de contraste:
H M D
13 1 12
5 9 -4
6 8 -2
9 6 3
10 5 5
7 8 -1
11 3 8
8 5 3
Media = 8,7 Media = 5,7 Σ = 24
_ _ _ _
D = H – M = Σ Di / n D = 24 / 8 = 3 // σ2d = 5
_ __ _
Z = (D – 0) / (σ2d / √ n) T = 3 / (5 / √8) = 3 / 1´77 = 1,69
Regla de decisión:
El nivel crítico p (probabilidad de obtener un valor del estadístico, al menos, tan extremo como el
hallado) se obtiene a partir del valor muestral del estadístico de contraste (1,69) que buscando en la
tabla de la curva normal p = 1 – P (T ≤ 1´69) 1-0`9545 = 0´0455.
El valor crítico para un contraste unilateral derecho y un alfa = 0´01 es 2´33
Distribución
Muestral Utilizamos la tabla U de Mann-Whitney-Wilcoxon
PROBLEMA EJEMPLO
Un investigador desea comparar el grado de hiperactividad en obesos cuando están en un
programa para bajar de peso (dieta) y sin programa para bajar de peso. Dispone de 10 sujetos a los
que somete a las dos condiciones experimentales (con dieta y sin dieta). Las puntuaciones se
reflejan en la tabla. Sabiendo que la distribución de las diferencias es simétrica, con un nivel de
confianza del 95%, ¿se puede afirmar que hay diferencias en hiperactividad en obesos cuando
están o no en un programa de dieta?
Estadístico de contraste:
∑ R+ = (1´5 + 7´5 + 9´5 + 4´5 + 7´5 + 4´5 + 4´5) = 39´5 y ∑ R- = (1´5 + 9´5 + 4´5) = 15´5
Se toma el valor del más pequeño de los sumatorios W = 15´5 (Estadístico de Contraste)
Regla de decisión: Con α/2 = 0´05 (contraste bilateral) y n = 10, acudimos a la tabla de Wilcoxon y
obtenemos un valor crítico = W0´025; 10 = 9
Conclusión e interpretación: Dado que el estadístico de contraste (W = 15´5) > el valor crítico (W = 9)
no podemos rechazar la H0 con un nivel de confianza del 95%. Las diferencias en el incremento o
disminución de la hiperactividad en personas obesas con dieta o sin dieta, no son significativas.
Estadísticamente resultan iguales, en razón de que pueden ser diferencias dadas al azar.
_______
2 2
Z = (b - c) / √ (b + c) χ = (b – c) / (b + c)
Estadístico
Contraste b (sujetos que puntúan 1 en la primera medida y 2 en la segunda).
c (sujetos que puntúan 2 en la primera medida y 1 en la segunda)
Distribución
Muestral Normal tipificada N (0, 1) Chi Cuadrado con 1 grado de libertad
_______
Intervalo (P1 – P2 ) ± | Z α/2 | · √ (b + c) = (Límites inferior y superior)
confianza
PROBLEMA EJEMPLO
Supuestos: Muestra grande de 102 sujetos sometidos a dos medidas de la misma variable
(cometer o no cometer infracción) Variable dependiente dicotómica. [b + c] > 25 Se trata de
contrastar las proporciones en dos muestras de observaciones relacionadas.
Estadístico de contraste:
Regla de decisión:
Los valores críticos, contraste bilateral, con α/2 = 0,005 y 1- α/2 = 0,995 ± 2´58.
El nivel crítico p (probabilidad de obtener un valor del estadístico, al menos, tan extremo como el
hallado) se obtiene a partir del valor muestral del estadístico de contraste (± 1´02) que buscando en
la tabla de la curva normal 2 [P (Z ≥ 1´02) = 2 · (1 – 0,8461) = 2 · 0,1539 0,3078.
Conclusión e interpretación:
Como p (0,3078) > α (0,01) Aceptamos H0. También como 1´02 (valor muestral del estadístico de
contraste) < 2´58 (el mayor de los valores críticos). También 1´02 está entre los valores críticos (-
2´58 y 2´58).
Para α = 0´01, podemos afirmar que la proporción poblacional de los sujetos que se saltan el
semáforo es la misma antes de la proyección de imágenes que después.
También con el test de McNemar: χ2 = (b – c)2 / (b + c) χ2 = (34 – 43)2 / (34 + 43) = 1´05
Para χ2con un grado de libertad, el valor 1´05 se encuentra entre (0´10 < p < 0´90) por lo que el nivel p
crítico > que α (0,01) Aceptamos H0
DISEÑOS INVESTIGACIÓN Y ANADATOS ORIENTACIONES TEMA Nº 5 (DISEÑOS MÁS DE 2 GRUPOS INDEPENDIENTES / 1 FACTOR)
Análisis de Varianza (ANOVA ó ANVAR) es una técnica paramétrica de análisis estadístico que
se utiliza para comparar las medias de más de dos grupos.
El diseño de más de dos grupos tiene por objeto estudiar la influencia de más de dos valores de la
variable independiente sobre la variable dependiente y, por tanto, tiene más posibilidades de establecer
la relación precisa entre ellas. Una de las características más importantes del diseño de experimentos
es la aleatoriedad: elección de un grupo (muestra) y su distribución en tres o más grupos de forma
aleatoria.
Al comparar distintos grupos para realizar un estudio tenemos en cuenta la variabilidad que aparezca
entre los sujetos en la variable dependiente que se considera formada por dos componentes: la que se
debe al factor estudiado (atribuible a los distintos tratamientos experimentales; variable independiente) y
la que se debe a factores extraños y no controlados (Error Experimental)
El Análisis de Varianza se fundamenta en el estudio de estas variabilidades. La varianza general o
común se divide en: varianza intergrupos (atribuible a los distintos niveles del factor estudiado) y
varianza intragrupos (atribuible al error experimental). Al comparar ambas varianzas obtenemos la
aceptación o rechazo de la hipótesis nula (que consiste en afirmar que no existe diferencia entre las
medias de los distintos grupos)
Lógica del método: Los sujetos se distribuyen aleatoriamente en los mencionados grupos (para
minimizar la influencia de las variables extrañas); por tanto, son semejantes en cuanto a la variable
estudiada dentro de cada grupo y entre los distintos grupos. Si después de aplicar el tratamiento
experimental existen diferencias, se puede pensar que son debidas a los procedimientos aplicados.
TERMINOLOGÍA:
Factores = Var. Independientes que se estudian. Niveles = categorías en que dividimos los factores.
Efectos Fijos = sólo nos interesan unos niveles concretos, los establecidos. Los resultados sólo afectan
a estos niveles. Efectos Aleatorios = los niveles actúan como una muestra y las conclusiones se pueden
generalizar en el sentido de los datos de la muestra.
Modelo Equilibrado = igual número de sujetos en los grupos. Modelo no Equilibrado = distinto número
de sujetos en los grupos.
1.- Probar los supuestos (independencia de las observaciones, normalidad de las distribuciones y
homogeneidad de las varianzas)para asegurarnos que se puede aplicar el ANOVA
2.- Enunciar las hipótesis estadísticas
3.- Decidir el estadístico de contraste que vamos a utilizar para probar la H0
4.- Con qué nivel de confianza vamos a trabajar (establecer la región crítica de rechazo de la H0
5.- Calcular el estadístico de contraste (Tabla del ANOVA)
6.- Tomar la decisión sobre la H0 (comparar el valor F obtenido con el valor crítico)
7.- Interpretación en el contexto de la investigación
DISEÑOS INVESTIGACIÓN Y ANADATOS ORIENTACIONES TEMA Nº 5 (DISEÑOS MÁS DE 2 GRUPOS INDEPENDIENTES / 1 FACTOR)
Hipótesis estadísticas:
H0: Las observaciones y las muestras son independientes
H1: Las observaciones y las muestras no son independientes
Cálculo del Estadístico de Contraste: Para poder aplicar el Test hemos de dicotomizar la variable
observada. Para ello: A partir de la Mediana (Md) de todas las puntuaciones tomadas conjuntamente
(si una puntuación es mayor que la Md se sustituye por un signo + y si es menor por un signo –)
Valores Críticos: Si el estadístico es r Uα/2 y U1-α/2 (en la tabla de valores críticos del Test de
Rachas, buscamos los valores de n1 y n2) // Si el estadístico es T Zα/2 y Z1-α/2
PROBLEMA EJEMPLO
Un seleccionador de baloncesto desea averiguar como incide la hora del día a la que se entrena en el
rendimiento de los jugadores durante los partidos. Para ello selecciona 18 sujetos y los distribuye
aleatoriamente en turnos de mañana (M), tarde (T) y noche (N); seis en cada turno. Al final de la
temporada el seleccionador los convoca a un torneo y hace el recuento de canastas conseguidas por los
jugadores, obteniendo los siguientes resultados:
Para contrastar la independencia (Test Rachas) las observaciones pueden dicotomizarse, utilizando la
mediana (asignando un + cuando la puntuación sea mayor y un - cuando la puntuación sea menor)
Canastas 15 12 14 10 11 16 7 9 12 17 10 12 13 15 20 17 16 18
Signo + - + - - + - - - + - - - + + + + +
Rachas 1 2 3 4 5 6 7 8 9
r (nº de rachas) = 9 // n + = 9 (signos positivos) // n - = 9 (signos negativos)
Con un nivel de significación α = 0,05, buscamos los valores críticos en la tabla del test de Rachas
n - = 9; n + = 9; α / 2 = 0,025 y 1 - α / 2 = 0´975 (bilateral)
T (0,025) = 5 y T (0,975) = 14 Como (rachas = 9) está dentro del intervalo (entre 5 y 14), se acepta H0. Las
observaciones son independientes.
Su distribución está prohibida | Descargado por Maria Fernandez (mariajose_ccs@yahoo.com)
DISEÑOS INVESTIGACIÓN Y ANADATOS ORIENTACIONES TEMA Nº 5 (DISEÑOS MÁS DE 2 GRUPOS INDEPENDIENTES / 1 FACTOR)
Este supuesto es el que más va a distorsionar los resultados, en caso de no cumplirse, porque si al
final hay diferencias entre los grupos, no podremos saber si se deben a la variable independiente o a
que ya existían con anterioridad. Supuestos (Modelo equilibrado)
Hipótesis estadísticas:
H0: σ21 = σ22 = σ23 =…… (Las varianzas poblacionales son iguales)
H1: σ21 ≠ σ22 ≠ σ23 ≠……. (Para alguna σ2i)
Decisión:
Zona de Rechazo: R ≥ R r,n,α Si R < R r,n,α Aceptamos Ho
Si R ≥ R r,n,α Rechazamos Ho
PROBLEMA EJEMPLO
Con el enunciado del problema utilizado para el test de rachas (Modelo equilibrado):
Sabiendo que se cumple el supuesto de normalidad de las distribuciones, comprobar si las varianzas
son homogéneas H0: Las varianzas son iguales // H1: No todas las varianzas son iguales
Para contrastar la homocedasticidad (Test de Cochran) R = máx Ŝ2I / Σ Ŝ2I
Con un nivel de significación α = 0,05, buscamos los valores críticos de las tablas de Cochran n = 6
// r (grupos) = 3 // R = 0,7071
Decisión Como 0,504 < 0,7071, se acepta H0 (Las varianzas no difieren significativamente)
Decisión:
2 2 2 2
Zona de Rechazo: X ≥ X (r-1)(1-α) Si X < X (r-1)(1-α) Aceptamos Ho
2 2
Si X ≥ X (r-1)(1-α) Rechazamos Ho
DISEÑOS INVESTIGACIÓN Y ANADATOS ORIENTACIONES TEMA Nº 5 (DISEÑOS MÁS DE 2 GRUPOS INDEPENDIENTES / 1 FACTOR)
PROBLEMA EJEMPLO
ESTADÍSTICO DE CONTRASTE
χ2 r-1 = 2,3026 / {1,0291 · [23 log 2,515 – (8 log 1 + 7 log 2,55 + 8 log 4)]} = 3,45
DISEÑOS INVESTIGACIÓN Y ANADATOS ORIENTACIONES TEMA Nº 5 (DISEÑOS MÁS DE 2 GRUPOS INDEPENDIENTES / 1 FACTOR)
MODELO Yij = µ + αij + εij // Cualquier puntuación (Y) tiene tres componentes: (µ) que es la media de
la población. (α) el nivel en que se encuentra, común a todos los componentes adscritos a ese nivel.
(ε) el error experimental o factores no controlados en el experimento (se asume que es una variable
aleatoria distribuida según N (0, σ). Ejemplo Y17 = puntuación del sujeto 7º del grupo 1º.
HIPÓTESIS Efectos fijos (sobre las medias poblacionales) // Efectos aleatorios (sobre las
varianzas cuando son = 0, las medias son iguales).
El Numerador del estadístico de contraste contiene la Varianza de error + Efecto real de la VI. El
Denominador contiene la Varianza de error. Por tanto, cuanto menor es el efecto real de la VI más se
acerca el cociente a uno.
Valor Crítico: F (I-1) (N-I) (1-α) Zona de Aceptación: F < F ((I-1) (N-I) (1-α)
Decisión:
Zona de Rechazo: F ≥ F (I-1) (N-I) (1-α) Si F < F crítico Aceptamos H0
Si F ≥ F crítico Rechazamos H0
DISEÑOS INVESTIGACIÓN Y ANADATOS ORIENTACIONES TEMA Nº 5 (DISEÑOS MÁS DE 2 GRUPOS INDEPENDIENTES / 1 FACTOR)
Cálculos abreviados (Utilizamos el sistema de notación propuesto por Keppel): El cálculo de las
Sumas de cuadrados se realiza sumando y restando las razones básicas: [Y] (relacionada con las
puntuaciones individuales); [A] con los totales de los niveles y [T] con la suma total.
Fórmulas para las razones básicas Sumas Cuadrados a partir de razones básicas
SCS | A = ∑∑ (Y –YA)2
PROBLEMA EJEMPLO
Un seleccionador de baloncesto desea averiguar cómo incide la hora del día a la que se entrena en el
rendimiento de los jugadores durante los partidos. Para ello selecciona 18 sujetos y los distribuye
aleatoriamente en turnos de mañana (M), tarde (T) y noche (N); seis en cada turno. Al final de la
temporada el seleccionador los convoca a un torneo y hace el recuento de canastas conseguidas por los
jugadores, obteniendo los siguientes resultados:
2
SUMATORIOS (Σ) Σ Nº DE CASOS MEDIAS
MAÑANA 78 1042 6 13
TARDE 67 807 6 11,17
NOCHE 99 1663 6 16,5
TOTAL 244 3512 18 13,55
SC INTER = Σ (Σ Y)2 / n – {(Σ Σ Y)2 / N} 3395,67 - (244)2 / 18 = 88,11 Abreviado: [A] – [T]
DISEÑOS INVESTIGACIÓN Y ANADATOS ORIENTACIONES TEMA Nº 5 (DISEÑOS MÁS DE 2 GRUPOS INDEPENDIENTES / 1 FACTOR)
Decisión Comparando los resultados F (tablas) = 3,68 < F (experimental) = 5,68, por tanto
rechazamos la hipótesis nula. Existen diferencias significativas entre el rendimiento de los jugadores
dependiendo de la hora del día a la que entrenan a un nivel de confianza del 95%.
Permiten obtener información sobre las diferencias entre los distintos tratamientos considerados uno a
uno. El objetivo de las comparaciones múltiples es reducir la cantidad de Error Tipo I (α) que
cometeríamos si se compararan sin más, dos a dos, todas las muestras posibles. Dos tipos:
Comparaciones planificadas o a priori (no interesan todas las comparaciones, sólo algunas)
Comparaciones no planificadas, a posteriori o post hoc.
Las que vamos a utilizar se denominan no planificadas, a posteriori o post hoc (se llevan a cabo
cuando se ha realizado el Análisis de Varianza y la F ha sido significativa / hemos rechazado la H0). Las
más importantes TUKEY // SECHEFFÉ.
___________
PRUEBA TUKEY (HSD) HDS TUKEY = q α, gl, K √ MC error / n
q valor crítico en la tabla de rango studentizado. Se averigua considerando el nivel de confianza fijado
(α), los grados de libertad de la MC error y el número de grupos o tratamientos a comparar en el ANOVA.
MC ERROR media cuadrática error del Anova (MCINTRA / MCS | A)
n tamaño de cada grupo (los modelos han de ser equilibrados). Cuando el modelo no es equilibrado,
se sustituye n por n´ n´ = k / (1 / n1) + (1 / n2)...
_ _
Rechazamos H0 cuando (| Yi – Yj | ≥ HDS TUKEY
PRUEBA SCHEFFÉ (CR) Permite, además, realizar comparaciones complejas (una media con otras
dos consideradas en conjunto). Los coeficientes c (pesos) (2), (- 1) y (-1). Cuando se utiliza en lugar
de Tukey, para comparaciones dos a dos, es menos potente y más conservadora que Tukey, lo que
significa que, en igualdad de condiciones, el valor crítico de Scheffé es ligeramente superior al de
Tukey, por lo que resulta más difícil rechazar la hipótesis nula de la igualdad de medias.
_________________ ___________________
CR SCHEFFÉ = √ (k - 1) F (k - 1), gl ERROR √ MC ERROR [Σ (c2j / nj)]
k Número de grupos
ni = número de sujetos de cada grupo.
F (k - 1), gl ERROR F experimental del ANOVA.
MC ERROR Media cuadrática error.
c2j Coeficiente de las combinaciones lineales (en cada combinación la suma de coeficientes = 0)
_ _ _
φ1 = 2 ·Y1 – (Y2 + Y3) Entonces: c1 = 2, c2 = (-1), c3 = (-1) Dado que (∑cj = 0)
Para hallar los cj, se debe tener en cuenta que siempre deben sumar 0. Es más fácil calcular primero
los cj de los que se combinan conjuntamente, que siempre serán negativos, y luego el del que se
compara frente a todos, que será la suma de los otros, pero con signo positivo.
Decisión:
Si φ1 ≥ CR Existen diferencias significativas entre el nivel y los otros tomados conjuntamente.
Si φ1 < CR No existen diferencias
Su distribución está prohibida |significativas entre
Descargado por Maria el nivel(mariajose_ccs@yahoo.com)
Fernandez y los otros tomados conjuntamente
DISEÑOS INVESTIGACIÓN Y ANADATOS ORIENTACIONES TEMA Nº 5 (DISEÑOS MÁS DE 2 GRUPOS INDEPENDIENTES / 1 FACTOR)
PROBLEMAS EJEMPLO
Valor q para α = 0,05; 15 grados de libertad y tres grupos 3,67 MCINTRA 7,75
_______
HDS TUKEY = 3,67 √ 7,75 / 6 = 4,17 (modelo equilibrado)
Decisión Existen diferencias significativas entre entrenar por la tarde y por la noche, siendo el mejor
rendimiento por la noche (media más alta)
Prueba Scheffé (CR) Comparación entre la media del turno de noche con las de mañana y tarde
consideradas conjuntamente.
__________________ __________________
CR SCHEFFÉ = √ (k - 1) F (k - 1), gl ERROR √ MC ERRROR [Σ (c2j / nj)
Decisión Como 8,83 > 6,15 Rechazamos H0 (existen diferencias significativas entre el turno de
noche y los de mañana y tarde considerados conjuntamente.
HIPÓTESIS H0: ŋ1 = ŋ2 =… = ŋK
H1: ŋ1 ≠ ŋ2 ≠… ≠ ŋK Al menos para una ŋ
Cálculo: Se ordenan todas las puntuaciones en una sola serie, (es decir, tomándolas todas en cuenta),
asignamos rangos de 1 a n, dando a la puntuación menor el rango 1. En caso de empate (rango
medio); es decir, asignándoles la media aritmética de los rangos que les hubieran correspondido de ser
distintas.
Decisión: Cuando se rechaza la H0, se procede a realizar comparaciones múltiples (tratamientos entre
los que se producen las diferencias)
Su distribución está prohibida | Descargado por Maria Fernandez (mariajose_ccs@yahoo.com)
DISEÑOS INVESTIGACIÓN Y ANADATOS ORIENTACIONES TEMA Nº 5 (DISEÑOS MÁS DE 2 GRUPOS INDEPENDIENTES / 1 FACTOR)
_________________
Diferencia mínima crítica MVKV = Z adj √ N(N+1) /12 · (∑1/ai)
PROBLEMA EJEMPLO
En un estudio sobre antojo por el chocolate varios autores querían determinar si la distribución
poblacional del consumo de chocolate en una semana era igual en una muestra de niños (N), que en una
muestra de mujeres adultas (MA) y que en una de hombres adultos (HA). Para ello se seleccionaron
aleatoriamente 5 sujetos de cada grupo y se midió su consumo de chocolate contabilizando (según se
recoge en la tabla) el número de alimentos con chocolate consumidos en una semana (C):
= 30,5 / 5 = 6´1
Rango Medio Rango Medio = 31 / 5 = 6´2 Rango Medio =58,5 / 5 = 11´7
2 2 2
Σ RANGOS = 930,25 Σ RANGOS = 961 Σ RANGOS = 3422,25
2 2 2
Σ R / 5 = 186,05 Σ R / 5 = 192,20 Σ R / 5 = 684,45
Hipótesis
H0: No existen diferencias poblacionales en el consumo semanal de chocolate entre N, MA y HA.
H1: Existen diferencias poblacionales en el consumo semanal de chocolate entre, al menos dos grupos.
El estadístico de contraste sigue la distribución X2 con (3-1) gl y α = 0,10 X22; 090 = 4´61
Decisión Como 5,135 > 4,61 Se Rechaza la Hipótesis Nula (Comparaciones múltiples Las tres
muestras son equilibradas)
_________________ _______________
MVKV = Z adj √ N(N+1) /12 · (∑1/ni) MVKV = 2´13 √ 15(16) /12 · (1/5) MVKV = 4´26