Mat 260 2007
Mat 260 2007
Mat 260 2007
TEXTO DE ESTUDIO
MATERIA: ESTADÍSTICA II
MAT – 260
GESTION: II - 2.007
INDICE
INDICE 1
UNIDAD N º 1: “INTERVALOS DE CONFIANZA PARA LA MEDIA DE LA POBLACION”..........3
1. ESTIMACIÓN PUNTUAL Y MUESTREO.......................................................................................................3
2. DISTRIBUCIÓN DE MUESTREO DE LA MEDIA...........................................................................................4
3. INTERVALOS DE CONFIANZA PARA LA MEDIA UTILIZANDO LA DISTRIBUCIÓN NORMAL:..................6
4. INTERVALOS DE CONFIANZA DE UN LADO PARA LA MEDIA DE LA POBLACIÓN..................................7
5. INTERVALOS DE CONFIANZA PARA LA PROPORCIÓN EMPLEANDO LA DISTRIBUCIÓN NORMAL....7
6. DISTRIBUCIONES T DE STUDENT E INTERVALOS DE CONFIANZA PARA LA MEDIA............................8
7. DESIGUALDAD DE CHEBYSHEV E INTERVALOS DE CONFIANZA PARA LA MEDIA............................10
8. DISTRIBUCIÓN X2 (JI-CUADRADO) E INTERVALO DE CONFIANZA PARA LA DESVIACIÓN
ESTÁNDAR Y LA VARIANZA....................................................................................................................... 11
9. DETERMINACIÓN DEL TAMAÑO NECESARIO DE LA MUESTRA PARA ESTIMAR LA MEDIA:..............13
UNIDAD NO 2: “INTERVALOS DE CONFIANZA PARA LA DIFERENCIA ENTRE DOS
MEDIAS DE LA POBLACION”.................................................................................................................... 14
1. USANDO LA DISTRIBUCIÓN NORMAL......................................................................................................14
2. INTERVALOS DE CONFIANZA PARA LA DIFERENCIA ENTRE DOS PROPORCIONES DE LA
POBLACIÓN................................................................................................................................................. 15
3. DISTRIBUCIÓN T DE STUDENT E INTERVALOS DE CONFIANZA PARA LA DIFERENCIA ENTRE
MEDIAS:....................................................................................................................................................... 16
4. INTERVALOS DE CONFIANZA DE UN LADO PARA LA DIFERENCIA ENTRE DOS MEDIAS..................17
5. DETERMINACIÓN DEL TAMAÑO NECESARIO DE LA MUESTRA PARA ESTIMAR LA PROPORCIÓN..................18
UNIDAD NO 3: “PRUEBA DE HIPÓTESIS RESPECTO AL VALOR DE LA MEDIA DE
POBLACIÓN”................................................................................................................................. 19
1. ETAPAS BÁSICAS EN PRUEBAS DE HIPÓTESIS:....................................................................................19
PRIMER PASO: FORMULAR LA HIPÓTESIS NULA Y LA HIPÓTESIS ALTERNATIVA 19
SEGUNDO PASO: ESPECIFICAR EL NIVEL DE SIGNIFICACIÓN QUE SE VA A UTILIZAR 20
TERCER PASO: SELECCIONAR LA ESTADÍSTICA DE PRUEBA 20
CUARTO PASO: ESTABLECE EL VALOR O LOS VALORES CRÍTICOS DE LA ESTADÍSTICA DE PRUEBA 20
QUINTO PASO: DETERMINAR EL VALOR DE LA ESTADÍSTICA DE PRUEBA 20
SEXTO PASO: TOMAR LA DECISIÓN 20
2. PRUEBA DE UN VALOR HIPOTÉTICO DE LA MEDIA UTILIZANDO LA DISTRIBUCIÓN NORMAL:........21
3. PRUEBA DE UNA PROPORCIÓN HIPOTÉTICA EMPLEANDO LA DISTRIBUCIÓN NORMAL:................23
5. PRUEBA DE UN VALOR HIPOTÉTICO DE LA MEDIA USANDO LA DESIGUALDAD DE CHEBYSHEV:. 25
6. PRUEBA DE UNA PROPORCIÓN HIPOTÉTICA UTILIZANDO LAS DISTRIBUCIONES BINOMIALES:...26
7. PRUEBA DE UN VALOR HIPOTÉTICO DE LA VARIANZA EMPLEANDO LAS DISTRIBUCIONES DE JI -
CUADRADO:................................................................................................................................................ 27
9. ERRORES DE TIPO I Y DE TIPO II EN PRUEBAS DE HIPOTESIS:.........................................................28
10. DETERMINACIÓN DEL TAMAÑO NECESARIO DE LA MUESTRA PARA PROBAR LA MEDIA:..............30
UNIDAD NO 4: “PRUEBA DE HIPÓTESIS CON LA DIFERENCIA ENTRE DOS MEDIAS”.........32
1. PRUEBA DE LA DIFERENCIA ENTRE DOS MEDIAS UTILIZANDO LA DISTRIBUCIÓN NORMAL:.........32
2. PRUEBA HIPOTETICA DE LA DIFERENCIA ENTRE DOS PROPORCIONES:.........................................34
3. PRUEBA DE LA DIFERENCIA ENTRE DOS MEDIAS UTILIZANDO LAS DISTRIBUCIONES T DE ESTUDENT:........35
4. PRUEBA DE LA DIFERENCIA ENTRE DOS MEDIAS BASADAS EN OBSERVACIONES PAREADAS:...35
5. LAS DISTRIBUCIONES F Y LA PRUEBA DE LA DIFERENCIA ENTRE DOS VARIANZAS:......................38
6. DETERMINACIÓN DEL TAMAÑO NECESARIO DE LA MUESTRA PARA PROBAR LA PROPORCIÓN:. 39
UNIDAD N º 5: “LA PRUEBA DE JI-CUADRADO”.......................................................................40
1. LA PRUEBA DE JI-CUADRADO COMO PROCEDIMIENTO DE PRUEBA DE HIPÓTESIS:......................40
2. PRUEBAS DE LA BONDAD DEL AJUSTE:.................................................................................................40
3. FRECUENCIAS MÍNIMAS ESPERADAS Y CORRECCIÓN DE CONTINUIDAD:.......................................42
4. PRUEBAS PARA LA INDEPENDENCIA DE DOS VARIABLES (PRUEBAS DE TABLAS DE
CONTINGENCIAS):..................................................................................................................................... 43
5. PRUEBA DE LA DIFERENCIA ENTRE K PROPORCIONES DE UNA MUESTRA:....................................45
Debido a factores tales como tiempo y costo los parámetros de una población se calculan
frecuentemente sobre la base de estadísticas de muestra. Un parámetro de población, es una
medida de resumen de una población, mientras que una medida de resumen de una muestra se
denomina estadística de la muestra.
Desviaciones estándar S*
* Este estimador se basa en la suposición de que la corrección para el sesgo haya sido incluida en
la fórmula para S.
números aleatorios.
DISTRIBUCIÓN DE MUESTREO DE LA MEDIA:
medias
x
. Como esta desviación estándar indica la exactitud de la media de la muestra como
Al hacer el muestreo de una población finita, se debe incluir un factor de corrección finito en la
fórmula del error estándar de la media. Como regla empírica, la corrección se debe utilizar
cuando n > 0,05 N, es decir, cuando el tamaño de la muestra es menor que el 5% del tamaño de
la población. La fórmula para el error estándar de la media con el factor de corrección finito incluida
es:
N n
N 1
media es:
s
sx
n
La fórmula para el error estándar estimado de la media con el factor de corrección finito incluida es:
s N n
sx
n N 1
Ejemplo 3: Un auditor toma una muestra aleatoria del tamaño 16 de un conjunto de 100 cuentas
por cobrar. No se conoce la desviación estándar de los montos de las 100 cuentas por cobrar. Sin
embargo, la desviación estándar de la muestra es 57 $. Determinamos el valor del error estándar
para la distribución de muestreo de la media de la siguiente manera:
s N n 57 100 16 57 84
sx = = 14,25 0,9211 13,126 13,13
n N 1 16 100 1 4 99
En este ejemplo, el error estándar de la media se estima sobre la base de la desviación estándar
de la muestra, el uso del factor de corrección finito es necesario porque 16 > 5.
El error estándar de la media proporciona la base principal para la inferencia estadística respecto
de una media de población desconocida, como se observará en esta unidad. Un teorema en
estadística que conduce al uso del error estándar de la media es él:
Teorema del limite central: A medida que se aumenta el tamaño de la muestra, la distribución de
muestreo de la media se acerca en su forma a la distribución normal, cualquiera fuese la forma de
distribución de la población. Para efectos prácticos se puede suponer que la distribución de
muestreo de la media es aproximadamente normal cuando el tamaño de la muestra es n 30.
De esta manera, dada una muestra "grande" de n 30 siempre puede emplear la distribución
normal en conjunto con el error estándar de la media. Además, si la población se distribuye
normalmente y se conoce, la distribución normal puede utilizarse en inferencia estadística
también con muestras pequeñas. El requisito de que sea conocido se explica en la siguiente
tabla:
TABLA RESUMEN PARA ESTIMACIÓN DEL INTERVALO DE LA MEDIA DE LA
POBLACIÓN
SITUACION SITUACION DE LA DESVIACIÓN
DE LA TAMAÑO MUESTRA ESTANDAR DE LA POBLACION
POBLACIÓN CONOCIDA NO SE CONOCE
ESTA
NORMALMENTE
n 30 χ ± Ζ δx χ ± Ζ sx *
DISTRIBUIDA n < 30 χ ± Ζ δx χ ± t gl s x **
NO ESTA
NORMALMENTE
n 30 χ ± Ζ δx * χ ± Ζ s x ***
DISTRIBUIDA n < 30 χ ± k δx χ ± k s x ****
* Se utiliza el teorema de límite central
** Se utiliza Z como una aproximación de t.
*** Se utiliza el teorema de límite central y Z como una aproximación de t.
**** Algunos estadísticos consideran este intervalo no confiable debido a la fluctuación en el valor
de
s x
para muestras pequeñas.
Los intervalos de confianza para la media están construidos típicamente con el estimador no
sesgado x en el centro del intervalo. Cuando el uso de la distribución de probabilidad normalmente
admisible, el intervalo de confianza para la media se determina por:
μ = χ ± Ζ δx ó μ = χ ± Ζ sx
Los intervalos de confianza utilizados con mayor frecuencia son los intervalos del 90; 95 y 99%.
Los valores de z requeridos en conjunto con tales intervalos se presentan en la siguiente tabla:
PORCIONES DE ÁREA SELECCIONADAS BAJO LA CURVA NORMAL
Intervalos de Nivel de significación VALOR DE Z
confianza UN EXTREMO DOS EXTREMOS
90% 10% + 1,28 ó –1,28 1,65
Ejemplo 4: Durante una semana determinada, una muestra aleatoria de treinta empleados
contratados por hora, seleccionados entre un gran número de empleados de una fábrica, tiene un
salario medio de 180 $, con una desviación estándar de 14 $. Estima el salario medio para todos
los empleados contratados por hora en la firma con un intervalo que podamos tener una confianza
del 95% en que el intervalo incluya el valor de la media de la población, de la siguiente manera:
De esta manera, podemos afirmar que el nivel medio de salarios para todos los empleados está
entre 174,98 y 185,02 con un grado de confianza de un 95% en esta estimación.
4. INTERVALOS DE CONFIANZA DE UN LADO PARA LA MEDIA DE LA POBLACIÓN
Un intervalo de confianza de un lado puede, ocasionalmente, ser de mayor interés que el de dos
lados. Si solo estamos interesados en le mayor o en el menor valor de la media de la población.
Un “intervalo superior del 95%” se extiende desde un límite inferior calculado hasta el infinito
positivo, con una porción del 0,05 del área bajo la curva normal a la izquierda del límite inferior. Un
“intervalo de confianza inferior del 95%“se extiende desde el infinito negativo hasta un límite
superior calculado, con una porción del 0,05 del área bajo la curva normal a la derecha del límite
superior.
Ejemplo 5: Supongamos que un presunto comprador de un almacén de juguetes en el aeropuerto
observa una muestra aleatoria de 64 ventas y comprueba que la media de la muestra es 4,63 $ con
una desviación estándar de 1,20 $. Determine: a) El intervalo de confianza del 95% para el valor
mínimo de la media de las ventas totales, b) El valor máximo de la cantidad media de todas las
ventas que se identifique con una confianza del 99%.
a) IC = 95% = Z = +1,65
s 1,20 1,20
sx
n
=
64
8
0,15 μ = X - Z Sx = 4,63 – (1,65) (0,15) = 4,38 ó más
La distribución normal como una aproximación de la binomial para construir intervalos de confianza
para proporciones. Tal aproximación es apropiada cuando n>30 y tanto n.p > 5 como n(1-p) > 5 ó
n.q > 5.
La varianza de la distribución de proporciones sirve como base para el error estándar. Dada una
proporción de muestra observada, p, el error estándar estimada de la proporción es:
P (1 P )
SP
n
La proporción de población no se conocería puesto que es el valor que se está estimando. Si la
población es finita entonces el uso del FACTOR DE CORRECCIÓN FINITO es apropiado. Como
en el caso del error estándar de la media, el uso de esta corrección generalmente se considera
necesario si n > 0,05 N. La fórmula para el error estándar de la proporción que incluye el factor de
corrección finito es:
P (1 P ) N n
SP
n N 1
Finalmente, el intervalo de confianza para una proporción de población es:
P Z SP
Además del intervalo de confianza de dos lados, también se puede construir un intervalo de
confianza de un lado para la proporción de población.
Ejemplo 6: Una firma de investigación de mercados hace contactos con una muestra aleatoria de
100 hombres de una gran comunidad y comprueba que una proporción de la muestra del 40%
prefiere las cuchillas de afeitar fabricadas por la firma de su cliente a todas las otras marcas. El
intervalo de confianza del 95% para la proporción de todos los hombres de la comunidad que
prefieren las cuchillas de afeitar de la firma del cliente se determina de la siguiente manera:
comunidad que prefieren las cuchillas de afeitar del cliente está entre 30% y el 50%.
incluye una variable en el denominador que es algo diferente para cada media de la
s
x
como resultado valores que no están distribuidos como valores Z. En cambio, los valores se
distribuyen de acuerdo a la distribución t de Student que, comparada con la distribución normal es
platicúrtica (plana). Las proporciones de área bajo las distribuciones específicas basada en los
grados de libertad (gl) incluidos. Para el caso de una sola muestra, gl = n - 1.
Una distribución t es adecuada para las inferencias relacionadas con la media cuando no se
conoce y la población está normalmente distribuida, cualquiera fuera el tamaño de la muestra. Sin
embargo, a medida que se aumenta el tamaño de la muestra (y el gl), la distribución t se acerca en
su forma a la distribución normal. Una regla empírica es que una distribución t puede ser
aproximada por la distribución normal cuando n 30 o (gl > 29) para una sola muestra. Esta
sustitución es un asunto diferente del cubierto por el teorema del límite central, y el hecho de que
requiera en ambos casos una muestra de n 30 es una coincidencia.
con una desviación estándar de 200 horas. Se supone que la vida de operación de los focos en
general está normalmente distribuida. Calculamos la vida media de operación para la población de
focos de donde se tomó esta muestra utilizando un intervalo de confianza del 95 %, de la siguiente
manera.
La vida media de operación de todos los focos se encuentra entre 3856,8 a 4143,2 horas con una
confianza del 95%.
P k x 12
k
Esta fórmula es conocida generalmente como desigualdad de chebyshev. Obsérvese que se
reemplazar por
s x
, pero algún riesgo debido a la fluctuación de este valor en muestras
μ = χ ± k δx ó μ = χ ± k sx
n 1 s 2 n 1 s 2
2
2
x gl , inf erior x gl , sup erior
El intervalo de confianza para la varianza de la población es:
2 2
( n 1) S (n 1) S
2
2
X gl , inf erior X gl , sup erior
La tabla del apéndice 7 indica las porciones de área bajo las distribuciones JI-CUADRADO de
acuerdo con los valores de los grados de libertad,(gl). En la fórmula anterior, los subíndices
"superior" e "inferior" identifican los puntos de percentíles en la particular distribución X2 que se
utilizarán para construir el intervalo de confianza. Por ejemplo, para un intervalo de confianza del
90%, el "superior" es X20,95 y el "inferior" es X20,05. Excluyendo el 5% inferior y el 5% superior de la
distribución JI-CUADRADO, lo que permanece es el 90% "medio".
A medida que aumentan los grados de libertad, la distribución JI-CUADRADO se aproxima a la
aproximación como aceptable cuando gl 30 (en el tipo de aplicación actual, cuando n 31).
Obsérvese, sin embargo, que el uso de la distribución JI-CUADRADO o la aproximación normal de
esta para estimar una varianza se basa en la suposición necesaria de que la población que se
muestre está normalmente distribuida.
Ejemplo 5: Para un producto particular, las ventas media en dólares por distribuidor, en una
muestra de 10 almacenes fueron el año pasado de $ 3.425, con una desviación estándar de $ 200.
Se supone que las cantidades de ventas por distribuidor están normalmente distribuidos. Calcule:
a) La varianza, b) La desviación estándar de las ventas de este producto en todos los almacenes
durante el año pasado, utilizando un intervalo de confianza del 90%.
gl=10 – 1 = 9
2 2
(n 1) S (n 1) S
2
a) VARIANZA 2 2
x gl ; inf erior x gl ; sup erior
2 2
(10 1) (200) (10 1) (200)
2
2 2
x 0 , 05 x 0 , 95
16,92 3,33
360.000 360.000
2
16,92 3,33
2
21.276,6 108.108,11
n 1 s 2 n 1 s 2
b) DESVIACION ESTANDAR 2
2
x gl , inf erior x gl , sup erior
2
2
x 9; 0 , 05 x 9; 0 , 95
145,9 328,8
Se puede solicitar como una alternativa a un intervalo de confianza de dos lados, como también se
puede construir un intervalo de confianza de un lado para la confianza o la desviación estándar.
Más interesa el intervalo de confianza "superior" o de acuerdo a lo que se solicite.
9. DETERMINACIÓN DEL TAMAÑO NECESARIO DE LA MUESTRA PARA ESTIMAR LA
MEDIA:
Supongamos que se conocen el tamaño deseado de un intervalo de confianza y el grado de
confianza asociado con éste. Si se conoce se puede calcular de alguna manera, por ejemplo, a
través de los resultados de estudios semejantes, el tamaño requerido de la muestra basada en el
uso de la distribución normal es:
2
n
E
En la formula anterior Z es el valor utilizado para el grado de confianza especificado, es la
desviación estándar de la población (o su estimación), y E es el factor de error "más y menos"
permitiendo en el intervalo (siempre la mitad del total de intervalo de confianza). Al resolver el
tamaño de la muestra siempre se redondean los resultados fraccionarios. Además, a menos que
se conozca y que la población esté normalmente distribuida, cualquier tamaño de muestra
calculado inferior a 30 debe aumentarse a 30 porque la fórmula anterior se basa en el uso de la
distribución normal.
Ejemplo 9: Un analista del departamento de personal quiere estimar el número medio de las horas
de entrenamiento anuales para los capataces de una división de la compañía con un factor de error
(más o menos) de 3,0 horas y con un 90 % de confiabilidad. Basado en la información de otras
divisiones, calcula la desviación estándar de la población en horas de capacitación en 20 horas. El
tamaño mínimo requerido de la muestra es:
2 2 2
(1,65)( 20) 33
n = = = (11)2 = 121
E 3 3
La necesidad de calcular la diferencia entre dos medias de población, tal como la diferencia entre
El uso de la distribución normal se basa en las mismas condiciones que para la distribución de
muestreo de la media, excepto que se incluyan dos muestras. La fórmula empleada para estimar la
diferencia entre dos medias de población es:
1 2 X 1 X 2 Z x 1 x 2 ó 1 - 2 X 1 - X 2 Z S x 1 x 2
Cuando se conocen las desviaciones estándar de las poblaciones, el error estándar de la diferencia
entre las medias es:
x x x x
2 2
1 2 1 2
Cuando no se conocen las desviaciones estándar de las poblaciones, el error estándar estimado
de la diferencia entre las medias es:
S ( x 1 - x 2) = S 2 + S2
x1 x2
Ejemplo 1: Una muestra de 50 familias de la comunidad “A” tiene un ingreso familiar medio de
13.800$ con una desviación estándar de 2.200$. Una muestra aleatoria de 50 familias de la
comunidad “B” tiene un ingreso medio familiar de 14.600$ con una desviación estándar de 2.800$.
Calcule la diferencia en el ingreso promedio familiar de las dos comunidades empleando un
intervalo de confianza del 95%:
Para el IC = 95% la porción del área Z = 1,96
s 2.200 2.200
sx = = =
7,07
= 311,17
n 50
s 2.800 2.800
sx = = =
7,07
= 396,04
n 50
S ( x 1 - x 2 ) = S2x + S2x =
1 2
Para estimar la diferencia entre las proporciones de dos poblaciones, el estimativo puntual no
1 2
Ejemplo 2: Al tratar de medir la tendencia de los votantes respecto de una propuesta escolar, un
superintendente de colegios recoge muestras aleatorias de 100 de cada una de dos zonas
residenciales principales del distrito escolar. En la primera zona 70 de los 100 votantes consultados
indican que van a votar por la propuesta, mientras que en la segunda zona 50 de los 100 votantes
consultados responden afirmativamente. Calcule la diferencia entre las proporciones reales de
votantes de las dos zonas que intentan votar por la propuesta, utilizando límites de confianza del
95%.:
Para el 95% Z = 1,96
n1 = 100 n2 = 100
x 70 x 50
p1 1 0,70 p2 2
n2 100
0,50
n1 100
P 1 1 P 1 0,701 0,70 (0,70)(0,30) 0,21
S p1 = 0,046
n 100 100 100
1 2
0,00462 0,068
El uso de una distribución t es apropiado cuando la muestra es pequeña (n< 30). La población esta
normalmente distribuida y no se conoce. Donde gl = n1 + n2 -2 y el intervalo de confianza es:
( μ1- μ2) 1 = ( X 1 - X 2) ± t S( x 1 x 2)
Ejemplo 3: Para una muestra aleatoria de 10 focos, la vida media de un foco es 4000 horas con
una desviación estándar de 200 horas. Para otra marca de focos cuya vida útil de una muestra
aleatoria de 8 focos es de 4600 horas y una desviación estándar de 250 horas. Se supone que la
vida de los focos en ambas marcas esta normalmente distribuida. El intervalo de confianza del 90%
para estimar la diferencia entre la vida media de operación de las dos marcas de focos es:
gl = n1 + n2 2 = 10 + 8 2 = 16
t = 100% 90% 10% = 1,746
α= = = 5% = 0,05
2 2
S1 200 200
S x1 = = = = 63,30
n1 10 3,16
S2 250 250
Sx = = =
2,83
= 88,30
2 n2 8
S( x 1 x 2) = S x 1 + S x 2 =
2 2
( 63,30) 2 + ( 88,30) 2 = 108,65 horas
Una diferencia entre medias se puede estimar por medio del uso de un intervalo de confianza de
un lado.
Ejemplo 4: Para un producto determinado, las ventas medias por vendedor minorista fueron el año
pasado, en una muestra de 10 almacenes, de $ 3.425 con una desviación estándar de 200$. Para
un segundo producto, las ventas medias fueron en una muestra de 12 almacenes de $ 3.250, con
una desviación estándar de $ 175. Se supone que las cantidades de ventas por vendedor están
normalmente distribuidas para los dos productos. Calcule: a) La diferencia mínima entre las ventas
medias de los dos productos, construyendo un intervalo de confianza del 90%, b) La diferencia
máxima entre los niveles medios de ventas del primer y segundo producto con un intervalo de
confianza de 95%.
gl = n 1 + n 2 2 = 10 + 12 2 = 20
a) t = = 1,325
α = 100% 90% = 10% = 0,10
s1 200 200
s x1 = = 63,25
n1 10 3,16
s2 175 175
sx 2 = 50,52
n2 12 3,46
S x1 - x 2 S x S x =
2
1
2
2
63,25 50,52
2 2
= 80,94
Por lo tanto, con un intervalo de confianza del 90% la diferencia mínima de la media de los dos
productos indica que el primer producto es mayor comparado con el segundo producto con 67,75 $
gl n1 n2 2 10 12 2 20
b) t = = 1,725
NS 100 % 95 % 5 % 0 , 05
1 - 2 X 1 - X 2 t S x 1 x 2 = 3.425 3.250 1,725 80,94 175 139,62 314,62
Por lo tanto, con un intervalo de confianza del 95% la diferencia máxima de la media entre los dos
productos indica que el primer producto es mayor comparado con el segundo producto con
314,62$
z 1
2
n 2
E
Donde: Z es el valor empleado para el intervalo de confianza especificado.
Es la estimación de la proporción de la población.
E es el factor de error "más y menos" permitido en el intervalo (siempre la mitad del total
del intervalo de confianza).
Si no es posible una estimación inicial de , entonces se debe emplear 0,50. Tal estimación es
"conservadora", ya que es el valor para el que sería necesario el mayor tamaño de la muestra. Con
tal suposición, la fórmula general para el tamaño de la muestra se simplifica de la siguiente
2
z
manera: n
2
E
Al despejar el tamaño de la muestra, siempre se redondea los resultados fraccionarios. Además,
cualquier tamaño calculado de la muestra inferior a 30 debe aumentarse a 30 porque las fórmulas
anteriores se basan en el uso de la distribución normal.
Ejemplo 6: Supóngase que antes de obtener la información se estimó que el intervalo de
confianza es el 95% y que deberá estar en un error de 0,05 y no hubo criterio anterior sobre el
valor probable de . El tamaño mínimo de la muestra que debe recolectarse es:
z
2 2 2
1 ,96 1,96
2 0,05 0,10 19,6 384,16 385
n = 2
2E
El tamaño mínimo que debe recolectarse de la muestra debe ser de 385.
Ejemplo 7: Un equipo de investigación médica está seguro sobre un suero que ha desarrollado
el cual curará cerca del 75% de los pacientes que sufren de ciertas enfermedades. ¿Qué tamaño
debe ser la muestra para que el equipo pueda estar seguro en un 99% que la muestra de los que
se curan esta dentro de más o menos en un error de 0,04 de todos los casos que el suero curará?
1
2
(2,58) 2 0,75(1 0,75)
n z 2 = =
(6,6564)(0,75)(0,25) 1,278075
0,0016
=
0,0016
2
E (0,04)
= 780,05 781
Para que este dentro de 0,04 y con una confianza del 99% se debe tomar una muestra de 781 personas.
Por lo general, se establece como hipótesis alternativa, la que trata de probar algo que significa un
cambio sobre lo que se encuentra preestablecido (por resultados anteriores al tes o por inercia) y
que está representado por la hipótesis nula. La hipótesis nula es siempre conservadora, frente a la
alternativa que propugna el cambio.
hipótesis nula (Ho) es el valor hipotético del parámetro que se compara con el resultado de la
muestra. Se rechaza solamente si no es probable que ocurra el resultado de la muestra dada la
corrección de la hipótesis. La hipótesis alternativa (H1) se acepta sólo si se rechaza la hipótesis
nula.
SEGUNDO PASO: ESPECIFICAR EL NIVEL DE SIGNIFICACIÓN QUE SE VA A UTILIZAR : El
nivel de significación es el estándar estadístico que se especifica para rechazar la hipótesis nula. Si
se especifica un nivel de significación del 5%, entonces se rechaza la hipótesis nula sólo si el
resultado de la muestra es tan diferente del valor hipotético que una diferencia de dicha cantidad o
mayor ocurriría por casualidad con una probabilidad de 0,05 o menos. Obsérvese que si se utiliza
el nivel de significación del 5%, hay una probabilidad de 0,05 de rechazar la hipótesis nula cuando
es verdadera. Esto se denomina error de tipo I. La probabilidad del error de tipo I, es siempre
igual al nivel de significación que se utiliza como el estándar para rechazar la hipótesis nula, se
designa con la minúscula griega α (alfa). Así pues, α también representa el nivel de significación.
Los niveles más comúnmente empleados en la prueba de hipótesis son los niveles del 5 y del 1%.
Un error de tipo II ocurre si se acepta la hipótesis nula cuando es falsa, en el subtítulo 3 se
explica la determinación de la probabilidad del error de tipo II. La tabla 1 resume los tipos de
decisiones y las posibles consecuencias de las decisiones que se hacen en las pruebas de
hipótesis.
TERCER PASO: SELECCIONAR LA ESTADÍSTICA DE PRUEBA : La estadística de prueba será
la estadística de la muestra (el estimador no sesgado del parámetro en prueba), o una versión
transformada de la estadística de la muestra. Por ejemplo, para probar un valor hipotético de la
media de la población, la media de una muestra aleatoria tomada de dicha población, podría servir
como estadística de la prueba. Sin embargo, si la distribución de muestreo de la media es normal,
entonces el valor de la media de la muestra se transforma típicamente en un valor de Z.
CUARTO PASO: ESTABLECER EL VALOR O LOS VALORES CRÍTICOS DE LA ESTADÍSTICA
DE PRUEBA: Habiendo especificado la hipótesis nula, el nivel de significación y la estadística de
prueba que se va a utilizar, puede establecer el valor o los valores críticos de la estadística de
prueba. Puede haber uno o dos valores críticos según se efectúe una prueba de una cola o de dos
colas (ver figura 1). En cualquier caso, un valor crítico identifica el valor de la estadística de prueba
requerido para rechazar la hipótesis nula.
QUINTO PASO: DETERMINAR EL VALOR DE LA ESTADÍSTICA DE PRUEBA : Por ejemplo, al
probar un valor hipotético de la media de la población se toma una muestra aleatoria y se
determina el valor de la media de la muestra. Si el valor crítico se estableció como un valor Z,
entonces la media de la muestra se convierte a un valor Z.
SEXTO PASO: TOMAR LA DECISIÓN : El valor observado de la estadística de la muestra se
compara con el valor o los valores críticos de la estadística de la muestra. Entonces, la hipótesis
nula se acepta o se rechaza. Si la hipótesis nula se rechaza, se acepta la hipótesis alternativa. A su
vez, esta decisión será aplicable a otras decisiones que deban tomar los gerentes de operaciones,
por ejemplo si se mantiene un patrón de operación, o cuál de las dos estrategias de mercadeo
debe emplearse.
2. PRUEBA DE UN VALOR HIPOTÉTICO DE LA MEDIA UTILIZANDO LA
DISTRIBUCIÓN NORMAL:
La distribución de probabilidad normal se puede utilizar para probar un valor hipotético de la media
de la población (1) cuando n ≥ 30, debido al teorema del límite central, o (2) cuando n< 30 pero
la población está normalmente distribuida y se conoce δ.
Si se utiliza una prueba de dos colas cuando estamos interesados en una desviación posible
en cualquier dirección del valor hipotético de la media. La fórmula para establecer los valores
críticos de la media de la muestra donde el valor hipotético de la media de la población µo, es el
punto de referencia y no la media de la muestra.
EJEMPLO 1: Un auditor quiere probar la suposición de que el valor medio de todas las cuentas
por cobrar, en una firma es 260 $. Se toma una muestra de 36 cuentas y se encuentra que la
media es 240$. Deseamos rechazar el valor supuesto de que es 260 $ sólo si se contradice
claramente con la media de la muestra y de esta manera, al valor hipotético debe dársele el
"Beneficio de la duda", pruebe esta hipótesis a un nivel de significación del 5%. Suponga que la
desviación estándar de todas las cuentas por cobrar es δ = 43 $.
3er. Paso: Estadística de prueba: x = 240 basado en una muestra de n = 36 y con δ =43
x 0 240 260
Z =
7,17
2,79
x
43 43
Donde: x 7,17
n 36 6
6to.Paso: Tomar la decisión: El valor de Z calculado está en la región de rechazo del extremo
izquierdo de la figura N º 1. De esta manera, se rechaza la hipótesis nula y se acepta la hipótesis
alternativa, la misma indica que µ ≠ 260, es decir, que la media de las cuentas por cobrar son
diferentes a 260 $.
Una prueba de una cola, es apropiada cuando estamos interesados en las posibles
desviaciones en una sola dirección desde el valor hipotético de la media. El auditor del ejemplo 1
puede no estar interesado en que el promedio verdadero de todas las cuentas por cobrar sea 260$,
sino en que pueda ser menor de 260$. De esta manera, si da el beneficio de la duda a la
afirmación de que la media verdadera es por lo menos de 260$ la hipótesis nula y la hipótesis
alternativa son:
Ho: µ ≥ 260 y H1: µ < 260
Solo hay una región de rechazo para una prueba de un extremo, y en el ejemplo anterior la prueba
de un extremo está siempre en la cola que representa el apoyo de la hipótesis alternativa. Así,
como para una prueba de dos extremos, el valor crítico puede determinarse para la media como tal
o en términos de un valor Z. Sin embargo, los valores críticos para pruebas de un extremo difieren
de los de las pruebas de dos extremos, porque la porción de área dada está toda en un extremo de
la distribución. La tabla de los valores de Z necesarios para pruebas de un extremo y dos
extremos, indicada en la unidad 2.
EJEMPLO 2: Suponga que el auditor plantea la hipótesis nula de que el valor medio de todas las
cuentas por cobrar es por lo menos de 260 $. Dado que la media de la muestra es 240 $ y la
desviación estándar de la población es 43$, probamos esta hipótesis a un nivel de significación del
5% por los dos siguientes procedimientos:
x 0 240 260
Z =
7,17
2,79
x
De esta manera, se rechaza la hipótesis nula. La figura No 2 describe gráficamente el valor crítico
para esta prueba de una cola en términos de Z.
Como se explico, la distribución normal se puede utilizar como una aproximación binomial cuando
n ≥ 30 y tanto n p > 5 como n(1 - p) ≥ 5. Con esta base se construyen los intervalos de confianza
para la proporción, donde también se presenta el error estándar de la proporción.
En la prueba de hipótesis, el valor del error estándar de la proporción empleando en conjunto con
la prueba de hipótesis es:
0 (1 0)
p
n
La fórmula para el error estándar de la proporción se debe incluir el factor de corrección finito
cuando n > 5% N
El procedimiento asociado con la prueba de un valor hipotético de la proporción de la población es
idéntico al descrito anteriormente, excepto que se prueba la proporción en lugar de la media. De
esta manera, la fórmula de la estadística Z para probar un valor hipotético de la proporción es:
p
Z
p
EJEMPLO 3: Se supone que más del 5% de las partes que se están produciendo en un proceso
de fabricación son defectuosos. Para una muestra de 100 partes, 10 son defectuosas. Pruebe la
hipótesis nula a un nivel del 5%.
10
Donde: p 0,10
100
El valor hipotético de Z está en la región de rechazo; por lo que se rechaza la suposición que el 5%
o menos son defectuosos y se acepta la hipótesis alterna la misma que afirma que mas del 5% son
defectuosos utilizando un nivel de significación del 5%.
Es adecuado utilizar las distribuciones de t cuando la muestra es pequeña (n< 30), la población
está normalmente distribuida y δ no se conoce. El uso de la t como estadística de prueba es
mediante la siguiente fórmula:
x 0
t=
Sx
EJEMPLO 4: Una máquina para enlatar conservas de pescado ha sido regulada para que el
contenido promedio de cada lata sea de 16 onzas, además se considera que el peso de las latas
están distribuidas normalmente. Usando un nivel de significación del 5%, ¿Diría usted que la
máquina ha sido adecuadamente regulada, si una muestra de 20 latas dio un peso medio de 16,05
onzas y una desviación estándar de 1,5 onzas?
Ho: µ = 16 H1: µ 16
n = 20; x 16,05 onzas S = 1,5 onzas
gl n 1 20 1 19
t (crítico) = 5% = 2,093
NS 2,5 % α 0,025
2
S 1,5 1,5
Sx 0,34 onzas
n 20 4,47
x 0 16,05 16
1,47
t (calculado) = =
0,34
Sx
NOTA.- El valor crítico debe dividirse entre dos cuando la hipótesis plantea una igualdad.
Por lo tanto, a un nivel de significación del 5%, se acepta la hipótesis nula ya que el valor de t
calculado esta en la región de aceptación, la misma que indica que la máquina ha sido regulada
correctamente pesando 16 onzas el contenido.
5. PRUEBA DE UN VALOR HIPOTÉTICO DE LA MEDIA USANDO LA DESIGUALDAD
DE CHEBYSHEV:
Es apropiado el uso de la desigualdad de CHEBYSHEV para probar un valor supuesto de la media
cuando la muestra es pequeña (n<30) y la población no esta normalmente distribuida. La
probabilidad máxima de que la media de la muestra esté situada a más de K unidades de error
estándar de la media de la población es:
1
P ( X - µ > k δ x ) < 2
K
Para utilizar esta desigualdad, simplemente determinamos la diferencia entre medias de la muestra
y la media hipotética en unidades de error estándar de la media (k), luego comparamos el valor
1
al nivel de significación designado. Por ejemplo el valor mínimo de k necesario para
2
K
1
rechazar la hipótesis nula es 4,47 y a un nivel de significación del 5% porque =
4,47 2
0,05. Cualquier prueba empleando la desigualdad de CHEBYSHEV debe ser una prueba de dos
colas, puesto que la distribución de la población no se supone simétrica.
EJEMPLO 5: Se formula la hipótesis de que el salario medio semanal de una firma determinada
es $ 200 y existen buenas razones para creer que la distribución de los montos de salarios
semanales no sigue una distribución normal. Para una muestra aleatoria de 10 empleados
contratados, el salario medio es 180 $ con una desviación estándar de 14 $. Se debe rechazar o
aceptar la hipótesis nula si se emplea un nivel de significación del 5%?
Ho: µ = 200 y H1: µ 200
n = 10; x = 180 $; S = 14 $.; NS = 5%
S 14 14
Sx = 4,43
n 10 3,16
x 0 180 200
- 4,51
K = =
4,43
Sx
1
Para tomar la decisión se debe calcular la probabilidad P = y este valor comparar con el
2
K
nivel de significación. Si el valor de la probabilidad es menor que el nivel de significación (P <
NS) se rechaza la hipótesis nula y si es mayor (P > NS) se acepta la hipótesis nula.
1 1 1
P= 0,049
4,51 20,34
= 2
2
K
La probabilidad observada (P) es menor que el nivel de significación (NS) 0,05, por lo tanto la
hipótesis nula se rechaza y se acepta la hipótesis alternativa la misma que indica que la media de
los salarios de todos los trabajadores contratados por hora es diferente a $ 200.
6. PRUEBA DE UNA PROPORCIÓN HIPOTÉTICA UTILIZANDO LAS
DISTRIBUCIONES BINOMIALES:
TABLA N º 1
VALORES DE PROBABILIDAD ASOCIADOS CON MENOS CINCO DE DIEZ ESTUDIANTES QUE
HAN OBTENIDO EMPLEO
NÚMERO DE ESTUDIANTES PROBABILIDAD PROBABILIDAD ACUMULADA
0 0,0010 0,0010
1 0,0098 0,0108
2 0,0439 0,0547
3 0,1172 0,1719
4 0,2051 0,3770
5 0,2461 0.6231
n 1 S2
X2 =
2
EJEMPLO 7: La vida útil media de operación para una muestra de 10 focos es 4000 horas, con
una desviación estándar de 200 horas. Se supone que la vida útil de operación de los focos en
general, está normalmente distribuida. Suponga que, antes de recoger la muestra, se formula la
hipótesis nula de que la desviación estándar de la población no es mayor a 150 horas. Basado en
los resultados de la muestra, esta hipótesis se prueba al nivel de significación del 1% de la
siguiente manera:
0 0 > 22500
Ho: 2 ≤ 22500 (porque (150)2 = 22500) H 1: 2
X2 = = = 16
2 150 2
22500 22500
Por lo tanto, la hipótesis nula la misma que indica que δ 2 ≤ (150) 2 no se puede rechazar a un
nivel de significación del 1%.
Los errores de TIPO I y TIPO II se presentan totalmente con respecto a las pruebas de una cola
para una media hipotética. Sin embargo, los conceptos básicos ilustrados aquí también se aplican
a otros modelos de pruebas de hipótesis.
La probabilidad del error de tipo I , es siempre igual al nivel de significación (alfa) utilizado
al probar la hipótesis nula. Esto es porque por definición la porción de área en la región de rechazo
es igual a la proporción de los resultados de la muestra que ocurriría en aquella región si la
hipótesis nula es verdadera.
La probabilidad del error de tipo II, se designa generalmente con la letra griega β (beta). Se
puede determinar solamente respecto de un valor específico incluido en el rango de la hipótesis
alternativa.
EJEMPLO 8: Como en el ejemplo 2, la hipótesis nula que se va a probar que la media de todas
las cuentas por cobrar es por lo menos $ 260 y esta prueba se va a llevar a cabo a un nivel de
significación del 5%. Además, el auditor indica que consideraría una media real de 260 $.(o menos)
como una diferencia importante y material del valor hipotético de la media. Como antes, δ = 43 y
el tamaño de la muestra es n = 36 cuentas. La determinación de la probabilidad del error de tipo II
con una media alterna de $ 240 requiere:
b) Determinar el valor crítico, de la media de la muestra que se utilizará al probar la hipótesis nula a
un nivel de significación del 5%.
n = 36; 43 ; NS = 5% = = 0,05
43 43
Donde: x 7,17
n 36 6
c) Identificar la probabilidad del error de tipo I asociado con el uso del valor crítico calculado
anteriormente como base para la regla de decisión.
La probabilidad del ERROR DE TIPO I ES IGUAL A 0,05 (el nivel de significación utilizado para
probar la hipótesis nula).
d) Identificar la probabilidad del error de tipo II asociado con la regla de decisión, dado el valor
específico de la media alternativa de $ 240.
LA PROBABILIDAD DEL ERROR DE TIPO II es la probabilidad de que la media de la muestra
aleatoria igual o exceda a 248,17$ dado que la media de todas las cuentas es realmente 240 $.
Z=
xCR 1 248,17 240 +1,14
x 7,17
P(error de tipo II) = P(Z ≥ + 1,14) = 0.5000 - 0,3729 = 0,1271 0,13
Z = 1,14 = 0,3729 (valor encontrado en el apéndice 4)
La siguiente figura 4 ilustra el procedimiento seguido en el ejemplo 8. En general, el valor crítico de
la media determinado con respecto a la hipótesis nula se "reduce" y se utiliza como el valor crítico
respecto de la hipótesis alternativa específica.
Antes de recoger una muestra, el tamaño necesario de ésta se puede determinar especificando: a)
El valor hipotético de la media. b) Un valor alternativo específico de la media tal que la diferencia
del valor hipotético nulo sea considerable. c) El nivel de significación que se va a utilizar en la
n
Z 0 Z 1
2 2
1 0 2
Donde Zo es el valor crítico de Z utilizado en conjunto con el nivel de significación especificando
(nivel α) mientras que Z1, es el valor de Z respecto de la probabilidad designada del error de tipo
II (nivel β). El valor de δ debe conocerse o calcularse sobre alguna base general o histórica. La
fórmula anterior se puede utilizar para pruebas de una o dos colas. El único valor difiere es el valor
de Zo que se utiliza para los dos tipos de pruebas. Al resolver el tamaño mínimo de la muestra,
cualquier resultado fraccional se redondea siempre. Además, a menos que δ se conozca y la
población esté normalmente distribuida, cualquier tamaño calculado de la muestra menor que 30
se debe aumentar a 30 porque la formula anterior se basa en el uso de la distribución normal.
EJEMPLO 9: Un auditor desea probar la suposición de que el valor medio de todas las cuentas
por cobrar, es 260$. Considera que la diferencia sería significativa e importante si la media
verdadera está en la alternativa específica de por lo menos 240$. Los niveles aceptables del error
de tipo I (α) y del error de tipo II (β) son 0,05 y 0,10 respectivamente. Se sabe que la desviación
estándar de todas las cuentas por cobrar es 43$. El tamaño de la muestra que se debería recoger,
como mínimo, para llevar a cabo esta prueba es:
n
Z
0 Z1
2 2
1,96 1,28 43
2 2
48,53 = 49
1 0
=
2
240 260 2
Puesto que Zo y Z1, siempre tendrán signos algebraicos opuestos, los dos valores de Z siempre
acumulan en el numerador. Si el valor acumulado es negativo, el proceso de elevar al cuadrado da
como resultado un valor positivo.
EJEMPLO 10: Suponga que el auditor en el ejemplo 9 está preocupado por una discrepancia en
cualquier dirección del valor nulo hipotético de 260$ y que una discrepancia de 20 en cualquier
dirección se considera importante para la media hipotética valor tomado como media alterna. Dada
la otra información y las especificaciones del ejemplo 9, el tamaño mínimo de la muestra que se
debe recoger es:
n
Z
0 Z1
2 2
1,96 1,28 43
2 2
48,53 49
1 0
=
2
240 260 2
n
Z 0 Z 1
2 2
1,28 (1,96 2 43 2
1 0
48,53 49
280 260 2
=
2
( x1 x2) ( 1 2) ( x1 x2) ( 1 2)
Z ó Z
x1 x2 S x1 x2
En las fórmulas anteriores podemos comenzar con cualquier diferencia supuesta (µ 1 - µ2) que se va
probar. Sin embargo, la hipótesis nula que se prueba usualmente es que las dos muestras se han
obtenido de poblaciones con medias iguales. En este caso (µ 1 - µ2) = O, y las fórmulas anteriores
se simplifiquen así:
( ) ( )
Z X1 X 2 ó Z X1 X 2
x1 x2 S x1 x2
Al probar la diferencia entre dos medias en el error estándar, la hipótesis nula de interés es
generalmente no sólo que las medias iguales, sino que las dos muestras se obtuvieron de hecho
de la misma población de valores. Esto significa que δ1 = δ2, lo que simplemente podemos
designar como δ. La supuesta varianza común se estima generalmente combinando las dos
ˆ
2
varianzas de la muestra, y el valor estimado de se utiliza entonces como la base para el error
2
(n1 1) S12 (n2 1) S 22
ˆ
n1 n2 2
El error estándar estimado de la diferencia, basado en la suposición de que las desviaciones
estándar de la población son iguales, es:
ˆ ˆ
2 2
x
1
x2 n n 1 2
x1 = 180 x2 = 170
S1 = 14 S2 = 10
Z crítico (α = 0,01) = ± 1,96
( )
Z X1 X 2 =
(180 170)
+3, 32
S x1 x2
3,01
S1 14 14 S 2 10 10
Donde: S
x1
= 2,56 S x2 1,58
n1 30 5,477 n2 40 6,325
Sx x
1 2
S2 S2 =
x1 x2 2,56 2 1,58 2 6,5536 2,4964 = 3,01
EJEMPLO 2: Antes de ver los resultados de la muestra del ejemplo 1, un analista creía que el
salario medio de la primera firma era mayor que el de la segunda. Para someter su afirmación a
una prueba crítica, el analista da el beneficio de la duda a la posibilidad opuesta y formula la
hipótesis nula de que el salario promedio en la primera firma es igual o menor que el promedio de
la segunda firma. Probamos esta hipótesis a un nivel de significación del 1%, sin suponer que las
desviaciones estándar de las dos firmas son iguales, de esta manera:
Ho: µ1 ≤ µ2 H1: µ1 > µ2
n1 = 30 n2 = 40
x1 = 180 x2 = 170
S1 = 14 S2 = 10
Z crítico (α = 0,01) = + 2,33 (valor para una sola cola o extremo)
De esta manera, la hipótesis nula se rechaza y se acepta la hipótesis alternativa la misma que
indica del promedio salarial en la primera firma es mayor que el promedio de la segunda firma.
2. PRUEBA HIPOTETICA DE LA DIFERENCIA ENTRE DOS PROPORCIONES:
Cuando queremos probar la hipótesis de que las proporciones en dos poblaciones no son
diferentes, las proporciones de las muestras se combinan como una base para determinar el error
estándar de las diferencias entre las proporciones. La estimación combinada de la proporción de la
población, basada en las proporciones obtenidas en dos muestras independientes es:
n1 p1 n 2 p 2
ˆ
n1 n 2
El error estándar de la diferencia entre las proporciones utilizadas en conjunto con la prueba de la
suposición de no diferencia es:
ˆ 1 ˆ ˆ 1 ˆ
p1 p 2
n1 n2
La fórmula de la estadística Z para probar la diferencia entre dos proporciones es:
p1 p 2
Z
p1 p 2
Una prueba de la diferencia entre proporciones se puede llevar a cabo bien sea como una prueba
de una extremo o una prueba de dos extremos.
EJEMPLO 3: Una muestra de 50 familias en una comunidad indica que 10 de ellas están viendo
un programa especial de televisión sobre la economía nacional. En una segunda comunidad 15
familias de una muestra aleatoria de 50 están viendo el mismo programa. Probamos la hipótesis de
que la proporción total de televidentes en las dos comunidades no difiere utilizando un nivel de
significación del 1%, de la siguiente manera:
H0: 1 2 H1: 1 2
U.A.G.R.M. “FACULTAD INTEGRAL DEL CHACO”
ESTADISTICA II (MAT-260) 39
_____ DOCENTE: Lic. Antonio Cabrera Sensano
De esta manera, este valor Z está en la región de aceptación de la hipótesis nula, por lo tanto se
acepta, la misma que indica que no hay diferencia en la proporción de televidentes en las dos
comunidades que ven el programa especial sobre economía nacional, con un nivel de significación
del 1%.
3. PRUEBA DE LA DIFERENCIA ENTRE DOS MEDIAS UTILIZANDO LAS
DISTRIBUCIONES t DE ESTUDENT:
Al probar la diferencia entre dos medias empleando las distribuciones t, es necesario suponer que
las varianzas de las dos poblaciones son iguales.
EJEMPLO 4: Diez barras de acero fabricadas por un proceso A tienen una fuerza de ruptura
media de 50 con una desviación estándar de 10, mientras que 8 fabricadas por un proceso B
tienen una fuerza de ruptura media de 55 con una desviación estándar de 12. Suponga la
población de fuerza de ruptura normal con una misma desviación estándar. Pruebe la hipótesis a
un nivel del 1% que los dos procesos producen acero de la misma fuerza.
Ho: µ1 = µ2 H1: µ1 ≠ µ2
n1 = 10 n2 = 8
x1 = 50 x2 = 55
S1 = 10 S2 = 12
gl n1 n2 2 10 8 2 16
t (crítico) NS 1% 0,01 2,921
2 2 2 2 0,005
(n1 1) S12 (n2 1) S 22
2 (10 1) 10 2 (8 1) 12 2
ˆ = 119,25
n1 n2 2 10 8 2
n1 n2
( X 1 X 2)
t =
(50 55 )
-0,96
S x 1 x 5,2
2
Por lo tanto, el valor de t calculado está en la región de aceptación de la hipótesis nula, la misma
que indica que el proceso “A” produce acero de la misma resistencia del proceso “B” y ésta no
puede ser rechazada a un nivel de significación del 1%.
4. PRUEBA DE LA DIFERENCIA ENTRE DOS MEDIAS BASADAS EN
OBSERVACIONES PAREADAS:
Cuando las muestras se toman como pares de valores, como en el caso de la determinación del
nivel de productividad de cada empleado antes y después de un programa de capacitación. Esto se
conoce como observaciones pareadas o pares pareadas. Asimismo, a dos muestras con
observaciones pareadas se denominan muestras dependientes.
En las observaciones pareadas, la prueba apropiada para la diferencia entre las medias de las dos
muestras es primero determinar la diferencia d. entre cada par de valores y luego probar la
hipótesis nula de que la diferencia promedio en la población es cero. De esta manera, desde el
punto de vista de cálculo la prueba se aplica a una muestra de valores d. La media y la desviación
estándar de los valores d. de la muestra se obtienen usando las fórmulas básicas, excepto que d
reemplaza a x. La diferencia media para un conjunto de observaciones pareadas es:
d
d
n
La fórmula de desviaciones y la fórmula del cálculo para la desviación estándar de las diferencias
entre observaciones pareadas son, respectivamente:
d d
2
d2 nd2
Sd ó Sd
n 1 n 1
El error estándar de la diferencia media entre observaciones pareadas se obtiene por la fórmula:
Sd
Sd
n
Generalmente se supone que los valores de d están normalmente distribuidos, las distribuciones t
Los grados de libertad son la cantidad de pares de valores observados menos uno ó n = 1. En las
pruebas de observaciones pareadas pueden ser de una o dos colas. La estadística de prueba
utilizada para probar la hipótesis de que no hay diferencia, entre las medias de un conjunto de
observación pareadas es:
d
t
Sd
EJEMPLO 4: Un fabricante de automóviles recoge información sobre el consumo de gasolina,
para una muestra de 10 automóviles de varias categorías de peso con el uso de una gasolina de
graduación estándar con o sin un aditivo especial. Por supuesto, los motores fueron ajustados a las
mismas especificaciones antes de cada prueba y los mismos conductores fueron empleados para
las dos condiciones de la gasolina (sin que el conductor conociera qué gasolina se estaba
utilizando). Dados los datos de la tabla siguiente probamos la hipótesis de que no hay diferencia
entre el kilometraje obtenido con y sin el aditivo, utilizando un nivel de significación del 5% de la
siguiente manera:
TABLA N º 1
KILOMETRAJE Y HOJA DE TRABAJO PARA CALCULAR LA DIFERENCIA
MEDIA Y DESVIACIÓN ESTÁNDAR DE LA DIFERENCIA
Automóviles Kilometraje con Kilometraje sin d d2
aditivo aditivo
1 26,7 26,2 0,5 0,25
2 25,8 25,7 0,1 0,01
3 21,9 22,3 -0,4 0,16
4 19,3 19,6 -0,3 0,09
5 18,4 18,1 0,3 0,09
6 15,7 15,8 -0,1 0,01
7 14,2 13,9 0,3 0,09
8 12,6 12,0 0,6 0,36
9 11,9 11,5 0,4 0,16
gl n 1 10 1 9
t crítico = NS 0,05 = ± 2,262
2 2 0 ,025
2
d 1,7 d2 nd2 1,31 (10) 0,17 2
d =
n 10
0,17 ; Sd = 01134 =
n 1 10 1
0,337
Sd 0,337 0.337
Sd =
10
3,16
= 0,107
n
d 0,17
t =
0,107
= + 1,59
Sd
El valor calculado de t está en la región de aceptación de la hipótesis nula, por lo tanto, se acepta
la misma que indica que no hay diferencia en la cantidad de kilómetro por galón utilizado con la
gasolina con el aditivo al compararla con la gasolina sin el aditivo.
5. LAS DISTRIBUCIONES F Y LA PRUEBA DE LA DIFERENCIA ENTRE DOS
VARIANZAS:
Se puede demostrar que las distribuciones F son las distribuciones de probabilidad apropiadas
para la relación de las varianzas de dos muestras tomadas independientemente de la misma
población normalmente distribuida, habiendo una distribución F diferente para combinación de los
gastos de libertad gl asociados con cada muestra. Para cada muestra gl = n - 1. De esta manera, la
estadística que se utiliza para probar la hipótesis nula de que no hay diferencia entre dos varianzas
2
es: F S1
gl1,gl2 2
S2
Puesto que cada varianza de la muestra es un estimador no sesgado de la varianza de la
población, el valor esperado a largo plazo de la relación anterior, es aproximadamente 1 sino
gl 2
. Una suposición matemática necesaria es que las dos poblaciones estén normalmente
gl 2 2
distribuidas, se ha demostrado que la prueba F es relativamente insensible a las desviaciones de la
normalidad cuando cada población es por lo menos unimodal y los tamaños de la muestra son
aproximadamente iguales. La siguiente fórmula se utiliza para calcular el valor de la distribución F
con pruebas de una cola y proporcional solamente valores F de la cola superior y los valores de la
cola inferior se puede calcular por la llamada propiedad recíproca de la distribución F, así:
1
Fgl1, gl2 (Inferior) =
F gl2 , gl1(Superior)
EJEMPLO 5: En el caribe se desarrollan dos huracanes al mismo tiempo FEFITA Y GLORIA. Se
toma muestras en varios instantes de las velocidades del viento. De FEFITA, se toman 10 y se
obtiene una desviación estándar de 25,3 km. por hora y en las 13 de GLORIA es de 33,7 km. por
hora. ¿Puede decirse que las varianzas en las velocidades son iguales? Use un nivel de
significación de 10%.
Ho: δ21 = δ22 H1: δ21 = δ22
S1 = 25, 3 Km/hora S2 = 33, 7 km/hora
S 1 = 640, 09 km/hora S22 = 1.135,69 Km/hora
2
n1 = 10 n2 = 13
gl1 = 10 - 1 = 9 gl2 = 13 - 1 = 12
F9; 12 crítico (superior 5%) = 2,80
1 1
F9; 12 crítico (5% inferior)= 0,27
F 12 ; 9 ( Superior )
3,07
2
S 1 640,09
F gl 1, gl 2 2 = 1.135,69 0,56
S2
Puesto que la relación F calculada no es menor que 0,357 ni mayor que 3,07 esto indica que el
valor está en la región de aceptación de la hipótesis nula. La suposición de que las varianzas
de las dos poblaciones son iguales no se puede rechazar a un nivel de significación del 10%.
alternativo específico de la proporción tal que su diferencia con el valor hipotético nulo se considera
importante, 3) El nivel de significación que se va a utilizar en la prueba y 4) La probabilidad del
error de tipo II que se permitirá. La fórmula para determinar el tamaño mínimo necesario de la
muestra para probar un valor hipotético de la proporción es:
Z 0 0 1 0 Z 1 11 1
2
n
1 0
Donde Zo es el valor crítico de Z utilizando en conjunto con el nivel de significación
especificado ( nivel α ) mientras que Z1 es el valor de Z con respecto a la probabilidad designada
del error de tipo II (nivel β). Zo y Z1 siempre tienen signos algebraicos opuestos. El tamaño de la
muestra debe ser lo suficientemente grande para garantizar el uso de la distribución normal en
Z 0 0 1 0 Z 1 11 1
2
n =
1 0
2
1,65 0,601 0,60 1,65 0,501 0,50
=
0,50 0,60
2
1,65 0,60 x 0,40 1,65 0,50 x 0,50
(+
0,10
16,33)2 = 266,67 267
EJEMPLO 1: Se afirma que igual número de hombres y mujeres son clientes de un tienda de
venta al por menor de pantalones. Se observa una muestra de 80 clientes, y de estos 50 son
hombres y 30 son mujeres. Pruebe la hipótesis nula a un nivel de significación del 5%.
TABLA N º 1
NUMERO DE CLIENTES DE UNA TIENDA DE VENTA DE PANTALONES AL
POR MENOR DE ACUERDO AL SEXO
CLIENTES
HOMBRES MUJERES TOTAL
Cantidad en la muestra (f0) 50 30 80
Cantidad esperada (fe) 40 40 80
Para la hipótesis nula que debe aceptarse, las diferencias entre las frecuencias observadas y
esperadas pueden ser atribuidas a la variabilidad del muestreo al nivel designado de significación.
De esta manera la estadística de prueba de ji-cuadrado, se basa en la magnitud de esta diferencia
para cada categoría de la distribución de frecuencia. El valor ji-cuadrado para comprobar la
f o - f e 2
diferencia entre un modelo de frecuencia obtenido y esperado es:
X2
fe
EJEMPLO 2: El cálculo de la estadística de prueba de JI-CUADRADO para el patrón de
frecuencias observadas y esperadas de la Tabla N º 1 es el siguiente:
f o - f e 2 50 40 2 30 40 2
X2 =
40
40
5
fe
El valor necesario de la estadística de prueba de ji-cuadrado para rechazar la hipótesis nula,
depende del nivel de significación especificado y de los grados de libertad. En las pruebas de
bondad de ajuste:
gl = K - m - 1
2
fofe 55 40 2 35 40 2 10 20 2
X
2 =
40 40 20
fe
11,25
Por lo tanto, la hipótesis nula es rechazada a un nivel de significación del 1%, Comparando las
frecuencias obtenidas y esperadas de la tabla N º 2 encontramos que el cambio principal implica
que se han vendido más televisores pequeños o menos televisores grandes, ocurriendo
probablemente una cierta reducción en los aparatos de tamaño mediano.
categorías adyacentes, cuando sea posible, para satisfacer este requisito. El número reducido de
categorías pasa a ser la base para determinar los grados de libertad gl aplicables a esta situación.
Se ha demostrado que cuando hay sólo un grado de libertad relacionado con la prueba de ji-
cuadrado, a menos que la muestra sea bastante grande, el x2 calculado sé sobrevalúa
sistemáticamente debido al carácter discreto de los datos. El estadístico Yates demostró que la
fórmula siguiente para ji-cuadrado, la que incluye una corrección de continuidad, es apropiada
cuando gl = 1. Como regla empírica, el factor de corrección tiene poco efecto y puede omitirse
cuando n≥50. Además, no debe aplicarse a ninguna casilla para la cual la diferencia no debe
aplicarse a ninguna casilla para la cual la diferencia entre fo y fe sea menor de 0,05. La estadística
de x2 que incluye la corrección de continuidad y que es aplicable cuando gl = 1, es:
2 f 0 f e 0,5 2
fe
EJEMPLO 5: En general, 20% de los presuntos clientes visitados por el vendedor de una firma
hacen una compra. Durante el periodo de prueba, un nuevo vendedor hace 30 visitas a posibles
clientes y completa tres ventas. La prueba de la hipótesis nula de que este patrón de ventas no
difiere del patrón histórico, utilizando el nivel de significación del 5%.
Ho: El desempeño del nuevo vendedor se conforma al patrón histórico de una tasa de ventas del
20%.
H1: El desempeño del nuevo vendedor es diferente del patrón histórico.
TABLA N º 3
FRECUENCIAS OBSERVADAS Y ESPERADAS RESULTADO DE LA VISITA
RESULTADO DE LA VISITA
VENDIÓ NO VENDIÓ TOTAL
f0 3 27 30
fe 6 24 30
gl k m 1 2 0 1 1
x2 (crítico) = = 3,84
NS 5% 0,05
2 f 0 f e 0,5 2
=
fe
Si se rechaza la hipótesis nula de independencia para datos clasificados como los de la tabla
anterior, ello indica que las variables son dependientes y que existe una relación entre ellas. Por
ejemplo, para la tabla anterior esta indicaría que hay una relación entre la edad y el sexo de los
clientes de la tienda de equipos de sonido.
Dada la hipótesis de independencia de las dos variables, la frecuencia esperada relacionada con
cada casilla de una tabla de contingencia debería ser proporcional al total de frecuencias
observadas incluidas en la columna y en la fila en la que está ubicada la casilla, en relación con el
tamaño total de la muestra. Una fórmula conveniente para determinar la frecuencia esperada para
r k
fe n
La fórmula general para los grados de libertad relacionadas con una prueba de independencia, es:
gl = (r - 1)(k - 1)
EJEMPLO 7: Las frecuencias esperadas para los datos de la tabla anterior se presentan en la
tabla a continuación. Para la fila 1 columna 1 por ejemplo, el cálculo de la frecuencia esperada es:
r k 110 140 77
r k 110 60
fe n
=
200 fe n
=
200
= 33
r k 90140 63
r k 60 90
fe n
=
200 fe n
=
200
= 27
TABLA N º 5
TABLAS DE FRECUENCIAS ESPERADAS PARA LAS FRECUENCIAS OBSERVADAS QUE SE
MENCIONAN EN LA TABLA ANTERIOR
S E X O
EDAD Masculino Femenino
TOTAL
Menos de 30 años 77 33 110
30 y más años 63 27 90
Total 140 60 200
A continuación se presenta la prueba de la independencia de la hipótesis nula para los datos de la
tabla # 4 usando un nivel de significación del 1%.
Ho: El sexo y la edad de los clientes de la tienda de equipos de sonido son independientes.
H1: El sexo y la edad son variables dependientes (existe una relación entre las variables sexo y edad.
gl (r 1) (k 1) (2 1) (2 1) 1
x2 (crítico) = = 6,63
NS 1% 0,01
f o - f e 2
X2 =
fe
60 77 2
50 33 2
80 63 2
10 27 2 = 27,80
77 33 63 27
En este caso se omitió la corrección de continuidad, aunque gl = 1 porque n> 50. El valor calculado
con el factor de continuidad incluido es 26,19.
Por lo tanto, la hipótesis nula que la edad y el sexo de los clientes que ingresan a la tienda de
equipos de sonido son independiente se rechaza a un nivel de significación del 1%.
a) Prueba de una proporción hipotética: Dadas una proporción hipotética de población y una
proporción observada para una muestra aleatoria tomada de la población, utilizamos la distribución
de probabilidad normal como aproximación para el proceso binomial con el objeto de probar el
valor hipotético. Se puede demostrar matemáticamente que dicha prueba de dos colas
equivalentes a una prueba de la bondad de ajuste de ji-cuadrado que incluya la fila de frecuencias
obtenidas y esperadas independientemente de la dirección de las diferencias, no hay
procedimientos de prueba de ji-cuadrado que sea el equivalente de una prueba de una cola
respecto a una proporción de la población.
EJEMPLO 8: Un gerente de un departamento de personal estima que una proporción del 40% de
los empleados de una gran compañía participará en un nuevo programa de inversiones en
acciones. Se observa una muestra aleatoria de 50 empleados y 10 de ellos indican su intención de
participar. El valor hipotético de la población podría probarse utilizando la distribución de
probabilidad normal. A continuación se indica el uso de la prueba de ji-cuadrado para lograr el
mismo objetivo, empleando un nivel de significación del 5%.
TABLA N º 6
FRECUENCIAS OBSERVADAS Y ESPERADAS PARTICIPACIÓN EN EL PROGRAMA TOTAL
PARTICIPACIÓN EN EL PROGRAMA
SI NO TOTAL
Número observado en la muestra, fo 10 40 50
Número esperado en la muestra, fe 20 30 50
gl k m 1 2 0 1 1
x2 (crítico) = = 3,84
NS 5% 0,05
f o - f e 2 10 20 2 40 30 2
X2 =
20
30
= 8,33
fe
Por tanto, se rechaza la hipótesis nula al nivel de significación del 5% y concluimos que, en toda la
firma la proporción de participación del programa no es 0,40.
b) Prueba de la diferencia entre dos proporciones : Se puede demostrar matemáticamente
que una prueba de dos colas es equivalente a una prueba de tabla de contingencia de ji- cuadrado,
en la que las frecuencias observadas se han introducido en una tabla de 2 = 2. Nuevamente no hay
prueba de ji-cuadrado equivalente a una prueba de una cola.
EJEMPLO 9: En una determinada comunidad, 10 familias de una muestra de 50 veían un
programa especial de televisión sobre economía nacional y que 15 de 50 familias de otra
comunidad también lo veían. Se prueba la hipótesis a un nivel de significación del 1%. Utilizando la
prueba de ji-cuadrado.
TABLA N º 7
ALCANCE DE LA AUDIENCIA DE UN PROGRAMA DE TELEVISIÓN EN DOS COMUNIDADES
COMUNIDADES
COMUNIDAD 1 COMUNIDAD 2 T O T A L
Número de personas que ven el programa 10 15 25
Número de personas que no lo ven el programa 40 35 75
T O T A L 50 50 100
Ho: 1 2 H1: 1 2
gl (r 1) (k 1) (2 1) (2 1) 1
x2 (crítico) = = 6,63
NS 1% 0,01
r k 25 50 r k 75 50
fe n
=
100
= 12,5 fe n
=
100
= 37,50
f o - f e 2
X2 =
fe
10 12,5 2
15 12,5 2
40 37,5 2
35 37,5 2
12,5 12,5 37,5 37,5
= 1,34
Por lo tanto, la hipótesis nula no puede ser rechazada a un nivel de significación del 1% y llegamos
a la conclusión de que no difiere la proporción de personas que ven el programa en las dos
comunidades.
Prueba de las diferencias entre k proporciones. Dado el enfoque básico del ejemplo 10, puede
usarse de una muestra empleando un diseño tabular 2 x k para el análisis de las frecuencias. En
este caso, no hay un procedimiento matemáticamente equivalente basado en la distribución de
probabilidad normal. Aquí la hipótesis nula es que no existe diferencia en las diversas proporciones
de la población (o que las varias proporciones diferentes de la muestra podrían haberse obtenido
por azar, de la misma población).
El objetivo primordial del análisis de regresión es predecir el valor de una variable (la variable
dependiente) dado el valor de una variable asociada (la variable independiente). La ecuación de
regresión es la formula algebraica por la cual se determina el valor estimado de la variable
dependiente.
Él término análisis de regresión simple indica que la variable dependiente se predice sobre la base
de una variable independiente mientras que el análisis de regresión múltiple se relaciona con la
predicción de la variable dependiente sobre la base de dos o más variables independientes.
Los supuestos generales implícitos en el modelo de análisis de regresión presentando en esta
unidad son: 1) La variable dependiente es una variable aleatoria, 2) La variable independiente y
dependiente están asociadas linealmente, y 3) Las varianzas de las distribuciones condicionales
de la variable dependiente, dados valores diferentes de la variable independiente, son iguales. El
supuesto 1) indica aunque los valores de la variable independiente pueden ser designados, los
valores de la variable dependiente deben obtenerse por medio del proceso de muestreo.
Si se utiliza la estimación interna en conjunto con el análisis de regresión, un supuesto adicional es
que las distribuciones condicionales de la variables dependientes, dados valores diferentes de la
variable independiente, son distribuciones normales para la población de valores.
EJEMPLO 1: Un analista desea predecir el tiempo de entrega como la variable dependiente
basándose en la distancia como variable independiente para los repuestos industriales
transportados en camiones. Suponemos que el analista selecciona 10 pedidos recientes de los
registros de la compañía, de manera que las distancias por carretera que corresponde a ellos están
más o menos igualmente dispersa entre 100Km y 1000Km de distancia y registra el tiempo de
entrega para cada embarque. Como distancia por carretera se utilizara como la variable
independiente, su selección de viajes de distancias es aceptable. Por otra parte la variable
dependiente del tiempo de entrega es en este estudio una variable aleatoria que se ajusta al
supuesto implícito en el análisis de regresión. Si las dos variables se relacionan linealmente
construyendo un diagrama de dispersión
2. EL DIAGRAMA DE DISPERSION
Un diagrama de dispersión es una gráfica en la que cada punto trazado representa un par de
valores observados para la variable independiente y dependiente. El valor de la variable
independiente, X, se traza en relación con el eje horizontal y el valor de la variable dependiente, Y,
en relación con el eje vertical.
La forma de la relación representada por el diagrama de dispersión puede ser curvilínea en lugar
de lineal. Aunque el análisis de regresión para las relaciones curvilíneas excede el enfoque de
estos principios, se representa en forma sucinta un análisis de la tendencia curvilínea. Para las
relaciones que no son lineales un enfoque frecuente es determinar un método de transformación
de valores transformados sea lineal. El análisis de regresión lineal puede aplicarse así a los valores
transformados y los valores estimados de la variable dependiente pueden volver a transformarse a
la escala original de medidas.
EJEMPLO 2. Un ejemplo de la relación curvilínea sería la relación entre los años transcurridos
desde la constitución una compañía y el nivel de ventas, dado que cada año el nivel de ventas ha
aumentando en el mismo porcentaje sobre el año anterior. La curva resultante, con una pendiente
en aumento, sería indicativa de la llamada relación exponencial.
Si el diagrama de dispersión indica una relación que es generalmente lineal, entonces se coloca en
la información una línea recta de mejor ajuste, La situación precisa de esta línea se determina por
el método de los mínimos cuadrados. Como se ilustra en el ejemplo 3, una línea de regresión con
pendiente positiva indica una relación directa entre las variables, una pendiente negativa señala
una relación inversa entre las variables y una pendiente de cero significa que las variables no están
relacionadas. Además, la extensión de la dispersión de los puntos trazados respecto de la línea de
regresión, indica el grado de relación entre las dos variables.
EJEMPLO 3: La siguiente figura N º 1 incluye diversos diagramas de dispersión y las
correspondientes líneas de regresión que muestran varios tipos de relaciones entre las variables.
Y x a bX
Y, es el valor estimado de la variable dependiente, dado un valor específico de la variable
independiente X,
a es el punto de intersección de la lineal con el eje Y (en la que el punto X = 0),
b es la pendiente de la línea de regresión,
X es el valor específico de la variable independiente.
Según el criterio matemático utilizado, se puede desarrollar una cantidad de ecuaciones de
regresión lineal diferentes para un diagrama de dispersión dado. Por el criterio de los mínimos
cuadrados, la línea de regresión (y la ecuación) de mejor ajustes aquella para la cual se reduce al
mínimo la suma de las desviaciones cuadraturas entre los valores reales y estimados de la variable
dependiente para la información muestral. Las formulas de cálculos por las se pueden determinar
los valores de a y b de la ecuación de regresión lineal para la ecuación de regresión lineal para la
ecuación que satisface el criterio de los mínimos cuadrados son
b
xy n x y
x2 n x
2
Y X
a ; b ó a y - bx
n n
Una vez formulada la ecuación de regresión, esta se puede utilizar para estimar el valor de la
variable dependiente. Sin embargo, dicha estimación sólo se debe hacer dentro del rango de los
valores independientes muestreados originalmente, ya que no existe base estadística para suponer
que es adecuado emplear la línea de regresión fuera de estos limites. Obsérvese también que la
ecuación de regresión proporciona la base para determinar solo una estimación puntual y no un
intervalo completo de predicción.
S y, x n2
Para propósitos de calculo, es más conveniente una versión alternativa de la formula que no
línea de regresión.
y a y b xy
S y, x n2
El error estándar de la estimación se puede utilizar para establecer un intervalo de
predicción para la variable dependiente, dado un valor específico de la variable independiente. El
uso de S y, x con este propósito se basa en dos supuestos sobre la población: (1) que la
dispersión de la variable dependiente es igual en todos los puntos de la línea de regresión y (2) que
en cada punto los valores de la variable dependiente se dispersan normalmente con respecto a la
línea de regresión.
y x t S y , x
Cuando n 30, la distribución normal de probabilidad se puede usar como una aproximación de la
distribución t (algunos textos emplean la regla cuando gl 30). De esta manera, la formula para
construir un intervalo de predicción cuando el tamaño de la muestra es relativamente grande es:
y x Z S y , x
Se deben reconocer especialmente dos puntos respecto de las formulas anteriores. Primero, los
intervalos mencionados se denominan intervalos de predicción en lugar de intervalos de confianza,
porque este último término lo utilizan los estadísticos cuando sé esta estimando el valor de un
parámetro de población. En este contexto, sé esta estimando un valor individual de la variable
dependiente (dado X), en lugar del valor del parámetro. Segundo, el uso de las fórmulas
anteriores implica que la única incertidumbre asociada con la predicción del valor de la variable
dependiente es la dispersión respecto de la línea de regresión. Sin embargo, puesto que la propia
línea de regresión se basa en información muestral, la situación de la línea también es incierto. La
forma del intervalo de predicción que toma en consideración esta incertidumbre adicional se
presenta a continuación. No obstante, cuando el tamaño de la muestra n es relativamente grande,
el intervalo de predicción definido se considera como una aproximación satisfactoria del intervalo
completo de predicción descrito en la siguiente sección.
5. INFERENCIA RESPECTO DE LOS PARAMETROS DE LA LINEA DE REGRESION
Se tres temas distintos pero relacionados: 1) el intervalo de confianza para la media condicional de
la variable dependiente Y, dado un valor específico de X., 2) la predicción del valor individual de Y,
dado X y considerando la incertidumbre en la ubicación del valor medio de la línea de regresión y
3) la estimación del intervalo y el contraste de hipótesis respecto a la pendiente de la línea
verdadera de regresión.
por S y x
, la formula básica es:
S y, x
S y, x
x x 2
S y x
= n
x
2
x
2
n
El primer término la fórmula anterior es la análoga a la fórmula usual para el error estándar de la
media. El segundo término es peculiar de una situación que incluye análisis de regresión, e indica
que el error estándar de la media condicional de Y aumenta a medida el valor dado de X se aleja
de X. Para mayor conveniencia en los cálculos, se usa con frecuencia una formula alternativa para
determinar el error estándar de la medida condicional:
S y, x
1
x x 2
S y = n 2
x 2
x
x
n
Dada la estimación puntual y el error estándar de la medida condicional, el intervalo de confianza
para la medida condicional es:
Y x t S y x
' S
y x Z y, x
n
Cuando la muestra es pequeña, entonces debe considerarse la ubicación incierta del valor medio
'
de la línea de regresión yx al construir intervalos de predicción o de confianza. Para diferenciar
S y , x S y
2 2
S y siguiente =
x
S y, x
1
1
x x 2
S y siguiente, = n 2
x
x
2
n
El intervalo de predicción para el valor individual de la variable dependiente, dado un valor
específico de la variable independiente X es:
y x t S y , siguiente
'
El área final de atención en esta unidad es la estimación del intervalo y la prueba de hipótesis
respecto a la pendiente verdadera de la línea de regresión. El error estándar de b basado en la
información muestral es:
S y, x
Sb
x nx
2 2
b t Sb
Un valor hipotético de se prueba calculando la estadística de t asociada con el valor muestral
observado de b, de la siguiente manera:
bo
t
Sb
La hipótesis nula probada mas frecuente es que = 0, porque tal valor indicaría la ausencia de una
relación entre las variables independiente y dependiente.
6. OBJETIVOS Y SUPUESTO DEL ANALISIS DE CORRELACION
En oposición el análisis de regresión, el análisis de correlación mide el grado de relación entre las
variables. Como fue válido cubrimos el análisis de correlación simple que se relaciona con la
medición de la relación solo una variable independiente y la variable dependiente.
Los supuesto de población implícitas en el análisis de correlación simple son: 1) la relación entre
las dos variables es lineal, 2) las dos variables son aleatorias, 3) para cada variable las varianzas
condicionales, dados valores diferentes de la otra variable son iguales (homoescedasticídad), 4)
para cada variable, las distribuciones normales. La última suposición es la de una distribución
normal bivariada. Obsérvese que estas suposiciones implícita en la estimación del intervalo en el
análisis de regresión, excepto que en el análisis de regresión la variable independiente puede
ajustarse a varios valores específicos y no es necesario que sea una variable aleatoria.
7. EL COEFICIENTE DE DETERMINACION
2
1 y2, x
2
y
Para la información muestra, él valor estimado del coeficiente de determinación se puede
obtener mediante la siguiente fórmula:
2
S y, x
r 1 2
2
Sy
La fórmula anterior se basa en la suposición que S2 y,x y S2 y ambos son estimadores no
sesgados de 2
y,x y y , respectivamente. En este caso las fórmulas estándar incluyen los factores
2
de corrección necesarios. Si los dos estimadores de varianza nos se han corregido en los que en
los que se refiere al sesgo, el segundo termino en la fórmula anterior debe multiplicarse por la
n - 2
siguiente fracción .
n - 1
Para propósitos de cálculo, es conveniente utilizar la siguiente fórmula para el coeficiente muestra
de determinación:
2
a y b xy n y
r
2
2 2
y ny
Aunque esta es una fórmula frecuentemente utilizada para calcular el coeficiente de determinación
para información muestra, no incorpora ninguna corrección con referencia al sesgo, pero sí incluye
un sesgo levemente positivo.
8. EL COEFICIENTE DE CORRELACION
2
El coeficiente de correlación para datos muéstrales es:
r r
2
En suma, entonces, el signo del coeficiente de correlación indica la dirección de la relación entre
las variables X e Y, mientras que le valor absoluto del coeficiente indica el grado de relación indica
el grado de relación.
El valor al cuadrado del coeficiente de correlación es el coeficiente de determinación e indica la
proporción de la varianza en Y explicada por el conocimiento de X (y viceversa). La figura N º 2
ilustra el aspecto general de los diagramas de dispersión asociados con varios valores de
correlación.
La siguiente fórmula no requiere la determinación anterior de los valores de regresión de a y b.
Esta fórmula se utilizaría cuando el objetivo del análisis es determinar el grado y tipo de la relación
entre dos variables, pero sin ningún interés en calcular Y dado X. Cuando se usa esta fórmula, el
signo del coeficiente de correlación se determina automáticamente sin necesidad de observar o
calcular la pendiente de la línea de regresión. La fórmula alternativa es:
n xy x y
r
n x 2 x 2 2
n y y
2
El coeficiente muestral de correlación r está algo sesgado como un estimador de , con un valor
absoluto demasiado grande. Este factor no se menciona en muchos textos porque la cantidad de
sesgo es leve, excepto para muestras muy pequeñas. Un estimador no sesgado para el coeficiente
de determinación para la población se puede obtener así:
ˆ
2
1 1 r2
n 1
n2
r
t
1 r2
n2
La prueba de la hipótesis nula que = 0 es equivalente a la prueba de la hipótesis nula que =
0 en la ecuación de regresión.
x 10 y 28
x 2,5 y 7
n 4 n 4
xy n x ( y 81 - (4)(2,5)(7) 81 - 70 11
b 2,2
x2 n x 2
30 - (4)(2,5) 30 - 25 5
a = y - bx = 7 - ( 2,2)( 2,5) = 7 - 5,5 = 1,5
ŷ x = 1,5 + 2,2 X
d) ¿Se podría usar la ecuación lineal de regresión para estimar el rendimiento cuando se utiliza 8
toneladas de fertilizantes?
R) No, solo se debe tomar los valores comprendidos entre 1 a 4 toneladas, ya que para calcular la
ecuación se tomo en cuenta estos valores.
e) Calcule el error estándar de estimación.
∑ y 2 - a∑ y - b∑ xy
S y, x = =
n-2
gl n 2 4 2 2
t NS 100% 95% 5% = 4,303
2 2 2 2,5% 0,025
9,2 4,08 13,28
ŷ x ± t S y, x = 9,2 (4,303)(0,9487) =
9,2 4,08 5,12
Con una confianza del 95% y utilizando 3,5 toneladas de fertilizantes el rendimiento de la tierra
Con una confianza del 95% y utilizando 3,5 toneladas de fertilizante, el rendimiento medio
utilizando un intervalo de confianza del 95% está entre 6.46 y 11,94 hectáreas.
h) Establezca el intervalo de predicción del 95% para el rendimiento, utilizando 3,5 toneladas de
fertilizantes considerando la incertidumbre sobre la posición de la línea de regresión.
S y, siguiente = S2 y, x + S2 = ( 0,9487)
2
+ ( 0,6364)
2
= 1,1424
ŷ x
S y, x 0,9487
Sb = = = 0,4243
2 30 - ( 4) (2,5)2
∑ x2 -n x ( )
gl n 2 4 2 2
t(critico) = 5% = 4,303
NS 2,5% 0,025
2
b - β0 2,2 - 0
t(calculado) = = = 5,19
Sb 0,4243
Por lo tanto, con un nivel de significación del 5% se rechaza la hipótesis nula y se acepta la
hipótesis alterna la misma que afirma que no existe relación directa entre la utilización de
fertilizantes y el rendimiento de la tierra.
ANALISIS DE CORRELACION
j) Estime el coeficiente de determinación para la información muestral.
r 2
a ∑ y b ∑ xy - n x 2
(1,5)(28) + (2,2) (81) - (4) (7)2
= 0,9308
2 =
222 - (4) (7)2
∑ y2 - n y
k) Calcule el coeficiente de correlación en referencia al coeficiente de determinación.
r= r2 = 0,9308 = 0,9648
0,9648
m) Determine si el valor de correlación calculado en el anterior inciso no es considerablemente
diferente de cero a un nivel de significación del 5%.
Cuando ŷ x = 9,2 ; X = 3,5; S y, x = 0.9487; t(critico) = 4,303
H0: = 0 H1: 0
r 0,9648
t= 0,9648
(1 - r 2) = (1 - 0,9308) = = 5,19
0,1860
(n - 2) ( 4 - 2)
Por lo tanto, la hipótesis nula se rechaza a un nivel de significación del 5% y se acepta la hipótesis
alterna la misma que indica que no hay relación directa entre la utilización de fertilizantes y el
rendimiento de la tierra.
En análisis lineal de regresión múltiple es una extensión del análisis de regresión simple, como se
describió en la unidad anterior, a las aplicaciones que involucran dos o más variables
independientes como base para estimar el valor de la variable dependiente. En el caso de las dos
variables independientes, denominadas X1 y X2; la ecuación de regresión múltiples:
Y C a b1 x1 b2 x2
'
En la formula anterior, Yc, represente “Y calculada”, es análoga a la
YX del análisis simple de
dos variables, sin intentar las diversas variables independientes en el subíndice. En la fórmula
anterior X es tomada como variable independiente.
Las suposiciones del análisis lineal de regresión múltiple son semejantes a aquellas del caso
simple que implican sólo una variable independiente. Para la estimación puntual, las principales
suposiciones son que:
1) La variable dependiente es una variable aleatoria, mientras que las variables independientes
no necesitan ser aleatorias.
2) La relación entre las diversas variables independientes y la variable dependiente es lineal.
3) Las varianzas de las distribuciones condicionales de la variable dependiente, dadas varias
combinaciones de valores de las variables independientes son todas iguales
(homoescedasticidad).
Para la estimación interna, una suposición adicional es que las distribuciones condicionales para la
variable dependiente siguen la distribución de probabilidad normal.
b) Coeficiente estándar de regresión parcial: Este coeficiente se designa a menudo por, sin
embargo, a diferencia de la designación en el análisis de regresión simple, en este caso no
identifica el parámetro de población. En cambio, es el valor transformado de un coeficiente b
basado en los valores de las variables independientes y dependiente expresadas en unidades de
desviación estándar (es decir, términos de valores de Z). Mientras que los coeficientes b expresan
la pendiente en términos de las unidades de medidas especiales usadas para cada variable
independiente, con propósitos de comparación los coeficientes son útiles porque indican la
pendiente en términos de un sistema de medición común.
usar la distribución T cuando la muestra es por lo menos n 30 (algunos textos expresan cuando
gl 30), el intervalo de predicción para un valor individual de la variable dependiente para el caso
de dos variables independientes es:
Yc t sY,12 ó Yc z sY,12
e) Intervalos de estimación en el análisis de regresión de múltiple : Generalmente, el único
intervalo de interés es la estimación de valor medio de variable dependiente. Para el caso de dos
variables independientes esta media se denomina Y.12 (o 1.23 cuando la variable dependiente se
designa como X1). De manera análoga al intervalo de predicción en, dichos intervalos de
estimación usualmente no se relacionan con la incertidumbre sobre la posición de línea de
regresión verdadera. Al usar la distribución z en lugar de distribución t cuando n 30, el intervalo
de estimación para la media condicional de la variable dependiente para el caso de dos variables
independientes es:
Yc t
S y ,12 ó Yc z
S y ,12
n n
f) Análisis de regresión progresiva: En dicho procedimiento se adiciona una variable
independiente al análisis en cada etapa, recalculando en cada etapa los coeficientes de regresión
parcial y de regresión constante así como el error estándar de estimación. En general, la primera
variable independiente incluida es aquella que tiene el grado de asociación más alto con la variable
dependiente. Sin embargo, el programa de computadora puede permitir que el usuario designe la
secuencia por la cual las variables se adicionan al análisis. El análisis de regresión progresiva sirve
de base a los problemas resueltos al final de esta unidad.
Tanto el análisis de varianza como el análisis de regresión lineal emplean modelos algebraicos
lineales. Considera, por ejemplo. La similitud entre las ecuaciones que representan los modelos
para un análisis de varianza de una vía y de dos vías y las ecuaciones de regresión para la
regresión lineal simple y para la regresión lineal múltiple respectivamente. De manera esencial, el
análisis de regresión lineal simple es el equivalente al modelo de efectos fijos de una vía del
análisis de varianza, cuando la variable independiente se puede medir a lo largo de una escala
continua, mientras que el análisis de regresión lineal con dos variables independientes es
equivalente al modelo de efectos fijos de dos vías del análisis de varianza. Los modelos de orden
más alto se relacionan de manera semejante. Aunque hay una equivalencia entre estos dos
procedimientos, una ventaja especial asociada con el análisis de regresión es que éste se dirige
hacia aplicaciones en la predicción y en la estimación en vez de estar principalmente limitado a
probar el significado de relación entre las variables. Por otra parte, el análisis de varianza se puede
usar cuando la variable independiente no es cuantitativa (pero representa categoría cualitativas) o
cuando la relación entre las variables no es lineal.
Debido a esta equivalencia, la prueba F se puede aplicar en el análisis de regresión para
determinar si una variable independiente, o la adición de una variable independiente especial, dan
como resultado una disminución significativa de la varianza asociada con la variable aleatoria
(dependiente). En este contexto, la suma de los cuadrados atribuible a la regresión es la suma de
las desviaciones al cuadro entre cada valor predicho de la línea de regresión Yc y la media total de
la variable dependiente Y. La suma residual de loa cuadrados es la suma de las desviaciones al
'
cuadrado entre cada valor observado de la variable dependiente
YX y el valor de línea de
regresión Yc. En base a estos dos tipos de sumas de cuadrados, la significación del coeficiente de
regresión (y del coeficiente de correlación) se puede determinar comparando la media cuadrática
atribuible a la residual. De esta manera, la base general para utilizar el análisis de varianza para
probar la significación del coeficiente de regresión es:
MC ( REGRESION )
F
MC ( RESIDUAL)
En la adición de una variable en el análisis múltiple de regresión progresión progresiva, el uso del
análisis de varianza es conceptualmente semejante al procedimiento representado por la fórmula
anterior, excepto que la suma de los cuadrados atribuible a la regresión se evalúa según la línea de
regresión asociada con las variables independientes incluidas previamente, en lugar de hacer
referencia a la media total Y . En este respecto, la relación F se asocia con el coeficiente de
regresión parcial para la variable que se está evaluando. El desarrollo matemático de estas ideas
se incluye en los textos especializados sobre análisis de regresión. El uso de la prueba F en el
análisis de regresión se ilustra en los problemas resueltos, al final de esta unidad.
El análisis de correlación múltiple es una extensión es una extensión del análisis de correlación
simple que se describió en la unidad anterior, a las situaciones que incluyen dos o más variables
independientes y su grado de asociación con la variable dependiente. Como es el caso para el
análisis de regresión múltiple descrito en el anterior subtitulo, la variable dependiente se designa
por Y mientras las diversas variables independientes se designan secuencial mente comenzando
con X1.
El coeficiente de correlación múltiple se designa con RY,12 para el caso de dos variables
independientes, indica el grado de relación entre dos variables independientes tomadas como un
grupo y la variable dependiente. Debido a que es posible que una de las variables independientes
tenga una relación positiva con la variable dependiente, mientras que la otra variable independiente
tiene una relación negativa con la variable dependiente, todos los valores R se presentan sin signo
aritmético.
El coeficiente de determinación múltiple se designa por R2Y,12 para el caso de dos variables
independientes. En cuanto al caso del coeficiente simple de determinación, indica la proporción de
varianza en las variables dependientes que se justifica estadísticamente por el conocimiento de las
dos o más variables dependientes. El coeficiente muestral de determinación múltiple para el
caso de dos variables independientes es:
1
2
S Y ,12
1
Y Y 'x 2
R2Y,12 =
2 2
SY YY
La fórmula anterior se presenta con propósitos conceptuales y no para su aplicación de cálculo.
Puesto que este capítulo está orientado a que los programas de computadora se deben utilizar
para los análisis de regresión múltiple y de correlación, no se incluye aquí el procedimiento de
cálculo.
Las suposiciones del análisis de correlación múltiple son semejantes a aquellas del caso simple
que implica sólo una variable dependiente. Estas son:
Además del coeficiente de correlación múltiple y del coeficiente de determinación múltiple descritos
en la sección anterior, los siguientes conceptos o procedimientos pertenecen sólo al análisis de
correlación múltiple.
a) Coeficiente de correlación parcial: Indica la correlación entre una de las variables
Las dos áreas principales de dificultad son aquellas asociadas con la colinealidad y la auto
correlación. Estas se describen a continuación:
a) Colinealidad (o multicolinealidad): Cuando las variables independientes en un análisis de
regresión múltiple están altamente correlacionadas entre sí, los coeficientes de regresión parcial (o
neta) son poco confiables en términos de significado. De manera semejante, se puede cuestionar
el significado práctico de los coeficientes de correlación parcial. Es posible, por ejemplo, que la
correlación parcial para una variable independiente sea altamente negativa aunque la correlación
simple sea altamente positiva. En general, por consiguiente, se debe tener cuidado al interpretar
los coeficientes de regresión parcial y los coeficientes de correlación parcial cuando hay variables
independientes con una correlación altamente positiva o negativa entre sí.
predicción o de confianza se hace más estrecho (más preciso) de lo que debe ser y las hipótesis
nulas respecto a la ausencia de relación se rechazan muy a menudo.
7. PRACTICA
Ejemplo: El director de personal de una empresa que tiene un importante grupo de vendedores,
debe entrevistar y seleccionar nuevo personal. Ha diseñado una prueba que ayuda a seleccionar
los mejores aspirantes para su personal de ventas. A fin de verificar la validez de la prueba como
instrumento de predicción de las ventas semanales, se eligió al azar 5 vendedores experimentados
y se aplicó la prueba a cada uno; la puntuación que cada vendedor obtuvo en la prueba después
se emparejó con las ventas semanales y la calificación de desempeño, como se representa en la
tabla siguiente:
yc = 3,5 + ( - 0,975 ) x1 + 2,875 x 2 = 3,5 – (0,975) (6) + (2,875)(3,8) = 8,575 X 1000 = 8.575.
2
VARIACION EN EL ERROR = SSE = ∑ ( Y - Y') = 2,65 X 1000 = 2.650
VARIACION EN LA REGRESION = SSR = SSTOTAL – SSE = 50.000 – 2.650 = 47.350
∑Y 40
y= = =8
n 5
SSR 47.350
r2 = = = 0,947
SSTOTAL 50.000
r= r2 = 0,947 = 0,9732 = 97,32%
gl n k 1 5 2 1 2
t= 5% = 4.303
NS 2 2,5% 0,025
H0: β1 = β2 H1: β1 ≠ β2
SSR 47.350
MSR K 2 47.350
F (calculado) = = = = = 17,87
MSE SSE 2.650 2.650
n-k-1 2
Se aprueba la hipótesis nula a un nivel de significación del 5% (esto por F calculado es menor que
F critico) la misma que indica que existe una correlación entre la variable dependiente y las
variables independientes.
BIBLIOGRAFIA
García Ore.
FORMULARIO
1) ERROR ESTANDAR DE LA MEDIA 9) INTERVALOS DE CONFIANZA PARA
δ S ESTIMAR LA DIFERENCIA DE LA MEDIA
δx = n
ó Sx
n DE LA POBLACION
a) Utilizando la distribución normal
CUANDO n > 5% N
δ N n S N n
μ1 - μ2 = ( x 1 - x2 ) ± Z δ x -x
δx
1 2
= ó Sx
n N 1 n N 1
μ1 - μ2 = ( x 1 - x2 ) ± Z S x 1
-x
2
2) Intervalos de Confianza para estimar
la Media de la población:
a) Utilizando la Distribución Normal
δx 1 - x2 = x1 2 x2 2
x±Z ó
δx
b) Utilizando la proporción
x ± Z Sx
S x1- x2 = S x1 2 S x2 2
x b) Utilizando proporciones
= P ± Z Sp donde p=
n 1-2 = ( p1 - p 2) ± Z S p1-p 2
ERROR ESTANDAR DE PROPORCIONES
P (1 - P ) P (1 - P )
Sp - p =
1 2 p1
2
p2
2
S S
Sp = ó Sp =
n n c) Utilizando la distribución t estudent
N n u1 - u2 = ( X1 - X 2) ± tgl s x 1- x 2
N 1
Donde el: gl. = n1+n2 – 2
2
c) Utilizando la Distribución t estudent 2 2
Cuando: o
1 2 1
x ± tgl S x donde gl = n-1 S x1- x2 = S x1 2 S x2 2
d) Utilizando la desigualdad de chebyshev 2 2
Cuando: o
1 2 1 2
X ±k X ±k
δX ó SX s1 - 1) s
2 2
(n1 - 1) (n 2
ˆ 2 2
1 1 n1 n 2 2
1 2 = IC ó K=
K 1 - IC
e) Utilizando Ji-Cuadrado para calcular la ˆ 2 ˆ 2
desviación estándar y la varianza de la x 1
-
x2
n1
n2
población
VARIANZA Cuando n > 5% N
( n 1) S 2 2 ( n 1) S 2 ˆ 2 N - n ˆ 2 N -n
≤ ≤
X 2
gl , inf erior X 2
gl , sup erioor x 1
-
x2
n1
N - 1 n2 N 1
DESVIACIÓN ESTÁNDAR: 10) TAMAÑO NECESARIO DE LA MUESTRA
(n 1) S 2
( n 1) S 2 n = Z2 (1 – )
2 2
X gl , inf erior X gl , sup erior E2
3) TAMAÑO NECESARIO DE LA MUESTRA Z
2
n=
U.A.G.R.M. “FACULTAD INTEGRAL DEL CHACO” 2E
ESTADISTICA II (MAT-260) 84
_____ DOCENTE: Lic. Antonio Cabrera Sensano
d
x CR 0 t x MEDIA DE LA DIFERENCIA: d
n
DESVIACION ESTANDAR
Z=
x cr - μ1 ó t=
x cr - μ1
Sd
∑d - d 2
o
δX SX n 1
12) TAMAÑO NECESARIO DE LA MUESTRA
Sd
∑d 2
(n)(d ) 2
( 0 - 1)2 2 n 1
n Sd
(1 - 0)2 ERROR ESTANDAR Sd =
n
13) PRUEBA CON LA DIFERENCIA DE LA MEDIA DE LA
POBLACION d) Utilizando la distribución F
a) Utilizando la distribución normal
2
x1 - x 2 x1 - x 2 S1
z= ó z=
S x 1 -“FACULTAD x1 - x 2 DEL
F gl1;gl2 = 2
U.A.G.R.M. x2 INTEGRAL CHACO” S2
ESTADISTICA II (MAT-260) 85
_____ DOCENTE: Lic. Antonio Cabrera Sensano
Zo o 1 o Z1 1 1 1
x x 2
2
n 1
1 0 S ŷ ; x S Y , X
n 2
x
2
x
n
15) LA PRUEBA DE JI-CUADRADO
21) INTERVALO DE PREDICCION PARA LA
f fe
2
2 0 MEDIA CONDICIONAL
X= gl = K – m – 1
fe
Cuando n 50 y el gl = 1 Y X t S Ŷ , x
X=
2
f 0 f e 0.5 2 22) ERROR ESTANDAR DEL PRONOSTICO
S y,x 2
fe 2
S y, siguiente =
S
yx
16) PARA DETERMINAR LA INDEPENDENCIA
ENTRE DOS VARIABLES
23) INTERVALO DE PREDICCION UTILIZANDO ERROR
r k
ESTANDAR DE PRONOSTICO
f =
e gl = (r -1) (k -1)
n y x t S y , siguiente
f0 fe
2
X2=
fe 24) ERROR ESTANDAR DE b BASADO EN
LA INFORMACION MUESTRAL
17) REGRESION Y CORRELACION LINEAL
Y X = a + bx Sb
S y ,x
x 2
n x 2
xy n( x )( y )
Donde: b =
x2 n x 2 25) INTERVALO DE CONFIANZA
a = y bx b
tSb
18) ERROR ESTANDAR DE INTERVALO DE
ESTIMACION Y PREDICCIÓN 26) VALOR HIPOTETICO DE β
y yx 2
b
ó t =
SY ,X Sb
n2
2 a y b xy 27) COEFICIENTE DE DETERMINACIÓN
y
S Y,X
n 2
2
r=
a ∑ y b ∑ xy - n y 2
Y X t SY , X ó
y b xy n y
2
a
y X Z SY ,X r
y n y
2 2
VARIACION EN LA REGRESION =
ANEXO N º 1
ANEXO N º 2
ANEXO N º 3
ANEXO N º 4
ANEXO N º 5