Mat 260 2007

ESTADISTICA II (MAT-260) 0
_____ DOCENTE: Lic. Antonio Cabrera Sensano
UNIVERSIDAD AUTONOMA GABRIEL RENE MORENO

FACULTAD INTEGRAL DEL CHACO
CAMIRI – SANTA CRUZ – BOLIVIA
TEXTO DE ESTUDIO
MATERIA: ESTADÍSTICA II
MAT – 260
CARRERA: CONTADURÍA PÚBLICA

DOCENTE: Lic. Antonio Cabrera Sensano
GESTION: II - 2.007
U.A.G.R.M. “FACULTAD INTEGRAL DEL CHACO”

INDICE
INDICE 1
UNIDAD N º 1: “INTERVALOS DE CONFIANZA PARA LA MEDIA DE LA POBLACION”..........3
1. ESTIMACIÓN PUNTUAL Y MUESTREO.......................................................................................................3
2. DISTRIBUCIÓN DE MUESTREO DE LA MEDIA...........................................................................................4
3. INTERVALOS DE CONFIANZA PARA LA MEDIA UTILIZANDO LA DISTRIBUCIÓN NORMAL:..................6
4. INTERVALOS DE CONFIANZA DE UN LADO PARA LA MEDIA DE LA POBLACIÓN..................................7
5. INTERVALOS DE CONFIANZA PARA LA PROPORCIÓN EMPLEANDO LA DISTRIBUCIÓN NORMAL....7
6. DISTRIBUCIONES T DE STUDENT E INTERVALOS DE CONFIANZA PARA LA MEDIA............................8
7. DESIGUALDAD DE CHEBYSHEV E INTERVALOS DE CONFIANZA PARA LA MEDIA............................10
8. DISTRIBUCIÓN X2 (JI-CUADRADO) E INTERVALO DE CONFIANZA PARA LA DESVIACIÓN
ESTÁNDAR Y LA VARIANZA....................................................................................................................... 11
9. DETERMINACIÓN DEL TAMAÑO NECESARIO DE LA MUESTRA PARA ESTIMAR LA MEDIA:..............13
UNIDAD NO 2: “INTERVALOS DE CONFIANZA PARA LA DIFERENCIA ENTRE DOS
MEDIAS DE LA POBLACION”.................................................................................................................... 14
1. USANDO LA DISTRIBUCIÓN NORMAL......................................................................................................14
2. INTERVALOS DE CONFIANZA PARA LA DIFERENCIA ENTRE DOS PROPORCIONES DE LA
POBLACIÓN................................................................................................................................................. 15
3. DISTRIBUCIÓN T DE STUDENT E INTERVALOS DE CONFIANZA PARA LA DIFERENCIA ENTRE
MEDIAS:....................................................................................................................................................... 16
4. INTERVALOS DE CONFIANZA DE UN LADO PARA LA DIFERENCIA ENTRE DOS MEDIAS..................17
5. DETERMINACIÓN DEL TAMAÑO NECESARIO DE LA MUESTRA PARA ESTIMAR LA PROPORCIÓN..................18
UNIDAD NO 3: “PRUEBA DE HIPÓTESIS RESPECTO AL VALOR DE LA MEDIA DE
POBLACIÓN”................................................................................................................................. 19
1. ETAPAS BÁSICAS EN PRUEBAS DE HIPÓTESIS:....................................................................................19
PRIMER PASO: FORMULAR LA HIPÓTESIS NULA Y LA HIPÓTESIS ALTERNATIVA 19
SEGUNDO PASO: ESPECIFICAR EL NIVEL DE SIGNIFICACIÓN QUE SE VA A UTILIZAR 20
TERCER PASO: SELECCIONAR LA ESTADÍSTICA DE PRUEBA 20
CUARTO PASO: ESTABLECE EL VALOR O LOS VALORES CRÍTICOS DE LA ESTADÍSTICA DE PRUEBA 20
QUINTO PASO: DETERMINAR EL VALOR DE LA ESTADÍSTICA DE PRUEBA 20
SEXTO PASO: TOMAR LA DECISIÓN 20
2. PRUEBA DE UN VALOR HIPOTÉTICO DE LA MEDIA UTILIZANDO LA DISTRIBUCIÓN NORMAL:........21
3. PRUEBA DE UNA PROPORCIÓN HIPOTÉTICA EMPLEANDO LA DISTRIBUCIÓN NORMAL:................23
5. PRUEBA DE UN VALOR HIPOTÉTICO DE LA MEDIA USANDO LA DESIGUALDAD DE CHEBYSHEV:. 25
6. PRUEBA DE UNA PROPORCIÓN HIPOTÉTICA UTILIZANDO LAS DISTRIBUCIONES BINOMIALES:...26
7. PRUEBA DE UN VALOR HIPOTÉTICO DE LA VARIANZA EMPLEANDO LAS DISTRIBUCIONES DE JI -
CUADRADO:................................................................................................................................................ 27
9. ERRORES DE TIPO I Y DE TIPO II EN PRUEBAS DE HIPOTESIS:.........................................................28
10. DETERMINACIÓN DEL TAMAÑO NECESARIO DE LA MUESTRA PARA PROBAR LA MEDIA:..............30
UNIDAD NO 4: “PRUEBA DE HIPÓTESIS CON LA DIFERENCIA ENTRE DOS MEDIAS”.........32
1. PRUEBA DE LA DIFERENCIA ENTRE DOS MEDIAS UTILIZANDO LA DISTRIBUCIÓN NORMAL:.........32
2. PRUEBA HIPOTETICA DE LA DIFERENCIA ENTRE DOS PROPORCIONES:.........................................34
3. PRUEBA DE LA DIFERENCIA ENTRE DOS MEDIAS UTILIZANDO LAS DISTRIBUCIONES T DE ESTUDENT:........35
4. PRUEBA DE LA DIFERENCIA ENTRE DOS MEDIAS BASADAS EN OBSERVACIONES PAREADAS:...35
5. LAS DISTRIBUCIONES F Y LA PRUEBA DE LA DIFERENCIA ENTRE DOS VARIANZAS:......................38
6. DETERMINACIÓN DEL TAMAÑO NECESARIO DE LA MUESTRA PARA PROBAR LA PROPORCIÓN:. 39
UNIDAD N º 5: “LA PRUEBA DE JI-CUADRADO”.......................................................................40
1. LA PRUEBA DE JI-CUADRADO COMO PROCEDIMIENTO DE PRUEBA DE HIPÓTESIS:......................40
2. PRUEBAS DE LA BONDAD DEL AJUSTE:.................................................................................................40
3. FRECUENCIAS MÍNIMAS ESPERADAS Y CORRECCIÓN DE CONTINUIDAD:.......................................42
4. PRUEBAS PARA LA INDEPENDENCIA DE DOS VARIABLES (PRUEBAS DE TABLAS DE
CONTINGENCIAS):..................................................................................................................................... 43
5. PRUEBA DE LA DIFERENCIA ENTRE K PROPORCIONES DE UNA MUESTRA:....................................45

UNIDAD N º 6: “ANALISIS REGRESION Y CORRELACION LINEAL SIMPLE”..........................48

1. OBJETIVOS Y SUPUESTOS DEL ANÁLISIS DE REGRESIÓN...................................................................48
2. EL DIAGRAMA DE DISPERSION.................................................................................................................48
3. EL METODO DE LOS MINIMOS CUADRADOS PARA AJUSTAR UNA LINEA DE REGRESION..............49
4. EL ERROR ESTANDAR DE INTERVALOS DE ESTIMACION Y PREDICCION.........................................50
5. INFERENCIA RESPECTO DE LOS PARAMETROS DE LA LINEA DE REGRESION................................51
6. OBJETIVOS Y SUPUESTO DEL ANALISIS DE CORRELACION...............................................................53
7. EL COEFICIENTE DE DETERMINACION...................................................................................................54
8. EL COEFICIENTE DE CORRELACION.......................................................................................................55
9. SIGNIFICADO DEL COEFICIENTE DE CORRELACION............................................................................56
10. ERRORES Y LIMITACIONES ASOCIADOS CON EL ANALISIS DE REGRESION Y DE CORRELACION .................57
11. PRACTICA................................................................................................................................................... 57
UNIDAD N º 7: “ANÁLISIS DE REGRESIÓN Y CORRELACION MÚLTIPLE”...........................62
1. OBJETIVOS Y SUPOSICIONES DEL ANALISIS LINEAL DE REGRESION MULTIPLE.............................62
2. CONCEPTOS DEL ANALISIS DE REGRESION MULTIPLE........................................................................63
a) Coeficiente de regresión parcial (o coeficiente de regresión neta 63
b) Coeficiente estándar de regresión parcial 63
c) Error estándar de estimación 63
d) Intervalos de predicción en el análisis de regresión múltiple 63
e) Intervalos de estimación en el análisis de regresión de múltiple 64
f) Análisis de regresión progresiva 64
3. ANALISIS DE VARIANZA EN EL ANALISIS DE REGRESION LINEAL......................................................64
4. OBJETIVOS Y SUPOSICIONES DEL ANALISIS DE CORRELACION MULTIPLE.....................................65
5. CONCEPTOS DEL ANALISIS DE CORRELACION MULTIPLE.................................................................66
a) Coeficiente de correlación parcial 66
b) Coeficiente de determinación parcial 67
c) Análisis de correlación progresiva 67
6. ERRORES Y LIMITACIONES RELACIONADOS CON EL ANALISIS DE REGRESION MULTIPLE Y EL
ANALISIS DE CORRELACION MULTIPLE..................................................................................................67
a) Colinealidad (o multicolinealidad 67
b) Auto correlación 67
7. PRACTICA..................................................................................................................................................... 68
B I B L I O G R A F I A........................................................................................................................................ 71
FORMULARIO………………………………………………………………………………………………72
ANEXOS (TABLAS DE VALORES)………………………………………………………………………76

UNIDAD N º 1: “INTERVALOS DE CONFIANZA PARA LA MEDIA DE LA

POBLACION”
1. ESTIMACIÓN PUNTUAL Y MUESTREO:
Debido a factores tales como tiempo y costo los parámetros de una población se calculan
frecuentemente sobre la base de estadísticas de muestra. Un parámetro de población, es una
medida de resumen de una población, mientras que una medida de resumen de una muestra se
denomina estadística de la muestra.
Ejemplo 1: La media (  ) y la desviación (  ) de una población de medidas son parámetros de

población. La media χ y la desviación estándar S de una muestra de medidas son estadísticas de
la muestra.
En la tabla siguiente presenta algunos estimadores puntuales y los parámetros de población

utilizados frecuentemente. En cada caso, el estimador apropiado de un promedio de población
simplemente es la estadística de muestra correspondiente. Sin embargo obsérvese que para la
varianza de la muestra incluye un "factor de corrección".
ESTIMADORES PUNTUALES FRECUENTEMENTE UTILIZADOS

PARÁMETROS DE LA POBLACIÓN ESTIMADORES
Media  
Diferencia entre dos medias 1  2
X1- X 2
Proporción  
1  2 1-  2
Diferencia entre dos proporciones
Desviaciones estándar  S*
* Este estimador se basa en la suposición de que la corrección para el sesgo haya sido incluida en
la fórmula para S.
Si se va a utilizar una estadística de la muestra para estimar el valor específico de un parámetro

(es decir, como un estimador puntual), la estadística de la muestra debe basarse en una muestra
aleatoria mediante un procedimiento tal que cada elemento en la población tenga una probabilidad
conocida de ser escogido, y en el que no se incluyan fuentes conocidas de sesgo sistemáticos. Las
muestras de probabilidad o muestras aleatorias también se denominan muestras de probabilidad o
muestras científicas y se pueden recoger por medio de varias técnicas específicas de muestra. Una
técnica común es la muestra aleatoria simple, en la que cada elemento de la población tiene una
oportunidad igual de ser incluido en la muestra. En este caso los elementos se escogen sobre la
base de una oportunidad como sacar "papeletas de una bolsa" o por medio del uso de una tabla de

números aleatorios.
DISTRIBUCIÓN DE MUESTREO DE LA MEDIA:
Una distribución de población de valores y una distribución de muestra representa la distribución de

una muestra de valores tomadas de una población. A diferencia de dichas distribuciones de medias
individuales, una distribución de muestreo, es una distribución de probabilidad que se aplica a los
valores posibles de una estadística de la muestra. Así, la distribución de muestreo de la media es la
distribución de probabilidad para los valores posibles de la media de la muestra x basada en un
determinado tamaño de la muestra.
Para cualquier tamaño dado de muestra n tomada de una población con media  , el valor de la
media, de la muestra x variará algo de muestra en muestra. Esta variabilidad sirve como base de
la distribución de muestreo. La distribución de muestreo de la media se describe determinando el
valor esperado E ( χ ), o media, de la distribución y la desviación estándar de la distribución de
medias
 x
. Como esta desviación estándar indica la exactitud de la media de la muestra como
estimadora puntual, es generalmente denominado error estándar de la media se definen como:

E(χ)= 

 


Ejemplo 2: Supongamos que la media de una población muy grande es 50 y la desviación
estándar es 12. Determinamos la distribución de muestreo de las medias de la muestra para un
tamaño de muestras de 36 en términos del valor esperado y del error estándar de la distribución,
de la siguiente manera:
E(χ)=  = 50
 12 12
 


=
36
=
6
=2
Al hacer el muestreo de una población finita, se debe incluir un factor de corrección finito en la
fórmula del error estándar de la media. Como regla empírica, la corrección se debe utilizar
cuando n > 0,05 N, es decir, cuando el tamaño de la muestra es menor que el 5% del tamaño de
la población. La fórmula para el error estándar de la media con el factor de corrección finito incluida
es:
 N n
 

 N 1
Si no se conoce la desviación estándar de la población, el error estándar de la media se puede

estimar utilizando la desviación estándar de la media como un estimador de la desviación estándar
de la población. Para diferenciar este error estándar del que se basa en un, conocido, se lo designa

con el símbolo sx (por

 x
en algunos textos). La fórmula para el error estándar estimado de la
media es:
s
sx 
n
La fórmula para el error estándar estimado de la media con el factor de corrección finito incluida es:
s N n
sx 
n N 1
Ejemplo 3: Un auditor toma una muestra aleatoria del tamaño 16 de un conjunto de 100 cuentas
por cobrar. No se conoce la desviación estándar de los montos de las 100 cuentas por cobrar. Sin
embargo, la desviación estándar de la muestra es 57 $. Determinamos el valor del error estándar
para la distribución de muestreo de la media de la siguiente manera:
s N n 57 100  16  57  84 
sx  = =    14,25 0,9211  13,126  13,13
n N 1 16 100  1  4  99 
En este ejemplo, el error estándar de la media se estima sobre la base de la desviación estándar
de la muestra, el uso del factor de corrección finito es necesario porque 16 > 5.
El error estándar de la media proporciona la base principal para la inferencia estadística respecto
de una media de población desconocida, como se observará en esta unidad. Un teorema en
estadística que conduce al uso del error estándar de la media es él:
Teorema del limite central: A medida que se aumenta el tamaño de la muestra, la distribución de
muestreo de la media se acerca en su forma a la distribución normal, cualquiera fuese la forma de
distribución de la población. Para efectos prácticos se puede suponer que la distribución de
muestreo de la media es aproximadamente normal cuando el tamaño de la muestra es n  30.
De esta manera, dada una muestra "grande" de n  30 siempre puede emplear la distribución
normal en conjunto con el error estándar de la media. Además, si la población se distribuye
normalmente y  se conoce, la distribución normal puede utilizarse en inferencia estadística
también con muestras pequeñas. El requisito de que  sea conocido se explica en la siguiente
tabla:
TABLA RESUMEN PARA ESTIMACIÓN DEL INTERVALO DE LA MEDIA DE LA
POBLACIÓN
SITUACION SITUACION DE LA DESVIACIÓN
DE LA TAMAÑO MUESTRA ESTANDAR DE LA POBLACION   
POBLACIÓN CONOCIDA NO SE CONOCE
ESTA
NORMALMENTE
n  30  χ ± Ζ δx  χ ± Ζ sx *

DISTRIBUIDA n < 30  χ ± Ζ δx  χ ± t gl s x **
NO ESTA
NORMALMENTE
n  30  χ ± Ζ δx *  χ ± Ζ s x ***
DISTRIBUIDA n < 30  χ ± k δx  χ ± k s x ****
* Se utiliza el teorema de límite central
** Se utiliza Z como una aproximación de t.
*** Se utiliza el teorema de límite central y Z como una aproximación de t.
**** Algunos estadísticos consideran este intervalo no confiable debido a la fluctuación en el valor
de
s x
para muestras pequeñas.
3. INTERVALOS DE CONFIANZA PARA LA MEDIA UTILIZANDO LA DISTRIBUCIÓN NORMAL:
En este subtítulo, los métodos de estimación de intervalos se basan en la suposición de que se

puedan utilizar la distribución de probabilidad normal. Como se indicó en el anterior subtítulo, esta
suposición es admisible (1) cuando n  30, por el teorema del límite Central o (2) cuando n< 30,
pero la población está normalmente distribuida y se conoce.
Aunque la media de la muestra es útil como estimador no sesgado de la media de la población, no

hay manera de expresar el grado de exactitud de un estimador puntual. De hecho,
matemáticamente hablando, la probabilidad de que la media de la muestra sea exactamente como
estimador es P = 0.
Un intervalo de confianza para la media es un intervalo estimado construido con respecto a la

media de la muestra, por el cual puede especificarse la probabilidad de que el intervalo incluya el
valor de la media de la población. El grado de confianza asociado con un intervalo de confianza
indica el porcentaje de los intervalos que incluirían el parámetro que se está estimando.
Los intervalos de confianza para la media están construidos típicamente con el estimador no
sesgado x en el centro del intervalo. Cuando el uso de la distribución de probabilidad normalmente
admisible, el intervalo de confianza para la media se determina por:
μ = χ ± Ζ δx ó μ = χ ± Ζ sx
Los intervalos de confianza utilizados con mayor frecuencia son los intervalos del 90; 95 y 99%.
Los valores de z requeridos en conjunto con tales intervalos se presentan en la siguiente tabla:
PORCIONES DE ÁREA SELECCIONADAS BAJO LA CURVA NORMAL
Intervalos de Nivel de significación VALOR DE Z
confianza UN EXTREMO DOS EXTREMOS
90% 10% + 1,28 ó –1,28  1,65

95% 5% + 1,65 ó –1,65  1,96

99% 1% + 2,33 ó –2,33  2,58
99,5% 0,5% + 2,58 ó – 2,58  2,81
99,8% 0,2% + 2,88 ó – 2,88  3,08
Ejemplo 4: Durante una semana determinada, una muestra aleatoria de treinta empleados
contratados por hora, seleccionados entre un gran número de empleados de una fábrica, tiene un
salario medio de 180 $, con una desviación estándar de 14 $. Estima el salario medio para todos
los empleados contratados por hora en la firma con un intervalo que podamos tener una confianza
del 95% en que el intervalo incluya el valor de la media de la población, de la siguiente manera:
180  4,92  184,92

μ = χ ± Ζ s x = 180  1,96(2,56) = 
180  4,92  175,08
s 14
Donde la χ = 180; s xˆ

n

30
 2,56
S se utiliza como un estimador de  y el factor de corrección finito no es necesario porque

presumiblemente n < 0,05N, además no se tiene información de la población.
De esta manera, podemos afirmar que el nivel medio de salarios para todos los empleados está
entre 174,98 y 185,02 con un grado de confianza de un 95% en esta estimación.
4. INTERVALOS DE CONFIANZA DE UN LADO PARA LA MEDIA DE LA POBLACIÓN
Un intervalo de confianza de un lado puede, ocasionalmente, ser de mayor interés que el de dos
lados. Si solo estamos interesados en le mayor o en el menor valor de la media de la población.
Un “intervalo superior del 95%” se extiende desde un límite inferior calculado hasta el infinito
positivo, con una porción del 0,05 del área bajo la curva normal a la izquierda del límite inferior. Un
“intervalo de confianza inferior del 95%“se extiende desde el infinito negativo hasta un límite
superior calculado, con una porción del 0,05 del área bajo la curva normal a la derecha del límite
superior.
Ejemplo 5: Supongamos que un presunto comprador de un almacén de juguetes en el aeropuerto
observa una muestra aleatoria de 64 ventas y comprueba que la media de la muestra es 4,63 $ con
una desviación estándar de 1,20 $. Determine: a) El intervalo de confianza del 95% para el valor
mínimo de la media de las ventas totales, b) El valor máximo de la cantidad media de todas las
ventas que se identifique con una confianza del 99%.
a) IC = 95% = Z = +1,65
s 1,20 1,20
sx 
n
=
64

8
 0,15 μ = X - Z Sx = 4,63 – (1,65) (0,15) = 4,38 ó más

b) IC = 99 = Z = 2, 33 μ = X + Z S x = 4,63 + (2,33)(0,15) = 4,98 o menos
5. INTERVALOS DE CONFIANZA PARA LA PROPORCIÓN EMPLEANDO LA DISTRIBUCIÓN

NORMAL
La distribución normal como una aproximación de la binomial para construir intervalos de confianza
para proporciones. Tal aproximación es apropiada cuando n>30 y tanto n.p > 5 como n(1-p) > 5 ó
n.q > 5.
La varianza de la distribución de proporciones sirve como base para el error estándar. Dada una
proporción de muestra observada, p, el error estándar estimada de la proporción es:
P (1  P )
SP 
n
La proporción de población  no se conocería puesto que es el valor que se está estimando. Si la
población es finita entonces el uso del FACTOR DE CORRECCIÓN FINITO es apropiado. Como
en el caso del error estándar de la media, el uso de esta corrección generalmente se considera
necesario si n > 0,05 N. La fórmula para el error estándar de la proporción que incluye el factor de
corrección finito es:
P (1  P ) N n
SP 
n N 1
Finalmente, el intervalo de confianza para una proporción de población es:
  P  Z SP
Además del intervalo de confianza de dos lados, también se puede construir un intervalo de
confianza de un lado para la proporción de población.
Ejemplo 6: Una firma de investigación de mercados hace contactos con una muestra aleatoria de
100 hombres de una gran comunidad y comprueba que una proporción de la muestra del 40%
prefiere las cuchillas de afeitar fabricadas por la firma de su cliente a todas las otras marcas. El
intervalo de confianza del 95% para la proporción de todos los hombres de la comunidad que
prefieren las cuchillas de afeitar de la firma del cliente se determina de la siguiente manera:
P (1  P ) (0,40)(1  0,40) (0,40)(0,60) 0,24

SP  =    0,0024  0,05
n 100 100 100
0,40  0,10  0,50 x100  50%

  P  Z S P = 0,40 + (1,96)(0,05)= 
0,40  0,10  0,30 x100  30%
Por tanto con el 95% de confianza, estimamos que la proporción de todos los hombres de la

comunidad que prefieren las cuchillas de afeitar del cliente está entre 30% y el 50%.
6. DISTRIBUCIONES t DE STUDENT E INTERVALOS DE CONFIANZA PARA LA MEDIA:
En el subtítulo n º 3 observa que el uso de la distribución normal en la estimación de una media de

población es admisible para cualquier muestra amplia (n  30) y, para muestras pequeñas (n < 30),
sólo si la población está normalmente distribuida y  se conoce. En este subtítulo consideraremos
la situación en la que la muestra es pequeña y la población está normalmente distribuida, pero 
no se conoce.
Si una población está normalmente distribuida, la distribución de muestreo de la media para

cualquier tamaño de la muestra estará también normalmente distribuida, y esto es cierto se
conozca o no  . Sin embargo, en el proceso de inferencia, cada valor de la media se convierte a
un valor normal estándar y aquí radica el problema. Si  no se conoce, la fórmula de conversión
 
  incluye una variable en el denominador que es algo diferente para cada media de la
s
 x 
muestra. La inclusión de una variable sx en lugar de la constante

 x
en el denominador da
como resultado valores que no están distribuidos como valores Z. En cambio, los valores se
distribuyen de acuerdo a la distribución t de Student que, comparada con la distribución normal es
platicúrtica (plana). Las proporciones de área bajo las distribuciones específicas basada en los
grados de libertad (gl) incluidos. Para el caso de una sola muestra, gl = n - 1.
Una distribución t es adecuada para las inferencias relacionadas con la media cuando no se
conoce y la población está normalmente distribuida, cualquiera fuera el tamaño de la muestra. Sin
embargo, a medida que se aumenta el tamaño de la muestra (y el gl), la distribución t se acerca en
su forma a la distribución normal. Una regla empírica es que una distribución t puede ser
aproximada por la distribución normal cuando n  30 o (gl > 29) para una sola muestra. Esta
sustitución es un asunto diferente del cubierto por el teorema del límite central, y el hecho de que
requiera en ambos casos una muestra de n  30 es una coincidencia.
Cuando gl = n - 1, el intervalo de confianza para calcular la media de la población cuando  no se
conoce, n < 30 y la población se distribuye normalmente, es: μ = χ ± t gl s x .

Ejemplo 7: La vida media de operación para una muestra aleatoria de 10 focos es 4.000 horas

con una desviación estándar de 200 horas. Se supone que la vida de operación de los focos en
general está normalmente distribuida. Calculamos la vida media de operación para la población de
focos de donde se tomó esta muestra utilizando un intervalo de confianza del 95 %, de la siguiente
manera.
4000  143,2  4.143,2

μ = χ ± t gl s x = 4000 + (2,262) (63,3) = 
4000  143,2  3.856,8
 gl  n  1  10  1  9 
 
t=  100%  IC 100%  95% 5%  2,262
 NS     2,5 %  0, 025 
2 2 2
s 200 200
s x

n
 
10 3,16
 63,3
La vida media de operación de todos los focos se encuentra entre 3856,8 a 4143,2 horas con una
confianza del 95%.
7. DESIGUALDAD DE CHEBYSHEV E INTERVALOS DE CONFIANZA PARA LA MEDIA:
Cuando la muestra es pequeña (n <30) y se supone que la población no está normalmente

distribuida, no se pueden utilizar ni la distribución de probabilidad normal ni la distribución t para
construir un intervalo de confianza. Sin embargo, un teorema general desarrollado por el
matemático ruso CHEBYSHEV es útil.
TEOREMA DE CHEBYSHEV: La proporción de las medidas en un conjunto de datos que se sitúa

dentro de k desviaciones estándar de la media no es menor de 1 - 1/k2, donde k  1.
Al aplicarlo a la distribución de muestreo de una media, la probabilidad de que una media de
muestra se sitúe dentro de k unidades de error estándar a partir de la media de la población es:
P     k  x  12
k
Esta fórmula es conocida generalmente como desigualdad de chebyshev. Obsérvese que se
basa en la suposición de que,

 x
se conoce. Si no se conoce  , entonces se puede
reemplazar por
s x
, pero algún riesgo debido a la fluctuación de este valor en muestras
pequeñas. La desigualdad de Chebyshev raramente se utiliza para construir intervalos de

confianza para la media, pero es el único método apropiado dada una población que

decididamente no es normal y una muestra que es pequeña (n < 30).
Al utilizar la desigualdad de Chebyshev junto con la estimación de intervalos, el procedimiento es

1
igualar 1- con el grado de confianza deseado, despejar k y luego construir el intervalo
k2
empleado, una de las siguientes fórmulas, según se conozca o no:
μ = χ ± k δx ó μ = χ ± k sx
Ejemplo 8: Se selecciona aleatoriamente una muestra de 10 empleados de un grupo grande

contratados por hora y que tienen un salario medio de 180 $, con una desviación estándar de 14 $.
La población de empleados por hora no se considera normalmente distribuida. ¿Cuál es el intervalo
de salarios en la que exista un 95% de confiabilidad de que la media de la población esté incluida
dentro de este intervalo?
1 1 1
Primero despejamos K     20  4,47 unidades de error
1  IC 1  0,95 0,05
estándar.
Aplicando la fórmula tenemos:

s 14 14
sx  =   4,43
n 10 3,16
180  19,8  199,80

μ = χ ± k s x = 180  4,47 (4,43) = 
180  19,8  160,20
La media de todos los salarios de los empleados contratados por hora se encuentra entre 160,20 y
199,80 $ con un intervalo de confianza del 95%.
8. DISTRIBUCIÓN X2 (JI-CUADRADO) E INTERVALO DE CONFIANZA PARA LA DESVIACIÓN
ESTÁNDAR Y LA VARIANZA
Dada una población de valores normalmente distribuidos, las distribuciones X2 (JI-CUADRADO)
pueden ser las distribuciones de probabilidad apropiadas para la relación

n - 1 s 2 . Existe una
2
distribución JI-CUADRADO diferente de acuerdo con el valor de n - 1, que representa los grados

de libertad (gl). De esta manera: X2 gl =

n - 1 s 2
2
La distribución JI-CUADRADO de probabilidad se puede utilizar en la inferencia estadística en
relación con una varianza o desviación estándar desconocida.
La distribución de JI-CUADRADO no es simétrica. Por tanto, un intervalo de confianza de dos
lados para una desviación estándar incluye el uso de dos valores X2 diferentes en lugar del
enfoque "más o menos" utilizado con los intervalos de confianza basados en la distribución normal.
Dado que el sesgo de S2 se ha corregido, la fórmula para construir un intervalo de confianza para
la desviación estándar de población es:
 n  1 s 2  n  1 s 2
2
  2
x gl , inf erior x gl , sup erior
El intervalo de confianza para la varianza de la población es:
2 2
( n  1) S (n  1) S
2
  2
X gl , inf erior X gl , sup erior
La tabla del apéndice 7 indica las porciones de área bajo las distribuciones JI-CUADRADO de
acuerdo con los valores de los grados de libertad,(gl). En la fórmula anterior, los subíndices
"superior" e "inferior" identifican los puntos de percentíles en la particular distribución X2 que se
utilizarán para construir el intervalo de confianza. Por ejemplo, para un intervalo de confianza del
90%, el "superior" es X20,95 y el "inferior" es X20,05. Excluyendo el 5% inferior y el 5% superior de la
distribución JI-CUADRADO, lo que permanece es el 90% "medio".
A medida que aumentan los grados de libertad, la distribución JI-CUADRADO se aproxima a la
distribución normal con  = gl y  = 2 gl . Como regla empírica, debemos considerar tal
aproximación como aceptable cuando gl  30 (en el tipo de aplicación actual, cuando n  31).
Obsérvese, sin embargo, que el uso de la distribución JI-CUADRADO o la aproximación normal de
esta para estimar una varianza se basa en la suposición necesaria de que la población que se
muestre está normalmente distribuida.
Ejemplo 5: Para un producto particular, las ventas media en dólares por distribuidor, en una
muestra de 10 almacenes fueron el año pasado de $ 3.425, con una desviación estándar de $ 200.
Se supone que las cantidades de ventas por distribuidor están normalmente distribuidos. Calcule:
a) La varianza, b) La desviación estándar de las ventas de este producto en todos los almacenes
durante el año pasado, utilizando un intervalo de confianza del 90%.
gl=10 – 1 = 9

100%  90% 10%

Superior  90%  5%  95%  0,95  3,33
NS=   5% 
Inferior  5%  0,05  16,92
2 2
2 2
(n  1) S (n  1) S
 
2
a) VARIANZA 2 2
x gl ; inf erior x gl ; sup erior
2 2
(10  1) (200) (10  1) (200)
 
2
2 2
x 0 , 05 x 0 , 95
(9)( 40000) (9)(40000)

 
2
16,92 3,33
360.000 360.000
 
2
16,92 3,33

2
21.276,6   108.108,11
 n  1 s 2  n  1 s 2
b) DESVIACION ESTANDAR 2
  2
x gl , inf erior x gl , sup erior
10  1  200 10  1  200

2 2
2
  2
x 9; 0 , 05 x 9; 0 , 95
(9)( 40000) (9)(40000)


16,92 3,33
360.000 360.000

16,92 3,33
21.276,6    108.108,11
145,9    328,8
Se puede solicitar como una alternativa a un intervalo de confianza de dos lados, como también se
puede construir un intervalo de confianza de un lado para la confianza o la desviación estándar.
Más interesa el intervalo de confianza "superior" o de acuerdo a lo que se solicite.
9. DETERMINACIÓN DEL TAMAÑO NECESARIO DE LA MUESTRA PARA ESTIMAR LA
MEDIA:
Supongamos que se conocen el tamaño deseado de un intervalo de confianza y el grado de

confianza asociado con éste. Si se conoce  se puede calcular de alguna manera, por ejemplo, a
través de los resultados de estudios semejantes, el tamaño requerido de la muestra basada en el
uso de la distribución normal es:
2
  
n 
 E 
En la formula anterior Z es el valor utilizado para el grado de confianza especificado,  es la
desviación estándar de la población (o su estimación), y E es el factor de error "más y menos"
permitiendo en el intervalo (siempre la mitad del total de intervalo de confianza). Al resolver el
tamaño de la muestra siempre se redondean los resultados fraccionarios. Además, a menos que
se conozca y que la población esté normalmente distribuida, cualquier tamaño de muestra
calculado inferior a 30 debe aumentarse a 30 porque la fórmula anterior se basa en el uso de la
distribución normal.
Ejemplo 9: Un analista del departamento de personal quiere estimar el número medio de las horas
de entrenamiento anuales para los capataces de una división de la compañía con un factor de error
(más o menos) de 3,0 horas y con un 90 % de confiabilidad. Basado en la información de otras
divisiones, calcula la desviación estándar de la población en horas de capacitación en 20 horas. El
tamaño mínimo requerido de la muestra es:
2 2 2
    (1,65)( 20)   33 
n  =  =   = (11)2 = 121
 E  3   3 
 

UNIDAD No 2: “INTERVALOS DE CONFIANZA PARA LA DIFERENCIA ENTRE

DOS MEDIAS DE LA POBLACION”
1. USANDO LA DISTRIBUCIÓN NORMAL
La necesidad de calcular la diferencia entre dos medias de población, tal como la diferencia entre
dos niveles saláriales de dos firmas. El estimador puntual no sesgado de  1    2


es X1 - X 2 
.Los intervalos de confianza son similares a la utilizada para estimar la media. El error estándar
pertinente para la distribución de muestreo es el error estándar de la diferencia entre medias.
El uso de la distribución normal se basa en las mismas condiciones que para la distribución de
muestreo de la media, excepto que se incluyan dos muestras. La fórmula empleada para estimar la
diferencia entre dos medias de población es:
1   2   X 1  X 2   Z   x 1  x 2  ó 1 -  2   X 1 - X 2  Z S  x 1  x 2 
Cuando se conocen las desviaciones estándar de las poblaciones, el error estándar de la diferencia
entre las medias es:
 x x    x   x
2 2
1 2 1 2
Cuando no se conocen las desviaciones estándar de las poblaciones, el error estándar estimado
de la diferencia entre las medias es:
S ( x 1 - x 2) = S 2 + S2
x1 x2
Ejemplo 1: Una muestra de 50 familias de la comunidad “A” tiene un ingreso familiar medio de
13.800$ con una desviación estándar de 2.200$. Una muestra aleatoria de 50 familias de la
comunidad “B” tiene un ingreso medio familiar de 14.600$ con una desviación estándar de 2.800$.
Calcule la diferencia en el ingreso promedio familiar de las dos comunidades empleando un
intervalo de confianza del 95%:
Para el IC = 95% la porción del área Z = 1,96
s 2.200 2.200
sx = = =
7,07
= 311,17
n 50
s 2.800 2.800
sx = = =
7,07
= 396,04
n 50
S ( x 1 - x 2 ) = S2x + S2x =
1 2
(311,17)2 + ( 396,04) 2 = 96.826,77 + 156.847,68 = 503,66

μ 1 - μ 2 = ( X 1 - X 2) ± Z S ( x x 2) = (13.800-14.600) + (1,96) (503,66)

1
800 987,2 = 1.787,2$

800 + 987,2 = 187,2$
De esta manera podemos afirmar que el ingreso familiar de la Comunidad “A” es mayor que el
ingreso familiar de la Comunidad “B” con un monto de $187,17 en el intervalo superior y en el
intervalo inferior el ingreso familiar de la Comunidad “B” es mayor que en la Comunidad “A” con
1.787,17 $, con el 95% de confianza.
2. INTERVALOS DE CONFIANZA PARA LA DIFERENCIA ENTRE DOS PROPORCIONES DE

LA POBLACIÓN
Para estimar la diferencia entre las proporciones de dos poblaciones, el estimativo puntual no
sesgado de (  1   2 ) es ( p1  p 2 ). El intervalo de confianza incluye el uso de error estándar

de la diferencia entre las proporciones. Se incluyen dos muestras. El intervalo de confianza para
estimar la diferencia entre dos proporciones de población es:
  1   2    p1  p 2   Z S  p 1
 p 2 
El error estándar de la diferencia entre proporciones se determina por la siguiente fórmula:
S  p1  p 2   Sp Sp

2 2
1 2
Ejemplo 2: Al tratar de medir la tendencia de los votantes respecto de una propuesta escolar, un
superintendente de colegios recoge muestras aleatorias de 100 de cada una de dos zonas
residenciales principales del distrito escolar. En la primera zona 70 de los 100 votantes consultados
indican que van a votar por la propuesta, mientras que en la segunda zona 50 de los 100 votantes
consultados responden afirmativamente. Calcule la diferencia entre las proporciones reales de
votantes de las dos zonas que intentan votar por la propuesta, utilizando límites de confianza del
95%.:
Para el 95%  Z = 1,96
n1 = 100 n2 = 100
x 70 x 50
p1  1   0,70 p2  2 
n2 100
 0,50
n1 100
P 1 1  P 1  0,701  0,70 (0,70)(0,30) 0,21
S p1   =  0,046
n 100 100 100

P 1 1  P 1  0,501  0,50 (0,50)(0,50) 0,25

S p1   =  0,05
n 100 100 100
S  p1  p 2   Sp Sp =  0,046  2   0,05  2 

2 2
1 2
0,00462  0,068
  1 -  2    p1 - p 2   Z S  p  p  = 0,70 – 0,50 

1 2
(1,96) (0,068) =
0,20  0,13  0,07x100  7%


0,20  0,13  0,33x100  33%
La diferencia estimada con una confianza del 95% indica que la proporción en la primera zona
escolar es mayor que la proporción de la segunda zona escolar entre el 7% al 33%, de los que
afirman aceptar la propuesta.
3. DISTRIBUCIÓN t DE STUDENT E INTERVALOS DE CONFIANZA PARA LA DIFERENCIA

ENTRE MEDIAS:
El uso de una distribución t es apropiado cuando la muestra es pequeña (n< 30). La población esta
normalmente distribuida y  no se conoce. Donde gl = n1 + n2 -2 y el intervalo de confianza es:
( μ1- μ2) 1 = ( X 1 - X 2) ± t S( x 1 x 2)
Ejemplo 3: Para una muestra aleatoria de 10 focos, la vida media de un foco es 4000 horas con
una desviación estándar de 200 horas. Para otra marca de focos cuya vida útil de una muestra
aleatoria de 8 focos es de 4600 horas y una desviación estándar de 250 horas. Se supone que la
vida de los focos en ambas marcas esta normalmente distribuida. El intervalo de confianza del 90%
para estimar la diferencia entre la vida media de operación de las dos marcas de focos es:
gl = n1 + n2 2 = 10 + 8 2 = 16
t = 100% 90% 10% = 1,746
α= = = 5% = 0,05
2 2
S1 200 200
S x1 = = = = 63,30
n1 10 3,16
S2 250 250
Sx = = =
2,83
= 88,30
2 n2 8
S( x 1 x 2) = S x 1 + S x 2 =
2 2
( 63,30) 2 + ( 88,30) 2 = 108,65 horas

( μ1 - μ 2) 1 = ( X 1 - X 2) ± t S ( x 1 x 2) = (4000 –4600)  (1,746)(108,65) =
600 + 189,70 = 410,30

600 189.70 = 789,70
La diferencia estimada con un grado de confianza del 90% indica que la segunda marca de focos,
tiene una vida media de operación más larga que va de 410 horas a 790 horas, al compararla con
la primera marca de focos.
Para estimar la diferencia de las dos medias de la muestras, la regla es aceptable cuando gl  29.
Cuando la muestra es pequeña (n<30) donde todavía puede emplearse la distribución normal
porque gl  29 para la diferencia entre medias.

4. INTERVALOS DE CONFIANZA DE UN LADO PARA LA DIFERENCIA ENTRE DOS MEDIAS:
Una diferencia entre medias se puede estimar por medio del uso de un intervalo de confianza de
un lado.
Ejemplo 4: Para un producto determinado, las ventas medias por vendedor minorista fueron el año
pasado, en una muestra de 10 almacenes, de $ 3.425 con una desviación estándar de 200$. Para
un segundo producto, las ventas medias fueron en una muestra de 12 almacenes de $ 3.250, con
una desviación estándar de $ 175. Se supone que las cantidades de ventas por vendedor están
normalmente distribuidas para los dos productos. Calcule: a) La diferencia mínima entre las ventas
medias de los dos productos, construyendo un intervalo de confianza del 90%, b) La diferencia
máxima entre los niveles medios de ventas del primer y segundo producto con un intervalo de
confianza de 95%.
gl = n 1 + n 2 2 = 10 + 12 2 = 20
a) t = = 1,325
α = 100% 90% = 10% = 0,10
s1 200 200
s x1 = =   63,25
n1 10 3,16
s2 175 175
sx 2  =   50,52
n2 12 3,46
S  x1 - x 2  S x  S x =
2
1
2
2
 63,25    50,52 
2 2
= 80,94
 1 -  2   X 1 - X 2  - t S  x 1  x 2  =  3.425  3.250  (1,325)(80,94)  175  107,25 = 67,75
Por lo tanto, con un intervalo de confianza del 90% la diferencia mínima de la media de los dos
productos indica que el primer producto es mayor comparado con el segundo producto con 67,75 $
gl  n1  n2  2  10  12  2  20
b) t =   = 1,725
 NS  100 %  95 %  5 %  0 , 05 
 1 -  2   X 1 - X 2   t S  x 1  x 2  =  3.425  3.250  1,725 80,94  175  139,62  314,62
Por lo tanto, con un intervalo de confianza del 95% la diferencia máxima de la media entre los dos
productos indica que el primer producto es mayor comparado con el segundo producto con
314,62$

5. DETERMINACIÓN DEL TAMAÑO NECESARIO DE LA MUESTRA PARA ESTIMAR LA

PROPORCIÓN
Antes de recolectar realmente una muestra se puede determinar su tamaño mínimo necesario
especificando el grado de confianza requerido, el error que es aceptable y haciendo una estimación
inicial de  , la proporción desconocida de la población:
z  1   
2
n 2
E
Donde: Z es el valor empleado para el intervalo de confianza especificado.
 Es la estimación de la proporción de la población.
E es el factor de error "más y menos" permitido en el intervalo (siempre la mitad del total
del intervalo de confianza).
Si no es posible una estimación inicial de  , entonces se debe emplear 0,50. Tal estimación es
"conservadora", ya que es el valor para el que sería necesario el mayor tamaño de la muestra. Con
tal suposición, la fórmula general para el tamaño de la muestra se simplifica de la siguiente
2
 z 
manera: n 
2
  E
Al despejar el tamaño de la muestra, siempre se redondea los resultados fraccionarios. Además,
cualquier tamaño calculado de la muestra inferior a 30 debe aumentarse a 30 porque las fórmulas
anteriores se basan en el uso de la distribución normal.
Ejemplo 6: Supóngase que antes de obtener la información se estimó que el intervalo de
confianza es el 95% y que deberá estar en un error de  0,05 y no hubo criterio anterior sobre el
valor probable de  . El tamaño mínimo de la muestra que debe recolectarse es:
 z 
2 2 2
 1 ,96   1,96 
 2 0,05     0,10   19,6   384,16  385
n  =  2
 2E     
El tamaño mínimo que debe recolectarse de la muestra debe ser de 385.
Ejemplo 7: Un equipo de investigación médica está seguro sobre un suero que ha desarrollado
el cual curará cerca del 75% de los pacientes que sufren de ciertas enfermedades. ¿Qué tamaño
debe ser la muestra para que el equipo pueda estar seguro en un 99% que la muestra de los que
se curan esta dentro de más o menos en un error de 0,04 de todos los casos que el suero curará?

 = 75% = 0,75 ; E = 0,04 ; IC = 99% = z = 2,58
 1   
2
(2,58) 2 0,75(1  0,75)
n z 2 = =
(6,6564)(0,75)(0,25) 1,278075
0,0016
=
0,0016
2
E (0,04)
= 780,05  781
Para que este dentro de  0,04 y con una confianza del 99% se debe tomar una muestra de 781 personas.

UNIDAD No 3: “PRUEBA DE HIPÓTESIS RESPECTO AL VALOR DE LA MEDIA DE

POBLACIÓN”
1. ETAPAS BÁSICAS EN PRUEBAS DE HIPÓTESIS:

Se desarrolla un procedimiento para probar la validez de una aseveración acerca de un parámetro
poblacional este método es denominado Prueba de hipótesis y para comprobarla se toma una
muestra.
HIPOTESIS Y PRUEBA DE HIPOTESIS
Tenemos que empezar por definir que es una hipótesis y que es prueba de hipótesis.
Hipótesis es una aseveración de una población elaborado con el propósito de poner aprueba, para
verificar si la afirmación es razonable se usan datos.
En el análisis estadístico se hace una aseveración, es decir, se plantea una hipótesis, después se
hacen las pruebas para verificar la aseveración o para determinar si es o no verdadera.
Por tanto, la prueba de hipótesis es un procedimiento basado en la evidencia muestral y la teoría
de probabilidad; se emplea para determinar si la hipótesis es una afirmación razonable.
REGLAS EMPÍRICAS PARA FORMULAR HIPÓTESIS
Algunas reglas empíricas para decidir qué proposición se utiliza como hipótesis nula y cuál como
hipótesis alternativa.
La conclusión a la que se espera llegar como resultado de la prueba generalmente se usa como
hipótesis alternativa.
 La hipótesis nula ( H 0) , se refiere siempre a un valor especificado del parámetro de

población, no a una estadística de muestra. El planteamiento de la hipótesis nula siempre
contiene a un signo de igualdad con respecto al valor especificado del parámetro.
 La hipótesis nula es la que debe ser comprobada.
 La hipótesis nula y alternativa son complementarias, es decir, las dos contemplan
detalladamente todos los valores posibles que se supone pueden asumir los parámetros.
 La hipótesis alterna ( H 1) , es cualquier hipótesis que difiera de la hipótesis nula. El

planteamiento de la hipótesis alterna nunca contiene un signo de igualdad con respecto al
valor específico del parámetro.
La Prueba de una hipótesis: se realiza mediante un procedimiento sistemático de cinco paso:
Por lo general, se establece como hipótesis alternativa, la que trata de probar algo que significa un
cambio sobre lo que se encuentra preestablecido (por resultados anteriores al tes o por inercia) y
que está representado por la hipótesis nula. La hipótesis nula es siempre conservadora, frente a la
alternativa que propugna el cambio.
PRIMER PASO: FORMULAR LA HIPÓTESIS NULA Y LA HIPÓTESIS ALTERNATIVA : La

hipótesis nula (Ho) es el valor hipotético del parámetro que se compara con el resultado de la
muestra. Se rechaza solamente si no es probable que ocurra el resultado de la muestra dada la
corrección de la hipótesis. La hipótesis alternativa (H1) se acepta sólo si se rechaza la hipótesis
nula.
SEGUNDO PASO: ESPECIFICAR EL NIVEL DE SIGNIFICACIÓN QUE SE VA A UTILIZAR : El
nivel de significación es el estándar estadístico que se especifica para rechazar la hipótesis nula. Si
se especifica un nivel de significación del 5%, entonces se rechaza la hipótesis nula sólo si el
resultado de la muestra es tan diferente del valor hipotético que una diferencia de dicha cantidad o
mayor ocurriría por casualidad con una probabilidad de 0,05 o menos. Obsérvese que si se utiliza
el nivel de significación del 5%, hay una probabilidad de 0,05 de rechazar la hipótesis nula cuando
es verdadera. Esto se denomina error de tipo I. La probabilidad del error de tipo I, es siempre
igual al nivel de significación que se utiliza como el estándar para rechazar la hipótesis nula, se
designa con la minúscula griega α (alfa). Así pues, α también representa el nivel de significación.
Los niveles más comúnmente empleados en la prueba de hipótesis son los niveles del 5 y del 1%.
Un error de tipo II ocurre si se acepta la hipótesis nula cuando es falsa, en el subtítulo 3 se
explica la determinación de la probabilidad del error de tipo II. La tabla 1 resume los tipos de
decisiones y las posibles consecuencias de las decisiones que se hacen en las pruebas de
hipótesis.
TERCER PASO: SELECCIONAR LA ESTADÍSTICA DE PRUEBA : La estadística de prueba será
la estadística de la muestra (el estimador no sesgado del parámetro en prueba), o una versión
transformada de la estadística de la muestra. Por ejemplo, para probar un valor hipotético de la
media de la población, la media de una muestra aleatoria tomada de dicha población, podría servir
como estadística de la prueba. Sin embargo, si la distribución de muestreo de la media es normal,
entonces el valor de la media de la muestra se transforma típicamente en un valor de Z.
CUARTO PASO: ESTABLECER EL VALOR O LOS VALORES CRÍTICOS DE LA ESTADÍSTICA
DE PRUEBA: Habiendo especificado la hipótesis nula, el nivel de significación y la estadística de
prueba que se va a utilizar, puede establecer el valor o los valores críticos de la estadística de
prueba. Puede haber uno o dos valores críticos según se efectúe una prueba de una cola o de dos
colas (ver figura 1). En cualquier caso, un valor crítico identifica el valor de la estadística de prueba
requerido para rechazar la hipótesis nula.
QUINTO PASO: DETERMINAR EL VALOR DE LA ESTADÍSTICA DE PRUEBA : Por ejemplo, al
probar un valor hipotético de la media de la población se toma una muestra aleatoria y se
determina el valor de la media de la muestra. Si el valor crítico se estableció como un valor Z,
entonces la media de la muestra se convierte a un valor Z.
SEXTO PASO: TOMAR LA DECISIÓN : El valor observado de la estadística de la muestra se

compara con el valor o los valores críticos de la estadística de la muestra. Entonces, la hipótesis
nula se acepta o se rechaza. Si la hipótesis nula se rechaza, se acepta la hipótesis alternativa. A su
vez, esta decisión será aplicable a otras decisiones que deban tomar los gerentes de operaciones,
por ejemplo si se mantiene un patrón de operación, o cuál de las dos estrategias de mercadeo
debe emplearse.
2. PRUEBA DE UN VALOR HIPOTÉTICO DE LA MEDIA UTILIZANDO LA
DISTRIBUCIÓN NORMAL:
La distribución de probabilidad normal se puede utilizar para probar un valor hipotético de la media
de la población (1) cuando n ≥ 30, debido al teorema del límite central, o (2) cuando n< 30 pero
la población está normalmente distribuida y se conoce δ.
Si se utiliza una prueba de dos colas cuando estamos interesados en una desviación posible
en cualquier dirección del valor hipotético de la media. La fórmula para establecer los valores
críticos de la media de la muestra donde el valor hipotético de la media de la población µo, es el
punto de referencia y no la media de la muestra.
EJEMPLO 1: Un auditor quiere probar la suposición de que el valor medio de todas las cuentas
por cobrar, en una firma es 260 $. Se toma una muestra de 36 cuentas y se encuentra que la
media es 240$. Deseamos rechazar el valor supuesto de que es 260 $ sólo si se contradice
claramente con la media de la muestra y de esta manera, al valor hipotético debe dársele el
"Beneficio de la duda", pruebe esta hipótesis a un nivel de significación del 5%. Suponga que la
desviación estándar de todas las cuentas por cobrar es δ = 43 $.
1er. Paso: Hipótesis: Ho: µo = 260; H1: µo  260
2do. Paso: Nivel de significación: α = 0,05
3er. Paso: Estadística de prueba: x = 240 basado en una muestra de n = 36 y con δ =43
4to.Paso: Valor crítico: NS = 5% =  = 0,05 (ERROR TIPO I) =  1,96 (VALOR TABLA DE

LA UNIDAD 3)
5to.Paso: Establece el valor o los valores críticos de la estadística de prueba:
x  0 240  260
Z =
7,17
 2,79
x

 43 43
Donde:  x     7,17
n 36 6
6to.Paso: Tomar la decisión: El valor de Z calculado está en la región de rechazo del extremo
izquierdo de la figura N º 1. De esta manera, se rechaza la hipótesis nula y se acepta la hipótesis
alternativa, la misma indica que µ ≠ 260, es decir, que la media de las cuentas por cobrar son
diferentes a 260 $.
Una prueba de una cola, es apropiada cuando estamos interesados en las posibles
desviaciones en una sola dirección desde el valor hipotético de la media. El auditor del ejemplo 1
puede no estar interesado en que el promedio verdadero de todas las cuentas por cobrar sea 260$,
sino en que pueda ser menor de 260$. De esta manera, si da el beneficio de la duda a la
afirmación de que la media verdadera es por lo menos de 260$ la hipótesis nula y la hipótesis
alternativa son:
Ho: µ ≥ 260 y H1: µ < 260
Solo hay una región de rechazo para una prueba de un extremo, y en el ejemplo anterior la prueba
de un extremo está siempre en la cola que representa el apoyo de la hipótesis alternativa. Así,
como para una prueba de dos extremos, el valor crítico puede determinarse para la media como tal
o en términos de un valor Z. Sin embargo, los valores críticos para pruebas de un extremo difieren
de los de las pruebas de dos extremos, porque la porción de área dada está toda en un extremo de
la distribución. La tabla de los valores de Z necesarios para pruebas de un extremo y dos
extremos, indicada en la unidad 2.
EJEMPLO 2: Suponga que el auditor plantea la hipótesis nula de que el valor medio de todas las
cuentas por cobrar es por lo menos de 260 $. Dado que la media de la muestra es 240 $ y la
desviación estándar de la población es 43$, probamos esta hipótesis a un nivel de significación del
5% por los dos siguientes procedimientos:

Ho: µ ≥ 260 y H1: µ< 260
El valor crítico en términos de Z, donde Z crítico (α = 0,05)= -1,65
x  0 240  260
Z =
7,17
 2,79
x
De esta manera, se rechaza la hipótesis nula. La figura No 2 describe gráficamente el valor crítico
para esta prueba de una cola en términos de Z.
3. PRUEBA DE UNA PROPORCIÓN HIPOTÉTICA EMPLEANDO LA DISTRIBUCIÓN

NORMAL:
Como se explico, la distribución normal se puede utilizar como una aproximación binomial cuando
n ≥ 30 y tanto n p > 5 como n(1 - p) ≥ 5. Con esta base se construyen los intervalos de confianza
para la proporción, donde también se presenta el error estándar de la proporción.
En la prueba de hipótesis, el valor del error estándar de la proporción empleando en conjunto con
la prueba de hipótesis es:
 0 (1   0)
p
n
La fórmula para el error estándar de la proporción se debe incluir el factor de corrección finito
cuando n > 5% N
El procedimiento asociado con la prueba de un valor hipotético de la proporción de la población es
idéntico al descrito anteriormente, excepto que se prueba la proporción en lugar de la media. De
esta manera, la fórmula de la estadística Z para probar un valor hipotético de la proporción es:

p 
Z
p
EJEMPLO 3: Se supone que más del 5% de las partes que se están produciendo en un proceso
de fabricación son defectuosos. Para una muestra de 100 partes, 10 son defectuosas. Pruebe la
hipótesis nula a un nivel del 5%.
Ho:   0,05 y H1:  > 0,05
n = 100;  = 0,05; Nivel de significación (NS) = 5% = α = 0,05
Z crítico (α = 0,05) = + 1,65 se garantiza el uso de la distribución normal porque n = 100
 0 (1   0) 0,05(1  0,05) (0,05)(0,95)

p =
100

100
 0,022
n
Se supone que la muestra es menor que el 5% del tamaño de la población y por lo tanto no se
utiliza el factor de corrección finito.
p  0,10  0,05 0,05

Z =   2,27
p 0,022 0,022
10
Donde: p   0,10
100
El valor hipotético de Z está en la región de rechazo; por lo que se rechaza la suposición que el 5%
o menos son defectuosos y se acepta la hipótesis alterna la misma que afirma que mas del 5% son
defectuosos utilizando un nivel de significación del 5%.
4. PRUEBA DE UN VALOR HIPOTÉTICO DE LA MEDIA USANDO LAS DISTRIBUCIONES t DE

STUDENT:
Es adecuado utilizar las distribuciones de t cuando la muestra es pequeña (n< 30), la población
está normalmente distribuida y δ no se conoce. El uso de la t como estadística de prueba es
mediante la siguiente fórmula:
x  0
t=
Sx
EJEMPLO 4: Una máquina para enlatar conservas de pescado ha sido regulada para que el
contenido promedio de cada lata sea de 16 onzas, además se considera que el peso de las latas

están distribuidas normalmente. Usando un nivel de significación del 5%, ¿Diría usted que la
máquina ha sido adecuadamente regulada, si una muestra de 20 latas dio un peso medio de 16,05
onzas y una desviación estándar de 1,5 onzas?
Ho: µ = 16 H1: µ  16
n = 20; x  16,05 onzas S = 1,5 onzas
gl  n  1  20  1  19 
 
t (crítico) =  5% =  2,093
NS   2,5 %  α  0,025 
 2 
S 1,5 1,5
Sx     0,34 onzas
n 20 4,47
x  0 16,05  16
 1,47
t (calculado) = =
0,34
Sx
NOTA.- El valor crítico debe dividirse entre dos cuando la hipótesis plantea una igualdad.
Por lo tanto, a un nivel de significación del 5%, se acepta la hipótesis nula ya que el valor de t
calculado esta en la región de aceptación, la misma que indica que la máquina ha sido regulada
correctamente pesando 16 onzas el contenido.
5. PRUEBA DE UN VALOR HIPOTÉTICO DE LA MEDIA USANDO LA DESIGUALDAD
DE CHEBYSHEV:
Es apropiado el uso de la desigualdad de CHEBYSHEV para probar un valor supuesto de la media
cuando la muestra es pequeña (n<30) y la población no esta normalmente distribuida. La
probabilidad máxima de que la media de la muestra esté situada a más de K unidades de error
estándar de la media de la población es:
1
P ( X - µ > k δ x ) < 2
K
Para utilizar esta desigualdad, simplemente determinamos la diferencia entre medias de la muestra
y la media hipotética en unidades de error estándar de la media (k), luego comparamos el valor
1
al nivel de significación designado. Por ejemplo el valor mínimo de k necesario para
2
K

1
rechazar la hipótesis nula es 4,47 y a un nivel de significación del 5% porque =
 4,47  2
0,05. Cualquier prueba empleando la desigualdad de CHEBYSHEV debe ser una prueba de dos
colas, puesto que la distribución de la población no se supone simétrica.
EJEMPLO 5: Se formula la hipótesis de que el salario medio semanal de una firma determinada
es $ 200 y existen buenas razones para creer que la distribución de los montos de salarios
semanales no sigue una distribución normal. Para una muestra aleatoria de 10 empleados
contratados, el salario medio es 180 $ con una desviación estándar de 14 $. Se debe rechazar o
aceptar la hipótesis nula si se emplea un nivel de significación del 5%?
Ho: µ = 200 y H1: µ  200
n = 10; x = 180 $; S = 14 $.; NS = 5%
S 14 14
Sx  =   4,43
n 10 3,16
x  0 180  200
 - 4,51
K = =
4,43
Sx
1
Para tomar la decisión se debe calcular la probabilidad P = y este valor comparar con el
2
K
nivel de significación. Si el valor de la probabilidad es menor que el nivel de significación (P <
NS) se rechaza la hipótesis nula y si es mayor (P > NS) se acepta la hipótesis nula.
1 1 1
P=   0,049
 4,51 20,34
= 2
2
K
La probabilidad observada (P) es menor que el nivel de significación (NS) 0,05, por lo tanto la
hipótesis nula se rechaza y se acepta la hipótesis alternativa la misma que indica que la media de
los salarios de todos los trabajadores contratados por hora es diferente a $ 200.
6. PRUEBA DE UNA PROPORCIÓN HIPOTÉTICA UTILIZANDO LAS
DISTRIBUCIONES BINOMIALES:
Generalmente las pruebas de proporciones basadas en el uso de las distribuciones

binomiales son pruebas de una cola. Dado el valor hipotético de la proporción de la
población, la "región" de rechazo es el conjunto de observaciones de la muestra que se
desvía del valor hipotético y para la cual la probabilidad de ocurrencia por casualidad no

excede el nivel de significación especificado.

EJEMPLO 6: El director de una universidad afirma que, hacia el 1 de Marzo es menor del 50% de
los graduados tendrá un empleo a tiempo completo. Se toma una muestra aleatoria de 10
graduados el 1 de Marzo y sólo dos tienen contrato de trabajo. Se puede rechazar la afirmación del
director, utilizando un nivel de significación del 5%? Use la distribución binomial.
Ho:  ≥ 0,50 y H1:  < 0,50

Basándose en la distribución binomial, los valores de probabilidad asociados con menos de 5
estudiantes que hayan obtenido empleo, dada una proporción de población de 0,50, se dan en la
tabla siguiente, con n = 10 y  = 0,50.
TABLA N º 1
VALORES DE PROBABILIDAD ASOCIADOS CON MENOS CINCO DE DIEZ ESTUDIANTES QUE
HAN OBTENIDO EMPLEO
NÚMERO DE ESTUDIANTES PROBABILIDAD PROBABILIDAD ACUMULADA
0 0,0010 0,0010
1 0,0098 0,0108
2 0,0439 0,0547
3 0,1172 0,1719
4 0,2051 0,3770
5 0,2461 0.6231
Valores críticos de la estadística de prueba: La estadística de prueba es el número de

estudiantes en la muestra de n = 10 que ya tienen empleo. Para rechazar la hipótesis nula a un
nivel de significación del 5% sólo "0 ó 1" estudiante tendrían que tener empleo. Esto porque
las probabilidades se acumulan en la cola "inferior" de esta distribución binomial para determinar la
región de rechazo. Al incluir "2" estudiantes en la región de rechazo, tenemos una probabilidad
acumulada (para "0,1 ó 2") de 0,0547 que excede el nivel de prueba designado de 0,05, por lo
tanto se acepta la hipótesis nula. Es decir, “si la probabilidad acumulada es mayor que el nivel de
significación la hipótesis nula se acepta y si la probabilidad acumulada es menor que el nivel de
significación la hipótesis nula se rechaza”.
Resultado de la prueba: Sobre la base de los valores críticos identificados anteriormente, se

puede observar que sólo dos estudiantes de una muestra de diez tienen empleo no permite
rechazar la afirmación del director a un nivel de significación del 5%, por no ser aquella una
cantidad suficientemente baja.

7. PRUEBA DE UN VALOR HIPOTÉTICO DE LA VARIANZA EMPLEANDO LAS

DISTRIBUCIONES DE JI - CUADRADO:
Para una población normalmente distribuida la relación sigue una distribución de

probabilidad X2, (JI-CUADRADO) según los grados de libertad (n - 1). Por lo tanto, la
estadística que se utiliza para probar un valor hipotético de la varianza de la población es:
n  1 S2
X2 =
2
EJEMPLO 7: La vida útil media de operación para una muestra de 10 focos es 4000 horas, con
una desviación estándar de 200 horas. Se supone que la vida útil de operación de los focos en
general, está normalmente distribuida. Suponga que, antes de recoger la muestra, se formula la
hipótesis nula de que la desviación estándar de la población no es mayor a 150 horas. Basado en
los resultados de la muestra, esta hipótesis se prueba al nivel de significación del 1% de la
siguiente manera:
0  0 > 22500
Ho: 2 ≤ 22500 (porque (150)2 = 22500) H 1: 2
n = 10; x = 4000; S = 200; δ = 150; NS = 1% =  = 0, 01
X2 crítico = (gl = 10 – 1 = 9 y α = 0,01) = 21,67 (Valor del apéndice 7) CORREGIR
n  1 S2 (10  1)  200   9 40000  360000

2
X2 = = = 16
2 150 2
22500 22500
Por lo tanto, la hipótesis nula la misma que indica que δ 2 ≤ (150) 2 no se puede rechazar a un
nivel de significación del 1%.
9. ERRORES DE TIPO I Y DE TIPO II EN PRUEBAS DE HIPOTESIS:

T A B L A No 2
CONSECUENCIAS DE DECISIONES EN LA PRUEBA DE HIPÓTESIS
DECISIONES POSIBLES ESTADOS POSIBLES
Hipótesis nula verdadera Hipótesis nula falsa
Aceptación de la hipótesis nula Correctamente aceptada ERROR DE TIPO II
Rechazo de la hipótesis nula ERROR DE TIPO I Correctamente rechazada

Los errores de TIPO I y TIPO II se presentan totalmente con respecto a las pruebas de una cola
para una media hipotética. Sin embargo, los conceptos básicos ilustrados aquí también se aplican
a otros modelos de pruebas de hipótesis.
La probabilidad del error de tipo I , es siempre igual al nivel de significación  (alfa) utilizado
al probar la hipótesis nula. Esto es porque por definición la porción de área en la región de rechazo
es igual a la proporción de los resultados de la muestra que ocurriría en aquella región si la
hipótesis nula es verdadera.
La probabilidad del error de tipo II, se designa generalmente con la letra griega β (beta). Se
puede determinar solamente respecto de un valor específico incluido en el rango de la hipótesis
alternativa.
EJEMPLO 8: Como en el ejemplo 2, la hipótesis nula que se va a probar que la media de todas
las cuentas por cobrar es por lo menos $ 260 y esta prueba se va a llevar a cabo a un nivel de
significación del 5%. Además, el auditor indica que consideraría una media real de 260 $.(o menos)
como una diferencia importante y material del valor hipotético de la media. Como antes, δ = 43 y
el tamaño de la muestra es n = 36 cuentas. La determinación de la probabilidad del error de tipo II
con una media alterna de $ 240 requiere:
a) Formular la hipótesis nula y alternativa para esta situación de prueba.
Ho: 0 ≥ 260 y H1:  0 < 260
b) Determinar el valor crítico, de la media de la muestra que se utilizará al probar la hipótesis nula a
un nivel de significación del 5%.
n = 36;   43 ; NS = 5% =  = 0,05
xCR   0  Z  x = 260 + (-1,65)(7,17) = 248,17
 43 43
Donde:  x     7,17
n 36 6
c) Identificar la probabilidad del error de tipo I asociado con el uso del valor crítico calculado
anteriormente como base para la regla de decisión.
La probabilidad del ERROR DE TIPO I ES IGUAL A 0,05 (el nivel de significación utilizado para
probar la hipótesis nula).

d) Identificar la probabilidad del error de tipo II asociado con la regla de decisión, dado el valor
específico de la media alternativa de $ 240.
LA PROBABILIDAD DEL ERROR DE TIPO II es la probabilidad de que la media de la muestra
aleatoria igual o exceda a 248,17$ dado que la media de todas las cuentas es realmente 240 $.
Z=
xCR   1  248,17  240  +1,14
x 7,17
P(error de tipo II) = P(Z ≥ + 1,14) = 0.5000 - 0,3729 = 0,1271  0,13
Z = 1,14 = 0,3729 (valor encontrado en el apéndice 4)
La siguiente figura 4 ilustra el procedimiento seguido en el ejemplo 8. En general, el valor crítico de
la media determinado con respecto a la hipótesis nula se "reduce" y se utiliza como el valor crítico
respecto de la hipótesis alternativa específica.
Cuando el nivel de significación y el tamaño de la muestra se mantienen constantes, la

probabilidad del error de tipo II disminuye a medida que el valor específico de la alternativa de la
media se coloca más lejos del valor de la hipótesis nula. Aumenta a medida que el valor de la
alternativa se coloca más cerca del valor de la hipótesis nula.
10. DETERMINACIÓN DEL TAMAÑO NECESARIO DE LA MUESTRA PARA PROBAR

LA MEDIA:
Antes de recoger una muestra, el tamaño necesario de ésta se puede determinar especificando: a)
El valor hipotético de la media. b) Un valor alternativo específico de la media tal que la diferencia
del valor hipotético nulo sea considerable. c) El nivel de significación que se va a utilizar en la

prueba. d) La probabilidad del error de tipo II que se va a permitir. e) El valor de la desviación

estándar de la población. La formula para determinar el tamaño mínimo necesario de la muestra en
conjunto con la prueba de un valor hipotético de la media, basado en el uso de la distribución
normal es:
n
 Z 0  Z 1 
2 2
 1 0 2
Donde Zo es el valor crítico de Z utilizado en conjunto con el nivel de significación especificando
(nivel α) mientras que Z1, es el valor de Z respecto de la probabilidad designada del error de tipo
II (nivel β). El valor de δ debe conocerse o calcularse sobre alguna base general o histórica. La
fórmula anterior se puede utilizar para pruebas de una o dos colas. El único valor difiere es el valor
de Zo que se utiliza para los dos tipos de pruebas. Al resolver el tamaño mínimo de la muestra,
cualquier resultado fraccional se redondea siempre. Además, a menos que δ se conozca y la
población esté normalmente distribuida, cualquier tamaño calculado de la muestra menor que 30
se debe aumentar a 30 porque la formula anterior se basa en el uso de la distribución normal.
EJEMPLO 9: Un auditor desea probar la suposición de que el valor medio de todas las cuentas
por cobrar, es 260$. Considera que la diferencia sería significativa e importante si la media
verdadera está en la alternativa específica de por lo menos 240$. Los niveles aceptables del error
de tipo I (α) y del error de tipo II (β) son 0,05 y 0,10 respectivamente. Se sabe que la desviación
estándar de todas las cuentas por cobrar es 43$. El tamaño de la muestra que se debería recoger,
como mínimo, para llevar a cabo esta prueba es:
n
 Z  
0 Z1 
2 2
 1,96 1,28  43
2 2
 48,53 = 49
 1 0 
=
2
 240 260 2
Puesto que Zo y Z1, siempre tendrán signos algebraicos opuestos, los dos valores de Z siempre
acumulan en el numerador. Si el valor acumulado es negativo, el proceso de elevar al cuadrado da
como resultado un valor positivo.
EJEMPLO 10: Suponga que el auditor en el ejemplo 9 está preocupado por una discrepancia en
cualquier dirección del valor nulo hipotético de 260$ y que una discrepancia de 20 en cualquier

dirección se considera importante para la media hipotética valor tomado como media alterna. Dada
la otra información y las especificaciones del ejemplo 9, el tamaño mínimo de la muestra que se
debe recoger es:
n
 Z  
0 Z1 
2 2
 1,96  1,28  43
2 2
 48,53  49
 1 0
=
2
 240  260 2
ó se puede plantear de la siguiente manera:
n
 Z 0  Z 1 
2 2
1,28  (1,96 2  43 2 
 1   0 
48,53  49
 280  260 2
=
2

UNIDAD No 4: “PRUEBA DE HIPÓTESIS CON LA DIFERENCIA ENTRE DOS MEDIAS”
1. PRUEBA DE LA DIFERENCIA ENTRE DOS MEDIAS UTILIZANDO LA

DISTRIBUCIÓN NORMAL:
El procedimiento y el uso de la distribución normal se basa en las mismas condiciones que
para el caso de una muestra, excepto que el error estándar de la diferencia entre medias y
se incluyen dos muestras independientes. La fórmula general para determinar el valor de Z
es la siguiente:
( x1  x2)  ( 1   2) ( x1  x2)  ( 1   2)
Z ó Z
 x1  x2 S x1  x2
En las fórmulas anteriores podemos comenzar con cualquier diferencia supuesta (µ 1 - µ2) que se va
probar. Sin embargo, la hipótesis nula que se prueba usualmente es que las dos muestras se han
obtenido de poblaciones con medias iguales. En este caso (µ 1 - µ2) = O, y las fórmulas anteriores
se simplifiquen así:
(  ) (  )
Z  X1 X 2 ó Z  X1 X 2
 x1 x2 S x1 x2
Al probar la diferencia entre dos medias en el error estándar, la hipótesis nula de interés es
generalmente no sólo que las medias iguales, sino que las dos muestras se obtuvieron de hecho
de la misma población de valores. Esto significa que δ1 = δ2, lo que simplemente podemos
designar como δ. La supuesta varianza común se estima generalmente combinando las dos
ˆ
2
varianzas de la muestra, y el valor estimado de se utiliza entonces como la base para el error
estándar de la diferencia. La estimación combinada de la varianza de la población es:
2

 
(n1  1) S12  (n2  1) S 22  
ˆ
n1  n2  2
El error estándar estimado de la diferencia, basado en la suposición de que las desviaciones
estándar de la población son iguales, es:
ˆ  ˆ
2 2
x 
1

x2 n n 1 2

La suposición de que las dos varianzas de la muestra se obtuvieron de la misma población se

puede probar como la hipótesis nula. Las pruebas relacionadas con la diferencia entre medias
pueden ser de una cola o de dos colas, como se demuestra en los siguientes ejemplos.
EJEMPLO 1: El salario medio semanal de una muestra de 30 empleados de una gran firma es
180 $, con una desviación estándar 14 $. En otra firma una muestra aleatoria de 40 empleados
tiene un salario medio de 170 $, con una desviación estándar 10 $. No se puede suponer que las
desviaciones estándar de las dos poblaciones de montos de salarios son iguales. Probamos la
hipótesis de que no hay diferencia entre los montos medios de salarios semanales en las dos
firmas, utilizando un nivel de significación del 5% de esta manera.
Ho: µ1 = µ2 H1 : µ1 ≠ µ2
n1 = 30 n2 = 40
x1 = 180 x2 = 170
S1 = 14 S2 = 10
Z crítico (α = 0,01) = ± 1,96
(  )
Z  X1 X 2 =
(180  170)
 +3, 32
S x1 x2
3,01
S1 14 14 S 2 10 10
Donde: S
x1
   = 2,56 S x2     1,58
n1 30 5,477 n2 40 6,325
Sx  x 
1 2
S2  S2 =
x1 x2  2,56 2  1,58 2  6,5536  2,4964 = 3,01
De esta manera, se rechaza la hipótesis nula y se acepta la hipótesis alternativa según la

cual el salario medio semanal en las dos firmas es diferente utilizando una nivel de significación del
5%.
EJEMPLO 2: Antes de ver los resultados de la muestra del ejemplo 1, un analista creía que el
salario medio de la primera firma era mayor que el de la segunda. Para someter su afirmación a
una prueba crítica, el analista da el beneficio de la duda a la posibilidad opuesta y formula la
hipótesis nula de que el salario promedio en la primera firma es igual o menor que el promedio de
la segunda firma. Probamos esta hipótesis a un nivel de significación del 1%, sin suponer que las
desviaciones estándar de las dos firmas son iguales, de esta manera:
Ho: µ1 ≤ µ2 H1: µ1 > µ2
n1 = 30 n2 = 40

x1 = 180 x2 = 170
S1 = 14 S2 = 10
Z crítico (α = 0,01) = + 2,33 (valor para una sola cola o extremo)
Z calculado = 3,32 (del ejemplo 1)
De esta manera, la hipótesis nula se rechaza y se acepta la hipótesis alternativa la misma que
indica del promedio salarial en la primera firma es mayor que el promedio de la segunda firma.
2. PRUEBA HIPOTETICA DE LA DIFERENCIA ENTRE DOS PROPORCIONES:
Cuando queremos probar la hipótesis de que las proporciones en dos poblaciones no son
diferentes, las proporciones de las muestras se combinan como una base para determinar el error
estándar de las diferencias entre las proporciones. La estimación combinada de la proporción de la
población, basada en las proporciones obtenidas en dos muestras independientes es:
n1 p1  n 2 p 2
ˆ 
n1  n 2
El error estándar de la diferencia entre las proporciones utilizadas en conjunto con la prueba de la
suposición de no diferencia es:
ˆ 1  ˆ  ˆ 1  ˆ 
 p1  p 2  
n1 n2
La fórmula de la estadística Z para probar la diferencia entre dos proporciones es:
p1  p 2
Z
 p1 p 2
Una prueba de la diferencia entre proporciones se puede llevar a cabo bien sea como una prueba
de una extremo o una prueba de dos extremos.
EJEMPLO 3: Una muestra de 50 familias en una comunidad indica que 10 de ellas están viendo
un programa especial de televisión sobre la economía nacional. En una segunda comunidad 15
familias de una muestra aleatoria de 50 están viendo el mismo programa. Probamos la hipótesis de
que la proporción total de televidentes en las dos comunidades no difiere utilizando un nivel de
significación del 1%, de la siguiente manera:
H0: 1   2 H1: 1   2
Z crítico (α = 0,01) = ± 2,58

10 15
p1  = 0,20 p2  = 0,30
50 50
n1 p1  n2 p2 =  50 0,20   50 0,30  10  15 = 0,25

ˆ  50  50
n1  n2 100
ˆ 1  ˆ  ˆ 1  ˆ   0,251  0,25  0,251  0,25 = 0,087

 p1  p 2   =
50

50
n1 n2
p1  p 2
Z =
0,20  0,30
 -1,15
 p1 p 2 0,087
De esta manera, este valor Z está en la región de aceptación de la hipótesis nula, por lo tanto se
acepta, la misma que indica que no hay diferencia en la proporción de televidentes en las dos
comunidades que ven el programa especial sobre economía nacional, con un nivel de significación
del 1%.
3. PRUEBA DE LA DIFERENCIA ENTRE DOS MEDIAS UTILIZANDO LAS
DISTRIBUCIONES t DE ESTUDENT:
Al probar la diferencia entre dos medias empleando las distribuciones t, es necesario suponer que
las varianzas de las dos poblaciones son iguales.
EJEMPLO 4: Diez barras de acero fabricadas por un proceso A tienen una fuerza de ruptura
media de 50 con una desviación estándar de 10, mientras que 8 fabricadas por un proceso B
tienen una fuerza de ruptura media de 55 con una desviación estándar de 12. Suponga la
población de fuerza de ruptura normal con una misma desviación estándar. Pruebe la hipótesis a
un nivel del 1% que los dos procesos producen acero de la misma fuerza.
Ho: µ1 = µ2 H1: µ1 ≠ µ2
n1 = 10 n2 = 8
x1 = 50 x2 = 55
S1 = 10 S2 = 12

 gl  n1  n2  2  10  8  2  16
 
t (crítico)  NS  1% 0,01   2,921
 2  2  2  2  0,005 
 
 
(n1  1) S12  (n2  1) S 22
2   (10  1)  10  2  (8  1)  12  2
ˆ  =  119,25
n1  n2  2 10  8  2
ˆ 2 ˆ2 = 119 ,25 119 ,25

 x1 x2   10

8
 5,2
n1 n2
( X 1  X 2)
t =
(50  55 )
 -0,96
S x 1 x 5,2
2
Por lo tanto, el valor de t calculado está en la región de aceptación de la hipótesis nula, la misma
que indica que el proceso “A” produce acero de la misma resistencia del proceso “B” y ésta no
puede ser rechazada a un nivel de significación del 1%.
4. PRUEBA DE LA DIFERENCIA ENTRE DOS MEDIAS BASADAS EN
OBSERVACIONES PAREADAS:
Cuando las muestras se toman como pares de valores, como en el caso de la determinación del
nivel de productividad de cada empleado antes y después de un programa de capacitación. Esto se
conoce como observaciones pareadas o pares pareadas. Asimismo, a dos muestras con
observaciones pareadas se denominan muestras dependientes.
En las observaciones pareadas, la prueba apropiada para la diferencia entre las medias de las dos
muestras es primero determinar la diferencia d. entre cada par de valores y luego probar la
hipótesis nula de que la diferencia promedio en la población es cero. De esta manera, desde el
punto de vista de cálculo la prueba se aplica a una muestra de valores d. La media y la desviación
estándar de los valores d. de la muestra se obtienen usando las fórmulas básicas, excepto que d
reemplaza a x. La diferencia media para un conjunto de observaciones pareadas es:
d
d 
n
La fórmula de desviaciones y la fórmula del cálculo para la desviación estándar de las diferencias
entre observaciones pareadas son, respectivamente:

  d d 
2
d2  nd2
Sd  ó Sd 
n 1 n 1
El error estándar de la diferencia media entre observaciones pareadas se obtiene por la fórmula:
Sd
Sd 
n
Generalmente se supone que los valores de d están normalmente distribuidos, las distribuciones t
son apropiadas para probar la hipótesis nula de que d = 0.
Los grados de libertad son la cantidad de pares de valores observados menos uno ó n = 1. En las
pruebas de observaciones pareadas pueden ser de una o dos colas. La estadística de prueba
utilizada para probar la hipótesis de que no hay diferencia, entre las medias de un conjunto de
observación pareadas es:
d
t
Sd
EJEMPLO 4: Un fabricante de automóviles recoge información sobre el consumo de gasolina,
para una muestra de 10 automóviles de varias categorías de peso con el uso de una gasolina de
graduación estándar con o sin un aditivo especial. Por supuesto, los motores fueron ajustados a las
mismas especificaciones antes de cada prueba y los mismos conductores fueron empleados para
las dos condiciones de la gasolina (sin que el conductor conociera qué gasolina se estaba
utilizando). Dados los datos de la tabla siguiente probamos la hipótesis de que no hay diferencia
entre el kilometraje obtenido con y sin el aditivo, utilizando un nivel de significación del 5% de la
siguiente manera:
TABLA N º 1
KILOMETRAJE Y HOJA DE TRABAJO PARA CALCULAR LA DIFERENCIA
MEDIA Y DESVIACIÓN ESTÁNDAR DE LA DIFERENCIA
Automóviles Kilometraje con Kilometraje sin d d2
aditivo aditivo
1 26,7 26,2 0,5 0,25
2 25,8 25,7 0,1 0,01
3 21,9 22,3 -0,4 0,16
4 19,3 19,6 -0,3 0,09
5 18,4 18,1 0,3 0,09
6 15,7 15,8 -0,1 0,01
7 14,2 13,9 0,3 0,09
8 12,6 12,0 0,6 0,36
9 11,9 11,5 0,4 0,16

10 10,3 10,0 0,3 0,09

TOTAL 176,8 175,1 +1,7 1,31
176,8
Promedio con aditivo =  17,68 kilómetro por galón.
10
175,1
Promedio sin aditivo =  17,51 Kilómetro por galón.
10
Ho: µ1 = µ2 (o, para las observaciones pareadas que µd =o)
H1: µ1 ≠ µ2 (o, para las observaciones pareadas que µd =o)
 gl  n  1  10  1  9 
 
t crítico =  NS  0,05 = ± 2,262
 2 2   0 ,025
2
d 1,7 d2  nd2 1,31  (10)  0,17  2
d  =
n 10
 0,17 ; Sd  =  01134 =
n 1 10  1
0,337
Sd 0,337 0.337
Sd  =
10

3,16
= 0,107
n
d 0,17
t =
0,107
= + 1,59
Sd
El valor calculado de t está en la región de aceptación de la hipótesis nula, por lo tanto, se acepta
la misma que indica que no hay diferencia en la cantidad de kilómetro por galón utilizado con la
gasolina con el aditivo al compararla con la gasolina sin el aditivo.
5. LAS DISTRIBUCIONES F Y LA PRUEBA DE LA DIFERENCIA ENTRE DOS
VARIANZAS:
Se puede demostrar que las distribuciones F son las distribuciones de probabilidad apropiadas
para la relación de las varianzas de dos muestras tomadas independientemente de la misma
población normalmente distribuida, habiendo una distribución F diferente para combinación de los
gastos de libertad gl asociados con cada muestra. Para cada muestra gl = n - 1. De esta manera, la
estadística que se utiliza para probar la hipótesis nula de que no hay diferencia entre dos varianzas
2
es: F  S1
gl1,gl2 2
S2
Puesto que cada varianza de la muestra es un estimador no sesgado de la varianza de la
población, el valor esperado a largo plazo de la relación anterior, es aproximadamente 1 sino

gl 2
. Una suposición matemática necesaria es que las dos poblaciones estén normalmente
gl 2  2
distribuidas, se ha demostrado que la prueba F es relativamente insensible a las desviaciones de la
normalidad cuando cada población es por lo menos unimodal y los tamaños de la muestra son
aproximadamente iguales. La siguiente fórmula se utiliza para calcular el valor de la distribución F
con pruebas de una cola y proporcional solamente valores F de la cola superior y los valores de la
cola inferior se puede calcular por la llamada propiedad recíproca de la distribución F, así:
1
Fgl1, gl2 (Inferior) =
F gl2 , gl1(Superior)
EJEMPLO 5: En el caribe se desarrollan dos huracanes al mismo tiempo FEFITA Y GLORIA. Se
toma muestras en varios instantes de las velocidades del viento. De FEFITA, se toman 10 y se
obtiene una desviación estándar de 25,3 km. por hora y en las 13 de GLORIA es de 33,7 km. por
hora. ¿Puede decirse que las varianzas en las velocidades son iguales? Use un nivel de
significación de 10%.
Ho: δ21 = δ22 H1: δ21 = δ22
S1 = 25, 3 Km/hora S2 = 33, 7 km/hora
S 1 = 640, 09 km/hora S22 = 1.135,69 Km/hora
2
n1 = 10 n2 = 13
gl1 = 10 - 1 = 9 gl2 = 13 - 1 = 12
F9; 12 crítico (superior 5%) = 2,80
1 1
F9; 12 crítico (5% inferior)=   0,27
F 12 ; 9 ( Superior )
3,07
2
S 1 640,09
F gl 1, gl 2  2 = 1.135,69  0,56
S2
Puesto que la relación F calculada no es menor que 0,357 ni mayor que 3,07 esto indica que el
valor está en la región de aceptación de la hipótesis nula. La suposición de que las varianzas
de las dos poblaciones son iguales no se puede rechazar a un nivel de significación del 10%.
6. DETERMINACIÓN DEL TAMAÑO NECESARIO DE LA MUESTRA PARA PROBAR LA

PROPORCIÓN:
Antes de tomar una muestra, se puede determinar su tamaño necesario para probar un valor
hipotético de la proporción especificando: 1) El valor hipotético de la proporción, 2) Un valor

alternativo específico de la proporción tal que su diferencia con el valor hipotético nulo se considera
importante, 3) El nivel de significación que se va a utilizar en la prueba y 4) La probabilidad del
error de tipo II que se permitirá. La fórmula para determinar el tamaño mínimo necesario de la
muestra para probar un valor hipotético de la proporción es:
 Z 0  0 1 0   Z 1  11 1 
2
n 
 
1  0 
Donde Zo es el valor crítico de Z utilizando en conjunto con el nivel de significación
especificado ( nivel α ) mientras que Z1 es el valor de Z con respecto a la probabilidad designada
del error de tipo II (nivel β). Zo y Z1 siempre tienen signos algebraicos opuestos. El tamaño de la
muestra debe ser lo suficientemente grande para garantizar el uso de la distribución normal en
conjunto con  0 y 1.

EJEMPLO 6: Un congresista desea probar la hipótesis de que por lo menos el 60% de sus
electores están a favor de la introducción de la legislación laboral en el congreso, utilizando un
nivel de significación del 5%. Considera que la discrepancia de esta hipótesis es importante si solo
el 50% (o menos) favorecen a la legislación y está dispuesto a aceptar un riesgo de error de tipo
 del 5%. El tamaño de la muestra que él debe tomar como mínimo para satisfacer estas
especificaciones de toma de decisiones es:
 Z 0  0 1 0   Z 1  11 1 
2
n  =
 1   0 
2
  1,65 0,601  0,60     1,65 0,501  0,50  
  =

 0,50  0,60 

2
 1,65 0,60 x 0,40 1,65 0,50 x 0,50 
    (+
 0,10 
16,33)2 = 266,67  267

UNIDAD N º 5: “LA PRUEBA DE JI-CUADRADO”
1. LA PRUEBA DE JI-CUADRADO COMO PROCEDIMIENTO DE PRUEBA DE

HIPÓTESIS:
Los procedimientos se relacionan todos con la comparación de frecuencias de muestras obtenidas
que han sido introducidas en ciertas categorías con las frecuencias esperadas basadas, en cada
caso, en una hipótesis particular. De esta manera, todos los procedimientos presentados son de
pruebas de hipótesis y, por lo tanto, tienen relación con el análisis de los resultados de una
muestra.
Las distribuciones x2 (ji-cuadrado) cubre el uso de la prueba para las hipótesis relacionadas con
la BONDAD DEL AJUSTE, LA INDEPENDENCIA DE DOS VARIABLES Y LA DIFERENCIA
ENTRE K PROPORCIONES DE LA MUESTRA. Este último procedimiento puede ser considerado
como una ampliación de la prueba de la diferencia entre dos proporciones.
2. PRUEBAS DE LA BONDAD DEL AJUSTE:

La hipótesis nula, en unas pruebas de la bondad del ajuste, es una estipulación referida al patrón
de referencias esperado en una serie de categorías. El patrón esperado puede conformarse a la
suposición de igual probable y ser uniforme, o puede conformarse a distribuciones de probabilidad
tales como la binomial, la de Poisson o la normal.
EJEMPLO 1: Se afirma que igual número de hombres y mujeres son clientes de un tienda de
venta al por menor de pantalones. Se observa una muestra de 80 clientes, y de estos 50 son
hombres y 30 son mujeres. Pruebe la hipótesis nula a un nivel de significación del 5%.
TABLA N º 1
NUMERO DE CLIENTES DE UNA TIENDA DE VENTA DE PANTALONES AL
POR MENOR DE ACUERDO AL SEXO
CLIENTES
HOMBRES MUJERES TOTAL
Cantidad en la muestra (f0) 50 30 80
Cantidad esperada (fe) 40 40 80
Para la hipótesis nula que debe aceptarse, las diferencias entre las frecuencias observadas y
esperadas pueden ser atribuidas a la variabilidad del muestreo al nivel designado de significación.
De esta manera la estadística de prueba de ji-cuadrado, se basa en la magnitud de esta diferencia
para cada categoría de la distribución de frecuencia. El valor ji-cuadrado para comprobar la

 f o - f e 2
diferencia entre un modelo de frecuencia obtenido y esperado es:
X2  
fe
EJEMPLO 2: El cálculo de la estadística de prueba de JI-CUADRADO para el patrón de
frecuencias observadas y esperadas de la Tabla N º 1 es el siguiente:
 f o - f e 2  50  40  2  30  40  2
X2   =
40

40
 5
fe
El valor necesario de la estadística de prueba de ji-cuadrado para rechazar la hipótesis nula,
depende del nivel de significación especificado y de los grados de libertad. En las pruebas de
bondad de ajuste:
gl = K - m - 1
Donde: K = número de categorías de datos

m = valores del número de parámetros estimados sobre la base de la muestra.
Cuando la hipótesis nula es que las frecuencias están igualmente distribuidas, no interviene nunca
una estimación del parámetro y m = o, en algunos casos especiales se presentan ejemplos en que
m es mayor que cero. Siempre se incluye la resta de "1" porque dado un número total de
observaciones, una vez que las frecuencias observadas han sido entradas en k - 1 categorías de
una tabla de frecuencias, la última casilla, de hecho, no esta libre para variar. Por ejemplo, dado
que los clientes de la tabla N º1 tienen frecuencias observadas de 50 para los hombres y 30 para
las mujeres respectivamente, con el objeto de acumular hasta el tamaño designado de la muestra
de 40.
EJEMPLO 3: A continuación se da una presentación completa del procedimiento de

comprobación de hipótesis relacionado con los datos de la tabla N º 1, probándose la hipótesis nula
a un nivel de significación del 5%.
Ho: La cantidad de clientes hombres y mujeres están distribuidos igualmente.
H1: La cantidad de clientes hombres y mujeres no están distribuidos igualmente.
gl = K - m - 1 = 2 - 0 - 1 = 1
X2 crítico (gl = 1; α = 0,05) = 3,84 (del apéndice 7)
X2 calculado = 5,0 (del ejemplo 2)

Por tanto, la hipótesis nula de que los clientes hombres y mujeres están distribuidos igualmente se

rechaza a un nivel de significación del 5%.
Las frecuencias esperadas deben basarse en cualquier suposición respecto de la forma de la

distribución de frecuencias de la población. Si la suposición se basa simplemente en el patrón
histórico de frecuencias, como en el caso de la hipótesis igualmente posible, no se incluye el
cálculo del parámetro, y gl = K - m - 1 = K - 0 - 1 = k - 1, es decir m = o.
EJEMPLO 4: Históricamente, un fabricante de televisores ha vendido 40% de aparatos con
pantalla pequeña (de menos de 14 pulgadas), 40% de aparatos con pantallas medianas (de 14 a
19 pulgadas) y 20% de aparatos con pantallas grandes (de 21 pulgadas y más). Con el objeto de
asegurar programas apropiados de producción para el próximo mes, toma una muestra aleatoria
de 100 ventas durante el periodo actual y encuentra que 55 de los televisores adquiridos eran
pequeños, 35 de tamaño mediano y 10 grandes. A continuación probamos la hipótesis nula de que
el patrón histórico de ventas está aún vigente, usando el nivel de significación del 1%.
TABLA N º 2
COMPRAS OBSERVADAS Y ESPERADAS DE TELEVISORES POR TAMAÑO DE LA
PANTALLA
Tamaño de la pantalla
Pequeño Mediano Grande
Total
Frecuencias observada, f0 55 35 10 100
Frecuencias histórico, fe 40 40 20 100
Ho: Los porcentajes de todas las compras de televisores en las categorías de televisores
pequeños, medianos y grandes son 40%, 40% y 20%, respectivamente.
H1: El patrón actual de compra de televisores es diferente del patrón historial presentado en Ho.
gl = k - m - 1 = 3 - 0 - 1 = 2
x2 (crítico) = (gl = 2 ; α = 0,01) = 9,21

2
 fofe   55 40 2   35 40 2  10 20 2 
X 
2   =
40 40 20
 fe 
11,25
Por lo tanto, la hipótesis nula es rechazada a un nivel de significación del 1%, Comparando las
frecuencias obtenidas y esperadas de la tabla N º 2 encontramos que el cambio principal implica
que se han vendido más televisores pequeños o menos televisores grandes, ocurriendo
probablemente una cierta reducción en los aparatos de tamaño mediano.
3. FRECUENCIAS MÍNIMAS ESPERADAS Y CORRECCIÓN DE CONTINUIDAD:

Una regla utilizada frecuentemente es que la frecuencia esperada fe para cada casilla, o categoría,
debe ser por lo menos 5. Las casillas que no se ajustan a este criterio deben combinarse con las

categorías adyacentes, cuando sea posible, para satisfacer este requisito. El número reducido de
categorías pasa a ser la base para determinar los grados de libertad gl aplicables a esta situación.
Se ha demostrado que cuando hay sólo un grado de libertad relacionado con la prueba de ji-
cuadrado, a menos que la muestra sea bastante grande, el x2 calculado sé sobrevalúa
sistemáticamente debido al carácter discreto de los datos. El estadístico Yates demostró que la
fórmula siguiente para ji-cuadrado, la que incluye una corrección de continuidad, es apropiada
cuando gl = 1. Como regla empírica, el factor de corrección tiene poco efecto y puede omitirse
cuando n≥50. Además, no debe aplicarse a ninguna casilla para la cual la diferencia no debe
aplicarse a ninguna casilla para la cual la diferencia entre fo y fe sea menor de 0,05. La estadística
de x2 que incluye la corrección de continuidad y que es aplicable cuando gl = 1, es:
2  f 0  f e  0,5 2
 
fe
EJEMPLO 5: En general, 20% de los presuntos clientes visitados por el vendedor de una firma
hacen una compra. Durante el periodo de prueba, un nuevo vendedor hace 30 visitas a posibles
clientes y completa tres ventas. La prueba de la hipótesis nula de que este patrón de ventas no
difiere del patrón histórico, utilizando el nivel de significación del 5%.
Ho: El desempeño del nuevo vendedor se conforma al patrón histórico de una tasa de ventas del
20%.
H1: El desempeño del nuevo vendedor es diferente del patrón histórico.
TABLA N º 3
FRECUENCIAS OBSERVADAS Y ESPERADAS RESULTADO DE LA VISITA
RESULTADO DE LA VISITA
VENDIÓ NO VENDIÓ TOTAL
f0 3 27 30
fe 6 24 30
 gl  k  m  1  2  0  1  1
x2 (crítico) =   = 3,84
 NS  5%    0,05 
2  f 0  f e  0,5 2
  =
fe

 3  6  0,5 2   27  24  0,5 2  1,30

6 24
Por lo tanto, la hipótesis nula de que su desempeño de ventas se conforma al patrón histórico no
puede rechazarse a un nivel de significación del 5%.
4. PRUEBAS PARA LA INDEPENDENCIA DE DOS VARIABLES (PRUEBAS DE

TABLAS DE CONTINGENCIAS):
En el caso de las pruebas de la bondad de ajuste existe una sola variable, como el tamaño de la
pantalla de los televisores que se han vendido, y lo que se prueba es el patrón de frecuencias
hipotético, o distribución, de la variable. Las frecuencias observadas pueden colocarse en una sola
fila, o en una sola columna de valores. Las pruebas de independencia incluyen dos variables son
estadísticamente independientes. La independencia implica que el conocimiento de la categoría en
la cuál se clasifica una observación con respecto a una variable no afecta la probabilidad de estar
en una de las diversas categorías de las otras variables. Como intervienen dos variables, las
frecuencias observadas se introducen en una tabla de clasificación de dos vías, o tabla de
contingencia. Las dimensiones de dichas tablas se definen con la expresión r x k, donde r indica el
número de filas y k el número de columnas.
EJEMPLO 6: Para la siguiente tabla de contingencia en el sentido que cada una de las dos
variables (sexo y edad) tiene sólo dos niveles de clasificación o categorías. De esta, manera, esta
es una tabla de contingencia de 2 x 2.
TABLA N º 4
TABLA DE CONTINGENCIA PARA LOS CLIENTES DE UNA TIENDA DE
EQUIPOS DE SONIDO
S E X O
EDAD MASCULINO FEMENINO TOTAL
Menos de 30 años 60 50 110
30 y más años 80 10 90
Total 140 60 200
Si se rechaza la hipótesis nula de independencia para datos clasificados como los de la tabla
anterior, ello indica que las variables son dependientes y que existe una relación entre ellas. Por
ejemplo, para la tabla anterior esta indicaría que hay una relación entre la edad y el sexo de los
clientes de la tienda de equipos de sonido.
Dada la hipótesis de independencia de las dos variables, la frecuencia esperada relacionada con
cada casilla de una tabla de contingencia debería ser proporcional al total de frecuencias
observadas incluidas en la columna y en la fila en la que está ubicada la casilla, en relación con el
tamaño total de la muestra. Una fórmula conveniente para determinar la frecuencia esperada para

cada casilla de una tabla de contingencia es:
  r   k 
fe  n
La fórmula general para los grados de libertad relacionadas con una prueba de independencia, es:
gl = (r - 1)(k - 1)
EJEMPLO 7: Las frecuencias esperadas para los datos de la tabla anterior se presentan en la
tabla a continuación. Para la fila 1 columna 1 por ejemplo, el cálculo de la frecuencia esperada es:
  r   k  110 140  77
  r   k  110  60
fe  n
=
200 fe  n
=
200
= 33
  r   k   90140  63
  r   k   60  90 
fe  n
=
200 fe  n
=
200
= 27

TABLA N º 5
TABLAS DE FRECUENCIAS ESPERADAS PARA LAS FRECUENCIAS OBSERVADAS QUE SE
MENCIONAN EN LA TABLA ANTERIOR
S E X O
EDAD Masculino Femenino
TOTAL
Menos de 30 años 77 33 110
30 y más años 63 27 90
Total 140 60 200
A continuación se presenta la prueba de la independencia de la hipótesis nula para los datos de la
tabla # 4 usando un nivel de significación del 1%.
Ho: El sexo y la edad de los clientes de la tienda de equipos de sonido son independientes.
H1: El sexo y la edad son variables dependientes (existe una relación entre las variables sexo y edad.
 gl  (r  1) (k  1)  (2  1) (2  1)  1
x2 (crítico) =   = 6,63
 NS  1%    0,01 
 f o - f e 2
X2   =
fe
 60  77  2 
 50  33  2 
 80  63  2 
10  27  2 = 27,80
77 33 63 27
En este caso se omitió la corrección de continuidad, aunque gl = 1 porque n> 50. El valor calculado
con el factor de continuidad incluido es 26,19.
Por lo tanto, la hipótesis nula que la edad y el sexo de los clientes que ingresan a la tienda de
equipos de sonido son independiente se rechaza a un nivel de significación del 1%.
5. PRUEBA DE LA DIFERENCIA ENTRE K PROPORCIONES DE UNA MUESTRA:

Para la diferencia entre dos proporciones para el caso de k proporciones se indica primeros los
siguientes formatos de la prueba de ji-cuadrado que son compatibles:
a) Prueba de una proporción hipotética: Dadas una proporción hipotética de población y una
proporción observada para una muestra aleatoria tomada de la población, utilizamos la distribución
de probabilidad normal como aproximación para el proceso binomial con el objeto de probar el
valor hipotético. Se puede demostrar matemáticamente que dicha prueba de dos colas
equivalentes a una prueba de la bondad de ajuste de ji-cuadrado que incluya la fila de frecuencias
obtenidas y esperadas independientemente de la dirección de las diferencias, no hay

procedimientos de prueba de ji-cuadrado que sea el equivalente de una prueba de una cola
respecto a una proporción de la población.
EJEMPLO 8: Un gerente de un departamento de personal estima que una proporción del 40% de
los empleados de una gran compañía participará en un nuevo programa de inversiones en
acciones. Se observa una muestra aleatoria de 50 empleados y 10 de ellos indican su intención de
participar. El valor hipotético de la población podría probarse utilizando la distribución de
probabilidad normal. A continuación se indica el uso de la prueba de ji-cuadrado para lograr el
mismo objetivo, empleando un nivel de significación del 5%.
TABLA N º 6
FRECUENCIAS OBSERVADAS Y ESPERADAS PARTICIPACIÓN EN EL PROGRAMA TOTAL
PARTICIPACIÓN EN EL PROGRAMA
SI NO TOTAL
Número observado en la muestra, fo 10 40 50
Número esperado en la muestra, fe 20 30 50
Ho:  = 0,40 H1:  ≠ 0,40
 gl  k  m  1  2  0  1  1
x2 (crítico) =   = 3,84
 NS  5%    0,05 
 f o - f e 2 10  20  2  40  30  2
X2   =
20

30
= 8,33
fe
Por tanto, se rechaza la hipótesis nula al nivel de significación del 5% y concluimos que, en toda la
firma la proporción de participación del programa no es 0,40.
b) Prueba de la diferencia entre dos proporciones : Se puede demostrar matemáticamente
que una prueba de dos colas es equivalente a una prueba de tabla de contingencia de ji- cuadrado,
en la que las frecuencias observadas se han introducido en una tabla de 2 = 2. Nuevamente no hay
prueba de ji-cuadrado equivalente a una prueba de una cola.
EJEMPLO 9: En una determinada comunidad, 10 familias de una muestra de 50 veían un
programa especial de televisión sobre economía nacional y que 15 de 50 familias de otra
comunidad también lo veían. Se prueba la hipótesis a un nivel de significación del 1%. Utilizando la
prueba de ji-cuadrado.
TABLA N º 7
ALCANCE DE LA AUDIENCIA DE UN PROGRAMA DE TELEVISIÓN EN DOS COMUNIDADES
COMUNIDADES
COMUNIDAD 1 COMUNIDAD 2 T O T A L
Número de personas que ven el programa 10 15 25
Número de personas que no lo ven el programa 40 35 75
T O T A L 50 50 100

Ho: 1  2 H1: 1   2
 gl  (r  1) (k  1)  (2  1) (2  1)  1
x2 (crítico) =   = 6,63
 NS  1%    0,01 
  r   k   25 50   r   k   75 50 
fe  n
=
100
= 12,5 fe  n
=
100
= 37,50
  r   k   25 50   r   k   75 50 

fe  n
=
100
= 12,5 fe  n
=
100
= 37,50
TABLA N º 8
ALCANCE DE LA AUDIENCIA DE UN PROGRAMA DE TELEVISIÓN EN DOS COMUNIDADES
COMUNIDADES TOTAL
Comunidad 1 Comunidad 2
Número de personas que ven el programa 12,5 12,5 25
Número de personas que no lo ven el programa 37,5 37,5 75
T O T A L 50 50 100
Calculamos x2:
 f o - f e 2
X2   =
fe
10 12,5  2 
15 12,5  2 
 40  37,5  2 
 35  37,5  2
12,5 12,5 37,5 37,5
= 1,34
Por lo tanto, la hipótesis nula no puede ser rechazada a un nivel de significación del 1% y llegamos
a la conclusión de que no difiere la proporción de personas que ven el programa en las dos
comunidades.
Prueba de las diferencias entre k proporciones. Dado el enfoque básico del ejemplo 10, puede
usarse de una muestra empleando un diseño tabular 2 x k para el análisis de las frecuencias. En
este caso, no hay un procedimiento matemáticamente equivalente basado en la distribución de
probabilidad normal. Aquí la hipótesis nula es que no existe diferencia en las diversas proporciones
de la población (o que las varias proporciones diferentes de la muestra podrían haberse obtenido
por azar, de la misma población).


UNIDAD N º 6: “ANALISIS REGRESION Y CORRELACION LINEAL SIMPLE”
1. OBJETIVOS Y SUPUESTOS DEL ANÁLISIS DE REGRESIÓN
El objetivo primordial del análisis de regresión es predecir el valor de una variable (la variable
dependiente) dado el valor de una variable asociada (la variable independiente). La ecuación de
regresión es la formula algebraica por la cual se determina el valor estimado de la variable
dependiente.
Él término análisis de regresión simple indica que la variable dependiente se predice sobre la base
de una variable independiente mientras que el análisis de regresión múltiple se relaciona con la
predicción de la variable dependiente sobre la base de dos o más variables independientes.
Los supuestos generales implícitos en el modelo de análisis de regresión presentando en esta
unidad son: 1) La variable dependiente es una variable aleatoria, 2) La variable independiente y
dependiente están asociadas linealmente, y 3) Las varianzas de las distribuciones condicionales
de la variable dependiente, dados valores diferentes de la variable independiente, son iguales. El
supuesto 1) indica aunque los valores de la variable independiente pueden ser designados, los
valores de la variable dependiente deben obtenerse por medio del proceso de muestreo.
Si se utiliza la estimación interna en conjunto con el análisis de regresión, un supuesto adicional es
que las distribuciones condicionales de la variables dependientes, dados valores diferentes de la
variable independiente, son distribuciones normales para la población de valores.
EJEMPLO 1: Un analista desea predecir el tiempo de entrega como la variable dependiente
basándose en la distancia como variable independiente para los repuestos industriales
transportados en camiones. Suponemos que el analista selecciona 10 pedidos recientes de los
registros de la compañía, de manera que las distancias por carretera que corresponde a ellos están
más o menos igualmente dispersa entre 100Km y 1000Km de distancia y registra el tiempo de
entrega para cada embarque. Como distancia por carretera se utilizara como la variable
independiente, su selección de viajes de distancias es aceptable. Por otra parte la variable
dependiente del tiempo de entrega es en este estudio una variable aleatoria que se ajusta al
supuesto implícito en el análisis de regresión. Si las dos variables se relacionan linealmente
construyendo un diagrama de dispersión
2. EL DIAGRAMA DE DISPERSION
Un diagrama de dispersión es una gráfica en la que cada punto trazado representa un par de
valores observados para la variable independiente y dependiente. El valor de la variable
independiente, X, se traza en relación con el eje horizontal y el valor de la variable dependiente, Y,
en relación con el eje vertical.
La forma de la relación representada por el diagrama de dispersión puede ser curvilínea en lugar
de lineal. Aunque el análisis de regresión para las relaciones curvilíneas excede el enfoque de

estos principios, se representa en forma sucinta un análisis de la tendencia curvilínea. Para las
relaciones que no son lineales un enfoque frecuente es determinar un método de transformación
de valores transformados sea lineal. El análisis de regresión lineal puede aplicarse así a los valores
transformados y los valores estimados de la variable dependiente pueden volver a transformarse a
la escala original de medidas.
EJEMPLO 2. Un ejemplo de la relación curvilínea sería la relación entre los años transcurridos
desde la constitución una compañía y el nivel de ventas, dado que cada año el nivel de ventas ha
aumentando en el mismo porcentaje sobre el año anterior. La curva resultante, con una pendiente
en aumento, sería indicativa de la llamada relación exponencial.
Si el diagrama de dispersión indica una relación que es generalmente lineal, entonces se coloca en
la información una línea recta de mejor ajuste, La situación precisa de esta línea se determina por
el método de los mínimos cuadrados. Como se ilustra en el ejemplo 3, una línea de regresión con
pendiente positiva indica una relación directa entre las variables, una pendiente negativa señala
una relación inversa entre las variables y una pendiente de cero significa que las variables no están
relacionadas. Además, la extensión de la dispersión de los puntos trazados respecto de la línea de
regresión, indica el grado de relación entre las dos variables.
EJEMPLO 3: La siguiente figura N º 1 incluye diversos diagramas de dispersión y las
correspondientes líneas de regresión que muestran varios tipos de relaciones entre las variables.

3. EL METODO DE LOS MINIMOS CUADRADOS PARA AJUSTAR UNA LINEA DE REGRESION
La forma general de la ecuación de regresión lineal para información muestral es:
Y x  a  bX
Y, es el valor estimado de la variable dependiente, dado un valor específico de la variable
independiente X,
a es el punto de intersección de la lineal con el eje Y (en la que el punto X = 0),
b es la pendiente de la línea de regresión,
X es el valor específico de la variable independiente.
Según el criterio matemático utilizado, se puede desarrollar una cantidad de ecuaciones de
regresión lineal diferentes para un diagrama de dispersión dado. Por el criterio de los mínimos
cuadrados, la línea de regresión (y la ecuación) de mejor ajustes aquella para la cual se reduce al
mínimo la suma de las desviaciones cuadraturas entre los valores reales y estimados de la variable
dependiente para la información muestral. Las formulas de cálculos por las se pueden determinar
los valores de a y b de la ecuación de regresión lineal para la ecuación de regresión lineal para la
ecuación que satisface el criterio de los mínimos cuadrados son
b
  
xy   n  x y
 x2  n  x
2
Y X
a ; b ó a  y - bx
n n
Una vez formulada la ecuación de regresión, esta se puede utilizar para estimar el valor de la

variable dependiente. Sin embargo, dicha estimación sólo se debe hacer dentro del rango de los
valores independientes muestreados originalmente, ya que no existe base estadística para suponer
que es adecuado emplear la línea de regresión fuera de estos limites. Obsérvese también que la
ecuación de regresión proporciona la base para determinar solo una estimación puntual y no un
intervalo completo de predicción.
4. EL ERROR ESTANDAR DE INTERVALOS DE ESTIMACION Y PREDICCION
Conceptualmente, el error estándar de una de la variable dependiente Y dado un valor especifico

de la variable independiente X. El error estándar de la estimación basado muestral se representa
por S y, x , la formula es:

  Y Y x 
2
S y, x  n2
Para propósitos de calculo, es más conveniente una versión alternativa de la formula que no
requiere la determinación de desviación entre cada valor observado de Y y el valor

Y x de la
línea de regresión.
La versión alternativa de cálculo de la formula para el error estándar de la estimación es:

2

y  a  y  b xy
S y, x n2
El error estándar de la estimación se puede utilizar para establecer un intervalo de
predicción para la variable dependiente, dado un valor específico de la variable independiente. El
uso de S y, x con este propósito se basa en dos supuestos sobre la población: (1) que la
dispersión de la variable dependiente es igual en todos los puntos de la línea de regresión y (2) que
en cada punto los valores de la variable dependiente se dispersan normalmente con respecto a la
línea de regresión.
Puesto que el error estándar de la estimación se basa en información muestral, es adecuado

utilizar la distribución t . Los grados de libertad para la distribución t son n - 2, porque los valores de
la ecuación de regresión de a y b representan estimaciones de los dos parámetros de población
correspondientes a y b. Así, la formula básica para construir un intervalo de predicción para la

variable dependiente Y en análisis de regresión simple es:
y x  t S y , x
Cuando n  30, la distribución normal de probabilidad se puede usar como una aproximación de la
distribución t (algunos textos emplean la regla cuando gl  30). De esta manera, la formula para
construir un intervalo de predicción cuando el tamaño de la muestra es relativamente grande es:
y x  Z S y , x
Se deben reconocer especialmente dos puntos respecto de las formulas anteriores. Primero, los
intervalos mencionados se denominan intervalos de predicción en lugar de intervalos de confianza,
porque este último término lo utilizan los estadísticos cuando sé esta estimando el valor de un
parámetro de población. En este contexto, sé esta estimando un valor individual de la variable
dependiente (dado X), en lugar del valor del parámetro. Segundo, el uso de las fórmulas
anteriores implica que la única incertidumbre asociada con la predicción del valor de la variable
dependiente es la dispersión respecto de la línea de regresión. Sin embargo, puesto que la propia
línea de regresión se basa en información muestral, la situación de la línea también es incierto. La
forma del intervalo de predicción que toma en consideración esta incertidumbre adicional se
presenta a continuación. No obstante, cuando el tamaño de la muestra n es relativamente grande,
el intervalo de predicción definido se considera como una aproximación satisfactoria del intervalo
completo de predicción descrito en la siguiente sección.
5. INFERENCIA RESPECTO DE LOS PARAMETROS DE LA LINEA DE REGRESION
Se tres temas distintos pero relacionados: 1) el intervalo de confianza para la media condicional de
la variable dependiente Y, dado un valor específico de X., 2) la predicción del valor individual de Y,
dado X y considerando la incertidumbre en la ubicación del valor medio de la línea de regresión y
3) la estimación del intervalo y el contraste de hipótesis respecto a la pendiente  de la línea
verdadera de regresión.
La estimación puntual para la media de la variable dependiente, Y, es igual a la estimación puntual
utilizada para predecir un valor individual. Es el valor

Y x obtenido de la ecuación de regresión
lineal. El error estándar de la media condicional en el análisis de regresión simple se representa
por S y x
, la formula básica es:

S y, x 
S y, x
 x  x 2
S y x
= n
x
2
 x

   2
 n 
El primer término la fórmula anterior es la análoga a la fórmula usual para el error estándar de la
media. El segundo término es peculiar de una situación que incluye análisis de regresión, e indica
que el error estándar de la media condicional de Y aumenta a medida el valor dado de X se aleja
de X. Para mayor conveniencia en los cálculos, se usa con frecuencia una formula alternativa para
determinar el error estándar de la medida condicional:
S y, x
1

 x  x 2
S y = n 2
 x   2

x  
x
 n 
Dada la estimación puntual y el error estándar de la medida condicional, el intervalo de confianza
para la medida condicional es:
Y  x  t S y x
Al predecir un valor individual de la variable dependiente, si n  30, en la ecuación anterior se

puede emplear el valor normal – estándar z en lugar de t. Además, el segundo término de la
formula básica para el error estándar tiene, en este caso, un valor relativamente pequeño que
despreciarse, lo que conduce a la siguiente expresión simplificada como fórmula de aproximación
para el intervalo de confianza para la media condicional:
' S
y x  Z y, x
n
Cuando la muestra es pequeña, entonces debe considerarse la ubicación incierta del valor medio
'
de la línea de regresión yx al construir intervalos de predicción o de confianza. Para diferenciar
el error estándar resultante del error estándar de estimación descrito anteriormente se le

denomina S y siguiente , en el que “siguiente” simplemente significa el valor individual siguiente de
la variable dependiente Y. En algunos textos este error estándar se denomina “error estándar
del pronóstico”. El error estándar completo asociado con la estimación de un valor individual de Y

en el análisis de regresión es:
S y , x  S y
2 2
S y siguiente =
x
La versión de cálculo de la fórmula para el error estándar del pronóstico es:
S y, x
1
1 
 x  x 2
S y siguiente, = n 2
 x
x 
  
2
 n 
El intervalo de predicción para el valor individual de la variable dependiente, dado un valor
específico de la variable independiente X es:
y x  t S y , siguiente
'
El área final de atención en esta unidad es la estimación del intervalo y la prueba de hipótesis
respecto a la pendiente  verdadera de la línea de regresión. El error estándar de b basado en la
información muestral es:
S y, x
Sb 
x nx
2 2
El parámetro  puede estimarse construyendo el siguiente intervalo de confianza, en la cual los

grados de libertad asociados con t son n – 2:
b t Sb
Un valor hipotético de  se prueba calculando la estadística de t asociada con el valor muestral
observado de b, de la siguiente manera:
bo
t
Sb
La hipótesis nula probada mas frecuente es que  = 0, porque tal valor indicaría la ausencia de una
relación entre las variables independiente y dependiente.
6. OBJETIVOS Y SUPUESTO DEL ANALISIS DE CORRELACION
En oposición el análisis de regresión, el análisis de correlación mide el grado de relación entre las
variables. Como fue válido cubrimos el análisis de correlación simple que se relaciona con la
medición de la relación solo una variable independiente y la variable dependiente.

Los supuesto de población implícitas en el análisis de correlación simple son: 1) la relación entre
las dos variables es lineal, 2) las dos variables son aleatorias, 3) para cada variable las varianzas
condicionales, dados valores diferentes de la otra variable son iguales (homoescedasticídad), 4)
para cada variable, las distribuciones normales. La última suposición es la de una distribución
normal bivariada. Obsérvese que estas suposiciones implícita en la estimación del intervalo en el
análisis de regresión, excepto que en el análisis de regresión la variable independiente puede
ajustarse a varios valores específicos y no es necesario que sea una variable aleatoria.
7. EL COEFICIENTE DE DETERMINACION
Considérese que si un valor individual de la variable dependiente Y se estimase sin conocer él

valor de cualquier otra variable, entonces la incertidumbre asociada con esta estimación y la base
para construir otra variable, entonces la incertidumbre asociada con esta estimación y la base para
construir él intervalo de predicción sería la varianza  2Y. Dado un valor de X, sin embargo, la
incertidumbre asociada con la estimación se representa por  2YX (o S2YX para la información
muestra). Si hay una relación entre las dos variables, entonces  2YX será menor que  2. Para una
relación perfecta en la que todos los valores de la variable dependiente son iguales al valor de la
línea de regresión para él valor dado de X,  2YX = 0. Por lo tanto, en ausencia de una relación
perfecta, en valor, él valor de  2YX indica la incertidumbre que queda después de considerar él valor
de la variable dependiente. O podemos decir que la relación  2YX a  2Y indica la proporción de la
varianza (incertidumbre) en al variable dependiente que permanece inexplicada después que se ha
dado un valor específico del variable dependiente.
2
y,x Varianza inexp licada que permanece en Y
2

y Varianza total en Y
En la fórmula anterior  2YX se determina por él procedimiento descrito anteriormente (excepto que
se supone la información muestra) y  2Y se calcula por medio de las fórmulas generales
presentadas anteriormente. Dada la proporción de varianza inexplicada, una medida útil de relación
es él coeficiente de determinación complemento de la relación anterior que indica la proporción de
varianza en la variable dependiente explicada estadísticamente por la ecuación de regresión (es
decir, por él conocimiento de la variable independiente asociada X). Para la información de
población de población, él coeficiente de determinación se representa por la letra griega p 2 (“rho
cuadrado”) que se determina por:


2
  1  y2, x
2
y
Para la información muestra, él valor estimado del coeficiente de determinación se puede
obtener mediante la siguiente fórmula:
2
S y, x
r  1 2
2
Sy
La fórmula anterior se basa en la suposición que S2 y,x y S2 y ambos son estimadores no
sesgados de  2
y,x y  y , respectivamente. En este caso las fórmulas estándar incluyen los factores
2
de corrección necesarios. Si los dos estimadores de varianza nos se han corregido en los que en
los que se refiere al sesgo, el segundo termino en la fórmula anterior debe multiplicarse por la
 n - 2
siguiente fracción .
 n - 1
Para propósitos de cálculo, es conveniente utilizar la siguiente fórmula para el coeficiente muestra
de determinación:
2
a  y  b xy  n y
r
2
 2 2
y ny
Aunque esta es una fórmula frecuentemente utilizada para calcular el coeficiente de determinación
para información muestra, no incorpora ninguna corrección con referencia al sesgo, pero sí incluye
un sesgo levemente positivo.
8. EL COEFICIENTE DE CORRELACION
Aunque el coeficiente de determinación r2 es relativamente fácil de interpretar, no se presta para la

prueba estadística. Sin embargo, la raíz cuadrada del coeficiente de determinación, que se llama
coeficiente de correlación r, sí se presta para prueba estadística porque se incluye en una
estadística de prueba que sigue una distribución t cuando la correlación de población p es igual a
0. Además, el signo aritmético asociado con el coeficiente de correlación, que es siempre igual al
signo asociado con  en la ecuación de regresión, indica la dirección de la relación entre X e Y
(positiva = directa; negativa = inversa). De esta manera, el coeficiente de correlación se presenta
más comúnmente en lugar coeficiente de determinación, como medida de relación. Entonces, el
coeficiente de correlación para datos de población, con el signo aritmético igual al de  en la
ecuación de regresión, es:


2

El coeficiente de correlación para datos muéstrales es:
r r
2
En suma, entonces, el signo del coeficiente de correlación indica la dirección de la relación entre
las variables X e Y, mientras que le valor absoluto del coeficiente indica el grado de relación indica
el grado de relación.
El valor al cuadrado del coeficiente de correlación es el coeficiente de determinación e indica la
proporción de la varianza en Y explicada por el conocimiento de X (y viceversa). La figura N º 2
ilustra el aspecto general de los diagramas de dispersión asociados con varios valores de
correlación.
La siguiente fórmula no requiere la determinación anterior de los valores de regresión de a y b.
Esta fórmula se utilizaría cuando el objetivo del análisis es determinar el grado y tipo de la relación
entre dos variables, pero sin ningún interés en calcular Y dado X. Cuando se usa esta fórmula, el
signo del coeficiente de correlación se determina automáticamente sin necesidad de observar o
calcular la pendiente de la línea de regresión. La fórmula alternativa es:
n xy   x  y
r
n x 2   x   2 2

n y   y
2
El coeficiente muestral de correlación r está algo sesgado como un estimador de  , con un valor
absoluto demasiado grande. Este factor no se menciona en muchos textos porque la cantidad de
sesgo es leve, excepto para muestras muy pequeñas. Un estimador no sesgado para el coeficiente
de determinación para la población se puede obtener así:
ˆ
2

 1 1 r2  
 n 1 

n2

9. SIGNIFICADO DEL COEFICIENTE DE CORRELACION
Generalmente, la hipótesis nula de interés es que la correlación de población sea  = 0, porque

si se rechaza esta hipótesis a un nivel  específico concluimos que hay una relación real entre las
variables. Dado que están satisfechas las suposiciones anteriores, se distribuye la siguiente
estadística de muestreo incluyendo r como la distribución t con gl = n - 2 cuando  = 0:
r
t
1 r2
n2
La prueba de la hipótesis nula que  = 0 es equivalente a la prueba de la hipótesis nula que  =
0 en la ecuación de regresión.
10. ERRORES Y LIMITACIONES ASOCIADOS CON EL ANALISIS DE REGRESION Y DE

CORRELACION
a) En el análisis de regresión un valor de Y no se puede estimar legítimamente si el valor de X

está fuera del rango de valores que sirvió como base para la ecuación de regresión.
b) Si la estimación de Y involucra la predicción de un resultado que no ha ocurrido todavía, la

información histórica que sirvió como base de la ecuación de regresión puede no ser
pertinente para eventos futuros.
c) El uso de una predicción o de un intervalo de confianza se basa en suposición que las

distribuciones condicionales de Y son normales y tienen varianzas iguales.

d) Un coeficiente de correlación significativo no indica necesariamente causación, pero sí puede

indicar un encadenamiento con otros eventos.
e) Una correlación “significativa” no es necesariamente una correlación importante. Dada una

muestra grande, una correlación de, digamos, r = + 0.10 puede ser significativamente diferente
de 0 con  = 0.05. Sin embargo, el coeficiente de determinación de r2 = 0.01 para este ejemplo
indica que sólo 1 por ciento de la varianza de Y se explica estadísticamente conociendo X.
f) La interpretación de los coeficientes de correlación y determinación se basa en la suposición
de la distribución normal binaria para la población y, para cada variable, varianzas
condicionales iguales.
g) Para los análisis de correlación y regresión se supone un modelo lineal. Para una relación
curvilínea, se pude disponer de una transformación para lograr la linealidad. Otra posibilidad
es limitar el análisis al rango de valores dentro del cual la relación es esencialmente lineal.
11. PRACTICA
Ejemplo: Un agrónomo experimentó con distintas cantidades de fertilizantes líquido en una

muestra de 4 parcelas del mismo tamaño. Las cantidades de fertilizantes y los rendimientos de los
cultivos correspondientes son:
PARCELAS CANTIDAD DE FERTILIZANTES RENDIMIENTO DE LA
(Toneladas) TIERRA
A 2 7
B 1 3
C 3 8
D 4 10
Con estos datos se solicita:

a) Construya el diagrama de dispersión,
b) Determine la ecuación de regresión lineal de mínimos cuadrados y registre la línea de ajuste

cuando X = 0 y X = 4
x 10 y 28
x   2,5 y  7
n 4 n 4
xy   n   x  ( y  81 - (4)(2,5)(7) 81 - 70 11
b     2,2
 x2  n x  2
30 - (4)(2,5) 30 - 25 5
a = y - bx = 7 - ( 2,2)( 2,5) = 7 - 5,5 = 1,5
ŷ x = 1,5 + 2,2 X
Cuando X = 0 ŷ x = 1,5 + 2,2 X = 1,5 + (2,2)(0) = 1,5
Cuando X = 4 ŷ x = 1,5 + 2,2 X = 1,5 + (2,2)(4) = 1,5 + 8,8 = 9,3

c) En la ecuación de regresión lineal estime el rendimiento cuando se utiliza 3,5 toneladas de

fertilizantes.
ŷ x = 1,5 + 2,2 X = 1,5 + (2,2)(3,5) = 1,5 + 7,7 = 9,2
d) ¿Se podría usar la ecuación lineal de regresión para estimar el rendimiento cuando se utiliza 8
toneladas de fertilizantes?
R) No, solo se debe tomar los valores comprendidos entre 1 a 4 toneladas, ya que para calcular la
ecuación se tomo en cuenta estos valores.
e) Calcule el error estándar de estimación.
∑ y 2 - a∑ y - b∑ xy
S y, x = =
n-2
222 - (1,5) (28) - (2,2) (81) 222 - 42 - 178,2 1,8

= = = 0,9487
4-2 2 2
f) Construya el intervalo de predicción, estimada del 95% para el rendimiento utilizando 3,5
toneladas de fertilizantes.
ŷ x = 9,2 Cuando: X = 3,5; S y, x = 0.9487
gl  n  2  4  2  2 
 
t  NS 100%  95% 5%  = 4,303
 2  2  2  2,5%  0,025 

9,2  4,08  13,28
ŷ x ± t S y, x = 9,2  (4,303)(0,9487) =

9,2  4,08  5,12
Con una confianza del 95% y utilizando 3,5 toneladas de fertilizantes el rendimiento de la tierra

estimada está entre 5,12 y 13,28 hectáreas.

g) Construya un intervalo de confianza del 95% para el rendimiento medio, en la utilización de
las 3,5 toneladas de fertilizantes.
2 2
1 ( x - x) 1 ( 3,5 - 2,2)
S ŷ = S y, x + +
x n 2 = 0,9487 4 2 = 0,9487 0,45 = 0,6364
∑ x2 - ( ∑ x) ( 10)
30 -
n 4
9,2  2,74  11,94

ŷ x ± t S ŷ = 9,2  (4,303) (1,1424) =

9,2  2,74  6,46
x
Con una confianza del 95% y utilizando 3,5 toneladas de fertilizante, el rendimiento medio
utilizando un intervalo de confianza del 95% está entre 6.46 y 11,94 hectáreas.
h) Establezca el intervalo de predicción del 95% para el rendimiento, utilizando 3,5 toneladas de
fertilizantes considerando la incertidumbre sobre la posición de la línea de regresión.
S y, siguiente = S2 y, x + S2 = ( 0,9487)
2
+ ( 0,6364)
2
= 1,1424
ŷ x
9,2  4,92  14,12

ŷ x ± t S y, siguiente = 9,2  (4,303) (1,1424) =

9,2  4,92  4,28
Considerando la incertidumbre, con una confianza del 95% y utilizando 3,5 toneladas de
fertilizantes el intervalo de predicción está entre 4,28 a 14,12 hectáreas.
i) Determinar el intervalo de confianza del 95% para  en la utilización de 3,5 toneladas de
fertilizante.
S y, x 0,9487
Sb = = = 0,4243
2 30 - ( 4) (2,5)2
∑ x2 -n x ( )
2,2  1,83  4,03

b ± t Sb = 2,2  (4,303) (0,4243) = 2,2  1,83 =

2,2  1,83  0,37
Con una confianza del 95% y utilizando 3,5 toneladas de fertilizantes, el valor de β se encuentra
entre 0,37 y 4,03 hectáreas.
j) Pruebe la hipótesis nula = 0 para el rendimiento y la utilización de fertilizantes a un nivel de

significación del 5%.

H0: = 0 H1:   0
gl  n  2  4  2  2


t(critico) = 5%  = 4,303
NS   2,5%  0,025
2 
b - β0 2,2 - 0
t(calculado) = = = 5,19
Sb 0,4243
Por lo tanto, con un nivel de significación del 5% se rechaza la hipótesis nula y se acepta la
hipótesis alterna la misma que afirma que no existe relación directa entre la utilización de
fertilizantes y el rendimiento de la tierra.

ANALISIS DE CORRELACION
j) Estime el coeficiente de determinación para la información muestral.
r  2
a ∑ y  b ∑ xy - n x   2
(1,5)(28) + (2,2) (81) - (4) (7)2
= 0,9308
  2 =
222 - (4) (7)2
∑ y2 - n y
k) Calcule el coeficiente de correlación en referencia al coeficiente de determinación.
r= r2 = 0,9308 = 0,9648
l) Determine el coeficiente de correlación usando la fórmula alterna de cálculo.

n∑ xy - ∑ x∑ y ( 4) (81) - (10) (28)
r = 2 2 = =
n∑ x 2 - ( ∑ x) n∑ y2 - ( ∑ y) (4) (30) - (10)2 ( 4) ( 222) - (28)2
0,9648
m) Determine si el valor de correlación calculado en el anterior inciso no es considerablemente
diferente de cero a un nivel de significación del 5%.
Cuando ŷ x = 9,2 ; X = 3,5; S y, x = 0.9487; t(critico) = 4,303
H0:  = 0 H1:   0
r 0,9648
t= 0,9648
(1 - r 2) = (1 - 0,9308) = = 5,19
0,1860
(n - 2) ( 4 - 2)
Por lo tanto, la hipótesis nula se rechaza a un nivel de significación del 5% y se acepta la hipótesis
alterna la misma que indica que no hay relación directa entre la utilización de fertilizantes y el
rendimiento de la tierra.

UNIDAD N º 7: “ANÁLISIS DE REGRESIÓN Y CORRELACION MÚLTIPLE”
1. OBJETIVOS Y SUPOSICIONES DEL ANALISIS LINEAL DE REGRESION MULTIPLE
En análisis lineal de regresión múltiple es una extensión del análisis de regresión simple, como se
describió en la unidad anterior, a las aplicaciones que involucran dos o más variables
independientes como base para estimar el valor de la variable dependiente. En el caso de las dos
variables independientes, denominadas X1 y X2; la ecuación de regresión múltiples:
Y C  a  b1 x1  b2 x2
'
En la formula anterior, Yc, represente “Y calculada”, es análoga a la
YX del análisis simple de
dos variables, sin intentar las diversas variables independientes en el subíndice. En la fórmula
anterior X es tomada como variable independiente.
La ecuación de regresión múltiple identifica la línea de mejor ajuste basada en el método de

mínimos cuadrados. En el caso del análisis de regresión múltiple la línea de mejor ajuste es una
línea a través del espacio n-dimensional (tridimensional en el caso de dos variables
independientes). Los cálculos necesarios para determinar los valores de las constantes en una
ecuación de regresión múltiple y los valores del error estándar asociados son bastante complejos y
generalmente implican álgebra de matrices. Sin embargo, existe una amplia disponibilidad de
programas de computadoras para llevar a cabo estos cálculos y los problemas resueltos al final de
esta unidad se refieren al uso de dichos programas.
Las suposiciones del análisis lineal de regresión múltiple son semejantes a aquellas del caso
simple que implican sólo una variable independiente. Para la estimación puntual, las principales
suposiciones son que:
1) La variable dependiente es una variable aleatoria, mientras que las variables independientes
no necesitan ser aleatorias.
2) La relación entre las diversas variables independientes y la variable dependiente es lineal.
3) Las varianzas de las distribuciones condicionales de la variable dependiente, dadas varias
combinaciones de valores de las variables independientes son todas iguales
(homoescedasticidad).
Para la estimación interna, una suposición adicional es que las distribuciones condicionales para la
variable dependiente siguen la distribución de probabilidad normal.

2. CONCEPTOS DEL ANALISIS DE REGRESION MULTIPLE
Constante (en la ecuación de regresión): Aunque en la ecuación de regresión el valor a y los

diversos valores b son todas estimaciones, en el resultado de un programa de computadora el
término “constante” se refiere al valor de la intersección a. En el análisis de regresión múltiple, este
es el valor estimado de la variable dependiente Y dado que todas las variables independientes son
iguales a cero.
a) Coeficiente de regresión parcial (o coeficiente de regresión neta ): Cada uno de los

coeficientes de regresión b1 es en realidad un coeficiente de regresión parcial. Un coeficiente de
regresión parcial es el coeficiente condicional, dado que una u otras variables independientes
adicionales (y sus coeficientes) se incluyan también en la ecuación de regresión. Conceptualmente,
un coeficiente de regresión parcial representa la pendiente de la línea de regresión entre la variable
independiente de interés y la variable dependiente, dado que las otras variables independientes se
mantienen constantes. El símbolo by12 (o b12,3 cuando la variable dependiente se designa por X1) es
el coeficiente de regresión parcial para la primera variable independiente. Para simplificar, cuando
se presenta toda la ecuación de regresión, generalmente este coeficiente se designa por b1.
b) Coeficiente estándar de regresión parcial: Este coeficiente se designa a menudo por, sin
embargo, a diferencia de la designación en el análisis de regresión simple,  en este caso no
identifica el parámetro de población. En cambio, es el valor transformado de un coeficiente b
basado en los valores de las variables independientes y dependiente expresadas en unidades de
desviación estándar (es decir, términos de valores de Z). Mientras que los coeficientes b expresan
la pendiente en términos de las unidades de medidas especiales usadas para cada variable
independiente, con propósitos de comparación los coeficientes  son útiles porque indican la
pendiente en términos de un sistema de medición común.
c) Error estándar de estimación: Esta medida es análoga a aquella descrita en el anterior

capítulo excepto que los valores de las diversas variables independientes sirven como base para la
desviación estándar condicional. Sí se involucran dos variables independientes, el error estándar
de estimación se designa por Sy1,2 (o S1,23 cuando la variable dependiente se denomina X1).
d) Intervalos de predicción en el análisis de regresión múltiple : El intervalo de predicción para

el valor individual (siguiente) de la variable dependiente Y, dados valores observados de las
variables independientes se determina de la misma manera que para el análisis de regresión
simple de la anterior unidad, excepto que la ecuación de regresión y el error estándar de
estimación se relaciona con la regresión múltiple. Además, la incertidumbre acerca de los valores
verdaderos (población) de los coeficientes b y del coeficiente a generalmente no se considera al

usar la distribución T cuando la muestra es por lo menos n  30 (algunos textos expresan cuando
gl  30), el intervalo de predicción para un valor individual de la variable dependiente para el caso
de dos variables independientes es:
Yc  t sY,12 ó Yc  z sY,12
e) Intervalos de estimación en el análisis de regresión de múltiple : Generalmente, el único
intervalo de interés es la estimación de valor medio de variable dependiente. Para el caso de dos
variables independientes esta media se denomina  Y.12 (o  1.23 cuando la variable dependiente se
designa como X1). De manera análoga al intervalo de predicción en, dichos intervalos de
estimación usualmente no se relacionan con la incertidumbre sobre la posición de línea de
regresión verdadera. Al usar la distribución z en lugar de distribución t cuando n  30, el intervalo
de estimación para la media condicional de la variable dependiente para el caso de dos variables
independientes es:
Yc  t
S y ,12 ó Yc  z
S y ,12
n n
f) Análisis de regresión progresiva: En dicho procedimiento se adiciona una variable
independiente al análisis en cada etapa, recalculando en cada etapa los coeficientes de regresión
parcial y de regresión constante así como el error estándar de estimación. En general, la primera
variable independiente incluida es aquella que tiene el grado de asociación más alto con la variable
dependiente. Sin embargo, el programa de computadora puede permitir que el usuario designe la
secuencia por la cual las variables se adicionan al análisis. El análisis de regresión progresiva sirve
de base a los problemas resueltos al final de esta unidad.
3. ANALISIS DE VARIANZA EN EL ANALISIS DE REGRESION LINEAL
Tanto el análisis de varianza como el análisis de regresión lineal emplean modelos algebraicos
lineales. Considera, por ejemplo. La similitud entre las ecuaciones que representan los modelos
para un análisis de varianza de una vía y de dos vías y las ecuaciones de regresión para la
regresión lineal simple y para la regresión lineal múltiple respectivamente. De manera esencial, el
análisis de regresión lineal simple es el equivalente al modelo de efectos fijos de una vía del
análisis de varianza, cuando la variable independiente se puede medir a lo largo de una escala
continua, mientras que el análisis de regresión lineal con dos variables independientes es
equivalente al modelo de efectos fijos de dos vías del análisis de varianza. Los modelos de orden
más alto se relacionan de manera semejante. Aunque hay una equivalencia entre estos dos
procedimientos, una ventaja especial asociada con el análisis de regresión es que éste se dirige
hacia aplicaciones en la predicción y en la estimación en vez de estar principalmente limitado a

probar el significado de relación entre las variables. Por otra parte, el análisis de varianza se puede
usar cuando la variable independiente no es cuantitativa (pero representa categoría cualitativas) o
cuando la relación entre las variables no es lineal.
Debido a esta equivalencia, la prueba F se puede aplicar en el análisis de regresión para
determinar si una variable independiente, o la adición de una variable independiente especial, dan
como resultado una disminución significativa de la varianza asociada con la variable aleatoria
(dependiente). En este contexto, la suma de los cuadrados atribuible a la regresión es la suma de
las desviaciones al cuadro entre cada valor predicho de la línea de regresión Yc y la media total de
la variable dependiente Y. La suma residual de loa cuadrados es la suma de las desviaciones al
'
cuadrado entre cada valor observado de la variable dependiente
YX y el valor de línea de
regresión Yc. En base a estos dos tipos de sumas de cuadrados, la significación del coeficiente de
regresión (y del coeficiente de correlación) se puede determinar comparando la media cuadrática
atribuible a la residual. De esta manera, la base general para utilizar el análisis de varianza para
probar la significación del coeficiente de regresión es:
MC ( REGRESION )
F 
MC ( RESIDUAL)
En la adición de una variable en el análisis múltiple de regresión progresión progresiva, el uso del
análisis de varianza es conceptualmente semejante al procedimiento representado por la fórmula
anterior, excepto que la suma de los cuadrados atribuible a la regresión se evalúa según la línea de
regresión asociada con las variables independientes incluidas previamente, en lugar de hacer
referencia a la media total Y . En este respecto, la relación F se asocia con el coeficiente de
regresión parcial para la variable que se está evaluando. El desarrollo matemático de estas ideas
se incluye en los textos especializados sobre análisis de regresión. El uso de la prueba F en el
análisis de regresión se ilustra en los problemas resueltos, al final de esta unidad.
4. OBJETIVOS Y SUPOSICIONES DEL ANALISIS DE CORRELACION MULTIPLE
El análisis de correlación múltiple es una extensión es una extensión del análisis de correlación
simple que se describió en la unidad anterior, a las situaciones que incluyen dos o más variables
independientes y su grado de asociación con la variable dependiente. Como es el caso para el
análisis de regresión múltiple descrito en el anterior subtitulo, la variable dependiente se designa
por Y mientras las diversas variables independientes se designan secuencial mente comenzando
con X1.
El coeficiente de correlación múltiple se designa con RY,12 para el caso de dos variables
independientes, indica el grado de relación entre dos variables independientes tomadas como un

grupo y la variable dependiente. Debido a que es posible que una de las variables independientes
tenga una relación positiva con la variable dependiente, mientras que la otra variable independiente
tiene una relación negativa con la variable dependiente, todos los valores R se presentan sin signo
aritmético.
El coeficiente de determinación múltiple se designa por R2Y,12 para el caso de dos variables
independientes. En cuanto al caso del coeficiente simple de determinación, indica la proporción de
varianza en las variables dependientes que se justifica estadísticamente por el conocimiento de las
dos o más variables dependientes. El coeficiente muestral de determinación múltiple para el
caso de dos variables independientes es:
1
2
S Y ,12
 1

 Y  Y 'x  2
 
R2Y,12 =
2 2
SY  YY
La fórmula anterior se presenta con propósitos conceptuales y no para su aplicación de cálculo.
Puesto que este capítulo está orientado a que los programas de computadora se deben utilizar
para los análisis de regresión múltiple y de correlación, no se incluye aquí el procedimiento de
cálculo.
Las suposiciones del análisis de correlación múltiple son semejantes a aquellas del caso simple
que implica sólo una variable dependiente. Estas son:
1) Todas las variables involucradas en el análisis son aleatorias,

2) Todas las relaciones son lineales,
3) Todas las varianzas condicionales son iguales (homoescedasticidad).
4) Todas las distribuciones condicionales son normales.
Estos requisitos son bastante estrictos y raramente se satisfacen totalmente en situaciones de

información real. Sin embargo, el análisis de correlación múltiple es bastante sensato en el sentido
que algunas de estas suposiciones, y particularmente la suposición en el sentido de que todas las
distribuciones condicionales están normalmente distribuidas, se puede violar sin graves
consecuencias en términos de la validez de los resultados.
5. CONCEPTOS DEL ANALISIS DE CORRELACION MULTIPLE
Además del coeficiente de correlación múltiple y del coeficiente de determinación múltiple descritos
en la sección anterior, los siguientes conceptos o procedimientos pertenecen sólo al análisis de
correlación múltiple.
a) Coeficiente de correlación parcial: Indica la correlación entre una de las variables

independientes en el análisis de correlación múltiple y la variable dependiente, manteniéndose la(s)

otra(s) variable(s) independiente(s) constante(s) desde el punto de vista estadístico. La
correlación parcial con la primera de dos variables independientes se designaría con rY,12 mientras
que la correlación parcial con la segunda de dos variables independientes se designaría con rY,21
(Sí la variable independiente se designa con X1, entonces estos dos coeficientes se designarían
con r12.3 y r13.2, respectivamente.) El valor de correlación parcial diferente de un valor de correlación
simple porque para este último no se controla estadísticamente las otras variables independientes.
b) Coeficiente de determinación parcial: Este es el valor al cuadrado del coeficiente de
correlación parcial descrito anteriormente. Indica la proporción de varianza justificada
estadísticamente por una variable independiente particular con la(s) otra(s) variable(s)
independiente(s) mantenida(s) constante(s) desde el punto de vista estadístico.
c) Análisis de correlación progresiva: Semejante al análisis de regresión progresiva descrito en
anteriores subtítulos. El programa de computadora empleado puede añadir una variable
independiente adicional al análisis en cada etapa, de manera secuencial o escogiendo la variable
con el análisis de correlación progresiva se hace conjuntamente con un análisis de regresión
progresiva y sirve de base para los problemas resultados al final de esta unidad.
6. ERRORES Y LIMITACIONES RELACIONADOS CON EL ANALISIS DE REGRESION

MULTIPLE Y EL ANALISIS DE CORRELACION MULTIPLE
Las dos áreas principales de dificultad son aquellas asociadas con la colinealidad y la auto
correlación. Estas se describen a continuación:
a) Colinealidad (o multicolinealidad): Cuando las variables independientes en un análisis de
regresión múltiple están altamente correlacionadas entre sí, los coeficientes de regresión parcial (o
neta) son poco confiables en términos de significado. De manera semejante, se puede cuestionar
el significado práctico de los coeficientes de correlación parcial. Es posible, por ejemplo, que la
correlación parcial para una variable independiente sea altamente negativa aunque la correlación
simple sea altamente positiva. En general, por consiguiente, se debe tener cuidado al interpretar
los coeficientes de regresión parcial y los coeficientes de correlación parcial cuando hay variables
independientes con una correlación altamente positiva o negativa entre sí.
b) Auto correlación: Se refiere a la ausencia de independencia en el muestreo de la variable

dependiente Y. Es esencialmente aplicable cuando los valores Y son valores de series
cronológicas, en cuyo caso el valor de la variable dependiente en un periodo cronológico está casi
invariablemente relacionado con los valores en períodos cronológicos adjuntos. En dicho caso, se
sobreentiende el error estándar asociado con cada coeficiente de regresión parcial bi como en el
caso del valor del error estándar de la estimación. El resultado es que cualquier intervalo de

predicción o de confianza se hace más estrecho (más preciso) de lo que debe ser y las hipótesis
nulas respecto a la ausencia de relación se rechazan muy a menudo.
7. PRACTICA
Ejemplo: El director de personal de una empresa que tiene un importante grupo de vendedores,
debe entrevistar y seleccionar nuevo personal. Ha diseñado una prueba que ayuda a seleccionar
los mejores aspirantes para su personal de ventas. A fin de verificar la validez de la prueba como
instrumento de predicción de las ventas semanales, se eligió al azar 5 vendedores experimentados
y se aplicó la prueba a cada uno; la puntuación que cada vendedor obtuvo en la prueba después
se emparejó con las ventas semanales y la calificación de desempeño, como se representa en la
tabla siguiente:
a) Supongamos que la ecuación de regresión múltiple es igual a:
yc = 3,5 + ( - 0,975 ) x1 + 2,875 x 2

Sí el solicitante del empleo tuvo una puntuación de 6 en la prueba y una calificación de
desempeño de 3,8 en la fase uno de entrenamiento. ¿Cuáles son las ventas semanales
estimadas del solicitante?
yc = 3,5 + ( - 0,975 ) x1 + 2,875 x 2 = 3,5 – (0,975) (6) + (2,875)(3,8) = 8,575 X 1000 = 8.575.
b) Calcular el error estándar múltiple de la estimación o pronóstico de ventas residual. (Y’)

yc = 3,5 - 0,975 x1 + 2,875 x 2 = 3,5 – (0,975) (4) + (2,875) (2) = 5,35
yc = 3,5 - 0,975 x1 + 2,875 x 2 = 3,5 – (0,975) (7) + (2,875) (5) = 11,05
yc = 3,5 - 0,975 x1 + 2,875 x 2 = 3,5 – (0,975) (3) + (2,875) (1) = 3,45
yc = 3,5 - 0,975 x1 + 2,875 x 2 = 3,5 – (0,975) (6) + (2,875) (4) = 9,15
yc = 3,5 - 0,975 x 1 + 2,875 x 2 = 3,5 – (0,975) (10) + (2,875) (6) = 11,00
∑ ( Y - Y') 2,65 2,65

Sy,12 = = = = 1,151 x 1000 = 1.151 $us.
n-k -1 5- 2-1 2
n = número de casos; k = número de variables independientes

NOTA.- El agregar una variable más los pronósticos es más grande.
c) Calcular el coeficiente de correlación múltiple.

SSR
r2 =
SSTOTAL
 VARIACION TOTAL = SS TOTAL = ∑ ( Y - Y ) = 50 X 1000 = 50.000
2
2
 VARIACION EN EL ERROR = SSE = ∑ ( Y - Y') = 2,65 X 1000 = 2.650
 VARIACION EN LA REGRESION = SSR = SSTOTAL – SSE = 50.000 – 2.650 = 47.350
∑Y 40
y= = =8
n 5
SSR 47.350
r2 = = = 0,947
SSTOTAL 50.000
r= r2 = 0,947 = 0,9732 = 97,32%
El 97,32% de variación total en las ventas semanales se debe a la variación en las

puntuaciones de prueba y la calificación de desempeño.
d) Calcular el coeficiente de no determinación.
1 – r2 = 1 – 0,947 = 0,053 = 5,3%
El 5,3% de la variación total en las ventas semanales no se debe a la variación en las

puntuaciones de prueba ni a la calificación de desempeño.
e) Calcular el intervalo de predicción del análisis de regresión múltiple a un nivel de
significación del 5% para los datos del inciso a).
Para calcular estos intervalos se debe utilizar la distribución t estudent ya que el análisis se hace
sobre muestra pequeñas:

 gl  n  k  1  5  2  1  2
 
t=  5%  = 4.303
 NS  2  2,5%  0,025 
8,575  4,953  13,53

y c ± t S y,12 = 8,575 ± (4,303) (1,151) = 8,575 ± 4,953 =

8,575  4,953  3,62
El intervalo de predicción de las ventas, con un nivel de significación del 5% se encuentra entre
3,62 y 13,53, con una puntuación de 6 y una calificación de 3,8.
f) Calcular el intervalo de estimación del análisis de regresión múltiple a un nivel de significación
del 5% para los datos del inciso a).
S y,12 ( 4,303) ( 1,151) 4,953
yc ± t = 8,575 ± = 8,575 ± = 8,575 ± 2,211 =
n 5 2,24
8,575  2,211  10,786


8,575  2,211  6,364
El intervalo de estimación de las ventas a un nivel de significación del 5% esta entre 6,364 y
10,786, con una puntuación de 6 y una calificación de 3,8.
g) Pruebe la hipótesis que existe una correlación entre la variable dependiente y las variables
independientes a un nivel de significación del 5%.
H0: β1 = β2 H1: β1 ≠ β2
Los estadísticos recomiendan la utilización de la distribución F como la más adecuada para

comprobar la hipótesis nula en este caso.
El valor de F (crítico) se determina tomando en cuenta los siguientes datos:

 Numerador gl = 2 (número de variables independientes)
 Denominador gl = n – k – 1 = 5 – 2 – 1 = 2
 Nivel de significación = 5% =  = 0,05
El valor de F (crítico) es 19 debe buscarse en la tabla del apéndice G
SSR 47.350
MSR K 2 47.350
F (calculado) = = = = = 17,87
MSE SSE 2.650 2.650
n-k-1 2
Se aprueba la hipótesis nula a un nivel de significación del 5% (esto por F calculado es menor que
F critico) la misma que indica que existe una correlación entre la variable dependiente y las

variables independientes.

BIBLIOGRAFIA
1) ESTADISTICA APLICADA A LA ADMINISTRACION Y LA ECONOMIA” McGraw
hill, 1.985 Leonardo J. Kazmier.
2) “ESTADÍSTICA PARA ADMINISTRACIÓN Y ECONOMIA” DE ROBERT
D.MANSON Y DOUGLAS A. LIND.
3) “PORBABILIDAD E INFERENCIA ESTADÍSTICA” Segunda edición de Rufino
Moya C. Y Gregorio Saravia A.
4) “DISTRIBUCIONES Y ESTADÍSTICA INFERENCIAL” De C. García Ore
5) “ESTADÍSTICA DESCRIPTIVA E INFERENCIAL” De Manuel Córdova Zamora.
6) “DISTRIBUCIONES MULTIVARIADAS REGRESIÓN Y CORRELACION” de C.
García Ore.

FORMULARIO
1) ERROR ESTANDAR DE LA MEDIA 9) INTERVALOS DE CONFIANZA PARA
δ S ESTIMAR LA DIFERENCIA DE LA MEDIA
δx = n
ó Sx 
n DE LA POBLACION
a) Utilizando la distribución normal
CUANDO n > 5% N
δ N n S N n
μ1 - μ2 = ( x 1 - x2 ) ± Z δ x -x
δx
1 2
= ó Sx 
n N 1 n N 1
μ1 - μ2 = ( x 1 - x2 ) ± Z S x 1
-x
2
2) Intervalos de Confianza para estimar
la Media de la población:
a) Utilizando la Distribución Normal
δx 1 - x2 =  x1 2  x2 2
  x±Z ó 
δx
b) Utilizando la proporción
x ± Z Sx
S x1- x2 =  S x1 2  S x2 2
x b) Utilizando proporciones
 = P ± Z Sp donde p=
n 1-2 = ( p1 - p 2) ± Z S p1-p 2
ERROR ESTANDAR DE PROPORCIONES
P (1 - P ) P (1 - P )
Sp - p =
1 2 p1
2
p2
2
S   S 
Sp = ó Sp =
n n c) Utilizando la distribución t estudent
N n u1 - u2 = ( X1 - X 2) ± tgl s x 1- x 2
N 1
Donde el: gl. = n1+n2 – 2
   2
c) Utilizando la Distribución t estudent 2 2
Cuando: o
1 2 1
 x ± tgl S x donde gl = n-1 S x1- x2 =  S x1 2  S x2 2
   
d) Utilizando la desigualdad de chebyshev 2 2
Cuando: o
1 2 1 2
  X ±k   X ±k
δX ó SX s1 - 1) s
2 2
(n1 - 1)  (n 2
ˆ 2  2
1 1 n1  n 2  2
1  2 = IC ó K=
K 1 - IC
e) Utilizando Ji-Cuadrado para calcular la ˆ 2 ˆ 2
desviación estándar y la varianza de la x 1
-
x2

n1

n2
población
VARIANZA Cuando n > 5% N
( n 1) S 2 2 ( n 1) S 2 ˆ 2 N - n ˆ 2 N -n
≤ ≤
X 2
gl , inf erior X 2
gl , sup erioor x 1
-
x2

n1

N - 1 n2 N 1
DESVIACIÓN ESTÁNDAR: 10) TAMAÑO NECESARIO DE LA MUESTRA
(n  1) S 2
 
( n  1) S 2 n = Z2 (1 – )
2 2
X gl , inf erior X gl , sup erior E2
3) TAMAÑO NECESARIO DE LA MUESTRA  Z 
2
n=  
U.A.G.R.M. “FACULTAD INTEGRAL DEL CHACO”  2E 
11) PRUEBA DE HIPOTESIS DE LA MEDIA DE LA 1    1   

POBLACION p  p  
a) Utilizando la distribución normal 1 2 n1 n2
x - μ0 x - μ0 c) Utilizando la distribución t estudent
Z= ó Z=
δx Sx x1 - x 2 x1 - x 2
b) Utilizando una proporción t= ó t=
S x1 - x 2  x1 - x 2
P - 0
1 2  2
2 2
Cuando: o
Z= 1
p
 0 (1-  0)
δx 1 - x2 =  x1 2  x2 2
ERROR ESTANDAR p 
n
N n S x1- x2 =  S x1 2  S x2 2
N 1
    2
2 2
c) Utilizando la distribución t estudent Cuando: o
1 2 1
x - μ0
t= 2 2
Sx ˆ 2 (n1 - 1) s  (n 2 - 1) s
 
n1  n 2 - 2
d) EMPLEANDO DESIGUALDAD DE
CHEBYSHEV
1 x  0 ˆ ˆ
P= ; K= 2 2
K2 SX x - x  
1 2 n1 n2
e) Utilizando la distribución binomial
P (X = xi) = nC x px qn – x Cuando n > 5% N
f) Utilizando Ji-cuadrado ˆ 2 N - n ˆ 2 N -n
 x1 - x 2  
2 ( n  1) S 2 n1 N -1 n2 N 1
X gl =
2 Utilizando observaciones pareadas
PARA ESTIMAR EL ERROR DE TIPO II
d
xCR   0    x ó
t=
Sd
d
x CR   0  t  x MEDIA DE LA DIFERENCIA: d 
n
DESVIACION ESTANDAR
Z=
x cr - μ1 ó t=
x cr - μ1
Sd 
∑d - d  2
o
δX SX n 1
12) TAMAÑO NECESARIO DE LA MUESTRA
Sd 
∑d 2
 (n)(d ) 2
( 0 - 1)2 2 n 1
n Sd
(1 - 0)2 ERROR ESTANDAR Sd =
n
13) PRUEBA CON LA DIFERENCIA DE LA MEDIA DE LA
POBLACION d) Utilizando la distribución F
a) Utilizando la distribución normal
2
x1 - x 2 x1 - x 2 S1
z= ó z=
S x 1 -“FACULTAD  x1 - x 2 DEL
F gl1;gl2 = 2
U.A.G.R.M. x2 INTEGRAL CHACO” S2
14) TAMAÑO NECESARIO DE LA MUESTRA 20) ERROR ESTANDAR DE LA MEDIA CONDICIONAL
 Zo  o 1   o   Z1  1 1   1  
 x  x 2
2
n  1
1   0 S ŷ ; x  S Y , X 
  n 2

  x
2
x
n
15) LA PRUEBA DE JI-CUADRADO
21) INTERVALO DE PREDICCION PARA LA
 f  fe 
2
2 0 MEDIA CONDICIONAL
X= gl = K – m – 1
fe
Cuando n  50 y el gl = 1 Y X  t S Ŷ , x
X=

2
f 0  f e  0.5 2 22) ERROR ESTANDAR DEL PRONOSTICO
S y,x 2
fe 2
S y, siguiente =  
 S 
 yx
16) PARA DETERMINAR LA INDEPENDENCIA
ENTRE DOS VARIABLES
23) INTERVALO DE PREDICCION UTILIZANDO ERROR
 r  k 
ESTANDAR DE PRONOSTICO
f =  
e gl = (r -1) (k -1)
n y x  t S y , siguiente
 f0  fe 
2
X2=
fe 24) ERROR ESTANDAR DE b BASADO EN
LA INFORMACION MUESTRAL
17) REGRESION Y CORRELACION LINEAL
Y X = a + bx Sb 
S y ,x
x 2
n x  2
 xy  n( x )( y )
Donde: b =
 x2  n x  2 25) INTERVALO DE CONFIANZA
a = y  bx b
 tSb
18) ERROR ESTANDAR DE INTERVALO DE
ESTIMACION Y PREDICCIÓN 26) VALOR HIPOTETICO DE β
 y  yx  2
b
ó t =
SY ,X  Sb
n2
2  a y b xy 27) COEFICIENTE DE DETERMINACIÓN
y  
S Y,X 
n 2
2
r=
a ∑ y  b ∑ xy - n y   2
19) INTERVALO DE PREDICCION O ∑ y2 n y   2
ESTIMACION 28) COEFICIENTE DE CORRELACION
Y X  t SY , X ó
 y  b xy  n y 
2
a
y X  Z SY ,X r 
 y  n y 
2 2

37) COEFICIENTE DE CORRELACION 43) INTERVALO DE ESTIMACION

a  y  b  xy  n y   2
S y ,12 S y ,12
r Yc t ó Yc z
 y  n y 
2 2
n n
38) FORMULA ALTERNATIVA 44) ERROR ESTANDAR MÚLTIPLE DE
ESTIMACION O PRONÓSTICO
n xy   x  y 2
r
 n x 
  x   n  y    y  y '
 
2 2
y  2 2
S y ,12 =
 n  k 1
39) PRUEBA DEL VALOR HIPOTETICO 37) COEFICIENTE CORRELACION
r MÚLTIPLE DE DETERMINACION
t = 1 r2
n2 SSR SSR
r2 = SS total
r = SS TOtAL
40) FUNCION LINEAL DE REGRESION
MÚLTIPLE 38) PRUEBA LA HIPOTESIS
Yc = a + b1x1 + b2 x2
41) COEFICIENTE DE NO ETERMINACION SSR
MSR K
1 - r2 F = =
MSE SSE
n  k 1
42) INTERVALO DE PREDICCION
 VARIACION TOTAL= SS TOTAL =
(
∑ Y-Y ) 2
Yc  t S y ,12 ó Yc  z Sy ,12  VARIACION EN EL ERROR=SSE=

∑  Y - Y' 
2
 VARIACION EN LA REGRESION =
SSR = SSTOTAL – SSE
VALORES DE ÁREA SELECCIONADAS BAJO LA CURVA NORMAL

Intervalos de Nivel de significación VALOR DE Z
confianza UN EXTREMO DOS EXTREMOS
90% 10% + 1,28 ó –1,28  1,65
95% 5% + 1,65 ó –1,65  1,96
99% 1% + 2,33 ó –2,33  2,58
99,5% 0,5% + 2,58 ó – 2,58  2,81
99,8% 0,2% + 2,88 ó – 2,88  3,08

ANEXO N º 1

ANEXO N º 2

ANEXO N º 3

ANEXO N º 4

ANEXO N º 5

Mat 260 2007

Cargado por

Copyright:

Formatos disponibles

Mat 260 2007

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Mat 260 2007

Cargado por

Copyright:

Formatos disponibles

ESTADISTICA II (MAT-260) 0

_____ DOCENTE: Lic. Antonio Cabrera Sensano

UNIVERSIDAD AUTONOMA GABRIEL RENE MORENO

CARRERA: CONTADURÍA PÚBLICA

U.A.G.R.M. “FACULTAD INTEGRAL DEL CHACO”

U.A.G.R.M. “FACULTAD INTEGRAL DEL CHACO”

UNIDAD N º 6: “ANALISIS REGRESION Y CORRELACION LINEAL SIMPLE”..........................48

U.A.G.R.M. “FACULTAD INTEGRAL DEL CHACO”

UNIDAD N º 1: “INTERVALOS DE CONFIANZA PARA LA MEDIA DE LA

1. ESTIMACIÓN PUNTUAL Y MUESTREO:

Ejemplo 1: La media (  ) y la desviación (  ) de una población de medidas son parámetros de

En la tabla siguiente presenta algunos estimadores puntuales y los parámetros de población

ESTIMADORES PUNTUALES FRECUENTEMENTE UTILIZADOS

Si se va a utilizar una estadística de la muestra para estimar el valor específico de un parámetro

U.A.G.R.M. “FACULTAD INTEGRAL DEL CHACO”

Una distribución de población de valores y una distribución de muestra representa la distribución de

estimadora puntual, es generalmente denominado error estándar de la media se definen como:

Si no se conoce la desviación estándar de la población, el error estándar de la media se puede

U.A.G.R.M. “FACULTAD INTEGRAL DEL CHACO”

con el símbolo sx (por

U.A.G.R.M. “FACULTAD INTEGRAL DEL CHACO”

3. INTERVALOS DE CONFIANZA PARA LA MEDIA UTILIZANDO LA DISTRIBUCIÓN NORMAL:

En este subtítulo, los métodos de estimación de intervalos se basan en la suposición de que se

Aunque la media de la muestra es útil como estimador no sesgado de la media de la población, no

Un intervalo de confianza para la media es un intervalo estimado construido con respecto a la

U.A.G.R.M. “FACULTAD INTEGRAL DEL CHACO”

95% 5% + 1,65 ó –1,65  1,96

180  4,92  184,92

S se utiliza como un estimador de  y el factor de corrección finito no es necesario porque

U.A.G.R.M. “FACULTAD INTEGRAL DEL CHACO”

b) IC = 99 = Z = 2, 33 μ = X + Z S x = 4,63 + (2,33)(0,15) = 4,98 o menos

5. INTERVALOS DE CONFIANZA PARA LA PROPORCIÓN EMPLEANDO LA DISTRIBUCIÓN

P (1  P ) (0,40)(1  0,40) (0,40)(0,60) 0,24

0,40  0,10  0,50 x100  50%

U.A.G.R.M. “FACULTAD INTEGRAL DEL CHACO”

6. DISTRIBUCIONES t DE STUDENT E INTERVALOS DE CONFIANZA PARA LA MEDIA:

En el subtítulo n º 3 observa que el uso de la distribución normal en la estimación de una media de

Si una población está normalmente distribuida, la distribución de muestreo de la media para

muestra. La inclusión de una variable sx en lugar de la constante

Cuando gl = n - 1, el intervalo de confianza para calcular la media de la población cuando  no se

conoce, n < 30 y la población se distribuye normalmente, es: μ = χ ± t gl s x .

U.A.G.R.M. “FACULTAD INTEGRAL DEL CHACO”

4000  143,2  4.143,2

7. DESIGUALDAD DE CHEBYSHEV E INTERVALOS DE CONFIANZA PARA LA MEDIA:

Cuando la muestra es pequeña (n <30) y se supone que la población no está normalmente

TEOREMA DE CHEBYSHEV: La proporción de las medidas en un conjunto de datos que se sitúa

basa en la suposición de que,

pequeñas. La desigualdad de Chebyshev raramente se utiliza para construir intervalos de

U.A.G.R.M. “FACULTAD INTEGRAL DEL CHACO”

decididamente no es normal y una muestra que es pequeña (n < 30).

Al utilizar la desigualdad de Chebyshev junto con la estimación de intervalos, el procedimiento es

Ejemplo 8: Se selecciona aleatoriamente una muestra de 10 empleados de un grupo grande

Aplicando la fórmula tenemos:

180  19,8  199,80

Dada una población de valores normalmente distribuidos, las distribuciones X2 (JI-CUADRADO)

pueden ser las distribuciones de probabilidad apropiadas para la relación

U.A.G.R.M. “FACULTAD INTEGRAL DEL CHACO”

de libertad (gl). De esta manera: X2 gl =