Semana 3 - Trabajo
Semana 3 - Trabajo
Semana 3 - Trabajo
ESCUELA DE POSTGRADO
METODOS CUANTITATIVOS
INTRODUCCIÓN
Este gran problema se hace continuo por la falta capacitación y formación constante en
el área y además por no existir un sistema estadístico de información gerencial que facilite el
análisis y uso de la información.
operaciones que hacemos a nivel inconsciente, hasta lograr un análisis estadístico de datos
simple.
OBJETIVOS
CAPITULO I
2. Definición de la población.
Se debe definir el grupo del cual se extraerá la información y al cual se generalizarán
las conclusiones que se obtengan en la investigación.
3. Diseño de la muestra.
La teoría de Muestreo o de diseño y Análisis de experimentos pueden garantizarnos que
la información obtenida de la muestra generalizarlo a la población de interés.
CAPITULO II
ESTADÍSTICA.
Es el arte y la ciencia que nos proporciona un conjunto métodos y técnicas para recolectar,
organizar, presentar, analizar e interpretar datos con el fin de propiciar la toma de
decisiones más eficaz; es decir, brinda el soporte para saber qué datos obtener, cómo,
cuándo, dónde obtenerlos, y una vez obtenidos proporciona métodos y procedimientos
para organizarlos con diferentes propósitos.
DIVISION DE LA ESTADISTICA.
Los administradores aplican alguna técnica estadística a prácticamente todas las ramas de
las empresas públicas y privadas. Estas técnicas son tan diversas que los estadísticos, por
lo general, las dividen en dos grandes categorías: estadística descriptiva y estadística
inferencial.
Estadística descriptiva.
Es la estadística que sólo se ocupa de describir y analizar un grupo de datos, sin sacar
conclusiones sobre un grupo mayor.
Ejemplo: Al analizar a sus compañeros de clase, tal vez encuentre que 38% de ellos usan
Celular Marca Nokia. Si así fuera, “38%”es un estadístico descriptivo
Estadística inferencial.
La estadística inferencial, es un conjunto de procedimientos que nos permiten efectuar
generalizaciones de la muestra a la población. Se utiliza para probar hipótesis y estimar
parámetros, se basa en el concepto de distribución muestral.
Ejemplo: La Cámara de comercio encontró que las 50 empresas que encuestó practican el
trueque o intercambio. Con los datos de la muestra se puede inferir con bastante certeza
que casi todas, si no es que todas, las empresas de la Cámara de Comercio siguen estas
prácticas.
POBLACIÓN.
Es el conjunto de unidades de observación o elementos de la misma especie que se
pretende estudiar en una investigación científica y de la cual se obtiene una muestra.
PARÁMETRO.
Es una medida de resumen que nos describe alguna característica de la población. Para
calcular dicho valor es necesario utilizar todo los valores de la población completa.
Algunos parámetros conocidos y que usaremos en este curso son:
La media poblacional denotado por
La varianza poblacional denotado por 2
La proporción poblacional denotado por P
El coeficiente de correlación poblacional denotado por
MUESTRA.
Es un subconjunto de la población sobre quienes se va estudiar, la cual debe haberse
elegido al azar (aleatorio) y ser representativa de la población a la cual pertenece, esto
quiere decir sin sesgos. En general la muestra es toda parte representativa y adecuada de
la población. A partir del análisis de la muestra obtenida correctamente y al azar , se
puede hallar conclusiones que sean extrapolables a la población de origen. Para elegir la
muestra debe apelarse a un determinado método de muestreo.
ESTADÍSTICO.
Es una medida de resumen que nos describe algunas características de interés y cuyo
valor es calculado usando sólo los valores de los elementos o unidades de una muestra.
Algunos estadísticos conocidos y mas usados son:
La media muestral denotado por
VARIABLE.
Es una característica o propiedad determinada de las unidades de análisis, sea medible o
no. Esta propiedad hace que las unidades de análisis de un grupo pueden diferir de las de
otro grupo en la muestra o población de estudio.
CLASIFICACIÓN DE VARIABLES.
1.- POR SU NATURALEZA. Se dividen.
Ejemplos:
Unidad de estudio Variable
Estudiante Peso, talla, edad, ci, número de hermanos, raza,
color de ojos, tipo de sangre, etc.
Empresa Ganancia, costos, producción, número de
trabajadores, numero de computadoras, etc.
PYME Número de trabajadores, años de funcionamiento,
ganancias, etc.
ESCALAS DE MEDICION
Una vez definida la variable y obtenidos los datos, los análisis que se aplique son afectados
por la manera en que las variables fijadas se clasifiquen. Dicha clasificación obedece a las
escalas de medición propuestas por el Psicólogo Steven en 1946, casi universalmente
aceptadas, los datos están siempre referidos a una de estas escalas.
Ejemplo 2.- Si tres alumnos A, B,C han obtenido los puntajes 2, 4, 16 respectivamente,
no solo se verifica las relaciones 2 y 2<4<16, sino que 16-4 = 6 (4-2) donde se puede
inferir que C y B es igual a seis veces la diferencia entre los puntajes de B y A.
Ejemplo 1: Peso, talla, número de alumnos; en las que el cero representa la nulidad o
ausencia de lo que se estudia. Se dice que un peso de 50 libras es el doble que uno de
25 libras, o que uno de 100 libras es 4 veces mayor que uno de 25 libras.
PRÁCTICA PRESENCIAL Nº 01
CAPITULO III
2.1. Tablas estadísticas. Las tablas estadísticas presentan ordenadamente los datos
estadísticos en filas y columnas, clasificados y agrupados de acuerdo a un criterio
específico. En las tablas metodológicamente, conviene distinguir las " tablas de frecuencia
o de distribución" y los "cuadros estadísticos o de análisis".
observados.
El tiempo de duración del estudio fue de un mes, siendo responsable el jefe de control de
calidad. Durante dicho periodo se identificaron diferentes causas de fallas y la intensidad o
frecuencia de ocurrencia, la misma que se muestra en la siguiente tabla.
A D A E D A E B E B
B A B B B E A E B A
C C B A E B E A D B
B B D E A E B B A A
D E B E B A A B B E
A D A B D B B B B B
C A B D B B B A A E
B B B A A A E B E B
Frecuencia Frecuencia
CAUSA DE FALLO Absoluta Relativa Porcentaje
Color (B) 37 0.4625 46,25
Viscosidad (A) 21 0.2625 26,25
Contaminación (E) 14 0.1750 17,50
Hermeticidad (D) 5 0.625 6,25
Peso por galón(C) 3 0.375 3,75
Total 80 100,00
GRAFICO DE BARRAS
GRAFICO Nº 1: DISTRIBUCIÓN DE PROFESIONALES DE CIENCIAS ECONOMICAS
ENCUESTADOS
Total
Para construir una tabla de frecuencias de una variable discreta, también se puede construir
con intervalos siempre y cuando el rango de la variable sea muy amplio y se construyen los
intervalos tan igual que para la variable continua que se detalla en la siguiente parte con la
única diferencia de que se trabaja con los intervalos cerrados.
Ejemplo: En una población formada por 100 lotes de 50 artículos cada uno, se
consideró la variable cuantitativa discreta X= “Número de artículos defectuosos en
cada lote”. Los resultados fueron:
1 5 4 2 3 4 5 3 5 4 2 4 5 6 4 5 2 5 3 2
4 6 3 4 5 1 6 3 2 5 4 3 6 3 5 7 2 5 4 2
7 4 6 5 2 8 3 3 6 4 2 4 3 4 8 1 5 3 7 3
7 2 4 1 3 5 3 8 4 6 5 4 5 4 5 4 5 2 6 3
4 3 5 2 3 4 3 1 4 5 4 4 7 4 6 2 6 2 4 5
fi N° Familias h
26
24
22
20
18
16 - -
14 - -
12 - -
10 - -
8- -
6- -
4- -
2- -
0 1 2 3 4 5 6 7 8
X : Artículos Defectuoso
valor de A se aproxima por exceso de manera que se cubra todo el rango, esto es: KA R.
Cada intervalo o clase Ii, lo tomamos cerrado por la izquierda y abierto por la derecha esto
es: Ii=[Li,Ui[, siendo Li el límite o extremo inferior y U i el límite o extremo superior del
intervalo. El último intervalo se tomará como extremos cerrados, esto es, I k= [Ik, Uk
Para construir la distribución de frecuencia de intervalos hay varios procedimientos.
De manera que KA R; Los intervalos se forman de la siguiente manera:
I1 = [Xmin, Xmin + A[
I2 = [Xmin, Xmin + 2A[
I3 = [Xmin, Xmin + 3A[
.
Ik = [Xmin, Xmin + KA]
Marca de Clase.- Es el punto medio del intervalo de clase. Se obtiene sumando los límites
inferior y superior de cada clase y dividiéndolo entre dos. Así la marca de clase del intervalo
50-54 será (50 + 54)/2 = 52. La marca es, en definitiva, el valor que representa a la
información contenida en el intervalo de clase.
Ejemplo. Los sueldos mensuales (en dólares) de 60 empleados de la Empresa CAMPOSOL
Trujillo en el año 2003 fueron los siguientes
440 560 335 587 613 400 424 466 565 393 574 480
453 650 407 376 470 560 320 500 528 526 500 625
570 475 618 537 409 600 550 432 591 428 462 507
440 340 558 460 560 607 382 669 512 492 380 645
450 530 501 471 660 470 364 634 580 450 518 382
Construir una tabla de distribución de frecuencias.
1.-Rango: R= Xmax - Xmin = 669 - 320 = 349
2.- Número de Intervalos: K = 1+ 3.3 Log(60) = 6.9; K = 7 intervalos
Interpretación:
12 fi
Polígono
11
10
9
8
7
6
5
4
3
2
1
Frecuencia Frecuencia
Frecuencia. Absoluta. Absoluta
Absoluta Acumulada Acumulada
fi Menor Fi Mayor Fi
320- 370 4 4 60
370- 420 8 12 56
420- 470 11 23 48
470- 520 12 35 37
520- 570 10 45 25
570– 620 9 54 15
620- 670 6 60 6
Total Total
60 f
55 i Ojiva Menor f Ojiva Mayor
60
50 55 i
45 50
40 45
35 40
30 35
25 30
20 25
15 20
15
10
10
5 5
320 370 420 470 520 570 620 670 320 370 420 470 520 570 620 670
Ejemplo: La siguiente muestra corresponde a los puntajes obtenidos por 36 postulantes en
una prueba de administración. Dólares Dólares
50 53 90 55 93 60
53 80 85 95 75 45
75 58 90 95 47 46
50 43 44 70 53 70
43 54 49 60 52 54
50 58 80 49 52 70
D = 6 x 9 – 52 = 2
1 (Se le resta al li 43 -1 = 42)
D=2
1 (Se le suma al ls 95 +1 = 96)
Observación:
a) Si la diferencia es un número par, se reparte equitativamente entre el primero
y último dato.
Ejercicios
2.1 Durante una semana, se ha medido diariamente el contenido de humedad correspondiente
a 24 paquetes de un determinado producto alimenticio, tomados al azar a la salida de una
línea de envasado. Los resultados obtenidos son:
Lunes 8.20 8.05 8.53 8.48 8.15 8.79 Jueves 8.97 9.21 8.86 8.76 9.55 9.38
8.36 8.76 8.64 8.34 8.15 8.91 9.02 9.53 8.75 9.21 9.50 9.58
8.37 8.51 8.83 8.51 8.68 8.32 9.61 9.28 9.64 8.76 9.48 9.09
8.52 8.18 8.35 8.08 8.79 8.49 9.15 9.28 9.05 9.40 9.58 9.46
Martes 8.61 9.30 8.59 8.32 9.08 8.43 Viernes 8.46 8.17 8.97 8.64 8.40 8.17
9.14 8.58 8.66 8.33 9.13 8.66 8.00 8.60 8.20 8.81 8.60 8.11
8.52 8.81 8.70 8.41 8.69 9.17 8.32 8.48 8.33 8.73 8.47 8.05
9.20 8.68 9.08 9.07 8.46 8.56 8.91 8.65 8.26 8.73 8.10 8.89
Miércol 9.43 9.28 9.59 8.86 9.19 9.22
8.85 9.14 9.15 9.28 9.12 8.85
8.66 9.41 8.75 8.50 9.20 8.56
8.89 9.34 9.18 9.19 8.80 9.46
Tallo Hoja
6 8
7 1 7 9
8 3
Tallo Hojas
4 75525
5 748111938411
6 42794297
7 2488
8 3
DESVENTAJAS.
No es una representación práctica para volúmenes grandes de datos.
Ejercicio: Elabore un gráfico de Hojas y Tallos con los siguientes datos de las medidas de
tubos de cemento que a continuación se presentan.
68 72 50 70 65 83 77 78 80 93
71 74 60 84 72 84 73 81 84 92
77 57 70 59 85 74 78 79 91 102
83 67 66 75 79 82 93 90 101 80
79 69 76 94 71 97 95 83 86 69
CAPITULO IV
MEDIDAS DE POSICION.
( ) = =
Número de valores
= =
= = = 143/5 = 28.6
63 89 36 49 56 64 59 35 78
43 53 70 57 62 43 68 62 26
64 72 52 51 62 60 71 61 55
59 60 67 57 67 61 67 51 81
53 64 76 44 73 56 62 63 60
= = =
1) = = = ó
= =
yi fi fi*yi
320 - 370 345 4 1380
370 - 420 395 8 3160
420 - 470 445 11 4895
470 - 520 495 12 5940
520 - 570 545 10 5450
570 - 620 595 9 5355
620 - 670 645 6 3870
Total 60 30050
Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 27
Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.
= = = 30050 / 60 = 500.83
II.- MODA(MO). Es el valor que con mayor frecuencia se presenta o se repite en un conjunto
de datos. La moda no siempre existe y no siempre es única.
Para calcular la moda se tiene en cuenta dos casos:
b) Para Datos Agrupados. Para calcular la moda en datos agrupados se calcula con la
siguiente fórmula
M0= Lj+ A
yi fi
J=1 320 - 370 345 4
J=2 370 - 420 395 8
J=3 420 - 470 445 11fj-1 Mo
J=4 470 - 520 495 12 fj
J=5 520 - 570 545 10 fj+1
J=6 570 - 620 595 9
J=7 620 - 670 645 6
Total 60
Calculo de la Moda:
Mo = 494
Solución:
Ordenando estos valores de acuerdo a su magnitud se:
1ero 2do. 3ero 4to 5to 6to 7mo
24 , 37 , 41 52 , 63 , 68, 82 .
50 % 50 %
mediana
Como n = 7 entonces.
Me
Ejemplo:
Considere las observaciones muestrales.
24 , 41 , 63 , 24 , 68 , 82, 37
Ordenando estos valores en orden creciente tenemos.
1er 2do 3ero 4to 5to 6to
24 , 37, 41 , 63 , 68, 82
Me =
Me = Lj + A
yi fi Fi
J=1 320 - 370 345 4 4
J=2 370 - 420 395 8 12
J=3 420 - 470 445 11 23 Fj-1
J=4 470 - 520 495 12 fj 35 Fj Me
J=5 520 - 570 545 10 45 Fj+1
J=6 570 - 620 595 9 54
J=7 620 - 670 645 6 60
Total 60
Me = Lj + A = 470 + 50 = 470 + 50 = 470 + 29.17
Me = 499.17.
Cuartil ( Qi ).- Son medidas de posición que divide en cuatro partes iguales a un conjunto de
observaciones o datos ordenados, o una distribución de frecuencias. Se denota con la letra
“Q”.
La primera cuarta parte o el 25% de una distribución, recibe el nombre de primer cuartil (Q1).
La segunda cuarta parte o el 50% de una distribución, recibe el nombre de segundo cuartil
(Q2).
La tercera cuarta parte o el 75% de una distribución, recibe el nombre de tercel cuartil (Q3).
Q1 = Lj + A ; Q2 = Lj + A ; Q3 = Lj + A
PERCENTILES.
Los percentiles se encargan de dividir a una distribución de frecuencias en 100 partes iguales y
cada punto determina el1% del total de datos. Su notación es “P”.
1% 2% 3% 4% 5% … .. . .... 99%
P1 P2 P3 P4 P5 ... ......... P99
Pk = Lj + A
OTRAS MEDIAS.
H =
CAPITULO V
a1).- V(x)= S2 =
Solución:
= = =4
S2 = = = S 2= 5
V(X)= S2 = =
S2 = 1/4(84) - 16 = 21 - 16 = 5
S2 = 5
c) V(X) = S2 =
= = = 30050 / 60 = 500.83
S2 =
S2 = = =
7424.31
V(X) = S2 =
Ejemplo: Del mismo ejemplo anterior calcular la Varianza mediante el uso del
método corto.
yi fi yi*fi * fi
320 - 370 345 4 1380 476100
370 - 420 395 8 3160 1248200
420 - 470 445 11 4895 2178275
470 - 520 495 12 5940 2940300
520 - 570 545 10 5450 2970250
570 - 620 595 9 5355 3186225
620 - 670 645 6 3870 2496150
Total 60 30050 15495500
Para calcular la varianza mediante el método corto se sigue los siguiente pasos:
1.- Calculo la media aritmética.
= = = 30050 / 60 = 500.83
V(X) = S2 = = =
S2 = 258258.33-250830.69 = 7427.64
S= ó S=
S= = =
S= = 2.2360
Interpretación: La variabilidad de las edades de los niños atendidos en el Hospital
de Belén de Lambayeque es de 2.24 años.
B) Datos Agrupados
S= = ó V(X) = S2 =
S= = 86.16
Interpretación: La variabilidad de los sueldos con respecto a la media de los
empleados de la Empresa CAMPOSOL de Trujillo es de 86.16 dólares.
C.V = X100
Interpretación:
El coeficiente de variación del termómetro A es 0.0022 ( 0.22%), mientras que para el
termómetro B este coeficiente es 0.0012 ( 0.12%), por lo tanto el termómetro B es más
consistente.
Asimetria: As =
K=
Este tipo de gráfico es una representación simple de la información obtenida que nos permite
conocer:
La localización del centro de los datos( con la mediana).
La dispersión. ( con el rango intercuartil P75- P25).
La Simetría ( Observando la posición de la mediana)
La extensión de los extremos( Con los segmentos que parten de los lados
laterales.
La existencia de los valores aberrantes ( datos outliers en el idioma ingles que
puede ser dato incorrecto introducido al computador, puede ser una observación diferente
de la población de la cual viene el resto de las observaciones etc.)
La caja se construye graficando un rectángulo cuyos límites son los cuartiles inferior (percentil
25) y superior ( percentil 75), marcando la mediana con una línea horizontal. Desde la caja se
dibujan los bigotes cuyos extremos son los límites inferior y superior. Por fuera de los límites se
dibujan los puntos que representan a los valores aberrantes, fuera del contexto o “outliers”.
L Q1 Me= Q2 Q3 U
Donde:
Q1= P25, Q2=P50, Q3= P50, son los cuartiles o percentiles respectivamente. En el rectángulo se
indica la mediana, con un segmento vertical resaltado. De los datos que representan a los
percentiles 25 y 75 parten, respectivamente, un segmento hasta el valor L=P25 – 1.5d, en
donde d es el rango intercuartil y un segmento hasta el valor U=P75+1.5d.
0 20
Ejemplo: Se obtuvieron los siguientes datos del nivel de glucosa en sangre medidos a 50
pacientes diabéticos. Los datos están en milimoles por litro.
2.6 2.5 1.3 2.4 2.0 3.0 2.4 2.3 2.6 3.0
3.2 4.4 3.6 4.3 3.7 4.3 3.7 5.0 3.8 4.4
3.7 5.0 3.8 4.4 4.4 4.5 5.0 6.2 6.3 6.2
7.0 8.0 9.5 7.9 9.0 10.2 11.1 8.7 12.5 15.0
14.9 10.0 10.2 17.5 6.0 8.8 12.5 12.5 14.0 6.3
CAPITULO VI
PROBALIDADES
Como es de nuestro conocimiento, la estadística es arte y ciencia que se rige por leyes y
métodos para la toma de decisiones frente a la incertidumbre y como tal, se basa en la teoría
de probabilidad.
Ejemplo:
1) Lanzar un dado y observar su resultado.
2) Contar objetos defectuosos producidos diariamente por ciertos procesos.
3) Aplicar una encuesta para obtener opiniones.
4) Resultado del examen final en el curso de administración por parte de un estudiante.
Ejemplo:
1) Lanzar un dado y observar el resultado que aparece en la cara superior.
1 = 1, 2, 3, 4, 5, 6
Puntos
muestrales
3era prueba
2da prueba c ccc
ccs
1era Prueba c s
c csc
c
s css
s
c scc
c
s s scs
c ssc
s
s sss
3) El experimento aleatorio consiste en lanzar una moneda y un dado a la vez, y observar los
resultados.
El espacio muestral es:
3= 1c, 2c, 3c, 4c, 5c, 6c, 1s, 2s, 3s, 4s, 5s, 6s,
4) Si el exponente aleatorio consiste en lanzar una moneda tantas veces como sea necesario
hasta que aparezca la primera cara, su espacio muestral es el conjunto
4= c, sc, ssc, sssc,… , etc
5) Si el experimento aleatorio es medir la vida útil (en heras) de una marca de artefactos
electrónicos, su espacio muestral es el conjunto.
Si el exponente aleatorio consiste en lanzar una moneda tantas veces como sea necesario
hasta que aparezca la primera cara, su espacio muestral es el conjunto
5 = t = R/t 0 R=#s reales
1.- DISCRETOS FINITOS. Consisten de un número finito de elementos, por ejemplo: los
espacios. 1, 2 y 3.
2.- DISCRETOS INFINITOS. Consiste de un número infinito numerable de elementos,
ejemplo el espacio 4.
3.- CONTINUOS. Consiste de un número infinito no numerable de elementos, ejemplo: el
espacio 5.
SUCESOS O EVENTOS.- Se llama suceso o evento a todo conjunto del espacio muestral. A los
sucesos se les denota con las primeras letras mayúsculas del alfabeto A, B ,C.
Ejemplo:
Sea el experimento aleatorio:”selección de un alumno de acuerdo a su rendimiento
académico”. El espacio muestral es:
= {Sobresaliente, Bueno, Regular, Malo}.
Ejemplo:
Sea el experimento lanzar un dado y observar el número que aparece en la cara superior.
= {1, 2, 3, 4, 5, 6}.
Los eventos pueden ser:
i) Observar un número impar: A = {1, 3,5}
ii) Observar un número < que 4: B = {1, 2, 3 }
CLASES DE EVENTOS:
PROBABILIDAD DE UN EVENTO.
Sea un espacio muestral asociado a un experimento aleatorio. La probabilidad de cualquier
evento A de , es el numero real P(A) que satisface los siguientes axiomas.
P(A)=
Ejemplo:
En una sección del curso de estadística asisten 20 alumnos con chompa y 30 sin chompa, se
selecciona por sorteo un alumno de dicha sección, halle la probabilidad de que dicho alumno
está con chompa.
Solución:
El espacio muestral tiene 50 elementos, por tanto n() =50.
Sea el suceso:
A = Seleccione un alumno con chompa n(A)=20
Luego, la probabilidad del suceso A es:
Ejemplo:
Se lanza una moneda tres veces, determinar la probabilidad de que se obtengan:
a) Exactamente dos caras.
b) Por lo menos dos caras
Solución:
El espacio muestral es: = {ccc, ccs, csc, scc, css, scs, ssc, sss}
Por lo tanto el numero de resultados posibles del experimento es: n() =8
a) Sea el suceso:
A={se obtuvo exactamente dos caras}
A={ccs, csc, scc}
Por lo tanto, el número de resultados favorables al suceso A es:
b) Sea el suceso:
B= se obtuvo por lo menos dos caras .
B={ccs, csc, scc, ccc}
Por lo tanto, el número de resultados favorables al suceso B es: n(B) =4
La probabilidad del suceso B:
P(B) = =0.5
Ejemplo:
Se lanza un dado y se observa el número obtenido. Calcular la probabilidad de obtener:
a) 3 puntos
b) al menos 3 puntos.
Solución:
a) Si A es el evento de obtener ”3 puntos”,
A = {3} y la probabilidad de A es el numero
P(A) =
Ejemplo:
Un dado se lanza dos veces consecutivas. Calcular la probabilidad de obtener:
a. 7 puntos
b. 6 puntos solo en la segunda tirada
c. la suma sale 7 puntos o 6 puntos solo en la segunda tirada.
d. La suma sale 7 puntos y 6 puntos solo en la segunda tirada.
Solución:
= {(i,j) / i,j=1, 2, 3, 4, 5, 6}: este espacio tiene 36 eventos elementales probables}.
= {(1,1) (1,2) (1,3) (1,4) (1,5) (1,6) (2,1) (2,2) (2,3) (2,4) (2,5) (2.6) (3,1)....(6,6)}
X 1 2 3 4 5 6
1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
2 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
3 (3,1) (3,1) (3,3) (3,4) (3,5) (3,6)
4 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
5 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
6 (6,1) (6,2) (6,3) (6,4) (6,5) (6,6)
P(A) =
P(B)= = 0.139
P(AUB)=
Ejemplo:
De los niños examinados por una nutricionista, se encontró que 80 padecían de desnutrición
leve, 50 padecían de desnutrición crónica, 70 normales. Si de los niños examinados se
selecciona uno al azar ¿Cuál es la probabilidad de que padezca de desnutrición leve o
desnutrición crónica?
Solución:
Sean los eventos
A= {Niños con desnutrición leve=80}
B= {Niños con desnutrición crónica=50}
C= {Niños con desnutrición normal=70}
Ejemplo:
De 100 pacientes examinados, 20 padecían de artritis, 32 padecían de gastritis y 8 tenían
ambos males. Hallar la probabilidad de seleccionar un pacientes de artritis o gastritis.
Solución:
Sean los eventos
A={Número de pacientes que sufren de artritis =20}
B={Número de pacientes que sufren de Gastrits =32}
A B={Número de pacientes que sufren de artritis y gastritis =8}
P(AUB)=
Ejemplo:
La probabilidad de que llueva en Huancayo el 12 de octubre es 0.10; de que truene es 0.5 y de
que llueva y truene es 0.03 ¿Cuál es la probabilidad de que llueva y truene en ese día ?
Solución:
Sean los eventos
A={Llueve en Huancayo el 12 de octrubre}
B={Truene el 12 de octubre}
C={Llueve o truene}
P(A)= 0.10, P(B)=0.05, P(AB)=0.03
P(C)=P(AB)=P(A) + P(B) – P(AB)=0.10 + 0.05 – 0.03 = P(AB)=0.12
Ejemplo:
Solución:
Sean los eventos:
A= El estudiante apruebe el curso de matemática I
B= El estudiante apruebe el curso de Métodos Cuantitativos
C= La probabilidad de aprobar ambos cursos
P(B/A)= ; Si P(A)>0
Ejemplo:
Un club consiste de ciento cincuenta miembros, clasificados según la siguiente tabla.
SOLUCION:
1) P(H/P)= = = 0.6
Probabilidad condicional:
P(H/P)= = =0.6
2) P(N/M)= = = ó
P(N/M)= = =
Ejemplo:
Uno de los clubes universitarios femeninos está compuesto por las siguientes asociadas: 15
rubias de ojos azules, 8 rubias de ojos castaños, 9 morenas de ojos azules, 12 morenas de ojos
castaños, 4 pelirrojas de ojos azules y 2 pelirrojas de ojos castaños. Supongamos que usted ha
conseguido una cita con una de las chicas sin conocerla, y esta lloviendo cuando se encuentra
usted con ella. Su cabello esta completamente cubierto, pero sin embargo sus chispeantes
ojos azules le dan la bienvenida. ¿Cuál es la probabilidad de que sea rubia?
P(A/B)= = = =0.536
EVENTOS INDEPENDIENTES.
Si la probabilidad del evento A no depende de la realización del evento B. Formalmente se
dice que los eventos A y B son independientes si: P(A/B)=P(A) ó P(AB)= P(A).P(B).
En general si los n eventos A1, A2, A3,....An, son independientes entonces:
P(A1A2 ....An) =P(A1) P(A2) .... P(An).
Ejemplo:
viva 10 años más es . Hallar la probabilidad de que “Ambos vivan 10 años más”
Solución:
A: El hombre vive 10 años más
B: La esposa viva 10 años más
Los eventos A y B son independientes, pues los años que viva el hombre no dependen de lo
que viva su esposa:
P(AB)=P(A)P(B)=
EVENTOS DEPENDIENTES
Si los eventos Ay B son dependientes, entonces la ocurrencia simultanea de los eventos es:
P(AB) = P(A) P(B/A).
En general:
Si A1, A2,...An, P(A1,A2 ... An)=P(A1) P(A2/A1) P(A3/A1A2) P(An/A1A2A3 …An-1)
Siempre que P(A1A2A3…An-1)
Solución:
P(A): Probabilidad de que el primer obrero seleccionado este en contra del nuevo
P(B/A): Probabilidad de que el Segundo obrero seleccionado este en contra del Nuevo
P(BA)= . =
Ejemplo 2. Un alumno debe recoger entre tomar un curso de matemáticas o llevar un curso
escoge el de letras, la probabilidad de que lo apruebe es . Para decidir que curso llevar,
Solución
Sean los eventos:
A={“Llevara el curso de matemáticas”}
M={“Aprobar matemáticas”}
L={“Llevar el curso de letras”}
B={“Aprobar el curso de letras”}
Ejercicio:
En un estudio se encontró que la probabilidad que se incremente el empleo en el asentamiento
humano “x”, es de 35%; de que se incremente el consumo de artículos de primera necesidad,
es de 5%; y de que incremente el consumo de artículos de primera necesidad dado el
incremento de empleo, es de 10% ¿Cuál es la probabilidad de que se incremente el empleo y el
consumo de artículos de primera necesidad?
Solución
EVENTOS PROBABILIDADES
A= Incremento del empleo
PROBABILIDAD TOTAL
Si los eventos A1 , A2 , . . . AK, forman una partición del espacio muestral , tal que
para cada i=1,2,. . . ,K. Entonces para cualquier evento B en se tiene que :
DEMOSTRACIÓN :
A1 A2 A3 ... AK
B
. . .
Del diagrama
Ejemplo:
Solución:
B
5
10 1
Entonces la probabilidad de que un alumno seleccionado sea hincha del Alianza Lima es 0.4.
TEOREMA DE BAYES:
Previamente hagamos un breve comentario sobre este teorema, utilizando el ejemplo anterior
correspondiente al cálculo de la probabilidad de que un alumno sea hincha del Alianza Lima.
Supongamos ahora que conocemos que B ocurre, que su probabilidad de ocurrencia también
es conocida y que estamos interesados en hallar la probabilidad de ocurrencia de uno de los
sucesos de la partición digamos Aj, esto lo denotamos por P(Aj/B) luego por definición de
probabilidad condicional.
Ejemplo :
Utilizando el ejemplo anterior; supongamos que el alumno seleccionado es hincha del alianza
lima, es decir sabiendo que es hincha de alianza lima, calcular la probabilidad de que el alumno
sea del 1er Ciclo, entonces:
Análogamente; la probabilidad de que el alumno sea del 2do Ciclo, dado que es hincha del
Alianza Lima es:
y la probabilidad que sea de 3er Ciclo, sabiendo que es hincha de Alianza Lima es :
Ejemplo:
En una fábrica, la máquina A produce el 30% de su rendimiento total, la máquina B, el 25% y
C el 45% restante; el 1% de la producción total de la máquina A es defectuosa asimismo el
1.2% y el 2% de la máquina B y C respectivamente; en un día las tres máquinas producen
10,000 artículos.
Un artículo es seleccionado al azar en un día.
¿Cuál es la probabilidad que sea producido por A ?; ¿Por B? Y ¿Por C?
Solución:
A B C
P(A) =0.30
P(B) =0.25
P(C) =0.45
P(D/A)=0.01
P(D/B)=0.012
P(D/C)=0.02
a) Y
b)
c)
CAPITULO VI.
VARIABLES ALEATORIAS
x({sss})=0
x({scs})= x({css})= x({ssc})=1 Ω x
x({sss})= x({scc})= x({csc})=2 SSS
x({ccc})=3 0
SCS
CSS
SSC
1
CCS
SCC
CSC
2
CCC
3
TIPOS DE VARIABLE ALEATORIA
DISTRIBUCIÓN DE PROBABILIDAD DE X
Sea x una variable aleatoria discreta con recorrido x1; x2.......xk y con probabilidad asociadas P(x1);
P(x2); P(x3)…… P(xk) el conjunto de parejas (Xi; P(xi)) recibe el nombre de distribución de
probabilidad.
x x1 x2 x3 ……………… xk
….
= + + + =1
III)
IV)
a≤ x ≤ recorrido de la V.A. a, b ∈ R
V.A. x
f(x) función de densidad
ii)
iii) Para cualquier a; b, tal que:
P(a ≤ x ≤ b) =
F(x) =
F(x) cumple con las siguientes propiedades:
i)
ii)
iii) F(x) es no decreciente es decir si x1< x2 F(x1)≤ F(x2)
Ejemplo:
OBSERVACIÓN: Dado F(x) función de distribución; para hallar la función de densidad f(x) se
halla su desviada; pero si tengo f(x) función de densidad; para hallar F(x) función de
distribución se halla la integral.
Ejemplo:
Dado f(x) la función de densidad
a)
b)
c)
F(x) = 0 + 1 – 0 + 0
F(x) = 1
Conclusión:
Las características son valores o medidas que identifican a una variable aleatoria entre estas
medidas tenemos a los estadígrafos de posición, dispersión, sesgos, apuntamiento.
Las medidas son importantes en esta distribución son la esperanza matemática y la varianza.
Propiedades:
v) V(k) = 0
vi) V(kx) = k2 V(x)
vii) V(x + k) = V(x)
viii) V(x + y) = V(x) + V(y) son independientes.
EJEMPLO 1
Hallar la esperanza matemática y varianza de la variable aleatoria discreta dado por la distribución
de probabilidad.
x 2 4 6
P(x) 0,3 0,2 0,5
Resolución:
EJEMPLO 2
Resolución:
y = 3x + 2
EJEMPLO 3
Supongamos que x es una V.A. para lo cual E(x)=4V(x)=6. Hallar E(y) en y = 2(x 2 + 3x)
Resolución:
Y = 2(x2 + 3x)
E(y)= E[2(x2 + 3x)]
E(y)= 2E[x2 + 3x]
E(y)= 2[E(x2) + 3E(x)]
EJEMPLO 4
Una caja contiene 3 bolitas negras y 7 blancas. Se saca una bolita de la caja; si esta es negra
Ud. gana S/. 2000 pero si es blanca usted pierde S/. 1,00. ¿Cuál es la esperanza matemática de
este juego?
Resolución:
Designado por x toda posible ganancia o pérdida y por P(x) la probabilidad respectiva.
x(cantidad de ganancia o pérdida) P(x) xP(x)
3/10 6/10
+ S/2 7/10 -7/10
- S/1
EJEMPLO 5
a) Hallar k
b) Hallar la esperanza y varianza de x.
Resolución:
Para
Luego:
Ahora:
PROBLEMAS RESUELTOS
PROBLEMA 1
Sea una variable aleatoria cuya función de densidad está representada en la figura:
a. Hallar F(x)
b. Encontrar
c. si Hallar “a”.
Resolución:
a) Cálculo de F(x):
PROBLEMA 2
Se lanza un dado 2 veces. Llamamos “x” al resultado del primer lanzamiento e “y” al del
segundo lanzamiento.
Definimos la variable aleatoria x en la siguiente forma:
Resolución:
0 3 4 5 6 7
x
1 2 3 4 5 6 1 0 5 6 7 8
1 11 12 13 14 15 16 2 1 0 7 8 9
2 21 22 23 24 25 26
3 31 32 33 34 35 36 3 2 1 0 9 10
4 41 42 43 44 45 46
4 3 2 1 0 11
5 51 52 53 54 55 56
6 61 62 63 64 65 66 5 4 3 2 1 0
PROBLEMA 4
Siendo f una función con regla de correspondencia.
CAPITULO VII
DISTRIBUCIONES DE PROBABILIDADES:
1. LA DISTRIBUCIÓN BINOMIAL
Experimento Binomial:
Es aquel que consiste en realizar “n” veces ensayos de Bernoulli, en el cual se debe
cumplir lo siguiente:
a. Cada ensayo tienen solo dos resultados posibles.
b. Los ensayos son independientes.
c. La probabilidad de éxito “p” es constante en cada ensayo.
5. Su notación es : X B ( n, p )
2. LA DISTRIBUCIÓN POISSON
Ejemplos:
1. Numero de manchas en un metro cuadrado de un esmaltado de un refrigerador.
2. Numero de vehículos que llegan a una estación de servicios durante una hora.
3. Numero de llamadas telefónicas en un día.
4. Numero de clientes que llegan a un banco durante las 10 y 12 p.m.
5. Numero de bacterias en un cm3 de agua.
11.Su notación es : X P( λ )
3. LA DISTRIBUCIÓN NORMAL:
CARACTERÍSTICAS
1. Tiene como parámetros a y
Además: - +
- < < + y >0
1. = 68.3%
2. 2 = 95.5%
3. 3 = 99%
- 3 2 1 1 2 3 +
5. Notación:
Si X es v.a. continua distribuida normalmente con media y varianza 2 , la denotamos
por : X N( , 2).
Aplicando esta notación a la variable normal estandarizada Z, escribimos:
Z N(0 , 1) , esto se interpreta como, Z tiene distribución normal con media 0 y
varianza 1.
6. La superficie bajo la curva normal Z estandarizada también es igual a 1. Por
consiguiente, las probabilidades pueden representarse como áreas bajo la curva normal
escandalizada entre dos valores.
7. Debido a que la distribución normal es simétrica muchas de las tablas disponibles
contienen solo probabilidades para valores positivos de Z.
USO DE TABLA:
Si se conoce el comportamiento de una variable, es decir, se sabe que tienen una
distribución normal, para calcular las diferentes probabilidades se tiene que estandarizar la
variable. Una vez estandarizada la variable, recién utilizar la tabla de la distribución normal
estandarizada o tabla Z.
FORMULAS:
a.
b.
c.
CAPITULO VIII
INTRODUCCION.
Todo el mundo hace estimaciones. Cuando está por cruzar una calle, hace una estimación de
la velocidad del automóvil que se acerca, de la distancia que hay entre usted y el auto y de su
propia velocidad. Habiendo hecho rápidamente todas estas estimaciones, usted decide si
espera, camina o corre.
Los administradores también deben hacer estimaciones rápidas. El resultado de estas
estimaciones puede afectar sus organizaciones de manera tan seria como el resultado de su
decisión de cruzar la calle. Los jefes de departamento de una universidad hacen estimaciones
acerca de las inscripciones para el semestre siguiente en las materias. Los directores de
crédito estiman si un cliente pagará o no sus débitos. Los futuros compradores de casa hacen
estimaciones concernientes al comportamiento de las tasas de interés de los préstamos
hipotecarios. Todas estas personas hacen estimaciones sin preocuparse de si son científicas o
no, pero con la esperanza de que las estimaciones tengan una semejanza razonable con el
resultado.
Los administradores utilizan estimaciones porque, hasta en los asuntos más triviales, deben
tomar decisiones racionales sin contar con la información pertinente completa y con una gran
incertidumbre de lo que el futuro pueda deparar. Como ciudadanos instruidos y profesionales,
podremos hacer estimaciones más útiles si aplicamos las técnicas descritas en este capítulo y
los que le siguen. El material sobre teoría de probabilidad que se presentó en los capítulos
anteriores constituye la base de la inferencia estadística, rama de la estadística que se ocupa
del uso de los conceptos de probabilidad para manejar la incertidumbre en la toma de
decisiones. La inferencia estadística está basada en la estimación, concepto que se introduce
en este capítulo, y en las pruebas de hipótesis, que es el tema de los capítulos posteriores.
Tanto en la estimación como en las pruebas de hipótesis, haremos inferencias acerca de las
características de las poblaciones a partir de la información proporcionada por las muestras.
¿De qué manera los administradores utilizan estadísticas para estimar parámetros de una
población? El jefe de departamento de alguna universidad intenta estimar el número de
inscripciones que tendrá el siguiente semestre a partir de las inscripciones actuales en los
mismos cursos. El director de un departamento de crédito intentará estimar el valor crediticio
de los futuros clientes a partir de una muestra de sus hábitos de pago. El comprador de una
casa intenta estimar el curso futuro de las tasas de interés mediante la observación de su
comportamiento actual. En cada caso, alguien trata de inferir algo acerca de una población a
partir de la información adquirida de una muestra.
En este capítulo introducimos métodos que nos permiten estimar con precisión razonable la
proporción de la población (la fracción de la población que posee una característica dada) y la
media de la población. Calcular la proporción exacta o la media exacta sería una meta
imposible. Pero, a pesar de ello, seremos capaces de hacer una estimación, establecer una
afirmación respecto al error que tal vez acompañará a esta estimación, y poner en marcha
algunos controles para evitar dicho error en la medida de lo posible. Como tomadores de
decisiones, nos veremos forzados, en ocasiones, a confiar en nuestros presentimientos. Sin
embargo, en otras situaciones, en las que dispongamos de información y podamos aplicar los
conceptos de estadística, tendremos mejores resultados.
TIPOS DE ESTIMACIONES
Podemos hacer dos tipos de estimaciones concernientes a una población: una estimación
puntual y una estimación de intervalo. Una estimación puntual es un solo número que
se utiliza para estimar un parámetro de población desconocido. Si mientras observa el primer
integrante de un equipo de fútbol americano salir al campo de juego, se dice: “¡Caramba!
Apuesto a que el peso promedio de los jugadores defensivos es de 125 kilogramos”, usted ha
hecho una estimación puntual. El jefe de departamento de una universidad estaría haciendo
una estimación puntual si afirmara: “Nuestros datos actuales indican que en esta materia
tendremos 350 estudiantes el siguiente semestre”.
A menudo, una estimación puntual es insuficiente debido a que sólo tienen dos opciones: es
correcta o está equivocada. Si le dicen solamente que la afirmación sobre la inscripción está
equivocada, no sabe qué tanto está mal y no puede tener la certeza de que la estimación es
confiable. Si se entera de que sólo está errada por 10 estudiantes, podría aceptar a 350
estudiantes como una buena estimación de la inscripción futura. Pero si está equivocada en 90
estudiantes, la rechazaría como estimación de la inscripción futura. Entonces, una estimación
puntual es mucho más útil si viene acompañada por una estimación del error que podría estar
implicado.
330 y 380, y es muy probable que la inscripción exacta caiga dentro de este intervalo”. Con
esto tiene una mejor idea de la confiabilidad de su estimación. Si el curso se imparte en grupos
de 100 estudiantes cada uno y si, tentativamente, se han programado cinco cursos, entonces,
de acuerdo con la estimación, puede cancelar uno de los grupos y abrir uno optativo.
ESTIMACION DE PARAMETROS
Los Métodos de Inferencia Estadística consisten en seleccionar una muestra aleatoria de la
Población, de manera que a partir de la información que se obtenga de la muestra.
1) Determinar el valor del parámetro desconocido q, ó
2) Decidir si q, ó alguna función de q, es igual a algún valor preconcebido q 0 de q
ESTIMACION PUNTUAL.
Ejemplo
Suponga que la variable aleatoria X tiene un distribución normal con media desconocida m. La
media muestral es un estimador puntual de la media poblacional desconocida m.
Es decir ,después de seleccionar la muestra, el valor numérico es la estimación
puntual de m
Estimado
Ejemplo.
El promedio de las longitudes de cierto artículo es de 12± 0.2m ([1.2 - 0.2, 1.2+0.2]) o que el
candidato obtendrá el 64 ± 3%(0.64 ±0.003) de las preferencias del electorado
El intervalo de confianza cuando n³30, se calcula de la siguiente manera :
Tabla de valores de Z
Coeficiente de confianza (1- a Za/2
a)
0.90 0.1 1.645
0.95 0.05 1.96
0.99 0.01 2.58
Ejemplo.
Una máquina de empaquetar bolsas de café, esta calibrada para embalar bolsas cuyos pesos
se distribuyen normalmente con media 500g y desviación estándar de 10g.
La maquina sufrió un desperfecto y se desea calibrarla, para lo cual se desea saber el nuevo
promedio m .Se toma una muestra aleatoria de 36 paquetes arrojando una media de 485g.
Hallar un intervalo de confianza de 95% de confianza para m.
El valor de za/2 que deja a su derecha un área que representa una probabilidad igual a 0.025 es
de za/2 =1.96
Por lo tanto el intervalo de confianza para m con coeficiente de confianza es de g=95% es
2.5%
S@s
Ejemplo
A continuación se dan los pesos (g) de un pdto lácteo instantáneo:
42.7 42.78 42.76 43.39 41.60
Hallar el intervalo al nivel de confianza del 99% para la media m, de los pesos de todos los
estudiantes del colegio, se supone que los pesos se distribuyen normalmente
El valor de t1-a/2, corresponde al cuartil en la distribución estándar con 15-1 grados de libertad
para lo cual
PRUEBA DE HIPOTESIS.
INTRODUCCION
Esta es otra parte de la estadística inductiva o inferencial, llamada prueba de hipótesis,
significancia o procedimientos de toma de decisiones. La prueba de hipótesis, es otra manera
de abordar el problema de hacer una afirmación acerca de un parámetro desconocido asociado
con una distribución de probabilidades, basándose en una muestra aleatoria en lugar de hallar
un estimador para el parámetro a menudo es conveniente formular una hipótesis sobre el valor
del parámetro y luego usar la información de la muestra para confirmar o rechazar el valor de
la hipótesis con un nivel particular de confianza o seguridad.
El objetivo es brindar algunos métodos que se usan para tomar decisiones sobre
poblaciones, a partir de los resultados de una muestra aleatoria escogida de esa población.
Para llegar a tomar decisiones estadísticas se debe partir de afirmaciones o conjeturas con
respecto a la población en el que estamos interesados. Tales suposiciones, pueden ser
verdaderas o no. Una conjetura hecha sobre una población o sobre sus parámetros deberá ser
sometida a comprobación experimental con el propósito de saber si los resultados de una
muestra aleatoria extraída de esa población, contradicen o no tal conjetura
Hipótesis estadísticas
Es cualquier afirmación o conjetura (suposición, afirmación) que se hace acerca de la
distribución de una o más poblaciones.
La afirmación o conjetura puede referirse bien a la forma o tipo de distribución de probabilidad
de la población o bien al valor o valores de uno o más parámetros de la distribución de la
población.
En este caso las hipótesis estadísticas consiste en suponer que los parámetros que definen a la
Población toman determinados valores numéricos.
Ejemplos:
1. El promedio poblacional de la altura de los Peruanos es 1.6m. esto es:
1.60
2. La varianza poblacional de los salarios de los obreros de la Industria Textil es:
S/. (500)2 esto es:
2
= (500)2 = 250,000
3. La proporción de unidades defectuosas de producción por cierto proceso es menor o igual a
8 por ciento, esto es:
Hipótesis alternativa ( H1 )
Es la suposición contraria a la hipótesis nula, se representa por H1 y se acepta en el caso que la
hipótesis nula sea rechazada.
Ejemplo: Si se asume que 0 es un valor del parámetro desconocido de una población cuya
distribución se supone conocida, entonces son hipótesis nulas y alternativas respectivamente
las siguientes afirmaciones:
1. H0: = 0 y H1: 0
La experiencia indica que al tomar una decisión se puede cometer dos tipos de errores:
Errores de tipo I y tipo II
Al tomar la decisión de aceptar o rechazar la hipótesis nula H 0 : 0 en base a los
resultados obtenidos de una muestra aleatoria seleccionada de la población en estudio; existen
cuatro posibles situaciones que determinan si la decisión tomada es correcta o incorrecta,
como se muestra en la siguiente Tabla:
H0 ES H0 ES FALSA
DECISIÓN VERDADERA
Rechazar Ho Error de tipo I Decisión correcta
Error de tipo I
Es el error que se comete al rechazar una Hipótesis nula H 0 cuando ésta es verdadera.
La Probabilidad de cometer un error de Tipo I se denota por :
=P[error tipo I] = P[rechazar H0 cuando H0 es verdadera]
Error de tipo II
Es el error que se comete al aceptar una hipótesis nula H 0 cuando en realidad es falsa.
La probabilidad de cometer un error tipo II se denota por entonces:
P[error tipo II]=P[aceptar H0 cuando H0 es falsa]
Z=
Z=
Ejemplo Nº1.
Un determinado proceso de empaquetar un producto está controlado, si el peso medio del
producto empaquetado es de 400 gramos. Si en una muestra de 100 paquetes del producto
se ha encontrado que el peso medio es de 395 gramos, ¿Se podría concluir que el proceso
está fuera de control a un nivel de significación del 5%?. Suponga que el peso de los
productos empaquetados se distribuye normalmente con desviación estándar de 20 gramos.
Solución
4.- Región Crítica: Para = 0.05; y una prueba bilateral ó con dos colas; en la tabla
normal N( 0,1) se encuentra el valor crítico
Z/2 =Z0.05/2 = Z0.025 = -1.96 ó También es lo mismo:
Z1-/2 =Z1-0.05/2 = Z0.975 = 1.96
Z= = =
Ejemplo Nº2
Una máquina para enlatar conservas de pescado ha sido regulada para que el contenido de
cada lata sea de 16 onzas. Usando = 0.05, ¿ diría Ud. que la máquina ha sido
adecuadamente regulada, si una muestra de 36 latas dio un peso medio de 16.05 onzas y
una desviación típica de 1.5 onzas?
Ejemplo Nº3
De la experiencia de muchos exámenes de admisión a la Universidad Nacional Pedro Ruíz
Gallo, se obtiene una calificación media de 64 puntos, con una desviación estándar de 8
puntos. De una muestra de 81 estudiantes que rindieron el último examen. Se obtuvo una
calificación media de 68 puntos. Utilizando = 0.01, ¿ puede asegurarse que los
estudiantes han elevado su rendimiento?
Solución
Z=
4. Región Crítica: Para = 0.01 y una prueba unilateral con cola a la derecha , en la
tabla normal N( 0,1) se encuentra el valor crítico
Z =Z0.01 = 2.33
0.99
Z= = = 4.4
Ejemplo Nº4.
El gerente de la Empresa empresa de transportes E&S desconfía de la afirmación de que la
vida útil promedio de ciertos neumáticos es de almenos 28 000 millas. Para verificar ese
argumento, la empresa instala 40 de esos neumáticos en sus camiones y obtiene un ciclo
de vida medio de 27463 millas con una desviación estándar de 1348 millas. ¿ Qué puede
concluir el gerente de ese dato, si la probabilidad de un error I se fija en cuando más 0.05?
Solución:
1.- Formulación de las Hipótesis
H0 : 28 000 millas
H1 : 28 000 millas
2. Nivel de significación: = 0.05
4. Región Crítica: Para = 0.05 y una prueba unilateral con cola a la izquierda , en la
tabla normal N( 0,1) se encuentra el valor crítico
Z =Z0.05 = -1.645
Z= = = -2,52
Ejemplo Nº5.
Solución
Z=
4.- Región Crítica: Para = 0.05; y una prueba bilateral ó con dos colas; en la tabla
normal N( 0,1) se encuentra el valor crítico
Z/2 =Z0.05/2 = Z0.025 = -1.96 ó También es lo mismo:
Z1-/2 =Z1-0.05/2 = Z0.975 = 1.96
0.95
-1.96 1.96
Z= = = 10
2.yooo
- Pruebas de Hipótesis acerca de una media : Varianza 2
supuesta desconocida.
A) Población no normal.
Si la población no tiene distribución normal, pero si el tamaño de la muestra es grande (
Ejemplo.
En la investigación de varias denuncias respecto al aviso "Peso Neto 300gr"que aparece
en los frascos de café molido" El Morenito", el comité de Defensa del Consumidor
seleccionó una muestra de 36 frascos, la muestra arrojó un peso neto medio de 298 g y
una desviación estándar de 7.5 gr. Utilizando un nivel de significancia de 0.01, ¿ Qué
conclusión debe sacar el comité de Defensa acerca de la operación de la compañía
envasadora de café?
Solución.
1.- Formulación de las Hipótesis
H0: =300 gr
H1: 300 gr
2. Nivel de significación: = 0.01
Z=
4. Región Crítica: Para = 0.01 y una prueba unilateral con cola a la izquierda , en la
tabla normal N( 0,1) se encuentra el valor crítico
Z =Z0.05 = -2.33
∞=1% 0.99
-2.33
t= = = -1.60
6.- Decisión: Como -1,60 -2.33; no se rechaza H0 ( se acepta H0), luego se puede
concluir que la compañía envasadora está cumpliendo con el peso neto enunciado.
B) Población normal.
Sean y S2 la media y la varianza de una muestra aleatoria de tamaño n, seleccionada
de una población con distribución normal N ( ,2), donde y 2 son desconocidas.
3.- Estadística: Población normal con varianza conocida, la estadística apropiada es.
4.- Región Crítica: Para = 0.05 y una prueba de una cola a la izquierda, en la tabla
de probabilidades t-Student se encuentra t0= t() (n-1) = t(0.05)(9) = -1.833.
Observación.
Si la cola estuviera hacia la derecha, entonces el valor de t se toma de la siguiente
manera: t(1-) (n-1) = t(0.95)(n-1)
-1.83
tc = = = -1.368
Ejemplo 2.
Se sabe que los ingresos quincenales de un gran número de individuos se distribuyen
normalmente con una media de S/ 152. En un estudio estadístico reciente una muestra
aleatoria de 9 individuos de esa población ha dado los siguientes ingresos quincenales ( en
soles):
158; 154; 152; 156; 151; 150; 153; 155; 157.
A nivel de significancia del 5% ¿Ha cambiado el ingreso medio quincenal de tal población?.
Solución.
3.- Estadística: Población normal con varianza conocida, la estadística apropiada es.
4.- Región Crítica: Para = 0.05 y una prueba bilateral con dos colas, en la tabla de
probabilidades t-Student se encuentra t0 = t(1-/2) (n-1) = t(0.975,8) = 2.306.
Zona de aceptación
t= = = 2.19
Si las dos poblaciones son normales o no, pero n 1 y n2 son suficientemente grandes( n 1 30
y n2 30), entonces tienen respectivamente distribución normal o
aproximadamente normal.
-( 1- 2 )
Z= 2
Ejemplo1: Dos grupos de trabajadores de una empresa Agroindustrial, han sido sometidos
a un entrenamiento por dos métodos diferentes, que llamaremos A y B. Una vez terminada
la instrucción, para verificar la eficacia de los métodos, se aplicó un examen arrojando los
siguientes resultados:
Método A Método B
= 73.4 = 70.3
S1 = 8 S2 = 10
n1 = 50 n2 = 50
Utilizando un nivel de significancia de 0.05 ¿puede asegurarse que las medias de ambos
métodos no son iguales?
Solución.
Como n1 30 y n2 30 entonces los datos se aproximan a una distribución normal y por
lo tanto se puede aproximar a S1 1 y S2 2
1. - Formula de hipótesis.
H0: 1 = 2 , (1 -2= 0)
H1: 2
2.- Cálculo del punto crítico"z0". Por ser una prueba de dos colas, con =0.05,
entonces:
P(Z z0 ) = 0.975
F(z0 ) = 0.975
z0 = 1.96
0.95
Z= = = 1.71
Solución.
1.- Formula de hipótesis.
2.- Cálculo del punto crítico"z0". Por ser una prueba de dos colas, con =0.01, pero
como es una prueba de dos colas se tiene /2=0.005 entonces:
P(Z z0 ) = 0.995
F(z0 ) = 0.995
z0 = -2.58
3.- Estadística.
Z= =
0.99
Z=
Las pruebas de hipótesis con respecto a una proporción poblacional "p" son básicamente
iguales que las medidas.
Consideremos el problema de probar la hipótesis de que la proporción de éxito en un
experimento binomial es igual a un valor dado. El estadístico de prueba es la siguiente:
Z=
Ejemplo.
Un gobernante afirma que en su país existe el 40% de desocupados. Con el fin de evaluar
esta afirmación se tomó una muestra de 500 personas resultando que 300 son
desocupadas. Sobre la base de esta información obtenida. ¿ qué se puede decir acerca de
la afirmación del gobernante? Usar =0.05
Solución:
2.- Cálculo del punto críticos "Z" por ser la prueba de dos colas, son = 0.05.
P( zi >zo )= 0.95; F(z0) = 0.95; z0 = 1.645
3.- Estadística
Z= =
0.95
5.- Cálculo del estadístico "Z" por la fórmula: Población normal con varianza conocida,
la estadística apropiada es.
Z= =
6.- Toma de decisión: Como 9.128 es mayor que 1.64, se rechaza H 0, luego se puede
concluir con un riesgo del 5% que el desempleo es mayor que el que anuncia el
gobernante.
Ejercicio Nº1
El consumidor de cierto producto acuso al fabricante, diciendo que más de 20% de las
unidades que fabrican son defectuosas. Para confirmar su acusación, el consumidor usó una
muestra aleatoria de tamaño 50, donde el 27% de las unidades eran defectuosas ¿Qué
conclusión puede extraer Ud.? use = 0.05
Las pruebas de independencia y de homogeneidad están entre las más comúnmente usadas
en los procedimientos estadísticos.
Estos test están basados en una técnica introducida por Karl Pearson en 1900, quién ha sido
llamado el "fundador de la ciencia estadística".
Consideremos la normal
Donde y
Luego, si se eleva al cuadrado esta normal se tiene que: y se tiene que Z2 tiene
Ejemplo: Contrastar al nivel de 5% si hay alguna relación entre las notas que obtuvieron en pre
grado y el salario que perciben los 150 empleados de la Universidad de Lima.
S Notas del Pre Grado
A Alta Media Baja Total
L Alto 18 17 5 40
A Medio 26 38 16 80
R Bajo 6 15 9 30
I Total 50 70 30 150
o
Solución:
i) Hipótesis: Ho: Notas del Pre Grado y el salario son independientes.
H1: Existe alguna relación entre notas del Pre Grado y el salario.
En nuestro caso, bajo la hipótesis Ho anterior, las frecuencias esperadas son calculadas
mediante la expresión
Así tenemos:
VI) Conclusión: No se rechaza Ho, pues X2=6.1107 < 9.488 y concluimos de que no hay
relación entre las notas del Pre Grado y el salario, es decir, las dos características son
independientes.
Ejemplo: En la siguiente tabla se dan los resultados obtenidos por 435 estudiantes en
Estadística I y Matemática I. Contraste la hipótesis de que los resultados obtenidos en
Estadística I son independientes de los resultados obtenidos en Matemática I; al nivel de
2.5%.
Estadística I
0≤nota<10 10≤nota<14 14≤nota≤20 Total
MA 0≤nota<10 70 40 15 125
TE 10≤nota<14 30 130 25 185
MA 14≤nota≤20 15 60 50 125
TICA I Total 115 230 90 435
Ejemplo:
2.764 residentes del gran Santiago fueron clasificados de acuerdo a sus ingresos y el
tiempo transcurrido desde que ellos consultaron por última vez a un médico.
Ingresos Tiempo
TOTAL
(en miles) <6 meses 7 – 12 meses >12 meses
<200 186 38 35 259
200 – 300 227 54 45 326
301 – 500 219 78 78 375
501 – 800 355 112 140 607
>801 653 285 259 1.197
TOTAL 1.604 567 557 2.764
¿Proporcionan estos datos evidencia suficiente para indicar que existe una asociación
entre el ingreso y el tiempo transcurrido desde la última consulta al médico?
Si no existe asociación entre las dos variables se dice que son independientes.
Es de interés docimar:
H0 : los dos criterios de clasificación son independientes.
H1 : los dos criterios de clasificación no son independientes.
Para docimar H0 se comparan las celdas de frecuencias observadas con las celdas de
frecuencias esperadas y se usa la estadística:
En el ejemplo:
H0: el ingreso y el tiempo transcurrido desde la última visita al médico son independientes.
H1: las dos variables no son independientes.
de donde:
Ejercicio: Un estudio de mercado de la Empresa E&S, proporciona los datos que siguen, donde
la muestra de 800 consumidores de un producto específico opinan acerca de las tres formas de
presentación de las tres marcas que aparecen en el mercado.
a)Si el estudio culmina afirmativo, al nivel de significación 0.05, que el consumidor solo tiene
en cuenta marca del producto pero no la presentación. ¿ Esta Ud de acuerdo con la afirmación?
Si no está de acuerdo ¿Cómo mide el nivel de independencia entre estas dos variables
cualitativas? ¿Es significativa la independencia?
Y se rechaza
Ejemplo:
Para determinar la conciencia pública y preocupación por la polución atmosférica, se
entrevistó a una muestra de 40 residentes en cada una de 3 áreas del gran Santiago. La
pregunta fue :
¿Es la polución atmosférica un problema en su vecindario?
Solución
H0: las tres poblaciones de residentes son homogéneas con respecto al conocimiento de los
problemas de la polución.
H1: las tres poblaciones no son homogéneas.
Ya que:
Las pruebas de bondad de ajuste son herramientas útiles para evaluar lo bien que se
aproxima un modelo de una situación real a un diseño descrito previamente (modelo
teórico).
H0: la muestra ha sido seleccionado de una población que tiene una distribución
específica.
H1: la muestra no ha sido seleccionada de una población que tiene la distribución
específica.
Nota:
La hipótesis alternativa no indica como la verdadera distribución difiere de la hipotética.
Cuando H0 es verdadera, los ejemplos se obtienen por: Ej=
Luego:
Donde: r = nº de categorías.
Consejero Ei Oi
Elegido
Hombre negro 6 13
Hombre nórdico 6 6
Hombre blanco 6 0
Mujer nórdica 6 3
Mujer negra 6 11
Mujer blanca 6 3
Total 6 36
Luego :
Como se rechaza H0
CAPITULO IX
Y
Y
En esta unidad trataremos de la parte básica del tema de la regresión lineal simple
determinado por la función lineal : Y = b0 + b1 X
Es una técnica estadística que analiza si los valores de una variable dependiente e
independiente puede predecirse mediante un modelo lineal.
Las variables implicadas en el modelo deben ser cuantitativas y continuas.
Para ajustar una línea recta de Regresión, se considera la ecuación de la recta:
= b0 + b1Xi; que tiene dos parámetros “b0” y “b1”
Y = b0 + b1x i
b1
Unidad de X
b0
X
Donde : b0 = distancia que existe entre el origen de coordenadas y el punto de
intersección de la recta con el eje Y
b1 = Coeficiente de Regresión (pendiente, proporción de cambio)
X = Variable independiente. ( estimulo, de influencia, causa,)
Y = variable dependiente (respuesta, criterio, efecto)
Interpretación del coeficiente b.
Una tarea principal en el análisis de regresión lineal, es estimar los parámetros “b 0” y “b1”,
cuyos valores se determinan a partir de los datos bidimensionales. El método de los mínimos
cuadrados consiste en hacer mínima la suma de los cuadrados de la diferencia entre los
valores observados (yi), y los valores estimados ( ) es decir:
SCD = ( Yi – )2 = sea mínima.
El cálculo de los estimadores de los coeficientes de regresión a partir de los datos muestrales,
viene dado por la siguiente expresión.
; b0 = b1 ( )
Ejemplo de Aplicación.
X Y xy x 2
Y 2
n = 10 ;
b1 = = =2
Estimando el parámetro b0 :
b0 = b ( ) = 110 - ( 2 )(50 ) = b0 = 10
9 = 10 + 2 ( 70 ) = 150 artículos
Ejercicio propuesto.
CORRELACIÓN LÍNEAL
Es una parte de la Estadística Descriptiva que tiene por objetivo investigar la relación que hay
entre dos o más variables estadísticas, determinar el sentido de relación y cuantificar el grado
de nivel de correlación entre las variables con respecto a sus coeficientes.
Coeficiente de correlación
Es el valor numérico que da a conocer el grado de relación que existe entre dos o más
variables. Se representa por la letra r.
Propiedades
1 r 1
a) Si r > 0 Correlación Directa
b) Si r < 0 Se trata de una Correlación Inverso Negativo.
c) Si r2 = 1 los datos forman una línea recta.
d) Si r = +1 hay una correlación perfecta (+)
e) Si r = -1 hay una correlación perfecta (-)
f) Si r = 0 Los datos son incorrelacionados
Ejemplo: Calcular el coeficiente de correlación con los datos del ejemplo anterior para lo cual se
requiere realizar los siguientes cálculos que se tienen a continuación.
X y xy X 2
Y 2
Donde : n = 10 ;
Interpretación: Existe un alto grado de asociación entre los minutos de publicidad empleados
en la radio y el número de artículos vendidos, por lo tanto estas dos variables se pueden
relacionar mediante una función lineal y poder realizar pronósticos confiables, ya que los datos
se ajustan muy bien a la recta estimada.
Error de Estimación (Se).- Es una medida de la cantidad media en que las observaciones
reales Y varían en torno a la recta de regresión. (regresión de Y/X ) viene dada por :
Se = S Y/X =
EJERCICIO
Jaimito observa el gasto en publicidad, precio y volumen de venta de galones de
leche de 10 semanas elegidas en forma aleatoria. Los datos obtenidos se
presentan en la siguiente tabla.
Semana Ventas( En Miles), Precio por Galón Publicidad( Cientos
Y X2 de Dólares) X3
1 10 1.30 9
2 6 2.00 7
3 5 1.70 5
4 12 1.50 14
5 10 1.60 15
6 15 1.20 12
7 5 1.60 6
8 12 1.40 10
9 17 1.00 15
10 20 1.10 21
a) Calcular la ecuación de Regresión de las ventas con la publicidad, y las ventas con el
precio.
b) Calcular e interpretar el Coeficiente de Regresión, determinación, y error estándar
Calcule el intervalo predictivo para la media y un valor individual a un nivel de confianza del
95%
REGRESIÓN MULTIPLE
necesita más de una variable independiente para pronosticar con precisión la variable
dependiente . Cuando se emplea más de una variable independiente o de predicción, el
problema se convierte en uno para el análisis de regresión múltiple. Los conceptos básicos
siguen siendo los mismos, sólo se utiliza mas de una variable independiente para pronosticar la
variable dependiente.
= nb0 + b2 +b3
= b0 +b2 + b3
= b0 + b2 + b3
Ejemplo:
Jaimito observa el gasto en publicidad, precio y volumen de venta de galones de leche de 10
semanas elegidas en forma aleatoria. Los datos obtenidos se presentan en la siguiente tabla.
Solución
Semana Y X2 X3 X2Y X3Y X2X3 Y2 X X
Error Estándar de Estimación. Mide la cantidad estándar en que los valores reales (Y) difiere
de los valores estimados ( ). Es una medida de la cantidad media en que varían las
observaciones reales alrededor del plano de regresión y se calcula de la siguiente manera.
Interpretación. La cantidad típica en que el valor real de volumen de leche vendido difiere de
lo pronosticado mediante la ecuación de regresión múltiple es de 1.510 galones.
MATRIZ DE RECOLECCION.
diagonal principal siempre contendrá unos, ya que siempre relaciona una variable consigo
misma ( r 11, r 22 r33).
MATRIZ DE CORRELACIÓN
Variables
VARIABLES 1 2 3
1 r11 r12 r13
2 r21 r22 r23
3 r31 r32 r33
Ejemplo El dpto. de personal de la empresa P&C esta interesado en estudiar la relación que
tiene el salario, el tamaño de la familia y la antigüedad en el trabajo con los gastos. Para este
estudio, el especialista en la materia, escogió una muestra al azar de 10 miembros de todo el
personal de la empresa y registró los datos en la tabla que sigue, para las siguientes variables.
Y X1 X2 X3
20 25 3 5
25 28 5 8
30 35 4 6
32 35 5 2
37 40 5 7
40 45 5 4
40 50 5 5
45 45 6 4
55 70 6 5
60 80 5 3
GRAFICO Nº 01
MODELOS NO LINEALES
Antes de proceder a la regresión, hay que transformar la ecuación no lineal, y = f(x), en otra
del tipo y = a + bx, donde y, x, a y b son funciones de y, x, a y b respectivamente.
Gráfica
Log x x Log x
Y Log y Ln y y
X Log x x Log x
A Log a Ln a a
B b b b
a 10 A eA A
b B B B
AJUSTE POTENCIAL
Ejemplo 1: Ajustar por el método de mínimos cuadrados una curva de la forma Y = ax b con los
siguientes datos que a continuación presentamos.
Solución
B´= b = = = - 0.532
Multiple R .79040
R Square .62473
Adjusted R Square .53092
Standard Error .20707
Analysis of Variance:
2.6
2.4
2.2
2.0
1.8
1.6
1.4
1.2 Observed
1.0 Power
1 2 3 4 5 6
FUNCION EXPONENCIAL
Esta función se utiliza cuando interesa calcular las tasas de incrementos considerando todos
los puntos observados durante un periodo, aquí se supone que existe un crecimiento no lineal
de tipo geométrico.
La ecuación Y = abX es semejante a la formula de interés compuesto donde b = 1+i y X =
tiempo, es decir:
Y = a (1+i ) X
ó Cn = Co + (1+i)n
Log b = ; log a= =
X 1 2 3 4 5 6
Y 2.40 3.21 4.12 4.30 4.90 5.40
De donde se tiene:
B =b = = = 0.1533
Y= 0.829 + 0.1533X
Entonces para convertir en la ecuación exponencial y poder realizar los pronósticos, se realiza
los siguientes cambios solamente en A, ya que B se toma normalmente sin ninguna
transformación.
r=
Multiple R .96251
R Square .92642
Adjusted R Square .90803
Standard Error .09038
Analysis of Variance:
Ecuación: Y= (2.290285)e(0.1533) X:
Y
6.0
5.5
5.0
4.5
4.0
3.5
3.0
2.5 Observed
2.0 Exponential
0 1 2 3 4 5 6 7
Observación: Si los datos de este mismo ejemplo, se analizan por el método de potencia,
éstos se ajusten mejor a un modelo de regresión no lineal de potencia Y = aX b.
Multiple R .99519
R Square .99041
Adjusted R Square .98801
Standard Error .03263
Analysis of Variance:
Y
Variabl B SE B Beta T Sig T
5.5
X .447574 .022021 .995194 20.325 .0000
(Constant)
5.0 2.397733 .066122 36.262 .0000
4.5
4.0
3.5
3.0
2.5
Observed
2.0 Power
Métodos Cuantitativos 0 1 2 3 4 5 6 MSc.
7 Alfonso Tesén Arroyo 107
X
Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.
CAPITULO X
SERIES DE TIEMPO
Estos modelos usan los métodos de series de tiempo. "Una serie de tiempo es
simplemente una lista cronológica de datos históricos, para la que la suposición esencial es
que la historia predice el futuro de manera razonable." Existen varios modelos y métodos de
series de tiempo entre los cuales elegir y que incluyen los modelos constante, de tendencia y
estacional, dependiendo de los datos históricos y de la comprensión del proceso fundamental.
Para cada modelo, se cuenta con varios métodos de pronóstico, que incluyen promedios,
promedios móviles, suavizamiento exponencial, regresión y tal vez combinaciones de todos
estos.
300
250
200
ventas
150
100
50
0
E F M A M J J A S O N D
Existen varios métodos de serie de tiempo entre los cuales elegir para realizar el
pronóstico, entre ellos tenemos, el modelo constante, el de tendencia y el estacional,
dependiendo de los datos históricos y de la compresión del proceso fundamental. Para cada
modelo se cuenta con varios métodos de pronósticos que incluyen promedios móviles,
suavización exponencial, regresión y tal vez combinaciones de todos estos.
Debido a que debe reconocerse qué modelo es adecuado para una serie de tiempo
dada se analizará cada modelo.
1. Promedio Móvil.
Esta técnica sirve para calcular el pronóstico de ventas o demanda para el siguiente periodo
exclusivamente, como su nombre lo indica es un promedio que se obtiene n datos. El promedio
móvil reemplaza la serie de tiempo original por otra, para la que cada punto es el centro y el
promedio de n puntos de la serie original. Por tal razón, esta técnica también se conoce como
promedio móvil centrado.
Una media móvil tendrá efecto de “aplanar” los datos y producir un movimiento donde no
aparezcan tantos picos. Para calcular se toma la media aritmética de los valores de la serie
correspondiente a un número determinado de periodos. En cada media se mantiene el mismo
número de periodos, y para ello se elimina la observación más antigua y se recoge la más
reciente.
Estos n datos están en función de cómo queramos promediar u obtener resultados, con
menor o mayor exactitud; n puede valores comprendidos entre 2, 3, 4, 5....etc.
Si los datos son muy variables, se debe utilizar un número pequeño de periodos ( n), en el
pronóstico, para evitar que este se aproxime demasiado a la media a largo plazo. Por el
contrario cuando los datos no varían mucho de la media a largo plazo, entonces se debe de
proceder a utilizar un número mayor de periodos (n), para así formar la media móvil.
Ejemplo 3.1. Una empresa de alimentos desea elaborar el pronóstico de la demanda para
uno de sus productos de mayor demanda en el mercado conocidos como " Papitas Ricas",
este pronóstico del consumo se requiere para el mes de Diciembre de 2007, para lo cual se
debe considerar que n = 2, 3, 4., sabiendo que los últimos meses el área de mercadotecnia ha
registrado las ventas que se detallan en el cuadro 3.2
Solución
1. Paso: Graficar los datos
Para n =3
(30 3331 3)=31,33; (33 3129 3)=31,00; , , ,
Demanda Vs Pronosticos
37
35
33
demanda
31
29
27
25
Noviembre
Junio
Julio
Mayo
Agosto
Enero
Febrero
Marzo
Octubre
Septiembre
Diciembre
Abril
meses
35
30
25
20
15
10
0
noviembre
noviembre
Setiembre
Setiembre
Diciembre
Febrero
octubre
octubre
Junio
Agosto
agosto
Julio
Julio
Marzo
Enero
Mayo
Abril
32
30
28
26
24
Demanda
22
20
18
16
14
12
10
noviembre
noviembre
Setiembre
Setiembre
Diciembre
Febrero
octubre
octubre
Agosto
agosto
Marzo
Junio
Enero
Julio
Mayo
Julio
Abril
Demanda n=2 n=3 n=4
Resumiendo
n Pronóstico Error cuadrático
2 22 273.75
3 21.33 259.22
4 22 203.81
Periodos Demanda D
Mensuales (miles de cajas)
Julio 51
Agosto 55
Setiembre 48
Octubre 61
Noviembre 55
Diciembre 60
Enero 49
Febrero 57
Marzo 53
Abril 59
Mayo 50
Junio 52
Solución
1. Graficar
Figura 3.11. Gráfica de la Demanda de Conservas (miles de cajas)
55
50
45
40
Marz
Jul
Nov
May
Jun
Dic
Abril
Set
Oct
Ago
Ene
Feb
2. Calcular
Cuadro 3.12. Pronóstico de la Demanda de Conservas cuando n = 2
Julio 51
Agosto 55
Setiembre 48
Cctubre 61 51.33 9.67 93.44
Noviembre 55 54.67 0.33 0.11
Diciembre 60 54.67 5.33 28.44
Enero 49 58.67 -9.67 93.44
Febrero 57 54.67 2.33 5.44
Marzo 53 55.33 -2.33 5.44
Abril 59 53.00 6.00 36.00
Mayo 50 56.33 -6.33 40.11
Junio 52 54 -2 4
Julio ¿? 53.7 306.42
Cuadro 3.14. Pronóstico de la Demanda de Conservas cuando n = 4
Julio 51
Resumiendo
Conclusión. Con esta técnica podemos concluir que el mejor pronóstico se obtiene con
n = 4 y las ventas para el mes de Julio es de 53500 cajas porque (D-P) 2 es menor con respecto
a los otros ns. Es decir, la empresa de alimentos para el mes de julio tendrá una demanda de
53500 cajas de conservas
Como su nombre lo indica, suaviza una serie o produce el efecto de aplanar una serie y
suministra un medio efectivo de predicción.
Cuando los datos no presentan ningún esquema de tendencia ni estacionalidad, se utiliza la
suavización exponencial simple, cuya ecuación es la siguiente.
Y t 1 .Yt (1 ).Y t
Y t 1 = Nuevo valor suavizado o valor de pronóstico para el siguiente periodo
: El coeficiente es una constante de suavización que recibe un valor entre (o<<1), sirve
como el factor para ponderar el valor real de , determina el grado hasta el cual la
observación más reciente puede influir en el valor del pronóstico.
Cuando es cercano a 1, el nuevo pronóstico incluirá un ajuste sustancial de cualquier
error ocurrido en el pronóstico anterior, inversamente cuando es cercano a cero el
pronóstico es igual al anterior.
Solución:
Para la aplicación de esta técnica, en primer lugar el primer valor estimado se tomó como el
valor real que se tiene:
= 0.1 Y t 1 .Yt (1 ).Y t
t=1
t=2
t=3
*
*
t = 10
Meses Y Y (e)2
Y e = Y-
Meses Y Y (e)2
Y e = Y-
Resumiendo
Demanda
Miles de
Meses envases
Enero 52
Febrero 81
Marzo 47
Abril 65
Mayo 50
Junio 73
Julio 45
Agosto 60
Setiembre 50
Octubre 79
Noviembre 45
Diciembre 62
Solución
Y t 1 .Yt (1 ).Y t
Meses Y
Y
(e)2
e = Y- Y
1 Enero 52 Ŷ1= 52 0.00 0.00
2 Febrero 81 Ŷ2 = 52.00 29.00 841.00
3 Marzo 47 Ŷ3 = 54.90 -7.90 62.41
4. Abril 65 Ŷ4 = 54.11 10.89 118.59
5 Mayo 50 Ŷ5 = 55.20 -5.20 27.03
6 Junio 73 Ŷ6 = 54.68 18.32 335.66
7 Julio 45 Ŷ7= 56.51 -11.51 132.51
8 Agosto 60 Ŷ8 = 55.36 4.64 21.53
9 Septiembre 50 Ŷ9= 55.82 -5.82 33.92
10 Octubre 79 Ŷ10= 55.24 23.76 564.46
11 Noviembre 45 Ŷ11= 57.62 -12.62 159.20
12 Diciembre 62 Ŷ12=56.36 5.64 31.86
13 Enero ¿? Ŷ13 =56.92 232 8.16
Meses Y y e = Y- Y (e)2
1 Enero 52 Ŷ1= 52 0.00 0.00
2 Febrero 81 Ŷ2 = 52.00 29.00 841.00
3 Marzo 47 Ŷ3 = 57.80 -10.80 116.64
4. Abril 65 Ŷ4 = 55.64 9.36 87.61
5 Mayo 50 Ŷ5 = 57.51 -7.51 56.43
6 Junio 73 Ŷ6 = 56.01 16.99 288.67
7 Julio 45 Ŷ7= 59.41 -14.41 207.58
8 Agosto 60 Ŷ8 = 56.53 3.47 12.07
9 Septiembre 50 Ŷ9= 57.22 -7.22 52.14
10 Octubre 79 Ŷ10= 55.78 23.22 539.32
11 Noviembre 45 Ŷ11= 60.42 -15.42 237.82
12 Diciembre 62 Ŷ12 =57.34 4.66 21.74
13 Enero ¿? Ŷ13= 58.27 246 1.03
50
Figura 3.16. Gráfica de la Demanda de Envases Vs Pronósticos
40
30
20
10
Métodos Cuantitativos
0 MSc. Alfonso Tesén Arroyo 122
Ener febr mar abr may jun jul agost set oct nov
Resumiendo
Pronóstic Error
o cuadrático
0.1 56.92 2 328.16
0.2 58.27 2 461.03
0.3 58.62 2 684.62
3. Método de Holt.
Otra técnica que se usa con frecuencia para manejar una tendencia lineal, se denomina
método de dos parámetros de Holt. La técnica de Holt atenúa en forma directa la tendencia y
la pendiente empleando diferentes constantes de suavización para cada una de ellas. La
técnica de Holt proporciona mayor flexibilidad al seleccionar las proporciones a las que se
rastrearán la tendencia y pendiente. Las tres ecuaciones que se utilizan en esta técnica son:
En donde:
Ejemplo 3.6. En la siguiente tabla, se presentan los siguientes datos de ventas de cajas de
Néctares en la Empresa ALIMNORSA. Se desea pronosticar las ventas para un mes futuro con :
0,3; : 0,1.
Solución.
Yˆ
t yt At Tt et
1 500 500 0 500 0
2 350 455 -4,5 500 -150
3 250 390,4 -10,5 450,5 -200,5
4 400 385,9 -9,9 379,8 20,2
5 450 398,2 -7,7 376,0 74,0
6 350 378,3 -8,9 390,5 -40,5
7 200 318,6 -14,0 369,4 -169,4
8 300 303,2 -14,1 304,6 -4,6
9 350 307,4 -12,3 289,1 60,9
10 200 266,6 -15,2 295,1 -95,0
11 150 221,0 -18,2 251,4 -101,4
12 400 262,0 -12,3 202,8 197,2
13 550 339,8 -3,3 249,7 300,3
14 350 340,6 -2,9 336,5 13,5
15 250 311,4 -5,5 337,7 -87,7
16 550 379,1 1,8 305,9 244,1
17 550 431,7 6,9 381,0 169,0
18 400 427,0 5,7 438,6 -38,6
19 350 407,9 3,3 432,7 -82,7
20 600 467,8 8,9 411,2 188,8
21 750 558,7 17,1 476,8 273,2
22 500 553,1 14,8 575,9 -75,9
23 400 517,6 9,8 567,9 -167,9
24 650 564,2 13,5 527,4 122,6
25 577,7
Conclusión: Las ventas de cajas de néctares para el periodo 25 (enero) será de 577 cajas
4. Regresión Lineal
Esta es otra técnica de tipo cuantitativo que permite el cálculo de los pronósticos para
períodos futuros, para lo cual requiere de registros históricos que sean consistentes, reales y
precisos.
Esta técnica, como su nombre lo indica, se trata de sacar el total de las desviaciones
elevadas al cuadrado a un valor mínimo: su objetivo es determinar los coeficientes b 0 y b1, que
son conocidos como coeficientes de regresión, donde X es la variable independiente (tiempo),
Y es la variable dependiente (demanda, producción, consumo etc,).
En la práctica se pueden utilizar dos métodos para calcular los pronósticos a través de
Mínimos Cuadrados: Fórmula General y Métodos Simplificado, en este caso se detallará el
método de Fórmula General.
Fórmula General
Donde:
n = tamaño de la muestra o el número de períodos
x = período en el que se desea el pronóstico
y = demanda, producción, consumo etc.
= Pronóstico
yb
y 0b0bb11xx
y b0 b1 x
n
nxy xy xx y 2y
b1
b1 n x2
n2
2x
xy x y
nb
1 x x2
b0 y b1 x n x x
2
b0 y b1 x
b0 y b1 x
Solución:
Cuando se quiere realizar un pronóstico, lo primero que se debe hacer es graficar los datos
para explorar qué método tentativo se puede aplicar.
ventas
100
95
ventas
90
y = 2,2857x + 84
R2 = 0,8791
85
80
75
1 2 3 4 5 6
periodos
“x” son los períodos desde el primer dato histórico hasta el pronóstico a calcular.
6 x1972 21x552
b1 6(1972) 21
2.*2857
552
) (21) 2
(6b1x91 2,2857
5(91) (21) 2
b0 92 2.2857(3.5) 84
b0 92 2,2857(3.5) 84
6 x1972 21x552
b1 2
2.2857
(6yx )
9184 (21
2),2857 x
y 84 2.2857 x
b0 92 2.2857(3.5) 84
Para el año 2008 x es igual a 7, 84 y22006 84
y reemplazando
.2857 (7)299
,2857
9 (14
.en ) 116 tenemos
fórmula
y 84 2.2857 x
y 84 2.2857(7) 99.9
Las ventas para el 2008 serán de 100 cerradoras.
el sistema; para lo cual cuenta con el volumen de ventas anuales que se indican en la siguiente
tabla.
Solución
ventas
140
120
ventas
100
80
60
40
20
0
1 2 3 4 5 6 7 8 9
periodos
Y= 176,056
Para el año 2008, ALIMNOR S.A venderá 176 056 sacos de arroz
1. Variación Estacional.
La variación estacional es uno de los componentes de una Serie de Tiempo. Las series de
negocios, como ventas de automóviles, embarques de refrescos embotellados y construcciones
residenciales, durante el año tienen periodos de actividad por encima y por debajo del
promedio.
En el área de producción, una de las razones para realizar las fluctuaciones estacionales, es
tener disponibles suficientes suministros de materias primas para cubrir la demanda estacional
variable. Por ejemplo, la división de recipientes de vidrio de una gran compañía vidriera,
manufactura botellas retornables y no retornables para cerveza, frascos para yodo, aspirinas,
pegamentos, etc. El departamento de programación de la producción, debe conocer cuantos
envases de cada clase hay que producir y cuando hay que hacerlo. Un periodo de producción
de demasiados envases de una clase puede causar un problema grave de almacenamiento. La
producción no puede basarse por entero en los pedidos actuales, porque muchos se reciben
por teléfono, para embarque inmediato. Puesto que la demanda de varios de los tipos de
envases varía de acuerdo con las estaciones del año, un pronóstico de un año o dos de
anticipación, mensual, es básico para programar una buena producción.
Existen diversos métodos para medir y explicar las variaciones estacionales de una serie. El
objetivo fundamental de la mayoría de los métodos es obtener Índices Estacionales
Ejemplo 3.9. E&S. realiza sus inventarios de los productos de alimentos vendidos. El valor
del inventario en millones de dólares, al inicio de cada trimestre desde el año 2001 como se
indica en el cuadro 3.27
Trimestres
Año Invierno Primavera Verano Otono
2001 6,7 4,9 10,0 12,7
2002 6,5 4,8 9,8 13,6
2003 6,9 4,3 10,4 13,1
2004 7,0 5,5 10,8 15,0
2005 7,1 4,4 11,1 14,5
2006 8,0 4,2 11,4 14,9
¿Cuáles son los índices trimestrales usando el método de razón a promedio móvil?
Solución
dólares, determinado mediante: 4.9 + 10.0 + 12.7 + 6.5. En vez de sumar los cuatro
valores de inventario con una calculadora de mano; se puede restar del inventario de
invierno de 2001 (6.7) del total inicial de 34.3 millones y sumar el inventario de invierno de
2002 (6.5). Esto da 34.1 millones de dólares.
Este procedimiento se continúa hasta que todos los inventarios trimestrales han sido
tomados en cuenta. Los totales móviles de cuatro trimestres están en la columna 2 de la
cuadro 3.28. Obsérvese que el primer total móvil (34.3) está entre la primavera y el verano
de 2001. El total siguiente (34.1) se ubica entre el verano y el otoño de 2001, y así
sucesivamente. Deben hacerse verificaciones frecuentes de los totales. Por ejemplo una
verificación del inventario total (34.7) de 2003, que se encuentra entre la primavera y el
verano de 2003, se hace sumando las cuatro cifras para 2003 ( 6.9 + 4.3 + 10.4 + 13.1 =
34.7).
Trimestre
Año Invierno Primavera Verano Otono
2001 117.0 149.2
2002 76.7 56.1 112.3 156.1
2003 79.1 49.2 119.7 148.0
2004 77.3 58.9 112.6 158.5
2005 75.8 47.1 118.2 153.0
2006 84.3 43.9
Total 393.2 255.2 579.80 764.8 Total
Media 78.64 51.04 115.96 152.96 398.60
Índice 78.92 51.22 116.37 153.50
Sexto Paso.- En teoría, las cuatro medias trimestrales (78.64, 51.04 , 115.96 y 152.96 de
la tabla que se muestra) debe sumar un total de 400.0 porque el promedio se fija en 100.0,
el total puede no ser igual a 400.0, debido al redondeo. En este problema el total de las
medias es 398.6. En consecuencia, se aplica un factor de corrección a cada una de las
cuatro medias para forzarlas a un total de 400.0.
Factor de corrección =
Factor de corrección =
Cada una de la medias se ajusta hacia arriba. Los cuatro índices estacionales se muestran
en el cuadro 3.29 y se grafican en la figura 3.19.
Ahora se expondrá con brevedad los razonamientos para los cálculos anteriores. Los datos
originales en la columna 1 contienen componentes de tendencia (T), ciclo (C), datos de
estacionalidad ( E ) e irregular ( I ). El objetivo inmediato es eliminar los datos de la
estacionalidad ( E ) de la evaluación original del inventario.
Las columnas 2 y 3 en el cuadro 3.28 se ocupa para la obtención del promedio trimestral
móvil dado en la columna 4. Básicamente se han “eliminado por promedio” las fluctuaciones
estacionales e irregulares de los datos originales en la columna 1. En consecuencia, en la
columna 4 sólo se tienen los datos de estacionalidad y ciclo (EC).
Por último, se tomó la media de todos los índices de invierno, los de primavera, y así
sucesivamente. Esta forma de promediar elimina la mayor parte de las fluctuaciones
irregulares estacionales y los cuatro índices resultantes indican el patrón del inventario
estacional.
Un conjunto de índices estacionales es muy útil para ajustar las fluctuaciones estacionales
de una serie de ventas. La serie resultante se llama ventas desestacionalizadas o ventas con
datos ajustados estacionalmente. La razón para ajustar las series de ventas es eliminar las
fluctuaciones estacionales a fin de estudiar la tendencia y el ciclo. Para ilustrar el
procedimiento, los totales trimestrales de inventario de E&S. del cuadro 3.28 se repite en la
columna Nº 1 en el cuadro 3.30. Es difícil determinar si el inventario de E&S esta aumentando,
disminuyendo o permanece igual debido a efectos de temporada o estacionales.
ajustan estos valores tendenciales para considerar los factores de temporada. Para un mejor
entendimiento se plantea el siguiente ejemplo.
Solución.
El primer paso es utilizar los datos desestacionalizados de la columna 3 del cusdro 3.30 para
determinar la ecuación de tendencia de mínimos cuadrados.
Cuadro 3.31. Inventario desestacionalizado para E&S para determinar la línea de tendencia
b0 = b1 ( )= = 8.5169
La Ecuación que servirá para predecir las ventas de los próximos trimestres.
Si se supone que los pasados 24 periodos son un indicador razonablemente bueno del
inventario futuro, se puede usar la ecuación de tendencia para estimar dicho inventario. Por
ejemplo, en el trimestre de invierno del 2006, t=25, así que el inventario estimado para ese
lapso es $ 9.5794, se obtiene de la siguiente manera:
Después que se tiene las predicciones para los cuatro trimestres del año 2007, se puede
ajustarlos estacionalmente. El índice estacional para el trimestre de invierno es 79.05, que
servirá para realizar el pronóstico final del trimestre de invierno como se muestra a
continuación. 9.5794 ( 79.05)/100 = 7.5725.
Las estimaciones finales para los trimestres del año 2007 se presentan en la última
columna del cuadro 3.32. Obsérvese cómo los ajustes estacionales aumentan drásticamente
las estimaciones del inventario para los dos último, trimestres del año.
Figura 3.23. Gráfica del Pronóstico Final de las Ventas Aplicando Índices Estacionales. Año2007
Figura 3.24. Gráfica del Pronóstico de las Ventas utilizando solamente la Ecuación de Regresión. Año. 2007
CAPITULO XI
MUESTREO
El muestreo es una herramienta de la investigación científica, que consiste en seguir un
método, un procedimiento en el que se escoge un grupo pequeño de una población con el cual
podemos tener un grado de probabilidad de que efectivamente ese pequeño grupo posee las
características de la población o universo que estamos estudiando.
En la investigación científica es habitual que se empleen muestras como medio de acercarse al
conocimiento de la realidad. Sin embargo, para que esto sea posible, y que a través de las
muestras reproducir el universo con la precisión que se requiera en cada caso, si es necesario
que el diseño muestral se atenga a los principios recogidos en las técnicas de muestreo.
El Objeto del muestreo es obtener una muestra que permita, a través del estudio de su
constitución estimar cómo es la constitución de la población a la que pertenece la muestra;
población que no puede ser conocida directamente por ser muy grande o compleja.
A las medidas que se obtienen de las muestras, por ejemplo y otras que después
veremos, se denomina estadísticas, mientras que a las correspondientes medidas de la
población, por ejemplo ., se denominan parámetros.
Un muestreo bien realizado dá una muestra que puede proporcionar medidas que estiman
En estadística estos fines se cumplen, pero no en forma absoluta, es decir con 100% de
seguridad, pues siempre queda una pequeña probabilidad en contra; por ejemplo, de que
los límites no encierran el valor desconocido de la población; así podemos llegar a
establecer que el promedio de rendimiento () de una variedad de maíz de un valle está
entre 4,250 y 4,720kgs.x Ha., con 5% de probabilidades de que esté fuera de estos límites.
También podemos llegar a establecer que el rendimiento promedio (A) de una variedad de
un valle es superior al rendimiento promedio (B) de otra variedad B, con 5% de
probabilidades de que ambos promedios sean iguales. Ambos ejemplos son de variedades
de maíz en un valle; puede pensarse en ejemplos similares en el campo de la medicina,
pedagogía, industria, comercio, etc.
TECNICA DE MUESTREO.
La técnica del muestreo, establece la relación entre las poblaciones y las muestras, con el
objeto de estimar los parámetros de las poblaciones a través de las medidas estadísticas de
las muestras, tales como el promedio, la varianza, etc. La técnica del muestreo permite
determinar si hay diferencia entre parámetros equivalentes de dos a más poblaciones; tal por
ejemplo, si el efecto de un suero es mejor que otro para el tratamiento de una enfermedad, si
un producto procesado con un procedimiento es mejor o, peor que el producta procesado con
otra procedimiento etc. Esta conduce a tomar una decisión sobre bases estadísticas de
acuerdo a las inferencias que se estimen de las poblaciones con una probabilidad dada. A fin
de que las inferencias sean válidas, las muestras deben ser extraídas en forma que sean
representativas de las respectivas poblaciones de donde se extraen, para lo cual es importante
que la población haya sido perfectamente definida.
2º.-Si se necesitan datos a intervalos regulares de tiempo y es importante medir cambios muy
pequeños entre un período y el siguiente, pueden requerirse muestras muy grandes.
3º.-Si los Costos generales de una encuesta por muestra son elevados debido al trabajo de
selección de la muestra, control, etc, el muestreo puede resultar poco práctico. Por ejemplo,
en una provincia con muy pocas escuelas es posible que resulte más económico enumerar
todas las escuelas en la provincia que enumerar de una muestra de escuelas en la provincia
sin embargo, para el trabajo de oficina, es decir el procesamiento de los datos, puede
usarse una muestra de las escuelas enumeradas y reducir en esa forma el trabajo y los
costos de producción de las tabulaciones.
MARCO DE MUESTREO
Es la concreción individualizada de las unidades del Universo, es el punto de partida y el
fundamento necesario para realizar la selección de la muestra.
La base de muestreo o marco de muestreo puede consistir en un Censo, un registro, una
lista de personas, un fichero, un catálogo, un mapa, un plano, una guía de nombres.
La base de la muestra no siempre existe en la realidad. Hay muchos universos que no
están censados o catalogados y que es prácticamente imposible catalogarlos. Por ejemplo, no
lo están el público que circula por las calles, ni los asistentes a un cine o a un estadio. La
solución que se adopta entonces es practicar la elección de la muestra por algún
procedimiento aleatorio imperfecto. Así por ejemplo encuestar uno de cada cinco personas que
se encuentran por la calle. También se puede dar el caso que se conozca la composición en
categorías de la población, pero que no exista registro de ellos. Entonces se puede recurrir al
procedimiento, igualmente imperfecto estadísticamente, de asignar a cada agente una serie de
encuestas de cada categoría a realizar, proporcional en su conjunto a la magnitud de los
estratos en la población, dejando a su arbitrio la elección de los individuos concretos a
encuestar.
Recapitulando diremos que el Marco de Muestreo es la totalidad de las Unidades de
muestreo de donde se extraerá la muestra.
UNIDAD DE MUESTREO
La unidad de muestreo es una unidad seleccionada del Marco de muestreo.
La Unidad de muestreo es cada uno de los elementos en que se subdivide la base de la
muestra o marco muestral y figuran individualizados en ello. No sólo puede ser simple, sino
también colectiva, como cuando está constituido por familias, grupos, ciudades, pueblos, etc.
Puede ser la Unidad de Análisis, aún cuando no es necesario. Por ejemplo para poder
obtener información acerca de las personas podríamos usar una lista completa de un censo, o
un registro de personas y seleccionar directamente una muestra de personas. Sin embargo,
también podríamos seleccionar una muestra de familias e incluir en la encuesta todas las
personas de las familias seleccionadas. En forma similar podríamos seleccionar edificios
completos, e incluir todas las personas que viven en las edificaciones seleccionadas.
UNIDAD DE ANALISIS
La Unidad de análisis, es la Unidad para la que deseamos obtener información estadística. En
las encuestas de tipo usual, pueden ser personas, hogares, escuelas, casas o firmas
comerciales. Podrían ser también tarjetas perforadas o productos surgidos de algún proceso
PROBABILIDAD DE SELECCIÓN
La probabilidad de selección es la que tiene cada unidad en la población de ser incluida
en la muestra. La probabilidad es un valor que oscila entre cero y uno.
FRACCION DE MUESTREO
Es el porcentaje que representa la muestra respecto al universo comprendido en la base
de la muestra. Así tenemos:
f = fracción de muestreo
n = muestra
N = Población
Quiere decir que de cada cien elementos de la población (1320), 12 están representados en la
muestra
METODOS DE MUESTREO
Para reproducir la población a través de una muestra con la precisión que se requiera, es
necesario que el diseño muestral se atenga a los principios recogidos en las técnicas de
muestreo.
La preocupación central es asegurar de que los miembros de la muestra sean lo
suficientemente representativos de la población entera como para permitir hacer
generalizaciones precisas acerca de ello.
Para realizar tales inferencias el investigador escoge un método de muestreo apropiado
para ver si todos y cada uno de los miembros de la muestra tienen igual oportunidad de ser
integrados en ella. Si a cada miembro de la población se le da igual oportunidad de ser
escogido para la muestra, se está utilizando un método aleatorio de no ser así el otro método
será el no aleatorio. Entonces señalamos que existen dos métodos de muestras o tipos de
muestreos: un método aleatorio (probabilístico) y otro no aleatorio (no probabilístico).
Aleatorio Simple
Aleatorio Sistemático
Estratificado
Polietápico
Muestreo
Accidental o Casual
de Bola de Nieve
MUESTRAS NO ALEATORIAS
A veces, para estudios exploratorios, el muestreo probabilístico resulta excesivamente costoso
y se acude a métodos no probabilísticos, aun siendo conscientes de que no sirven para realizar
generalizaciones, pues no se tiene certeza de que la muestra extraída sea representativa, ya
que no todos los sujetos de la población tienen la misma probabilidad de ser elegidos. En
general se seleccionan a los sujetos siguiendo determinados criterios procurando que la
muestra sea representativa, ya que estos métodos están basados en algún elemento de juicio o
criterio humano para decidir cuáles unidades de la población son las que deben forma las
muestras. Algunos de estos métodos se describen a continuación.
Individuos Ingresos
A S/ 1300
B 4300
C 3100
D 2000
E 3600
F 2200
G 1800
H 2500
I 1500
J 900
K 2800
L 1900
Ingreso Total 27 900
Ingreso Promedio 2 325
Este tipo de selección puede hacerse de dos formas: Puede sacarse una ficha reemplazada
en el recipiente y extraer la segunda. En este caso la segunda ficha podría ser igual a la pri-
mera. Este procedimiento se denomina Muestreo con reposición.
Por otra parte se podría extraer la segunda ficha al mismo tiempo que la primera o se lo
podría seleccionar sin reponer la primera; en uno u otro caso las fichas serían diferentes,
este es el Muestreo sin reposición.
Cuando se extraen muestras de una población finita, la práctica usual es aplicar el muestreo
sin reposición.
Existen otras formas de seleccionar dos personas al azar.
En el muestreo sin reposición, se consideran todos los pares posibles de individuos AB, AC,
AD, ... BC, BD, ... CD, CE, etc. podríamos escribir un par de letras, por cada uno de los 66
pares, en cada ficha y seleccionar una ficha única
Las muestras de selección posibles son iguales que las del caso anterior.
En la práctica no se usan fichas para seleccionar unidades individualmente o en pares. El
método común es usar una tabla de números al azar y elegir en la misma, dos números
comprendidos entre 1 y 12.
Los dos números representan a dos individuos. El uso de las tablas de números al azar tiene
el mismo efecto que el uso de fichas.
Debemos precisar que cualquiera de estas formas satisfacen los criterios para una muestra
aceptable.
5ta. columna
1089 8719
9385 7902
6934 8660
0052 1007
5736 9249
1901 5988
5372 6212
Dentro de los límites de los números que figuran en los ejemplos siguientes,
seleccionaremos en la tabla anterior números al azar usando cada número seleccionado
una sola vez
Ejemplo 1 .
- Seleccionar tres números al azar entre 1 y 10.
- Elegimos primero una columna arbitrariamente decidiendo que 0 representa a 10.
- Supongamos que hemos elegido la quinta columna.
- El primer número de esa columna es 8, el segundo 7, el tercero 8 nuevamente.
- Como este número ya ha sido seleccionado, lo pasamos por alto y tomamos el número
siguiente que es1.
Los tres números seleccionados son por lo tanto 8, 7 Y 1.
Ejemplo 2
Seleccionar cinco números al azar entre 1 y 80. Supongamos que tomamos las dos
primeras columnas como punto de partida.
- Primero elegimos 10
- Rechazamos 93 ya que no está comprendido entre 01 y 80.
- Elegimos 69, rechazamos 00 (que representa a 100) Y
- Tomamos luego 57, 19 Y 53.
Ventajas del ( MAS):
- Sencillo y de fácil comprensión.
- Cálculo rápido de medias y varianzas.
- Se basa en la teoría estadística, y por tanto existen paquetes informáticos para analizar los
datos.
Ventajas:
- Fácil de aplicar.
- No siempre es necesario tener un listado de toda la población.
- Cuando la población esta ordenada siguiendo una tendencia conocida, asegura una
cobertura de unidades de todos los tipos.
Desventajas:
- Si la constante de muestreo esta asociada con el fenómeno de interés, se pueden hallar
estimaciones sesgadas.
C. Muestreo estratificado.
Muestreo en el que la población se divide previamente en un número de subpoblaciones o
estratos, prefijado de antemano. Dentro de cada estrato se realiza un muestreo aleatorio
simple.
Trata de obviar las dificultades que presentan los anteriores ya que simplifican los procesos
y suelen reducir el error muestral para un tamaño dado de la muestra. Consiste en
considerar categorías típicas diferentes entre sí (estratos) que poseen gran homogeneidad
respecto a alguna característica (se puede estratificar, por ejemplo, según la profesión, el
municipio de residencia, el sexo, el estado civil, etc ). Lo que se pretende con este tipo de
muestreo es asegurarse de que todos los estratos de interés estarán representados
adecuadamente en la muestra. Cada estrato funciona independientemente, pudiendo
aplicarse dentro de ellos el muestreo aleatorio simple o el estratificado para elegir los
elementos concretos que formarán parte de la muestra. En ocasiones las dificultades que
plantean son demasiado grandes, pues exige un conocimiento detallado de la población.
( tamaño geográfico, sexos, edades, grupos étnicos, los docentes estratificados por tiempos
de servicios, etc).
Cuanto más homogéneos sean los estratos, más precisas resultarán las estimaciones.
Ventajas:
- Tiende a asegurar que la muestra represente adecuadamente a la población en función de
unas variables seleccionadas.
- Se obtienen estimaciones más precisas.
Desventajas:
- Se ha de conocer la distribución en la población de las variables utilizadas para la
estratificación.
- Los análisis son complicados, en muchos casos las mezclas tiene que ponderarse (asignar
pesos a cada elemento).
Para conocer el tamaño de cada estrato en la muestra no tenemos más que multiplicar esa
proporción para el tamaño muestral.
Ventajas:
Es muy eficiente cuando la población es muy grande y dispersa. Reduce costos.
No es preciso tener un listado de toda la población, solo de las unidades primarias de
muestreo.
Desventajas:
El error estándar es mayor que en el muestreo aleatorio simple o estratificado.
El cálculo del error estándar es complejo.
Para finalizar con los métodos de muestreo probabilísticos es necesario comentar que ante
lo complejo que puede llegar a ser la situación real de muestreo con la que nos enfrentemos
es muy común emplear lo que se denomina muestreo polietápico. Este tipo de muestreo
se caracteriza por operar en sucesivas etapas, empleando en cada una de ellas el método
de muestreo probabilístico más adecuado.
E. Muestreo polietápico
Muestreo en el que se procede por etapas se obtiene una muestra de unidades primarias,
más amplias que las siguientes; de cada unidad primaria se toman, para una submuestra,
unidades secundarias, y así sucesivamente hasta llegar a las unidades últimas o más
elementales. Se le puede considerar como una modificación del muestreo por
conglomerados cuando no forman parte de la muestra elementos o unidades de todos los
conglomerados, sino que, una vez seleccionados estos, se efectúan submuestras dentro de
cada uno de ellos.
área de una curva de distribución estadística normal del universo que se piensa abarcar.
Las pruebas empíricas realizadas muestran que la distribución en la población de cualquier
información recogida en una muestra se ajusta por lo general a la ley normal de
probabilidad con unos valores centrales y medios avanzados y unos valores reducidos y
adopta por tanto la forma de una curva de campana de Gauss.
El nivel de confianza que normalmente se estima suficiente en una investigación y el más
generalmente usado es el de dos sigmas, que abarca el 95.5 % a 955 por 1000 del área de
la curva normal e indica que existe una probabilidad de 95.5% de que cualquier resultado
obtenido en la muestra es válido para el Universo en principio. También se emplea, cuando
se quiere lograr una mayor seguridad el nivel de confianza de tres sigmas, que abarca una
probabilidad de 99.7% del área de dicha curva.
Error de estimación.- Los resultados de las muestras no pueden ser
rigurosamente exactos en relación a la población que pretenden representar y siempre
suponen un error de medida mayor a menor. Este error disminuye como es obvio, con la
amplitud de la muestra. El máximo error de este tipo que se suele considerar ad misible en
las investigaciones sociológicas o educativas es del 6%. Como de este error depende el
tamaño de la muestra, para determinar éste se debe decidir previamente el error que se
estima admisible.
A mayor exactitud que se pretenda, por tanto se planteará un error menor,
consecuentemente el tamaño de la muestra tendrá que ser mayor.
Cuando la población es superior a 100 000 hay que utilizar la fórmula para poblaciones
infinitas que es la siguiente:
n=
n=
Donde
n = es el número de elementos de la muestra a determinar
Z2 = es el nivel de confianza elegido
p = es el tanto por ciento estimado de la característica investigada
q = 1- p
E = es el error de estimación admitido
Ejemplo: Se desea estimar, con el 95% de confianza, el tiempo promedio para efectuar cierta
intervención quirúrgica. En un estudio piloto se encontró una media de 3.5 horas y una
desviación estándar de 2.2 horas. El investigador asume una precisión de 0.35 horas. Calcular
el tamaño de la muestra.
Solución
Datos
Z = 1.96
S = 2.2
E= 0.35 horas
El tamaño de la muestra para estimar el tiempo promedio para efectuar una intervención
quirúrgica es de 152 pacientes.
Donde:
P : es la proporción poblacional que puede estimarse de las tres maneras siguientes:
Revisión bibliográfica
Estudio piloto
Asumiendo P = 0.5 y Q = 0.5
II ) FORMA
Apliquemos la fórmula:
N= 650,000 Población
n = ? muestra no se conoce
Z= 99% = 2.57
E= 4% error admitido
p = En cuanto a p como no se indican las proporciones que guardan dentro de la población
las características a estudiar, es preciso suponer el caso más desfavorable, de p igual a
50, luego q también será igual a 50.
Reemplazando los valores en la fórmula
tenemos:
El resultado obtenido significa que el tamaño de la muestra debe ser por lo menos 1032 para
estar seguros con una probabilidad de 99 por 100 de que los resultados de la muestra son váli-
dos dentro de los márgenes del error admitido para el universo.
Cuando el universo es inferior a 100000 hay que utilizar la fórmula para universos finitos
que es la siguiente:
Ejemplo: Queremos estudiar las condiciones socio económicas de los estudiantes de una
provincia cuya población alcanzan a 6800 alumnos, hallar el tamaño de la muestra con un
n = 257 alumnos
Respuesta: El tamaño de la muestra de una población de 6800 alumnos será de 257
alumnos, con un nivel de confianza del 95% y un margen de error del 6%
Procedimiento
Z2 X p X q x N
n =
E2 (N-1) +Z2 x p x q
3.- Reemplazamos valores:
4 x 50 x 50 x 12,000
n=
16 x 11999 + 4 x 60 x 50
n = 594
5. - Luego pasemos a la obtención del número de elementos de cada estrato dentro de la muestra.