Semana 3 - Trabajo

Descargar como doc, pdf o txt
Descargar como doc, pdf o txt
Está en la página 1de 155

UNIVERSIDAD NACIONAL

PEDRO RUIZ GALLO

ESCUELA DE POSTGRADO

MAESTRIA EN INVESTIGACION Y DOCENCIA

METODOS CUANTITATIVOS

MSc. ALFONSO TESEN ARROYO


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

INTRODUCCIÓN

El presente curso responde a la necesidad de superar el nivel de análisis y uso adecuado de la


información en la toma de decisiones empresariales.

Cada día se viene implementando mejoras en las técnicas de recolección,


procesamiento y presentación de los datos cuantitativos, pero muy poco se esta capacitando
en el análisis y uso de la información para la toma de decisiones gerenciales.

Este gran problema se hace continuo por la falta capacitación y formación constante en
el área y además por no existir un sistema estadístico de información gerencial que facilite el
análisis y uso de la información.

Los métodos cuantitativos, son herramientas eficaces para mejorar el proceso de


producción, y reducir sus defectos. Sin embargo, se debe tener en cuenta que las herramientas
estadísticas son precisamente herramientas que no servirán si se usan inadecuadamente.

El análisis de datos comprende la traducción de información reunida durante un


proyecto de investigación, en una forma interpretable y útil, independientemente del método
de reunión adoptado, esto es, cuestionario, mediciones Físico-Químico, medición fisiológica,
escala de observación, o de otro tipo; existe mucha más información de la que puede ser
manejada adecuadamente por el empleo causal de los datos

En gran medida, la abundante información que se dispone sobre los diseños de


productos, procesos y el control de calidad en las empresas, no es usada para tomar
decisiones y efectuar ajustes correctivos; de otro lado, existe escasa disposición de
instrumentos para detectar las necesidades de control de un proceso y las decisiones de la
población acerca de la buena utilización de las herramientas de estadísticas.

En los procesos industriales, el análisis de datos por lo regular entraña el empleo de


técnicas estadísticas para organizar y reducir masas de datos a términos descriptivos
cómodos, y extraer inferencias de ellos. El análisis estadístico genera información precisa y
definida respecto a las características de los datos, en una forma que pueda ser comunicada
con facilidad de un investigador a otro.

A muchos estudiantes amedrenta o desanima la simple idea de usar estadísticas. El


temor es totalmente injustificado. El investigador no necesita tener conocimientos
matemáticos profundos para entender a la estadística, ya que actualmente al encontrase
fácilmente con computadoras y calculadoras, pero si es útil tener idea de algunas operaciones.
En la realidad todos utilizamos terminología estadística, inclusive en nuestra conversación
diaria, cuando hablamos de ventas diarias, producción, rendimiento de materia prima,
calificaciones, promedios, tasas de interés, o el porcentaje ingenieros colegiados que
pertenecen a uno u otro sexo, en realidad hacemos tipos útiles de estadísticas descriptivas.
Así mismo cuando decimos que el número promedio de horas de trabajo de un ingeniero en
planta es 10 horas, en realidad se ha organizado y entendido los datos, por innumerables

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 2


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

operaciones que hacemos a nivel inconsciente, hasta lograr un análisis estadístico de datos
simple.

De todo lo anteriormente comentado, es que se vio en la necesidad ser incluido en la


Maestría de Administración con mención en Gerencia el curso de Métodos Cuantitativos, que
será de mucha utilidad al maestrante de Administración para otros como metodología de la
investigación, investigación de mercados, seminarios taller tesis, y otros, teniendo como
objetivos:

OBJETIVOS

 Reconocer la importancia y necesidad de la información estadística como


herramienta fundamental de un proceso decisorio.
 Utilizar las técnicas básicas del método estadístico para la evaluación de resultados
de investigaciones.
 Calcular e interpretar indicadores útiles en investigaciones y acciones de un
maestrante en administración.

CAPITULO I

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 3


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

EL LUGAR DE LA ESTADÍSTICA EN LA INVESTIGACIÓN


El conocimiento de la estadística es parte indispensable en la formación del profesional
moderno que desea efectuar investigaciones formales. Aun mas, incluso en aquellos que
simplemente desean leer artículos científicos no podrán entenderlo enteramente si no cuentan
con algún conocimiento de los métodos estadísticos.
Por ejemplo ¿qué significa el hecho de que un científico informe que, usando un «
diseño en bloque aleatorio », encontró « resultados que son significativos a un nivel de
significación mayor que 0.01 »? ¿Qué se quiere decir con la frase, « la media más o menos
dos errores estándar »? , la Estadística es una muy buena opción para dar respuesta a estas y
otras interrogantes.

EL METODO CIENTÍFICO Y SU RELACION CON EL METODO ESTADÍSTICO.


En la constante búsqueda de la respuesta de ciertos fenómenos que el científico enfrenta cada
día, el Método Científico le ayuda a organizar eficientemente los pasos requeridos para
satisfacer esa inquietud. Podemos definir el Método Científico como un procedimiento que se
aplica al ciclo completo de una investigación, desde el enunciado del problema hasta la
evaluación de los resultados obtenidos.
Al aplicar el método científico nos proponemos a verificar la hipótesis inicial, investigando si las
consecuencias deducidas de ellas se comprueban o no al recoger, en forma sistemática,
nuevas observaciones.
El Método Estadístico, es el que nos proporciona las técnicas necesarias para recolectar y
analizar la información requerida. Podríamos distinguir una fase de planificación y otra de
ejecución.

I.- La planificación.- En esta fase debemos considerar:


1. Definición de los objetivos.
Corresponde formalmente a la descripción del problema que da origen a la
investigación. Se debe señalar detalladamente lo que se pretende investigar, el que,
cómo, dónde, cuándo y porque.

2. Definición de la población.
Se debe definir el grupo del cual se extraerá la información y al cual se generalizarán
las conclusiones que se obtengan en la investigación.

3. Diseño de la muestra.
La teoría de Muestreo o de diseño y Análisis de experimentos pueden garantizarnos que
la información obtenida de la muestra generalizarlo a la población de interés.

4. Definición de las unidades de observación, variables de estudio, escala de


medición y unidades de medida.
En una misma investigación puede haber varios objetivos parciales que requieran
estudiar unidades de observación diferentes (por ejemplo una investigación pude
hacerse a nivel de hospitales, o de unidades de servicios, o de pacientes).La elección de
las unidades de medida es crucial ya que una equivocación puede conducir a un exceso
de información o en una pérdida irreparable de ella.

5. Preparación del plan de tabulación y análisis.


El cuidado puesto en este aspecto nunca podría considerarse excesivo, debería llegarse,
tal vez, hasta considerar alternativas de análisis adecuadas para compensar algunas
alteraciones accidentales del plan de trabajo.

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 4


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

II.- Fase de ejecución. En esta fase podemos reconocer:


1. Recolección de la información.
2. Elaboración de la información.
3. Análisis de los resultados.

CAPITULO II

2.1. DEFINICIONES BASICAS.

ESTADÍSTICA.
Es el arte y la ciencia que nos proporciona un conjunto métodos y técnicas para recolectar,
organizar, presentar, analizar e interpretar datos con el fin de propiciar la toma de
decisiones más eficaz; es decir, brinda el soporte para saber qué datos obtener, cómo,
cuándo, dónde obtenerlos, y una vez obtenidos proporciona métodos y procedimientos
para organizarlos con diferentes propósitos.

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 5


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

DIVISION DE LA ESTADISTICA.
Los administradores aplican alguna técnica estadística a prácticamente todas las ramas de
las empresas públicas y privadas. Estas técnicas son tan diversas que los estadísticos, por
lo general, las dividen en dos grandes categorías: estadística descriptiva y estadística
inferencial.

Estadística descriptiva.
Es la estadística que sólo se ocupa de describir y analizar un grupo de datos, sin sacar
conclusiones sobre un grupo mayor.
Ejemplo: Al analizar a sus compañeros de clase, tal vez encuentre que 38% de ellos usan
Celular Marca Nokia. Si así fuera, “38%”es un estadístico descriptivo

Estadística inferencial.
La estadística inferencial, es un conjunto de procedimientos que nos permiten efectuar
generalizaciones de la muestra a la población. Se utiliza para probar hipótesis y estimar
parámetros, se basa en el concepto de distribución muestral.
Ejemplo: La Cámara de comercio encontró que las 50 empresas que encuestó practican el
trueque o intercambio. Con los datos de la muestra se puede inferir con bastante certeza
que casi todas, si no es que todas, las empresas de la Cámara de Comercio siguen estas
prácticas.

UNIDAD DE ANALISIS O UNIDAD DE OBSERVACIÓN.


Es la unidad indivisible a quien se estudia, del cual se obtiene el dato estadístico. También
se define como el objeto de estudio. Puede ser una empresa, un paciente, una planta, un
pescado, una lata de conserva, etc.

POBLACIÓN.
Es el conjunto de unidades de observación o elementos de la misma especie que se
pretende estudiar en una investigación científica y de la cual se obtiene una muestra.

PARÁMETRO.
Es una medida de resumen que nos describe alguna característica de la población. Para
calcular dicho valor es necesario utilizar todo los valores de la población completa.
Algunos parámetros conocidos y que usaremos en este curso son:
La media poblacional denotado por 
La varianza poblacional denotado por 2
La proporción poblacional denotado por P
El coeficiente de correlación poblacional denotado por 

MUESTRA.
Es un subconjunto de la población sobre quienes se va estudiar, la cual debe haberse
elegido al azar (aleatorio) y ser representativa de la población a la cual pertenece, esto
quiere decir sin sesgos. En general la muestra es toda parte representativa y adecuada de
la población. A partir del análisis de la muestra obtenida correctamente y al azar , se
puede hallar conclusiones que sean extrapolables a la población de origen. Para elegir la
muestra debe apelarse a un determinado método de muestreo.

ESTADÍSTICO.
Es una medida de resumen que nos describe algunas características de interés y cuyo
valor es calculado usando sólo los valores de los elementos o unidades de una muestra.
Algunos estadísticos conocidos y mas usados son:
La media muestral denotado por

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 6


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

La varianza muestral denotado por S2


La proporción muestral denotado por p
El coeficiente de correlación muestral denotado por r

VARIABLE.
Es una característica o propiedad determinada de las unidades de análisis, sea medible o
no. Esta propiedad hace que las unidades de análisis de un grupo pueden diferir de las de
otro grupo en la muestra o población de estudio.

CLASIFICACIÓN DE VARIABLES.
1.- POR SU NATURALEZA. Se dividen.

 Variable cuantitativa: Es la que se puede medir. Habitualmente es llamada variable


numérica o métrica, estas se clasifican en:
 Variables cuantitativas discretas: Tienen un recorrido finito o a lo mas numerable;
pueden adoptar sólo ciertos valores a lo largo de un intervalo, dejando un espacio
entre los valores posibles. Ejemplos: Cantidad de empleados en la nomina de una
empresa de manufactura, Número de latas de conserva que ingresan a un autoclave,
número de alumnos matriculados en la maestría de administración, número de plantas
Agroindustriales del departamento, cantidad de piezas defectuosas en una muestra de
producción, número de dientes con caries, número de hijos por familia. etc.

 Variables Cuantitativas Continuas: Tienen un recorrido infinito no numerable, la


variable puede tomar, teóricamente, cualquier valor en un cierto intervalo.
Ejemplos: el peso de un camión con carbón, la distancia de casa a la escuela,
Densidad, humedad, acidez, temperatura, dureza del agua, ºBrix, Presión sanguínea,
nivel de colesterol en la sangre, estatura, peso, ingreso económico, edad, longitud,
etc.

 Variable Cualitativa: Son variables que representan cualidades o atributos de


la muestra, como por Ejemplo: El sabor, color, tipos de conservantes, tipos de licores,
Genero (masculino, femenino), VIH(presente, ausente), grupo sanguíneo( A, B, AB, O),
grado de instrucción ( primaria, secundaria, superior), desnutrición (leve, grave, aguda),
color de cabello (castaño, negro, rojizo, rubio o canoso), etc. Si bien algunas variables
cualitativas solo tienen dos categorías otras pueden tener tres o más. Para las variables
cualitativas, también conocidas como atributos, se suele contar la cantidad de personas
u objetos que entran en cada categoría.
Variable
Al expresar los resultados relacionados
Variablecon las variables cualitativas, describimos el
porcentaje o la cantidad de personas u objetos que entran en cada una de las
categorías posibles. Por ejemplo, podemos encontrar que 30% de los niños en edad
escolar entrevistados reconocen una fotografía de Ronald McDonal, mientras que 60%
no lo reconocen. Así mismo, algunos niños pueden haber probado una hamburguesa en
alguna ocasión, mientras que otros, no.
Cualidad Cantidad
Cualitativa O Cuantitativa
Cuantitativa o
Cualitativa
Atributo número

Nominal Ordinal Discreta


Nominal Discreta Continua
Continua
Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 7
No orden Orden Conteo Medición
Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Ejemplos:
Unidad de estudio Variable
 Estudiante Peso, talla, edad, ci, número de hermanos, raza,
color de ojos, tipo de sangre, etc.
 Empresa Ganancia, costos, producción, número de
trabajadores, numero de computadoras, etc.
 PYME Número de trabajadores, años de funcionamiento,
ganancias, etc.

2.- POR SU RELACIÓN.- Se clasifican en:


Variables dependientes: Es la variable motivo del estudio, cuyos valores dependen
de otras variables que pueden influir en ella. También se le llama variable respuesta.
Ejemplo: Respuesta a un tratamiento, rendimiento escolar, ventas, etc.

Variable independiente: Es la que modifica de una u otra manera a la variable


dependiente, llamándose también según el caso factor de riesgo, factor predictivo,
Ejemplo: Horas de estudio, minutos de publicidad, etc.

Variable Interviniente: Son aquellas que coparticipan con la variable independiente


condicionando a la variable dependiente.
Ejemplo: Material de trabajo, medios de publicidad, etc.

ESCALAS DE MEDICION
Una vez definida la variable y obtenidos los datos, los análisis que se aplique son afectados
por la manera en que las variables fijadas se clasifiquen. Dicha clasificación obedece a las
escalas de medición propuestas por el Psicólogo Steven en 1946, casi universalmente
aceptadas, los datos están siempre referidos a una de estas escalas.

 Variables categóricas nominales: Son variables cualitativas que no permiten


establecer un orden. Ejemplo: raza (negra, blanca, trigueño, etc.), grupos sanguíneos
(A, B, AB, O). También son excluyentes entre si, o sea que cada individuo pertenece a
una u otra categoría pero no a las dos al mismo tiempo.

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 8


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

 Variables categóricas ordinales: Estas si permiten establecer un orden determinado,


por ejemplo: grado de instrucción de un paciente (inicial, primaria, secundaria,
superior), nivel socioeconómico (bajo, medio, alto). etc. También son excluyentes entre
sí.

 Escala Interválica. Es una escala ordinal, que se usa en mediciones de variables


continuas que además de tener un orden tienen mantienen una equidistancia entre sí y
para lo cual pueden iniciar con un cero relativo o arbitrario y mantener un intervalo
de separación.
Ejemplo 1.- Temperatura, Presión de vapor, Brix, Acidez, Grado Alcholico, Las
calificaciones de un test o de un examen de conocimientos. Estas tienen un cero elegido
arbitrariamente, por ejemplo si un alumno obtuvo un calificativo de “cero” en un
examen de matemáticas I, esto significa que no sabe nada de la materia pues con otra
prueba más fácil podría tener otra calificación.

Ejemplo 2.- Si tres alumnos A, B,C han obtenido los puntajes 2, 4, 16 respectivamente,
no solo se verifica las relaciones 2 y 2<4<16, sino que 16-4 = 6 (4-2) donde se puede
inferir que C y B es igual a seis veces la diferencia entre los puntajes de B y A.

Escala de Razón o Cociente. La escala de razón es una escala de intervalo en donde


además podemos comprobar cuantas veces un valor de la escala es mayor o menor que
otro valor de la escala. La escala de razón tiene cero absoluto.

Ejemplo 1: Peso, talla, número de alumnos; en las que el cero representa la nulidad o
ausencia de lo que se estudia. Se dice que un peso de 50 libras es el doble que uno de
25 libras, o que uno de 100 libras es 4 veces mayor que uno de 25 libras.

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 9


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Ejemplo 2: si tres objetos A, B y C miden 2, 4 y 16 metros, se pueden establecer las

relaciones: 2 , 2 < 4 < 16, 16 - 4 = 6(4-2), y además =2; y ,

es decir que la longitud de 8 es el doble de A, el de C es 8 veces que el de A y el de C es


4 veces que el de B.

PRÁCTICA PRESENCIAL Nº 01

Instrucción: Identificar la unidad de estudio, tipo de variable, la población y la muestra en los


siguientes casos que se presentan.
CASO Nº 01:

La empresa GLORIA S.A. está realizando un estudio de mercado a


nivel del distrito de Chiclayo. En especial esta considerando las
familias residentes en las Urbanizaciones cercanas al perímetro de
la plaza de armas de esta ciudad. Su interés es conocer cuanto
gastan semanalmente en el consumo de leche de tarro color azul.
Si UD. fuera el encargado de realizar esta investigación
Unidad de estudio identifique:
Variable de estudio Tipo:
Población
Muestra

“Un gran profesional es aquel que no encuentra obstáculos sino retos”

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 10


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

CAPITULO III

ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS

Después de la recolección de los datos, es necesario resumirlos y presentarlos en forma


tal, que faciliten la comprensión, análisis, utilización y aplicaciones de los mismos. Hay dos
formas de presentar ordenadamente los datos estadísticos.
1) En forma tabular, como tablas estadísticas y cuadros.
2) Mediante gráficos y diagramas.

2.1. Tablas estadísticas. Las tablas estadísticas presentan ordenadamente los datos
estadísticos en filas y columnas, clasificados y agrupados de acuerdo a un criterio
específico. En las tablas metodológicamente, conviene distinguir las " tablas de frecuencia
o de distribución" y los "cuadros estadísticos o de análisis".

2.1.1.- Tablas de frecuencia o de distribución.


Son tablas de trabajo estadístico, que presentan la distribución de un conjunto de
elementos de acuerdo a las categorías de la variable. En ellas se observa la frecuencia o
repetición de cada uno de los valores de la variable, que se obtiene después de realizar
la operación de tabulación.

2.1.2.- Cuadros estadísticos.- El cuadro estadístico es el arreglo ordenado, de columnas


y filas, de datos estadísticos o características relacionadas, con el objeto de ofrecer
información estadística de fácil lectura, comparación e interpretación (un cuadro
estadístico es el resultado de trabajos previos) (planeamiento, recopilación, tabulación ,
cálculos, etc.). Estos cuadros constituyen los llamados "Cuadros de análisis" que se
incluyen frecuentemente en el cuerpo de los estudios, de las investigaciones o de
informes.
Cada cuadro estadístico puede tomar una forma particular o propia, sin embargo
existen recomendaciones y normas generales para su construcción que pretende
uniformizar criterios para presentar datos estadísticos.
Para diferenciar las variables principal y secundaria, en el título del cuadro, se antepone
la palabra POR a la variable principal y SEGÚN a la variable secundaria.

Partes Principales de un cuadro.


En general una tabla o cuadro estadístico completo puede tener 8 partes:
1) Número de Cuadro. Es la identificación que permite identificar al cuadro.
2) Título.- Es la indicación que, precediendo la tabla, es colocada en la parte
superior de la misma. Debe ser preciso claro y conciso, indicando la naturaleza
del fenómeno estudiado (¿Qué?), las variables escogidas en el análisis del
fenómeno (¿Cómo?), el local (¿Dónde?) y la época (¿Cuándo?) en que el
fenómeno fue observado.
3) Encabezamiento o conceptos.- ( referente a la primera fila ) es la parte de la
tabla en que se indica la naturaleza ( las categorías, las modalidades de la
variable) del contenido de cada columna. Estos al igual que los títulos deben ser
breves, pero suficiente explícitos. Así por ejemplo en vez de poner simplemente
"edad" es preferible escribir " Edad en Años".
4) Cuerpo.- Está formado por un conjunto de filas y columnas que contienen
respectivamente, las series horizontales y verticales de información.

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 11


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

5) Nota de pie de páginas o llamadas. Se usan para aclarar algunos términos o


siglas y también para indicar que elementos que están o nó incluidos en algunos
de los conceptos del cuadro.
6) Fuente.- Es el indicador de la entidad responsable de donde se obtuvieron los
datos.
7) Nota de unidad de medida.- Se escribe debajo del título original , se usa
cuando se abrevia la escritura de las cifras para expresar en que unidades esta
expresada la variable. Ejemplo. Miles de personas, miles de soles. etc.
8) Elaboración. Responsable de la investigación o toma de datos.

TABLAS DE FRECUENCIAS O DISTRIBUCIÓN DE FRECUENCIAS DE VARIABLES


CUALITATIVAS O ESTADISTICAS DE ATRIBUTOS.

I.- VARIABLE CUALITATIVA.- Suponga que una muestra de n unidades estadísticas se


observan k categorías o modalidades C 1, C2, …,Ck, de alguna variable cualitativa X. La
tabulación de estos n datos, es la distribución de frecuencias por categorías dados en
el siguiente cuadro:

CUADRO Nº 1: DISTRIBUCIÓN DE FRECUENCIAS DE V. CUALITATIVAS

CATEGORÍAS FRECUENCIAS FRECUENCIAS FRECUENCIAS


VARIABLE ABSOLUTAS RELATIVAS RELATIVAS
X fi hi PORCENTUALES Pi
C1 f1 h1 P1
C2 f2 h2 P2
. . . .
. . . .
. . hk .
CK fK Pk

Frecuencia absoluta (fi).- Es el número de datos observados en cada categoría o


modalidad. La Suma de todas las frecuencias absolutas es igual al total de n datos

observados.

Frecuencia relativa (hi). Se define para cada i, i =1,2,...,k, por hi = . La suma

de todas las frecuencias relativas es igual a uno, esto es,

Frecuencia porcentual (Pi)


Se define para cada i, i = 1,2,...,k, por Pi = hi x 100% . El total de las frecuencias

porcentuales es igual a cien. Esto es:

Ejemplo 1: Para evaluar el proceso de fabricación de barnices sintéticos se ha realizado un


estudio en el mes de abril del 2009, con la finalidad de establecer las causas más importantes
que originan fallos en el producto elaborado.

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 12


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

El tiempo de duración del estudio fue de un mes, siendo responsable el jefe de control de
calidad. Durante dicho periodo se identificaron diferentes causas de fallas y la intensidad o
frecuencia de ocurrencia, la misma que se muestra en la siguiente tabla.

A D A E D A E B E B
B A B B B E A E B A
C C B A E B E A D B
B B D E A E B B A A
D E B E B A A B B E
A D A B D B B B B B
C A B D B B B A A E
B B B A A A E B E B

A = Viscosidad; B =Color ; C= Peso por Galón; D = Hermeticidad E = Contaminación

CUADRO Nº2: DISTRIBUCIÓN DE CAUSAS DE FALLO EN EL PROCESO DE


FABRICACIÓN DE BARNICES SINTÉTICOS
CAUSAS DE FALLO INTENSIDAD
Viscosidad (A) 21
Color (B) 37
Peso por galón (C) 3
Hermeticidad (D) 5
Contaminación(E) 14
TOTAL 80

CUADRO Nº3: DISTRIBUCIÓN FRECUENCIAS DE CAUSAS DE FALLO EN EL PROCESO


DE FABRICACIÓN DE BARNICES SINTÉTICOS

Frecuencia Frecuencia
CAUSA DE FALLO Absoluta Relativa Porcentaje
Color (B) 37 0.4625 46,25
Viscosidad (A) 21 0.2625 26,25
Contaminación (E) 14 0.1750 17,50
Hermeticidad (D) 5 0.625 6,25
Peso por galón(C) 3 0.375 3,75
Total 80 100,00

Ejemplo 2: En una entrevista a una muestra de 20 Profesionales de Ciencias Económicas, en


la que respondieron pertenecer a los siguientes capítulos siendo los resultados siguientes: C
(Contabilidad) , A (Administradores) , E ( Economistas), obteniendo los siguiente resultados: A,
C,C, A, E, C,C, A, A,C, A, C, C,E, A, C, E, A, C, A

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 13


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

CUADRO Nº4: DISTRIBUCIÓN DE PROFESIONALES DE CIENCIAS ECONOMICAS


ENTREVISTADOS

PROFESION FRECUENCIAS FRECUENCIAS FRECUENCIA


ABSOLUTAS: fi RELATIVAS: hi PORCENTAJE Pi
Contabilidad (C) 9 0.45 45
Administradores( A) 8 0.40 40
Economistas(E) 3 0.15 15
TOTAL 20 1.00 100
Fuente: Hipotética

2.2. REPRESENTACION GRÁFICA DE DATOS


La representación gráfica de la distribución de frecuencias de variable cualitativa, se
representa comúnmente por medio de barras y de sectores circulares.

A.- GRÁFICA DE BARRAS


Los datos de cada una de las modalidades C i se representan por una barra rectangular
vertical (u horizontal) cuya altura (o largo) es proporcional a su frecuencia, las barras se
dibujan dejando un espacio entre ellas. Si la escala es nominal las categorías pueden ser
colocadas en cualquier orden, pero si el nivel es ordinal las categorías deben ir
ordenadas.

GRAFICO DE BARRAS
GRAFICO Nº 1: DISTRIBUCIÓN DE PROFESIONALES DE CIENCIAS ECONOMICAS
ENCUESTADOS

B.- GRAFICO CIRCULAR

GRÁFICO N°2 DISTRIBUCION DE PROFESIONALES DE CIENCIAS ECONOMICAS


ENCUESTADOS

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 14


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Ejemplo 3: La nacionalidad de los ponentes del IV Congreso Internacional de Administración,


realizado en Agosto del 2008, en la Universidad Nacional Pedro Ruiz Gallo fueron los
siguientes:
X1 = C X2 = B X3 = P X4 = E X5 = P
X6 = P X7 = V X 8 = C X9 = B X10 = P
X11 = P X12 = C X13 = E X14 = P X15 = B
X16 = P X17 = C X 18 = V X19 = P X20 = V
B= Bolivia C= Colombia E= Ecuatoriano P= Peruano V= Venezolano

CUADRO Nº 3: DISTRIBUCIÓN DE LOS PONENTES PARTICIPANTES EN EL IX COPEIQ


REALIZADO EN LA U.NP.R.G. SEGÚN NACIONALIDAD. AGOSTO 2003
hi
NACIONALIDAD fi
BOLIVIANOS 3 0.15
COLOMBIANOS 4 0.20
ECUATORIANOS 2 0.10
PERUANOS 8 0.40
VENEZOLANOS 3 0.15
C=5 n = 20 1.00

TABLAS DE FRECUENCIAS O DISTRIBUCIÓN DE FRECUENCIAS DE VARIABLES


CUANTITATIVAS

1) VARIABLE CUANTITATIVA DISCRETA.


Cuando se estudia una característica X de la población, el mayor interés del investigador es
conocer la distribución de esta característica a través de los posibles valores del mismo.

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 15


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Una distribución de frecuencias es un arreglo de los valores observados x 1 . . . xk de la


variable con sus respectivas frecuencias, en una tabla de la forma siguiente.
Frecuencias Frecuencias Frecuencias
Valor Frecuencias Absolutas Frecuencias Relativas Relativas
de Absolutas Acumuladas Relativas Acumuladas Porcentuales
X fi Fi hi Hi hi %
X1 f1 F1 h1 H1 h1 %
X2 f2 F2 h2 H2
. . . . . h2 %
. . . . . .
. . . . . .
XK fK FK = n hk Hk = 1 .
hk %

Total

Para construir una tabla de frecuencias de una variable discreta, también se puede construir
con intervalos siempre y cuando el rango de la variable sea muy amplio y se construyen los
intervalos tan igual que para la variable continua que se detalla en la siguiente parte con la
única diferencia de que se trabaja con los intervalos cerrados.

Ejemplo: En una población formada por 100 lotes de 50 artículos cada uno, se
consideró la variable cuantitativa discreta X= “Número de artículos defectuosos en
cada lote”. Los resultados fueron:
1 5 4 2 3 4 5 3 5 4 2 4 5 6 4 5 2 5 3 2
4 6 3 4 5 1 6 3 2 5 4 3 6 3 5 7 2 5 4 2
7 4 6 5 2 8 3 3 6 4 2 4 3 4 8 1 5 3 7 3
7 2 4 1 3 5 3 8 4 6 5 4 5 4 5 4 5 2 6 3
4 3 5 2 3 4 3 1 4 5 4 4 7 4 6 2 6 2 4 5

CUADRO Nº 4. DISTRIBUCIÓN DE 100 LOTES DE ACUERDO AL NÚMERO DE


ARTICULOS DEFECTUOSOS.
Frecuencia Frecuencia Frecuencia Frecuencia Frecuencia
Nº de Absoluta Absoluta Relativa Relativa Relativa
Artíc.Defec fi Acumulada hi porcentual Acumulada
Xi Fi hi% Hi
1 5 5 0.05 5 0.05
2 14 19 0.14 14 0.19
3 18 37 0.18 18 0.37
4 25 62 0.25 25 0.62
5 20 82 0.20 20 0.82
6 10 92 0.10 10 0.92
7 5 97 0.05 5 0.97
8 3 100 0.03 3 1.00
Total 100 1.00 100

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 16


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Gráfico N°3: GRÁFICO DE BASTONES DE LA DISTRIBUCIÓN DE 100 LOTES DE


ACUERDO AL NÚMERO DE ARTICULOS DEFECTUOSOS.

fi N° Familias h
26
24
22
20
18
16 - -
14 - -
12 - -
10 - -
8- -
6- -
4- -

2- -

0 1 2 3 4 5 6 7 8
X : Artículos Defectuoso

3) VARIABLE CUANTITATIVA CONTINUA.

DISTRIBUCIÓN DE FRECUENCIAS POR INTERVALOS


La distribución de frecuencia por intervalos o clases se usan cuando la variable estadística es
continua o cuando el número de valores distintos de una variable discreta es muy grande.
Para la distribución de frecuencias por intervalo se recomienda elegir no más de 20 intervalos
ni menos de 5, ya que muchos intervalos pueden implicar innecesariamente los cálculos de
las medidas descriptivas, y pocos intervalos podrían omitir características importantes de los
datos. En este curso se eligen intervalos de igual amplitud (A); pero en la realidad no
siempre se trabaja con intervalos de igual amplitud ya que muchas veces las instituciones
tienen estándares de trabajo como por ejemplo en salud y otras instituciones.
Para construir la distribución de frecuencias, se debe tener en cuenta los siguientes pasos:
1.- Determinar el Rango ( R ) de variación de los datos que se define por: R= Xmax - Xmin
Donde: Xmax= Es el dato mayor; Xmin= = Es el dato menor
2.- Determinar el número de intervalos ( K ); un valor aproximado del número de
intervalos, K, nos proporciona la Regla de Sturges, donde: K= 1+ 3.3 Log(n) ; n : n es el
número de datos
Redondeando al entero inmediato superior.
Por ejemplo si se tiene n = 45 datos sin decimales, entonces: K=1+3.3Log(45)=6.4556.
Luego, K podrá elegirse como 6,7,8 o cualquier número entero; también puede usarse K=
2.54
3.- Determinar la Amplitud ( A ) del intervalo se obtiene, dividiendo el Rango entre el

número de intervalos esto es: A =

Sí la división de A= no es exacta en el número de decimales de los datos, entonces el

valor de A se aproxima por exceso de manera que se cubra todo el rango, esto es: KA  R.

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 17


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Cada intervalo o clase Ii, lo tomamos cerrado por la izquierda y abierto por la derecha esto
es: Ii=[Li,Ui[, siendo Li el límite o extremo inferior y U i el límite o extremo superior del
intervalo. El último intervalo se tomará como extremos cerrados, esto es, I k= [Ik, Uk
Para construir la distribución de frecuencia de intervalos hay varios procedimientos.
De manera que KA R; Los intervalos se forman de la siguiente manera:
I1 = [Xmin, Xmin + A[
I2 = [Xmin, Xmin + 2A[
I3 = [Xmin, Xmin + 3A[
.
Ik = [Xmin, Xmin + KA]

Marca de Clase.- Es el punto medio del intervalo de clase. Se obtiene sumando los límites
inferior y superior de cada clase y dividiéndolo entre dos. Así la marca de clase del intervalo
50-54 será (50 + 54)/2 = 52. La marca es, en definitiva, el valor que representa a la
información contenida en el intervalo de clase.
Ejemplo. Los sueldos mensuales (en dólares) de 60 empleados de la Empresa CAMPOSOL
Trujillo en el año 2003 fueron los siguientes
440 560 335 587 613 400 424 466 565 393 574 480
453 650 407 376 470 560 320 500 528 526 500 625
570 475 618 537 409 600 550 432 591 428 462 507
440 340 558 460 560 607 382 669 512 492 380 645
450 530 501 471 660 470 364 634 580 450 518 382
Construir una tabla de distribución de frecuencias.
1.-Rango: R= Xmax - Xmin = 669 - 320 = 349
2.- Número de Intervalos: K = 1+ 3.3 Log(60) = 6.9; K = 7 intervalos

3.- Amplitud. A = 49.9  50

CUADRO N°5 DISTRIBUCION DE 60 EMPLEDOS DE LA EMPRESA CAMPOSOL SEGÚN


INGRESO (EN DOLARES) EN EL AÑO DE 2003
Frecuencia Frecuencia Frecuencia
  Valores que caen Conteo Frecuencia Absoluta Relativa Relativa
dentro del Intervalo Absoluta Acumulad Simple Acumulad
fi a Fi hi a
Hi
320- 320, 335, 340, 364 //// 4 4 0.07 0.07
370
376, 380, 382, 382,
370- 393, 400, 407, 409 //// /// 8 12 0.13 0.20
420
424, 428, 432, 440,
420- 440, 450, 450, 453, //// //// 11 23 0.18 0.38
470 460, 462, 466 /

470, 470, 471, 475,


470- 480, 492, 500, 500, //// //// 12 35 0.20 0.58
520 501, 507, 512, 518 //
526, 528, 530, 537,
520- 550, 558, 560, 560, //// //// 10 45 0.17 0.75
570 560, 565
570, 574, 580, 587,
570– 591, 600, 607, 613, //// //// 9 54 0.15 0.90
620 618

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 18


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

620- 625, 634, 645, 650,


670 660, 669 //// / 6 60 0.10 1.00
Total Total 1.00

Interpretación:

f2 :8 ; 8 empleados de la empresa CAMPOSOL de Trujillo tienen sueldo mayor o


igual que 370 pero menor que 420 dólares.

F3 : 35 ; 35 empleados de la empresa CAMPOSOL de Trujillo tienen sueldos


menores que 520 dólares.

h4 % : 20%; El 20% de los empleados de la Empresa CAMPOSOL de Trujillo tienen


sueldo mayor o igual que 470 pero menor que 520 dólares.

H5% : 0.75; El 75% de los empleados de la Empresa CAMPOSOL de Trujillo tienen


sueldos menores que 570 dólares.

GRAFICO PARA VARIABLES CUANTITATIVAS CONTINUAS.


Los gráficos más utilizados son: Histograma de frecuencias, Polígonos de frecuencia, Ojiva.

Histogramas. Es una representación gráfica de una distribución de frecuencias agrupadas en


intervalos de clase, mediante una serie de rectángulos contiguos que tienen:
a) Sus bases sobre un eje horizontal ( eje de las x) con centros en las marcas de clase y
longitud igual al tamaño de los intervalos de clase.
b) Las alturas proporcionales a la frecuencia ( Absoluta o relativa) tomados sobre el eje
de las Y, a veces conviene más graficar en el histograma las frecuencias relativas en
lugar de las frecuencias absolutas. En este caso, la altura correspondiente a cada
rectángulo que habrá que levantar sobre el eje de ordenadas será el cociente entre la
frecuencia relativa del mismo y la amplitud del intervalo. El único cuidado que debe
tenerse es que el área total del histograma sea igual a 1. Correspondiendo a la suma
total de áreas de cada rectángulo.

Ejemplo Nº 3: Del cuadro N°5 se tiene

GRAFICO N° 3: DISTRIBUCION DE 60 EMPLEDOS DE LA EMPRESA CAMPOSOL DE


12 fi SEGÚN INGRESO (EN DOLARES ) EN EL AÑO DE 2003
TRUJILLO
11
10
9
8
7
6
5
4
3
2
1
Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 19
320 370 420 470 520 570 620 670
Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Polígono de Frecuencias.- Son de dos tipos:


a) Si la variable es discreta, El polígono de frecuencias se obtiene uniendo los extremos
superiores de la barras.

b) Si la variable está agrupada en intervalo de clase, el polígono de frecuencia se obtiene


uniendo los puntos medios de las bases superiores de cada rectángulo.

GRAFICO N° 5 POLIGONO DE FRECUENCIAS DE LA DISTRIBUCION DE 60


EMPLEDOS DE LA EMPRESA CAMPOSOL DE TRUJILLO SEGÚN INGRESO
(EN DOLARES) EN EL AÑO 2003

12 fi
Polígono
11
10
9
8
7
6
5
4
3
2
1

320 370 420 470 520 570 620 670

Polígono de frecuencia acumulada u Ojivas


Esta representación es valida para variables estadísticas agrupadas en intervalos de clase.
En el eje de las abscisas representamos los distintos intervalos de clase que han de estar
naturalmente translapados. En el extremo superior de cada intervalo se levanta una vertical
con altura igual a la frecuencia (absoluta o relativa) acumulada, luego se unen los extremos
superiores de las verticales con segmentos rectilíneos. Así el polígono de frecuencias
acumuladas absolutas alcanzará su máxima altura en el último intervalo.

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 20


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Frecuencia Frecuencia
  Frecuencia. Absoluta. Absoluta
Absoluta Acumulada Acumulada
fi Menor Fi Mayor Fi
320- 370 4 4 60
370- 420 8 12 56
420- 470 11 23 48
470- 520 12 35 37
520- 570 10 45 25
570– 620 9 54 15
620- 670 6 60 6
Total Total

60 f
55 i Ojiva Menor f Ojiva Mayor
60
50 55 i
45 50
40 45
35 40
30 35
25 30
20 25
15 20
15
10
10
5 5
320 370 420 470 520 570 620 670 320 370 420 470 520 570 620 670
Ejemplo: La siguiente muestra corresponde a los puntajes obtenidos por 36 postulantes en
una prueba de administración. Dólares Dólares
50 53 90 55 93 60
53 80 85 95 75 45
75 58 90 95 47 46
50 43 44 70 53 70
43 54 49 60 52 54
50 58 80 49 52 70

Elabore una tabla de frecuencias


Resolución:
1. Cálculo del rango
Ls = 95 Li=43 R = L s – Li R = 95 – 43 R = 52.
2. Cálculo del número de intervalo de clase.
K= 1 + 3,32x Log n K= 1 + 3,32xLog36 K = 1+3,32 x 1,5563 K=6.
3. Cálculo de la amplitud interválica.
C = R =52 = 8,67 = 9 (se aproxima al entero superior)
K 6
4. Cálculo del número rango.
D = KC – R

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 21


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

D = 6 x 9 – 52 = 2
1 (Se le resta al li 43 -1 = 42)
D=2
1 (Se le suma al ls 95 +1 = 96)

Observación:
a) Si la diferencia es un número par, se reparte equitativamente entre el primero
y último dato.

2 Se le resta al primer dato.


D=4
2 Se le suma al último dato.

b) Si la diferencia es un número impar, se reparte en dos números consecutivas


al menor para el primer dato y el mayor para el último dato.
1 Se le resta al primer dato.
D=3
2 Se le suma al último dato.

2 Se le resta al primer dato.


D=5
3 Se le suma al último dato.
Frecuencia Frecuencia
  Frecuencia. Absoluta. Absoluta
Absoluta Acumulada Acumulada
fi Menor Fi Mayor Fi
42- 51 11 11 36
51- 60 10 21 25
60- 69 2 23 15
69- 78 5 28 13
78- 87 3 31 8
87– 96 5 36 5
Total 36

Ejercicios
2.1 Durante una semana, se ha medido diariamente el contenido de humedad correspondiente
a 24 paquetes de un determinado producto alimenticio, tomados al azar a la salida de una
línea de envasado. Los resultados obtenidos son:
Lunes 8.20 8.05 8.53 8.48 8.15 8.79 Jueves 8.97 9.21 8.86 8.76 9.55 9.38
8.36 8.76 8.64 8.34 8.15 8.91 9.02 9.53 8.75 9.21 9.50 9.58
8.37 8.51 8.83 8.51 8.68 8.32 9.61 9.28 9.64 8.76 9.48 9.09
8.52 8.18 8.35 8.08 8.79 8.49 9.15 9.28 9.05 9.40 9.58 9.46
Martes 8.61 9.30 8.59 8.32 9.08 8.43 Viernes 8.46 8.17 8.97 8.64 8.40 8.17
9.14 8.58 8.66 8.33 9.13 8.66 8.00 8.60 8.20 8.81 8.60 8.11
8.52 8.81 8.70 8.41 8.69 9.17 8.32 8.48 8.33 8.73 8.47 8.05

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 22


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

9.20 8.68 9.08 9.07 8.46 8.56 8.91 8.65 8.26 8.73 8.10 8.89
Miércol 9.43 9.28 9.59 8.86 9.19 9.22
8.85 9.14 9.15 9.28 9.12 8.85
8.66 9.41 8.75 8.50 9.20 8.56
8.89 9.34 9.18 9.19 8.80 9.46

Elaborar una tabla de frecuencias, histograma de frecuencias, polígonos de frecuencias y


ojivas menor y mayor.
Interpretar: f2 , F3, h 4 %, H5 %.

ANÁLISIS EXPLORATORIO DE DATOS

El análisis exploratorio de datos consiste en un conjunto de técnicas estadísticas y sus


gráficos, que permiten visualizar la información bajo estudio. Corresponde a una técnica de
análisis rápido, que utiliza estadígrafos descriptivos que han debido ser agrupados en una
estructura resumen.

Diagrama de Hojas y Tallos


John Tukey, Célebre estadístico, ideo el diseño de “Tallo y Hoja” como alternativa al
histograma. Al igual que otras medidas descriptivas, el diseño de “Tallo y Hoja” proporciona
una impresión visual rápida del número de observaciones de una clase.
Cada observación del conjunto de datos se divide en dos partes: Un Tallo y Una Hoja.
Auque hay basta flexibilidad en cuanto al procedimiento que pueda seguirse, a menudo es
conveniente considerar todos los dígitos de una observación menos el último como el tallo.
Entonces el último dígito se considera como la hoja. Para realizar este tipo de gráficos primero
se ordenan los datos de menor a mayor.

Ejemplo Nº 1: Dado los siguientes datos: 68 , 71 , 77 , 83 , y 79, sobre el número de Jabas


con espárragos recibidas de diferentes proveedores. Construya un gráfico de Tallo y Hoja.

Tallo Hoja
6 8
7 1 7 9
8 3

Ejemplo Nº2Consideremos el Nº de llamadas telefónicas recibidas en la Facultad


de Ingeniería Química e Industrias Alimentarias durante 30 días consecutivos.
64 62 57 54 47 67 58 51 72 45
51 83 51 74 59 53 78 45 69 64
58 54 42 62 51 45 69 51 78 67

Tallo Hojas

4 75525
5 748111938411
6 42794297

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 23


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

7 2488
8 3

VENTAJAS DE LOS DIAGRAMAS DE HOJAS Y TALLOS.


1.- Los diagramas de tallos y hojas conservan los datos originales, por lo que es fácil identificar
algún dato particular si lo quisiéramos.
2.- Es flexible en cuanto a poder incluir datos extremos sin perder el grado de detalles en el
resto de los datos.
3.- Permiten percibir características de los datos que a veces los intervalos cubren.
4.- No necesita algún gráfico adicional para percibir la forma de la distribución.

DESVENTAJAS.
No es una representación práctica para volúmenes grandes de datos.

Ejercicio: Elabore un gráfico de Hojas y Tallos con los siguientes datos de las medidas de
tubos de cemento que a continuación se presentan.

68 72 50 70 65 83 77 78 80 93
71 74 60 84 72 84 73 81 84 92
77 57 70 59 85 74 78 79 91 102
83 67 66 75 79 82 93 90 101 80
79 69 76 94 71 97 95 83 86 69

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 24


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

CAPITULO IV

MEDIDAS DE POSICION.

MEDIDAS DE TENDENCIA CENTRAL


Son indicadores o “Valores numéricos ” que representan o describe la posición o tendencia de
todo un conjunto de datos estadísticos, sirve como una base para medir y evaluar valores
anormalmente altos o anormalmente bajos ( o valores extremos).
Las medidas de tendencia central más conocidas o importantes son: La Media Aritmética,
Mediana, Moda, Media Geométrica y la Media Armónica. etc.

I.- MEDIA ARITMÉTICA ( ). Es una medida de Tendencia Central más utilizada en


estadística, también se le conoce como el promedio de las observaciones u es el cociente
que resulta de dividir la suma de los valores de los datos entre el número de los mismos.
Para calcular la media aritmética se debe tener en cuenta dos casos.
A) Cuando los datos no se encuentran Tabulados
B) Cuando los datos se encuentran tabulados

a) Media Aritmética de datos no Tabulados

Sea x1, x2 , . . . , xn , valores de la variable X. La media aritmética simple de x


representada por es dado por:
Suma de Valores

( ) = =
Número de valores

Donde n es el tamaño de la muestra o número de elementos del conjunto de


observaciones.

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 25


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Ejemplo. 1: Encuentre la media aritmética del peso (g) de 5 mangos seleccionados al


azar para su control del peso que a continuación se presentan: 250, 300, 350 ,250 ,
280.

Solución: Sustituyendo las observaciones en la fórmula se tiene:

= =

Interpretación: El peso promedio de los 5 magos es de 286 gramos .

Ejemplo. 2: Encuentre la media aritmética de las edades de 5 estudiantes de la Maestría


en Administración de la UNPRG que a continuación se detalla: 25, 28, 30 ,31 , 29.
Solución: Sustituyendo las observaciones en la fórmula se tiene:

= = = 143/5 = 28.6

Interpretación: La edad promedio de los 5 estudiantes de titulación es de 29 años.

Ejemplo.-3: A continuación de presenta los resultados de una encuesta realizada a 45


obreros de empresa Pirámide de Chiclayo Abril 2008, sobre sus ingresos en dólares.

63 89 36 49 56 64 59 35 78
43 53 70 57 62 43 68 62 26
64 72 52 51 62 60 71 61 55
59 60 67 57 67 61 67 51 81
53 64 76 44 73 56 62 63 60

Calcular el ingreso promedio de los encuestados.

= = =

Interpretación: El ingreso promedio de los 45 obreros de la Empresa Pirámide


encuestados es de $ 59.6

b).Media Aritmética de datos Tabulados o Agrupados. Para calcular la media


aritmética para datos tabulados se debe tener en cuenta el tipo de dato cuantitativo
que puede ser: discreto o continuo.

b1) Media para datos tabulados de variable discreta.


Sean: x1, x2 , . . . , xk , valores de la variable estadística discreta X, con frecuencias
absolutas respectivas f1, f2 , . . . , fk, entonces la media aritmética es el valor:

1) = = = ó

2) = ; Donde h1 , h2 … hk son las frecuencias relativas respectivas.

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 26


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Ejemplo. Calcular el promedio de 100 artículos defectuosos que se presentan en la


siguiente tabla.

CUADRO Nº 4. DISTRIBUCIÓN DE 100 LOTES DE ACUERDO AL NÚMERO DE


ARTICULOS DEFECTUOSOS.
Xi * fi
Nº de fi
Artíc.Defec
Xi
1 5 5
2 14 28
3 18 54
4 25 100
5 20 100
6 10 60
7 5 35
8 3 24
Total 100 406

= =

= = 4.06: Interpretación: El promedio de artículos defectuosos por lote es de 4

b2) Media para datos tabulados por Intervalos.


Si n valores de alguna variable X (discreta o continua) están tabulados en una
distribución de frecuencias de k intervalos, donde y 1 , y2 , . . . yk son las marcas de
cada clase, y f1, f2, …, fk son las frecuencias absolutas respectivamente, entonces, su
media aritmética es igual a:

Ejemplo: Calcular la media aritmética de los sueldos de los empleados de la Empresa


CAMPOSOL de Trujillo (datos tabulados)

CUADRO N°7 DISTRIBUCION DE 60 EMPLEDOS DE LA EMPRESA CAMPOSOL DE


TRUJILLO SEGÚN INGRESO (EN DOLARES) EN EL AÑO 2003

  yi fi fi*yi
320 - 370 345 4 1380
370 - 420 395 8 3160
420 - 470 445 11 4895
470 - 520 495 12 5940
520 - 570 545 10 5450
570 - 620 595 9 5355
620 - 670 645 6 3870
Total 60 30050
Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 27
Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Cálculo de la media Aritmética de los sueldos de los empleados

= = = 30050 / 60 = 500.83

Interpretación : El sueldo promedio de los empleados de la Empresa CAMPOSOL de


Trujillo fue de 500.83 dólares.

II.- MODA(MO). Es el valor que con mayor frecuencia se presenta o se repite en un conjunto
de datos. La moda no siempre existe y no siempre es única.
Para calcular la moda se tiene en cuenta dos casos:

a) Para datos no agrupados.


Ejemplo1: Considere los pesos (en kilos) de 10 estudiantes de la carrera profesional
de administración
63, 78, 82, 85, 65, 72, 71, 81, 67, 83.
Respuesta En los 10 datos de los pesos de los estudiantes no existe moda.

Ejemplo 2: Considere la distribución de los pesos de 15 estudiantes de la Escuela la


carrera profesional de economía:
68, 75, 74, 70, 82, 75, 72, 75, 81, 83, 75, 69, 63, 67, 75
Respuesta: La moda es 75, por que es el valor que más se repite.

Ejemplo 3: Considere la distribución del número de hijos por familia.


0, 1, 2, 3, 4, 5, 1, 2, 3, 3, 4, 2, 3, 2
Respuesta: El valor 2 y 3 ocurren 4 veces.

En este caso las distribución se llamará bimodal.


En general, se tiene lo siguiente:
1) La distribución que tiene una sola moda se llama unimodal
2) La distribución que tiene dos modas se llama bimodal
3) La distribución que tiene más de dos modas se llama multimodal.

b) Para Datos Agrupados. Para calcular la moda en datos agrupados se calcula con la
siguiente fórmula

M0= Lj+ A

 fj : Es la mayor frecuencia absoluta o repetición ( fi )


 fj-1 : Frecuencia absoluta inmediata anterior a fj
 fj+1: Frecuencia absoluta inmediata posterior a fj.
 Li : Extremo inferior del intervalo modal.
 A : amplitud

CUADRO N° 8: DISTRIBUCION DE 60 EMPLEDOS DE LA EMPRESA CAMPOSOL DE


TRUJILLO SEGÚN INGRESO (EN DÓLARES)
AÑO 2008

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 28


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

  yi fi
J=1 320 - 370 345 4
J=2 370 - 420 395 8
J=3 420 - 470 445 11fj-1 Mo
J=4 470 - 520 495 12 fj
J=5 520 - 570 545 10 fj+1
J=6 570 - 620 595 9
J=7 620 - 670 645 6
Total 60
Calculo de la Moda:

M0= Lj+ A = 470 + 50 = 470 + 50 = 494

Mo = 494

Interpretación: El valor más frecuente de los sueldos de los empleados de la Empresa


CAMPOSOL de Trujillo en el año 2008 fue de 494 Dólares.

Ejercicio: Determinar la moda de la siguiente distribución:


Intervalos Fi
0, 1 3
 1, 2  10
 2, 3  17
3 4 8
4, 5  5
Total 43

III.- MEDIANA (Me). Es un valor que divide a un conjunto de observaciones ordenadas en


forma ascendente o descendente en dos grupos de igual número de observaciones.
La mediana es un valor posicional (en comparación con la Media Aritmética), se ve menos
afectada por valores extremos dentro del grupo que la media. Esta propiedad de la
mediana la convierte en algunos casos, en una útil medida de tendencia central.
Se calcula básicamente en 2 formas.

1.- Mediana de datos no tabulados.


Para calcular la mediana de datos no tabulados existen dos casos.
a) Cuando la variable en estudio es discreta y n (número de
observaciones) es impar.
En este caso, la mediana será el valor de la variable ordenada ya sea en forma
ascendente o descendente que ocupa la posición media (rango de orden es
(n+1)/2) o también se puede expresar como X(n+1)/2 central.

Ejemplo: Supongamos que el número de casos de cierta molestia en los meses de


Julio de los últimos 7 años fueron: 52, 41 , 37 , 82, 24, 63, 68: (n=7).

Solución:
Ordenando estos valores de acuerdo a su magnitud se:
1ero 2do. 3ero 4to 5to 6to 7mo

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 29


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

24 , 37 , 41 52 , 63 , 68, 82 .
50 %  50 %
mediana
Como n = 7 entonces.

El valor que ocupa la mediana es : ( n + 1)/2 = ( 7 + 1 )/2 = 4to. lugar; luego la


mediana es el valor que ocupa el 4to dato ordenado que divide a la serie en 2
grupos de 3 datos cada uno. siendo este: Me = 52

Interpretación: El 50% de los casos de molestia durante los últimos 7 años en el


mes de julio son menores que 52 casos y el 50% restante de los casos de molestia
son mayores que 52 casos.

b) Cuando la variable en estudio es discreta y n (número de observaciones)


es par.
En este caso, no existe en la ordenación un valor de la variable que ocupe la
posición central, esto es, la mediana es indeterminada, pues cualquier valor

comprendido entre los valores que ocupen la posición y , considerado

como el centro de la de la ordenación.


El problema es resuelto tomando la media aritmética de los valores ordenados que

ocupan las posiciones y , esto es:

Me

Ejemplo:
Considere las observaciones muestrales.
24 , 41 , 63 , 24 , 68 , 82, 37
Ordenando estos valores en orden creciente tenemos.
1er 2do 3ero 4to 5to 6to
24 , 37, 41 , 63 , 68, 82

valores ordenados que ocupan las posiciones y , esto es:

= 6/2 = 3ero y = ( 6/2 + 1) = 4to.

La mediana en este caso es el valor entre 41 y 63 , el cual es

Me =

Interpretación: El 50% de las observaciones muestrales son menores que 52 y el


50% restantes son mayores que 52.

Ejercicios: Dada las siguientes distribuciones: Calcular sus medianas respectivas.


a) b)
xi fi xi fi
1 1 82 5
2 3 85 10
3 5 87 15
4 2 89 8
Total 11 90 4
Total 42
Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 30
Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

B) Mediana de datos tabulados. Para calcular la mediana para datos agrupados


se calcula con la siguiente formula.

Me = Lj + A

n = número total de datos.


Fj =Es una Fi inmediata superior a n/2
Fj-1 = Es una Fi inmediata inferior a n/2
Li = Extremo inferior al intervalo mediano ( IME)
IME= Es el intervalo que corresponde a Fj.
A= amplitud del intervalo mediano.

CUADRO N° 9: DISTRIBUCION DE 60 EMPLEDOS DE LA EMPRESA CAMPOSOL DE


TRUJILLO SEGÚN INGRESO (EN DOLARES) EN EL AÑO DE 2003

  yi fi Fi
J=1 320 - 370 345 4 4
J=2 370 - 420 395 8 12
J=3 420 - 470 445 11 23 Fj-1
J=4 470 - 520 495 12 fj 35 Fj Me
J=5 520 - 570 545 10 45 Fj+1
J=6 570 - 620 595 9 54
J=7 620 - 670 645 6 60
Total 60
Me = Lj + A = 470 + 50 = 470 + 50 = 470 + 29.17

Me = 499.17.

Interpretación: El 50% de los empleados de la Empresa CAMPOSOL de Trujillo


tienen sueldos menores que 499.17 y el 50% restante de los empleados tienen
sueldos mayores que 499.17 soles

RELACION ENTRE LA MEDIA MEDIANA Y MODA

1.- Si la distribución de frecuencias es simétrica, entonces, la media, la mediana y la moda


tienen el mismo valor, esto es = Me = Mo ( Figura Nº 01).

2.- Si la distribución es asimétrica de cola a la derecha, entonces, la moda es menor que la


mediana y esta a su vez es menor que la media ( Figura Nº02); esto es
Mo  Me 

3.- Si la distribución es asimétrica de cola a la izquierda, entonces, la relación es ( figura Nº 03)


Me  Mo

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 31


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

= Me = Mo Mo Me MeMo

Cuartil ( Qi ).- Son medidas de posición que divide en cuatro partes iguales a un conjunto de
observaciones o datos ordenados, o una distribución de frecuencias. Se denota con la letra
“Q”.
La primera cuarta parte o el 25% de una distribución, recibe el nombre de primer cuartil (Q1).
La segunda cuarta parte o el 50% de una distribución, recibe el nombre de segundo cuartil
(Q2).
La tercera cuarta parte o el 75% de una distribución, recibe el nombre de tercel cuartil (Q3).

Li . ......1/4 ....... 2/4 ............3/4 ................ Ls

25% ………… 50% .......... 75% ...........


Q1 Q2 Q3
Para calcular los cuartiles de datos agrupados se tiene en cuenta la siguiente fórmula:

Q1 = Lj + A ; Q2 = Lj + A ; Q3 = Lj + A

PERCENTILES.
Los percentiles se encargan de dividir a una distribución de frecuencias en 100 partes iguales y
cada punto determina el1% del total de datos. Su notación es “P”.

Li 1/100 2/100 3/100 4/100 5/100 . . . . 99/100 ... LS

1% 2% 3% 4% 5% … .. . .... 99%
P1 P2 P3 P4 P5 ... ......... P99

Para calcular los percentiles se utiliza la siguiente fórmula

Pk = Lj + A

OTRAS MEDIAS.

MEDIA GEOMÉTRICA.- La media geométrica de n valores positivos X1 , X2....., Xn es el valor


que se define como la raíz enésima del producto del producto de estos n valores. Esto es,

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 32


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

MEDIA ARMÓNICA.- La media armónica de n valores no nulos X1 , X2....., Xn es el número,


H que se define como el recíproco de la media aritmética de los recíprocos de esos n valores.

Esta medida se calcula de la siguientes manera.

H =

La media armónica se utiliza mayormente en velocidades

CAPITULO V

MEDIDADAS DE VARIABILIDAD O DISPERSION.


Las medidas de variabilidad o dispersión, son aquellas que miden el grado de dispersión o
concentración de los valores de datos, alrededor de alguna de las medidas de tendencia
central.
Entre las medidas de dispersión más utilizadas se tiene:

1) RECORRIDO O RANGO (R). El recorrido de una variable estadística es simplemente la


diferencia entre su valor máximo y su valor mínimo y e denota por: R= máx (x)- mín (x)
La utilización del rango como medida de dispersión es muy limitado, si bien brinda una
primera idea acerca de la heterogeneidad de los datos, tiene el inconveniente que sólo
toma en cuanta los valores extremos descuidando El conjunto de los valores intermedios.

Ejemplo: a continuación se presentan un conjunto de datos de las edades de 10 alumnos


del Diplomado de Supervisión y Control en la Industria Alimentaria.
27, 29, 24, 28, 26, 27, 28, 29, 27, 25
El rango de los datos es:
R = 29 - 24 = 5 años

2) VARIANZA.- Es la media aritmética de los cuadrados de las desviaciones respecto a la


media aritmética.
Desde un punto de vista práctico, es un valor muy engorros de interpretación, por que las
unidades asignadas a ella son cuadrados, tales edades 2, soles2, dólares2, libras2 etc. Para
convertir esta medida de variabilidad en unidades originales, podemos tomar la raíz
cuadrada de s2 .
Se calcula de dos formas:

a) Calculo de la Varianza para datos no Agrupados.

a1).- V(x)= S2 =

a2).- Método Corto V(X)= S2 =

Ejercicio. Observado las edades en años de un grupo de 4 niños atendidos en el


Hospital Belén de Lambayeque: 1, 3, 5, 7. Calcular la Varianza.

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 33


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Solución:

= = =4

S2 = = = S 2= 5

Solución por el método corto.

V(X)= S2 = =

S2 = 1/4(84) - 16 = 21 - 16 = 5
S2 = 5

b) Calculo de la Varianza para datos Agrupados

c) V(X) = S2 =

Ejemplo: Calcular la varianza de los sueldos de los empleados de la Empresa


CAMPOSOL de Trujillo que a continuación se dan en la siguiente tabla.

CUADRO N°10: DISTRIBUCION DE 60 EMPLEDOS DE LA EMPRESA CAMPOSOL DE


TRUJIILLO SEGÚN INGRESO (EN DOLARES) EN EL AÑO DE 2008
  yi fi Fiyi yi- (yi-y)2 fi*(yi-y)2
320 - 370 345 4 1380 -155,83 24284,03 97136,11
370 - 420 395 8 3160 -105,83 11200,69 89605,56
420 - 470 445 11 4895 -55,83 3117,36 34290,97
470 - 520 495 12 5940 -5,83 34,03 408,33
520 - 570 545 10 5450 44,17 1950,69 19506,94
570 - 620 595 9 5355 94,17 8867,36 79806,25
620 - 670 645 6 3870 144,17 20784,03 124704,17
Total 60 30050 445458,33

Solución: Para calcular la varianza se debe seguir los siguientes pasos.

1.-Cálculo la media aritmética :

= = = 30050 / 60 = 500.83

2.- Cálculo la Varianza.

S2 =

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 34


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

S2 = = =

7424.31

Calculo de la Varianza Mediante el Método Corto

V(X) = S2 =

Ejemplo: Del mismo ejemplo anterior calcular la Varianza mediante el uso del
método corto.
  yi fi yi*fi * fi
320 - 370 345 4 1380 476100
370 - 420 395 8 3160 1248200
420 - 470 445 11 4895 2178275
470 - 520 495 12 5940 2940300
520 - 570 545 10 5450 2970250
570 - 620 595 9 5355 3186225
620 - 670 645 6 3870 2496150
Total 60 30050 15495500
Para calcular la varianza mediante el método corto se sigue los siguiente pasos:
1.- Calculo la media aritmética.

= = = 30050 / 60 = 500.83

2.- Calculo de la varianza.

V(X) = S2 = = =

S2 = 258258.33-250830.69 = 7427.64

4) DESVIACIÓN ESTANDAR.- Es un indicador que nos determina el grado de normalidad de


la distribución de los datos muéstrales alrededor de la media aritmética, dentro de sus
valores extremos mínimo y máximo.
La desviación estándar o típica se define como la raíz cuadrada de la varianza.

A.- Datos no Agrupados.

S= ó S=

Ejercicio. Observado las edades en años de un grupo de 4 niños atendidos en El


Hospital Belén de Lambayeque: 1, 3, 5, 7. Calcular la desviación estándar.

S= = =

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 35


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

S= = 2.2360
Interpretación: La variabilidad de las edades de los niños atendidos en el Hospital
de Belén de Lambayeque es de 2.24 años.

B) Datos Agrupados

S= = ó V(X) = S2 =

Ejemplo: Del ejemplo de los sueldos de la Empresa CAMPOSOL DE Trujillo calcular


la desviación estándar.

S= = 86.16
Interpretación: La variabilidad de los sueldos con respecto a la media de los
empleados de la Empresa CAMPOSOL de Trujillo es de 86.16 dólares.

5) COEFICIENTE DE VARIACION.- Es una medida de variabilidad que indica el grado de


homogeneidad de la distribución. Se considera que si el C.V. es menor que el 33% la
distribución es homogénea, caso contrario es heterogénea . Se calcula de la siguiente
manera

C.V = X100

Ejemplo: Calcular el Coeficiente de Variación de los sueldos de los empleados de la Empresa


CAMPOSOL de Trujillo.

C.V = = x100 = 17%

Interpretación: La distribución de los sueldos de los empleados de la Empresa CAMPOSOL


de Trujillo es homogénea por tener un coeficiente de variación menor que el 33 %

Ejercicio de Aplicación. En una serie de mediciones de la temperatura de un cuerpo


realizadas con el termómetro A, tiene media 12.01 y desviación estándar, 0.027; mientras que
con otro termómetro B, la media de las mediciones fue 11.97 y la desviación estándar, 0.014.
Suponiendo que la persona que opera los instrumentos no introduce sesgo alguno en las
mediciones, ¿ Cuál es el termómetro relativamente más consistente?

Solución. El termómetro más consistente es el que tiene menor coeficiente de variación.

Termómetro A: CV = = = 0.0022 = 0.22%

Termómetro B: CV = = = 0.0012= 0.12%

Interpretación:
El coeficiente de variación del termómetro A es 0.0022 ( 0.22%), mientras que para el
termómetro B este coeficiente es 0.0012 ( 0.12%), por lo tanto el termómetro B es más
consistente.

PRUEBA DE NORMALIDAD DE UNA DISTRIBUCION


Las pruebaas para considerar “normal” una distribución son la asimetría y curtosis.
Asimetria:

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 36


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

En una curva normal, la media, mediana, y moda coinciden, AS= 0


Si la distribución es sesgada a la izquierda la asimetría es negativa, si es sesgada a la derecha
la asimetría es positiva. El índice de asimetría dado por PEARSON es.

Asimetria: As =

Si AS = 0: La distribución es simétrica (Fig. A)


Si As > 0: La distribución es Asimétrica Positiva (Fig. B)
Si As < 0: La distribución es Asimétrica Negativa (Fig. C)

= Me = Mo Mo Me MeMo


FIG: A FIG: B FIG. C

CURTOSIS: La curtosis se refiere a la altura de la distribución; si una distribución es más


apuntada de lo normal, es Leptocurtica, en caso contrario es Platicurtica”, el término medio
es la Mesocurtica” o normal

K=

Si K tiende a 0.25. la distribución es normal. ( Mesocurtica)


Si K tiende a 0.5, la distribución es (leptocurtica)
Si K tiende a 0 la distribución es (platicurtica)

DIAGRAMA O GRAFICO DE CAJAS (BOXPLOT)

Este tipo de gráfico es una representación simple de la información obtenida que nos permite
conocer:
 La localización del centro de los datos( con la mediana).
 La dispersión. ( con el rango intercuartil P75- P25).
 La Simetría ( Observando la posición de la mediana)
 La extensión de los extremos( Con los segmentos que parten de los lados
laterales.
 La existencia de los valores aberrantes ( datos outliers en el idioma ingles que
puede ser dato incorrecto introducido al computador, puede ser una observación diferente
de la población de la cual viene el resto de las observaciones etc.)

La caja se construye graficando un rectángulo cuyos límites son los cuartiles inferior (percentil
25) y superior ( percentil 75), marcando la mediana con una línea horizontal. Desde la caja se
dibujan los bigotes cuyos extremos son los límites inferior y superior. Por fuera de los límites se
dibujan los puntos que representan a los valores aberrantes, fuera del contexto o “outliers”.

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 37


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

GRAFICO DE CAJAS ( Box Plots)

L Q1 Me= Q2 Q3 U

Donde:

Q1= P25, Q2=P50, Q3= P50, son los cuartiles o percentiles respectivamente. En el rectángulo se
indica la mediana, con un segmento vertical resaltado. De los datos que representan a los
percentiles 25 y 75 parten, respectivamente, un segmento hasta el valor L=P25 – 1.5d, en
donde d es el rango intercuartil y un segmento hasta el valor U=P75+1.5d.

PASOS PARA LA CONSTRUCCIÓN DE UN GRAFICO DE CAJAS

1.- Ordenar los datos ya sea en forma ascendente o descendente.


2.- Calculo de la Mediana (N).- Si existen n observaciones, el cálculo de la mediana
corresponde al valor n/2 que crece según regla anterior
3.- Cuartiles ( Qi ). El rango de un cuartil corresponde a n/4.
4.- Extremos ( L, U ). La observación menor y la mayor. Corresponde a cada extremo de los
números ordenados.
5.- Rango ( R ) o dispersión: Número mayor menos al menor . Es un valor muy afectado por la
presencia de los valores extremos
6.- Diferencia Intercuartil. ( dQ ). Es la distancia entre los cuartiles. Es un valor robusto
extremadamente resistente a los valores extremos.
7.- Limites ( Cercas ) y Valores Aberrantes o “Outliers”
Limite Superior = Cuartil Superior + 1.5 dQ
Limite Inferior = Cuartil inferior – 1.5 dQ
Los valores alejados de los límites deben ser considerados aberrantes y han de ser
examinados con una atención especial. Es importante detectar estos valores ya que dentro
del análisis estadístico pueden tener un impacto importante sobre resultados y sus
conclusiones.
Ejemplo: La siguiente figura un gráfico de cajas correspondiente a 58 notas de los alumnos
de un curso de Química.
2 8 9 12 18
* *
19

0 20

Se observa que el “centro” de los datos es 9 ( la mediana ). El percentil 25 es 8, el percentil


75 es 12. El rango intercuartil es 4. Las notas 19 y 20 son datos discordantes o outliers.

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 38


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Ejemplo: Se obtuvieron los siguientes datos del nivel de glucosa en sangre medidos a 50
pacientes diabéticos. Los datos están en milimoles por litro.

2.6 2.5 1.3 2.4 2.0 3.0 2.4 2.3 2.6 3.0
3.2 4.4 3.6 4.3 3.7 4.3 3.7 5.0 3.8 4.4
3.7 5.0 3.8 4.4 4.4 4.5 5.0 6.2 6.3 6.2
7.0 8.0 9.5 7.9 9.0 10.2 11.1 8.7 12.5 15.0
14.9 10.0 10.2 17.5 6.0 8.8 12.5 12.5 14.0 6.3

a) Elaborar un gráfico de caja.

CAPITULO VI

PROBALIDADES

Como es de nuestro conocimiento, la estadística es arte y ciencia que se rige por leyes y
métodos para la toma de decisiones frente a la incertidumbre y como tal, se basa en la teoría
de probabilidad.

PROBABILIDAD.- Es la medida de la incertidumbre y de los riesgos asociados con ella. Por


ello, el estudiante antes que aprender procedimientos estadísticos para tomar decisiones,
debe tener un concepto claro de la teoría de probabilidad.

EXPERIMENTO ALEATORIO.- Es todo proceso que consiste de la ejecución de un acto (a


prueba) una o más veces, cuyo resultado en cada prueba depende del azar y en consecuencia
no se puede predecir con certeza.

Ejemplo:
1) Lanzar un dado y observar su resultado.
2) Contar objetos defectuosos producidos diariamente por ciertos procesos.
3) Aplicar una encuesta para obtener opiniones.
4) Resultado del examen final en el curso de administración por parte de un estudiante.

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 39


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

ESPACIO MUESTRAL.- Es el conjunto de todos los resultados posibles de un experimento


aleatorio, se denota por .
A cada elemento del espacio muestral se denomina punto muestral. El espacio muestral se
describe por:

= w/w es un punto el resultado de la realización de un fenómeno aleatorio

Ejemplo:
1) Lanzar un dado y observar el resultado que aparece en la cara superior.
1 = 1, 2, 3, 4, 5, 6

2) Lanzar una moneda 3 veces.


2= ccc, css, csc, scc, ssc, scs, css, sss; resultado de tres pruebas también se pueden
desarrollar mediante el diagrama del Arbol.

Puntos
muestrales
3era prueba
2da prueba c ccc

ccs
1era Prueba c s
c csc
c
s css
s
c scc
c
s s scs

c ssc
s
s sss
3) El experimento aleatorio consiste en lanzar una moneda y un dado a la vez, y observar los
resultados.
El espacio muestral es:
3= 1c, 2c, 3c, 4c, 5c, 6c, 1s, 2s, 3s, 4s, 5s, 6s,

4) Si el exponente aleatorio consiste en lanzar una moneda tantas veces como sea necesario
hasta que aparezca la primera cara, su espacio muestral es el conjunto
4= c, sc, ssc, sssc,… , etc

5) Si el experimento aleatorio es medir la vida útil (en heras) de una marca de artefactos
electrónicos, su espacio muestral es el conjunto.
Si el exponente aleatorio consiste en lanzar una moneda tantas veces como sea necesario
hasta que aparezca la primera cara, su espacio muestral es el conjunto
5 = t = R/t 0  R=#s reales

CLASIFICACION DE LOS ESPACIOS MUESTRALES


Por el número de elementos o puntos, muestrales se clasifican en:

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 40


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

1.- DISCRETOS FINITOS. Consisten de un número finito de elementos, por ejemplo: los
espacios. 1, 2 y 3.
2.- DISCRETOS INFINITOS. Consiste de un número infinito numerable de elementos,
ejemplo el espacio 4.
3.- CONTINUOS. Consiste de un número infinito no numerable de elementos, ejemplo: el
espacio 5.
SUCESOS O EVENTOS.- Se llama suceso o evento a todo conjunto del espacio muestral. A los
sucesos se les denota con las primeras letras mayúsculas del alfabeto A, B ,C.

Ejemplo:
Sea el experimento aleatorio:”selección de un alumno de acuerdo a su rendimiento
académico”. El espacio muestral es:
= {Sobresaliente, Bueno, Regular, Malo}.

Los elementos son:


Evento A= {Sobresaliente}
Evento B= {Bueno}
Evento C= {Regular}
Evento D= {Malo}

Ejemplo:
Sea el experimento lanzar un dado y observar el número que aparece en la cara superior.
= {1, 2, 3, 4, 5, 6}.
Los eventos pueden ser:
i) Observar un número impar: A = {1, 3,5}
ii) Observar un número < que 4: B = {1, 2, 3 }

CLASES DE EVENTOS:

1) EVENTO IMPOSIBLE:(), que no tiene puntos muestrales, en consecuencia no ocurre


nunca.
2) EVENTO UNITARIOS O ELEMENTALES, {wi}, que contienen un solo punto muestral.
3) EVENTOS COMPUESTOS, que consisten de dos o más cuentas.
4) EVENTO SEGURO O CIERTO,(), Es el mismo espacio muestral, ya que es le subconjunto
que contienen a todos los eventos elementos

PROBABILIDAD DE UN EVENTO.
Sea  un espacio muestral asociado a un experimento aleatorio. La probabilidad de cualquier
evento A de , es el numero real P(A) que satisface los siguientes axiomas.

1) P(A) 0, para todo evento A.


2) P() = 1
3) Si A y B son dos eventos mutuamente excluyentes, entonces: P(AUB)= P(A) + (PB)
4) P(A1 U A2 U…UAK)=P(A1) + P(A2) + ... + P(AK)
5) Si A y B son dos eventos cualquiera no excluyentes entonces:P(AUB)=P(A)+(PB) – (A B).

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 41


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

TEOREMA: si  es el evento imposible, entonces P()=0


Si Ac es el evento complementario del evento A  P(A) = 1 – P(Ac).
En el siguiente gráfico se puede apreciar que el espacio muestral y la probabilidad resulta de
relacionar el espacio muestral con el suceso.

EXPERIMENTO Espacio Suceso


ALEATORIO muestral
()
(A)

P(A)=

Ejemplo:
En una sección del curso de estadística asisten 20 alumnos con chompa y 30 sin chompa, se
selecciona por sorteo un alumno de dicha sección, halle la probabilidad de que dicho alumno
está con chompa.

Solución:
El espacio muestral  tiene 50 elementos, por tanto n() =50.
Sea el suceso:
A = Seleccione un alumno con chompa n(A)=20
Luego, la probabilidad del suceso A es:

P(A) =  P(A) =0.40: 40%

Ejemplo:
Se lanza una moneda tres veces, determinar la probabilidad de que se obtengan:
a) Exactamente dos caras.
b) Por lo menos dos caras
Solución:
El espacio muestral es: = {ccc, ccs, csc, scc, css, scs, ssc, sss}
Por lo tanto el numero de resultados posibles del experimento es: n() =8

a) Sea el suceso:
A={se obtuvo exactamente dos caras}
A={ccs, csc, scc}
Por lo tanto, el número de resultados favorables al suceso A es:

P(A) =  P(A) =0.375

 la probabilidad de obtener exactamente dos caras en 3 lanzamientos de una moneda


es 0.375.

b) Sea el suceso:
B= se obtuvo por lo menos dos caras .
B={ccs, csc, scc, ccc}
Por lo tanto, el número de resultados favorables al suceso B es: n(B) =4
 La probabilidad del suceso B:

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 42


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

P(B) = =0.5

La probabilidad de obtener por lo menos dos caras en tres lanzamientos de una


moneda es 0.5.

Ejemplo:
Se lanza un dado y se observa el número obtenido. Calcular la probabilidad de obtener:
a) 3 puntos
b) al menos 3 puntos.

Solución:
a) Si A es el evento de obtener ”3 puntos”,
A = {3} y la probabilidad de A es el numero

P(A) =

b) Si B es el evento de “obtener por lo menos 3 puntos

B= {3, 4, 5, 6} y la probabilidad B es el numero: P(B)=

Ejemplo:
Un dado se lanza dos veces consecutivas. Calcular la probabilidad de obtener:
a. 7 puntos
b. 6 puntos solo en la segunda tirada
c. la suma sale 7 puntos o 6 puntos solo en la segunda tirada.
d. La suma sale 7 puntos y 6 puntos solo en la segunda tirada.

Solución:
= {(i,j) / i,j=1, 2, 3, 4, 5, 6}: este espacio tiene 36 eventos elementales probables}.

= {(1,1) (1,2) (1,3) (1,4) (1,5) (1,6) (2,1) (2,2) (2,3) (2,4) (2,5) (2.6) (3,1)....(6,6)}

X 1 2 3 4 5 6
1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
2 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
3 (3,1) (3,1) (3,3) (3,4) (3,5) (3,6)
4 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
5 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
6 (6,1) (6,2) (6,3) (6,4) (6,5) (6,6)

a) Si A es el evento obtener “suma 7 puntos”, entonces.


A = {(1,6) (6,1) (2,5) (5,2) (3,4) (4,3)} entonces

P(A) =

b) Si B es el evento” sale 6 solo en la segunda tirada”, entonces.


B={(1,6) (2,6) (3,6) (4,6) (5,6)}

P(B)= = 0.139

c) El evento “sale 7 o 6 en la segunda tirada” es


AUB= {(1,6) (6,1) (2,5) (5,2) (3,4) (4,3) (2,6) (3,6) (4,6) (5,6)}

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 43


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

P(AUB)=

d) El evento “sale suma 7 y solo 6 en la segunda tirada” es: A B={(1,6)} y la

probabilidad de este evento es el numero P(A B)=

Ejemplo:
De los niños examinados por una nutricionista, se encontró que 80 padecían de desnutrición
leve, 50 padecían de desnutrición crónica, 70 normales. Si de los niños examinados se
selecciona uno al azar ¿Cuál es la probabilidad de que padezca de desnutrición leve o
desnutrición crónica?

Solución:
Sean los eventos
A= {Niños con desnutrición leve=80}
B= {Niños con desnutrición crónica=50}
C= {Niños con desnutrición normal=70}

P(AUB)= P(A) + P(B)=

Ejemplo:
De 100 pacientes examinados, 20 padecían de artritis, 32 padecían de gastritis y 8 tenían
ambos males. Hallar la probabilidad de seleccionar un pacientes de artritis o gastritis.

Solución:
Sean los eventos
A={Número de pacientes que sufren de artritis =20}
B={Número de pacientes que sufren de Gastrits =32}
A  B={Número de pacientes que sufren de artritis y gastritis =8}

P(AUB)= P(A) + P(B) – P(A B)

P(AUB)=

Ejemplo:
La probabilidad de que llueva en Huancayo el 12 de octubre es 0.10; de que truene es 0.5 y de
que llueva y truene es 0.03 ¿Cuál es la probabilidad de que llueva y truene en ese día ?

Solución:
Sean los eventos
A={Llueve en Huancayo el 12 de octrubre}
B={Truene el 12 de octubre}
C={Llueve o truene}
P(A)= 0.10, P(B)=0.05, P(AB)=0.03
P(C)=P(AB)=P(A) + P(B) – P(AB)=0.10 + 0.05 – 0.03 = P(AB)=0.12
Ejemplo:

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 44


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

La probabilidad de que un estudiante apruebe matemática I es y la probabilidad de que

apruebe métodos cuantitativos es . Si la probabilidad de aprobar almenos una de estas

materias es , ¿Cuál es la probabilidad de que apruebe ambos cursos?

Solución:
Sean los eventos:
A= El estudiante apruebe el curso de matemática I
B= El estudiante apruebe el curso de Métodos Cuantitativos
C= La probabilidad de aprobar ambos cursos 

P(A  B) = P(A) + P(B) - P(A B) = + - = = 0.3111

La probabilidad de que el estudiante apruebe ambos cursos es de 0.311

PROBABILIDAD CONDICIONAL.- A menudo se requiere determinar la probabilidad de que


ocurra un evento sabiendo que otro evento ha ocurrido.
Sean Ay B dos eventos en un espacio muestral.
La probabilidad condicional de que B ocurra dado que A ha ocurrido, se define por:

P(B/A)= ; Si P(A)>0

Ejemplo:
Un club consiste de ciento cincuenta miembros, clasificados según la siguiente tabla.

PROFESIONAL NO PROFESIONAL TOTAL


(P) (N)
Hombre(H) 60 30 90
Mujer (M) 40 20 60
100 50 150

Se elige al azar un socio del club.


1) calcular la probabilidad de que sea hombre (H), dado que es profesional (P)
2) si resulta mujer (M), calcular la probabilidad de que no sea profesional (N)

SOLUCION:

1) P(H/P)= = = 0.6

Probabilidad condicional:

P(H/P)= = =0.6

2) P(N/M)= = = ó

P(N/M)= = =

Ejemplo:
Uno de los clubes universitarios femeninos está compuesto por las siguientes asociadas: 15
rubias de ojos azules, 8 rubias de ojos castaños, 9 morenas de ojos azules, 12 morenas de ojos

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 45


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

castaños, 4 pelirrojas de ojos azules y 2 pelirrojas de ojos castaños. Supongamos que usted ha
conseguido una cita con una de las chicas sin conocerla, y esta lloviendo cuando se encuentra
usted con ella. Su cabello esta completamente cubierto, pero sin embargo sus chispeantes
ojos azules le dan la bienvenida. ¿Cuál es la probabilidad de que sea rubia?

COLOR DE OJOS RUBIA MORENA PELIRROJA TOTAL


OJOS AZULES 15 9 4 28
OJOS CASTAÑOS 8 12 2 22
Total 23 21 6 50

Sean los eventos.


A: La chica es rubia
B: La chica es de ojos castaños
Luego tenemos:

P(A/B)= = = =0.536

EVENTOS INDEPENDIENTES.
Si la probabilidad del evento A no depende de la realización del evento B. Formalmente se
dice que los eventos A y B son independientes si: P(A/B)=P(A) ó P(AB)= P(A).P(B).
En general si los n eventos A1, A2, A3,....An, son independientes entonces:
P(A1A2 ....An) =P(A1) P(A2) .... P(An).

Ejemplo:

La probabilidad de que un hombre viva 10 años más es y la probabilidad de que su esposa

viva 10 años más es . Hallar la probabilidad de que “Ambos vivan 10 años más”

Solución:
A: El hombre vive 10 años más
B: La esposa viva 10 años más

Los eventos A y B son independientes, pues los años que viva el hombre no dependen de lo
que viva su esposa:

P(AB)=P(A)P(B)=

Entonces la probabilidad de que ambos vivan 10 años más es 1/12

EVENTOS DEPENDIENTES
Si los eventos Ay B son dependientes, entonces la ocurrencia simultanea de los eventos es:
P(AB) = P(A) P(B/A).

En general:
Si A1, A2,...An, P(A1,A2 ... An)=P(A1) P(A2/A1) P(A3/A1A2) P(An/A1A2A3 …An-1)
Siempre que P(A1A2A3…An-1)

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 46


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Ejemplo 1. El supervisor de un grupo de 20 obreros de la construcción desea conocer la


opinión de 2 de ellos (a los que seleccionara al azar) sobre cierto reglamento de seguridad
reciente emisión. Si 12 de ellos están a favor del nuevo reglamento y los otros 8 en contra,
¿qué probabilidad hay de que los 2 trabajadores seleccionados por el supervisor se manifiesten
en contra del nuevo reglamento de seguridad?

Solución:

P(A): Probabilidad de que el primer obrero seleccionado este en contra del nuevo

reglamento de seguridad P(A)=

P(B/A): Probabilidad de que el Segundo obrero seleccionado este en contra del Nuevo

reglamento de seguridad, concediendo que el primero esta en contra, es:P(B/A)=

 P(BA)= . =

Ejemplo 2. Un alumno debe recoger entre tomar un curso de matemáticas o llevar un curso

de letras. Si escoge el de matemáticas la probabilidad de que lo apruebe es , muestra que si

escoge el de letras, la probabilidad de que lo apruebe es . Para decidir que curso llevar,

acuerda lanzar una moneda equilibrada.

1. ¿Cuál es la probabilidad de que el alumno lleve el curso de matemáticas y lo


apruebe?
2. ¿Cuál es la probabilidad de que lleve el curso de letras y no lo apruebe?

Solución
Sean los eventos:
A={“Llevara el curso de matemáticas”}
M={“Aprobar matemáticas”}
L={“Llevar el curso de letras”}
B={“Aprobar el curso de letras”}

1.- La probabilidad de llevar el curso de matemáticas y aprobarlo es:


P(M  A) = P( M/A)P(A) =(1/3)(1/2)= 0.1667

2.- La probabilidad de llevar y no aprobar el curso de letras es :


P(L  ) = P( /L)P(L) =(1-3/4)(1/2)= 0.0.125

Ejercicio:
En un estudio se encontró que la probabilidad que se incremente el empleo en el asentamiento
humano “x”, es de 35%; de que se incremente el consumo de artículos de primera necesidad,
es de 5%; y de que incremente el consumo de artículos de primera necesidad dado el
incremento de empleo, es de 10% ¿Cuál es la probabilidad de que se incremente el empleo y el
consumo de artículos de primera necesidad?

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 47


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Solución
EVENTOS PROBABILIDADES
A= Incremento del empleo

B= Incremento del consumo de


artículos de primera necesidad

B/A= Incremento del consumo de


artículos de primera necesidad dado
que se incremente el empleo

PROBABILIDAD TOTAL
Si los eventos A1 , A2 , . . . AK, forman una partición del espacio muestral , tal que
para cada i=1,2,. . . ,K. Entonces para cualquier evento B en se tiene que :

DEMOSTRACIÓN :

A1 A2 A3 ... AK


B
. . .

Del diagrama

Por probabilidad conjunta

Ejemplo:

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 48


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Supóngase que en la Escuela Profesional del Ingeniería Química de la U.N.P.R.G hay 40


alumnos; 20 están en 1er ciclo; 15 en 2do Ciclo y 5 en 3er ciclo; se sabe que 10 del 1er Ciclo, 5
del 2do Ciclo y 1 del 3er Ciclo son “hinchas” del Alianza Lima. Se elige un alumno al azar ¿Cuál
es la probabilidad de que sea del Alianza Lima?

Solución:

A1(20) A2(15) A3(5)

B
5
10 1

A1 = Primer Ciclo (20)


A2 = Segundo Ciclo (15)
A3 = Tercer Ciclo (5)

B = “Hinchas del Alianza Lima son” = 16

Con lo analizado tenemos :

Entonces la probabilidad de que un alumno seleccionado sea hincha del Alianza Lima es 0.4.

TEOREMA DE BAYES:
Previamente hagamos un breve comentario sobre este teorema, utilizando el ejemplo anterior
correspondiente al cálculo de la probabilidad de que un alumno sea hincha del Alianza Lima.
Supongamos ahora que conocemos que B ocurre, que su probabilidad de ocurrencia también
es conocida y que estamos interesados en hallar la probabilidad de ocurrencia de uno de los
sucesos de la partición digamos Aj, esto lo denotamos por P(Aj/B) luego por definición de
probabilidad condicional.

Luego por definición de probabilidad conjunta y por el teorema de la probabilidad total.

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 49


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Ejemplo :
Utilizando el ejemplo anterior; supongamos que el alumno seleccionado es hincha del alianza
lima, es decir sabiendo que es hincha de alianza lima, calcular la probabilidad de que el alumno
sea del 1er Ciclo, entonces:

Análogamente; la probabilidad de que el alumno sea del 2do Ciclo, dado que es hincha del
Alianza Lima es:

y la probabilidad que sea de 3er Ciclo, sabiendo que es hincha de Alianza Lima es :

Ejemplo:
En una fábrica, la máquina A produce el 30% de su rendimiento total, la máquina B, el 25% y
C el 45% restante; el 1% de la producción total de la máquina A es defectuosa asimismo el
1.2% y el 2% de la máquina B y C respectivamente; en un día las tres máquinas producen
10,000 artículos.
Un artículo es seleccionado al azar en un día.
¿Cuál es la probabilidad que sea producido por A ?; ¿Por B? Y ¿Por C?

Solución:
A B C

P(A) =0.30
P(B) =0.25
P(C) =0.45
P(D/A)=0.01
P(D/B)=0.012
P(D/C)=0.02

P(D) =0.015 Calculado de

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 50


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

a) Y

, es la probabilidad que sea producido por A

b)

, es la probabilidad que sea producido por B

c)

, es la probabilidad que sea producido por C

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 51


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

CAPITULO VI.

VARIABLES ALEATORIAS

DEFINICIÓN : Se llama variable aleatoria a toda función x de Ω cuyo dominio es el espacio


muestral y cuyo recorrido o rango es un subconjunto de los números reales.

Exp: Arrojar tres monedas a la vez.

Ω = {sss; css; scs; ssc; scc; csc; ccs; ccc} Ω x


Analizar la variable aleatoria
X: Número de casos que se obtiene al arrojar 3 monedas.
1º el recorrido de la variable aleatoria x es: x=0;1;2;3.
2º el diagrama R

x({sss})=0
x({scs})= x({css})= x({ssc})=1 Ω x
x({sss})= x({scc})= x({csc})=2 SSS
x({ccc})=3 0
SCS
CSS
SSC
1
CCS
SCC
CSC
2
CCC
3
TIPOS DE VARIABLE ALEATORIA

A. Variable aleatoria discreta.- x es una variable aleatoria discreta si el rango o


recorrido de x es un conjunto contable (finito o infinito numerable).

FUNCIÓN DE CUANTÍA O FUNCIÓN DE PROBABILIDAD


Sea x el valor de una variable aleatoria x, la función de cuantía o función de probabilidad es:
P(xi)=P[x(Ω)= xi] y cumple los siguientes propiedades:

ii) P[xi< x < xk] = P(xi+1) + P(xi+2) + …… + P(xk1-1)

DISTRIBUCIÓN DE PROBABILIDAD DE X
Sea x una variable aleatoria discreta con recorrido x1; x2.......xk y con probabilidad asociadas P(x1);
P(x2); P(x3)…… P(xk) el conjunto de parejas (Xi; P(xi)) recibe el nombre de distribución de
probabilidad.

x x1 x2 x3 ……………… xk
….

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 52


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

P(x=x) P(x1) P(x2) P(x3) P(xk)


Ejemplo: Analizar la vía
X: números de caras que se obtiene al lanzar tres monedas.
Distribución de probabilidad es: Funciones de distribución
x 0 1 2 3 a≤x<b F(x) = P[x≤x]
P(x) 1/8 3/8 3/8 1/8 x<0 0
0≤x<1 1/8
1≤x<2 4/8
2≤x<3 7/8
x≥3 1
Donde:
Si x<0 P(x≤0) = 0
Si 0≤x<1 P(x=x) = P(x=0)=1/8

Si 1≤x<2 P(x=x) = P(x=0)+ P(x=1) = + =

Si 2≤x<3 P(x=x) = P(x=0)+ P(x=1) + P(x=2)= + + =

Si 3 ≥3 P(x=x) = P(x=0)+ P(x=1) + P(x=2)+ P(x=3)

= + + + =1

Para una V.A. discreta, el gráfico de F(x) es una función escalera.

PROPIEDADES DE LA FUNCIÓN DE DISTRIBUCIÓN

II) F(x) es una función monótona no decreciente, esto es:


Si x1< x2 F(x1)≤ F(x2)

III)

IV)

V) Dado x1< x2 P[x1<x≤ x2] = F(x2)- F(x1)

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 53


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

B. Variable aleatoria continua.- x es una variable aleatoria continua, si existe una


función f(x) con x perteneciente a un intervalo llamado función de densidad de x.

a≤ x ≤ recorrido de la V.A. a, b ∈ R
V.A. x
f(x) función de densidad

Toda función de densidad debe cumplir las siguientes propiedades:


i) f(x)≥0, x perteneciente al intervalo

ii)
iii) Para cualquier a; b, tal que:

P(a ≤ x ≤ b) =

Donde F(x) la función de distribución

FUNCIÓN DE DISTRIBUCIÓN DE UNA V.A. CONTINUA


Si x es una V.A. continua con función de densidad f(x) entonces su función de distribución es
F(x)

F(x) =
F(x) cumple con las siguientes propiedades:
i)
ii)
iii) F(x) es no decreciente es decir si x1< x2 F(x1)≤ F(x2)

Ejemplo:

OBSERVACIÓN: Dado F(x) función de distribución; para hallar la función de densidad f(x) se
halla su desviada; pero si tengo f(x) función de densidad; para hallar F(x) función de
distribución se halla la integral.

Ejemplo:
Dado f(x) la función de densidad

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 54


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Hallar la función de distribución


Resolución
Representan f(x) en una línea horizontal con su respectivo dominio.

a)

b)

c)

F(x) = 0 + 1 – 0 + 0
F(x) = 1

Conclusión:

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 55


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

CARACTERÍSTICAS DE UNA VARIABLE ALEATORIA

Las características son valores o medidas que identifican a una variable aleatoria entre estas
medidas tenemos a los estadígrafos de posición, dispersión, sesgos, apuntamiento.
Las medidas son importantes en esta distribución son la esperanza matemática y la varianza.

a) Esperanza matemática.- o valor esperado viene a ser la media teórica de la V.A. x


que identifica una distribución de otra, denotamos por E(x) y se define:

Propiedades:

E(kx) = k ∈ (x) k=constante y x variable


i) E(k) = 0 k= constante
ii)
iii) E(x + k) = E(x) + k
iv) E(x + y) = E(x) + E(y) x, y variable.

b) Varianza.- La varianza es una medida que indica el grado de concentración o


dispersión de la distribución.

V(x) = E(x2) – (E(x))2


Propiedades:

v) V(k) = 0
vi) V(kx) = k2 V(x)
vii) V(x + k) = V(x)
viii) V(x + y) = V(x) + V(y) son independientes.

EJEMPLO 1

Hallar la esperanza matemática y varianza de la variable aleatoria discreta dado por la distribución
de probabilidad.
x 2 4 6
P(x) 0,3 0,2 0,5

Resolución:

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 56


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

EJEMPLO 2

Sea y=3x + 2; hallar E(y) si E(x)=5

Resolución:
y = 3x + 2

Aplicando esperanza: E(y)= E(3x + 2)


E(y)= E(3x) + 2
E(y)= 3E(x) + 2
E(y)= 3(5) + 2
E(y)=15 + 2
E(y)=17

EJEMPLO 3

Supongamos que x es una V.A. para lo cual E(x)=4V(x)=6. Hallar E(y) en y = 2(x 2 + 3x)

Resolución:
Y = 2(x2 + 3x)
E(y)= E[2(x2 + 3x)]
E(y)= 2E[x2 + 3x]
E(y)= 2[E(x2) + 3E(x)]

Pero E(x)= 4 E(y)= 2[E(x2) + 3(4)]


E(y)= 2[E(x2) + 12] …………… (∞)

Además se sabe: V(x)= E(x2) – [E(x)]2


6 = E(x2) - 42
6 = E(x2) – 16
22 = E(x2) …………………………… (ß)

ß en (∞): E(y)= 2[E(x2) + 12]


E(y)= 2[22 + 12]
E(y)= 2(34)
E(y)= 68

EJEMPLO 4

Una caja contiene 3 bolitas negras y 7 blancas. Se saca una bolita de la caja; si esta es negra
Ud. gana S/. 2000 pero si es blanca usted pierde S/. 1,00. ¿Cuál es la esperanza matemática de
este juego?

Resolución:

Designado por x toda posible ganancia o pérdida y por P(x) la probabilidad respectiva.
x(cantidad de ganancia o pérdida) P(x) xP(x)
3/10 6/10
+ S/2 7/10 -7/10
- S/1

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 57


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

EJEMPLO 5

Supongamos que f(x) es una función de densidad de x tal que.

a) Hallar k
b) Hallar la esperanza y varianza de x.

Resolución:

a) Como f(x) es una función de densidad, debe cumplir:

Para

Luego:

Está comprobado f(x)≥0 ya que 0≤x<2

b) Calculando E(x) y V(x)

Ahora:

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 58


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

PROBLEMAS RESUELTOS

PROBLEMA 1

Sea una variable aleatoria cuya función de densidad está representada en la figura:
a. Hallar F(x)
b. Encontrar

c. si Hallar “a”.

Resolución:

a) Cálculo de F(x):

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 59


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

PROBLEMA 2

Se lanza un dado 2 veces. Llamamos “x” al resultado del primer lanzamiento e “y” al del
segundo lanzamiento.
Definimos la variable aleatoria x en la siguiente forma:

Determinar el rango de la variable aleatoria y la función de densidad o de probabilidad.

Resolución:
0 3 4 5 6 7
x
1 2 3 4 5 6 1 0 5 6 7 8
1 11 12 13 14 15 16 2 1 0 7 8 9
2 21 22 23 24 25 26
3 31 32 33 34 35 36 3 2 1 0 9 10
4 41 42 43 44 45 46
4 3 2 1 0 11
5 51 52 53 54 55 56
6 61 62 63 64 65 66 5 4 3 2 1 0

El Rango de: x P(x) xP(x)


X={0,1,2,3,4,5,6,7,8,9,10,11} 0 6/36 0
La función de probabilidad es: 1 5/36 5/36
2 4/36 8/36
3 4/36 12/36
4 3/36 12/36
5 3/36 15/36
6 2/36 12/36
7 3/36 21/36
8 2/36 16/36
9 2/36 18/36
PROBLEMA 3 10 1/36 10/36
Respecto al problema anterior. ¿Cuánto 11 1/36 11/36 valdrá
E(x)? Total 1 140/36
Resolución:

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 60


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

PROBLEMA 4
Siendo f una función con regla de correspondencia.

Verificar que es una función de densidad.


Resolución:

CAPITULO VII

DISTRIBUCIONES DE PROBABILIDADES:

1. LA DISTRIBUCIÓN BINOMIAL

 La Distribución Binomial es una las distribuciones de probabilidad discretas más


importantes, la cual tiene muchas aplicaciones en Ingeniería, Administración, etc..

 Esta distribución se origina en los Ensayos o Experimentos Bernoulli que consiste en


realizar 1 experimentos que tiene dos resultados posibles, llamados “éxito” y “fracaso”.
Ejemplos:

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 61


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

1. Lanzar una moneda


2. Rendir un examen. Ensayos de Bernoulli
3. Observar el sexo de un recién nacido.
4. Encender una maquina, etc

 Experimento Binomial:
Es aquel que consiste en realizar “n” veces ensayos de Bernoulli, en el cual se debe
cumplir lo siguiente:
a. Cada ensayo tienen solo dos resultados posibles.
b. Los ensayos son independientes.
c. La probabilidad de éxito “p” es constante en cada ensayo.

 Esta distribución tienen las siguientes características:


1. Su variable aleatoria esta definida como:
X: Numero de éxitos en “n” ensayos.

2. Su recorrido o rango es:


Rx = {0,1,2,3,4,5, …, n}

3. Su función de probabilidad esta dada por:

4. Sus parámetros son :


n : Numero de veces que se repite el experimento o tamaño de muestra.
p : Probabilidad de éxito en cada uno de los ensayos o proporción de interés.

5. Su notación es : X B ( n, p )

6. Uso de tabla: Para el uso de tabla tener en cuenta lo siguiente

A. P ( X≤a ) = Usar directamente la tabla


B. P ( X>a )=1- P(X≤a)
C. P ( X≥a )=1- P(X≤a-1)
D. P ( X=a )=P(X≤a)-P(X≤a-1)
E. P ( a≤X ≤ b ) = P ( X ≤ b ) - P ( X ≤ a-1 )
F. P ( a≤X < b ) = P ( X ≤ b-1 ) - P ( X ≤ a-1 )
G. P ( a<X < b ) = P ( X ≤ b-1 ) - P ( X ≤ a )

2. LA DISTRIBUCIÓN POISSON

 La Distribución de Poisson es otra de las distribuciones de probabilidad discretas más


importantes por que se aplica en muchos problemas reales.

 Esta distribución se origina en problemas que consiste en observar la ocurrencia de


eventos discretos en un intervalo continuo (unidad de medida).

 Ejemplos:
1. Numero de manchas en un metro cuadrado de un esmaltado de un refrigerador.
2. Numero de vehículos que llegan a una estación de servicios durante una hora.
3. Numero de llamadas telefónicas en un día.
4. Numero de clientes que llegan a un banco durante las 10 y 12 p.m.
5. Numero de bacterias en un cm3 de agua.

 Esta distribución tienen las siguientes características:

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 62


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

7. Su variable aleatoria esta definida como:


X: Numero de ocurrencias en 1 unidad de medida (Tiempo, Volumen,
Superficie, etc)

8. Su recorrido o rango es:


Rx = {0,1,2,3,4,5, ….}

9. Su función de probabilidad esta dada por:

10. Su parámetro es λ : tasa promedio de ocurrencia en 1 unidad de medida.

11.Su notación es : X P( λ )

12. Uso de tabla: Para el uso de tabla tener en cuenta lo siguiente

H. P ( X≤a ) = Usar directamente la tabla


I. P ( X>a )=1- P(X≤a)
J. P ( X≥a )=1- P(X≤a-1)
K. P ( X=a )=P(X≤a)-P(X≤a-1)
L. P ( a≤X ≤ b ) = P ( X ≤ b ) - P ( X ≤ a-1 )
M. P ( a≤X < b ) = P ( X ≤ b-1 ) - P ( X ≤ a-1 )
N. P ( a<X < b ) = P ( X ≤ b-1 ) - P ( X ≤ a )

3. LA DISTRIBUCIÓN NORMAL:

 La distribución normal, llamada también Curva de Gauss (en recuerdo al


científico que lo descubrió), es la distribución de probabilidad más importancia en la
Estadística y por ende del Calculo de Probabilidades.
 Esta distribución de probabilidad es importante porque las variables aleatorias
continuas (peso, edad, talla, producción, gasto en publicidad, temperatura, ventas, PBI,
ganancias, etc) que son variables que más se evalúan en una investigación científica o
investigación de mercados se aproximan a esta distribución de probabilidad.
 También es importante porque se utiliza como aproximación de las distribuciones
discretas tales como: la Binomial, la Poisson, etc.

CARACTERÍSTICAS
1. Tiene como parámetros a  y 

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 63


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

2. Su función de probabilidad está dada por:

Además: -  +
-  <  < + y >0

3. El promedio  puede tomar valores entre – y + mientras que  > 0, entonces


existen infinitas curvas normales.
4. Esta función de probabilidad es asintótica con respecto al eje X, (a pesar de tener
recorrido infinito, la curva nunca toca el eje X); además es unimodal y es simétrica con
respecto a la media .
5. El areá bajo esta función o curva es 1 ó 100%, de la misma manera se sabe que las
áreas comprendidas bajo la curva normal son :

1.    = 68.3%
2.   2 = 95.5%
3.   3 = 99%

- 3 2 1  1 2 3 +

7. Para calcular probabilidades en la distribución normal se necesitaran infinitas tablas de


probabilidad.

4. LA DISTRIBUCIÓN NORMAL ESTÁNDAR:

1. Es una distribución a la cual se le ha modificado la escala original; esta modificación se


ha logrado restando la media  al valor de la variable original y dividiendo este
resultado por , la nueva variable se denota por Z y recibe el nombre de variable
estandarizada

2. La modificación de la escala ha permitido elaborar una tabla para el cálculo de las


probabilidades; si esto no hubiera sido posible, sería necesario construir una tabla para
cada valor de  y .
3. La función de densidad de la variable estandarizada es:

4. El promedio (valor esperado) y la varianza de Z son: E(Z) = 0 , V(Z) = 1

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 64


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

5. Notación:
Si X es v.a. continua distribuida normalmente con media  y varianza 2 , la denotamos
por : X  N( , 2).
Aplicando esta notación a la variable normal estandarizada Z, escribimos:
Z  N(0 , 1) , esto se interpreta como, Z tiene distribución normal con media 0 y
varianza 1.
6. La superficie bajo la curva normal Z estandarizada también es igual a 1. Por
consiguiente, las probabilidades pueden representarse como áreas bajo la curva normal
escandalizada entre dos valores.
7. Debido a que la distribución normal es simétrica muchas de las tablas disponibles
contienen solo probabilidades para valores positivos de Z.

USO DE TABLA:
Si se conoce el comportamiento de una variable, es decir, se sabe que tienen una
distribución normal, para calcular las diferentes probabilidades se tiene que estandarizar la
variable. Una vez estandarizada la variable, recién utilizar la tabla de la distribución normal
estandarizada o tabla Z.

FORMULAS:

a.

b.

c.

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 65


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

CAPITULO VIII

ESTIMACION DE PARAMETROS Y PRUEBAS DE HIPOTESIS

INTRODUCCION.
Todo el mundo hace estimaciones. Cuando está por cruzar una calle, hace una estimación de
la velocidad del automóvil que se acerca, de la distancia que hay entre usted y el auto y de su
propia velocidad. Habiendo hecho rápidamente todas estas estimaciones, usted decide si
espera, camina o corre.
Los administradores también deben hacer estimaciones rápidas. El resultado de estas
estimaciones puede afectar sus organizaciones de manera tan seria como el resultado de su
decisión de cruzar la calle. Los jefes de departamento de una universidad hacen estimaciones
acerca de las inscripciones para el semestre siguiente en las materias. Los directores de
crédito estiman si un cliente pagará o no sus débitos. Los futuros compradores de casa hacen
estimaciones concernientes al comportamiento de las tasas de interés de los préstamos
hipotecarios. Todas estas personas hacen estimaciones sin preocuparse de si son científicas o
no, pero con la esperanza de que las estimaciones tengan una semejanza razonable con el
resultado.

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 66


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Los administradores utilizan estimaciones porque, hasta en los asuntos más triviales, deben
tomar decisiones racionales sin contar con la información pertinente completa y con una gran
incertidumbre de lo que el futuro pueda deparar. Como ciudadanos instruidos y profesionales,
podremos hacer estimaciones más útiles si aplicamos las técnicas descritas en este capítulo y
los que le siguen. El material sobre teoría de probabilidad que se presentó en los capítulos
anteriores constituye la base de la inferencia estadística, rama de la estadística que se ocupa
del uso de los conceptos de probabilidad para manejar la incertidumbre en la toma de
decisiones. La inferencia estadística está basada en la estimación, concepto que se introduce
en este capítulo, y en las pruebas de hipótesis, que es el tema de los capítulos posteriores.
Tanto en la estimación como en las pruebas de hipótesis, haremos inferencias acerca de las
características de las poblaciones a partir de la información proporcionada por las muestras.
¿De qué manera los administradores utilizan estadísticas para estimar parámetros de una
población? El jefe de departamento de alguna universidad intenta estimar el número de
inscripciones que tendrá el siguiente semestre a partir de las inscripciones actuales en los
mismos cursos. El director de un departamento de crédito intentará estimar el valor crediticio
de los futuros clientes a partir de una muestra de sus hábitos de pago. El comprador de una
casa intenta estimar el curso futuro de las tasas de interés mediante la observación de su
comportamiento actual. En cada caso, alguien trata de inferir algo acerca de una población a
partir de la información adquirida de una muestra.
En este capítulo introducimos métodos que nos permiten estimar con precisión razonable la
proporción de la población (la fracción de la población que posee una característica dada) y la
media de la población. Calcular la proporción exacta o la media exacta sería una meta
imposible. Pero, a pesar de ello, seremos capaces de hacer una estimación, establecer una
afirmación respecto al error que tal vez acompañará a esta estimación, y poner en marcha
algunos controles para evitar dicho error en la medida de lo posible. Como tomadores de
decisiones, nos veremos forzados, en ocasiones, a confiar en nuestros presentimientos. Sin
embargo, en otras situaciones, en las que dispongamos de información y podamos aplicar los
conceptos de estadística, tendremos mejores resultados.

TIPOS DE ESTIMACIONES

Podemos hacer dos tipos de estimaciones concernientes a una población: una estimación
puntual y una estimación de intervalo. Una estimación puntual es un solo número que
se utiliza para estimar un parámetro de población desconocido. Si mientras observa el primer
integrante de un equipo de fútbol americano salir al campo de juego, se dice: “¡Caramba!
Apuesto a que el peso promedio de los jugadores defensivos es de 125 kilogramos”, usted ha
hecho una estimación puntual. El jefe de departamento de una universidad estaría haciendo
una estimación puntual si afirmara: “Nuestros datos actuales indican que en esta materia
tendremos 350 estudiantes el siguiente semestre”.
A menudo, una estimación puntual es insuficiente debido a que sólo tienen dos opciones: es
correcta o está equivocada. Si le dicen solamente que la afirmación sobre la inscripción está
equivocada, no sabe qué tanto está mal y no puede tener la certeza de que la estimación es
confiable. Si se entera de que sólo está errada por 10 estudiantes, podría aceptar a 350
estudiantes como una buena estimación de la inscripción futura. Pero si está equivocada en 90
estudiantes, la rechazaría como estimación de la inscripción futura. Entonces, una estimación
puntual es mucho más útil si viene acompañada por una estimación del error que podría estar
implicado.

Una estimación de intervalo es un rango de valores que se utiliza para estimar un


parámetro de la población. Una estimación de este tipo indica el error de dos maneras: por la
extensión del intervalo y por la probabilidad de que el verdadero parámetro poblacional se
encuentre dentro del intervalo. En este caso, el jefe de departamento diría algo como lo
siguiente: “Estimo que la inscripción real de este curso para el próximo semestre estará entre

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 67


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

330 y 380, y es muy probable que la inscripción exacta caiga dentro de este intervalo”. Con
esto tiene una mejor idea de la confiabilidad de su estimación. Si el curso se imparte en grupos
de 100 estudiantes cada uno y si, tentativamente, se han programado cinco cursos, entonces,
de acuerdo con la estimación, puede cancelar uno de los grupos y abrir uno optativo.

ESTIMACION DE PARAMETROS
Los Métodos de Inferencia Estadística consisten en seleccionar una muestra aleatoria de la
Población, de manera que a partir de la información que se obtenga de la muestra.
1) Determinar el valor del parámetro desconocido q, ó
2) Decidir si q, ó alguna función de q, es igual a algún valor preconcebido q 0 de q

El primero de estos procedimientos se denomina estimación del parámetro q


El segundo procedimiento se conoce como prueba de Hipótesis del parámetro q. El método de
estimación de un parámetro puede ser puntual o por intervalo.
En el primer caso, la estimación del parámetro q es un número.
Mientras que en el segundo caso la estimación incluye un intervalo en el que están
comprendidos los valores del parámetro.
Un estimador puntual del parámetro q es pues la función de la muestra

ESTIMACION PUNTUAL.

Un estimador puntual del parámetro q es pues la función de la muestra variable aleatoria) Q,


mientras que una estimación puntual es el valor Numérico del estimador.

Ejemplo
Suponga que la variable aleatoria X tiene un distribución normal con media desconocida m. La
media muestral es un estimador puntual de la media poblacional desconocida m.
Es decir ,después de seleccionar la muestra, el valor numérico es la estimación
puntual de m

Ejemplo de Estimación Puntual:


Por tanto, si X1 = 25, X2= 30, X3=29 y X4=31, entonces la estimación puntual de m es

De igual manera se puede encontrar el estimador puntual de la varianza etc.

ESTIMACION DE PARAMETROS POR INTERVALOS DE CONFIANZA


En muchas situaciones, la estimación puntual de un parámetro no le ofrece información
completa a un investigador, ya que toda estimación puntual debe ir acompañada con alguna
medida de la dispersión de la misma.

Intervalo de Confianza ó Estimado de Intervalo

Parámetro = Estimado ± error muestral

Se espera que el parámetro esté dentro de los límites de este intervalo

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 68


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Limite Inferior Limite Superior

Estimado

Ejemplo.
El promedio de las longitudes de cierto artículo es de 12± 0.2m ([1.2 - 0.2, 1.2+0.2]) o que el
candidato obtendrá el 64 ± 3%(0.64 ±0.003) de las preferencias del electorado
El intervalo de confianza cuando n³30, se calcula de la siguiente manera :

Tabla de valores de Z
Coeficiente de confianza (1- a Za/2
a)
0.90 0.1 1.645
0.95 0.05 1.96
0.99 0.01 2.58

Ejemplo.
Una máquina de empaquetar bolsas de café, esta calibrada para embalar bolsas cuyos pesos
se distribuyen normalmente con media 500g y desviación estándar de 10g.
La maquina sufrió un desperfecto y se desea calibrarla, para lo cual se desea saber el nuevo
promedio m .Se toma una muestra aleatoria de 36 paquetes arrojando una media de 485g.
Hallar un intervalo de confianza de 95% de confianza para m.

El valor de za/2 que deja a su derecha un área que representa una probabilidad igual a 0.025 es
de za/2 =1.96
Por lo tanto el intervalo de confianza para m con coeficiente de confianza es de g=95% es

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 69


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

2.5%

2 El intervalo de confianza cuando n<30, para una media se


calcula de la siguiente manera

S@s
Ejemplo
A continuación se dan los pesos (g) de un pdto lácteo instantáneo:
42.7 42.78 42.76 43.39 41.60

43.83 43.18 42.78 42.01 43.20

43.68 42.56 42.95 43.06 43.10

Hallar el intervalo al nivel de confianza del 99% para la media m, de los pesos de todos los
estudiantes del colegio, se supone que los pesos se distribuyen normalmente

El valor de t1-a/2, corresponde al cuartil en la distribución estándar con 15-1 grados de libertad
para lo cual

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 70


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

PRUEBA DE HIPOTESIS.

INTRODUCCION
Esta es otra parte de la estadística inductiva o inferencial, llamada prueba de hipótesis,
significancia o procedimientos de toma de decisiones. La prueba de hipótesis, es otra manera
de abordar el problema de hacer una afirmación acerca de un parámetro desconocido asociado
con una distribución de probabilidades, basándose en una muestra aleatoria en lugar de hallar
un estimador para el parámetro a menudo es conveniente formular una hipótesis sobre el valor
del parámetro y luego usar la información de la muestra para confirmar o rechazar el valor de
la hipótesis con un nivel particular de confianza o seguridad.

El objetivo es brindar algunos métodos que se usan para tomar decisiones sobre
poblaciones, a partir de los resultados de una muestra aleatoria escogida de esa población.
Para llegar a tomar decisiones estadísticas se debe partir de afirmaciones o conjeturas con
respecto a la población en el que estamos interesados. Tales suposiciones, pueden ser
verdaderas o no. Una conjetura hecha sobre una población o sobre sus parámetros deberá ser
sometida a comprobación experimental con el propósito de saber si los resultados de una
muestra aleatoria extraída de esa población, contradicen o no tal conjetura

Hipótesis estadísticas
Es cualquier afirmación o conjetura (suposición, afirmación) que se hace acerca de la
distribución de una o más poblaciones.
La afirmación o conjetura puede referirse bien a la forma o tipo de distribución de probabilidad
de la población o bien al valor o valores de uno o más parámetros de la distribución de la
población.
En este caso las hipótesis estadísticas consiste en suponer que los parámetros que definen a la
Población toman determinados valores numéricos.

Ejemplos:
1. El promedio poblacional de la altura de los Peruanos es 1.6m. esto es:
1.60
2. La varianza poblacional de los salarios de los obreros de la Industria Textil es:
S/. (500)2 esto es:
2
= (500)2 = 250,000
3. La proporción de unidades defectuosas de producción por cierto proceso es menor o igual a
8 por ciento, esto es:

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 71


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Hipótesis nula (H0)


Se representa por H0, es la hipótesis que es aceptada provisionalmente como una verdad y
cuya validez será sometida a verificación o comprobación experimental.

Hipótesis alternativa ( H1 )
Es la suposición contraria a la hipótesis nula, se representa por H1 y se acepta en el caso que la
hipótesis nula sea rechazada.

Ejemplo: Si se asume que 0 es un valor del parámetro desconocido de una población cuya
distribución se supone conocida, entonces son hipótesis nulas y alternativas respectivamente
las siguientes afirmaciones:
1. H0: = 0 y H1: 0

2. H0: 0 y H1: > 0


3. H0: 0 y H1: < 0

Prueba de Hipótesis Estadística.


Es un proceso que nos conduce a tomar la decisión de aceptar o rechazar la hipótesis nula H0,
en contraposición de la hipótesis alternativa H 1 y en base a los resultados de una muestra
aleatoria seleccionada de la población en estudio.
La hipótesis nula H0 es la primera hipótesis que se plantea y debe ser establecida de manera
que se especifique un valor 0 del parámetro en estudio. Por esta razón, algunos autores
plantean la hipótesis nula
H0 : = 0 aún para los casos 2) y 3) del ejemplo anterior.
También se puede definir como un ensayo de hipótesis o dócima de hipótesis, son
procedimientos que se usan para determinar, si es razonable o correcto, aceptar que el
estadístico obtenido en la muestra, puede provenir de la población que tiene como parámetro,
el formulado en H0.

Tipo de pruebas de hipótesis


Las Pruebas de Hipótesis Estadísticas son de dos tipos:

(i) Unilaterales y ( ii ) Bilaterales o dos colas.


Esta división se hace según la región de rechazo se localiza en una cola o en las dos colas de la
distribución normal estándar.
El tipo de prueba depende básicamente de la Hipótesis alternativa H 1
1. Prueba Unilateral de Cola a la Derecha
Prueba de Hipótesis Acerca de la Media Poblacional
H0: = 0 contra H1 > 0

2. Prueba Unilateral de Cola a la Izquierda


H0: = 0 contra H1 < 0

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 72


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

3. Prueba Bilateral o Dos Colas


H0: = 0 contra H1 0

La experiencia indica que al tomar una decisión se puede cometer dos tipos de errores:
Errores de tipo I y tipo II
Al tomar la decisión de aceptar o rechazar la hipótesis nula H 0 : 0 en base a los
resultados obtenidos de una muestra aleatoria seleccionada de la población en estudio; existen
cuatro posibles situaciones que determinan si la decisión tomada es correcta o incorrecta,
como se muestra en la siguiente Tabla:

H0 ES H0 ES FALSA
DECISIÓN VERDADERA
Rechazar Ho Error de tipo I Decisión correcta

Aceptar H0 Decisión Correcta Error tipo II

Error de tipo I
Es el error que se comete al rechazar una Hipótesis nula H 0 cuando ésta es verdadera.
La Probabilidad de cometer un error de Tipo I se denota por :
=P[error tipo I] = P[rechazar H0 cuando H0 es verdadera]

Error de tipo II
Es el error que se comete al aceptar una hipótesis nula H 0 cuando en realidad es falsa.
La probabilidad de cometer un error tipo II se denota por entonces:
P[error tipo II]=P[aceptar H0 cuando H0 es falsa]

Nivel de significación de una prueba ( )


Es el subconjunto del espacio muestral que nos conduce a rechazar H 0 cuando es verdadero. Es
decir, es la probabilidad de cometer un error Tipo I.
=P[error tipo I] = P[rechazar H0 cuando H0 es verdadera]

Los niveles de significación más usados en la práctica son: = 0,05, ó =0,01

Potencia de una prueba


Es la probabilidad de tomar la decisión acertada de, rechazar H 0 cuando ésta es falsa o de
aceptar H1 cuando ésta es verdadera. La potencia de una prueba es calcula por 1- .

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 73


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Región crítica y regla de decisión


Para aceptar o rechazar la hipótesis nula H 0, debemos conocer claramente tres aspectos:
región crítica, el valor crítico y el estadístico de prueba:

a) El valor crítico. es el valor que separa a la región de rechazo de la región de aceptación.


Es el primer valor de la región crítica. El valor crítico depende del valor de  y del
enunciado de la hipótesis alternativa H1. El valor crítico de una prueba puede considerarse
también como el riesgo que tiene el que decide cuando, al obtener un cierto valor del
estimador, rechaza la hipótesis nula.
b) La Región Crítica.( o región de rechazo), es el conjunto de valores para el estadístico de
prueba que nos llevará a rechazar la hipótesis nula. Está dado por el valor de .
c) Estadístico de Prueba. Es una variable aleatoria, cuyo valor se utiliza para rechazar H 0 o
para aceptarla. Esta decisión depende en que región cae el valor del estadístico de prueba.
 Si el estadístico de prueba cae en la región crítica, entonces rechazar H0.
 Si el estadístico de prueba cae en la región de aceptación, entonces rechazar H0.

Cuando la hipótesis Nula( H o) se rechaza con =0.05, diremos que el resultado es


Significativo.
Cuando la hipótesis Nula( Ho) se rechaza con =0.01, afirmaremos que el resultado es
Significativo.

Procedimiento de la prueba de hipótesis


Previamente debe formularse el problema estadístico, determinar la variable en estudio y
método estadístico adecuado para la solución del problema.

El procedimiento general de la prueba de una hipótesis de parámetro se resume


en los siguientes pasos:

1. Formular la hipótesis nula:H0 : = 0 y la hipótesis alternativa adecuada


H1: 0 ó H1: > 0 ó H1: < 0
2. Especificar el tamaño del nivel de significación
3. Seleccionar la estadística apropiada a usar en la prueba.
4. Establecer la Regla de decisión, determinando la Región Crítica de la Prueba.
5. Calcular el valor del estadístico de la prueba de los datos de la muestra.
6. tomar la decisión de rechazar la hipótesis H0 si el valor del estadístico de la prueba esta
en la región crítica. En caso contrario no rechazar H0.

Casos de Pruebas de Hipótesis

1. Pruebas de Hipótesis acerca de una media: Varianza 2 supuesta conocida.


Sea la media de una muestra aleatoria de tamaño n seleccionada de una población con
media  y varianza 2 supuestamente conocida.
Si la población es normal N(,2/n) para cualquier valor de n (n2). Si la población no es
normal, pero el tamaño de la muestra es suficientemente grande ( n  30), entonces, la
distribución de es aproximadamente normal N(, 2/n). Consecuentemente la estadística.

Z=

Tiene una distribución aproximadamente normal N(0,1).

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 74


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Si se supone verdadera la hipótesis nula H 0 :  = 0, la estadística apropiada para la prueba


de H0 :  = 0 contra cualquiera de las alternativas H 1 :   0 o H1 :   o o H1 :   o
es:

Z=

Cuya distribución es aproximadamente normal estándar N(0,1), según sea la población


normal o no.
En consecuencia dado el nivel de significancia , o la probabilidad de error de tipo I, o la
probabilidad de rechazar Ho :  = 0 cuando se supone que esta es verdadera, se puede
utilizar la distribución de

Z= ( ) para determinar una región crítica.

Ejemplo Nº1.
Un determinado proceso de empaquetar un producto está controlado, si el peso medio del
producto empaquetado es de 400 gramos. Si en una muestra de 100 paquetes del producto
se ha encontrado que el peso medio es de 395 gramos, ¿Se podría concluir que el proceso
está fuera de control a un nivel de significación del 5%?. Suponga que el peso de los
productos empaquetados se distribuye normalmente con desviación estándar de 20 gramos.

Solución

1.- Formulación de las Hipótesis


H0:  = 400 gr
H1:   400 gr
2.- Nivel de significación:  = 0.05

3.-Estadística: Población normal con varianza conocida, la estadística apropiada es Z=

4.- Región Crítica: Para  = 0.05; y una prueba bilateral ó con dos colas; en la tabla
normal N( 0,1) se encuentra el valor crítico
Z/2 =Z0.05/2 = Z0.025 = -1.96 ó También es lo mismo:
Z1-/2 =Z1-0.05/2 = Z0.975 = 1.96

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 75


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

5.- Cálculos de los datos se tiene.


n = 100; = 395;  = 20

Z= = =

6.- Decisión: Como el Zc = -2.5  Zt = -1,96, entonces rechazamos H0 y concluimos a un


nivel de significancia de 0.05 y afirmamos que la máquina no funciona adecuadamente,
por lo tanto, necesita un ajuste.

Ejemplo Nº2
Una máquina para enlatar conservas de pescado ha sido regulada para que el contenido de
cada lata sea de 16 onzas. Usando  = 0.05, ¿ diría Ud. que la máquina ha sido
adecuadamente regulada, si una muestra de 36 latas dio un peso medio de 16.05 onzas y
una desviación típica de 1.5 onzas?

Ejemplo Nº3
De la experiencia de muchos exámenes de admisión a la Universidad Nacional Pedro Ruíz
Gallo, se obtiene una calificación media de 64 puntos, con una desviación estándar de 8
puntos. De una muestra de 81 estudiantes que rindieron el último examen. Se obtuvo una
calificación media de 68 puntos. Utilizando = 0.01, ¿ puede asegurarse que los
estudiantes han elevado su rendimiento?
Solución

Formulación de las hipótesis :


H0:  = 64 y la hipótesis alternativa adecuada
H1:  > 64
2. Nivel de significación:  = 0.01

3. Estadística: Población normal con varianza conocida, la estadística apropiada es.

Z=

4. Región Crítica: Para  = 0.01 y una prueba unilateral con cola a la derecha , en la
tabla normal N( 0,1) se encuentra el valor crítico

Z =Z0.01 = 2.33

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 76


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

0.99

5. Cálculos: De los datos se tiene.


n=81, = 68,  = 8

Z= = = 4.4

6. Decisión: Como el ZC = 4.4  Zt= 2.33, entonces rechazamos H0 y concluimos que


podemos asegurar que a un nivel de confiabilidad del 99% que los postulantes han
elevado su rendimiento.

Ejemplo Nº4.
El gerente de la Empresa empresa de transportes E&S desconfía de la afirmación de que la
vida útil promedio de ciertos neumáticos es de almenos 28 000 millas. Para verificar ese
argumento, la empresa instala 40 de esos neumáticos en sus camiones y obtiene un ciclo
de vida medio de 27463 millas con una desviación estándar de 1348 millas. ¿ Qué puede
concluir el gerente de ese dato, si la probabilidad de un error I se fija en cuando más 0.05?
Solución:
1.- Formulación de las Hipótesis
H0 :   28 000 millas
H1 :   28 000 millas
2. Nivel de significación:  = 0.05

3. Estadística: Población normal con varianza conocida, la estadística apropiada es. Z=

4. Región Crítica: Para  = 0.05 y una prueba unilateral con cola a la izquierda , en la
tabla normal N( 0,1) se encuentra el valor crítico

Z =Z0.05 = -1.645

5. Cálculos: De los datos se tiene.


n=40 , = 27 46368 ,  = 1 348

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 77


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Z= = = -2,52

6. Decisión: Como -2,52  -1,645 entonces rechazamos H0 a un nivel de significancia de


0.05; en otras palabras se confirma la sospecha del gerente de la empresa de
transportes de que 28000 millas.

Ejemplo Nº5.

Una máquina llenadora de botellas de gaseosa; se supone que el volumen medio de


gaseosa en cada botella es de 32 onzas, con una desviación estándar de 0.06 de onza. En
una comprobación sistemática para verificar que si la máquina funciona adecuadamente,
se toman aleatoriamente 36 botellas llenas y se advierte que contiene una media de 32.1
onzas. A un nivel de significación de 0.05, ¿La máquina funciona adecuadamente ( o está
bajo control)?

Solución

1.- Formulación de las Hipótesis


H0:  = 32 onzas
H1:   32 onzas
2.- Nivel de significación:  = 0.05

3.-Estadística: Población normal con varianza conocida, la estadística apropiada es.

Z=

4.- Región Crítica: Para  = 0.05; y una prueba bilateral ó con dos colas; en la tabla
normal N( 0,1) se encuentra el valor crítico
Z/2 =Z0.05/2 = Z0.025 = -1.96 ó También es lo mismo:
Z1-/2 =Z1-0.05/2 = Z0.975 = 1.96

0.95

-1.96 1.96

5.- Cálculos de los datos se tiene.

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 78


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

n = 36; = 32.1;  = 0.06

Z= = = 10

6.- Decisión: Como Zc =10 > Zt =1,96, entonces rechazamos la H0 a un nivel de


significancia de 0.05 y afirmamos que la máquina no funciona adecuadamente, por lo
tanto, necesita un ajuste.

2.yooo
- Pruebas de Hipótesis acerca de una media : Varianza 2
supuesta desconocida.

A) Población no normal.
Si la población no tiene distribución normal, pero si el tamaño de la muestra es grande (

n  30 ), se suele utilizar la estadística Z=

Donde la desviación estándar  se estima puntualmente por S.

Ejemplo.
En la investigación de varias denuncias respecto al aviso "Peso Neto 300gr"que aparece
en los frascos de café molido" El Morenito", el comité de Defensa del Consumidor
seleccionó una muestra de 36 frascos, la muestra arrojó un peso neto medio de 298 g y
una desviación estándar de 7.5 gr. Utilizando un nivel de significancia de 0.01, ¿ Qué
conclusión debe sacar el comité de Defensa acerca de la operación de la compañía
envasadora de café?

Solución.
1.- Formulación de las Hipótesis
H0:  =300 gr
H1:   300 gr
2. Nivel de significación:  = 0.01

3. Estadística: Población normal con varianza conocida, la estadística apropiada es.

Z=

4. Región Crítica: Para  = 0.01 y una prueba unilateral con cola a la izquierda , en la
tabla normal N( 0,1) se encuentra el valor crítico

Z =Z0.05 = -2.33

∞=1% 0.99

-2.33

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 79


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

5. Cálculos: De los datos se tiene.

n=36, = 298,  = 7.5  S datos obtenidos de la muestra

t= = = -1.60

6.- Decisión: Como -1,60  -2.33; no se rechaza H0 ( se acepta H0), luego se puede
concluir que la compañía envasadora está cumpliendo con el peso neto enunciado.

B) Población normal.
Sean y S2 la media y la varianza de una muestra aleatoria de tamaño n, seleccionada
de una población con distribución normal N ( ,2), donde  y 2 son desconocidas.

Entonces, la estadística. t = , tiene distribución t-Student con n-1 grados de

libertad: Donde: t0 = t(1-) (n-1)


Ejemplo 1.
Las cajas de un cereal producidas en una fábrica, deben tener un contenido de 16
onzas. Un inspector tomó una muestra que arrojó los siguientes pesos en onzas:
15.7, 15.7, 16.3, 15.8, 16.1, 15.9, 16.2, 15.9, 15.8, 15.6.
Indicar si es razonable que el inspector, usando un nivel de significación del 5%, ordene
se multe al fabricante.
Solución.

1.- Formulación de las Hipótesis


H0:  = 16
H1:  < 16
2.- Nivel de significación:  = 0.05

3.- Estadística: Población normal con varianza conocida, la estadística apropiada es.

t= , tiene distribución t-Student con 9 grados de libertad.

4.- Región Crítica: Para  = 0.05 y una prueba de una cola a la izquierda, en la tabla
de probabilidades t-Student se encuentra t0= t() (n-1) = t(0.05)(9) = -1.833.

Observación.
Si la cola estuviera hacia la derecha, entonces el valor de t se toma de la siguiente
manera: t(1-) (n-1) = t(0.95)(n-1)

-1.83

5.- Cálculos: reemplazando en el estadístico de prueba los datos se tiene.

N =10, = 15.9 S= 0.231; Estos valores se calculan de la muestra.

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 80


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

tc = = = -1.368

6. Decisión: Como tc = –1.368 > tT = -1.833; no se rechaza H0 , por lo tanto se


concluye que no se multaría al fabricante a un nivel de significancia del 5%, por
estar bien los pesos, la diferencia se debe al azar.

Ejemplo 2.
Se sabe que los ingresos quincenales de un gran número de individuos se distribuyen
normalmente con una media de S/ 152. En un estudio estadístico reciente una muestra
aleatoria de 9 individuos de esa población ha dado los siguientes ingresos quincenales ( en
soles):
158; 154; 152; 156; 151; 150; 153; 155; 157.
A nivel de significancia del 5% ¿Ha cambiado el ingreso medio quincenal de tal población?.

Solución.

1.- Formulación de las Hipótesis


H0:  =152
H1:   152
2.- Nivel de significación:  = 0.05

3.- Estadística: Población normal con varianza conocida, la estadística apropiada es.

t= , tiene distribución t-Student con 8 grados de libertad.

4.- Región Crítica: Para  = 0.05 y una prueba bilateral con dos colas, en la tabla de
probabilidades t-Student se encuentra t0 = t(1-/2) (n-1) = t(0.975,8) = 2.306.

Zona de aceptación

5.- Cálculos: De los datos se tiene.


n= 9, = 154 S= 2.7386 de la muestra

t= = = 2.19

6. Decisión: Como 2.192.306; no se rechaza H0 y se concluye que la media de los


ingresos quincenales no ha variado.

2.- Pruebas de Hipótesis acerca de dos medias:


Pruebas de hipótesis acerca de dos medias:Varianzas y supuestamente
conocidas.

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 81


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Si las dos poblaciones son normales o no, pero n 1 y n2 son suficientemente grandes( n 1  30
y n2 30), entonces tienen respectivamente distribución normal o
aproximadamente normal.

N(1, 2 - ) . Luego, la estadística.

-( 1- 2 )
Z= 2

Ejemplo1: Dos grupos de trabajadores de una empresa Agroindustrial, han sido sometidos
a un entrenamiento por dos métodos diferentes, que llamaremos A y B. Una vez terminada
la instrucción, para verificar la eficacia de los métodos, se aplicó un examen arrojando los
siguientes resultados:

Método A Método B
= 73.4 = 70.3
S1 = 8 S2 = 10
n1 = 50 n2 = 50

Utilizando un nivel de significancia de 0.05 ¿puede asegurarse que las medias de ambos
métodos no son iguales?

Solución.
Como n1  30 y n2 30 entonces los datos se aproximan a una distribución normal y por
lo tanto se puede aproximar a S1  1 y S2 2

1. - Formula de hipótesis.
H0: 1 = 2 , (1 -2= 0)
H1:   2
2.- Cálculo del punto crítico"z0". Por ser una prueba de dos colas, con =0.05,
entonces:
P(Z  z0 ) = 0.975

F(z0 ) = 0.975
z0 = 1.96

3.- Región Crítica.

0.95

4. Cálculo del estadístico "Z"


Por la fórmula:

Z= = = 1.71

5.- Toma de decisión.Como 1.71 no es mayor que 1.96, no se rechaza H 0 ( se acepta


H0) luego se puede concluir que las medias de ambos métodos son iguales.

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 82


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Ejemplo2. En un sistema académico universitario, se aplicaron dos métodos A y B para la


enseñanza de la Tecnología de Alimentos; en un grupo de n 1 = 100 se aplicó A y en otro de n 2
= 300 se aplicó B. Las medias de las calificaciones obtenidas fueron: = 12 para A e = 12.2
para B. ¿ Puede admitirse que los métodos de enseñanza no difieren en los resultados y que
las diferencias encontradas en las muestras se deben al azar?. Por experiencias anteriores se
conoce que cada variable X e Y, que representan los resultados respectivos, tiene distribución
normal con varianzas 3 y 3.12, respectivamente. Usar =0.01

Solución.
1.- Formula de hipótesis.

H0: 1 = 2 , (1 -2= 0)


H1: 1  2 , ( 1 - 2  0 )

2.- Cálculo del punto crítico"z0". Por ser una prueba de dos colas, con =0.01, pero
como es una prueba de dos colas se tiene /2=0.005 entonces:
P(Z  z0 ) = 0.995
F(z0 ) = 0.995
z0 = -2.58

3.- Estadística.

Z= =

4.- Región Crítica

0.99

5.- El valor del estadístico, correspondiente a la diferencia de medias, es.

Z=

6.- Toma de Decisión: Como el valor de -0.9950 no cae en la región de rechazo;


podemos considerar que la diferencia hallada entre las medias muestrales no es
significativa al nivel de 0.01.

2.- Pruebas de Hipótesis acerca de una proporción : Varianza 2


supuesta
desconocida.

Las pruebas de hipótesis con respecto a una proporción poblacional "p" son básicamente
iguales que las medidas.
Consideremos el problema de probar la hipótesis de que la proporción de éxito en un
experimento binomial es igual a un valor dado. El estadístico de prueba es la siguiente:

Z=

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 83


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Ejemplo.
Un gobernante afirma que en su país existe el 40% de desocupados. Con el fin de evaluar
esta afirmación se tomó una muestra de 500 personas resultando que 300 son
desocupadas. Sobre la base de esta información obtenida. ¿ qué se puede decir acerca de
la afirmación del gobernante? Usar  =0.05

Solución:

1.- Formulación de la hipótesis.


H0: p = 0.40
H1: p > 0.40

En la muestra de tamaño 500, la proporción de desocupados es = 0.6

2.- Cálculo del punto críticos "Z" por ser la prueba de dos colas, son  = 0.05.
P( zi >zo )= 0.95; F(z0) = 0.95; z0 = 1.645

3.- Estadística

Z= =

4.- Región Crítica.-

0.95

5.- Cálculo del estadístico "Z" por la fórmula: Población normal con varianza conocida,
la estadística apropiada es.

Z= =

6.- Toma de decisión: Como 9.128 es mayor que 1.64, se rechaza H 0, luego se puede
concluir con un riesgo del 5% que el desempleo es mayor que el que anuncia el
gobernante.

Ejercicio Nº1
El consumidor de cierto producto acuso al fabricante, diciendo que más de 20% de las
unidades que fabrican son defectuosas. Para confirmar su acusación, el consumidor usó una
muestra aleatoria de tamaño 50, donde el 27% de las unidades eran defectuosas ¿Qué
conclusión puede extraer Ud.? use = 0.05

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 84


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

TEMA 2 ----PRUEBAS BASADAS EN LA DISTRIBUCION CHI-CUADRADA

Las pruebas de independencia y de homogeneidad están entre las más comúnmente usadas
en los procedimientos estadísticos.
Estos test están basados en una técnica introducida por Karl Pearson en 1900, quién ha sido
llamado el "fundador de la ciencia estadística".

1.- Propiedades matemáticas de la distribución chi-cuadrado.

Consideremos la normal

Donde y

Luego, si se eleva al cuadrado esta normal se tiene que: y se tiene que Z2 tiene

distribución chi-cuadrado con un grado de libertad, esto es:

Si ahora consideramos: y Entonces: y se dice

que: tiene distribución chi-cuadrado con 2 grados de libertad.


En general:

Para cualquier distribución chi-cuadrada se tiene que:


Por ejemplo, si , entonces el valor medio será 10 y la varianza será 20.
Además:

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 85


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

2.- La Prueba Chi-cuadrado de independencia.


Esta prueba se usa cuando el interés es determinar si dos variables están asociadas.

Ejemplo: Contrastar al nivel de 5% si hay alguna relación entre las notas que obtuvieron en pre
grado y el salario que perciben los 150 empleados de la Universidad de Lima.
S Notas del Pre Grado
A Alta Media Baja Total
L Alto 18 17 5 40
A Medio 26 38 16 80
R Bajo 6 15 9 30
I Total 50 70 30 150
o

Solución:
i) Hipótesis: Ho: Notas del Pre Grado y el salario son independientes.
H1: Existe alguna relación entre notas del Pre Grado y el salario.

ii) Nivel de significancia: α=0.05

iii) Estadígrafo de contraste:

En nuestro caso, bajo la hipótesis Ho anterior, las frecuencias esperadas son calculadas
mediante la expresión

Así tenemos:

Podemos formar entonces la siguiente tabla de contingencia 3x3


Notas

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 86


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Salario Alta Media Baja Total


Alto 18 (13.33) 17 (18.67) 5 (8 ) 40
Medio 26 (26.67) 38 (37.33 ) 16 ( 16 ) 80
Bajo 6 ( 10 ) 15 ( 14 ) 9 ( 6 ) 30
Total 50 70 30 150

El valor calculado de la X2, es:

iv) Región crítica: En este problema, el número de grados de libertad es


Φ=(3-1)(3-1)=4
Para =0.05 y Φ=4, en la Tabla II se encuentra

Luego la región crítica será:

VI) Conclusión: No se rechaza Ho, pues X2=6.1107 < 9.488 y concluimos de que no hay
relación entre las notas del Pre Grado y el salario, es decir, las dos características son
independientes.

Ejemplo: En la siguiente tabla se dan los resultados obtenidos por 435 estudiantes en
Estadística I y Matemática I. Contraste la hipótesis de que los resultados obtenidos en
Estadística I son independientes de los resultados obtenidos en Matemática I; al nivel de
2.5%.
Estadística I
0≤nota<10 10≤nota<14 14≤nota≤20 Total
MA 0≤nota<10 70 40 15 125
TE 10≤nota<14 30 130 25 185
MA 14≤nota≤20 15 60 50 125
TICA I Total 115 230 90 435

Ejemplo:
2.764 residentes del gran Santiago fueron clasificados de acuerdo a sus ingresos y el
tiempo transcurrido desde que ellos consultaron por última vez a un médico.

Ingresos Tiempo
TOTAL
(en miles) <6 meses 7 – 12 meses >12 meses
<200 186 38 35 259
200 – 300 227 54 45 326
301 – 500 219 78 78 375
501 – 800 355 112 140 607
>801 653 285 259 1.197
TOTAL 1.604 567 557 2.764

¿Proporcionan estos datos evidencia suficiente para indicar que existe una asociación
entre el ingreso y el tiempo transcurrido desde la última consulta al médico?
Si no existe asociación entre las dos variables se dice que son independientes.

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 87


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Dos variables son independientes cuando la distribución de una de ellas no depende de


la distribución de la otra.
Por ejemplo, dos variables son independientes si al conocer el valor de una de ellas
para un sujeto no ayuda para determinar el valor de la otra variable para el mismo sujeto.

Es de interés docimar:
H0 : los dos criterios de clasificación son independientes.
H1 : los dos criterios de clasificación no son independientes.
Para docimar H0 se comparan las celdas de frecuencias observadas con las celdas de
frecuencias esperadas y se usa la estadística:

Donde: y la decisión es rechazar H0 a un nivel

de significación si el valor calculado de la estadística X 2 excede el valor de tabla:

En el ejemplo:
H0: el ingreso y el tiempo transcurrido desde la última visita al médico son independientes.
H1: las dos variables no son independientes.

de donde:

De la tabla luego se rechaza H0 .

Ejercicio: Un estudio de mercado de la Empresa E&S, proporciona los datos que siguen, donde
la muestra de 800 consumidores de un producto específico opinan acerca de las tres formas de
presentación de las tres marcas que aparecen en el mercado.

MARCA DEL PRODUCTO


PRESENTACION M1 M2 M2
P1 200 130 70
P2 60 60 80
P3 40 60 100

a)Si el estudio culmina afirmativo, al nivel de significación 0.05, que el consumidor solo tiene
en cuenta marca del producto pero no la presentación. ¿ Esta Ud de acuerdo con la afirmación?
Si no está de acuerdo ¿Cómo mide el nivel de independencia entre estas dos variables
cualitativas? ¿Es significativa la independencia?

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 88


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

3.- Prueba de homogeneidad.


Esta prueba se usa para comparar proporciones en dos o más muestras.
H0 : las k poblaciones son "homogéneas" con respecto a la proporción de sujetos
que poseen la característica de interés.

En general se selecciona una muestra de cada población en estudio y los sujetos se


clasifican de acuerdo a una característica de interés.
La estadística que se usa en esta prueba es la misma que se usa para la prueba de
independencia :

Y se rechaza

Ejemplo:
Para determinar la conciencia pública y preocupación por la polución atmosférica, se
entrevistó a una muestra de 40 residentes en cada una de 3 áreas del gran Santiago. La
pregunta fue :
¿Es la polución atmosférica un problema en su vecindario?

AREA NO SI DUDA NO SABE TOTAL


NORTE 5 31 2 2 40
SUR 10 21 4 5 40
ORIENTE 11 20 7 2 40
TOTAL 26 72 13 9 120

Solución
H0: las tres poblaciones de residentes son homogéneas con respecto al conocimiento de los
problemas de la polución.
H1: las tres poblaciones no son homogéneas.

Ya que:

no hay evidencia para rechazar H0 a un nivel .

4. - Pruebas de bondad de ajuste.

Las pruebas de bondad de ajuste son herramientas útiles para evaluar lo bien que se
aproxima un modelo de una situación real a un diseño descrito previamente (modelo
teórico).

Por ejemplo, asumamos que tenemos un conjunto de datos que se distribuyen


normalmente, así es que un test estadístico particular puede ser usado.
¿Cómo podemos decidir si la suposición o hipótesis es válida?
El test X2 para bondad de ajuste, compara valores observados y esperados.

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 89


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

H0: la muestra ha sido seleccionado de una población que tiene una distribución
específica.
H1: la muestra no ha sido seleccionada de una población que tiene la distribución
específica.
Nota:
La hipótesis alternativa no indica como la verdadera distribución difiere de la hipotética.
Cuando H0 es verdadera, los ejemplos se obtienen por: Ej=

Luego:

Donde: r = nº de categorías.

Ejemplo: Distribución uniforme.


En un estudio para determinar si los consejeros con antecedentes raciales y étnicos
diferentes son preferidos por personas de antecedentes similares, se consideraron 36
personas para que elijan un consejero entre 6 grupos de ubicación por sexo y raza.
Los resultados fueron los siguientes:

Consejero Ei Oi
Elegido
Hombre negro 6 13
Hombre nórdico 6 6
Hombre blanco 6 0
Mujer nórdica 6 3
Mujer negra 6 11
Mujer blanca 6 3
Total 6 36

H0: los consejeros disponibles son igualmente preferidos.


ó
H0 : P1 = P2 = ... = P6
 H0 : Pi = Pj , i = 1, 2, ···, 5
j = 2, ···, 6
H1 : algún Pi ¹ Pj , " i ¹ j

Luego :

Como se rechaza H0

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 90


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

CAPITULO IX

ANALISIS DE REGRESION LINEAL Y CORRELACION


ANALISIS DE REGRESION LINEAL
En la investigación estadística es muy frecuente encontrar variables que están relacionadas o
asociadas entre sí, es decir existen variables que se pueden explicar en función de otras
variables.
Por ejemplo; el consumo de las familias depende de sus ingresos, el tiempo de servicios en el
trabajo depende de la edad, el peso de los alumnos depende de la estatura, el rendimiento
académico del alumno depende de las horas de estudio, las ventas dependen de la publicidad,
etc., es decir existe una dependencia mutua entre los diferentes fenómenos o acciones
vinculados con el hombre.
A esta relación de dependencia entre variables se le conoce con el nombre de regresión; que
en resumen consiste en observar en un determinado tiempo como ha influido el
comportamiento de una variable en la otra. Ajustando este comportamiento a una recta (recta
de regresión) estaremos en condiciones de efectuar predicciones para el futuro.
Cuando se tienen “n” observaciones bidimensionales, cada par de datos se puede expresar
como pares ordenados {(X1,Y1), (X2,Y2)......(Xn,Yn)}, que al graficarse en el plano cartesiano
estos puntos forman una NUBE DE PUNTOS que se le llama
DIAGRAMA DE DISPERSION que puede tomar diferentes formas:

Y
Y

Relación lineal positiva Relación lineal negativa


X X
Y Y

Relación no lineal Ninguna relación


X
X

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 91


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

En esta unidad trataremos de la parte básica del tema de la regresión lineal simple
determinado por la función lineal : Y = b0 + b1 X

REGRESION LINEAL SIMPLE

Es una técnica estadística que analiza si los valores de una variable dependiente e
independiente puede predecirse mediante un modelo lineal.
Las variables implicadas en el modelo deben ser cuantitativas y continuas.
Para ajustar una línea recta de Regresión, se considera la ecuación de la recta:
= b0 + b1Xi; que tiene dos parámetros “b0” y “b1”

Y = b0 + b1x i
b1
Unidad de X
b0
X
Donde : b0 = distancia que existe entre el origen de coordenadas y el punto de
intersección de la recta con el eje Y
b1 = Coeficiente de Regresión (pendiente, proporción de cambio)
X = Variable independiente. ( estimulo, de influencia, causa,)
Y = variable dependiente (respuesta, criterio, efecto)
Interpretación del coeficiente b.

Si b1  0 : La tendencia lineal es creciente , es decir a mayores valores de X


corresponden mayores valores de y.
Si b1  0 : La tendencia lineal es decreciente, es decir, a menor valores de X
corresponden mayores valores de y.
Si b1 = 0 , entonces = b0 . luego; permanece estacionario para cualquier valor
de X, es decir, no hay regresión.

Si los pares ( Xi , Yi ) se encuentran aproximadamente alineados, lo que indica que se puede


“ajustar” una línea recta a los puntos; esto es, se puede hacer pasar una recta que esté lo “
mas cerca” de ellos. La elección de tal recta puede hacerse por diversos métodos, el más
simple es el que se realiza a mano “alzada”. Este método no es tan riguroso pues depende de
la persona que lo ejecuta. Otro método es el que considera la recta que une los puntos más
extremos del grupo. Uno de los más usados y que describiremos a continuación, es el método
de mínimos cuadrados.

ESTIMACION POR EL METODO DE LOS MINIMOS CUADRADOS:

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 92


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Una tarea principal en el análisis de regresión lineal, es estimar los parámetros “b 0” y “b1”,
cuyos valores se determinan a partir de los datos bidimensionales. El método de los mínimos
cuadrados consiste en hacer mínima la suma de los cuadrados de la diferencia entre los
valores observados (yi), y los valores estimados ( ) es decir:
SCD =  ( Yi – )2 = sea mínima.
El cálculo de los estimadores de los coeficientes de regresión a partir de los datos muestrales,
viene dado por la siguiente expresión.

; b0 =  b1 ( )

Ejemplo de Aplicación.

En un estudio de la relación entre la publicidad por radio y las ventas de un producto


durante 10 semanas se han recopilado los tiempos de duración en minutos de la
publicidad por semana (X) y el número de artículos vendidos (Y), resultando
Semana 1 2 3 4 5 6 7 8 9 10
Publicidad (X) 20 30 30 40 50 60 60 60 70 80
Ventas (Y) 50 73 69 87 108 128 135 132 148 170

a) Trazar el diagrama de dispersión, e indicar la tendencia


b) Calcular la recta de regresión de mínimos cuadrados con el fin de predecir las ventas.
c) Si en la novena semana se incrementara la publicidad en 5 minutos determine en cuanto
se estima se incrementen las ventas.
Solución.
a) Al trazar el diagrama de dispersión, se observa que existe una relación lineal positiva entre
el número de artículos vendidos y el tiempo de publicidad semanal por radio
b) Para determinar la recta de regresión por el método de mínimos cuadrados a partir de los
datos, es decir para calcular b0 y b1 se requiere realizar los siguientes cálculos que se
tienen a continuación.

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 93


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

X Y xy x 2
Y 2

20 50 1000 400 2500


30 73 2190 900 5329
30 69 2070 900 4761
40 87 3480 1600 7569
50 108 5400 2500 11664
60 128 7680 3600 16384
60 135 8100 3600 18225
60 132 7920 3600 17424
70 148 10360 4900 21904
80 170 13600 6400 28900
500 1100 61800 28400 134660
Donde :

n = 10 ;

Estimando el parámetro b1:

b1 = = =2

Estimando el parámetro b0 :
b0 =  b ( ) = 110 - ( 2 )(50 ) = b0 = 10

Ecuación de regresión estimada. = 10 + 2 xi

C.- Incremento de las Ventas

c.1.- El valor estimado de las ventas en la novena semana es :

Si en la novena semana se invirtió X = 70 minutos  se espera vender.

 9 = 10 + 2 ( 70 ) = 150 artículos

En la novena semana se espera vender 150 artículos.

c.2.- Si en la novena semana se incrementa el tiempo de la propaganda en 5 minutos,


entonces, el tiempo invertido con el incremento será de X = 75 minutos  la
venta estimada será de.
  = 10 + 2( 75 ) = 160 artículos, entonces el incremento de las ventas
después de aumentar los 5 minutos es de 160–150= 10 artículos.

Ejercicio propuesto.

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 94


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

1.- Los siguientes datos corresponden al ingreso mensual ( X) y egreso mensual


( Y ) de 10 profesores estatales.
x 450 630 500 750 750 600 650 800 1000 850
y 420 600 500 730 720 580 600 750 850 800

a) Construir el diagrama de dispersión


b) Estimar la ecuación de regresión y graficarla en el diagrama de dispersión.
b) En cuanto se estima el egreso mensual de un profesor que tiene un ingreso de 920
soles mensuales.

CORRELACIÓN LÍNEAL

Es una parte de la Estadística Descriptiva que tiene por objetivo investigar la relación que hay
entre dos o más variables estadísticas, determinar el sentido de relación y cuantificar el grado
de nivel de correlación entre las variables con respecto a sus coeficientes.

Coeficiente de correlación
Es el valor numérico que da a conocer el grado de relación que existe entre dos o más
variables. Se representa por la letra r.

Propiedades
 1 r 1
a) Si r > 0 Correlación Directa
b) Si r < 0 Se trata de una Correlación Inverso Negativo.
c) Si r2 = 1 los datos forman una línea recta.
d) Si r = +1 hay una correlación perfecta (+)
e) Si r = -1 hay una correlación perfecta (-)
f) Si r = 0 Los datos son incorrelacionados

Interpretación Clásica ( Para valores positivos y negativos)


a) 0.00 < r < 0.20 es una correlación no significativa.
b) 0.20  r < 0.40 es una correlación baja.
c) 0.40  r < 0.70 es una significativa correlación
d) 0.70  r < 1.00 alto grado de asociación.

Ejemplo: Calcular el coeficiente de correlación con los datos del ejemplo anterior para lo cual se
requiere realizar los siguientes cálculos que se tienen a continuación.
X y xy X 2
Y 2

20 50 1000 400 2500


30 73 2190 900 5329
30 69 2070 900 4761
40 87 3480 1600 7569

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 95


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

50 108 5400 2500 11664


60 128 7680 3600 16384
60 135 8100 3600 18225
60 132 7920 3600 17424
70 148 10360 4900 21904
80 170 13600 6400 28900
500 1100 61800 28400 134660

Donde : n = 10 ;

Cálculo del coeficiente de Correlación.

Interpretación: Existe un alto grado de asociación entre los minutos de publicidad empleados
en la radio y el número de artículos vendidos, por lo tanto estas dos variables se pueden
relacionar mediante una función lineal y poder realizar pronósticos confiables, ya que los datos
se ajustan muy bien a la recta estimada.

Coeficiente de Determinación.( R2 ).- Mide la proporción o porcentaje de variación


existente en Y que es explicada por la variación de X, se expresa en términos de porcentaje
por 100*R2 y se define por:

Error de Estimación (Se).- Es una medida de la cantidad media en que las observaciones
reales Y varían en torno a la recta de regresión. (regresión de Y/X ) viene dada por :

Se = S Y/X =

ESTIMACION DE INTERVALOS EN EL ANALISIS DE REGRESION


Uno de los fines básicos del análisis de regresión es proyectar y predecir valores de la variable
dependiente. Como hemos visto, una vez determinada la ecuación de regresión, es sencillo
hacer una estimación puntual de la variable dependiente con sólo sustituir el valor de X en la
ecuación y resolver ésta para hallar . Pero además, también se puede estar interesado en
estimaciones de intervalo que en muchas oportunidades son muy importantes.
Hay como mínimo dos estimaciones de intervalo que se suele asociar con los procedimientos
de regresión.

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 96


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

1.- Estimación de Intervalo para el Valor Medio Y dado un valor de X. Se calcula de la


siguiente manera:

I:C: para y/x = ± t Sy = ± t(1-/2)Se ; t con ( n-2)g.l.

Donde es el estimador puntual hallado a partir de la ecuación de regresión original y el valor


de t se basa en un nivel de confianza elegido con n-2 grados de libertad. Hay n-2 grados de
libertad porque tenemos que calcular dos valores b 0 y b1 a partir de los datos maestrales.
Perderemos dos grados de libertad. Se es el error de estimación.

2.- Intervalo predictivo para un valor único de Y

I:C: para y/x = ± tSy = ± t(1-/2)Se ; t con ( n-2)g.l.

EJERCICIO
Jaimito observa el gasto en publicidad, precio y volumen de venta de galones de
leche de 10 semanas elegidas en forma aleatoria. Los datos obtenidos se
presentan en la siguiente tabla.
Semana Ventas( En Miles), Precio por Galón Publicidad( Cientos
Y X2 de Dólares) X3
1 10 1.30 9
2 6 2.00 7
3 5 1.70 5
4 12 1.50 14
5 10 1.60 15
6 15 1.20 12
7 5 1.60 6
8 12 1.40 10
9 17 1.00 15
10 20 1.10 21
a) Calcular la ecuación de Regresión de las ventas con la publicidad, y las ventas con el
precio.
b) Calcular e interpretar el Coeficiente de Regresión, determinación, y error estándar
Calcule el intervalo predictivo para la media y un valor individual a un nivel de confianza del
95%

REGRESIÓN MULTIPLE

En la regresión simple, se investiga la relación entre las variables independiente y


dependiente. A menudo, la relación entre dos variables permite a una persona predecir con
precisión la variable dependiente a partir del conocimiento de la variable independiente. Por
desgracia, muchas de las situaciones de la vida real no son tan simples. Por lo regular, se

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 97


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

necesita más de una variable independiente para pronosticar con precisión la variable
dependiente . Cuando se emplea más de una variable independiente o de predicción, el
problema se convierte en uno para el análisis de regresión múltiple. Los conceptos básicos
siguen siendo los mismos, sólo se utiliza mas de una variable independiente para pronosticar la
variable dependiente.

La Regresión múltiple comprende el uso de más de una variable independiente para


pronosticar una variable dependiente.
En el análisis de regresión múltiple se utilizan X con subíndices para representar a las
variables independientes ( X2,, X3, X4, . . . Xn. La variable dependiente se continua representando
con Y. Teniendo la siguiente ecuación:
= bo + b2 X2 + b3 x3 + . . . + bn Xn Ecuación de regresión múltiple
Ecuaciones normales cuando de tienen dos variables independientes y una variable
dependiente.

= nb0 + b2 +b3

= b0 +b2 + b3

= b0 + b2 + b3

Ejemplo:
Jaimito observa el gasto en publicidad, precio y volumen de venta de galones de leche de 10
semanas elegidas en forma aleatoria. Los datos obtenidos se presentan en la siguiente tabla.

Semana Ventas( En Miles), Precio por Galón Publicidad( Cientos


Y X2 de Dólares) X3
1 10 1.30 9
2 6 2.00 7
3 5 1.70 5
4 12 1.50 14
5 10 1.60 15
6 15 1.20 12
7 5 1.60 6
8 12 1.40 10
9 17 1.00 15
10 20 1.10 21
c) Calcular la ecuación de Regresión
d) Calcular e interpretar el Coeficiente de Regresión, determinación, y error estándar

Solución
Semana Y X2 X3 X2Y X3Y X2X3 Y2 X X

1 10 1.30 9 13 90 11.7 100 1.69 81


2 6 2.00 7 12 42 14.0 36 4.00 49
3 5 1.70 5 8.5 25 8.5 25 2.89 25
4 12 1.50 14 18 168 21.0 144 2.25 196
5 10 1.60 15 16 150 24.0 100 2.56 225
6 15 1.20 12 18 180 14.4 225 1.44 144
7 5 1.60 6 8 30 9.6 25 2.56 36

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 98


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

8 12 1.40 10 16.8 120 14.0 144 1.96 100


9 17 1.00 15 17 255 15.0 289 1.00 225
10 20 1.10 21 22 420 23.1 400 1.21 441
Totales 112 14.40 114 149.3 1480 155.3 1488 21.56 1522
Medias 11.2 1.44 11.4
Reemplazando en las ecuaciones normales se obtiene los siguiente.
1) 112 = 10b0 + 14.4b2+ 114b3
2) 149.3 =14.4b0 +21.56b2+155.3b3
3) 1480 = 114b0 +115.3b2 + 1522b3
Resolviendo las ecuaciones por cualquier método, se obtiene los siguiente resultados: b 2 = -
8.2476 ; b3 = 0.5851 ; b0 = 16.4064
Sustituyendo en la ecuación de regresión múltiple se tiene: = 16.41 – 8.25 X2 + 0.59 x3
Esta ecuación resulta útil para pronosticar las ventas de la próxima semana. Si se planea un
precio unitario de $ 1.50 y gastos de publicidad de $ 1000, el pronóstico es de 9,930 galones;
esto es.
= 16.41 – 8.25 X2 + 0.59 x3 = 16.41- 8.25(1.5)+ 0.59(10) = 9.93 ( miles de galones)
Correlación Múltiple. Es otra herramienta que se utiliza para evaluar un modelo. Para mayor
comodidad, a menudo se da por su puesto el término múltiple en este contexto de la
explicación y se utiliza la denominación abreviada de coeficiente de determinación. Se calcula
de la siguiente manera.

R2 = 1- = 1- 15.9/233.6= 1.0.068 =0.93 :

Interpretación: El 93.2% de la varianza del volumen de ventas, están influenciados por el


precio por galón de leche y los gastos de publicidad.

Error Estándar de Estimación. Mide la cantidad estándar en que los valores reales (Y) difiere
de los valores estimados ( ). Es una medida de la cantidad media en que varían las
observaciones reales alrededor del plano de regresión y se calcula de la siguiente manera.

Sy..x2 x3 = = Sy..x2 x3 = = = 1.51

Interpretación. La cantidad típica en que el valor real de volumen de leche vendido difiere de
lo pronosticado mediante la ecuación de regresión múltiple es de 1.510 galones.

MATRIZ DE RECOLECCION.

En la siguiente tabla se ilustra una matriz de correlación: el coeficiente de correlación que


indica la relación entre dos variables 1 y 2 se representa como r 12. Nótese que el primer
subíndice (r12) se refiere al reglón y el segundo subíndice (r12 ) se refiere a la columna. Este
enfoque estandarizado le permite a uno determinar, a simple vista la relación entre cualquier
par de variables. Por su puesto, la relación entre variable y 2(r12) es exactamente la misma que
para las variables 2 y 1 (r 21).De ahí que solo sea necesaria la mitad de la matriz. Además, la

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 99


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

diagonal principal siempre contendrá unos, ya que siempre relaciona una variable consigo
misma ( r 11, r 22 r33).

MATRIZ DE CORRELACIÓN

Variables
VARIABLES 1 2 3
1 r11 r12 r13
2 r21 r22 r23
3 r31 r32 r33

Ejemplo: Matriz de Correlación.


Variables
VARIABLES 1 2 3
Ventas Precio Publicidad
Ventas:1 1 - 0.86 0.89
Precio2 1 - 0,65
Publicidad 3 1

Ejemplo: El gerente de ventas de la distribuidora “Delivery” se realiza un estudio del sistema


de reparto de sus pedidos, considerando las variables:
Y: Tiempo en minutos que demora la entrega del pedido.
X1: Peso en kilogramos de los pedidos
X2: Distancia recorrida en kilómetros
Y X1 X2
30 12 7
28 10 7
25 9 6
23 7 6
20 6 5
18 6 5
15 5 4
15 3 4
12 3 3
10 2 2

b) Describa el modelo de regresión lineal de los tiempos de reparto con respecto al


peso de los pedidos.
c) Obtenga las ecuaciones.

Ejemplo El dpto. de personal de la empresa P&C esta interesado en estudiar la relación que
tiene el salario, el tamaño de la familia y la antigüedad en el trabajo con los gastos. Para este
estudio, el especialista en la materia, escogió una muestra al azar de 10 miembros de todo el
personal de la empresa y registró los datos en la tabla que sigue, para las siguientes variables.

X1: Salario semanal en $


X2: Tamaño de la Familia
X3: Antigüedad en el trabajo
Y: Gasto semanal

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 100


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Y X1 X2 X3
20 25 3 5
25 28 5 8
30 35 4 6
32 35 5 2
37 40 5 7
40 45 5 4
40 50 5 5
45 45 6 4
55 70 6 5
60 80 5 3

1.- Elabore el modelo de regresión multiple.


2.- Elabore la matriz de correlación.

NOCIONES BÁSICAS DE REGRESIÓN NO LINEAL

En muchos casos de las ciencias experimentales, administrativas y sobre todo en las


economicas la que los datos no siempre se ajustan a una línea recta, pero se puede conseguir
una relación lineal mediante una transformación de estos valores.
A continuación se presentan algunas ecuaciones y gráficos no lineales y su transformación.

GRAFICO Nº 01

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 101


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

MODELOS NO LINEALES

Antes de proceder a la regresión, hay que transformar la ecuación no lineal, y = f(x), en otra
del tipo y = a + bx, donde y, x, a y b son funciones de y, x, a y b respectivamente.

Modelo Potencial Exponencial Logarítmico

Ecuación y ax b y aebx y a  b log x


Ecuación
log y log a  b log x ln y ln a  bx ----------
Linealizada
Log y Ln y y

Gráfica
Log x x Log x

Y Log y Ln y y

X Log x x Log x

A Log a Ln a a

B b b b

a 10 A eA A

b B B B

La regresión lineal no siempre da buenos resultados, porque a veces la relación entre y y x no


es lineal sino que exhibe algún grado de curvatura. La estimación directa de los parámetros de
funciones no-lineales es un proceso bastante complicado. No obstante, a veces se pueden
aplicar las técnicas de regresión lineal por medio de transformaciones de las variables
originales.

AJUSTE POTENCIAL

Ejemplo 1: Ajustar por el método de mínimos cuadrados una curva de la forma Y = ax b con los
siguientes datos que a continuación presentamos.

Solución

La transformación a la regresión lineal se da de la siguiente manera: y = ax b , aplicando log



logy = loga + b log x  haciendo la transformación.

Y´= log y ; A´ =log a, B´= b , X´ = logx : entonces la ecuación

logy = loga + b log x se puede expresar como: Y´ = A´ + B´X´

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 102


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Los datos se calculan en la siguiente tabla

X Y X´=logX Y´=logY X´Y´ X´^2 Y´^2


1.5 2.6 0.1761 0.4150 0.0731 0.0310 0.1722
2.0 2.4 0.3010 0.3802 0.1145 0.0906 0.1446
3.0 1.2 0.4771 0.0792 0.0378 0.2276 0.0063
3.5 1.8 0.5441 0.2553 0.1389 0.2960 0.0652
4.0 1.6 0.6021 0.2041 0.1229 0.3625 0.0417
5.0 1.4 0.6990 0.1461 0.1021 0.4886 0.0214
2.7993 1.4799 0.5892 1.4963 0.4512

B´= b = = = - 0.532

A´= = 0.24665- (-0.532)(0.46655)= 0.4949

La recta de estimación es Y´= 0.4949 + (- 0.532)X´ transformada, para encontrar la


ecuación de pronóstico se encuentra de la siguiente manera:

Para encontrar el valor de a = antilog(A´)= antilog(0.4949) = 3.125.


El valor de B´= b por lo tanto no se hace ninguna transformación.
Luego, la recta de estimación es: = antilog(Y`) = ( 3.125) X-0.532
Ecuación de Pronóstico: = (3.125) X-0.532
Los estimadores a y b de la ecuación lineal, también se puede calcular haciendo uso de las
ecuaciones normales de la ecuación de la recta pero transformadas como se muestra a
continuación:

En el siguiente cuadro se muestra los resultados obtenidos con el SPSS

Dependent variable.. y Method.. POWER

Multiple R .79040
R Square .62473
Adjusted R Square .53092
Standard Error .20707

Analysis of Variance:

DF Sum of Squares Mean Square

Regression 1 .28553490 .28553490


Residuals 4 .17151498 .04287874

F = 6.65912 Signif F = .0613

--------- Variables in the Equation ----------

Variable B SE B Beta T Sig T

x -.532027 .206170 -.790402 -2.581 .0613


(Constant 3.125132 .740875 4.218 .0135
Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 103
Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

ECUACION DE PRONOSTICO: = ( 3.125132) X- 0.532027

GRAFICO DE DATOS REALES Y ESTIMADOS


Y
2.8

2.6

2.4

2.2

2.0

1.8

1.6

1.4

1.2 Observed

1.0 Power
1 2 3 4 5 6

FUNCION EXPONENCIAL

La curva de regresión exponencial se determina a partir de la función exponencial de la forma:


Y = abX Donde a, b, son estimadores.
Otra forma de ecuación de exponencial es la siguiente:

Y = a ebx (Ecuación que trabaja el SPSS)

Esta función se utiliza cuando interesa calcular las tasas de incrementos considerando todos
los puntos observados durante un periodo, aquí se supone que existe un crecimiento no lineal
de tipo geométrico.
La ecuación Y = abX es semejante a la formula de interés compuesto donde b = 1+i y X =
tiempo, es decir:

Y = a (1+i ) X
ó Cn = Co + (1+i)n

De la misma manera que la función potencial, transformar la función exponencial original en


forma logarítmica de la ecuación general Y = abX Entonces se transforma en:

Log Y = lag a + X logb

Donde se puede calcular los estimadores de a y b:

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 104


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Y´= log Y ; A´ = loga B´ = logb

Log b = ; log a= =

Los estimadores a y b de la ecuación, también se puede calcular haciendo uso de las


ecuaciones normales que a continuación se muestran muestra:

Ejemplo.- Dados los datos:

X 1 2 3 4 5 6
Y 2.40 3.21 4.12 4.30 4.90 5.40

Ajustar a estos datos a una curva de la forma exponencial:


y = aebX
Solución

La transformación lineal de: y = aebX es ln y = ln (a) +bx


Donde la ecuación queda transformada de la siguiente manera

Y= A+ BX, donde Y= lny , A= ln a , B = b

CALCULOS PARA LOS ESTIMADORES


x y Y= lny xY x2 Y2
1 2.40 0.8755 0.8755 1 0.76650
2 3.21 1.1663 2.3326 4 1.36026
3 4.12 1.4159 4.2477 9 2.00477
4 4.30 1.4586 5.8344 16 2.12751
5 4.90 1.5892 7.9460 25 2.52556
6 5.40 1.6864 10.1184 36 2.84395
21 8.1919 31.3546 91 11.62855

De donde se tiene:

X = 21, Y= 8.1919 , xY= 31.3546, x2 = 91,


Y2 = 11.62855

B =b = = = 0.1533

A= log(a) = - b = 1.3653 – (0.1533)(3.5)=0.829


La recta de regresión con datos transformados es:

Y= 0.829 + 0.1533X

Entonces para convertir en la ecuación exponencial y poder realizar los pronósticos, se realiza
los siguientes cambios solamente en A, ya que B se toma normalmente sin ninguna
transformación.

A= antiln(a)= antiln(0.829) = 2.29. entonces la Ecuación de Pronóstico es:

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 105


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Y = anti ln(Y)= (2.29)e(0.1533) X:

r=

Estos mismos resultados se pueden observar en el siguiente cuadro:

Resultados con el SPSS con la Función Exponencial

Dependent variable.. Y Method.. EXPONENT

Listwise Deletion of Missing Data

Multiple R .96251
R Square .92642
Adjusted R Square .90803
Standard Error .09038

Analysis of Variance:

DF Sum of Squares Mean Square

Regression 1 .41138910 .41138910


Residuals 4 .03267296 .00816824

F = 50.36448 Signif F = .0021

------------ Variables in the Equation -----------

Variable B SE B Beta T Sig T

X .153323 .021605 .962508 7.097 .0021

Ecuación: Y= (2.290285)e(0.1533) X:

GRAFICOS DE LA FUNCION EXPONENCIAL

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 106


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Y
6.0

5.5

5.0

4.5

4.0

3.5

3.0

2.5 Observed

2.0 Exponential
0 1 2 3 4 5 6 7

Observación: Si los datos de este mismo ejemplo, se analizan por el método de potencia,
éstos se ajusten mejor a un modelo de regresión no lineal de potencia Y = aX b.

A continuación se presenta los resultados de la ecuación de potencia calculada con el SPSS en


la cual se puede apreciar mejor el ajuste de los datos, donde el coeficiente de correlación y el
error de estimación y es mayor y menor respectivamente con respecto a la regresión
exponencial.

Resultados con el SPSS por el Método de Potencia

Multiple R .99519
R Square .99041
Adjusted R Square .98801
Standard Error .03263

Analysis of Variance:

DF Sum of Squares Mean Square

Regression 1 .43980365 .43980365


Residuals 4 .00425842 .00106460

F = 413.11465 Signif F = .0000

------------- Variables in the Equation -----------

Y
Variabl B SE B Beta T Sig T
5.5
X .447574 .022021 .995194 20.325 .0000
(Constant)
5.0 2.397733 .066122 36.262 .0000

4.5

4.0

3.5

3.0

2.5
Observed

2.0 Power
Métodos Cuantitativos 0 1 2 3 4 5 6 MSc.
7 Alfonso Tesén Arroyo 107
X
Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Ejercicio: Ajustar los siguientes datos a una curva de la forma y=ae bx


X 1 2 3 4
Y 1.1 2.18 2.7 3.6

1)Calcular la ecuación de pronóstico


2)Calcular el coeficiente de correlación
3)Calcular el error de estimación

CAPITULO X

SERIES DE TIEMPO

Métodos de Series de Tiempo.

Estos modelos usan los métodos de series de tiempo. "Una serie de tiempo es
simplemente una lista cronológica de datos históricos, para la que la suposición esencial es
que la historia predice el futuro de manera razonable." Existen varios modelos y métodos de
series de tiempo entre los cuales elegir y que incluyen los modelos constante, de tendencia y
estacional, dependiendo de los datos históricos y de la comprensión del proceso fundamental.
Para cada modelo, se cuenta con varios métodos de pronóstico, que incluyen promedios,
promedios móviles, suavizamiento exponencial, regresión y tal vez combinaciones de todos
estos.

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 108


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Los Componentes de Serie de Tiempo son: tendencia, estacionalidad, ciclicidad y


aleatoriedad. A continuación se detalla cada una de ellas:

Tendencia. Es el comportamiento de la variable a largo plazo, es decir, en un extenso


periodo de refleja si el sentido general de la serie temporal es ascedente o descendente
(creciente o decreciente)

Figura 3.1. Tendencia Ascendente Figura 3.2. Tendencia Descendente

Estacionalidad. Son fluctuaciones, movimientos que se repiten por regularidad, Se


puede observar a través de meses, trimestres, semana, días

Figura 3.3. Gráfica de una Serie de Datos con Estacionalidad

300

250

200
ventas

150

100

50

0
E F M A M J J A S O N D

Figura 3.4. Gráfica de una Serie de Datos con Estacionalidad

Ciclicidad. Es un conjunto de fluctuaciones en forma de onda o ciclos, de más de un año


de duración, producidos por cambios en las condiciones económicas. Muchas variables
presentan tendencia a fluctuar, por encima y por debajo de la tendencia a largo plazo en un
periodo dilatado. Estas fluctuaciones se llaman fluctuaciones cíclicas o ciclos económicos.
Cubren periodos mucho más largos que las variaciones estacionales y a veces abarcan tres o
más años de duración.

Figura 3.5. Gráfica de una serie de datos con ciclicidad

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 109


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

1970 1975 1980 1985 1990 1995 2000 2005

Aleatoriedad o la variación irregular. El componente irregular de la serie de tiempo


es el factor residual, es decir, “todo lo que sobra” y toma en consideración las desviaciones de
los valores reales de la serie de tiempo en comparación con los esperados; es el elemento
aleatorio y es improbable que vuelvan a ocurrir de manera similar. Pueden ser causados por
episodios, como guerras, inundaciones, terremotos, elecciones políticas o embargos etc.

Figura 3.6. Gráfica de una serie de variación irregular

Existen varios métodos de serie de tiempo entre los cuales elegir para realizar el
pronóstico, entre ellos tenemos, el modelo constante, el de tendencia y el estacional,
dependiendo de los datos históricos y de la compresión del proceso fundamental. Para cada
modelo se cuenta con varios métodos de pronósticos que incluyen promedios móviles,
suavización exponencial, regresión y tal vez combinaciones de todos estos.

Debido a que debe reconocerse qué modelo es adecuado para una serie de tiempo
dada se analizará cada modelo.

1. Promedio Móvil.

Esta técnica sirve para calcular el pronóstico de ventas o demanda para el siguiente periodo
exclusivamente, como su nombre lo indica es un promedio que se obtiene n datos. El promedio
móvil reemplaza la serie de tiempo original por otra, para la que cada punto es el centro y el
promedio de n puntos de la serie original. Por tal razón, esta técnica también se conoce como
promedio móvil centrado.

Una media móvil tendrá efecto de “aplanar” los datos y producir un movimiento donde no
aparezcan tantos picos. Para calcular se toma la media aritmética de los valores de la serie
correspondiente a un número determinado de periodos. En cada media se mantiene el mismo
número de periodos, y para ello se elimina la observación más antigua y se recoge la más
reciente.

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 110


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Estos n datos están en función de cómo queramos promediar u obtener resultados, con
menor o mayor exactitud; n puede valores comprendidos entre 2, 3, 4, 5....etc.

Si los datos son muy variables, se debe utilizar un número pequeño de periodos ( n), en el
pronóstico, para evitar que este se aproxime demasiado a la media a largo plazo. Por el
contrario cuando los datos no varían mucho de la media a largo plazo, entonces se debe de
proceder a utilizar un número mayor de periodos (n), para así formar la media móvil.

En la práctica es recomendable utilizar bloques de información que en promedio tengan 10


ó mas datos, lo cual permitirá una mejor interpretación o visión del comportamiento de ese
producto o pronóstico.

Ejemplo 3.1. Una empresa de alimentos desea elaborar el pronóstico de la demanda para
uno de sus productos de mayor demanda en el mercado conocidos como " Papitas Ricas",
este pronóstico del consumo se requiere para el mes de Diciembre de 2007, para lo cual se
debe considerar que n = 2, 3, 4., sabiendo que los últimos meses el área de mercadotecnia ha
registrado las ventas que se detallan en el cuadro 3.2

Cuadro 3.2. Demanda de Bolsas de “Papitas Ricas”


Periodo Mensual Demanda =D
miles de bolsas de 250g
Enero 30
Febrero 33
Marzo 31
Abril 29
Mayo 33
Junio 32
Julio 35
Agosto 30
Setiembre 35
Octubre 30
Noviembre 33

Solución
1. Paso: Graficar los datos

Figura 3.7. Gráfica de la Demanda de Papitas Ricas

2. Paso: Calcular para n = 2 , n =3 , n = 4

Para n =2 : (30 33)2 = 31,5 ; (33 31)2 = 32,00 , , ,

Cuadro 3.3. Pronóstico de la Demanda “Papitas Ricas” cuando n = 2

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 111


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Periodo Mensual Demanda Pronósticos


D
P (D- (D-
P) P)2
Enero 30
Febrero 33
Marzo 31 31,50 -0,50 0,25
Abril 29 32,00 -3,00 9,00
Mayo 33 30,00 3,00 9,00
Junio 32 31,00 1,00 1,00
Julio 35 32,50 2,50 6,25
Agosto 30 33,50 -3,50 12,25
Setiembre 35 32,50 2,50 6,25
Octubre 30 32,50 -2,50 6,25
Noviembre 33 32,50 0,50 0,25
Diciembre ¿? 31,50 50,50

Para n =3
(30 3331 3)=31,33; (33 3129 3)=31,00; , , ,

Cuadro 3.4. Pronóstico de la Demanda “Papitas Ricas” cuando n = 3

Periodo Mensual Demanda Pronósticos


D
P (D- (D-P)2
P)
Enero 30
Febrero 33
Marzo 31
Abril 29 31,33 -2,33 5,44
Mayo 33 31,00 2,00 4,00
Junio 32 31,00 1,00 1,00
Julio 35 31,33 3,67 13,44
Agosto 30 33,33 -3,33 11,11
Setiembre 35 32,33 2,67 7,11
Octubre 30 33,33 -3,33 11,11
Noviembre 33 31,67 1,33 1,78
Diciembre ¿? 32,67 55,00
Para n =4
Cuadro 3.5. Pronóstico de la Demanda “Papitas Ricas” cuando n = 4
Periodo Mensual Demanda Pronósticos
D
P (D- (D-P)2
P)
Enero 30
Febrero 33
Marzo 31
Abril 29
Mayo 33 30,75 2,25 5,06
Junio 32 31,5 0,5 0,25
Julio 35 31,25 3,75 14,06
Agosto 30 32,25 -2,25 5,06
Setiembre 35 32,5 2,5 6,25
Octubre 30 33 -3 9,00
Noviembre 33 32,5 0,5 0,25
Diciembre ¿? 32 39,94

Figura 3.8. Gráfica de la Demanda Vs Pronósticos de Papitas Ricas

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 112


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Demanda Vs Pronosticos

37

35

33

demanda
31

29

27

25

Noviembre
Junio

Julio
Mayo

Agosto
Enero

Febrero

Marzo

Octubre
Septiembre

Diciembre
Abril
meses

demanda n=2 n=3 n=4

Resumiendo: Pronóstico para n = 2, 3, 4

n Pronóstico Error cuadrático


2 31,50 50,5
3 32,67 55
4 32 39.94

Conclusión. En base a esta técnica, podemos decir que el mejor pronóstico es de 32


cajas de papitas A, porque el error cuadrático: (D-P)2 =39.93 es menor con respecto a los
otros datos, es decir, la empresa de alimentos para el mes de diciembre tendrá una demanda
de 32000 bolsas de papitas.
Ejemplo 3.2. Bebidas S.A produce néctar y desea estimar la demanda para el mes de
Diciembre del 2007 por lo cual cuenta con la información histórica que se indica en el cuadro
2.3. Para efectuar los cálculos se debe considerar que n= 2 ,3, 4. A partir del mejor pronóstico
indique si la producción de néctares para el mes de noviembre crece o decrece y en
consecuencia indique que acciones tomar.

Cuadro 3.6. Demanda de Néctar


Periodos Demanda
Mensuales ( miles de Litros)
Julio 19
Agosto 21
Setiembre 20
Octubre 29
Noviembre 27
Diciembre 28
Enero 22
Febrero 29
Marzo 26
Abril 21
Mayo 26
Junio 18
Julio 24
Agosto 20
Setiembre 18
Octubre 26
Solución

1. Paso: Graficar la demanda

Figura 3.9. Gráfica de la Demanda de Nectar (L)

Demanda de Nectar (L)

35

30

25

20

15

10

0
noviembre

noviembre
Setiembre

Setiembre
Diciembre

Febrero
octubre

octubre
Junio

Agosto
agosto
Julio

Julio
Marzo
Enero

Mayo
Abril

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 113


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

2 Paso: Calcular para n =2 , (19 21 2)=20; (2120  2)=20,5; , , ,

Cuadro 3.7. Pronóstico de la Demanda de Néctar cuando n = 2

Periodos Mensuales Demanda (D) Pronósticos (P) (D-P) (D-P)2


Julio 19
Agosto 21
Setiembre 20 20 0 0
Octubre 29 20,5 8,5 72,25
Noviembre 27 24,5 2,5 6,25
Diciembre 28 28 0 0
Enero 22 27,5 -5,5 30,25
Febrero 29 25 4 16
Marzo 26 25,5 0,5 0,25
Abril 21 27,5 -6,5 42,25
Mayo 26 23,5 2,5 6,25
Junio 18 23,5 -5,5 30,25
Julio 24 22 2 4
Agosto 20 21 -1 1
Setiembre 18 22 -4 16
Octubre 26 19 7 49
Noviembre ¿? 22 273,75

Para n =3 : (1921 203)= 20,00 ; (212029 3)=23,33

Cuadro 3.8. Pronóstico de la Demanda de Néctar cuando n = 3


Periodos Mensuales Demanda (D) Pronósticos (P) (D-P) (D-P)2
Julio 19
Agosto 21
Setiembre 20
Octubre 29 20,00 9,00 81,00
Noviembre 27 23,33 3,67 13,44
Diciembre 28 25,33 2,67 7,11
Enero 22 28,00 -6,00 36,00
Febrero 29 25,67 3,33 11,11
Marzo 26 26,33 -0,33 0,11
Abril 21 25,67 -4,67 21,78
Mayo 26 25,33 0,67 0,44
Junio 18 24,33 -6,33 40,11
Julio 24 21,67 2,33 5,44
Agosto 20 22,67 -2,67 7,11
Setiembre 18 20,67 -2,67 7,11
Octubre 26 20,67 5,33 28,44
Noviembre ¿? 21,33 259,22
Cuadro 3.9. Pronóstico de la Demanda de Néctar cuando n = 4
Periodos Demanda (D) Pronósticos (P) (D-P) (D-P)2
Mensuales
Julio 19
Agosto 21
Setiembre 20
Octubre 29
Noviembre 27 22,25 4,75 22,56
Diciembre 28 24,25 3,75 14,06
Enero 22 26,00 -4,00 16,00
Febrero 29 26,50 2,50 6,25
Marzo 26 26,50 -0,50 0,25
Abril 21 26,25 -5,25 27,56
Mayo 26 24,50 1,50 2,25
Junio 18 25,50 -7,50 56,25
Julio 24 22,75 1,25 1,56
Agosto 20 22,25 -2,25 5,06
Setiembre 18 22,00 -4,00 16,00
Octubre 26 20,00 6,00 36,00

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 114


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.
Noviembre ¿? 22,00 203,81

Figura 3.10. Gráfica de la Demanda de Néctar (L) Vs. Pronósticos


Demanda Vs Pronósticos

32

30

28

26

24

Demanda
22

20

18

16

14

12

10

noviembre

noviembre
Setiembre

Setiembre
Diciembre

Febrero
octubre

octubre
Agosto
agosto

Marzo

Junio
Enero
Julio

Mayo

Julio
Abril
Demanda n=2 n=3 n=4

Resumiendo
n Pronóstico Error cuadrático
2 22 273.75
3 21.33 259.22
4 22 203.81

Conclusión. El mejor pronóstico es de 22 mil litros de néctares, porque


(D-P) es menor con respecto a los otros datos. En el mes de Noviembre la
2

producción decrecerá, es decir se tendrá una demanda de 22000 litros de


néctar.
Ejemplo 3.3. Una empresa de conservas desea elaborar el pronóstico
de ventas (o de la demanda) de su producto en el mercado, este pronóstico de
la demanda se requiere para el mes de Julio de 2007, para lo cual se debe
considerar que n= 2, 3, 4. Sabiendo que los últimos meses el área de
mercadotecnia ha registrado las ventas, que a continuación se detallan en el
cuadro 3.10

Cuadro 3.10. Demanda de Conservas

Periodos Demanda D
Mensuales (miles de cajas)
Julio 51
Agosto 55
Setiembre 48
Octubre 61
Noviembre 55
Diciembre 60
Enero 49
Febrero 57
Marzo 53
Abril 59
Mayo 50
Junio 52

Solución

1. Graficar
Figura 3.11. Gráfica de la Demanda de Conservas (miles de cajas)

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 115


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Demanda de chizitos "Don Pepe"


Demanda de Cajas de Conservas
65

demanda (miles de cajas)


60

55

50

45

40

Marz
Jul

Nov

May

Jun
Dic

Abril
Set

Oct
Ago

Ene

Feb
2. Calcular
Cuadro 3.12. Pronóstico de la Demanda de Conservas cuando n = 2

Periodos Demanda (D) Pronósticos (P) (D-P) (D-P)2


Mensuales
Julio 51
Agosto 55
Setiembre 48 53 -5 25
Octubre 61 51,5 9,5 90,25
Noviembre 55 54,5 0,5 0,25
Diciembre 60 58 2 4
Enero 49 57,5 -8,5 72,25
Febrero 57 54,5 2,5 6,25
Marzo 53 53 0 0
Abril 59 55 4 16
Mayo 50 56 -6 36
Junio 52 54,5 -2,5 6,25
Julio ¿? 51 256,25

Cuadro 3.13. Pronóstico de la Demanda de Conservas cuando n = 3

Periodos Demanda (D) Pronósticos (D-P) (D-P)2


Mensuales (P)

Julio 51
Agosto 55
Setiembre 48
Cctubre 61 51.33 9.67 93.44
Noviembre 55 54.67 0.33 0.11
Diciembre 60 54.67 5.33 28.44
Enero 49 58.67 -9.67 93.44
Febrero 57 54.67 2.33 5.44
Marzo 53 55.33 -2.33 5.44
Abril 59 53.00 6.00 36.00
Mayo 50 56.33 -6.33 40.11
Junio 52 54 -2 4
Julio ¿? 53.7 306.42
Cuadro 3.14. Pronóstico de la Demanda de Conservas cuando n = 4

Periodos Demanda (D) Pronósticos (P) (D-P) (D-P)2


Mensuales

Julio 51

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 116


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.
Agosto 55
Setiembre 48
Octubre 61
Noviembre 55 53.75 1.25 1.56
Diciembre 60 54.75 5.25 27.56
Enero 49 56 -7 49.00
Febrero 57 56.25 0.75 0.56
Marzo 53 55.25 -2.25 5.06
Abril 59 54.75 4.25 18.06
Mayo 50 54.5 -4.5 20.25
Junio 52 54.75 -2.75 7.56
Julio ¿? 53.5 129.6

Figura 3.12. Gráfica de la Demanda de Conservas (miles de cajas) Vs Pronósticos

Resumiendo

n Pronóstico Error cuadrático


2 51 256.25
3 53.7 306.42
4 53.5 129.6

Conclusión. Con esta técnica podemos concluir que el mejor pronóstico se obtiene con
n = 4 y las ventas para el mes de Julio es de 53500 cajas porque (D-P) 2 es menor con respecto
a los otros ns. Es decir, la empresa de alimentos para el mes de julio tendrá una demanda de
53500 cajas de conservas

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 117


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

2. Suavización Exponencial Simple

Como su nombre lo indica, suaviza una serie o produce el efecto de aplanar una serie y
suministra un medio efectivo de predicción.
Cuando los datos no presentan ningún esquema de tendencia ni estacionalidad, se utiliza la
suavización exponencial simple, cuya ecuación es la siguiente.

 
Y t 1  .Yt  (1   ).Y t

Y t 1 = Nuevo valor suavizado o valor de pronóstico para el siguiente periodo

= Constante de suavización, este valor oscila entre ( 0<<1)


Yt
 = Nueva observación o valor real de la serie en el periodo t
Y = Valor suavizado anterior o experiencia promedio de la serie atenuada al periodo t -1

 : El coeficiente  es una constante de suavización que recibe un valor entre (o<<1), sirve
como el factor para ponderar el valor real de , determina el grado hasta el cual la
observación más reciente puede influir en el valor del pronóstico.
Cuando  es cercano a 1, el nuevo pronóstico incluirá un ajuste sustancial de cualquier
error ocurrido en el pronóstico anterior, inversamente cuando  es cercano a cero el
pronóstico es igual al anterior.

Ejemplo.3.4. Alimentos S.A es una empresa que se dedica a la Elaboración de conservas,


el gerente está interesado en conocer el pronóstico de ventas para el mes de Noviembre;
su exigencia le conduce a utilizar factores de ponderación para  = 0.1, 0.2 y 0.3. Para lo
cual se cuenta con la siguiente información histórica que se indica a continuación.
Cuadro 3.15. Demanda de Latas Conservas

Periodo Mensual Demanda =D


Miles de Latas
Enero 500
Febrero 350
Marzo 250
Abril 400
Mayo 450
Junio 350
Julio 200
Agosto 300
Setiembre 350
Octubre 200

Solución:
Para la aplicación de esta técnica, en primer lugar el primer valor estimado se tomó como el
valor real que se tiene:

Figura 3.13. Gráfica de la Demanda de Conservas (miles de latas)

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 118


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

 
= 0.1 Y t 1  .Yt  (1   ).Y t

t=1

t=2

t=3

*
*
t = 10

Entonces para  = 0,1 , 0,2 y 0,3 se tiene los siguientes cuadros.

Cuadro 3.16. Pronóstico de la Demanda de conservas cuando  = 0.1


 
Meses Y Y (e)2
Y e = Y-

1 Enero 500 Ŷ1= 500 0 0


2 Febrero 350 Ŷ2 = 500 -150 22500

3 Marzo 250 Ŷ3 = 485 -235 55225


4. Abril 400 Ŷ4 = 461.5 -61.5 3782,25
5 Mayo 450 Ŷ5 = 455,35 -5.35 28,62
6 Junio 350 Ŷ6 = 454,82 -104.82 10987.23
7 Julio 200 Ŷ7= 444,33 -244.33 59 697,15
8 Agosto 300 Ŷ8 = 419,9 -119.9 14 376,01
9 Septiembre 350 Ŷ9= 407,91 -57.91 3 353,570

10 Octubre 200 Ŷ10= 402,12 -202.12 40 852,49


11 Noviembre ¿? Ŷ11= 381,90 Σ 210 802,32

Cuadro 3.17. Pronóstico de la Demanda de conservas cuando  = 0.2

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 119


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

 
Meses Y Y (e)2
Y e = Y-

1 Enero 500 Ŷ1= 500 0 0


2 Febrero 350 Ŷ2 = 500 -150 22 500
3 Marzo 250 Ŷ3 = 470 -220 48 400
4. Abril 400 Ŷ4 = 426 -26 676
5 Mayo 450 Ŷ5 = 420,8 29,2 852,64
6 Junio 350 Ŷ6 = 426,64 -76,64 5873,69
7 Julio 200 Ŷ7= 411,31 -211,31 44652,76
8 Agosto 300 Ŷ8 = 369,05 -69,05 4767,90
9 Septiembre 350 Ŷ9= 355,24 -5,24 27,46
10 Octubre 200 Ŷ10= 354,19 -154,19 23774,56
11 Noviembre ¿? Ŷ11= 323,35 Σ 151 525,01

Cuadro 3.18. Pronóstico de la Demanda de conservas cuando  = 0.3

 
Meses Y Y (e)2
Y e = Y-

1 Enero 500 Ŷ1= 500 0 0


2 Febrero 350 Ŷ2 = 500 -150 22 500
3 Marzo 250 Ŷ3 = 455 -205 42 025
4. Abril 400 Ŷ4 = 393,5 6,5 42,25
5 Mayo 450 Ŷ5 = 395,45 -61,82 2975,70
6 Junio 350 Ŷ6 = 411,82 -193,27 3821,71
7 Julio 200 Ŷ7= 393,27 -211,31 37 353,29
8 Agosto 300 Ŷ8 = 335,29 -35,29 1245,38
9 Septiembre 350 Ŷ9= 324,70 -25,3 640,09
10 Octubre 200 Ŷ10= 332,29 -132,29 17500,64
11 Noviembre ¿? Ŷ11= 292,60 Σ 128104,064

Figura 3.14. Gráfica de la Demanda de Conservas (miles de latas) Vs Pronósticos

Resumiendo

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 120


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

 Pronóstico Error cuadrático


0.1 381,90 210 802,32
0.2 323,35 151 525,01
0.3 292,0 128 104,064

Conclusión. El mejor modelo es el que tiene menor error cuadrático,


siendo este cuando  =0.3 y el pronóstico de venta para el mes de noviembre
es de 292,60 de cajas. Por lo tanto, las ventas para el mes de noviembre serán
de 292600 miles de latas de conservas.

Ejemplo 3.5. Una empresa que se dedica a la fabricación de envases, el gerente de


mercadotecnia está interesado en conocer el pronóstico de ventas para el mes de enero, de
exigencia le conduce a utilizar factores de ponderación para = 0.1, 0.2 y 0.3. Para lo cual se
cuenta con la siguiente información histórica que se indica a continuación.

Cuadro 3.19 Venta de Envases

Demanda
Miles de
Meses envases
Enero 52
Febrero 81
Marzo 47
Abril 65
Mayo 50
Junio 73
Julio 45
Agosto 60
Setiembre 50
Octubre 79
Noviembre 45
Diciembre 62

Figura 3.15. Gráfica de la Demanda de Envases

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 121


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Solución
 
Y t 1  .Yt  (1   ).Y t

Cuadro 3.20. Pronóstico de la Demanda de Envases cuando  = 0.1

Meses Y 
Y

(e)2
e = Y- Y
1 Enero 52 Ŷ1= 52 0.00 0.00
2 Febrero 81 Ŷ2 = 52.00 29.00 841.00
3 Marzo 47 Ŷ3 = 54.90 -7.90 62.41
4. Abril 65 Ŷ4 = 54.11 10.89 118.59
5 Mayo 50 Ŷ5 = 55.20 -5.20 27.03
6 Junio 73 Ŷ6 = 54.68 18.32 335.66
7 Julio 45 Ŷ7= 56.51 -11.51 132.51
8 Agosto 60 Ŷ8 = 55.36 4.64 21.53
9 Septiembre 50 Ŷ9= 55.82 -5.82 33.92
10 Octubre 79 Ŷ10= 55.24 23.76 564.46
11 Noviembre 45 Ŷ11= 57.62 -12.62 159.20
12 Diciembre 62 Ŷ12=56.36 5.64 31.86
13 Enero ¿? Ŷ13 =56.92 232 8.16

Cuadro 3.21. Pronóstico de la Demanda de Envases cuando  = 0.2

 
Meses Y y e = Y- Y (e)2
1 Enero 52 Ŷ1= 52 0.00 0.00
2 Febrero 81 Ŷ2 = 52.00 29.00 841.00
3 Marzo 47 Ŷ3 = 57.80 -10.80 116.64
4. Abril 65 Ŷ4 = 55.64 9.36 87.61
5 Mayo 50 Ŷ5 = 57.51 -7.51 56.43
6 Junio 73 Ŷ6 = 56.01 16.99 288.67
7 Julio 45 Ŷ7= 59.41 -14.41 207.58
8 Agosto 60 Ŷ8 = 56.53 3.47 12.07
9 Septiembre 50 Ŷ9= 57.22 -7.22 52.14
10 Octubre 79 Ŷ10= 55.78 23.22 539.32
11 Noviembre 45 Ŷ11= 60.42 -15.42 237.82
12 Diciembre 62 Ŷ12 =57.34 4.66 21.74
13 Enero ¿? Ŷ13= 58.27 246 1.03

Cuadro 3.22. Pronóstico de la Demanda de Envases cuando  = 0.3


 
Meses Y Y e = Y- Y (e)2
1 Enero 52 Ŷ1= 52 0.00 0
2 Febrero 81 Ŷ2 = 52.00 29.00 841
3 Marzo 47 Ŷ3 = 60.70 -13.70 187.69
4. Abril 65 Ŷ4 = 56.59 8.41 70.7281
5 Mayo 50 Ŷ5 = 59.11 -9.11 83.046769
6 Junio 73 Ŷ6 = 56.38 16.62 276.254317
7 Julio 45 Ŷ7= 61.37 -16.37 267.825335
8 Agosto 60 Ŷ8 = 56.46 3.54 12.5616443
9 Septiembre 50 Ŷ9= 57.52
Demanda vs Pronostico -7.52 56.5358317
10 Octubre 79 Ŷ10= 55.26 23.74 563.429887
90
11 Noviembre 45 Ŷ11= 62.38 -17.38 302.214767
12 Diciembre
80 62 Ŷ12=57.17 4.83 23.338293
13 Enero 70 ¿? Ŷ13=58.62 268 4.62
60

50
Figura 3.16. Gráfica de la Demanda de Envases Vs Pronósticos
40

30

20

10

Métodos Cuantitativos
0 MSc. Alfonso Tesén Arroyo 122
Ener febr mar abr may jun jul agost set oct nov

demanda alfa =0.1 alfa =0.2 alfa =0.3


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Resumiendo
 Pronóstic Error
o cuadrático
0.1 56.92 2 328.16
0.2 58.27 2 461.03
0.3 58.62 2 684.62

Conclusión. El menor error cuadrático, es cuando  =0,1 y el pronóstico de venta


para el mes de enero es de 56,92, siendo las ventas para el mes de enero de 56920 envases.

3. Método de Holt.

Otra técnica que se usa con frecuencia para manejar una tendencia lineal, se denomina
método de dos parámetros de Holt. La técnica de Holt atenúa en forma directa la tendencia y
la pendiente empleando diferentes constantes de suavización para cada una de ellas. La
técnica de Holt proporciona mayor flexibilidad al seleccionar las proporciones a las que se
rastrearán la tendencia y pendiente. Las tres ecuaciones que se utilizan en esta técnica son:

1.- La serie exponencialmente suavizada.


At = Yt  (1-  )( At-1  Tt-1 )

2.- La estimación de la tendencia.


Tt = (At  At-1 ) +( 1- )Tt-1
3.- El pronóstico de p periodos en el futuro:

En donde:

At = Nuevo valor Suavizado


 = Constante de suavización de los datos ( 0 ≤  ≤ 1)
Yt = Nueva observación o valor real de la serie en el periodo t.
 = Constante de suavización de la estimación de la tendencia ( 0 ≤  ≤ 1)
Tt = Estimación de la tendencia
P = Periodos a pronosticar en el futuro
= Pronóstico de p periodos en el futuro.

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 123


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Ejemplo 3.6. En la siguiente tabla, se presentan los siguientes datos de ventas de cajas de
Néctares en la Empresa ALIMNORSA. Se desea pronosticar las ventas para un mes futuro con :
0,3; : 0,1.

Cuadro 3.23 Venta de Cajas de Néctares.


Meses t ventas Meses t ventas
Enero 1 500 Enero 13 550
Febrero 2 350 Febrero 14 350
Marzo 3 250 Marzo 15 250
Abril 4 400 Abril 16 550
Mayo 5 450 Mayo 17 550
Junio 6 350 Junio 18 400
Julio 7 200 Julio 19 350
Agosto 8 300 Agosto 20 600
Setiembre 9 350 Setiembre 21 750
Octubre 10 200 Octubre 22 500
Noviembre 11 150 Noviembre 23 400
Diciembre 12 400 Diciembre 24 650

Solución.

Para empezar a calcular la estimación, se requiere dos valores estimados iniciales, el


valor inicial estimado y el valor inicial de la tendencia. Por lo regular, el valor inicial suavizado
se estima promediando unas cuantas observaciones anteriores de la serie. El valor inicial de la
tendencia se estima mediante el uso de la pendiente de la ecuación de la tendencia obtenida
de datos anteriores. Si no hay disponibles datos anteriores, se usa cero como estimación
inicial.

El valor de  es similar al del modelo de suavización exponencial simple, ya que suaviza


los datos para eliminar aleatoriedad. La constante de suavización es como , excepto que
suaviza la tendencia en los datos. Ambas constantes de suavización eliminan aleatoriedad
ponderando valores anteriores. En el cuadro 3.24 se muestra la técnica para : 0,3 y : 0,1. A
continuación se presentan los cálculos que conducen al pronóstico del periodo 3.

1. Actualización de la serie exponencialmente suavizada.

At = Yt + (1 -  )(At-1 + Tt-1).


Como ya se tomó como valor inicial para A1, ahora se debe calcular para A2
A2 = 0,3Y2 + (1 – 0,3 )(A2-1 + T2-1).
= 0,3(350) + 0,7 (500 +0) = 455

2. Actualización de la estimación de la tendencia.

Tt = (At + At-1)+ (1 -  )*Tt-1


T2 = 0,1(At + At-1)+ (1 – 0,1 )*T2-1
= 0,1(455 – 500) + 0,9 ( 0) = -4,5

3. Pronóstico de un periodo a futuro.

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 124


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

3. Determinación del error del pronóstico


et = Yt -
e3 = Y3 - = 250 - 450,5 = - 200,5

Entonces el pronóstico para el periodo 25 se calcula como sigue:


1. Actualización de la serie exponencialmente:
A24 = 0.3 Y24 +(1-0,3)( A24-1 + T24-1 ).
A24 = 0.3 (650) + 0,7( 517,6 + 9,8 )= 564,2

2. Actualización de la estimación de la tendencia.


Tt = 0,1(A24 + A24-1)+ (1 – 0,1 )*T24-1
= 0,1(564,2+ 517,6)+ 0,9(9,8 )= 13,5.
3. Pronóstico de un periodo futuro.

Se procede a calcular el resto de estimaciones como se muestra en el siguiente cuadro.

Cuadro 3.24 Resumen de las estimaciones mediante Método Holt


t yt At Tt et
1 500 500 0 500 0
2 350 455 -4,5 500 -150
3 250 390,4 -10,5 450,5 -200,5
4 400 385,9 -9,9 379,8 20,2
5 450 398,2 -7,7 376,0 74,0
6 350 378,3 -8,9 390,5 -40,5
7 200 318,6 -14,0 369,4 -169,4
8 300 303,2 -14,1 304,6 -4,6
9 350 307,4 -12,3 289,1 60,9
10 200 266,6 -15,2 295,1 -95,0
11 150 221,0 -18,2 251,4 -101,4
12 400 262,0 -12,3 202,8 197,2
13 550 339,8 -3,3 249,7 300,3
14 350 340,6 -2,9 336,5 13,5
15 250 311,4 -5,5 337,7 -87,7
16 550 379,1 1,8 305,9 244,1
17 550 431,7 6,9 381,0 169,0
18 400 427,0 5,7 438,6 -38,6
19 350 407,9 3,3 432,7 -82,7
20 600 467,8 8,9 411,2 188,8
21 750 558,7 17,1 476,8 273,2
22 500 553,1 14,8 575,9 -75,9
23 400 517,6 9,8 567,9 -167,9
24 650 564,2 13,5 527,4 122,6
25 577,7

Conclusión: Las ventas de cajas de néctares para el periodo 25 (enero) será de 577 cajas

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 125


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

4. Regresión Lineal

Métodos de Mínimos Cuadrados

Esta es otra técnica de tipo cuantitativo que permite el cálculo de los pronósticos para
períodos futuros, para lo cual requiere de registros históricos que sean consistentes, reales y
precisos.
Esta técnica, como su nombre lo indica, se trata de sacar el total de las desviaciones
elevadas al cuadrado a un valor mínimo: su objetivo es determinar los coeficientes b 0 y b1, que
son conocidos como coeficientes de regresión, donde X es la variable independiente (tiempo),
Y es la variable dependiente (demanda, producción, consumo etc,).

En la práctica se pueden utilizar dos métodos para calcular los pronósticos a través de
Mínimos Cuadrados: Fórmula General y Métodos Simplificado, en este caso se detallará el
método de Fórmula General.

Fórmula General

Para aplicar este método en el cálculo de pronósticos de la demanda, se deben tener en


cuenta las siguientes expresiones matemáticas:

Donde:
n = tamaño de la muestra o el número de períodos
x = período en el que se desea el pronóstico
y = demanda, producción, consumo etc.
= Pronóstico


yb
y 0b0bb11xx
y b0  b1 x
n
nxy xy  xx y 2y
b1 
b1 n x2 
n2
  2x
xy   x y
nb
1 x   x2
b0  y  b1 x n x   x 
2

b0  y  b1 x
b0  y  b1 x

Ejemplo. 3.7. Una empresa dedicada a la venta de cerradoras para la industria de


alimentos, desea calcular el pronóstico de ventas para el año 2008. Se tiene como
antecedentes las ventas que se muestran en el cuadro 3.25

Cuadro 3.25 Venta de Cerradoras

Años 2002 2003 2004 2005 2006 2007


Venta 85 89 92 95 93 98
s
Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 126
Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Solución:

Cuando se quiere realizar un pronóstico, lo primero que se debe hacer es graficar los datos
para explorar qué método tentativo se puede aplicar.

Figura 3.17. Gráfica de la Venta de Cerradoras

ventas

100

95
ventas

90
y = 2,2857x + 84
R2 = 0,8791
85

80

75
1 2 3 4 5 6
periodos

“x” son los períodos desde el primer dato histórico hasta el pronóstico a calcular.

Períodos Ventas (y) x xy x2


2002 85 1 85 1
2003 89 2 178 4
2004 92 3 276 9
2005 95 4 380 16
2006 93 5 465 25
2007 98 6 588 36
Σ 552 21 1972 91

y b0  b1 x

6 x1972  21x552
b1  6(1972)  21
2.*2857
552
)  (21) 2
(6b1x91 2,2857
5(91)  (21) 2
b0 92  2.2857(3.5) 84
b0 92  2,2857(3.5) 84
6 x1972  21x552
b1   2
2.2857
 (6yx ) 
9184 (21
2),2857 x
y 84  2.2857 x
b0 92  2.2857(3.5) 84

Para el año 2008 x es igual a 7, 84 y22006 84
y reemplazando
.2857 (7)299
,2857
9 (14
.en ) 116 tenemos
fórmula

y 84  2.2857 x

y 84  2.2857(7) 99.9
Las ventas para el 2008 serán de 100 cerradoras.

Ejercicio 3.8. ALIMNORSA. Desea elaborar el pronóstico de ventas de sacos de arroz


para el año 2008 y en torno a éste resultado, se hará la planeación de los recursos a utilizar en

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 127


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

el sistema; para lo cual cuenta con el volumen de ventas anuales que se indican en la siguiente
tabla.

Cuadro 3.26. Venta de Sacos de Arroz


Periodos Miles
1997 (1) 90
1998 (2) 110
1999 (3) 125
2000 (4) 118
2001 (5) 132
2002 (6) 139
2003 (7) 143
2004 (8) 145
2005 (9) 152

Solución

Figura 3.18. Gráfica de los Sacos de Arroz

ventas

180 y = 6,8333x + 94,056


160 R2 = 0,9027

140
120
ventas

100
80
60
40
20
0
1 2 3 4 5 6 7 8 9
periodos

La ecuación obtenida es : Y= 6.8333 x + 94.056

Para el 2008 “x” es igual a 12, reemplazando en la ecuación tendremos:

Y= 176,056

Para el año 2008, ALIMNOR S.A venderá 176 056 sacos de arroz

1. Variación Estacional.

La variación estacional es uno de los componentes de una Serie de Tiempo. Las series de
negocios, como ventas de automóviles, embarques de refrescos embotellados y construcciones
residenciales, durante el año tienen periodos de actividad por encima y por debajo del
promedio.

En el área de producción, una de las razones para realizar las fluctuaciones estacionales, es
tener disponibles suficientes suministros de materias primas para cubrir la demanda estacional
variable. Por ejemplo, la división de recipientes de vidrio de una gran compañía vidriera,
manufactura botellas retornables y no retornables para cerveza, frascos para yodo, aspirinas,
pegamentos, etc. El departamento de programación de la producción, debe conocer cuantos
envases de cada clase hay que producir y cuando hay que hacerlo. Un periodo de producción
de demasiados envases de una clase puede causar un problema grave de almacenamiento. La
producción no puede basarse por entero en los pedidos actuales, porque muchos se reciben
por teléfono, para embarque inmediato. Puesto que la demanda de varios de los tipos de

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 128


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

envases varía de acuerdo con las estaciones del año, un pronóstico de un año o dos de
anticipación, mensual, es básico para programar una buena producción.

Existen diversos métodos para medir y explicar las variaciones estacionales de una serie. El
objetivo fundamental de la mayoría de los métodos es obtener Índices Estacionales

Entre los diversos métodos para obtener índices estacionales tenemos:

a. Método del porcentaje promedio.


b. Método de razón a promedio móvil.

El método de la razón a promedio móvil es el que se trabajará para el cálculo de índices


estacionales, ya que elimina las componentes de tendencia, cíclica e irregular de los datos
originales ( Y ). En la expresión siguiente, T se refiere a la componente de Tendencia, C a la
componente Cíclica, E a la componente Estacionalidad e I a la componente Irregular. Los
números que resultan se denominan Índices Estacionales Característico.

Los datos de interés pueden ser mensuales o trimestrales.

Ejemplo 3.9. E&S. realiza sus inventarios de los productos de alimentos vendidos. El valor
del inventario en millones de dólares, al inicio de cada trimestre desde el año 2001 como se
indica en el cuadro 3.27

Cuadro 3.27. Inventario Trimestral de E&S Internacional


( En millones de dólares )

Trimestres
Año Invierno Primavera Verano Otono
2001 6,7 4,9 10,0 12,7
2002 6,5 4,8 9,8 13,6
2003 6,9 4,3 10,4 13,1
2004 7,0 5,5 10,8 15,0
2005 7,1 4,4 11,1 14,5
2006 8,0 4,2 11,4 14,9

¿Cuáles son los índices trimestrales usando el método de razón a promedio móvil?

Solución

 Primer Paso. – En el cuadro 3.28, Se determina un total móvil de cuatro trimestres.


Iniciando con el invierno de 2001, se suman 6.7, 4.9, 10.1, 12.7, el total es 34.3 millones
de dólares (véase la columna 2 ).

El total de cuatro trimestres de la columna 2 se “traslada” añadiendo los inventarios de


primavera, verano y otoño de 2001 y el invierno del 2002. Ese total es 34.1 millones de

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 129


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

dólares, determinado mediante: 4.9 + 10.0 + 12.7 + 6.5. En vez de sumar los cuatro
valores de inventario con una calculadora de mano; se puede restar del inventario de
invierno de 2001 (6.7) del total inicial de 34.3 millones y sumar el inventario de invierno de
2002 (6.5). Esto da 34.1 millones de dólares.

Este procedimiento se continúa hasta que todos los inventarios trimestrales han sido
tomados en cuenta. Los totales móviles de cuatro trimestres están en la columna 2 de la
cuadro 3.28. Obsérvese que el primer total móvil (34.3) está entre la primavera y el verano
de 2001. El total siguiente (34.1) se ubica entre el verano y el otoño de 2001, y así
sucesivamente. Deben hacerse verificaciones frecuentes de los totales. Por ejemplo una
verificación del inventario total (34.7) de 2003, que se encuentra entre la primavera y el
verano de 2003, se hace sumando las cuatro cifras para 2003 ( 6.9 + 4.3 + 10.4 + 13.1 =
34.7).

Cuadro 3.28 Cálculos necesarios para los índices estacionales específicos

(1) (2) (3) (4) (5)


Inventario Total móvil Promedio Promedio Estacional
Año Trimestre (en millones de cuatro móvil de móvil Específico
de dólares) trimestres cuatro centrado
trimestres
2001 Invierno $ 6.7
Primavera 4.9
$ 34.3 8.575
Verano 10.0 8.550 117.0
34.1 8.525
Otoño 12.7 8.513 149.2
34.0 8.500
2002 Invierno 6.5 8.475 76.7
33.8 8.450
Primavera 4.8 8.563 56.1
34.7 8.675
Verano 9.8 8.725 112.3
35.1 8.775
Otoño 13.6 8.713 156.1
34.6 8.650
2003 Invierno 6.9 8.725 79.1
35.2 8.800
Primavera 4.3 8.738 49.2
34.7 8.675
Verano 10.4 8.688 119.7
34.8 8.700
Otoño 13.1 8.850 148.0
36.0 9.000
2004 Invierno 7.0 9.050 77.3
36.4 9.100
Primavera 5.5 9.338 58.9
38.3 9.575
Verano 10.8 9.588 112.6
38.4 9.600
Otoño 15.0 9.463 158.5
37.3 9.325
2005 Invierno 7.1 9.363 75.8
37.6 9.400
Primavera 4.4 9.338 47.1
37.1 9.275
Verano 11.1 9.388 118.2
38.0 9.500
Otoño 14.5 9.475 153.0
37.8 9.450
2006 Invierno 8.0 9.488 84.3
38.1 9.525
Primavera 4.2 9.575 43.9
38.5 9.625
Verano 11.4
Otoño 14.9

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 130


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

 Segundo Paso.- Cada total móvil trimestral de la columna 2 se divide entre 4


para obtener el promedio móvil de cuatro trimestres (véase la columna 3). Todos los
promedios móviles están todavía entre trimestres. Por ejemplo, el primer promedio móvil
(8.575) se halla entre la primavera y el verano de 2001.

 Tercer Paso.- Ahora se centran los promedios móviles. Se determina el primer


promedio móvil centrado: (8.575 + 8.525 )/2 = 8.55. El segundo se obtiene de
(8.525+8.500)/2 = 8.513, y así sucesivamente. Obsérvese en la columna 4 que un promedio
móvil centrado se ubica ahora en un trimestre específico.

 Cuarto Paso.- Se calculan los datos de estacionalidad específica para cada


trimestre dividiendo el valor de inventario de la columna 1 entre el promedio móvil centrado
de la columna 4. Cada cociente se multiplica por 100 para convertirlo en un índice. El primer
estacional especifico es 117.0 calculado de (10.0/8.550)(100).

 Quinto Paso. Los datos estacionales se organizan en forma de tabla como se


muestra en el cuadro 3.29. Entonces cualquier media; media modificada, o mediana, se
determina para cada uno de los cuatro trimestres. Se selecciona la media.

Cuadro 3.29 Índices Estacionales

Trimestre
Año Invierno Primavera Verano Otono
2001 117.0 149.2
2002 76.7 56.1 112.3 156.1
2003 79.1 49.2 119.7 148.0
2004 77.3 58.9 112.6 158.5
2005 75.8 47.1 118.2 153.0
2006 84.3 43.9
Total 393.2 255.2 579.80 764.8 Total
Media 78.64 51.04 115.96 152.96 398.60
Índice 78.92 51.22 116.37 153.50

 Sexto Paso.- En teoría, las cuatro medias trimestrales (78.64, 51.04 , 115.96 y 152.96 de
la tabla que se muestra) debe sumar un total de 400.0 porque el promedio se fija en 100.0,
el total puede no ser igual a 400.0, debido al redondeo. En este problema el total de las
medias es 398.6. En consecuencia, se aplica un factor de corrección a cada una de las
cuatro medias para forzarlas a un total de 400.0.

Factor de corrección =

Factor de corrección =

Para ajustar el índice trimestral de otoño ( 1.00351)(152.96) = 153.50

Cada una de la medias se ajusta hacia arriba. Los cuatro índices estacionales se muestran
en el cuadro 3.29 y se grafican en la figura 3.19.

Trimestre Índice representativo


Invierno : 78.92
Primavera : 51.22
Verano : 116.37
Otoño : 153.50

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 131


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Figura 3.19. Gráfica de los Índices Estacionales

Al interpretar el índice trimestral de otoño, se encuentra que el inventario de la producción


al inicio del trimestre (Por octubre 1), está 53.50% arriba del promedio del año. El inventario es
alto por la necesidad de afrontar los inminentes embarques para el periodo de ventas
navideñas.

Ahora se expondrá con brevedad los razonamientos para los cálculos anteriores. Los datos
originales en la columna 1 contienen componentes de tendencia (T), ciclo (C), datos de
estacionalidad ( E ) e irregular ( I ). El objetivo inmediato es eliminar los datos de la
estacionalidad ( E ) de la evaluación original del inventario.

Las columnas 2 y 3 en el cuadro 3.28 se ocupa para la obtención del promedio trimestral
móvil dado en la columna 4. Básicamente se han “eliminado por promedio” las fluctuaciones
estacionales e irregulares de los datos originales en la columna 1. En consecuencia, en la
columna 4 sólo se tienen los datos de estacionalidad y ciclo (EC).

A continuación se dividen los datos de inventario de la columna 1 ( TCEI ), entre el promedio


móvil centrado de cuatro meses en la columna 4 (TC) para determinar los datos de
estacionalidad específicos de la columna 5 ( EI ). En símbolos, TCEI/TC= EI. Se multiplica EI por
100.0 con objeto de expresar los datos de estacionalidad en forma de índices.

Por último, se tomó la media de todos los índices de invierno, los de primavera, y así
sucesivamente. Esta forma de promediar elimina la mayor parte de las fluctuaciones
irregulares estacionales y los cuatro índices resultantes indican el patrón del inventario
estacional.

2. Desestacionalización de los Datos

Un conjunto de índices estacionales es muy útil para ajustar las fluctuaciones estacionales
de una serie de ventas. La serie resultante se llama ventas desestacionalizadas o ventas con
datos ajustados estacionalmente. La razón para ajustar las series de ventas es eliminar las
fluctuaciones estacionales a fin de estudiar la tendencia y el ciclo. Para ilustrar el
procedimiento, los totales trimestrales de inventario de E&S. del cuadro 3.28 se repite en la
columna Nº 1 en el cuadro 3.30. Es difícil determinar si el inventario de E&S esta aumentando,
disminuyendo o permanece igual debido a efectos de temporada o estacionales.

6.1 Utilización de datos desestacionalizados para pronóstico


El procedimiento para identificar la tendencia y los ajustes de temporada o estacionales,
se pueden combinar para producir pronósticos ajustados estacionalmente. A fin de
identificar la tendencia se determina la ecuación de tendencia de mínimos cuadrados sobre los
datos históricos. Luego se proyecta esta tendencia hacia periodos futuros, y finalmente se

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 132


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

ajustan estos valores tendenciales para considerar los factores de temporada. Para un mejor
entendimiento se plantea el siguiente ejemplo.

Ejemplo. La empresa E&S internacional realiza el inventario de sus productos


disponibles cada trimestre. Para lo cual cuenta con el siguiente registro de información que se
muestra en el cuadro 3.30. Se desea determinar la predicción para cada trimestre del año
2007.

Cuadro 3.30.Cálculos necesarios para los índices estacionales específicos


(1) Inventario (2)Indice (3) = [(1) / (2)]*100
Año Periodo Trimestre (en millones de dólares) estacional Inventario desestacionalizado
2001 1 Invierno $ 6.7 79.05 8.4756
2 Primavera 4.9 51.29 9.5535
3 Verano 10.0 116.56 8.5793
4 Otoño 12.7 153.74 8.2607
2002 5 Invierno 6.5 79.05 8.2226
6 Primavera 4.8 51.29 9.3586
7 Verano 9.8 116.56 8.4077
8 Otoño 13.6 153.74 8.8461
2003 9 Invierno 6.9 79.05 8.7287
10 Primavera 4.3 51.29 8.3837
11 Verano 10.4 116.56 8.9224
12 Otoño 13.1 153.74 8.5209
2004 13 Invierno 7.0 79.05 8.8552
14 Primavera 5.5 51.29 10.7233
15 Verano 10.8 116.56 9.2656
16 Otoño 15.0 153.74 9.7567
2005 17 Invierno 7.1 79.05 8.9817
18 Primavera 4.4 51.29 8.5787
19 Verano 11.1 116.56 9.5230
20 Otoño 14.5 153.74 9.4315
2006 21 Invierno 8.0 79.05 10.1202
22 Primavera 4.2 51.29 8.1887
23 Verano 11.4 116.56 9.7804
24 Otoño 14.9 153.74 9.6917

Figura 3.20. Gráfica de Ventas E & S

Figura 3.19. Gráfica de las Ventas Desestacionalizadas E & S

Figura 3.21 Gráfica de las Ventas Desestacionalizadas E & S

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 133


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Solución.

El primer paso es utilizar los datos desestacionalizados de la columna 3 del cusdro 3.30 para
determinar la ecuación de tendencia de mínimos cuadrados.

La ecuación de tendencia desestacionalizada es:

Cuadro 3.31. Inventario desestacionalizado para E&S para determinar la línea de tendencia

(1) (2) (3) (4)


Año Trimestre t=X Inventario ( Y`)
desestacionalizada (t*Y) t2
2001 Invierno 1 8.4756 8.4756 1
Primavera 2 9.5535 19.1070 4
Verano 3 8.5793 25.7379 9
Otoño 4 8.2607 33.0428 16
2002 Invierno 5 8.2226 41.1130 25
Primavera 6 9.3586 56.1516 36
Verano 7 8.4077 58.8539 49
Otoño 8 8.8461 70.7688 64
2003 Invierno 9 8.7287 78.5583 81
Primavera 10 8.3837 83.8370 100
Verano 11 8.9224 98.1464 121
Otoño 12 8.5209 102.2508 144
2004 Invierno 13 8.8552 115.1176 169
Primavera 14 10.7233 150.1262 196
Verano 15 9.2656 138.9840 225
Otoño 16 9.7567 156.1072 256
2005 Invierno 17 8.9817 152.6889 289
Primavera 18 8.5787 154.4166 324
Verano 19 9.5230 180.9370 361
Otoño 20 9.4315 188.6300 400
2006 Invierno 21 10.1202 212.5242 441
Primavera 22 8.1887 180.1514 484
Verano 23 9.7804 224.9492 529
Otoño 24 9.6917 232.6008 576
Total 300 217.1565 2763.2762 4900
Para calcular los coeficientes de la regresión de la serie desestacionalizada se tiene.

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 134


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

b0 =  b1 ( )= = 8.5169

La ecuación de tendencia desestacionalizada es: = 8.5169 + 0.0425*t.

La Ecuación que servirá para predecir las ventas de los próximos trimestres.

Si se supone que los pasados 24 periodos son un indicador razonablemente bueno del
inventario futuro, se puede usar la ecuación de tendencia para estimar dicho inventario. Por
ejemplo, en el trimestre de invierno del 2006, t=25, así que el inventario estimado para ese
lapso es $ 9.5794, se obtiene de la siguiente manera:

= 8.5169 + 0.0425 ( 25 ) = 9.5794

Aplicando la ecuación de tendencia se puede pronosticar inventarios y para los otros


cuatro trimestres del año 2007 que se muestran en el cuadro 3.32

Después que se tiene las predicciones para los cuatro trimestres del año 2007, se puede
ajustarlos estacionalmente. El índice estacional para el trimestre de invierno es 79.05, que
servirá para realizar el pronóstico final del trimestre de invierno como se muestra a
continuación. 9.5794 ( 79.05)/100 = 7.5725.

Las estimaciones finales para los trimestres del año 2007 se presentan en la última
columna del cuadro 3.32. Obsérvese cómo los ajustes estacionales aumentan drásticamente
las estimaciones del inventario para los dos último, trimestres del año.

Y`25 = 8.5169 + 0.0425 ( 25 ) = 9.5794


Y`26 = 8.5169 + 0.0425 ( 26 ) = 9.6219
Y`27 = 8.5169 + 0.0425 ( 27 ) = 9.6644
Y`28 = 8.5169 + 0.0425 ( 28 ) = 9.7069

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 135


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.
Cuadro 3.22 Pronósticos Trimestrales para E&S para el año 2007

Trimestre (1) (2) (3) ( 4 ) = ( 2 )*( 3 )/100


t Inventario Índice Pronóstico Trimestre
Estimado Estacional
Invierno 25 9.5794 79.05 7.5725
Primavera 26 9.6219 51.29 4.9351
Verano 27 9.6644 116.56 11.2648
Otoño 28 9.7069 156.74 15.2146

Figura 3.23. Gráfica del Pronóstico Final de las Ventas Aplicando Índices Estacionales. Año2007

Figura 3.24. Gráfica del Pronóstico de las Ventas utilizando solamente la Ecuación de Regresión. Año. 2007

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 136


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 137


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

CAPITULO XI

MUESTREO
El muestreo es una herramienta de la investigación científica, que consiste en seguir un
método, un procedimiento en el que se escoge un grupo pequeño de una población con el cual
podemos tener un grado de probabilidad de que efectivamente ese pequeño grupo posee las
características de la población o universo que estamos estudiando.
En la investigación científica es habitual que se empleen muestras como medio de acercarse al
conocimiento de la realidad. Sin embargo, para que esto sea posible, y que a través de las
muestras reproducir el universo con la precisión que se requiera en cada caso, si es necesario
que el diseño muestral se atenga a los principios recogidos en las técnicas de muestreo.
El Objeto del muestreo es obtener una muestra que permita, a través del estudio de su
constitución estimar cómo es la constitución de la población a la que pertenece la muestra;
población que no puede ser conocida directamente por ser muy grande o compleja.

Si una muestra pudiera ir creciendo", es decir aumentando de tamaño, su promedio, , iría


acercándose al promedio de la población que denominaremos con la letra griega ,. Pero si
esto no sucediese, sería signo inequívoco de que la muestra está siendo mal tomada; en este
caso, a la muestra y a las medidas que se tomen de ella se denomina viciada o sesgada. Por
ejemplo, resultaría una muestra sesgada cuando en el muestreo sólo se considerase un
sector de la población, tal sucedería si en el muestreo de la temperatura de los enfermos de
virosis sólo se considerase a las mujeres o a los niños y no a los hombres; o si en una fábrica
de tejidos sólo se muestrease los defectos de la tela tejida por una parte de las máquinas
tejedoras de la fábrica. Las muestras sesgadas, son muestras defectuosas que no representan
a la población, y que de ninguna manera deben considerarse para estimar las medidas de la
población.

A las medidas que se obtienen de las muestras, por ejemplo y otras que después
veremos, se denomina estadísticas, mientras que a las correspondientes medidas de la
población, por ejemplo ., se denominan parámetros.
Un muestreo bien realizado dá una muestra que puede proporcionar medidas que estiman

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 138


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

a las medidas correspondientes de la población de donde proviene la muestra, esto a un costo


y tiempo mínimo con relación al censo.

Fines del muestreo y análisis de la muestra:


(a) Establecer los límites de confianza dentro de los cuales se encuentre el parámetro de una
población, con cierto grado de seguridad.
(b) Establecer los límites de confianza dentro de los cuales se encuentre la diferencia entre dos
parámetros de igual naturaleza de dos poblaciones, con cierto grado de seguridad.
(c)Tomar decisiones en la comparación de un parámetro de una población, con respecto a un
valor dado, con cierto grado de seguridad.
(d)Tomar decisiones en la comparación de dos parámetros de igual naturaleza de dos
poblaciones, con cierto grado de seguridad.

En estadística estos fines se cumplen, pero no en forma absoluta, es decir con 100% de
seguridad, pues siempre queda una pequeña probabilidad en contra; por ejemplo, de que
los límites no encierran el valor desconocido de la población; así podemos llegar a
establecer que el promedio de rendimiento () de una variedad de maíz de un valle está
entre 4,250 y 4,720kgs.x Ha., con 5% de probabilidades de que esté fuera de estos límites.
También podemos llegar a establecer que el rendimiento promedio (A) de una variedad de
un valle es superior al rendimiento promedio (B) de otra variedad B, con 5% de
probabilidades de que ambos promedios sean iguales. Ambos ejemplos son de variedades
de maíz en un valle; puede pensarse en ejemplos similares en el campo de la medicina,
pedagogía, industria, comercio, etc.

TECNICA DE MUESTREO.
La técnica del muestreo, establece la relación entre las poblaciones y las muestras, con el
objeto de estimar los parámetros de las poblaciones a través de las medidas estadísticas de
las muestras, tales como el promedio, la varianza, etc. La técnica del muestreo permite
determinar si hay diferencia entre parámetros equivalentes de dos a más poblaciones; tal por
ejemplo, si el efecto de un suero es mejor que otro para el tratamiento de una enfermedad, si
un producto procesado con un procedimiento es mejor o, peor que el producta procesado con
otra procedimiento etc. Esta conduce a tomar una decisión sobre bases estadísticas de
acuerdo a las inferencias que se estimen de las poblaciones con una probabilidad dada. A fin
de que las inferencias sean válidas, las muestras deben ser extraídas en forma que sean
representativas de las respectivas poblaciones de donde se extraen, para lo cual es importante
que la población haya sido perfectamente definida.

NATURALEZA DEL MUESTREO


La teoría del muestreo podemos considerar como coexistente con los modernos métodos
estadísticos. Casi todos los desarrollos modernos en estadística se refieren a inferencias sobre
la población teniendo como única información disponible, una muestra de los elementos que
componen dicha población.

LA POBLACION ó Universo Estadístico, está constituido por cualquier conjunto de


individuos u objetos que tengan algunas características comunes observables, las cuales son
objeto de la investigación, como talla, peso, número de hijos, etc., es decir que las
características sean homogéneas.
Ejemplos:
 Todos los alumnos de un Centro educativo que se matricularon en el año
2008 constituyen una población o Universo estadístico.
 El total de bebés en una ciudad( “clientes” potenciales para una fábrica de cunas).
 El total de familias de una ciudad, con ingreso mensual superior a 800 soles, que son
clientes potenciales ( potenciales de lavavajillas).
 Número de tiendas que venden artículos fotográficos dentro de una
región.

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 139


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

 Número de Empresas Agroindustriales de conservas.

La Población puede ser finita o infinita


Población Finita.- Cuando los datos son medibles, es decir tienen principios y fin.
Ejemplos:
 Número de alumnos matriculados en el ciclo 2000 I en la escuela de de Economía de la
UNPRG.
 Número de profesores que laboran en la UNPRG.

Población Infinita.- Cuando los datos tienen principio pero no fin.


Ejemplos:
 Los puntos de una línea, las estrellas del firmamento, etc.
 La población infinita está dada por un conjunto de datos infinitos que tienen alguna
característica común observable.

MUESTRA.- Es el número de elementos que se toman de una población o Universo estadístico,


ésta debe ser representativa y adecuada.

Ejemplo: Si en un Centro Educativo se matricularon 1,500 alumnos, la población escolar del


Centro Educativo será de 1,500 alumnos.
Si de esa población de 1,500 alumnos, eligiéramos al azar 800 alumnos para hacer una
investigación sobre hábitos de consumo alimentario, entonces tendríamos una muestra de la
población escolar de un Centro Educativo.

RAZONES PARA EL USO DE LAS MUESTRAS

Existen las siguientes razones fundamentales para usar muestras.


a) Una muestra ahorra dinero (si se compara con el costo de un censo completo) cuando no
se necesita una precisión absoluta.
b) Una muestra ahorra tiempo cuando se desean tener los datos con mayor rapidez que lo
que sería posible con un censo completo.
c) Una muestra puede permitir concentrar la atención en los casos individuales.
d) Algunas poblaciones pueden considerarse infinitas y por lo tanto su estudio sólo es
factible mediante una muestra.
Un ejemplo simple puede ser la experimentación agrícola para la prueba de determinados
fertilizantes.
e) Cuando los errores ajenos al muestreo son necesariamente grandes, una muestra puede
dar mejores resultados que un censo completo ya que esos errores se controlan con más
facilidad si la operación es de pequeña escala.

CONDICIONES DE LAS MUESTRAS


Las condiciones fundamentales de las muestras son cuatro:
1.-Que comprendan parte de la población y no la totalidad de éste.
2.-Que su amplitud sea estadísticamente proporcionada a la magnitud de la población. Esta
condición se halla en estrecha relación con el punto práctico de determinación de tamaño
de la muestra, y sirve para decidir si, según las unidades que comprende respecto a la
población, una muestra es o no admisible.
3.- La ausencia de distorsión o desviación en la elección de los elementos de la muestra. Si
esta elección presenta alguna anomalía la muestra resultará con este mismo hecho viciada
4.-Que sea representativa o reflejo fiel de la Población, de tal modo que reproduzca sus
diversas características. Por ejemplo si la población comprende hombres y mujeres, la
muestra también, deberá comprenderlos y precisamente en la misma proporción.

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 140


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

LIMITACIONES DEL MUESTREO.


En ciertas condiciones la utilidad del muestreo es cuestionable. Podemos precisar tres
condiciones principales:
1º.-Si se necesitan datos para áreas muy pequeñas tiene que usarse una muestra
desproporcionadamente grande ya que la precisión de una muestra depende, en gran parte
del tamaño de la muestra y no de las tasas de muestreo. En casos como esos una muestra
puede resultar tan costosa como un censo.

2º.-Si se necesitan datos a intervalos regulares de tiempo y es importante medir cambios muy
pequeños entre un período y el siguiente, pueden requerirse muestras muy grandes.

3º.-Si los Costos generales de una encuesta por muestra son elevados debido al trabajo de
selección de la muestra, control, etc, el muestreo puede resultar poco práctico. Por ejemplo,
en una provincia con muy pocas escuelas es posible que resulte más económico enumerar
todas las escuelas en la provincia que enumerar de una muestra de escuelas en la provincia
sin embargo, para el trabajo de oficina, es decir el procesamiento de los datos, puede
usarse una muestra de las escuelas enumeradas y reducir en esa forma el trabajo y los
costos de producción de las tabulaciones.

ELEMENTOS BÁSICOS DEL MUESTREO.

MARCO DE MUESTREO
Es la concreción individualizada de las unidades del Universo, es el punto de partida y el
fundamento necesario para realizar la selección de la muestra.
La base de muestreo o marco de muestreo puede consistir en un Censo, un registro, una
lista de personas, un fichero, un catálogo, un mapa, un plano, una guía de nombres.
La base de la muestra no siempre existe en la realidad. Hay muchos universos que no
están censados o catalogados y que es prácticamente imposible catalogarlos. Por ejemplo, no
lo están el público que circula por las calles, ni los asistentes a un cine o a un estadio. La
solución que se adopta entonces es practicar la elección de la muestra por algún
procedimiento aleatorio imperfecto. Así por ejemplo encuestar uno de cada cinco personas que
se encuentran por la calle. También se puede dar el caso que se conozca la composición en
categorías de la población, pero que no exista registro de ellos. Entonces se puede recurrir al
procedimiento, igualmente imperfecto estadísticamente, de asignar a cada agente una serie de
encuestas de cada categoría a realizar, proporcional en su conjunto a la magnitud de los
estratos en la población, dejando a su arbitrio la elección de los individuos concretos a
encuestar.
Recapitulando diremos que el Marco de Muestreo es la totalidad de las Unidades de
muestreo de donde se extraerá la muestra.

UNIDAD DE MUESTREO
La unidad de muestreo es una unidad seleccionada del Marco de muestreo.
La Unidad de muestreo es cada uno de los elementos en que se subdivide la base de la
muestra o marco muestral y figuran individualizados en ello. No sólo puede ser simple, sino
también colectiva, como cuando está constituido por familias, grupos, ciudades, pueblos, etc.
Puede ser la Unidad de Análisis, aún cuando no es necesario. Por ejemplo para poder
obtener información acerca de las personas podríamos usar una lista completa de un censo, o
un registro de personas y seleccionar directamente una muestra de personas. Sin embargo,
también podríamos seleccionar una muestra de familias e incluir en la encuesta todas las
personas de las familias seleccionadas. En forma similar podríamos seleccionar edificios
completos, e incluir todas las personas que viven en las edificaciones seleccionadas.

UNIDAD DE ANALISIS
La Unidad de análisis, es la Unidad para la que deseamos obtener información estadística. En
las encuestas de tipo usual, pueden ser personas, hogares, escuelas, casas o firmas
comerciales. Podrían ser también tarjetas perforadas o productos surgidos de algún proceso

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 141


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

mecánico para algunos otros tipos de análisis.


La Unidad de análisis es denominada frecuentemente como elemento de población.
En una misma encuesta puede existir más de un elemento, por ejemplo familias y
personas, o número de casas y hectáreas cultivadas o escuelas y alumnos.

PROBABILIDAD DE SELECCIÓN
La probabilidad de selección es la que tiene cada unidad en la población de ser incluida
en la muestra. La probabilidad es un valor que oscila entre cero y uno.

FRACCION DE MUESTREO
Es el porcentaje que representa la muestra respecto al universo comprendido en la base
de la muestra. Así tenemos:
f = fracción de muestreo
n = muestra
N = Población

La fórmula es: f = (100)

Ejemplo: Supongamos que se tiene una población de 1320 personas y el tamaño de la

muestra es de 165 personas.: f = ( )*100= 12.5% o sea f = 12.5%.

Quiere decir que de cada cien elementos de la población (1320), 12 están representados en la
muestra

METODOS O TECNICAS DE MUESTREO Y TAMAÑOS DE MUESTRAS

METODOS DE MUESTREO
Para reproducir la población a través de una muestra con la precisión que se requiera, es
necesario que el diseño muestral se atenga a los principios recogidos en las técnicas de
muestreo.
La preocupación central es asegurar de que los miembros de la muestra sean lo
suficientemente representativos de la población entera como para permitir hacer
generalizaciones precisas acerca de ello.
Para realizar tales inferencias el investigador escoge un método de muestreo apropiado
para ver si todos y cada uno de los miembros de la muestra tienen igual oportunidad de ser
integrados en ella. Si a cada miembro de la población se le da igual oportunidad de ser
escogido para la muestra, se está utilizando un método aleatorio de no ser así el otro método
será el no aleatorio. Entonces señalamos que existen dos métodos de muestras o tipos de
muestreos: un método aleatorio (probabilístico) y otro no aleatorio (no probabilístico).

CLASIFICACION DE LOS METODOS DEL MUESTREO.


En el muestreo hay que elegir el método de muestreo más apropiado para las condiciones
de que se disponen, pues influye esto sobre todo en la precisión de los resultados, costo del
muestreo y tamaño necesario de la muestra. A continuación vamos a tratar de los diferentes
métodos de muestreo que pueden adoptarse, pero antes damos su clasificación:

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 142


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

 Aleatorio Simple

 Aleatorio Sistemático

 Estratificado

Probabilísticos:  Por Conglomerados

 Polietápico

 Por Ruta Aleatoria

Muestreo

 Por Cuotas ó Accidental.

No Probabilísticos:  Intencional o de Juicio

 Accidental o Casual

 de Bola de Nieve

MUESTRAS NO ALEATORIAS
A veces, para estudios exploratorios, el muestreo probabilístico resulta excesivamente costoso
y se acude a métodos no probabilísticos, aun siendo conscientes de que no sirven para realizar
generalizaciones, pues no se tiene certeza de que la muestra extraída sea representativa, ya
que no todos los sujetos de la población tienen la misma probabilidad de ser elegidos. En
general se seleccionan a los sujetos siguiendo determinados criterios procurando que la
muestra sea representativa, ya que estos métodos están basados en algún elemento de juicio o
criterio humano para decidir cuáles unidades de la población son las que deben forma las
muestras. Algunos de estos métodos se describen a continuación.

A. Muestreo por cuotas


También denominado en ocasiones "accidental". Consiste en que el investigador
selecciona la muestra considerando algunos fenómenos o variables a estudiar, como edad,
sexo, religión, clase social o raza, etc. Se asienta generalmente sobre la base de un buen
conocimiento de los estratos de la población y/o de los individuos más "representativos" o
"adecuados" para los fines de la investigación.
En este tipo de muestreo se fijan unas “cuotas” o muestras de acuerdo con el porcentaje
que ocupan dentro de la población o de acuerdo con el un número de individuos que
reúnen unas determinadas condiciones. Este método es utilizado por las encuestadoras
de opinión pública, en la que los encuestadores proceden a buscar las personas hasta
cubrir la cuota previamente fijada, sin preocuparse por áreas geográficas, zonas u otro
criterio.
Supongamos por ejemplo que nos proponemos sacar una muestra de los estudiantes
matriculados en el Centro Educativo de Aplicación de la UNPRG de Educación Secundaria
donde el 40 % son mujeres y el 60% son varones. Utilizando el método de muestreo por
cuota, se da a los entrevistadores una cuota de estudiantes para localizar, de manera que el
40% de la muestra tenga a mujeres y el 60% a los varones, estamos incluyendo en la
muestra los mismos porcentajes que están representados en la población. Si la muestra es
300 entonces se seleccionan 180 estudiantes de sexo femenino y 120 del sexo masculino.
Ejemplo: Encuestar a 20 individuos de 25 a 40 años, de sexo femenino y residentes en
Chiclayo. Una vez determinada la cuota se eligen los primeros que se encuentren que
cumplan esas características.

B.- Muestreo intencional o por conveniencia.


Otra unidad de muestra no aleatoria se conoce con el nombre de muestreo por

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 143


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

conveniencia, intencional, o de juicio; en el que el investigador decide, según sus


objetivos, los elementos que integrarán la muestra, considerando aquellas unidades
supuestamente “típicas” de la población que desea conocer. La idea fundamental que
involucra este tipo de muestra es que lo lógico, el sentido común o el sano juicio, se usen
para seleccionar una muestra que sea representativa de una población. Por ejemplo:
queremos seleccionar una muestra de los niños que no toman leche en el desayuno, por el
sentido común o lógica, podrán ser encuestados los niños que viven en las Zonas Urbano
Marginales o Pueblos Jóvenes.
Es muy frecuente su utilización en sondeos preelectorales de zonas que en anteriores
votaciones han marcado tendencias de voto.

C.- Muestreo por accidente o casual.


Se trata de un proceso en el que el investigador selecciona directa e intencionadamente los
individuos de la población. El caso más frecuente de este procedimiento el utilizar como
muestra los individuos a los que se tiene fácil acceso (los profesores de universidad
emplean con mucha frecuencia a sus propios alumnos). Un caso particular es el de los
voluntarios.
Este método de muestreo requiere poco esfuerzo y dinero. Tiene el inconveniente de que
quien lo realiza, desarrolla poco interés para que la muestra represente a la población. De
este método se hacen uso los periodistas de los diarios cuando entrevistan a un grupo de
personas, que generalmente son las que están más a su alcance en las calles y plazas de la
ciudad. Generalmente sirve para muestrear opiniones sobre tópicos especiales de
importancia en el día, con el fin de describir un artículo. Es frecuente sin embargo que estos
escritores digan que recogieron la opinión al azar y que representa a la opinión pública.
Obviamente esto no es cierto a la luz de la técnica estadística.
Este método en manos del estadístico sin embargo puede ser útil para obtener ideas y
opiniones que puedan servir para diseñar cuestionarios. Pero nunca debe ser usado por
nadie para estimar poblaciones.

D.- Bola de nieve


Se localiza a algunos individuos, los cuales conducen a otros, y estos a otros, y así hasta
conseguir una muestra suficiente. Este tipo se emplea muy frecuentemente cuando se
hacen estudios con poblaciones "marginales", delincuentes, sectas, determinados tipos de
enfermos, etc.

MUESTRAS ALEATORIAS O PROBABILISTICO


Son aquellas que se basan en el principio de equiprobabilidad. Es decir, aquellos en los que
todos los individuos tienen la misma probabilidad de ser elegidos para formar parte de una
muestra; ello indica que cada miembro de la población debe ser identificado antes de obtener
dicha muestra aleatoria, requisito que generalmente se llena obteniendo una lista que incluya
a todos y cada uno de los miembros de la población. Elaborar una lista o padrón de la
población no es una tarea fácil, especialmente si la población estudiada es grande y

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 144


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

diversificada. Así por ejemplo si queremos investigar a los residentes de la provincia de


Chiclayo, tendremos que empadronar a todos los residentes de esta ciudad, que en verdad es
una tarea muy laboriosa.
Sólo estos métodos de muestreo probabilísticos nos aseguran la representatividad de la
muestra extraída y son, por tanto, los más recomendables. Dentro de los métodos de muestreo
probabilísticos encontramos los siguientes tipos:

A.- Muestreo aleatorio simple (MAS)


El muestreo aleatorio simple puede obtenerse mediante diversos métodos, entre ellos, a
través de un.
 Muestreo con repetición,
 Muestreo sin reposición,
 Con el uso de una tabla de Números Aleatorios.

Utilizaremos un ejemplo hipotético, simple y artificial, para comprender fácilmente las


relaciones necesarias que se dan. Supongamos que tenemos una población hipotética de 12
personas y que deseamos estimar el ingreso promedio de estas personas, a través de una
muestra.
Supongamos que deseamos calcular las estimaciones mediante una muestra de dos
individuos. La muestra se puede seleccionar de varias formas. Por ejemplo, se puede usar
12 fichas de igual tamaño, cada una de las cuales tendrá escrita las letras: A, B, C, D,
hasta L, no existiendo dos de ellas marcadas con la misma letra. Luego colocaremos las
fichas en un recipiente, las mezclaríamos muy bien y extraeríamos dos fichas al azar
considerando que las fichas representan las personas seleccionadas.
La Población completa aparece en el Cuadro siguiente:

INGRESOS EN UNA POBLACION HIPOTETICA DE 12


PERSONAS

Individuos Ingresos
A S/ 1300
B 4300
C 3100
D 2000
E 3600
F 2200
G 1800
H 2500
I 1500
J 900
K 2800
L 1900
Ingreso Total 27 900
Ingreso Promedio 2 325

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 145


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Este tipo de selección puede hacerse de dos formas: Puede sacarse una ficha reemplazada
en el recipiente y extraer la segunda. En este caso la segunda ficha podría ser igual a la pri-
mera. Este procedimiento se denomina Muestreo con reposición.
Por otra parte se podría extraer la segunda ficha al mismo tiempo que la primera o se lo
podría seleccionar sin reponer la primera; en uno u otro caso las fichas serían diferentes,
este es el Muestreo sin reposición.
Cuando se extraen muestras de una población finita, la práctica usual es aplicar el muestreo
sin reposición.
Existen otras formas de seleccionar dos personas al azar.
En el muestreo sin reposición, se consideran todos los pares posibles de individuos AB, AC,
AD, ... BC, BD, ... CD, CE, etc. podríamos escribir un par de letras, por cada uno de los 66
pares, en cada ficha y seleccionar una ficha única
Las muestras de selección posibles son iguales que las del caso anterior.
En la práctica no se usan fichas para seleccionar unidades individualmente o en pares. El
método común es usar una tabla de números al azar y elegir en la misma, dos números
comprendidos entre 1 y 12.
Los dos números representan a dos individuos. El uso de las tablas de números al azar tiene
el mismo efecto que el uso de fichas.
Debemos precisar que cualquiera de estas formas satisfacen los criterios para una muestra
aceptable.

Uso de una tabla de números aleatorios


Cuando el investigador quiere hacer uso de una tabla de números aleatorios tal como la que
se presenta en el anexo.
Una tabla de números aleatorios se construye en forma tal que genere series de números
sin ningún patrón u orden determinado. Como resultado, el proceso de usar una tabla de
números aleatorias produce una muestra imparcial semejante a aquella que se logra
poniendo pedazos de papel en un sombrero y sacando nombres con los ojos vendados.
Las tablas de números aleatorios se usan en el muestreo para evitar el tener que realizar
ciertas operaciones, tales como la selección de fichas numeradas de urna, para determinar
las unidades que se deben incluir en la muestra.
Existen muchas tablas de números al azar, en general esas tablas muestran conjuntos de
dígitos aleatorios ordenados en grupos tanto en sentido horizontal como vertical. Para selec-
cionar un conjunto de números aleatorios podemos comenzar en cualquier lugar de la tabla.
Además, una vez seleccionado el primer número, se puede continuar una columna hacia
abajo o hacia arriba. Una ficha hacia un lado o el otro, o de acuerdo con cualquier pauta
deseada.
Para ser más explícitos vamos a desarrollar un ejemplo:
Para obtener un número al azar entre 1 y un cierto número dado, por ejemplo entre 1 y 163
Seguiremos los siguientes pasos:
1.- 0bserve el número de dígitos que componen el número límite superior (en 163 hay tres
dígitos).
2.- Usa ese mismo número de columnas contando a partir de la primera (o cualquier otra
predeterminada) columna y comienza desde arriba. Cada línea en un grupo de tres
columnas contiene un número de tres dígitos.
3.- Elige primero esos números comprendidos entre 001 y el límite superior dado, entre 001
y 163 en nuestro ejemplo.
4.- Rechaza los números que sean mayores de 163 al igual que 000. Si se desea más de un
número aleatorio, continúa hacia abajo a lo largo de las tres columnas, eligiendo cada
número de tres dígitos comprendido entre 001 y 163 hasta tener la cantidad deseada de
números al azar en tres dígitos. Si un mismo número al azar en tres dígitos. Si un número
aparece dos o más veces, elígelo una sola vez.
Supongamos que partimos de una tabla de números al azar como la siguiente:

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 146


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

5ta. columna
1089 8719
9385 7902
6934 8660
0052 1007
5736 9249
1901 5988
5372 6212

Dentro de los límites de los números que figuran en los ejemplos siguientes,
seleccionaremos en la tabla anterior números al azar usando cada número seleccionado
una sola vez

Ejemplo 1 .
- Seleccionar tres números al azar entre 1 y 10.
- Elegimos primero una columna arbitrariamente decidiendo que 0 representa a 10.
- Supongamos que hemos elegido la quinta columna.
- El primer número de esa columna es 8, el segundo 7, el tercero 8 nuevamente.
- Como este número ya ha sido seleccionado, lo pasamos por alto y tomamos el número
siguiente que es1.
Los tres números seleccionados son por lo tanto 8, 7 Y 1.
Ejemplo 2
Seleccionar cinco números al azar entre 1 y 80. Supongamos que tomamos las dos
primeras columnas como punto de partida.
- Primero elegimos 10
- Rechazamos 93 ya que no está comprendido entre 01 y 80.
- Elegimos 69, rechazamos 00 (que representa a 100) Y
- Tomamos luego 57, 19 Y 53.
Ventajas del ( MAS):
- Sencillo y de fácil comprensión.
- Cálculo rápido de medias y varianzas.
- Se basa en la teoría estadística, y por tanto existen paquetes informáticos para analizar los
datos.

Desventajas del (MAS):


- Requiere que de antemano se posea un listado completo de toda la población o de un
marco muestral.
- Cuando se trabaja con muestras pequeñas es posible que no represente a la población
adecuadamente.

B. Muestreo aleatorio sistemático


Este procedimiento exige, como el anterior, numerar todos los elementos de la población,
pero en lugar de extraer n números aleatorios sólo se extrae uno. Se parte de ese número
aleatorio i, que es un número elegido al azar, y los elementos que integran la muestra son
los que ocupan los lugares i, i+k, i+2k, i+3k,...,i+(n-1)k, es decir se toman los individuos de
k en k, siendo k el resultado de dividir el tamaño de la población entre el tamaño de la
muestra: k = N/n. El número i que empleamos como punto de partida será un número al
azar entre 1 y k.
El riesgo de este tipo de muestreo está en los casos en que se dan periodicidades en la
población ya que al elegir a los miembros de la muestra con una periodicidad constante (k)
podemos introducir una homogeneidad que no se da en la población. Imaginemos que
estamos seleccionando una muestra sobre listas de 10 individuos en los que los 5 primeros
son varones y los 5 últimos mujeres, si empleamos un muestreo aleatorio sistemático con k
=10 siempre seleccionaríamos o sólo hombres o sólo mujeres, no podría haber una
representación de los dos sexos.
Este tipo de muestreo se utiliza en los bancos para elegir por orden de llegada, en los grifos
para seleccionar carros, en el control de calidad de un producto en pleno proceso, etc.

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 147


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Ventajas:
- Fácil de aplicar.
- No siempre es necesario tener un listado de toda la población.
- Cuando la población esta ordenada siguiendo una tendencia conocida, asegura una
cobertura de unidades de todos los tipos.
Desventajas:
- Si la constante de muestreo esta asociada con el fenómeno de interés, se pueden hallar
estimaciones sesgadas.

C. Muestreo estratificado.
Muestreo en el que la población se divide previamente en un número de subpoblaciones o
estratos, prefijado de antemano. Dentro de cada estrato se realiza un muestreo aleatorio
simple.
Trata de obviar las dificultades que presentan los anteriores ya que simplifican los procesos
y suelen reducir el error muestral para un tamaño dado de la muestra. Consiste en
considerar categorías típicas diferentes entre sí (estratos) que poseen gran homogeneidad
respecto a alguna característica (se puede estratificar, por ejemplo, según la profesión, el
municipio de residencia, el sexo, el estado civil, etc ). Lo que se pretende con este tipo de
muestreo es asegurarse de que todos los estratos de interés estarán representados
adecuadamente en la muestra. Cada estrato funciona independientemente, pudiendo
aplicarse dentro de ellos el muestreo aleatorio simple o el estratificado para elegir los
elementos concretos que formarán parte de la muestra. En ocasiones las dificultades que
plantean son demasiado grandes, pues exige un conocimiento detallado de la población.
( tamaño geográfico, sexos, edades, grupos étnicos, los docentes estratificados por tiempos
de servicios, etc).
Cuanto más homogéneos sean los estratos, más precisas resultarán las estimaciones.

La distribución de la muestra en función de los diferentes estratos se denomina afijación, y


puede ser de diferentes tipos:

Afijaciòn Simple.- A cada estrato le corresponde igual número de elementos maestrales.


Afijación Proporcional.- La distribución se hace de acuerdo con el peso (tamaño) de la
población en cada estrato.
Afijación Optima.- Se tiene en cuenta la previsible dispersión de los resultados, de modo
que se considera la proporción y la desviación típica. Tiene poca aplicación ya que no se
suele conocer la desviación.

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 148


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Ventajas:
- Tiende a asegurar que la muestra represente adecuadamente a la población en función de
unas variables seleccionadas.
- Se obtienen estimaciones más precisas.

Desventajas:
- Se ha de conocer la distribución en la población de las variables utilizadas para la
estratificación.
- Los análisis son complicados, en muchos casos las mezclas tiene que ponderarse (asignar
pesos a cada elemento).

Ejemplo: Supongamos que estamos interesados en estudiar el grado de aceptación de la


implantación del nuevo tipo de examen de admisión que tomará la UNPRG que ha tenido
entre los padres del departamento de Lambayeque, A tal efecto seleccionamos una muestra
de 600 padres. Se conoce por los datos del ministerio de Educación que de los 10000
Alumnos que que ya terminan en este año y que nos interesan, 6000 acuden a colegios
públicos, 3000 a colegios privados y 1000 a colegios religiosos. Como estamos interesados
en que en nuestra muestra estén representados todos los tipos de colegio, realizamos un
muestreo estratificado empleando como variable de estratificación el tipo de centro
educativo.
Si empleamos una afijación simple elegiríamos 200 niños de cada tipo de centro, pero en
este caso parece más razonable utilizar una afijación proporcional pues hay bastante
diferencia en el tamaño de los estratos. Por consiguiente, calculamos que proporción supone
cada de los estratos respecto de la población para poder reflejarlo en la muestra.

Colegios públicos : 6000/10000 = 0.60


Colegios Privados : 3000/10000 = 0.30
Colegios Privados religiosos:1000/10000 = 0.10

Para conocer el tamaño de cada estrato en la muestra no tenemos más que multiplicar esa
proporción para el tamaño muestral.

Colegios públicos : 0.06x600 = 360 Padres


Colegios Privados : 0.30x600 =180 Padres
Colegios Privados religiosos: 0.10x600 = 60 Padres

D.- Muestreo aleatorio por conglomerados


Los métodos presentados hasta ahora están pensados para seleccionar directamente los
elementos de la población, es decir, que las unidades maestrales son los elementos de la
población. En el muestreo por conglomerados la unidad muestral es un grupo de elementos
de la población que forman una unidad, a la que llamamos conglomerado. Las unidades
hospitalarias, las Urbanizaciones, los departamentos universitarios, una caja de determinado
producto, etc, son ejemplos de conglomerados naturales. En otras ocasiones se pueden
utilizar conglomerados no naturales como por ejemplo, las urnas electorales. Cuando los
conglomerados son áreas geográficas suele hablarse de "muestreo por áreas".
El muestreo por conglomerados consiste en seleccionar aleatoriamente un cierto número de
conglomerados (el necesario para alcanzar el tamaño muestral establecido) y en investigar
después todos los elementos pertenecientes a los conglomerados elegidos.

Ventajas:
 Es muy eficiente cuando la población es muy grande y dispersa. Reduce costos.
 No es preciso tener un listado de toda la población, solo de las unidades primarias de
muestreo.

Desventajas:
 El error estándar es mayor que en el muestreo aleatorio simple o estratificado.
 El cálculo del error estándar es complejo.

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 149


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Ejemplo: En una investigación en la que se trata de conocer el grado de satisfacción laboral


de los profesores de un instituto necesitan una muestra de 700 sujetos. Ente la dificultad de
acceder individualmente a estos sujetos se decide hacer una muestra por conglomerados.
Sabiendo que el número de profesores por instituto es aproximadamente de 35, los pasos a
seguir serán los siguientes:
1.- Recoger un listado de todos los institutos.
2.- Asignar un número a cada uno de ellos.
3.- Elegir por muestreo aleatorio simple o sistemático los 20 institutos (700/35= 20) que
nos proporcionarán los 700 profesores que necesitamos.

Para finalizar con los métodos de muestreo probabilísticos es necesario comentar que ante
lo complejo que puede llegar a ser la situación real de muestreo con la que nos enfrentemos
es muy común emplear lo que se denomina muestreo polietápico. Este tipo de muestreo
se caracteriza por operar en sucesivas etapas, empleando en cada una de ellas el método
de muestreo probabilístico más adecuado.

E. Muestreo polietápico
Muestreo en el que se procede por etapas se obtiene una muestra de unidades primarias,
más amplias que las siguientes; de cada unidad primaria se toman, para una submuestra,
unidades secundarias, y así sucesivamente hasta llegar a las unidades últimas o más
elementales. Se le puede considerar como una modificación del muestreo por
conglomerados cuando no forman parte de la muestra elementos o unidades de todos los
conglomerados, sino que, una vez seleccionados estos, se efectúan submuestras dentro de
cada uno de ellos.

F. Muestreo por Rutas Aleatorias


La selección de los miembros de la muestra se realiza como parte del trabajo de campo.
Establecida un área de muestreo, se define un punto de partida, sobre el que se aplica una
ruta predefinida en la que se van seleccionando los miembros de la muestra con arreglo a
un procedimiento heurístico.
Busca asegurar una cobertura geográfica de la muestra y/o suplir la falta de censo.
No es aconsejable en planos no lineales o poco homogéneos en manzanas y edificación.

DETERMINACION DEL TAMAÑO DE MUESTRAS


Consiste en averiguar cuántos sujetos deben ser seleccionados en la muestra.
El tamaño de una muestra ha de alcanzar determinadas proporciones mínimas, fijadas
estadísticamente según las leyes experimentales de la probabilidad. Pero por otra parte, las
necesidades prácticas de ahorro de tiempo, costo y esfuerzos aconsejan que el tamaño de la
muestra no exceda este límite mínimo marcado por la estadística. En estas razones se sustenta
la importancia o más bien la necesidad que tiene el investigador de conocer la forma de
calcular los límites mínimos del tamaño de una muestra no sólo para que los resultados que se
obtengan en la encuesta ofrezcan las debidas garantías de poder ser aplicados y extendidos al
Universo o Población objeto de estudio, sino también para tener la seguridad de que la muestra
es lo más reducida posible dentro de los niveles de seguridad y exactitud propuestos.
Determinar el tamaño de una muestra y también su cálculo depende de los siguientes factores
o elementos:
- La amplitud del universo o población infinito
- Nivel de confianza adoptado
- Error de estimación permitido y
- Proporción en que se encuentra en el universo o población la característica estudiada.

 Según su amplitud.- El Universo de la muestra se divide en infinito y finito.


Se consideran finitos, los que no pasan de la cifra de 100,000 unidades e infinitos los que
exceden de esa cantidad. Esta distinción es importante para determinar el tamaño de la
muestra dado que las fórmulas son distintas en cada caso.
 El nivel de confianza.- El nivel de confianza no es otra cosa que la porción del

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 150


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

área de una curva de distribución estadística normal del universo que se piensa abarcar.
Las pruebas empíricas realizadas muestran que la distribución en la población de cualquier
información recogida en una muestra se ajusta por lo general a la ley normal de
probabilidad con unos valores centrales y medios avanzados y unos valores reducidos y
adopta por tanto la forma de una curva de campana de Gauss.
El nivel de confianza que normalmente se estima suficiente en una investigación y el más
generalmente usado es el de dos sigmas, que abarca el 95.5 % a 955 por 1000 del área de
la curva normal e indica que existe una probabilidad de 95.5% de que cualquier resultado
obtenido en la muestra es válido para el Universo en principio. También se emplea, cuando
se quiere lograr una mayor seguridad el nivel de confianza de tres sigmas, que abarca una
probabilidad de 99.7% del área de dicha curva.
 Error de estimación.- Los resultados de las muestras no pueden ser
rigurosamente exactos en relación a la población que pretenden representar y siempre
suponen un error de medida mayor a menor. Este error disminuye como es obvio, con la
amplitud de la muestra. El máximo error de este tipo que se suele considerar ad misible en
las investigaciones sociológicas o educativas es del 6%. Como de este error depende el
tamaño de la muestra, para determinar éste se debe decidir previamente el error que se
estima admisible.
A mayor exactitud que se pretenda, por tanto se planteará un error menor,
consecuentemente el tamaño de la muestra tendrá que ser mayor.

 Proporción en que se encuentra en la población la característica.- El


cuarto elemento del que depende el tamaño de la muestra es el tanto por ciento de la
proporción que expresa la extensión estimada en la población de la característica sobre la
que se desea obtener información. Por ejemplo en una encuesta sobre el consumo de leche
enlatada a niños de un distrito se deberá estimar inicialmente, aunque sea de manera
aproximada, mediante un sondeo previo, la proporción de niños que toman leche y niños
que no la toman respecto al total de la población. Cuando representa una dificultad grande
realizar esta estimación previa, se suele adoptar la suposición de que dicha proporción es
del 50%, que es el caso más desfavorable, es decir, aquel en que la muestra deberá ser
mayor.
Las fórmulas para hallar el tamaño de las muestras en los diferentes casos que se ofrecen
en los ejercicios toman en cuenta estos elementos tratados.
Existen también tablas elaboradas que dan directamente el tamaño de la muestra para
determinados valores. Son distintas las tablas según se trate de valores universos infinitos y
finitos y de un nivel de seguridad de dos sigmas o de tres en cada caso.
En el caso de las muestras estratificadas al determinar el tamaño de las muestras se
plantea un problema especial que es el de su afijación o sea no sólo la determinación del
tamaño general de la muestra que se puede establecer según las fórmulas comunes, sino
también la especificación del volumen de cada estrato de la muestra. Puesto que es
condición básica que la muestra sea lo más representativa de la población, en ella deben
reflejarse los estratos según su proporción en la población.
La forma más directa y práctica de realizar esta operación consiste en aplicar el porcentaje
que representa cada estrato dentro del universo, al tamaño general de la muestra con lo
que se obtendrá el número de elementos de la muestra que se debe asignar a cada estrato

Cuando la población es superior a 100 000 hay que utilizar la fórmula para poblaciones
infinitas que es la siguiente:

PARA POBLACIONES INFINITAS.

Para Variables: Cualitativas Cuantitativas

n=
n=
Donde
n = es el número de elementos de la muestra a determinar
Z2 = es el nivel de confianza elegido
p = es el tanto por ciento estimado de la característica investigada

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 151


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

q = 1- p
E = es el error de estimación admitido

A. Para estimar la media de la población ( )

Ejemplo: Se desea estimar, con el 95% de confianza, el tiempo promedio para efectuar cierta
intervención quirúrgica. En un estudio piloto se encontró una media de 3.5 horas y una
desviación estándar de 2.2 horas. El investigador asume una precisión de 0.35 horas. Calcular
el tamaño de la muestra.
Solución
Datos
Z = 1.96
S = 2.2
E= 0.35 horas

El tamaño de la muestra para estimar el tiempo promedio para efectuar una intervención
quirúrgica es de 152 pacientes.

B. Para estimar la proporción poblacional ( P)

Donde:
P : es la proporción poblacional que puede estimarse de las tres maneras siguientes:

 Revisión bibliográfica
 Estudio piloto
 Asumiendo P = 0.5 y Q = 0.5

E : Error absoluto o precisión que se expresa el % (5%)

Si se conoce el tamaño de la población N

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 152


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Ejemplo: Se desea estimar la proporción de escolares anémicos con 95% de confianza. De


estudios anteriores se sabe que P-80°/o, con un E = 5% y si N=2000. Calcular n.
I ) FORMA

Tamaño de Muestra Ajustada:

II ) FORMA

Ejemplo. Se ha proyectado realizar una investigación educativa en una ciudad de Chiclayo


que según el último censo tiene 650000 habitantes mayores de dieciséis años.
Hallar el tamaño de la muestra teniendo en cuenta que, se pretende trabajar a un nivel de
confianza del 99% y con un margen de error permitido del 4%, mediante la aplicación de la
fórmula y la utilización de las tablas y con indicación de la significación del resultado obtenido.

Apliquemos la fórmula:

Identifiquemos los valores:

N= 650,000 Población
n = ? muestra no se conoce
Z= 99% = 2.57
E= 4% error admitido
p = En cuanto a p como no se indican las proporciones que guardan dentro de la población
las características a estudiar, es preciso suponer el caso más desfavorable, de p igual a
50, luego q también será igual a 50.
Reemplazando los valores en la fórmula
tenemos:

El resultado obtenido significa que el tamaño de la muestra debe ser por lo menos 1032 para
estar seguros con una probabilidad de 99 por 100 de que los resultados de la muestra son váli-
dos dentro de los márgenes del error admitido para el universo.
Cuando el universo es inferior a 100000 hay que utilizar la fórmula para universos finitos
que es la siguiente:

Ejemplo: Queremos estudiar las condiciones socio económicas de los estudiantes de una
provincia cuya población alcanzan a 6800 alumnos, hallar el tamaño de la muestra con un

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 153


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

nivel de confianza del 95% y con margen de error permitido del 6%


Aplicamos la fórmula

Identificamos los valores:


n=?
N= 6800 población
Z= 95% = 1.96 nivel de confianza
E = 6% error permitido
p = 50 (se asume la máxima heterogeneidad de 50% x 50%)
q= 50
Reemplazamos los valores :

(1.96) 2 x 50 x 50 x 6,800 (1.96)2 x 50 x 50 x 6800


n= =
62 x ( 6800-1 ) +(1.96) 2 x 50 x 50 (6)2 x( 6799) + (1.96 )2 x 50 x 50

n = 257 alumnos
Respuesta: El tamaño de la muestra de una población de 6800 alumnos será de 257
alumnos, con un nivel de confianza del 95% y un margen de error del 6%

Ejemplo de Muestreo Aleatorio estratificado proporcional.


Se ha proyectado realizar una encuesta a una muestra del personal docente, administrativo
que labora en una provincia. De las 12000 personas que laboran, 600 son Directores y Sub
directores, 900 son profesores y 2400 son personal administrativo y de servicio.
a. Determinar el tamaño global de la muestra a un 95.5 % de confianza y con un margen de
error permitido del 4%
b. Se requiere que estén representados proporcionalmente las diferentes categorías de
trabajadores, por ello se pide la afijación de la muestra por el método proporcional.

Procedimiento

1.- Determinar el tamaño global de la muestra


n=?
N = 12,000
Nivel de confianza = 95% =1.96, pero para mayor facilidad de cálculo algunos autores
redondean a 4 como se observa en el siguiente ejemplo.
Margen de error E = 4%

2.- Fórmula conocida para población finita

Z2 X p X q x N
n =
E2 (N-1) +Z2 x p x q
3.- Reemplazamos valores:

4 x 50 x 50 x 12,000
n=
16 x 11999 + 4 x 60 x 50
n = 594

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 154


Escuela de Postgrado: UNPRG
Maestría en Investigación y Docencia.

Pasemos ahora a la:

4. - Afijación de la muestra por el sistema proporcional: Obtención de los porcentajes de


cada estrato dentro del universo.

Directores y Subdirectores = . 600 x 100 = 5%


12000

Profesores (docentes de aula) = 9000 x 100 = 75%


1200

Personal administrativo = 2400 x 100 = 20 %


12000

5. - Luego pasemos a la obtención del número de elementos de cada estrato dentro de la muestra.

Directores y Subdirectores: 5% de 594 = 30


Profesores 75% de 594 = 445
Personal Administrativo 20% de 594 = 119

Total de la Muestra = 594

Métodos Cuantitativos MSc. Alfonso Tesén Arroyo 155

También podría gustarte