Modulo de Aprendizaje Estadística 2020
Modulo de Aprendizaje Estadística 2020
Modulo de Aprendizaje Estadística 2020
MÓDULO DE APRENDIZAJE
ESTADÍSTICA
Autores:
Lima – Perú
2020
1
Módulo de Aprendizaje
Estadística
Coordinadora
Autores:
Mg. Agustina Ramírez Torres
Mg. Gonzalo Juan Fernández Romero
Mg. Dina Ñuflo Valdivia
Corrección de estilo:
Lic. Aram Roosell Simangas Villalobos
2
ÍNDICE GENERAL Página
2. El muestreo 11
6. Medidas de dispersión 35
BIBLIOGRAFÍA 70
ANEXOS
3
Introducción
La estadística contribuye con el análisis estadístico de datos que requieran las instituciones gubernamentales,
educativas, empresarial, ingenierías, investigación científica. En este sentido, el propósito de la Guía de práctica
de Estadísticas que el estudiante adquiera la competencia para aplicar las técnicas estadísticas en el tratamiento
análisis de datos cuantitativos a nivel básico.
El contenido de este módulo está dividido en cuatro unidades de aprendizaje de acuerdo a los temas del
contenido del sílabo.
En la segunda unidad se realiza el análisis descriptivo de datos con una sola variable, cuyos resultados se
presentan en tablas de frecuencias, gráficas y estadísticos de resumen los que describen la frecuencia de
ocurrencia de la característica en estudio.
La tercera unidad corresponde al análisis descriptivo bidimensional, con la finalidad de estudiar la asociación de
variables en tablas de contingencia, gráficos de barras agrupadas y los estadísticos de asociación como el
coeficiente de correlación de Pearson. Formulación del modelo de regresión lineal simple para estimar la
ocurrencia de nuevos valores de la variable dependiente.
La cuarta unidad hace una introducción a las probabilidades para estimar la ocurrencia de ciertos fenómenos
aleatorios, mediante la probabilidad de un evento simple, probabilidad condicional y teorema de Bayes.
Los resultados se obtienen con el complemento de Excel MegaStat, los cuales se redactarán en Word y se
trabajará en equipo como también en forma individual.
Los autores
4
Tema 1
Conceptos Básicos y Variables
Estadística
Es la ciencia que proporciona un conjunto de métodos, técnicas y procedimientos para recolectar, procesar,
organizar, presentar y analizar datos con el fin de describirlas características de un estudio, realizar
estimaciones o generalizaciones válidas (Córdova M. 2003). Según el objetivo de análisis estadístico
tenemos: Estadística descriptiva y la estadística inferencial.
Estadística Descriptiva
Estadística Inferencial
Son métodos y técnicas que hacen posible la estimación de una o más características de una población para
tomar decisiones, basadas en el resultado de muestras. Estas conclusiones tienen cierto margen de error y
probabilidad de ocurrencia.
Población
Es el conjunto de todas las unidades de estudio que contienen características observables de naturaleza
cualitativa o cuantitativa que se pueden medir relacionado a un tema de estudio.
La población de estudio lo conforman todos los sujetos, elementos o entes con características similares en
quienes se tiene interés en estudiarlo considerando el lugar y periodo de tiempo. Esta población puede ser
un conjunto finito o infinito. Por ejemplo la población de estudiantes ingresantes de una universidad en el
periodo 2019-I.
Muestra
Es un grupo de unidades de debidamente seleccionados de una población con el propósito de investigar
determinadas características de la población.
Unidad de estudio
Es el sujeto de interés que va a ser investigado y es único, posee características medibles determinado por
el objetivo del estudio.
Dato
Variable
Es unacaracterística medible, observable en una unidad de estudio y el valor medido varían en cada unidad
de una población o muestra, por ejemplo: sexo, sector económico, edad, grado de instrucción, talla, peso,
hijos por familia, etc.
5
Variables cualitativas; Llamadas también categóricas, expresan atributos sin orden cuyos valores se
miden en escala nominal, y atributos con orden que se miden en escala ordinal.
Variables cuantitativas; Llamadas también numéricas, son valores que expresan cantidades y se mide
en escala de intervalo o proporción, se clasifican en continuas y discretas.
Escala nominal
Admite dos o más valores a una variable, el cual permite percibir las diferencias y semejanzas entre las
unidades de estudio que se van a medir, como por ejemplo, la variable sexo tiene dos valores: masculino y
femenino.
Escala ordinal
Los valores asignados a la variable expresan orden o grados en forma ascendente o descendente, el cual
permite comparar en niveles como “mayor que” o “menor que” a cada categoría medida en la unidad de
estudio, como por ejemplo, la variable grado de instrucción toma los valores ordinales: primaria, secundaria
y superior.
Escala de intervalo
Los valores numéricos asignados a la variable permiten comprobar cuantas veces es diferente entre dos
valores medidos. Esta medición puede ser un número positivo, número negativo y el valor cero indica
medición de la variable, que es un “cero relativo” como por ejemplo, la temperatura: 24°C, 0°C, -8°C.
Escala de razón
Mide valores numéricos a partir de cero y números positivos, donde el valor cero indica el inicio de medición
(cero absoluto) u origen, por ejemplo, el peso de una persona es 50 kg.
Ejemplo 1
Un importador de juguetes realizó una encuesta a 85 clientes en diciembre del 2018 para conocer el perfil
del comprador de sus productos en la siguiente campaña navideña. Las variables a medir son: la edad del
niño, sexo, calidad del producto, cantidad de juguetes que compra, etc.
Población de estudio Todos los clientes que visitaron la tienda del importador en diciembre 2018
Muestra Los 85 clientes que visitaron la tienda del importador en diciembre 2018
Unidad de estudio Cada cliente que visitó la tienda del importador en diciembre 2018
6
1.3. Preguntas de aplicación
Problema 01:
El gerente de la Administradora de Fondos de Privado de Pensiones de Jubilación SECURITEX S.A (AFP), sabe
que cuentan con una cartera de 985 537 asegurados. Ante la aprobación de nuevas leyes por el estado, es
necesario realizar un estudio sobre algunas características importantes para fidelizar a sus afiliados y no
retiren sus fondos ante nuevas políticas de inversión. Para el estudio, se seleccionó una muestra
representativa de 654 clientes para aplicarles una encuesta, y algunas de las variables consideradas fueron
el número de miembros por afiliado, el tipo de seguro, pago mensual del seguro, edad, sexo, satisfacción
por la inversión de sus fondos y grado de instrucción. De acuerdo al texto contestar el siguiente cuestionario.
1. Se pide identificar los conceptos estadísticos relacionando las frases y colocando la letra que
corresponda.
2.- Con la información recolectada a través de las características de las unidades de estudio seleccionadas
se elaboró una matriz de datos, como se muestra a continuación:
: : : : : : : : :
: : : : : : : : :
De la matriz de datos se pide clasificar las variables según su naturaleza y escala de medición.
7
Variable Tipo de variable Escala de medición
Problema 02:
Clasifica las variables según su naturaleza y escala de medición en las casillas que están en blanco.
Escala de
Nº Variable Tipo de variable Valores (Ej. Datos)
medida
1 Edad de los congresistas
Estatura de los deportistas de un
2
club
Sueldo de los empleados de una
3
empresa
Profesión de los empresarios de
4
Gamarra
Distrito de residencia de los
5
estudiantes
Grado de instrucción de los
6
clientes de un banco
Nivel de satisfacción de los
7
usuarios de ESSALUD
Peso de recién nacidos en un
8
hospital
Tiempo de tratamiento con un
9
antidepresivo
Número de hijos de los
10
trabajadores de una empresa
Problema 03:
La gerente de Recursos Humanos de una empresa ha elaborado una prueba de aptitud (evaluados en una
escala de 1 a 100) para los 5 puestos de trabajo ofertados; los que obtengan las mejores calificaciones serán
los mejores candidatos para cubrir la plaza de dos secretarias, uno para seguridad, un administrador y un
contador. Respondiendo al llamado se presentaron 21 postulantes aptos según el perfil requerido, los
resultados de la prueba de aptitud en promedio fueron de 73 puntos, uno de los postulantes tiene estudios
de Doctorado y 20 años de experiencia.
Muestra
Unidad de estudio
Estadístico
8
b. Identifica las variables mencionadas en el estudio y clasifique según su naturaleza y escala de
medición
Problema 04:
Un grupo de investigadores tienen el propósito de conocer cuáles son las condiciones socioeconómicas de
las familias residentes en el distrito de Ventanilla. Para el estudio se ha determinado entrevistar a 300
familias elegidas aleatoriamente. La encuesta se realizó en distintas zonas del distrito y según resultados
se estima que el 67% de familias viven en casas prefabricadas con un promedio de 6 miembros.
Algunas características estudiadas son:
Tamaño familiar: Número de miembros en la familia
Ingresos: Ingreso familiar mensual
Estudios: Grado de instrucción alcanzado por el jefe de familia
Vivienda: Tipo de material de la vivienda (Prefabricado, material noble, Quincha)
Población de estudio
Muestra
Unidad de Estudio
Parámetro
Problema 05:
Bendezú Vilma y Chirinos Claudia realizaron una investigación en 76 adolescentes embarazadas nuevas y
continuadoras de un total de 132, cuyo objetivo es determinar las características sociodemográficas,
culturales y familiares de adolescentes embarazadas atendidas en los consultorios externos de Gineco-
Obstetricia del Hospital Daniel Alcides Carrión del Callao en los meses de enero a marzo del 2015. Entre
algunos resultados muestran que el 40.9% tuvo 16 años de edad, el 80.3% no asistieron a ningún programa
de educación sexual y planificación familiar, la edad de inicio de relaciones sexuales del 60.5% fue a los 15
años de edad, el 68.4% mencionan que sus padres no le prestan atención y el 81.6% declaran haber sufrido
violencia por parte de sus padres.
a. Identifica los conceptos estadísticos y relaciona las frases colocando la letra que corresponda
9
( ) Variable a) En el periodo de estudio se atendió a 76 adolescentes embarazadas
1.4 Bibliografía
10
Tema 2
El Muestreo
11
la veracidad de la sospecha la máquina de llenado debe ser regulada. Los resultados revelan que el peso
medio fue de 4945 gr. Se pide determinar:
a. Población:______________________________________________________________________________
b. Muestra:________________________________________________________________________________
c. Unidad de estudio:_______________________________________________________________________
d. Tipo de muestreo:________________________________________________________________________
Problema 02:
En las oficinas administrativas del MINSA, en el área de Logística trabajan 150 personas, se desea saber
sobre el manejo del estrés laboral. El encargado del estudio tiene que seleccionar una muestra
representativa de 30 trabajadores, y luego se debe aplicar el cuestionario para recolectar datos. Se pide
presentar el listado de los números seleccionados utilizando un muestreo aleatorio simple y la tabla de
números aleatorios considerando como arranque fila5 y columna3.
Población de estudio: _______________________________________________________________________
Muestra de estudio: ________________________________________________________________________
Listado de los 30 números seleccionados utilizando muestreo aleatorio simple:
1 11 21
2 12 22
3 13 23
4 14 24
5 15 25
6 16 26
7 17 27
8 18 28
9 19 29
10 20 30
Problema 03:
El alcalde de Lima está interesado en evaluar el nivel de satisfacción sobre el servicio de transporte urbano
“Corredor Azul” de Lima, para sustentar la continuidad del contrato. El encargado del estudio realizó una
encuesta a 375 personas, quienes fueron seleccionados según el grupo de edad, 150 jóvenes, 175 adultos
y 50 adultos mayores. Se pide identificar:
a. Población:______________________________________________________________________________
b. Muestra:________________________________________________________________________________
c. Unidad de estudio:_______________________________________________________________________
d. Tipo de muestreo:________________________________________________________________________
Problema 04:
El4 de octubre del 2014, IPSOS Perú realizó una encuesta de opinión sobre la intención de voto, respecto
a las preferencias políticas para ocupar la alcaldía de Lima, la cual reveló que el 46.6% votaría por Luis
Castañeda. Este resultado proviene de una muestra de 2140 electores hábiles, seleccionados por muestreo
bietápico de los 42 distritos de la provincia de Lima. Se pide determinar:
12
Variable Tipo de variable Escala de medición Valores
a. Población:___________________________________________________________________________
b. Unidad de estudio____________________________________________________________________
c. Muestreo:___________________________________________________________________________
d. Muestra: ____________________________________________________________________________
e. El 46.6% votaría por Luis Castañeda ¿Es un estadístico o parámetro?__________________________
Problema 05:
Se tiene el listado de 30 estudiantes que participaron de un curso virtual en cierta institución. Se pide
seleccionar una muestra aleatoria sistemática de 8 estudiantes que deben participar en un estudio de
Focus Group con el propósito de conocer la satisfacción del curso desarrollado.
2.4 Bibliografía
13
Tema 3
Instrumento de recolección y elaboración de la base de datos
Instrumentos
Recurso que usa el investigador para registrar información y son: cuestionarios, guías de observación,
inventario y escalas. Todo instrumento de medición debe comprobarse la confiabilidad y validez, con la
finalidad de garantizar datos útiles y confiables. La elaboración del instrumento se hace en base al cuadro
de operacionalización de variables.
Con los datos obtenidos de los sujetos implicados en el estudio, es necesario organizar la información
recolectada para el procesamiento de datos, la misma que puede hacerse de forma manual o con el uso
de un software como Excel, SPSS, Stata, Statgraphics, Minitab, entre otros.
El uso de software para el procesamiento de datos, nos permite el manejo de muestras o poblaciones con
gran número de unidades y la obtención de los resultados con mayor velocidad.
Elaboración de la base de datos
Es el traslado de la información recogida mediante los instrumentos de recolección de datos a un software
estadístico o Excel, ello le permite al investigador procesar y obtener resultados que describan la
magnitud del problema en estudio. Una base de datos contiene todos los registros de la muestra o
población en estudio lista para ser procesada en cualquier momento.
Para el procesamiento de datos se realizará usando el complemento MegaStat de Excel.
3.3 Preguntas de aplicación
Problema 01:
El Director del Centro Geriátrico RENACER del distrito del Rímac, ha realizado un estudio con el propósito
de describir el estado nutricional y las enfermedades más frecuentes que presentan los pacientes que
fueron atendidos en el primer trimestre del año 2016. Se elaboró una ficha de datos para recolectar
información de las historias clínicas de cada paciente como se muestra a continuación:
14
Centro Geriátrico RENACER- Rímac
FICHA DE DATOS
SERVICIO: Enfermería
ACTIVIDAD: Estado nutricional de pacientes hospitalizados
1. Sexo: 1) Masculino 2) Femenino
2. Peso……………………….
3. Talla……………………….
4. Edad……………………….
5. Diagnóstico: 1) Enfermo Mental 2) Físicamente enfermo 3) Retrasado mental
6. Lugar de Destino: 1) Hogar de familiares 2) No ha dejado el Geriátrico
3) Fallecido 4) Hospital 5) Sanatorio particular 6) Otro Geriátrico
Se pide a usted que elabore una base de datos en Excel y debe grabar como Pacientes Geriátricos.
Problema 02:
El Director de recursos humanos de la empresa Credisa Philco S.A. ha diseñado un cuestionario, con el
propósito de conocer como es la relación entre compañeros de trabajo. La aplicación de la encuesta se
hizo enviando al correo de los trabajadores, luego será devuelto con los datos llenos de cada trabajador.
El cuestionario fue el siguiente:
15
Cuestionario de opinión referente a la relación entre compañeros
16
Se pide elaborar la base de datos en Excel correspondiente a los empleados de Credisa Philco S.A.
3.4 Bibliografía
1. Ávila, RB. (2010). Estadística Elemental. Lima: Estudios y ediciones R.A.
2. Álvarez, R. (2007). Estadística aplicada a las ciencias de la salud. Madrid: Díaz de Santos.
3. Daniel W. (2009). Bioestadística - Base para el Análisis de las Ciencias de la Salud. (4ª ed.) México:
Editorial Limusa S.A.
4. Balzarini, M., Tablada, M. (2011). Introducción a la Bioestadística. Brujas: Córdova.
17
Tema 4
Tablas de frecuencias y gráficas
Los métodos para organizar y presentar los resultados son las tablas de frecuencias y las gráficas, las mismas
que sirven para resumir y ver la tendencia de los datos, para que el investigador pueda analizar y tomar
decisiones.
Es una tabla de distribución de los datos agrupados en categorías o clases mutuamente excluyentes de
acuerdo a la escala de medición de los valores. Cada clase o categoría indica el número de observaciones
conocido como frecuencias y son:
Frecuencia absoluta simple (fi).- es la cantidad de datos pertenece a una clase o categoría.
Frecuencia relativa simple (hi).-representa la proporción de datos que pertenecen a una clase y se obtiene:
𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎 𝑓𝑖
ℎ𝑖 = =
𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠 𝑛
Frecuencia porcentual (hi%).- es la frecuencia relativa simple multiplicada por 100 y se calcula:
hi% = hix100
Una tabla de distribución de frecuencias de tener las siguientes partes: Número de la tabla, encabezados
de las columnas, cuerpo y fuente. Por ejemplo:
La suma de las frecuencias absolutas simples es el total de la muestra (n). La suma de las frecuencias
relativas simples es igual a 1y la suma de las frecuencias porcentuales suma 100%.
Gráficas estadísticas
Es la representación de datos en forma visual llamado gráfica, para ello se debe considerar el tipo de la
variable y su escala de medición de los valores, tales como:
18
Distribución de frecuencias para variables cualitativas
Si los datos fueron medidos en escala nominal la tabla de frecuencias contiene las categorías, las frecuencias
absolutas y las frecuencias relativas.
Ejemplo 3
La clínica Vargas realizó un estudio a 54 pacientes que fueron dados de alta durante el mes de febrero
2018y cancelaron los servicios médicos con tarjeta de crédito como: Visa (V), Mastercard (M), Dinner (D) y
Otras (O). Los datos son:
V V M D M M V D V
V V V D V O V V V
V D V O V D M D M
O M M O M V V D M
V M M V O M M O D
D M D V V D O V V
Solución
a) Tabla de frecuencias
Tabla 2. Distribución de pagos de los pacientes con alta según tarjeta de crédito
Frecuencias Frecuencias Frecuencia
Tarjetas
absoluta (fi) relativas (hi) porcentual (hi%)
MASTERCARD 14 0.26 26%
VISA 22 0.41 41%
DINNER 11 0.20 20%
OTROS 7 0.13 13%
Total 54 1.00 100%
Fuente: Clínica Vargas
b) Interpretación de frecuencias
f2= 22; 22 de 54 clientes que fueron dados de alta usaron tarjeta VISA para cancelar los servicios
médicos de la clínica.
h3= 0.20; El 0.20 de 54 clientes que fueron dados de alta pagaron con tarjeta VISA los servicios médicos
de la clínica.
h1% = 26%; El 26% de 54 clientes que fueron dados de alta cancelaron con tarjeta VISA los servicios
médicos de la clínica.
19
c) Gráfico de barras
30% 26%
20%
20%
13%
10%
0%
MASTERCARD VISA DINNER OTROS
Fuente: ClínicaVargas
Ejemplo 4
Un estudio ejecutado por el Pew Research Center's Internet & American Life
Project(http://www.pewinternet.org), el objetivo fue analizar la actitud de los jóvenes en EEUU ante las
redes sociales y su configuración en la privacidad de su perfil. Para ello se ha llevado a cabo una encuesta
a 586 usuarios de Facebook y los resultados de los datos de dicho estudio se muestra la siguiente gráfica.
Gráfico de sectores
Solución
a) Interpretación:
En la gráfica 2 se observa que el 60% de usuarios de Facebook ha configurado su perfil como público,
el 26% privado y el 14% parcialmente privado.
b) Datos:
Total de encuestados: n = 586.
Perfil configurado como privado es el 26%: nx0.26 = 586x0.26 = 152.36 = 152
Respuesta: 152 encuestados han configurado su perfil de Facebook como privado.
20
Distribución de frecuencias para variables cuantitativas discretas
El resumen de los datos cuantitativos discretos debe presentarse en una tabla de frecuencias y su
representación gráfico es bastones.
Ejemplo 5
Los siguientes datos corresponden a una encuesta realizada por StatMark a un grupo de padres de familia
de una comunidad, la muestra está conformada por 88 familias. Unade las preguntas fue ¿cuántos hijos
vivos tiene usted en su familia? las respuestas se muestran en la siguiente tabla:
El resumen de los datos cuantitativos continuos correspondiente a una sola variable debe presentarse en
una tabla de frecuencias agrupadas en intervalos o llamado también clases y su gráfica se representa con
histograma de frecuencias, polígono de frecuencias, ojivas, diagrama de cajas simple.
El procedimiento es el siguiente:
21
2) Determinar el número de clases o intervalos (K) por el método de Sturges:
K = 1+3.32* log(n)
𝑹
𝑪=
𝑲
Ejemplo 6
La gerencia de la empresa BIGDATA realizó un estudio sobre el ingreso mensual de sus empleados que
estudian maestría, con la finalidad de planificar un aumento de acuerdo al cargo que desempeñan en la
empresa. Con los datos que se muestra a continuación, se pide elaborar una tabla de frecuencias,
histograma y una ojiva.
1400 1800 1900 2100 2400 2000 2500 1900 2000 2150
2300 2600 2800 1700 1600 1650 2000 2400 1400 2300
1900 1750 2200 1800 1900 2100 2400 2000 2500 2250
Solución
Construcción de la tabla de distribución de frecuencias
Muestra = n = 30 datos
22
• Determinar la amplitud de cada intervalo
R 1400
C=K= 6
= 233.33 (Redondear al entero próximo)
C = 234
23
2. Elaboración de tablas de frecuencias agrupadas y gráficas de variables cuantitativas, usando el
complemento de ExcelMegaStat, se debe seguir la siguiente secuencia:
Problema 01:
El Higher Education Research Institute de UCLA cuenta con estadísticas sobre las áreas que son más elegidas
por los estudiantes de nuevo ingreso. Las cinco más elegidas son arte y humanidades (A), administración de
negocios (N), ingeniería (I), política (P) y ciencias sociales (S) (The New York Times Almanac, 2006). Otras
áreas (O) son biología, física, ciencias de la computación y educación se agruparon todas en una sola
categoría. Se ha seleccionado una muestra de 64 estudiantes de recién ingreso y los datos se muestra a
continuación:
S P P S N I O I P A O N O N O A
I O A N S O N O A O I I I O N P
N A S O I A N I S S O O I N O N
A I N I A A P A O I O N N I P N
24
Problema 02:
Con los datos del problema 01 de la página 17 [Pacientes Geriátricos]. xls. procesar y presentar los
resultados entablas y gráficas con su respectiva interpretación en un documento Word, considerando el
siguiente cuestionario:
1. Elabore una gráfica de barras para la variable Diagnóstico médico e interprete los resultados.
2. Elabore una tabla de frecuencias agrupadas en tres intervalos (<Menores de 25], [25 a 59], [Mayores
de 60>) de la variable Edad e interpretar la frecuencia relativa de mayor valor. ¿Qué porcentaje de
pacientes tiene más de 60 años?
3. Elabore una tabla de frecuencias agrupadas en intervalos de igual amplitud utilizando el método de
Sturges de la variable Talla. ¿Cuál es la talla más frecuente?
4. Elabore un histograma de frecuencias y analice la simetría de la distribución de datos de la variable
Talla.
5. Obtener el estado nutricional de cada paciente: primero calcular el índice de masa corporal (IMC) para
cada paciente; segundo categorizar dicho IMC en una nueva variable, considerando los siguientes
intervalos y etiquetas (agrupar: <menos de 19] como bajo peso, [19.01 a 24.99] peso normal, [25 a
29.99] sobrepeso, de [30 a 39.99] obeso y de [40 a más>muy obeso); esta nueva variable será el ESTADO
NUTRICIONAL.
6. Elaborar un gráfico para la variable estado nutricional. ¿Qué porcentaje de pacientes se encuentran
con sobrepeso? ¿Cuántas personas están con bajo peso?
7. Elabore una gráfica para la variable Lugar de destino. ¿Cuántos pacientes fallecieron en el centro
geriátrico?
8. Elabore un polígono de frecuencias para la variable peso y analice la forma de distribución de datos.
9. Elabore un diagrama de cajas para el IMC de los pacientes y analice la forma de distribución de la
variable.
10. Describa tres conclusiones.
Problema 03:
Con los datos del problema 02 de la página 16 [CredisaPhilco]. xls. procesar y presentar tablas de
frecuencias y gráficas con su respectiva interpretación de resultados en un documento Word, debe
considerar las siguientes preguntas del cuestionario:
Problema 04:
El siguiente histograma corresponde a la distribución de litros de yogurt, elaborado por la planta productora Dos
Patitos SAC. En un periodo de 2 meses (60 días). Considere como valor mínimo y máximo el límite inferior y
límite superior, se pide:
25
d) ¿Qué tipo de distribución presentan los datos?
20
18 17
16 15
14
12 10
Días
10 8
8 7
6
4 3
2
0
200 -310 310 - 420 420 - 530 530 - 640 640 - 750 750 - 860
Problema 05:
El gerente de logística de una empresa industrial, ha observado que el pago por energía consumida en la
planta de producción de la zona de Lima este se ha incrementado. En tal sentido, se solicitó al jefe de la
planta que realice un informe sobre el consumo diario de energía durante el mes de agosto en el 2016. Se
sabe que el consumo máximo de energía fue de 20 KW/hr (kilowatts por hora), los datos del consumo diario
de energía en KW/hr, se detalla en la siguiente tabla:
4.4 Bibliografía
1.Córdova, M. (2003). Estadística Descriptiva e Inferencial. Aplicaciones. (5ª ed.) Lima: Moshera.
2.Samuels, M, Witmer, J. (2012). Fundamentos de Estadística para las ciencias de la vida. (4ª
ed.)California: Pearson.
3.INEI: INSTITUTO NACIONAL DE ESTADÍSTICA E INFORMATICA. “Manual para la presentación de gráficos
estadísticos”. [Internet]. Lima-Perú. Talleres de la Oficina Técnica de Administración (OTA) del
Instituto Nacional de Estadística e Informática;Agosto 2009. [Citado en Marzo del 2016]. Disponible
en: http://www.inei.gob.pe/media/MenuRecursivo/metodologias/libro.pdf
4.INEI: INSTITUTO NACIONAL DE ESTADÍSTICA E INFORMATICA. “Manual para la presentación de cuadros
estadísticos”. [Internet]. Lima-Perú. Talleres de la Oficina Técnica de Administración (OTA) del
Instituto Nacional de Estadística e Informática; Mayo 2006. [Citado en Marzo del 2016]. Disponible
en: http://www.inei.gob.pe/media/MenuRecursivo/publicaciones_digitales/Est/Lib0933/Libro.pdf
26
Tema 5
Medidas descriptivas de tendencia central y posición
n
xi
Pr omedio muestral X
i 1 n
N
xi
Pr omedio poblacional
i 1 N
La fórmula de la media para datos agrupados es:
k
x f i i
Pr omedio muestral X i 1
n
k
xi . f i
Pr omedio poblacional
i 1 N
Donde:
Xi : Dato (datos no agrupados) o marca de clase (datos agrupados)
fi : Frecuencia absoluta de cada clase
n : Tamaño de muestra
N : Tamaño d la población
27
Ejemplo 7
En la caseta de peaje en la autopista a Ramiro Prialé, se ha registrado el número de vehículos por hora
que ingresaron durante las 7 am hasta 12 pm del 19de septiembre del 2015, con la finalidad de conocer
la afluencia de vehículos que recorren esta vía, los datos son: 39, 31, 23, 18, 15
Datos:
39 31 23 18 15
x1 x2 x3 x4 x5
Solución
n
xi x1 x2 x3 x4 x5 39 31 23 18 15 126
X 25.2
i 1 n 5 5 5
Interpretación.-En la autopista Ramiro Prialé, en promedio circulan 25 automóviles por hora entre las
7 am a 12 pm.
a) Mediana (Me).- Es un valor que indica el centro de un conjunto de datos ordenados, cuyos valores son
medidos en escala ordinal, intervalo o razón. Es una medida robusta porque no se ve afectada por la
presencia de datos atípicos, por eso se utiliza cuando la distribución es asimétrica. El valor de la mediana
representa que el 50% de los datos son menores o iguales a dicho valor y el otro 50% son datos mayores
al valor mediano.
El 50% de los datos son menores o El 50% de los datos son mayores a la
iguales a la mediana mediana
Ejemplo 8
Los datos siguientes corresponden a las estaturas (en metros) de peruanos varones de 18 años de edad.
Calcular la estatura mediana.
28
Solución
Procedimiento:
1° 2° 3° 4° 5° 6° 7°
1.5 1.55 1.60 16.5 1.70 1.78 1.82
La posición de la mediana es 4°
Tercero: Como la posición de la mediana es 4°, entonces el valor Mediano es: Me = 1.65
Interpretación.- El 50% de los 7 peruanos varones con 18 años tienen una estatura menor a 1.65 y el
otro 50% tienen una estatura superior a 1.65 metros.
Ejemplo 9
Se ha registrado las edades en años cumplidos a 6 estudiantes ingresantes a la escuela de Farmacia en
una universidad, cuyos datos son: 20, 21, 25, 20, 18, 27.
Se pide calcular la mediana de las edades
Procedimiento:
1° 2° 3° 4° 5° 6°
18 20 20 21 25 27
La posición de la mediana es la 3° y 4°
Cuando el tamaño de la muestra es un número par, la mediana se obtiene sumando los datos
ubicados en la posición central:
Interpretación.- El 50% de 6 alumnos, tienen menos de 21 años y el otro50% tiene más de 21 años.
b) Moda (Mo).- La moda en un conjunto de datos observados, es el dato que se presenta con más
frecuencia. Se calcula para variables medidas en escala nominal, ordinal, intervalo o razón.
29
La distribución de la variable puede presentar una de las siguientes gráficas
6 5 5 5 5 5 8 6 5 5 6 5 5 5
6
4
6
4 4 4 4 3 4 3
4 2 2
2 2 2 2 2
2
0 0 0 0
1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5
𝑑1
𝑀𝑜 = 𝐿𝐼 + 𝐶 ( )
𝑑1 + 𝑑2
Donde:
LI : Límite inferior de la posición de la clase modal
C : Amplitud de clase modal
d1: Frecuencia clase modal menos frecuencia anterior a la clase modal=fmo-fantfmo
d2: Frecuencia clase modal menos frecuencia posterior a la clase modal=fmo-fpostfmo
n : Tamaño de la muestra
Ejemplo 10
Los datos siguientes corresponden a las edades en años cumplidos de 10 alumnos ingresantes a la
universidad en un periodo académico.
18 29 21 22 21 20 21 20 19 21
¿Cuál es la edad más frecuente de los ingresantes a la universidad en ese periodo académico?
Las medidas de posición o denominados también cuantiles, son valores que indican la posición de un
dato respecto al conjunto de datos ordenados de menor a mayor y se calcula para variables de escala
ordinal, intervalo o razón. El número de divisiones que se realice al histograma es a partir de 2, los más
utilizados son: cuartiles, quintiles, deciles, percentiles, etc. Los cálculos consisten en hallar la posición
del cuantil y luego calcular su valor.
En general nos interesa los percentiles y las fórmulas para calcular son:
30
𝒏+𝟏
La posición del centil𝑷𝒌 = 𝒌( )
𝟏𝟎𝟎
𝑛
𝑘( ) − 𝐹𝑖−1
𝑃𝑘 = LI + C( 100 )
𝑓𝑝𝑘
Donde:
LI : Límite inferior de la posición de la clase percentil k
C : Amplitud de clase percentil k
K :posición del percentil k
Fi-1: Frecuencia absoluta acumulada anterior a la clase percentil k
Pk Frecuencia absoluta simple de la posición de la clase percentil k
n : Tamaño de la muestra
a) Cuartiles (Qk).- Son tres valores calculados (Qk = 1, 2, 3) que dividen al conjunto de datos en 4 partes
iguales y cada una de ellas representa el 25% de total.
Donde:
Q1 : Es el cuartil 1 cuyo valor calculado representa al 25% de los datos menores o igual al valor
encontrado y el 75% son datos mayores.
Q2 : Es el cuartil 2 cuyo valor calculado representa al 50% de los datos menores o iguales al valor
encontrado y el 50% de datos restante son mayores.
Q3 : Es el cuartil 3 cuyo valor calculado representa al 75% de los datos menores o iguales al valor
encontrado y el 25% de datos son mayores.
Ejemplo 11
Se ha registrado la estatura de 100 personas del sexo masculino que participaron en una maratón de 10k,
cuyos datos se muestran en la tabla de frecuencias agrupada.
Estatura fi hi Fi Hi
150 - 155 5 0.5 5 0.5
156 - 162 9 0.9 14 0.14
163 - 169 22 0.22 36 0.36
170 - 176 32 0.32 68 0.68
177 - 183 15 0.15 83 0.83
184 - 190 13 0.13 96 0.96
191 - 196 4 0.4 100 1.0
Total 100 1.0
¿Entre qué estaturas se encuentra el 50% de maratonistas con una estatura estándar?
Solución
31
1.- Calculando la posición del Q1: k(n/4) = 1(100/4)= 25
2.- Ubicar la posición 25 en la columna de frecuencias absolutas acumuladas, Fi = 36
3.- Para reemplazar en la fórmula se necesita: C = 6, LI= 163, fQk = 22
𝑛
𝑘( ) − 𝐹𝑖−1
𝑄𝑘 = LI + C( 4 )
𝑓𝑄𝑘
100
1( ) − 14
4
𝑄1 = 163 + 6 ( ) = 166
22
100
3( ) − 68
4
𝑄3 = 177 + 6 ( ) = 179
15
Percentiles 25 y 75
20
15
frecuencia
10
5
0
Interpretación.- El 50% de maratonistas con estatura estándar tienen entre 166 cm a 179 cm.
b) Deciles (Dk).- Dividen al conjunto de datos en 10 partes iguales y son 9 valores calculados (D k= 1,
2, 3,…,9), cada una de ellas representa el 10% de los datos.
D1 :Es el decil 1 cuyo valor calculado indica que el 10% de los datos son menores al valor encontrado
y el 90% son mayores.
D3: Es el decil 3 cuyo valor indica que el 30% de los datos son menores al valor encontrado y el 70%
son mayores.
c) Percentiles (Pk).- Dividen al conjunto de datos en 100 partes iguales y son 99 valores calculados
(Pk= 1, 2, 3,…, 99), cada una de ellas representa el 1% de un total.
1% 1% ..……. 1%
P1 P2 ……….. P99
32
Ejemplo 12
Con los datos del ejemplo 9 ¿Cuál es la estatura mínima del 30% de maratonistas con mayor estatura?
P70:El percentil de orden 70 deja por debajo al 70% de las observaciones y por encima queda el 30%.
𝑛
𝑘( ) − 𝐹𝑖−1
𝑃𝑘 = LI + C( 100 )
𝑓𝑝𝑘
100
70 ( ) − 68
100
𝑃70 = 177 + 6 ( ) = 177.8
15
Interpretación.- El 30% de maratonistas con mayor estatura miden más de 177.8 cm.
Problema 01:
El jefe de recursos humanos de una empresa está interesado en analizar el impacto económico de horas
extras de trabajo pagadas a sus empleados de la gestión anterior. Los datos fueron extraídos del registro
de control de cada trabajador y son:
2 5 4 5 2 1 4 3
1 3 4 1 2 2 2 1
2 1 5 2 1 3 2 2
3 1 3 4 3 2 1 2
33
Problema 02:
Un grupo de investigadores deciden investigar la evolución de los ingresos en las familias de una
comunidad. Para ello, se observó los ahorros que tuvieron las familias en alguna entidad bancaria desde
enero hasta agosto del 2016. Asumiendo que las familias aumentarían sus ahorros a medida que sus
ingresos aumenten. En el estudio fueron consideradas 25 familias que cuentan al menos 400 soles de
ahorro, cuyos datos se muestran en la tabla de distribución de frecuencias.
i. Cantidad mínima de ahorro del 20% de las familias con mayores ahorros en alguna entidad bancaria
es __________________________________________________________________________
12
10
34
Problema 03:
La compañía AXE S.A. es una distribuidora de diferentes tipos de bebidas peruanas al por mayor. El gerente
de ventas desea conocer el comportamiento de las llamadas telefónicas para hacer pedido de productos
durante los meses de febrero y marzo del año 2016. Para ejecutar la investigación, delega a su secretaria
que registre el número de llamadas por día que hacen sus clientes a la central telefónica. Los datos son
los siguientes:
30 38 35 36 29 28 30 35 36 37
40 48 50 20 25 56 30 27 52 44
29 46 41 31 31 31 39 28 49 52
56 58 40 39 38 40 27 24 30 32
35 38 26 25 24 60 55 48 37 31
30 22 20 24 26 23 22 28 27 48
Problema 04:
Se ha medido el peso de recién nacidos en el hospital nacional de la ciudad de Arequipa con la finalidad
de comparar el peso promedio en los grupos, cuyas madres de estos recién nacidos viven tanto en el área
rural y área urbana.
1. Calcular e interpretar las medidas de tendencia central de los recién nacidos del hospital de
Arequipa.
2. Comparar el peso medio y mediano de los recién nacidos según el área de residencia.
3. ¿Cuál es el valor del peso que divide al 20% de los recién nacidos con menor peso?
4. ¿Cuánto debe ser el peso de cualquier recién nacido para decir que tiene mejor peso que el 80% de
la población?
5. Si consideramos como niños con peso normal al 70% de la población ¿Cuáles serían los límites de
normalidad del peso?
6. El 10% de recién nacidos alcanzaron un peso máximo de___________________ gramos.
Problema 05:
Un equipo de médicos desea investigar la cantidad de Zinc en cierto tipo de preparados infantiles. Se
ha tomado 100 gramos de este alimento y se ha evaluado la cantidad de zinc en mg de las principales
marcas del mercado, cuyas mediciones se presentan a continuación:
35
5.4 Bibliografía
1. Córdova M. (2003). Estadística Descriptiva e Inferencial. Aplicaciones. (5ª ed.) Lima: Moshera.
2. Black, K. (2008). Estadística en los negocios. (2ª ed.). México: Grupo Editorial Patria S.A.
3. Daniel W. (2002). Bioestadística. Base para el Análisis de las Ciencias de la Salud. México: Editorial
Limusa S.A.
4.Samuels, M, Witmer, J. (2012). Fundamentos de Estadística para las ciencias de la vida. (4ª ed.)California:
Pearson
36
Tema 6
Medidas descriptivas de Dispersión
Medidas de Dispersión
Son valores que nos permiten conocer sobre la variabilidad o concentración de los datos, nos indica que
tan cercano o lejano están los datos respecto a su valor central, se calcula para variables medidas en
escala de intervalo y razón, entre las más importantes tenemos: El rango, Rango intercuartílico, varianza,
desviación estándar y el coeficiente de variación.
a) Rango (R).- Llamado también amplitud, indica entre que valores se encuentra el conjunto de datos.
Es ladiferencia entre el valor mayor y el menorde los datos de la variable, es sensible cuando hay
presencia de valores extremos llamado dato atípico.
b) Rango Intercuartílico (RIC).- Concentra al 50% de datos alrededor del promedio eliminando la
influencia de los valores extremos, es la diferencia entre el tercer cuartil (Q3) y el primer cuartil
(Q1), no es sensible a datos atípicos.
RIC = Q3– Q1
c) Varianza (S2).- Mide la variabilidad u homogeneidad de los datos. Es la media de los cuadrados de las
diferencias entre cada valor de la variable y la media aritmética de la distribución, es sensible a
datos atípicos.
(X i X )2
Varianza muestral S 2
i 1
n 1
(X i X )2
Varianza poblacional 2
i 1
N
(X i X )2 fi
Varianza muestral S 2 i 1
n 1
(X i X )2 fi
Varianza poblacional 2
i 1
N
37
En Excel usar la función = VAR(datos)
d) Desviación Estándar.-Se conoce también como desviación típica, mide la dispersión o distanciamiento
de los datos respecto al valor central. Se obtiene calculando la raíz cuadrada positiva de la varianza.
Desviaciónmuestral S
(x
i x)2
n 1
Desviación poblacional
(X i X )2
N
e) Coeficiente de variación.- Es una medida de dispersión relativa porque carece de unidad de medida,
se utiliza cuando se quiere comparar el grado de dispersión de dos conjuntos de datos que no tienen
las mismas unidades o cuando las medias son diferentes, el coeficiente de variación de Pearsonmide
la proporción de dispersión de los datos respecto a su media y se define como el cociente entre la
desviación típica y el valor absoluto de la media aritmética.
S
Coeficiente de var iación muestral CV * 100
X
Coeficiente de var iación poblacional CV * 100
X
Ejemplo 13
Un profesor ha registrado el tiempo de tardanza en minutos de 10 estudiantes que llegaron después de
los 10 minutos de tolerancia a la clase, los datos son los siguientes:
2 5 10 8 15 3 20 7 5 13
Solución
El rango R = XDato máximo –XDato mínimo = 20 - 2 = 18.
Significa que los 10 estudiantes llegaron entre 2 a 20 minutos tarde después de la tolerancia tiene una
amplitud de 18 minutos.
El rango intercuartílico = RIC = 12.25 – 5= 7.25
Significa que la dispersión en el 50% de los datos centrales del tiempo de tardanza es igual a 7.25 minutos.
Ejemplo 14
Un inversionista sabe que la rentabilidad mensual es importante para seguir creciendo. Ante la
oportunidad de abrir un negocio debe tomar una decisión y recoge información de las ganancias mensuales
de dos tipos de negocios, la rentabilidad de 6 meses son los siguientes:
38
c) ¿En qué negocio la rentabilidad presenta menor dispersión en el 50% central?
d) ¿Cuál de los negocios ofrecerá mayor ganancia?
Solución
a) Calculando los estadísticos tenemos:
Problema 01:
Se está realizando un estudio de mercado, para lo cual se pretende lanzar una nueva marca de
estetoscopio moderno, el cual será vendido por un distribuidor exclusivo desde Lima. Se hizo una encuesta
a 200 personas que trabajan en diferentes hospitales de Lima y se preguntó por el precio que
estaríadispuesto a pagar por el producto. Los resultados de los datos se muestran en siguiente tabla de
frecuencias:
a. Calcular el precio promedio esperado que paguen los encuestados por el producto.
b. El precio mínimo que conviene lanzar el producto al mercado es de S/.218 y sólo se importará el
producto, si por lo menos la mitad de los encuestados están dispuestos a pagar por lo menos dicho
precio. ¿Qué decisión debe tomar el importador según los resultados de la información recolectada
por encuesta?
c. Calcular e interpretar el coeficiente de variación. ¿Los datos son homogéneos?
d. Entre que valores se encuentra el precio medio del producto del 50% de los encuestados.
Problema 02:
Con los datos del problema 04 de la página 36 referente al peso de recién nacidos en el Hospital Nacional
de Arequipa. Se pide:
39
a. Calcular la desviación estándar por cada grupo de recién nacidos, los que provienen del área rural y
área urbana.
b. En la evaluación de los pesos en recién nacidos cuyas madres residen en el área rural y área urbana
¿Se puede afirmar que los pesos de ambos grupos de recién nacidos son homogéneos?
Problema 03:
En el problema 02 de la página 16, utilice el archivo de datos [CredisaPhilco.xls] para contestar las
siguientes preguntas:
a. Calcular e interpretar el promedio de los sueldos por área de trabajo
b. El ingreso mensual de los trabajadores por área de trabajo presentan diferencias en la variabilidad de
los datos.
b. Elabore un diagrama de cajas para el ingreso mensual por área de trabajo. ¿Se observa la presencia de
datos atípicos?
c. En las edades de los trabajadores de hombres y mujeres ¿En cuál de los grupos existe mayor variabilidad?
d. En los años de estudios de los trabajadores de empleados ¿Se puede afirmar que son homogéneos?
6.4 Bibliografía
1. Ávila RB. (2010). Estadística Elemental. Lima: Estudios y ediciones R.A.
2. Black, K. (2008). Estadística en los negocios. (2ª ed.). México: Grupo Editorial Patria S.A.
3. Córdova M. (2003). Estadística Descriptiva e Inferencial. Aplicaciones. 5ª ed. Lima: Moshera.
4. Samuels, M, Witmer, J. (2012). Fundamentos de Estadística para las ciencias de la vida. (4ª ed.)
California: Pearson.
40
Tema 7
Medidas de asimetría y curtosis
Son valores que nos permite observar el comportamiento o distribución de los datos respecto a su centro.
Entre ellos tenemos los índices de asimetría y apuntamiento llamado también curtosis:
a) Asimetría.- Indica la distribución del conjunto de datos en forma horizontal,es decir a través del eje
X. Compara la forma que tiene los datos a través del histograma con la distribución normal.
Una distribución de datos es simétrica cuando la mediana, moda y media aritmética tienen valores
similares. Silos datos tienen distribución asimétrica a la derecha, las frecuencias (absolutas o
relativas) descienden más lentamente por la derecha. Si las frecuencias descienden más lentamente
por la izquierda, la distribución es asimétrica a la izquierda. Entre los índices de asimetría tenemos:
3( X Me) Q3 Q1 2Me
As AS
S o también Q3 Q1
Si As = 0, la distribución essimétrica
Si As > 0, la distribución esasimétrica a la derecha
Si As < 0, la distribución esasimétrica a la izquierda.
b) Curtosis.- Indica la distribución del conjunto de datos en forma vertical, es decir, a través del eje Y.
Mide el grado de elevación de la distribución de datos. Se definen 3 tipos de distribuciones, según su
grado de curtosis:
41
Distribución platicúrtica: presenta un reducido grado de concentración alrededor de los valores
centrales de la variable.
c) Diagrama de cajas.- Es una gráfica que describe la distribución de un conjunto de datos numéricos
tomando como referencia los valores de los cuartiles como medida de posición y el valor del rango
intercuartílico como medida de referencia de dispersión, está compuesto por un rectángulo que
contiene el 50% de datos centrales y dos líneas extendidas en el lado inferior y superior del rectángulo
llamados bigotes. Además, nos permite apreciar visualmente el tipo de distribución de los datos
(simétrica o asimétrica) y la identificación de valores extremos (datos atípicos).
Dato atípico (outliers).- Son aquellos datos que se encuentran fuera del intervalo [Q1 - 1,5(RIC); Q3 +
1,5(RIC)]y generalmente están representados por asteriscos.
42
En Excel en el complemento MegaStat, se debe seguir la siguiente secuencia:
Rendimiento académico Xi fi Xi fi Fi
09 - 11 2
11 – 14 13
14 – 17 11
17 - 19 4
Total 30
a) Calcule la nota mínima para estar considerado en el quinto superior.
b) ¿Qué tipo de asimetría presentan la distribución de las notas?
c) Calcula e interpreta el coeficiente de curtosis.
Problema 02:
Cierta universidad brinda capacitaciones con cursos presenciales y virtuales a sus docentes con el
propósito de mejorar la calidad académica. Para que un docente sea contratado en la próxima
convocatoria, Recursos humanos lleva un control de asistencia a la capacitación docente en ambas
modalidades, los datos son los siguientes:
Virtual 2 3 0 5 2 0 1 1 2 1 3 4 2 2
Presencial 3 5 3 4 1 2 5 5 4 2 1 3 5 4
a) ¿Qué tipo de asimetría presentan las distribuciones del número de capacitaciones por modalidad?
b) ¿Cuál de las modalidades tiene es más homogénea en el número de capacitaciones?
c) Calcula e interpreta el coeficiente de curtosis.
43
Problema 03:
El administrador de un hospital ordenó un estudio del tiempo que un paciente debe esperar antes de ser
tratado por el personal de la sala de urgencias, se espera que un paciente sea atendido en un máximo de
10 minutos. Los datos que se presentan a continuación fueron tomados durante un día normal.
Tiempo de Xi fi
espera (min)
hi Fi Hi
1 -6 3
6-11 12
11-16 15
16-21 8
21-26 2
TOTAL 40
a) Calcule el mínimo de tiempo de espera para estar considerado como tiempo aceptable
b) ¿Qué tipo de asimetría presentan la distribución del tiempo de espera?
c) Calcular e interpretar el coeficiente de curtosis.
Problema 04:
En el siguiente diagrama de cajas, muestra la distribución de los ingresos de los directivos de un grupo de
empresas.
__________________________________________________________________________________________
7.4 Bibliografía
1.Ávila, RB. (2010). Estadística Elemental. Lima: Estudios y ediciones R.A.
2.Córdova, M. (2003). Estadística Descriptiva e Inferencial. Aplicaciones. (5ª ed.) Lima: Moshera.
3.Samuels, M, Witmer, J. (2012). Fundamentos de Estadística para las ciencias de la vida. (4ª ed.)California:
Pearson.
4. Daniel, W. (2002). Bioestadística. Base para el Análisis de las Ciencias de la Salud. México: Editorial
Limusa S.A.
44
Tema 9
Tablas de contingencia y gráficas con dos variables
Estadística bidimensional
Estudia aquellos problemas en los que intervienen de manera simultánea dos variables (X,Y), buscando
algún tipo de relación que puede existir entre la variable independiente (X) con la variable dependiente
(Y). Así, por ejemplo, se busca determinar la relación que tiene el hábito de fumar con el cáncer al
pulmón.
La presentación de resultados para variables cualitativas será con las tablas de frecuencias
bidimensionales o llamado tablas de contingencia, gráfica de barras agrupadas, gráfica de barras
apiladas.
TABLA DE CONTINGENCIA
k
X
Y
y1 y2 ... yj ... yl fi. ni.
i1
… … … … … … … …
… … … … … … … …
Distribucionesmarginales
A partir de una distribución bidimensional se obtiene las distribuciones marginales:
45
- Marginal de X; expresa como se distribuye X en la población total al margen de la variable Y
X ni. pi
X1 n1. p1
… … …
xi ni. pi
… … …
xk nk. pk
n 1
Y n.j pj
y1 n.1 p1
… … …
yj n.i pj
… … …
yl n.l Pl
n 1
X Yj X/Y =yj
X1 f1j f1j/n.j=f1/j
… … …
xi fij fij/n.j =fi/j
… … …
xk fkj fkj/n.j=fk/j
n.j 1
- Distribución de Y condicionado a X
Ejemplo 15
Un grupo de estudiantes investigó el consumo de tabaco en personas adultas entre 30 a 65 años yuna de
las preguntas fue ¿Usted es fumador de tabaco? y como alternativas son: Fumador, No fumador,
Exfumador. Los datos recolectados se presentan en la tabla a continuación:
46
Tabla1. Consumo de tabaco en personas adultas según hábitos y género
Hábito de fumar tabaco (Yj) Total
Sexo (Xi)
Fumador No Fumador Exfumador (ni.)
Varón 30 50 20 100
Mujer 30 10 10 50
Total (n.j) 60 60 30 150
Preguntas:
a) Interprete las frecuencias: f12, n.1
b) De los resultados de la tabla 1 complete los espacios en blanco
c) Elabore la tabla de frecuencia relativa conjunta porcentual con respecto al total
d) Elabore la tabla de frecuencia relativa conjunta porcentual con respecto al total de filas
e) Elabore la tabla de frecuencia relativa conjunta porcentual con respecto al total de columnas
f) Construya la gráfica de barras apiladas porcentual
Solución
a) Frecuencias absolutas conjuntas:
f12 = 50 ; De las 150 personas encuestadas hay 50 que son varones y no son fumadores
n.1 = 60 ; De las 150 personas encuestadas 60 son fumadores
b) Completando los espacios en blanco con resultados de la tabla
El número de personas que son fumadores y son del sexo femenino son_________________
Del total de encuestados,____________________ son exfumadores.
c) Elaboración de una tabla de frecuencias relativas conjunta porcentual con respecto al total general:
Pij =(fij*100)/n
p11=(30*100)/150 =20%
De las 150 personas adultas encuestadas, hay un 20% que son varones y son fumadores.
47
Interpretación
p11%=30*100/100 = 30% De 100 varones adultos, hay un 30% que son fumadores.
Interpretación
p11=(30*100)/60 = 50%
De 60 fumadores adultos, el 50% son varones.
Gráfico de barras apiladas porcentual
100%
Varón Mujer
80%
60%
40%
7%
20%
20%
33% 7%
20% 13%
0%
Fumador No Fumador Exfumador
Fuente: Grupo investigador
Gráfico 2. Perú: Hogares según sexo del jefe de hogar, 1993 y 2007
48
Del total de familias peruanas censadas, tiene como jefe de hogar a un hombre en un 76.7% según el censo
del año 1993 y en el censo del 2007 es de 71.5%.
1. Cada columna corresponde a una variable con sus datos y en la primera fila digitar su nombre.
2. Ubique el cursor en cualquier celda de la matriz de datos.
3. Haga clic en la opción Insertar de la barra de menú.
7. Para obtener los porcentajes con el total general, o total de fila, o total de columna hacer clic en
cualquier celda de la tabla y seleccione Mostrar valores como… % total, o % fila, o % columna. Luego
mostrará la tabla en porcentajes.
49
9.3 Preguntas de aplicación
Problema 01:
Se extrae una muestra aleatoria de 200 habitantes de una ciudad para analizar la actitud frente a un cierto
proyecto de alcaldía. El resultado fue el siguiente:
Problema 02:
Una compañía de seguros analizó la frecuencia con que 2000 asegurados (1000 hombres y 1000 mujeres)
usaron el hospital. La información se resume en la tabla:
Problema 03:
En una investigación se tiene como propósito conocer la tendencia de los alumnos en continuar sus estudios,
según la clase social del encuestado, mostró el siguiente cuadro:
a) ¿Usted diría que la distribución de las respuestas afirmativas es igual a la de las respuestas negativas?
Compare construyendo una tabla de frecuencia relativa porcentual respecto al total de columnas.
b) Del total de la clase media, ________________________ de estudiantes desean continuar sus estudios
(en porcentaje considerando dos decimales)
c) Construya la distribución porcentual de la clase social condicionado a la pretensión de continuidad
de los estudios.
Problema 04:
El gerente de ventas de la firma ARCOR, encarga la realización de un estudio a una investigadora de
mercados con la finalidad de determinar si las ventas de sus cuatro productos Premium dependen al grupo
de clientes clasificados en cuatro grupos. La muestra aleatoria de las ventas de productos se observa en
la siguiente tabla.
50
Clasificación de consumidores según grupos de clientes y productos Premium
Productos Premium Total
Grupo de Clientes
1 2 3 4 (ni)
Profesionales 30 35 55 40 160
Comerciantes 155 50 125 80 410
Obreros 130 30 105 50 315
Amas de Casa 35 15 20 45 115
Total (nj) 350 130 305 215 1000
La información se recolectó en base a 100 puntos de ventas de la empresa midiendo las siguientes
variables: distribuida en diferentes zonas y los datos se muestran en el archivo Distribuidora Éxito.xls.
Se pide lo siguiente:
a. Construir una tabla de contingencia para la variable café (X) agrupado en 3 intervalos de igual amplitud
con zona de la ciudad (Y), e interpretar las siguientes frecuentas conjuntas: f 22, h13%, h33%, f1., f.2
b. Elabore una tabla de frecuencias relativas de la variable venta café (agrupada 3 intervalos)
condicionado a zona de ubicación de la sucursal. En la zona sur ¿Qué porcentaje de puntos de venta
vendieron entre 786 a 1483 soles?
c. Construir una gráfica de barras agrupadas entre las variables zona de la ciudad y forma de pago.
Interprete los resultados.
d. Calcular los estadísticos de resumen: media, mediana, desviación estándar y coeficiente de variación
por cada zona de la ciudad ¿Cuál de las zonas de la ciudad presenta mayor variabilidad en la venta de
café?
e. Elabore una tabla de contingencia para las ventas de avena agrupado en 3 intervalos con zona de la
ciudad. Interprete una frecuencia conjunta absoluta y una frecuencia relativa.
f. Elabore una conclusión para cada objetivo.
9.7. Bibliografía
1. Webster, A. (2006). Estadística aplicada a los negocios y la economía. (3° ED.) Colombia: MCGRAW
HILL.
2. Samuels, M, Witmer, J. (2012). Fundamentos de Estadística para las ciencias de la vida. (4ª ed.)
California: Pearson.
3. Levine, D. (2014). Estadística para la Administración. (6ª ed.) México: Pearson.
4. Montesinos, L, Bayonas, Y, Cerna, E, Llanos, K, Pajuelo, S. (2016). Estadística descriptiva y
probabilidad.(1ª ed) Lima: Fondo Editorial USIL.
51
Tema 10
Asociación de variables cualitativas
( f
i 1 j 1
ij eij ) 2
x2
eij
Donde:
fij : son las frecuencias observadas de la muestra
eij : son las frecuencias esperadas , se obtiene:
eij
f i. f . j
n
1.Formular las hipótesis estadísticas y son dos:Hipótesis nula (Ho), Hipótesis alterna o trabajo (H1)
6. Conclusión; se concluye con la hipótesis que no fue rechazada acompañdo del nivel de significancia
Ejemplo 17
El consejo de administración de Comunicatel S.A. quiere determinar si la opinión de sus accionistas
respecto a una posible fusiónde la empresa es independiente del número de acciones que poseen, las
acciones se agrupó por el número de acciones en tres categorías. Una muestra de 500 accionistas
proporciona la siguiente tabla:
52
Distribución de acciones de los socios según opinión a la posible fusión
Número de Opinión respecto a una posible fusión
Total
acciones A favor En contra Indecisos
Menos de 200 25 18 21 64
De 200 a 1000 93 62 67 222
Más de 1000 82 70 62 214
Total 200 150 150 500
Fuente: Comunicatel S.A.
Solución
1. Formulación de las hipótesis estadísticas
Ho: La opinión de los accionistas respecto a una posible fusión es independiente al número de acciones
que poseen.
H1: La opinión de los accionistas respecto a una posible fusión no es independiente al número de
acciones que poseen.
El cálculo del estadístico Chi cuadrado con MegaStat se obtiene con la siguiente secuencia:
53
Luego seleccionar OK y se obtiene el valor de Chi cuadrado como se muestra a continuación
4. P-Valor = 0.8218
5. Decisión:
6. Conclusión:
Con un nivel de significación del 5%, la opinión de sus accionistas respecto a una posible fusión de la
empresa es dependiente del número de acciones que poseen.
Problema 01:
Una encuestadora seleccionó una muestra de 800 votantes y se les clasificó de acuerdo a su nivel de
ingresos como: Bajo, Medio, alto, y según su opinión con respecto a una reforma en la constitución política
del país de los que están A favor, En contra, Sin decisión. Las frecuencias observadas se dan en la siguiente
tabla.
¿Existen dependencia entre las variables? Realice la contrastación de hipótesis a un nivel de significancia
de 0.05.
Problema 02:
Un grupo de estudiantes de Psicología realizaron un estudio sobre el manejo de la ansiedad en las
actividades académicas y el nivel de estudios en su carrera profesional. Con la finalidad de conocer esta
problemática, se desea comparar la ansiedad de los estudiantes del primer con el sexto ciclo de la facultad
de medicina de una universidad. A un nivel se significancia de 5% el manejo de ansiedad está asociado al
nivel de estudios.
54
Problema 03:
Un grupo de médicos realizaron un estudio con la finalidad de evaluar el hábito de fumar como factor de
riesgo del cáncer del pulmón, se seleccionan 2 muestras aleatorias, una de pacientes con esta enfermedad
y la otra de personas sin esta condición y se les preguntó si fueron fumadores o no. A continuación se
brinda la información obtenida:
Problema 04:
Se hizo un estudio en niños de 10 a 12 años, que consiste en experimentar la efectividad de dos métodos
de higiene bucal en la prevención de caries, el método A y el método B. Después de un año, se observó el
desarrollo de caries, en el estudio participaron un total de 200 niños. Según los resultados observados de
los tratamientos fueron clasificados por la cantidad de caries en tres categorías: Bajo, moderado, alto
como se muestra en la siguiente tabla.
Desarrollo de caries
Tratamientos TOTAL
Bajo Moderado Alto
A 8 40 34 82
B 84 22 12 118
TOTAL 92 62 46 200
A un nivel de significancia de 5% se puede afirmar que el desarrollo de caries está relacionado al tipo de
tratamiento.
10.4 Bibliografía
1. Webster, A. (2006). Estadística aplicada a los negocios y la economía. (3°ed.) Colombia: MCGRAW HILL.
2. Véliz, C. (2011). Estadística para la administración y los negocios. 1° ed., México; Prentice Hall.
Pearson.
3. Levine, D. (2014). Estadística para la Administración.(6ª ed.) México: Pearson.
4. Estadística descriptiva bidimensional. [Acceso: 15 de diciembre del 2017.]. Disponible en:
http://www.um.es/docencia/plucas/manuales/mat/mat9.pdf.
55
Tema 11
Correlación lineal simple
Correlación
Cuando se realiza un estudio de correlación entre dos variables cuantitativas medidas en escala de
intervalo o razón, se tiene interés en determinar en qué medida sus valores se relacionan y cuál es su
tendencia que puede ser directa o inversa. El análisis consiste en observar esta asociación con el gráfico
de dispersión y el coeficiente de correlación de Pearson.
Gráfico de dispersión
Es una gráfica representa la relación de los valores observados (xi,yi), considerando la variable X como
independiente y a la variable Y como dependiente. Los valores de la variable independiente X se grafica
en el eje horizontal, mientras que los valores de la variable dependiente Y en el eje vertical. El tipo de
la relación observada en el diagrama de dispersión puede ser lineal directa o inversa, como se observa en
las siguientes gráficas:
Mide la fuerza y dirección de la relación entre dos variables cuantitativas en una escala que varía entre
+1 y -1, esto significa una relación directa o inversa. La fórmula es:
cov( X, Y )
R
Sx Sy
f x x y y
k l
ij i j
Covx, y i 1 j 1
n
Interpretación del coeficiente de correlación de Pearson, está dado en el siguiente cuadro.
56
Ejemplo 18
X Y Número
calif. en Psicol. calif. en Estad. de alumnos.
3 2 4
4 5 6
5 5 12
6 6 4
6 7 5
7 6 4
7 7 2
8 9 1
10 10 2
¿Cuál es la relación entre las notas en estadística con las notas de psicología?
Solución:
Se pide determinar la correlación de X e Y:
Promedios: x
n x i i
220
5,5 y
n y i i
224
5,6
N 40 N 40
Covarianza: s xy
n x y
i i i
x. y
1336
(5,3).(5,6) 33,4 30,8 2,6
N 40
Varianza de X: s 2
n x i
2
i
x
2 1314
(5,6) 2 32,85 30,25 2,6
x
N 40
Varianza de Y: s 2
n y i
2
i
y
2 1378
(5,6) 2 3,09
y
N 40
Desviación estándar de Y: s y 3,09 1,75
s xy 2,6
Calculando el coeficiente de correlación: r y resulta r 0,92
s x .s y (1,61).(1,75)
57
La correlación es positiva, es decir, a medida que aumenta la nota de estadística aumenta también la
nota en psicología. Su valor está próximo a 1 lo que indica que se trata de una correlación fuerte, las
estimaciones realizadas están cerca de los valores reales.
Problema 01:
Los siguientes datos corresponden a grupo de estudiantes y se quiere determinar la existencia o no de
asociación entre las calificaciones en las asignaturas de Matemática con el número de horas de estudio
diario fuera de clase y qué tipo de relación presentan los datos siguientes:
Problema 02:
Un consultor quiere averiguar si el salario de los empleados depende del índice de desempeño en el
trabajo. Una manera de verificar lo anterior, consiste en examinar la relación entre dicho índice y el
salario del empleado. Para ello, se seleccionó una muestra de 8 empleados y se recolectó información
sobre el salario (en cientos de soles) y el índice de desempeño (medido en escala de 1 al 10; donde 1
significa pésimo y 10 significa óptimo). ¿Existe correlación entre las variables de estudio a un nivel de
significancia de 5%.
Índice de desempeño 9 7 8 4 7 5 5 6
Salario (S/.) 36 25 33 15 28 19 20 22
Problema 03:
Un profesor investiga las notas que obtuvieron 10 alumnos en Matemática y en Estadística con calificación
de 1 a 10, los datos recolectados son:
11.4 Bibliografía
1. Webster, A. (2006). Estadística aplicada a los negocios y la economía. (3° ed.) Colombia: MCGRAW
HILL.
2. Análisis de regresión y correlación lineal. [Acceso: 15 diciembre del 2014.]. Disponible en:
http://www.uoc.edu/in3/emath/docs/RegresionLineal.pdf.
3. Daniel, W. (2002). Bioestadística. Base para el Análisis de las Ciencias de la Salud. México: Editorial
Limusa S.A.
4. Veliz, O. (2014). Estadística para administración y los negocios. (2ª ed.). México D.F: Pearson.
58
Tema 12
Regresión lineal simple
Regresión lineal
Regresión lineal simple, es método estadístico que nos permite formular un modelo matemático,
sustentado en el método de los mínimos cuadrados (uno de los métodos de estimación) para predecir el
valor promedio de la variable dependiente para un nivel dado en función de la variable independiente
(predictora),de modo que ambas variables se expresan en una relación funcional de las variables (X,Y),
esta función es f(x), tal que yi = f(xi). Para cada valor de x se puede conocer el valor de y. Por ejemplo,
el precio de una prenda está en función del costo de la tela por metro.
Gráfico de dispersión
Enel gráficode dispersión se observa el tipo de la relación que presentan las dos variables que puede ser
lineal o no lineal (una curva), como se observa en las siguientes gráficas:
Modelo de regresión lineal simple, está definido por la ecuación de una recta:
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝑒𝑖𝑗
Donde:
Yi: Variable dependiente
Xi: Variable independiente
eij: Error aleatorio, variables no observables que se asume normalidad
β1: Parámetro que expresa la pendiente de la recta, indica la variación de Y i cuando la variable Xi
varía en una unidad. La fórmula para estimar β1 es:
59
a) El coeficiente de correlación de Pearson que es R
b) El coeficiente de determinación que es R2
El valor del coeficiente de determinación está en un rango de 0 a 1.
Ejemplo19
Una empresa comercializadora de productos lácteos desea conocer si existe relación entre el gasto que
se realiza en publicidad en miles de soles y el incremento de las ventas en miles de soles, para lo cual
realiza el análisis de la conducta de estas dos variables en los nueve últimos meses. Los datos recolectados
son los siguientes:
Publicidad 12 14 15 10 19 13 15 19 18
Ventas (S/.) 48 55 52 42 67 43 48 69 55
Solución
1. Gráfico de dispersión, para poder determinar la tendencia de los datos procederemos a realizar con
MegaStat o Excel el gráfico de dispersión.
75
70
65
Ventas
60
55
50
45
40
9 11 13 15 17 19 21
Publicidad en miles de soles
En el gráfico de dispersión se observa una relación positiva con tendencia lineal, a medida que se
aumenta la inversión en publicidad hay incremento las ventas.
2. Correlación de Pearson
Obtenemos la matriz de correlaciones con MegaStat
Publicidad Ventas
Publicidad 1.000
Ventas .885 1.000
Con un coeficiente de correlación de Pearson, R =0.885, significa que las variables ventas la inversión
en publicidad indica una correlación muy fuerte.
3. Regresión Lineal
Regression output
60
Con el resultado del CUADRO DE COEFICIENTES, definimos la ecuación de regresión estimada:
1 = 2.675 Por cada sol que se invierte en publicidad las ventas se incrementan en 2.675 soles
Se concluye que la variable gasto en publicidad explica en un 78.3% la variación de las ventas, por
tanto la ecuación de regresión estimada se puede utilizar para realizar predicciones de las ventas.
Ejemplo 20
Una compañía de seguros considera que el número de vehículos (Y) que circulan por una determinada
autopista a más de 120 km/h, puede ponerse en función del número de accidentes (X) que ocurren en
ella. Durante 5 días se recolectó datos y se muestra en la siguiente tabla:
X 5 7 2 1 9
Y 15 18 10 8 20
Solución:
a) Gráfico de dispersión
25
Vehículos con más de 120 km/h
20
15
10 y = 1.5223x + 6.8929
R² = 0.9907
5
0
0 2 4
Número 6
de accidentes 8 10
En el gráfico de dispersión se observa una relación lineal positiva entre el número de accidentes y la
velocidad que recorren los vehículos, es decir si hay aumento de velocidad aumenta el número de
accidentes.
61
Accidentes Vehículos con
xi más de xi2 yi2 xiyi
120km/h
yi
5 15 25 225 75
7 18 49 324 126
2 10 4 100 20
1 8 1 64 8
9 20 81 400 180
24 71 160 1113 409
x
x i
24
4,8 ; y
y i
71
14,2 s x2
x 2
i
x
2 160
4,8 2 8,96
N 5 N 5 N 5
s 2
y 2
i
y
2 1113
14,2 2 20,96 ; s xy
xi yi x. y 409 4,8.14,2 =13,64
y
N 5 N 5
s xy 13,64
a) Por tanto: r 0,996
s x .s y 8,96. 20,96
Para x = 6, y 14,2 1,53(6 4,8) , es decir, y = 16,04. Podemos suponer que ayer circulaban 16
vehículos por la autopista a más de 120 km/h.
Problema 01:
La tabla siguiente muestra las notas que obtuvieron 8 alumnos en un examen, las horas de estudio
dedicadas a su preparación y las horas que vieron la televisión los días previos al examen.
Nota 5 6 7 3 5 8 4 9
Horas de estudio 7 10 9 4 8 10 5 14
Horas de TV 7 6 2 11 9 3 9 5
62
Problema 02:
La tabla adjunta muestra el índice de mortalidad de una muestra de población en función del consumo
diario de cigarrillos:
Número de cigarrillos x 3 5 6 15 20
Índice de mortalidad y 0,2 0,3 0,4 0,5 0,7
Problema 03
Se llevó a cabo un proyecto de investigación para determinar si existe alguna relación entre los años de
servicio y las puntuaciones de eficiencia de los empleados. El objetivo del estudio es predecir la tasa de
eficiencia (Y) de un empleado con base a su tiempo de servicio (X). Los datos muestrales son:
a.
Empleado x y 2 2 xy
x y
1 1 2 1 4 2
2 17 5
3 6 3
4 8 6
5 2 5
6 1 2
7 15 4
8 8 3
Total
Problema 04
Se desea pronosticar el costo de viajar en un avión comercial. Alguna de las variables que contribuyen son
el tipo de avión, distancia recorrida, número de pasajeros, cantidad de equipaje, etc. Se realiza un estudio
solo en el tipo de avión Boeing 737 que vuela 500 millas en rutas comparables durante la misma estación
del año. ¿Puede el número de pasajeros pronosticar el costo de vuelo en esas rutas?
Vuelos 1 2 3 4 5 6 7 8 9 10 11 12
Número de pasajeros 61 63 67 69 70 74 76 81 86 91 95 97
Costo (miles $) 4280 4080 4420 4170 4480 4300 4820 4700 5110 5130 5640 5560
63
Problema 05
La compañía Data WireS.A aumentó la productividad de 70 mil a 90 mil libras por semana cuando instituyó
un programa básico de capacitación. Este programa fue aplicado durante un periodo de 18 meses. Los
datos recolectados son el número total de horas acumuladas en capacitación y la cantidad de producción
por semana de cierto producto que fueron tomadas una vez al mes durante este tiempo.
90000
85000
Productividad
80000
75000
70000
Coeficientes a
Coeficientes no Coeficientes
estandarizados estandarizados
Modelo B Error típ. Beta t Sig.
1 (Constante) 70880.252 394.546 179.650 .000
Horas acumuladas
5.093 .198 .988 25.735 .000
de capacitación
a. Variable dependiente: Productividad (en libras por semana)
Se pide a usted:
a. Analizar la posible relación de las variables con el gráfico de dispersión.
b. Interpretar el coeficiente de correlación de Pearson.
c. Formule el modelo de regresión lineal e interprete el coeficiente de regresión
d. Evaluar la bondad de ajuste del modelo estimado ¿Qué tan bueno es para realizar estimaciones?
Problema 05
Los siguientes datos representan una muestra del consumo de agua por día y la mayor temperatura para
ese día¿ Puede pronosticarse el consumo de agua de una ciudad por medio de la temperatura?
Las variables son:
Y : Cantidad de agua usada (millones de galones)
X : Temperatura (grados Fahrenheit)
y 2
i 152711 y i 1025 x i 608
x 2
i 49584 x i * y i 86006
64
Scatterplot of Uso_agua vs Temperatura
225
200
175
Uso_agua
150
125
100
75
50
40 50 60 70 80 90 100 110
Temperatura
Se pide a usted:
b. Analizar la posible relación de las variables en el gráfico de dispersión.
c. Interpretar el coeficiente de correlación de Pearson.
d. Formule el modelo de regresión lineal e interprete el coeficiente de regresión
e. Evaluar la bondad de ajuste del modelo estimado ¿Qué tan bueno es para realizar estimaciones?
12.4 Bibliografía
1. Webster, A. (2006). Estadística aplicada a los negocios y la economía. (3° ed.) Colombia: MCGRAW
HILL.
2. Análisis de regresión y correlación lineal. [Acceso: 15 diciembre del 2014.]. Disponible en:
http://www.uoc.edu/in3/emath/docs/RegresionLineal.pdf.
3. Daniel, W. (2002). Bioestadística. Base para el Análisis de las Ciencias de la Salud. México: Editorial
Limusa S.A.
4. Veliz, O. (2014). Estadística para administración y los negocios. (2ª ed.). México D.F: Pearson.
65
Tema 13
Teoría elemental de probabilidad
Espacio muestral
Es el conjunto formado por todos los resultados posibles del experimento aleatorio. Denotaremos por la
notación (omega) o con la letra S
Evento
Es un subconjunto del espacio muestral.
Tipos de eventos
Suceso seguro; está formado por todos los posibles resultados, es decir , el espacio muestral.
Ejemplo1
Tirando un dado se obtiene una puntuación que sea menor que 4, más de 5
Evento imposible; carece de elementos
Ejemplo 2
Al tirar un dado obtener una puntuación de 7
A={}
Operaciones con eventos
Sean los eventos A y B que ocurren en el espacio muestral
a) Unión de eventos: Sean los eventos de A y B eventos dependientes, entonces AUB se obtiene:
AUB={w ϵ / w ϵ A ó w ϵ B} = A + B – A B
A B
66
Probabilidad de un evento simple
La probabilidad es una medida de la incertidumbre que toma valores comprendidos entre 0 a 1. Sea el
suceso o evento A del espacio muestral ; la probabilidad de A denotada por P(A) es la razón entre el
número de resultados favorables al suceso A y el número total de resultados del espacio muestral.
𝑛(𝐴) 𝑁ú𝑚𝑒𝑟𝑜𝑑𝑒𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠𝑑𝑒𝑙𝑒𝑣𝑒𝑛𝑡𝑜𝐴
𝑃(𝐴) = =
𝑛(𝑠) 𝑁ú𝑚𝑒𝑟𝑜𝑑𝑒𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠𝑑𝑒𝑙𝑒𝑠𝑝𝑎𝑐𝑖𝑜𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙
Donde: 0 ≤ (PA) ≤1
Problema 01
El 60% de la población de una determinada ciudad lee el periódico A, el 35% el B y un 15% ambos.
Elegido un ciudadano al azar, calcular la probabilidad de:
a) Ser lector de algún periódico_______________
b) No leer ninguno ________________
c) Leer solo el periódico A ________________
d) Leer solo uno de los dos periódicos __________
Problema 02
Una pareja al planificar una familia está interesada en tener 3 hijos, de acuerdo a esto determine los
siguientes eventos:
A: Todos los hijos del mismo sexo A= {_______________________________________}
B: Exactamente un varón B={_______________________________________}
C: Por lo menos dos varones C={ ___________________________________}
Problema 03
Es frecuente que hombres y mujeres no estén de acuerdo en opinar acerca de seleccionar una pareja. Sin
embargo, un grupo de estudiantes realizó una investigación en parejas constituidas y aplicaron una
encuesta a 1000 personas entre 20 a 30 años de edad. Una de las preguntas fue ¿Qué es lo más importante
para su futura pareja ser capaz de comunicar sus sentimientos (S) o el vivir bien con esa persona (V)? La
información de las respuestas se resume en la siguiente tabla:
OPINIÓN
SEXO
Sentimientos (S) Vivir bien (V) Total
Hombres (H) 350 200 550
Mujeres (M) 360 90 450
Total 710 290 1000
Si se selecciona al azar una persona del grupo de 1000, calcule las siguientes probabilidades:
a) P(S) b) P (V) c) P(S U V) d) P(S U M)
Problema 04
La probabilidad de que un hombre viva 10 años más es 1/4, y la probabilidad de que su esposa viva 10
años más es 1/3. Encontrar la probabilidad de que (i) ambos estén vivos dentro de 10 años, se pide
calcular:
a) Por lo menos, uno esté vivo dentro de 10 años
b) Ninguno de los dos esté vivo dentro de 10 años
c) Solamente la esposa este viva dentro de 10 años
Problema 05
Tres mujeres compiten por un puesto de secretaria ejecutiva. Las candidatas A y B tienen la misma
oportunidad de ganar, pero la candidata C tiene el doble de oportunidad que las candidatas A y B. ¿Cuál
es la probabilidad de que gane C? ¿Cuál es la probabilidad de que A no gane?
Problema 06
La probabilidad de que se venda el producto A es 15%, el producto B es el 5% y la probabilidad que se
vendan ambos productos por medio de una promoción es 4% ¿Cuál es la probabilidad que se venda el
producto A o el producto B dicho día?
67
Problema 07
En una clase de Administración Financiera hay 6 mujeres y 4 hombres según el número de inscritos. Se
han elegido al azar a 7 personas ¿Cuál es la probabilidad de elegir más mujeres que hombres?
Problema 08
En cada uno de los enunciados califique como verdadero (V) o falso (F) y arguméntelo:
13.4 Bibliografía
1. Córdova, M. (2003). Estadística Descriptiva e Inferencial. Aplicaciones. (5ª ed.) Lima: Moshera.
2. Webster, A. (2006). Estadística aplicada a los negocios y la economía. (3° ed.) Colombia: MCGRAW
HILL.
3. García, J. (2005). Estadística descriptiva y nociones de probabilidad. España: Thomson Editores.
4. Montesinos, L, Bayonas, Y, Cerna, E, Llanos, K, Pajuelo, S. (2016). Estadística descriptiva
yprobabilidad.(1ª ed) 1Lima: Fondo Editorial USIL.
68
Tema 14
Probabilidad condicional y teorema de Bayes
Probabilidad condicional
En un espacio muestral, la probabilidad condicional se define como la probabilidad de un evento A dado
que ha ocurrido el evento B.
𝑛(𝐴 ∩ 𝐵) 𝑁ú𝑚𝑒𝑟𝑜𝑑𝑒𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠𝑑𝑒𝑙𝑒𝑣𝑒𝑛𝑡𝑜𝐴 ∩ 𝐵
𝑃(𝐴/𝐵) = =
𝑛(𝐵) 𝑁ú𝑚𝑒𝑟𝑜𝑑𝑒𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠𝑑𝑒𝑙𝑒𝑣𝑒𝑛𝑡𝑜𝐵
Probabilidad total
El espacio muestral se divide en Ai particiones mutuamente excluyentes, y ocurre un evento común B
en todas las particiones. Por tanto la probabilidad total de un evento B está dado por:
Teorema de Bayes
𝑃(𝐵/𝐴𝑖)
𝑃(𝐴𝑖/𝐵) =
𝑃(𝐵)
Ejemplo 23
En esta aula el 70% de los alumnos son hombres. De ellos el 10% son fumadores. El 20% de las mujeres son
fumadoras. ¿Cuál es la probabilidad que al seleccionar una persona, ésta sea fumadora?
69
Solución
H: Hombre
M: Mujer
F: Fuma
Problema 01
En la ciudad de Arequipa, el canal 5 emite un reporte informativo “Buenos días Perú” en la mañana, y
otro 24 horas”, en la noche. El 10% de las familias de esta ciudad sintonizan el programa por la mañana,
30% ven el programa por la noche y 7% ven ambos programas ¿Cuál es el porcentaje de las familias que no
ven ninguno de estos dos programas informativos?
Problema 02
En el Cuzco, el hotel de turistas clasifica sus clientes en tres categorías los clientes que llegaron por
agencia de viaje, por negocios y de forma independiente. La gerencia desea determinar la relación entre
el tipo de cliente y el tipo de pago. Ha seleccionado 230 clientes de los que hospedó durante el mes de
febrero del año pasado y los ha clasificado en la siguiente tabla:
Problema 03
La National Highway Traffic Safety Administration (NHTSA) realizó una investigación para saber si los
conductores de Estados Unidos están usando sus cinturones de seguridad (Associated Press, 25 de agosto
de 2003). Los datos muestrales fueron los siguientes:
70
a) ¿Cuál es la probabilidad de que en Estados Unidos un conductor lleve puesto el cinturón?
b) Un año antes, la probabilidad en Estados Unidos de que un conductor llevara puesto el cinturón era
0.75. El director de NHTSA, doctor Jeffrey Runge esperaba que en 2003 la probabilidad llegara a 0.78.
¿Estará satisfecho con los resultados del estudio del 2003?
c) ¿Cuál es la probabilidad de que se use el cinturón en las distintas regiones del país?
d) ¿En qué región se usa más el cinturón?
Problema 04
Una empresa que produce pasta de dientes está analizando el diseño de cinco empaques diferentes.
Suponiendo que existe la misma posibilidad de que los clientes elijan cualquiera de los empaques, ¿cuál
es la probabilidad de selección que se le asignaría a cada diseño de empaque? En un estudio, se pidió a
100 consumidores que escogieran el diseño que más les gustara. Los resultados se muestran en la tabla
siguiente. ¿Confirman estos datos la creencia de que existe la misma posibilidad de que los clientes elijan
cualquiera de los empaques? Explique
Número de veces
Diseño que fue elegido
1 5
2 15
3 30
4 40
5 10
Problema 05
Una empresa tiene tres firmas proveedoras de un mismo artículo. La firma A produce el 2% de fallados y
provee el 25% de las necesidades de la empresa. La firma B produce el 5% de fallados y provee el 30% de
las necesidades de la empresa. La firma C produce un 3% de fallados y provee el 45% de las necesidades
de la empresa.
Problema 06
Un ambulante que vende periódicos y otros artículos encuentra que el 60% de sus clientes le compra (solo)
periódicos y 20% le compra periódicos con otros productos
¿Qué porcentaje de sus clientes le compran solamente otras cosas que no sean periódicos, asumiendo que
todos los clientes le compran algo?
Problema 07
Análisis S.A., una pequeña firma consultor está negociando dos contratos. La Gerencia piensa que la
probabilidad de ganar el primer contrato es de 60%, y que el ganador tendrá ventaja definitiva en la
negociación del segundo contrato. La Gerencia cree, que si Análisis S.A. gana el primer contrato va a
tener un 70% de probabilidad de ganar el segundo, pero si pierde el primer contrato, la probabilidad de
ganar el segundo disminuirá a 0.10.
Problema 08
Consideremos una población en la que cada individuo es clasificado según dos criterios: es o no portador
de HIV y pertenece o no a cierto grupo de riesgo que denominaremos R. La correspondiente tabla de
probabilidades es:
Cliente Portador (A) No portador (A’)
Pertenece al grupo de riesgo (B) 0.003 0.017
No pertenece al grupo de riesgo (B’) 0.003 0.977
Total
71
b) Calcula la probabilidad de que sea portador y pertenezca al grupo de riesgo.
c) Dado que una persona seleccionada al azar pertenece al grupo de riesgo, ¿cuál es la probabilidad de
que sea portador?
Problema 09
Una compañía constructora está considerando el construir un centro comercial. Un elemento de decisión
para la construcción es la existencia del proyecto de una autopista. Si el consejo municipal aprueba esta
autopista hay una probabilidad de 0.90 que la compañía construya el centro comercial. Pero si la autopista
no es aprobaba la probabilidad es de sólo 0.20. Basándose en la información disponible el presidente de
la compañía estima que hay una probabilidad de 0.60 que la autopista sea aprobada.
a. ¿Cuál es la probabilidad que la compañía construya el centro comercial?
b. Dado que el centro comercial fue construido, ¿cuál es la probabilidad que la autopista haya sido
aprobada?
Problema 10
La información de la siguiente tabla presenta la clasificación de estudiantes universitarios de acuerdo a
la preferencia de la carrera profesional elegida y el género.
GÉNERO
ESPECIALIDAD TOTAL
Masculino Femenino
Administración 120 90 210
Ingeniería 90 50 140
Contabilidad 47 55 102
TOTAL 257 195 452
b) ¿Cuál es la probabilidad que el estudiante sea un estudiante de administración dado que es mujer?
c) ¿Cuál es la probabilidad que el estudiante sea de la carrera de Contabilidad?
d) ¿Cuál es la probabilidad de elegir un estudiante del género femenino y estudie Ingeniería?
e) Si el estudiante elegido es del género masculino ¿Cuál es la probabilidad que estudie Contabilidad?
f) ¿Cuál es la probabilidad de elegir un estudiante de Ingeniería o Contabilidad?
Problema 11
Un médico cirujano se especializa en cirugías estéticas. Entre sus pacientes, el 20% se realizan
correcciones faciales, un 35% implantes mamarios y el restante en otras cirugías correctivas. Se sabe
además, que son de género masculino el 25% de los que se realizan correcciones faciales, 15% implantes
mamarios y 40% otras cirugías correctivas. Si se selecciona un paciente al azar, determine:
a. Calcula la probabilidad de que sea de género masculino
b. Si resulta que es de género masculino, ¿Cuál es la probabilidad que se haya realizado una cirugía de
implantes mamarios?
14.4 Bibliografía
1. Ávila, RB. (2010). Estadística Elemental. Lima: Estudios y ediciones R.A.
2. Córdova, M. (2003). Estadística Descriptiva e Inferencial. Aplicaciones. (5ª ed.) Lima: Moshera.
3. Devore, J. (2008). Probabilidad y Estadística Para Ingeniería y Ciencias. (7ª ed.) México D. F: Cengage
Learning.
4. García, J. (2005). Estadística descriptiva y nociones de probabilidad. España: Thomson Editores.
5. Montesinos, L, Bayonas, Y, Cerna, E, Llanos, K, Pajuelo, S. (2016). Estadística descriptiva y
probabilidad. (1ª ed) 1Lima: Fondo Editorial USIL.
6. Salvador, S., Fernández M., Cao, A. (2008). Introducción a la Estadística y sus aplicaciones. Madrid:
Ediciones Pirámide
7. Webster, A. (2006). Estadística aplicada a los Negocios y la Economía. (3ra ed.) Colombia: McGraw
Hill.
8. Bioestadística. [Acceso: 15 de enero del 2018]. Disponible en: http://books.google.com.pe/book.
72