Modulo Estadistica
Modulo Estadistica
Modulo Estadistica
Estadística e Investigación
1
Estadística e Investigación
Sólo con el propósito de crear un marco adecuado para nuestra exposición, daremos
algunas ideas básicas sobre investigación, sin explicar los conceptos, dado que esto
compete al curso de Metodología de la Investigación Científica.
En este texto le presentamos sólo una tipificación, la que en base a nuestra experiencia,
resulta ser de mayor utilidad en muchas disciplinas, en particular para las investigaciones
en el campo de la educación y administración.
2
La descripción del fenómeno de la deserción consistirá fundamentalmente en la medición
de su incidencia según género, grado de estudio, lugar de procedencia del cliente, tipo de
cliente, tipo de tarjeta que posee, movimientos mensuales que realiza a la tarjeta, actividad
a la que se dedica el cliente, etc.
Se trata de una investigación cuyo propósito es el de caracterizar el comportamiento de una
sola variable, un solo fenómeno: clientes puntuales en los créditos.
3
c) “Existe una relación directa (o inversa) entre la variable X y la variable Y”
d) En cuanto a la función de las variables en la estructura relacional, una(s) variable(s)
puede(n) considerarse Variable(s) dependiente(s) y otra(s) como variable(s)
independiente(s), sin embargo, en la mayoría de los casos no es posible o no es correcto
atribuir a las variables la función de ser dependientes o independientes, lo correcto es
considerarlos como fenómenos concomitantes o variables que varían en forma conjunta, es
decir, hay una covariación entre ellas.
e) Se realizan las mediciones de las variables a través de un conjunto de indicadores y
mediante procedimientos estadísticos se detecta la existencia o no de una relación y, en
caso de existir evidencia, se cuantifica el grado de relación entre los indicadores.
f) Las relaciones que se detectan no son relaciones de causa - efecto. Luego, no es
correcto tampoco formular conclusiones cuya estructura es: " la variable A influye en la
variable B" o "el fenómeno o factor A es causa del fenómeno o variable B".
g) Este tipo de investigación también se puede realizar sobre la base de una o más
muestras. (Canavos, 1992)
- Forma dos grupos de 40 estudiantes cada uno, asignando al azar a cada elemento en uno
de los grupos. Uno de los grupos constituye el Grupo Control y el otro, el Grupo
Experimental.
- Conduce el proceso de enseñanza-aprendizaje de modo que emplea el Nuevo Enfoque
Pedagógico con el Grupo Experimental y el Enfoque Tradicional con el Grupo Control.
- Finalizado el periodo de aplicación de ambos enfoques, realiza la evaluación del logro
de los objetivos en ambos grupos y
- Procede a comparar ambos grupos mediante algún test (o prueba) estadística.
Características
La experimentación se utiliza para deducir relaciones causales. El significado científico de
la causalidad difiere del significado común. El cuadro siguiente, reproducido de Malhotra,
aclara lo que debemos entender por causalidad en el campo de la ciencia.
4
Tabla 1
Significados común y científico de causalidad
Significado común Significado científico
-X es la única causa de Y -X es sólo una de las causas posibles de Y
-X siempre debe llevar a Y -La presencia de X provoca que la presencia de Y
(X es una causa que determina Y) sea más probable (X es una probable causa de
-Es posible probar que X es la causa de Y. Y)
- Es difícil probar que X sea la causa de Y. A lo
más podemos inferir que X es una causa de Y.
Fuente: Malhotra, 2008
Niveles de la Investigación
Científica INVESTIGACIÓN
EXPERIMENTAL
INVESTIGACIÓN
CORRELACIONAL
INVESTIGACIÓN
DESCRIPTIVA
Figura 1: La siguiente figura trata de expresar los niveles para cada uno de los
tipos de investigación referidos.
5
1.2.1. Fase de Planeación
a. Selección del tema.
b. Planteamiento del problema
- Formulación del Problema.
- Formulación de objetivos
- Justificación e Importancia.
c. Construcción del marco teórico
- Teorías
- Antecedentes
- Datos
- Variables
- Hipótesis.
d. Diseño metodológico
- Tipo de Investigación
- Selección de diseño de la investigación
- Diseño de la muestra
- Elaboración de instrumentos de recolección de datos
- Diseño de formatos de tabulación
- Previsión de los análisis a realizar con los datos.
6
En la fase de Ejecución, la Estadística interviene casi en todas las actividades que se
señalan, salvo en la interpretación de los resultados del análisis, que es una tarea de
explicación de los hallazgos de la investigación a partir del marco teórico respectivo.
(Devore, 1998)
SELECCIONAR MUESTRAS
RECOPILAR
ORGANIZAR
PRESENTAR DATOS
ANALIZAR
EN EL PROCESO DE UNA
INVESTIGACION
7
Hasta esta parte tenemos una primera visión de la relación entre la Investigación
Científica y la Estadística.
1.5 Importancia de la Estadística
No existe actividad humana en que se deje de usar la Estadística, las decisiones más
importantes en nuestra vida se toman con ayuda de esta ciencia. La importancia en el área
científica es porque:
a) Realiza una descripción más exacta.
b) Permite resumir los resultados de manera significativa y cómoda.
c) Nos permite obtener conclusiones generales y específicas.
1.6.1 Medición:
La medición es un proceso de asignación de números u otros signos a las
características de los objetos, de acuerdo con ciertas reglas especificadas con anticipación.
1.6.2 Población:
Se denomina población al conjunto de todas las unidades de observación o
análisis (que consiste en personas, animales, objetos, etc.), cuyas características observables
se van a estudiar. Una población debe definirse en términos de su contenido, extensión y
tiempo.
8
Si la población bajo estudio no es muy grande, en el sentido de la cantidad de sus
elementos, y si se cuenta con los medios económicos y el tiempo suficientes, la
investigación se realiza con todos los elementos de la población.
1.6.3 Muestra:
Es una parte, un subgrupo de elementos de la población que se selecciona para
participar en el estudio. Cuando la población es muy grande, es decir tiene cientos o miles
de elementos o cuando los medios y el tiempo son limitados, la investigación se conduce
sólo por la muestra.
Representación de población y muestra
MUESTRA
POBLACIÓN
1.6.5 Dato:
Es el valor o respuesta que adquiere la variable.
1.6.6 Constante:
Es un dato cuyo valor no puede cambiar durante la ejecución de la investigación.
Recibe un valor en el momento de la recolección y este permanece inalterado durante toda
la investigación.
1.6.7 Estadígrafo:
9
Es una medida usada para describir el comportamiento de una variable en la
muestra. Sirven para estimar parámetros o como valores de distribuciones de probabilidad
que permiten hacer inferencia estadística.
1.6.8 Parámetro:
Son todas aquellas medidas que describen numéricamente la característica de una
población. También se les denomina valor verdadero, ya que una característica poblacional
tendrá un solo parámetro (media, varianza, etc.). Sin embargo, una población puede tener
varias características, y, por tanto, varios parámetros.
1.6.9 Variable:
Es una característica que representa a aquello que varía o que está sujeto a algún
tipo de cambio. Se trata de algo que se caracteriza por ser inestable, inconstante y mudable.
1.6.10 Indicador:
Son medidas verificables de cambio o resultado diseñadas para contar con un
estándar contra el cual evaluar, estimar o demostrar el progreso con respecto a metas
establecidas. (ONU, 2002)
Cualitativas
Por su
Discretas
1 Naturaleza
.7.1.1 Cuantitativas
Variables
Continuas
cualitativas
: Son las
Figura 4: Por su naturaleza, las variables se clasifican en cualitativas y
variables que expresanydistintas
cuantitativas, cualidades,
a su vez las características
cuantitativas en discretas y ocontinuas
modalidad. Cada modalidad
que se presenta se denomina atributo o categoría. Las variables cualitativas pueden ser
dicotómicas cuando sólo pueden tomar dos valores posibles como: sí y no, hombre y mujer,
etc. o son politómicas cuando pueden adquirir tres o más valores.
10
1.7.1.2 Variables cuantitativas: Son las variables que se expresan mediante
cantidades numéricas. Las variables cuantitativas además pueden ser:
Variable discreta: Es la variable que presenta separaciones o interrupciones en la escala de
valores que puede tomar. Estas separaciones o interrupciones indican la ausencia de valores
entre los distintos valores específicos que la variable pueda asumir. Ejemplo: El número de
hijos (1, 2, 3, 4, 5).
Variable continua: Es la variable que puede adquirir cualquier valor dentro de un intervalo
especificado de valores. Por ejemplo la masa (2,3 kg, 2,4 kg, 2,5 kg,...) o la altura (1,64 m,
1,65 m, 1,66 m,...), o el salario. Solamente se está limitado por la precisión del aparato
medidor, en teoría permiten que exista un valor entre dos variables.
Nominal
Cualitativas
Ordinal
Por su Escala
Intervalo
Cuantitativas
Razón
11
la escala. Las variables de intervalo carecen de un cero absoluto, por lo que operaciones
como la multiplicación y la división no son realizables. Un ejemplo de este tipo de
variables es la temperatura, ya que podemos decir que la distancia entre 10 y 12 grados es
la misma que la existente entre 15 y 17 grados. Lo que no podemos establecer es que una
temperatura de 10 grados equivale a la mitad de una temperatura de 20 grados.
Dependiente
Por su
Investigación
Independiente
12
PROBLEMAS PROPUESTOS
2. Para cada ejercicio, identificar: población, unidad de análisis, muestra, variable y tipo de
variable:
2.1 En la empresa Agroindustrial Tumán S.A. trabajan 2500 personas. La empresa está
estudiando conceder un aumento de sueldo y encarga hacer un estudio de factibilidad para
analizar si es posible realizar el aumento. La comisión de funcionarios encargada de este
estudio toma una muestra de 180 trabajadores informando que ganan en promedio
mensualmente 1060 soles, la cual la comparan con los sueldos mensuales de otras
empresas. Sí usted fuera el auditor de este estudio de factibilidad, identifique lo siguiente:
Población: 2500 personas
Unidad de análisis: 1 trabajador
Muestra:180 trabajadores
Variable de Estudio: Sueldos
Tipo de variable: Cuantitativa continua
13
2.2 El Gerente de Procter & Gamble, quiere saber cuál es la marca de detergente que
más prefieren las amas de casa de la ciudad de Chiclayo. Para llevar a cabo este estudio se
seleccionó una muestra de 504 amas de casa de los alrededores del centro histórico de la
ciudad de Chiclayo. Identifique:
Población: Amas de casa de Chiclayo
Unidad de análisis: 1 ama de casa
Muestra: 504 amas de casa
Variable de Estudio: Marca de
detergente que más prefieren
Tipo de variable: Cualitativa nominal
2.3 La empresa Telefónica, desea diseñar nuevos planes de una tarifa en el servicio de
telefonía móvil en la ciudad de Lima. Se elige 50 usuarios de telefonía móvil y se observa
sus gastos en tráfico telefónico. Identifique:
14
2.5 La Oficina de Servicios Generales de la USS desea conocer los medios en los cuales
con mayor frecuencia se transportan los alumnos de la USS. Para ello realiza una encuesta a
50 alumnos de pregrado en el semestre 2012-II y encuentra que el 70% de los encuestados
usa el transporte público y el 20% usa el transporte de la universidad. Identifique:
Población: Alumnos de la uss
Unidad de análisis: 1 alumno
Muestra: 50 alumnos
Variable de Estudio: Transporte publico
Tipo de variable: Cuantitativo directa
2.7 Un médico de cabecera trabaja en un área rural del distrito de Ferreñafe que cuenta
con 4500 habitantes, y está interesado en conocer cuando se producen un mayor número de
demanda de asistencia a domicilio, para reforzar el horario que más lo necesita. Para ello
realiza una encuesta a 200 habitantes y ha recogido datos sobre las últimas demandas que
ha tenido y las ha catalogado como visitas de mañana, tarde, noche o festivo dependiendo
de la hora y en el día en que se han producido. Identifique:
Población: 4500 habitantes
Unidad de análisis: 1 habitante 1
Muestra: 200 habitantes encuestados
Variable de Estudio: Mayor número de
demanda de asistencia a domicilio de un
medico
Tipo de variable: Cuantitativo
15
2.8 El ministerio de agricultura está ofreciendo cursos a distancia y presenciales de
capacitación a los integrantes de cooperativas agroindustriales debidamente formadas. La
cantidad de estas cooperativas en el país son de 6750 y la cantidad de integrantes que la
conforman es igual a 68056. El ministerio quiere conocer mejor a su público objetivo, para
lo cual ha tomado una muestra de 210 cooperativas, a las cuales se les ha preguntado por:
tipo de orientación de la cooperativa, número de personas participantes, ¿qué cursos de
capacitación ya han recibido?, y el ingreso en nuevos soles que manejan al mes.
Identifique:
Población: Total de lectores de diario de la
cuidad de Chiclayo
Unidad de análisis: Un lector de diario de la
cuidad de Chiclayo
Muestra: 684 lectores de la cuidad de
Chiclayo
Variable de Estudio: Diario que más prefieren
los lectores de la cuidad de Chiclayo
Tipo de variable: Cualitativo
2.9 El Director del diario la Industria quiere saber cuál es el diario que más prefieren los
lectores de la ciudad de Chiclayo. Para llevar a cabo este estudio se seleccionó una muestra
de 684 lectores de dicha ciudad. Identifique:
Población: Total de lectores de diario de la
cuidad de Chiclayo
Unidad de análisis: Un lector de diarios
Muestra: 684 lectores de la cuidad de
Chiclayo
Variable de Estudio: Diario que más
prefieren los lectores de la cuidad de
Chiclayo
Tipo de variable: Cualitativo
16
2.10 La Facultad de Ciencias de la Comunicación de una Universidad Pública cuenta
con 5000 estudiantes y está realizando un estudio sobre el impacto de las redes sociales y el
internet en la formación de los jóvenes de la especialidad de Comunicación Social. Para
ello se encuesta a chicos y chicas de primer y segundo semestre de dicha especialidad, si se
aplicaron 200 encuestas lo que proveerá resultados del ¿por qué las nuevas tecnologías se
han vuelto tan necesarias en estos días? Identifique:
Población: 5000 estudiantes de la Facultad de
Ciencias de la Comunicación de una
Universidad Pública
Unidad de análisis: Un estudiante de la
facultad de ciencias de la comunicación de la
universidad publica
Muestra: 200 estudiantes de primer y segundo
semestre
Variable de Estudio: Un estudio sobre el
impacto de las redes sociales y el internet en
la formación de jóvenes
Tipo de variable: Cuantitativa
17
CAPÍTULO II
18
2.1 Conceptos generales en la investigación
Para comprender las técnicas e instrumentos que se utilizan en la recolección y el
análisis de información, es necesario definir conceptos básicos que se utilizan, como los
siguientes.
Investigación
Se define “como una serie de métodos para resolver problemas cuyas soluciones necesitan
obtenerse por medio de una serie de operaciones lógicas, tomando como punto de partida
datos objetivos”. (Real Academia Española)
Método
La palabra método proviene del griego methodos, término compuesto por meta, que
significa con, y odos, que significa vía. De acuerdo con la Real Academia Española,
método es “el procedimiento que se sigue en las ciencias para hallar la verdad y enseñarla”.
Es una forma razonada de utilizar técnicas y procedimientos para realizar alguna actividad
en cierto orden siguiendo los principios ordenados de la ciencia.
Técnica
Instrumentos
Son las herramientas, las maquinarias y los equipos que sirven como apoyo para realizar
una investigación; su utilización permite alcanzar los resultados esperados.
Recopilación
19
en estudio. Para ello se requiere de la elaboración de un plan de trabajo, del diseño de los
instrumentos, del levantamiento de información en el campo donde se presenta el fenómeno
y de la concentración y el análisis de los resultados.
2.2.1 Cuestionarios
El cuestionario es un documento formal y estructurado mediante el cual se
recopila información, datos y opiniones a través de preguntas específicas que se aplican
dentro de un universo o una muestra de individuos, con la finalidad de interpretar
posteriormente esa información. (Muñoz, 2011)
En esencia, los cuestionarios utilizan dos tipos de preguntas: abiertas y cerradas.
Preguntas abiertas. Son aquellas en las que el encuestado es libre de emitir un juicio o una
opinión de acuerdo con su criterio acerca de lo que se le interroga; de esta forma, no existe
ninguna limitación para la expresión de las ideas y opiniones, ni en profundidad ni en
temáticas.
a) Preguntas dicotómicas, las cuales sólo permiten dos posibles respuestas, por lo general
opuestas entre sí, por ejemplo: ( ) Sí ( ) No; Masculino ( ) Femenino ( )
b) Preguntas tricotómicas. Son aquellas en que las opciones de respuestas son tres
posibilidades, por ejemplo: Sí ( ) No ( ) No sabe ( )
c) Preguntas de alternativas múltiples. También conocidas como preguntas peine o ítems,
nos presentan varias alternativas entre las que el encuestado elige alguna; por lo general,
estas opciones incluyen una gama de respuestas que varían de un extremo a otro, por
ejemplo: Elija la respuesta marcando con una “x”
20
Asimismo, el diseño de un cuestionario contiene
1. Datos de identificación
Contiene:
- Datos sobre el nombre, dirección, número de teléfono del encuestado.
- La fecha, hora de entrevista.
- Nombre y código del encuestador
2. Solicitud de cooperación
Redactada para obtener la colaboración de los encuestados. Contiene:
- Identificación de la institución que realiza el estudio y/o del encuestador.
- Explicación del objetivo de la encuesta.
- El tiempo que será preciso emplear para el llenado del cuestionario
3. Instrucciones
Son las instrucciones referidas a la forma de utilizar el cuestionario.
- Si el cuestionario se administra mediante entrevistadores, sean personales o por
teléfono, las instrucciones son para el entrevistador y se encuentran en una hoja
separada, Hoja de instrucciones del entrevistador.
- Si el cuestionario es auto administrado o por correo, las instrucciones se encuentran
en el mismo cuestionario.
4. Información solicitada
Es la parte más importante y extensa del cuestionario, está integrada por el conjunto de
preguntas a la obtención de información relevante para los propósitos de la investigación.
5. Datos de clasificación.
Contiene datos generales para clasificar los encuestados, como el nivel socioeconómico,
tipo de vivienda, tipo de hogar, etc. a veces suele ponerse también en la primera parte del
cuestionario.
Si el cuestionario se administra mediante entrevista personal, son registrados por el
entrevistador, con base a la observación.
Si el cuestionario es auto administrado, por correo o entrevista telefónica, los datos
los proporciona el encuestado.
21
y se evalúa si éste cumple con los objetivos planteados. El resultado que se obtiene de esta
prueba piloto sirve para corregir, modificar o ratificar la forma como están planteadas las
preguntas.
2.2.2 Entrevistas
Entrevista es la recopilación de información en forma directa, cara a cara, donde
el entrevistador interroga y obtiene información directamente del entrevistado, siguiendo
una serie de preguntas preconcebidas y adaptándose a las circunstancias que las respuestas
del entrevistado le presenten.
2.2.3 Encuestas
Otra de las técnicas más utilizadas en el desarrollo de una investigación,
principalmente en las ciencias sociales, es el levantamiento de información mediante
encuestas, ya sea de opinión, de comportamiento, de actuación o de cualquier otro factor
digno de evaluar. La encuesta se realiza con la ayuda de un cuestionario, cuya función es la
medición y pueden aplicarse de manera personal, telefónica o por correo.
2.2.4 Observación
Una de las técnicas más importantes que se utiliza en cualquiera de los métodos
de investigación científica es la observación, la cual se puede definir como el examen
detenido de los diferentes aspectos de un fenómeno, con la finalidad de estudiar sus
características, rasgos y comportamiento dentro del ambiente donde se desarrolla el propio
fenómeno.
“La observación es el registro, en forma sistemática, de patrones conductuales de personas,
objetos y sucesos a fin de obtener información sobre el fenómeno de interés”.
Toda vez que decida emplear el método de la observación, para que ésta sea sistemática,
será necesario que previamente resuelva los siguientes tres problemas:
¿ Qué se va a observar?
¿Cómo se va a observar?
¿Cuándo se va a observar?
Supongamos que su objetivo es el estudio de la atención de los alumnos del primer año de
secundaria en las clases de matemáticas, empleando dos practicantes de la especialidad de
matemáticas como observadores para que lleven a cabo el registro de la atención en el aula
durante el período que va del mes de mayo a fines de julio.
No se trata de la observación del tamaño, ni de la edad de los alumnos, ni mucho menos del
color de los ojos de la profesora o de los practicantes, sino, se trata de la observación de la
actividad psicofisiológica de los alumnos, llamada atención. En esta situación concreta se
encuentran presentes las soluciones de los tres problemas:
22
¿Qué se va a observar?. Respuesta: La atención.
¿Cómo se va a observar?. Respuesta: Mediante dos observadores, de modo que cada uno
registra una vez a cada alumno.
¿Cuándo se va a observar?. Respuesta: En todas las clases de matemáticas, desde mayo
hasta julio.
2.2.5 Experimentación
Otra de las herramientas más utilizadas en el método científico de investigación
es la experimentación, un “método común de las ciencias y la tecnología, que consiste en el
estudio de un fenómeno, reproducido generalmente en un laboratorio, en las condiciones
particulares de estudio que interesan, eliminando o introduciendo aquellas variables que
puedan influir en él. Se entiende por variable todo aquello que pueda causar cambios en los
resultados de un experimento”, existen variables independientes y dependientes. La
variable independiente es todo evento que se incorpora al experimento para ver cómo
influye en la variable dependiente.
23
2.4.2. Confiabilidad del Instrumento: Se refiere al grado en que su aplicación
repetida al mismo sujeto u objeto produce resultados similares o consistentes con
mediciones previas.
c) Método de las Mitades partidas (split - halves). Requiere una sola medición
en un mismo grupo de sujetos. Se divide la prueba en dos mitades y se comparan los
resultados en correlaciones.
Tabla de Frecuencias
Es el agrupamiento de datos en categorías que muestran el número de observaciones en
cada categoría mutuamente excluyente.
Variable
Categ. Conteo o
24
Porcentaje
Categ.
Total
Frecuencia relativa
porcentual
Variable fi hi%
Categ.
Categ.
Total
25
X1 = Soltero X8 = Divorciado X15 = Soltero
X2 = Casado X9 = Casado X16 = Casado
X3 = Viudo X10 = Casado X17 = Casado
X4 = Soltero X11 = Casado X18 = Soltero
X5= Divorciado X12 = Soltero X19 = Divorciado
X6 = Viudo X13= Divorciado X20 = Casado
X7 = Soltero X14 = Viudo
Con esta información construir una tabla de distribución de frecuencia para la variable
“Estado Civil”.
Clases o categorías:
C1 = Soltero C2 = Casado
C3 = Divorciado C4 = Viudo
Tabulación:
Tabla 1
Estado civil de 20 obreros de la empresa constructora “Las Torres” S.A.,
Chiclayo-diciembre 2013.
Estado Civil (x) fi hi %
Soltero 6 30
Casado 7 35
Divorciado 4 20
Viudo 3 15
TOTAL 20 100
Interpretación:
El 30 % de obreros tienen el estado civil de solteros (6), el 35 % son casados (7), el 20 %
divorciados (4), y el 15 % son viudos (3).
Frecuencia relativa
porcentual
Categ.
Total
27
Clasificación:
En este caso se identifican los distintos valores que tiene Xi, primero ubicamos el valor
menor y mayor: Xmin = 2 y Máx. = 6. Los distintos valores que toma la variable Xi los
vamos a denotar por fi resultando:
X1 = 2; X2 = 3; X3 = 4; X4 = 5; X5 = 6
Tabulación:
Tabla 2
Número de trabajadores de una muestra de 20 pequeñas empresas.
Departamento Lambayeque, 2012
N° de Trabajadores fi Fi hi% Hi%
2 1 1 5 5
3 3 4 15 20
4 7 11 35 55
5 6 17 30 85
6 3 20 15 100
TOTAL 20 100
Categ.
Categ.
28
Marca de clase (xi) La marca de clase es el punto medio de un intervalo.
l i 1 l i
Yi
2
Cuando la variable en estudio es continua, para elaborar una tabla de distribución de
frecuencias deben seguir los siguientes pasos:
63 68 36 49 56 64 59 35 78 43
36 43 53 70 57 62 43 68 62 27
29
89 64 72 52 51 62 60 71 61 55
26 59 60 67 57 67 61 67 51 81
60 53 64 76 44 73 56 62 63 60
i. Número de Intervalos
K 1 3.322 * log 50= 6.64=7
I 2.5 * 4 50
I 7
Tabla 3
Edad de 50 pacientes atendidos por servicios de emergencias Hospital
Docente las
[Li-1, Li> Yi fi Fi hi % Hi % Mercedes –
Chiclayo. Abril,
26 - 35 30,5 2 2 4 4
2013
35 - 44 39,5 6 8 12 16
44 - 53 48,5 5 13 10 26
53 - 62 57.5 15 28 30 56
62 – 71 66.5 14 42 28 84
71 – 80 75.5 5 47 10 94
80 – 89 84.5 3 50 6 100
TOTAL 50 100
30
Fuente: Registros Hospital Docente las Mercedes. Chiclayo, Abril-2013
Interpretación:
f3: 5 pacientes atendidos por servicios de emergencias del Hospital Regional Docente de las
Mercedes de Chiclayo tienen una edad comprendida entre 44 y 53 años.
Tabla 4
Grado de instrucción de pacientes atendidos de Tuberculosis pulmonar,
Hospital Almanzor Aguinaga Asenjo - Chiclayo, Mayo - 2013
Grado de Instrucción fi %
Analfabeto 36 45
Primaria 24 30
Secundaria 16 20
Superior 04 05
TOTAL 80 100
31
Grado de instrucción de pacientes atendidos de Tuberculosis pulmonar -
Hospital Almanzor Aguinaga Asenjo - Chiclayo, Mayo – 2013
N°
36
P 32
A
A =Analfabetos
P= Primaria
C 28
E 24
T 0 20
A P S SP
E
Figura 1: Se puede observar que el 45% de los pacientes atendidos son
S 16
analfabetos, mientras que el 5% de ellos tienen un grado de instrucción
superior.
GRADO DE INSTRUCCIÓN
Ejemplo:
Teniendo en cuenta la información de la tabla 4, construir un gráfico de sector.
32
Superior
5%
Primaria Secundaria
30% 20%
Analfabeto
45%
xi fi hi Fi Hi
0 1 12.5 1 12.5
Fuente: Registros Hospital Docente las
Mercedes.Chiclayo,Mayo-2013
Ejemplo
Se lanzan tres monedas al aire en 8 ocasiones y se contabiliza el número de caras, X,
obteniéndose los siguientes resultados:
Tabla 5
Número de veces que aparece una cara
al lanzar 3 monedas al aire
33
1 3 37.5 4 50.0
2 3 37.5 7 87.5
3 1 12.5 8 100.0
Total 8 100.0
2.6.4. Histograma
Un histograma se construye a partir de la tabla estadística, representando sobre
cada intervalo, un rectángulo que tiene a este segmento como base. El criterio para calcular
la altura de cada rectángulo es el de mantener la proporcionalidad entre las frecuencias
absolutas (o relativas) de cada intervalo y el área de los mismos.
34
16
14
12
Fuente:
N° DE PACIENTES
10
Registros
8
Hospital 6
Docente 4
las 2
Mercedes 0
26 – 35 35 – 44 44 – 53 53 – 62 62 – 71 71 – 80 80 - 89
.Chiclayo EDAD
,Mayo-
2013
Masculino Femenino
35
Graficar la información de la tabla 3
18
16
N° DE PACIENTES 14
12
10
8
6
4
2
0
21.5 30.5 39.5 48.5 57.5 66.5 75.5 84.5 93.5
EDAD
Figura 5: el pico más alto nos da referencia a que existen 15 pacientes atendidos con una
edad promedio de aproximadamente 58 años.
Fuente: Registros Hospital Docente las Mercedes.Chiclayo,Mayo-2013
PROBLEMAS PROPUESTOS
2. Un conjunto de datos está integrado por 75 observaciones que van desde el 1.2 hasta
39.2 dólares (1 decimal). ¿Cuál es la amplitud que recomendaría usted para la construcción
de una tabla de distribución de frecuencias?
Rpta:____________________
4. Al investigar el nivel socioeconómico en las modalidades: bajo (B), medio (M), alto
(A) de 50 familias se obtuvo los siguientes datos:
M B B M A M B M B M
B B B M M A B B A M
A B B B M B M A M B
M M M B M M B A M M
A M M M M B B M A M
a. Indicar la variable en estudio.
b. Indicar el tipo de variable.
c. Elaborar la tabla de distribución frecuencias.
d. Interpretar la tabla.
65 63 65 63 69 67 53 58 60 61
64 65 64 72 68 66 55 57 60 62
64 65 64 71 68 66 56 59 61 62
63 65 63 70 67 66 57 59 61 62
64 64 63 69 67 66 58 60 61 62
Construir la tabla de distribución de frecuencias en forma completa (Incluyendo el número,
título, conceptos, cuerpo o contenido, nota o notas de pie, fuente y elaboración), usando la
Regla de Sturges para determinar el número de intervalos.
Interpretar:
h4%:…………………………………………………………………………………………………...
H4%:…………………………………………………………………………………………………..
F3:..………………………………………………………………………………………………...
f2:……………………………………………………………………………………………………
37
principales ciudades: Trujillo, Chiclayo, Piura e Iquitos. El objetivo de la investigación de
mercado es el tratar de determinar segmentos de mercado a los cuales puedan enfocarse e
idear una estrategia de comercialización que eleven los niveles de consumo y venta. El
estudio de campo consideró una muestra de 40 personas que respondieron en las cinco
ciudades. Los datos y las variables recolectadas se detallan a continuación:
X1. Sexo
X2. Edad (en años)
X3. Categoría ocupacional (estudiante, obrero, empleado, profesional).
X4. Nivel de educación (años de escolaridad terminados).
X5. Estado civil (casado, no casado).
X6. Ingreso mensual.
X7. Si el encuestado bebe cerveza por lo menos una vez al mes (sí, no).
X8. Ciudad.
Realizar lo siguiente:
a. Una tabla de frecuencias para la variable ingreso considerando la totalidad de los datos.
b. Calcule e interprete a partir de la tabla construida: H2%, f3, h4%, F2, y3.
c. Considerando solamente los datos de la ciudad de Chiclayo construya una tabla que
distribuya a las personas tomadas como muestra de acuerdo a su estado civil. Asimismo,
utilice la gráfica adecuada para presentar la información.
d. Considerando solo a las personas de Iquitos, presente una tabla que las distribuya de
acuerdo a su edad. Igualmente grafique sus resultados
Base de datos:
X4:Años de
Nº X1:Sexo X2.Edad X3:Cat_ocu X5: E_C X6:Ingreso X7:Bebe X8:Ciudad
escolaridad
38
10 Masculino 35 Obrero 8 No casado 1200 No Trujillo
11 Masculino 30 Estudiante 14 No casado 700 Si Chiclayo
12 Femenino 31 Ama de casa 5 Casado 1200 No Chiclayo
13 Masculino 35 Obrero 6 Casado 1200 Si Chiclayo
14 Masculino 37 Obrero 17 Casado 1300 Si Chiclayo
15 Femenino 38 Ama de casa 10 No casado 1380 Si Chiclayo
16 Femenino 19 Estudiante 13 No casado 800 Si Chiclayo
39
A 300 6000
B 200 4000
C 180 7200
40
CAPÍTULO III
41
3.1. El Promedio o Media Aritmética
El promedio es el centro de la distribución de los datos cuando se trata de casos
normales. Entendemos aquí por casos normales aquellos conjuntos de datos que no
contienen valores muy extremos, valores muy alejados de los demás (Universidad Católica
de Valparaíso) .
El promedio tiene los siguientes símbolos
Ejem.1: Los siguientes datos corresponde al ingreso económico de 8 padres de los alumnos
de ingeniería de sistemas: 1200, 900, 1250, 1350, 800, 750, 1200, 1300. Encontrar el
ingreso promedio
1200 900 1250 1350 800 750 1200 1300
x
8
x 1093,75 Soles
x f i i
Formula: x i 1
n
Ejem. 2:
42
Tabla 1
Número De trabajadores por empresa
Xi fi
46 8
47 10
48 16
49 14
50 12
51 9
52 6
Total 75
x f i i
FORMULA: x i 1
Yi : Marcas de clase del intervalo
n
Ejem.3:
Tabla 2
Ingreso económico de 62 padres de familia
43
Ingreso Económico Yi fi Fi
454,5 – 587,5 521 5 5
587,5 – 720,5 654 5 10
720,5 – 853,5 787 10 20
853,5 – 986,5 920 13 33
986,5 – 1119.5 1053 16 48
1119,5 – 1252,5 1186 8 56
1252,5 – 1385,5 1319 5 62
Total 62
44
Un conjunto de datos puede tener una moda y se dice que la distribución de los datos es
unimodal, más de una moda se dice que la distribución de los datos es multimodal o
también no tener moda y se dice que la distribución de los datos es amodal.
Xi fi
46 8
47 10
48 16
49 14
50 12
51 9
52 6
Total 75
45
Ejem.5: Vamos a tomar los datos de la tabla 2
Ingreso
fi
Económico Fi
454,5 – 587,5 5 5
587,5 – 720,5 5 10
720,5 – 853,5 10 20
853,5 – 986,5 13 33
986,5 – 1119.5 16 48
1119,5 – 1252,5 8 56
1252,5 – 1385,5 5 62
Total 62
De acuerdo a la teoría:
1° fi = 16 2° Li-1 = 986,5 3° fi-1 = 13
4° A = 133 5° fi+1 = 8
Li Me Ls
50% 50%
La mediana se aplica en lugar del promedio, cuando la variabilidad de los datos es muy
marcada. La mediana también se aplica a datos cualitativos ordenados de acuerdo a rangos.
La mediana no tiene símbolo definido.
47
3.3.2. Mediana para Datos Cuantitativos Tabulados
a. Mediana para datos no agrupados en intervalos
n
1° Cuando Fi 1
2
Formula: Me = Xi
Dónde:
xj: Es el valor de la variable que se encuentra en la misma fila de Fi
n
Fi: Frecuencia absoluta acumulada inmediatamente mayor que
2
Fi-1: Frecuencia absoluta acumulada anterior a Fi
Procedimiento:
Ejem.7: Tomamos los datos de la tabla 1
n 75
Xi fi Fi 1° 37,5 2° Fi 48
2 2
46 8 8
n
47 10 18 3° Fi 1 34 efectivamente Fi 1
48 16 34 2
49 14 48
50 12 60 4° Xj 49
51 9 69
52 6 75
Por lo tanto: Me = 49
Total 75
50% de las empresas tienen como máximo 49 trabajadores.
n
2° Cuando Fi 1
2
Li 1 Li
Formula:
2
Ejem.8: Los siguientes datos corresponden al N° de hijos de 54 familias
Número Procedimiento:
de hijos fi Fi n 54
Li 1° 27 2° Fi 42
2 2
1 5 5
n
2 10 15 3° Fi 1 27 efectivamente Fi 1
3 12 27 2
4 15 42 4° Li 4 5° Li 1 3
5 8 50
6 4 54 3 4
Reemplazando valores: Me 3,5 = 4
Total 54 2
48
b. Mediana para datos agrupados en intervalos
n
1° Cuando Fi 1
2
n 2 Fi 1
FORMULA: Me Li 1 A *
Fi Fi 1
Dónde:
Li-1 = límite inferior del intervalo que se encuentra en la misma fila de Fi
A = Amplitud del intervalo
Fi = frecuencia absoluta acumulada inmediatamente mayor que n
2
Fi-1= frecuencia absoluta acumulada anterior a Fi
Ingreso
fi
Económico Fi
454,5 – 587,5 5 5
587,5 – 720,5 5 10
720,5 – 853,5 10 20
853,5 – 986,5 13 33
986,5 – 1119.5 16 48
1119,5 – 1252,5 8 56
1252,5 – 1385,5 5 62
Total 62
Procedimiento:
n
1° n 62 31 2° Fi= 33 3° Fi 1 20 efectivamente Fi 1
2 2 2
4° Li 1 853,5 5° A = 133
Reemplazando valores se tiene:
31 20
Me 853,5 133
33 20
Me 966,04
El 50% de trabajadores tienen un ingreso máximo de 966,04 soles.
49
n
2° Cuando Fi 1
2
Formula: Me Li 1
Ejem.10: Los siguientes datos corresponden al peso en kilos de 120 alumnos.
Peso fi Fi
30 –33 10 10
33 – 37 20 30
37 – 41 30 60
41 – 45 30 90
45 – 49 16 106
49 – 53 14 120
Total 120
Procedimiento:
3° Fi 1 60 efectivamente
n 120 n
1° 60 2° Fi 90 Fi 1
2 2 2
4° Li 1 41 5° A 4
1° n 35 2° Fi 55 3° Fi 1 13
2
La mediana está dada por la categoría que se encuentra en la misma fila de Fi; por lo tanto,
la mediana está dada por la categoría Superior no universitaria.
El 50% de los padres de familia de los estudiantes tienen un grado de instrucción máximo
de Superior no universitaria.
50
3.4. Cuartiles (Qi)
Son medidas de posición que dividen a la distribución de datos ordenados, en cuatro partes
iguales, de tal manera que:
Li Q1 Q2 Q3 Ls
25%
50%
75%
Ejem.12
Tomaremos los datos, ordenados previamente correspondientes al ingreso económico
semanal de 7 padres de familia.
200, 225, 300, 420, 450, 460, 540
x1 x2 x3 x4 x5 x6 x7
51
Ejem.13
Tomaremos los datos ordenados previamente, correspondientes al ingreso económico
semanal de 10 padres de familia
200, 225, 300, 420, 450, 460, 540, 550, 600, 650
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
52
Entonces:
Q3 x8 ( x9 x8 )(0,25)
550 (600 550)(0,25)
550 12,5
Q2 562,5
n(i)
4 Fi 1
Formula: Qi Li 1 A *
Fi Fi 1
Ejem.14
Para el cuadro N° 2, calcular el primer, segundo y tercer cuartil.
15 10
Q1 720,5 133 *
20 10 El 25% de los trabajadores, tienen un ingreso máximo
Q1 787 de 787 soles.
53
Cálculo del segundo cuartil (Q2): i = 2
n(2)
4 Fi 1
Formula: Q2 Li 1 A *
Fi Fi 1
Procedimiento:
ni 622
1° 31 2° Fi = 33 3° Fi-1 = 20
4 4
4° Li-1 = 853,5 5° A = 133
31 20
Q2 853,5 133
33 20
Q2 966,04
El 50% de los trabajadores, es decir 31, tienen un ingreso máximo de 966,04 soles.
n(3)
4 Fi 1
Formula: Q3 Li 1 A *
Fi Fi 1
Procedimiento:
ni 623
1° 46,5 2° Fi = 48 3° Fi-1 = 33
4 4
4° Li-1 = 986,5 5° A = 133
46,5 33
Q3 986,5 133
48 33
Q3 1106,2
54
3.5. Deciles (Di)
Son medidas de posición que dividen a la distribución de datos, previamente ordenados, en
10 partes.
i
El decil i–ésimo es el valor del dato que ocupa la posición ( )( n 1 ) en el ordenamiento.
10
Si la posición no resulta entera, se hace una interpolación lineal entre los dos valores
correspondientes a las dos observaciones entre las cuales se encuentre la posición.
(Montgomery, 1997)
x1 x2 x3 x4 x5 x6 x7 x8 x9
Decil 6 (D6): i = 6, n = 9
6
( )( 9 1 ) 6
10 :
Posición entera
Por tanto el decil 6 es el dato que ocupa la sexta posición: D6 = 580.
55
3.5.2. Deciles para datos tabulados
n(i )
10 Fi 1
Formula: Di Li 1 A *
Fi Fi 1
Donde i, tomará valores de 1 a 9, según se trate del primero, segundo, hasta el noveno decil.
Ejem.15
Para el cuadro N° 2, calcular el 4° decil.
Procedimiento:
1° ni 624 24,8 2° Fi = 33 3° Fi-1 = 20
10 10
4° Li-1 = 853,5 5° A= 133
n(4)
10 Fi 1 24,8 20
D4 Li 1 A * D4 853,5 133 *
33 20
Fi Fi 1
D4 902,61
3.6. Percentiles
Para el cálculo de los centiles o percentiles (Pi) se procede de manera similar y las fórmulas
correspondientes son: (Hoog, 1995)
i
Para datos originales: ( )( n 1 )
100
n(i )
100 Fi 1
Formula: Pi Li 1 A *
Fi Fi 1
56
Ejem.16: Para la tabla 2, calcular el 37° percentil.
Ingreso
fi Fi
Económico
454,5 – 587,5 5 5
587,5 – 720,5 5 10
720,5 – 853,5 10 20
853,5 – 986,5 13 33
986,5 – 1119.5 16 48
1119,5 – 1252,5 8 56
1252,5 – 1385,5 5 62
Total 62
Procedimiento:
n(37)
100 Fi 1 22,94 20
P37 Li 1 A * P37 853,5 133 *
Fi Fi 1 33 20
P37 883,57
57
PROBLEMAS PROPUESTOS
2 . Un dentista observa el número de caries en cada uno de los 100 niños de cierto
colegio. La información obtenida aparece resumida en la siguiente tabla:
N° cari es fi hi %
0 25 25
1 20 20
2 X z
3 15 15
4 y 5
- Halle el número de caries promedio.
- El número de caries máximo que tienen el 50% de los niños.
58
5. Dada la siguiente distribución de frecuencias, calcular el valor de “n” sabiendo que
la moda es 60 y pertenece al tercer intervalo.
Intervalos f
16 – 32 6
32 – 48 n
48 – 64 8
64 – 80 3n
80 - 96 3
7. Las notas de los alumnos que llevaron el curso Matemática básica se presenta a
continuación:
15.0 11.9 10 15
12.1 13.8 8 14.5
9.5 12.3 7.5 12.7
8.3 20 6.3 13.6
10.4 15.3 5.5 19.2
12.5 14.5 15 14.5
11.6 11.9 13 11.2
59
Tiempo en minutos Número de
computadoras
170 – 175 1
175 – 180 3
180 – 185 4
185 – 190 8
190 – 195 5
195 – 200 2
- Calcular la el tiempo máximo que demoran el 65% de las máquinas en transferir un
archivo.
- ¿Cuánto tiempo tardan la mayoría de computadoras en transferir un archivo?
- Cuál es el tiempo promedio.
10. Las personas que asisten al gimnasio “Ponte en Forma” comentaron sobre el
número de hijos que tienen:
3 0 4 4
2 1 3 3
0 1 4 4
1 2 2 2
1 0 3 0
2 3 4 3
3 2 1 2
2 1 3 2
- Cuántos hijos tienen en promedio las personas
- Cuántos hijos como máximo tiene el 45% de las personas.
60
- Cuántos hijos como máximo tiene el 74% de las personas.
CAPÍTULO IV
Medidas de Dispersión
Y
Deformación
61
Medidas de Dispersión y Deformación
4.1. Medidas de Dispersión
Son medidas o parámetros estadísticos que sirven de complemento a las medidas de
centralización en el análisis de los datos. La dispersión o variación es una característica
importante de un conjunto de datos porque intenta dar una idea de cuán esparcidos se
encuentran éstos. (Mendenhall, 2000)
Viene a ser la diferencia entre el valor máximo y el valor mínimo de los datos, es decir:
R = VMax – VMin
El recorrido a rango como estadígrafo de posición es muy limitado, porque sólo considera
los valores extremos de la distribución de datos y no nos indican nada sobre el
comportamiento de los datos.
4.1.2. Varianza:
La Varianza muestral es la que se presenta en la tabla adjunta y la varianza poblacional se
define en el capítulo de probabilidades.
CONDICIÓN Muestra
Datos Originales 2
∑(𝑥𝑖 − 𝑥̅ )2
𝑆 =
𝑛−1
Datos Tabulados 2
∑(𝑦𝑖 − 𝑥̅ )2 ∗ 𝑓𝑖
𝑆 =
con intervalos 𝑛−1
62
Observación: Si deseamos obtener la varianza en una población, el denominador en la
fórmula es “n” (tamaño de población).
Ejem.2: Los siguientes datos corresponden a los ingresos económicos por semana de 12
trabajadores de una empresa
Xi: 600, 650, 200, 710, 300, 550, 420, 460, 450, 540, 850, 225.
Para poder aplicar la fórmula, primero debemos encontrar el promedio y luego aplicar la
fórmula de la varianza.
1° Calculando el promedio: x 496.25
∑(𝑥𝑖 − 𝑥̅ )2
2° Calculando la varianza muestral: 𝑆 2 =
𝑛−1
12 1
419156.22
S2
12 1
S 38105.11 Soles al cuadrado
2
CONDICIÓN Muestra
Datos Originales
∑(𝑥𝑖 − 𝑥̅ )2
𝑆= √
𝑛−1
Datos Tabulados
∑(𝑥𝑖 − 𝑥̅ )2 ∗ 𝑓𝑖
sin intervalos 𝑆= √
𝑛−1
Datos Tabulados
∑(𝑦𝑖 − 𝑥̅ )2 ∗ 𝑓𝑖
con intervalos 𝑆= √
𝑛−1
S S 2 38105.11
S 195.21 Soles
63
La dispersión promedio que existe entre los datos y la media aritmética es de 195.21 soles.
Muestra 1: Muestra 2
x 248 x 248
s = 12.56 s = 38.75
3( y Me) y Md
As ó As
S S
El primero es el más usual.
Interpretación
1. Si la distribución es Simétrica, entonces As = 0, en este caso coinciden y Me Md
2. Si la distribución es Asimétrica Positiva ó sesgada a la derecha si: As > 0.
3. Si la distribución es Asimétrica Negativa ó sesgada a la izquierda si: As < 0.
64
Fuente: Escobar, 2010
Coeficiente de Kurtuosis: a = m 44
S
Donde S4 = ( S2 )2
x x ni
4
i
m4 =
n
Si a = 3 : La distribución es Mesokúrtica ( Normal).
Si a > 3 : La distribución es Leptokúrtica ( apuntada)
Si a < 3 : La distribución es Platikúrtica ( aplanada )
66
CAPÍTULO V
Probabilidades
67
Probabilidades
5.2. Experimentos
La Teoría de la Probabilidad tiene que ver con los diversos resultados posibles que
pueden obtenerse y los posibles sucesos que podrían ocurrir cuando se realiza un
experimento. El término experimento se utiliza en la teoría de la probabilidad para
describir virtualmente cualquier proceso cuyos resultados no se conocen de antemano con
certeza. Entonces, un experimento es el proceso mediante el cual se obtiene una
observación (o una medición) de un fenómeno.
68
5.2.2. Experimentos Determinísticos
Si un experimento tiene un único resultado posible, que al realizarlo sabemos
que ocurrirá, el experimento se llamará determinístico.
Por Ejemplo, un experimento determinístico sería extraer una bola de una que contiene
bolas con un sólo color, digamos negras. Si nos fijamos en el color de la bola extraída
sabemos de antemano que es negra. (Raymond y Myers, 1998).
Otro Ejemplo es, si realizamos el experimento; se lanzan dos dados, los posibles
resultados al observar el número de puntos en ambas caras de los dados es el siguiente
espacio muestral:
Más Ejemplos:
69
Indicar su espacio muestral:
Solución:
Para e : S {1,2,3,4,5,6}
2 2
Para e : S {R,V }
3 3
Para e : S {1,2,3,}
5 5
Para e : S {x R/0 x 1}
6 6
Para e : S {t R/t 0}
7 7
Para e : S {0,1}
8 8
5.4. Eventos
Con base a los experimentos anteriores (lanzar un dado, lanzar dos monedas y lanzar
dos dados), observamos que éstos pueden tener uno o más resultados, a los cuales se les
llama “Eventos” y que se representan mediante letras mayúsculas.
Por tanto un Evento es un subconjunto de un Espacio Muestral.
Se puede hacer una lista de muchos eventos asociados con un experimento, algunos con
más posibilidad de ocurrir que otros. Desde el punto de vista de conjuntos, un evento es un
subconjunto de un espacio muestral. Por Ejemplo, en el experimento de tirar un dado se
tiene:
{1} es el evento elemental o evento simple que indica que al lanzar un
dado salga la unidad.
{2, 4,6} es un evento que indica que al lanzar un dado salga número par.
{1, 2,3} es un evento que indica que al lanzar un dado salga un número menor
que 4
{1, 2, 3, 4, 5, 6} es un evento que indica que al lanzar un dado salga un número menor
que 7
70
E2: “Ocurren por lo menos dos caras”
E3: “Ocurre sello en el tercer lanzamiento”.
Sol: tenemos que: S {ccc, ccs, csc, css, scc, scs, ssc , sss}
Luego: E 1
{ccc, sss}
E 2
{ccc, ccs, csc, scc}
E 3
{ccs, css, scs, sss}
Observaciones:
- A todo elemento de un espacio muestral se le denomina suceso, y se denota por
w,x,y, etc., es decir w S.
- Un evento con un solo elemento es un evento elemental, así E {w} es un evento
elemental.
- Si el conjunto vacío es subconjunto de cualquier conjunto, entonces es un
evento, y se denomina evento imposible.
Ejemplo: E= “lanzar un dado y observar que la cara superior muestre un puntaje
mayor que 6” E {}
- Si todo conjunto es subconjunto de sí mismo, entonces S también es un evento y
se le denomina Evento Seguro. En el Ejemplo de la tirada del dado un evento
seguro S sería ver un puntaje menor que 7 al lanzar el dado, como vemos el
evento sería:
S = {1, 2, 3, 4, 5, 6}, y es un evento seguro porque siempre ocurre.
71
Entonces: A C {2,3,4,5,6} es el evento de que el número sea par o primo.
B C {3,5} es el evento de que el número sea impar o primo.
{1,4,6} es el evento de que el número no sea primo.
c
C
5.6. Definiciones de Probabilidad:
La definición de probabilidad tiene 3 enfoques:
1. Definición Clásica o A priori
2. Definición de probabilidad por frecuencia Relativa o Aposteriori.
3. Probabilidad Subjetiva.
Observación: las dos primeras definiciones son probabilidades objetivas.
2° 1 2 3 4 5 6
1° dado
1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
2 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
3 (3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
4 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
5 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
72
6 (6,1) (6,2) (6,3) (5,4) (6,5) (6,6)
n 36
E: “resultado del primer dado mayor que el resultado del segundo dado” n E
15
Por lo tanto:
P( A) n A
3 1
, P( B)
nB 3 1 , P(C ) nC 18 1
n 36 2 n 36 6 n 36 2
P( D) n D
26 13
, P(E) queda para el estudiante.
n 36 18
5.6.2. Definición por frecuencia Relativa o A posteriori
Si un experimento bien definido se repite n veces (n grande); sea n A el número de veces
que el evento A ocurre en los n ensayos donde n A
n , a este n A
se le denomina
" nA "
frecuencia; y al cociente se le denomina frecuencia relativa, la cual representa a la
n
estimación de la probabilidad de que ocurra el evento A, o sea:
P( A) n A
n
Si queremos obtener la verdadera probabilidad, entonces N debe ser muy grande.
P(A) lím
n A
n
n
73
Observación: las propiedades de la probabilidad por frecuencia relativa son las mismas que
la probabilidad clásica dados en las observaciones generales de la pág.
Ejemplo: en 20 centros educativos de las diferentes P.P.J.J. de Chiclayo que forman en total
a 16000 alumnos, se detectaron 1900 casos de tuberculosis. Hallar la probabilidad de
encontrar a un alumno tuberculoso en un colegio determinado.
n A 1900 , n 16000
1900
P( E ) 0,1186 o en forma porcentual P( E) 11,86%
16000
Nivel Especialidad Primaria Hist.y Geog. Leng.yLit. (C) Educ.Fis. Matem. Total
(A) (B) (E) (M)
N° Total de alumnos 108 60 58 40 38 304
Alumnos sexo femen. 80 38 30 16 11 175
(F)
Alumnos sexo 28 22 28 24 27 129
mascul.(V)
¿Cuál es la probabilidad de que un alumno seleccionado aleatoriamente
Solución:
74
P( A) n A
175
n 304
b) Sea B el evento: “el alumno seleccionado pertenece a la especialidad de
lenguaje y Literatura”.
nB 58 (total de alumnos de Lenguaje y Literatura)
P( B) n B
58
n 304
c) Sea C el evento: “la persona seleccionada es hombre y de la especialidad
de Educación Física”.
nC 24
24
P(C )
304
11
P( D)
304
75
Ejemplo:
Como pueden observar, son eventos únicos, que no han ocurrido antes. No hay forma de
que se puedan interpretar tales probabilidades como una frecuencia relativa o como una
probabilidad Clásica. Entonces el enfoque subjetivo de la probabilidad es pues adecuado en
la respuesta de las preguntas últimamente expuestas.
Ejemplos:
1) Una persona desea comprar una lavadora de ropa, para lo cual ha pensado que puede
seleccionar de entre las marcas Whirpool, Easy y General Electric, cuando acude a hacer la
compra se encuentra que la lavadora de la marca W se presenta en dos tipos de carga ( 8 u
11 kilogramos), en cuatro colores diferentes y puede ser automática o semiautomática,
mientras que la lavadora de la marca E, se presenta en tres tipos de carga (8, 11 o 15
kilogramos), en dos colores diferentes y puede ser automática o semiautomática y la
lavadora de la marca GE, se presenta en solo un tipo de carga, que es de 11 kilogramos, dos
colores diferentes y solo hay semiautomática. ¿Cuántas maneras tiene esta persona de
comprar una lavadora?
76
Solución:
Es muy simple, cuando se trata de una sola actividad, la cual requiere para ser llevada a
efecto de una serie de pasos, entonces haremos uso del principio multiplicativo y si la
actividad a desarrollar o a ser efectuada tiene alternativas para ser llevada a cabo, haremos
uso del principio aditivo.
77
N1 x N2 x N3 x N4 = 2 x 3 x 2 x 1 = 12 maneras de construir la casa
Solución:
9 x 10 x 10 x 10 x 10 x 10 = 900,000 números telefónicos
9 x 9 x 8 x 7 x 6 x 5 = 136,080 números telefónicos
1 x 9 x 8 x 7 x 6 x 5 = 15,120 números telefónicos
8 x 8 x 7 x 6 x 5 x 5 = 67,200 números telefónicos
3) ¿De cuántas maneras diferentes podrá vestirse un joven que tiene 3 camisas diferentes, 4
pantalones y 2 pares de calzado?
Ejemplo:
Notando que dos cuales de estos seis permutaciones son distintas, es decir, difieren en la
posición de sus elementos, entonces ¡interesa el orden ¡
p n
n(n 1)(n 2).... * 3 * 2 *1 n!
78
Definición: el número p n
, de permutaciones que pueden construirse con n elementos de
un conjunto cualquiera es n!
5.7.3.2. Variaciones:
(nVr)
Del Ejemplo anterior tenemos que del conjunto {2, 3, 5, 6, 7, 9} tomamos 3 elementos para
formar números diferentes de 3 dígitos (parte a), es decir tomamos grupos de 3 en 3
elementos, teniendo en cuenta el orden, y dio como resultado por el principio fundamental
del conteo
(3
6*
5 *4 =120 que vienen a ser 6 (factorial generalizado)
3 factores
N° de elementos
Problema: seis personas entran en un salón de espera en la que hay 8 sillas ¿De cuantas
maneras diferentes pueden sentarse?
Solución: se trata de variación porque las personas se van a colocar en diferentes sillas,
pues se tiene en cuenta el orden.
79
8! 8!
Rpta. V 20160
(8 6)! 2!
8 6
n!
nCr
r! (n r )!
Diremos que hemos formado así las combinaciones de orden 1 con los 5 elementos del
conjunto V. A partir de las combinaciones de orden 1 con los elementos de V, formamos
las combinaciones de orden 2 así:
{a} {a, e},{a, i},{a, o},{a, u}
{o} {o, u}
80
{u}
Como podemos observar se coge un elemento seguido de los elementos de la derecha sin
regresar a la izquierda, este mismo procedimiento se sigue para formar las combinaciones
de orden 3, 4, etc.
12! 12!
Entonces C 792
12 5
5! (12 5)! 5!7!
Cr
n
Propiedad de los números Combinatorios: Si n C r
1
n
1) C n
C n 1
n n
2) C r
n m n m
C C
n m
3) se cumple: a) ó
x y x y n m
x y
n 1
C r 1 C r 1
n n
4) C r
n n 1
n
5) C r C
r r 1
(degradación de índices).
Solución: tenemos n 13
81
Las clases que se repiten son: letra I n1 5 letra D n2 3 Luego, por la
13!
fórmula: PR
5!3!
PROBLEMAS PROPUESTOS
6. En una compañía hay 6 varones y 4 damas que aspiran ser miembros de un comité.
Si se deben escoger 2 al azar escribiendo los nombres en hojas de papel y sacándolos de
una urna. ¿Cuál es la probabilidad que los dos sean hombres? ¿Cuál que sean un hombre y
una mujer o dos mujeres?
7. De 20 personas que contrajeron cierta enfermedad al mismo tiempo y que fueron
llevados a una misma sala de un hospital, 15 se recuperan completamente en 3 días; al cabo
del cual, se escogen aleatoriamente 5 personas para un chequeo. ¿Cuál es la probabilidad
que los 5 sean dados de alta?
8. ¿Cuál es la probabilidad que exactamente 4 sean dados de alta?
9. ¿Cuál es la probabilidad que ninguno sea dado de alta?
10. Diez libros se colocan aleatoriamente en un estante. Determinar la probabilidad que
tres libros determinados, sean colocados juntos.
82
CAPÍTULO VI
Teoremas de las
probabilidades
83
6.1. Propiedades Generales de las Probabilidades:
Antes de conocer los teoremas de las probabilidades, es importante tener en cuenta
las siguientes propiedades:
1) La probabilidad de un evento cualquiera A está comprendido entre 0 y 1, es decir:
0 P( A) 1
y n 0 y se cumple que: 0 nA n ,
Demostración: tenemos que n A
0 nA n
dividiendo entre n : 0 P( A) 1 l.q.q.d.
n n n
2) P( A) 0 , si A es un evento imposible.
Demostración: si A es un evento imposible A , n A
0
P( A)
n A
0
P( A) 0 l.q.q.d.
n n
3) P( A) 1, si A es un evento seguro.
Demostración: Si A=S n A n
P( A) n A
n
P( A) 1 l.q.q.d.
n n
P({wi}) 1
i 1
Observaciones Complementarias:
84
Si el espacio muestral S está formado por: S {w1 , w2 , w3 , wn} , es decir un número
finito de elementos, entonces la probabilidad P i
a un resultado w,
i
está dada por
(1) P 0
i
i 1,2,3, n
n n
(2) Pi P({wi}) 1
i 1 i 1
Luego, la suma de las probabilidades asignadas a los puntos o resultados del espacio
muestral es la unidad (teniendo en cuenta que estos resultados w , w , w ,w
1 2 3 n
son
mutuamente excluyentes y colectivamente exhaustivos).
Ejemplo: Ocho amigos juegan boliche una vez a la semana. Este grupo está formado por 2
parejas de casados, 3 jóvenes y una joven. Antes del juego cada uno pone 10 soles en una
bolsa, cuyo contenido será ganado por el que obtenga mayor puntaje. Si las mujeres tienen
la mitad de la habilidad que los varones poseen para el juego. ¿Cuál es la probabilidad de
que un soltero gane?, ¿Cuál es probabilidad de que gane una mujer?, ¿Cuál es la
probabilidad de que gane un hombre casado?
Solución: el espacio muestral está formado por: 5 hombres que tienen igual habilidad,
siendo P la probabilidad de que gane un hombre.
P
Luego se tiene: 5( P) 3 1 P 2 13 y P 2 1 13.
2
85
a) Sea A, el evento “gane un hombre soltero”, A tiene 3 elementos, y éstos tiene igual
habilidad:
P( A) 3( P) 3(2 13) P( A) 6 13.
b) Sea B, el evento “gane una mujer”, B tiene 3 elementos, con igual habilidad:
P( B) 3( P 2) 3(1 13) P( B) 3 13.
c) Sea C, el evento “gane un hombre casado”, C tiene 2 elementos con igual habilidad:
P(C ) 2( P) 2(2 13) P(C ) 4 13.
6.2.1. Axiomas:
Axioma 1.
Cualquiera que sea el suceso S, P [S] ≥ 0.
Axioma 2.
Si dos sucesos son incompatibles, la probabilidad de su unión es igual a la suma de sus
probabilidades:
Si: A B = P [AB ] = P [A ] + P [B ]
Axioma 3.
La probabilidad total es 1: P [E ] = 1
86
6.2.3. Teorema de la probabilidad condicional
Sean A y B dos sucesos, tales que P(A)>0. Denotamos la probabilidad de B dado
que A ha ocurrido.
dónde:
P(Ai) son las probabilidades a priori.
P(B | Ai) es la probabilidad de B en la hipótesis Ai.
P(Ai | B) son las probabilidades a posteriori.
Esto se cumple
El Teorema de BAYES se apoya en el proceso inverso al del Teorema de la Probabilidad
Total:
87
Tratar de explicar estar fórmula con palabras es un galimatías, así que vamos a intentar
explicarla con un ejemplo. De todos modos, antes de entrar en el ejercicio, recordar que
este teorema también exige que el suceso A forme un sistema completo.
Ejemplo.
Aplicación de la fórmula:
88
La probabilidad expresada en porcentaje, de que efectivamente estuviera lloviendo el día
del accidente (probabilidad a posteriori) es del 71,4%.
PROBLEMAS PROPUESTOS
Hábito de Bronquitis
Total
Fumar SI NO
Fuma 140 110 250
No fuma 50 100 150
Total 190 210 400
2. Una compañía dedicada al transporte público explota tres líneas de una ciudad, de
forma que el 60% de los autobuses cubre el servicio de la primera línea, el 30% cubre la
segunda y el 10% cubre el servicio de la tercera línea. Se sabe que la probabilidad de que,
diariamente, un autobús se averíe es del 2%, 4% y 1%, respectivamente, para cada línea.
Determina la probabilidad de que, en un día, un autobús sufra una avería.
89
4. Se lanzan dos dados equilibrados con seis caras marcadas con los números del 1 al
6. Se pide:
Halla la probabilidad de que la suma de los valores que aparecen en la cara superior sea
múltiplo de tres.
¿Cuál es la probabilidad de que los valores obtenidos difieran en una cantidad mayor de
dos?
8. Se extrae una bola de una urna que contiene 4 bolas rojas, 5 blancas y 6 negras,
¿cuál es la probabilidad de que la bola sea roja o blanca? ¿Cuál es la probabilidad de que no
sea blanca?
9. .En un centro escolar los alumnos pueden optar por cursar como lengua extranjera
inglés o francés. En un determinado curso, el 90% de los alumnos estudia inglés y el resto
francés. El 30% de los que estudian inglés son chicos y de los que estudian francés son
chicos el 40%. El elegido un alumno al azar, ¿cuál es la probabilidad de que sea chica?
10. En cierta encuesta se listaron como sigue los resultados sobre el uso de ropa para
dormir mientras se viaja:
90
Género
Uso de ropa Hombre Mujer
Ropa interior 0,22 0,024
Camisón 0,002 0,18
Nada 0,16 0,018
Pijamas 0,102 0,073
Camiseta 0,046 0,088
Otros 0,084 0,003
a) Cuál es la probabilidad de que un viajero sea hombre?
b) Cuál es la probabilidad de que un viajero sea hombre si duerme en pijama o en
camiseta?
CAPÍTULO VII
91
Distribuciones Probabilísticas
X f(x) =
probabilidad
1 0.35
2 0.30
3 0.20
4 0.10
5 0.05
92
Ejemplo el tiempo. La variable aleatoria X, peso neto en libras de un herbicida químico
empacado es
μ EX xf(x)
x
μ EX xf(x)dx
93
5
σ 2 Var X EX μ x - μ f(x) x 2.2 (2)
2 2 2
x i 1
(1 2.2) (0.35) (2 2.2) 2 (0.30) (3 2.2) 2 (0.20) (4 2.2) 2 (0.10) (5 2.2) 2 (0.05)
2
1.6
2
3
(50.25) 3 (49.75) 3 0.0208
Distribuciones probabilísticas
Utilidad:
La distribución binomial se utiliza en situaciones cuya solución tiene dos posibles
resultados.
Por ejemplo:
-Al nacer un bebé puede ser hombre o mujer
-En el deporte un equipo puede ganar o perder.
-En pruebas de cierto o falso sólo hay dos alternativas.
94
-Un tratamiento médico puede ser efectivo o inefectivo.
-La meta de producción o ventas del mes se pueden o no lograr.
-En pruebas de selección múltiple, aunque hay cuatro o cinco alternativas, se puede
clasificar como correcta o incorrecta.
P X x Cxn p x q n x
n!
P X x . p x .(1 p)n x
n x ! x !
b) Varianza
𝑉(𝑋) = 𝜎 2 = 𝑛𝑝𝑞
c) Desviación estándar
npq
Ejemplo 1
Un comerciante tiene conocimiento de que el 12% de los artículos del lote recibido están
defectuosos. Si un comprador elige 4 artículos, encuentre la probabilidad de que.
a) los 4 estén defectuosos.
𝑃(𝑥 = 4) = 𝐶44 (0.12)4 (0.88)0 = 0.0002074
b) de 1 a 3 estén defectuosos.
95
P(1 ≤ 𝑥 ≤ 3) = 𝐶14 (0.12)1 (0.88)3 + 𝐶24 (0.12)2 (0.88)2 + 𝐶34 (0.12)3 (0.88)1 =
0.4009728
Ejemplo 2
En pruebas realizadas a un amortiguador para automóvil se encontró que el 20%
presentaban fuga de aceite. Si se instalan 8 de estos amortiguadores, hallar la probabilidad
de que,
a) 4 salgan defectuosos
𝑃(𝑥 = 4) = 𝐶48 (0.2)4 (0.8)4 = 0.05
b) más de 5 tengan fuga de aceite.
𝑃(𝑥 > 5) = 𝐶68 (0.2)6 (0.8)2 + 𝐶78 (0.2)7 (0.8)4 + 𝐶88 (0.2)8 (0.8)0
= 0.00123136
c) de 3 a 5 amortiguadores salgan defectuosos.
P(3 ≤ 𝑥 ≤ 5) = 𝐶38 (0.2)3 (0.8)5 + 𝐶48 (0.2)4 (0.8)4 + 𝐶58 (0.2)5 (0.8)3 =
0,20185088
d) Determine el promedio y la desviación estándar de amortiguadores con defectos.
𝐸(𝑥) = 𝑛𝑝 = 8 ∗ (0.20) = 1,6 ≈ 2
Ejemplo 3
Un ingeniero que labora en el departamento de control de calidad de una empresa eléctrica,
inspecciona una muestra al azar de 20 alternadores de un lote. Si el 10% de los
alternadores del lote están defectuosos. Cuál es la probabilidad de que en la muestra,
a) Ninguno esteé defectuoso
𝑃(𝑥 = 0) = 𝐶020 (0.1)0 (0.9)20 = 0,12157665
b) uno salga defectuoso,
𝑃(𝑥 = 1) = 𝐶120 (0.1)1 (0.9)19 = 0,27017034
c) A lo más dos salgan defectuosos
𝑃(𝑥 ≤ 2) = 𝐶020 (0.1)0 (0.9)20 + 𝐶120 (0.1)1 (0.9)19 + 𝐶220 (0.1)2 (0.9)18 = 0,67692681
96
7.2. Distribución Hipergeométrica
Introduccion
La distribución hipergeométrica al igual que la distribución binomial se aplica en
situaciones donde se espera que ocurra o no un evento específico, la diferencia es que en la
distribución binomial, cada producto es extraído con reemplazo y todos los intentos son
independientes, en cambio en la distribución hipergeométrica cada muestra es extraída sin
reemplazo y los intentos son dependientes.
Utilidad:
La distribución hipergeométrica es especialmente útil en todos aquellos casos en los que se
extraigan muestras o se realizan experiencias repetidas sin devolución del elemento
extraído o sin retornar a la situación experimental inicial.
Por ejemplo:
-Se quiere seleccionar 2 hombres de 17 personas de las cuales hay sólo 7 hombres
-En la agro industria se tiene 8 terneros de los cuales hay 3 enfermos, se quiere
seleccionar 2 para la venta.
- Se tiene 22 empleados de los cuales 12 tienen estudios técnicos, se requiere 5 de ellos.
Este modelo presenta similitudes con el Binomial, pero sin la suposición de independencia
de éste último, la dependencia se debe al hecho de que N es finito y las extracciones se
efectúan sin reemplazamiento
1) la cantidad de pruebas N
2) nº de elementos en la población original que pertenecen a la categoría deseada d
3) tamaño de muestra extraída n
4) nº de elementos en la muestra que pertenecen a la categoría deseada x
5) utilizar la función matemática.
97
b) Varianza
V(X) = n*p*q (N-n)/(N-1)
c) Desviación estándar
σ = √𝑛 ∗ 𝑝 ∗ 𝑞 ∗ (𝑁 − 𝑛)/(𝑁 − 1)
Ejemplo 1
En una empresa industrial diariamente se producen 14 unidades de metalmecánica, de las
cuales generalmente 5 salen defectuosas. Se examina en un día cualquiera una muestra de 4
unidades. Hallar la probabilidad de:
(54)(14−5
5−4 )
P(𝑥 = 4) = (14
= 0.0449
4)
Ejemplo 2
Entre los 12 colectores solares en exhibición en una feria comercial 9 son planos y los otros
3 son curvos. Si una persona que visita la feria selecciona aleatoriamente 3 colectores para
probarlos y luego comprarlos, ¿cuál es la probabilidad de que:
a) los 3 sean colectores planos?
b) los 3 sean colectores curvos?
Solución:
9 3
a) P(x=3) = = 0,3818
3 0
12
3
b) P(x=0) = 9 3 = 0,004545
0
3
12
3
98
Ejemplo Nº 3:
Un fabricante de tractores compra motores de una compañía, bajo una condición, acepta un
lote de 40 motores si de una muestra de 8 motores ninguno presenta defectos. ¿Cuál es la
probabilidad de aceptar un lote que en realidad tiene 2 motores con defectos?
2 38
P(x=0) = = 0,6359
0 8
40
8
Utilidad
Su utilidad se da en general en los problemas llamados líneas de espera, teoría de colas o
similares.
Ejemplo
- Nº de leucocitos en una gota de sangre
- Nº de veces que una planta de energía nuclear emite gases radiactivos en un periodo
de tres meses
- Número de bacterias nocivas por cada cm3 de agua.
- Número de personas que llegan a una posta médica para ser atendidos
- Número de aviones que llegan a un aeropuerto durante el día.
La aproximación de una v.a del tipo binomial a una del tipo Poisson, es muy buena si n
100 y p 0,05
Ejemplo 1:
Se sabe que el número promedio de camiones que llegan a un terminal terrestre durante el
día es de 10, las instalaciones del terminal pueden atender como máximo 15 camiones al
día. ¿Cuál es la probabilidad de que la capacidad de atención del terminal sea superado en
un día cualquiera?
Solución:
X = número de camiones que llegan al terminal terrestre durante el día para ser atendidos.
X= 0, 1, 2, 3,…..
P(x > 15) = 1 – P(x 15)
15
e 10 10 x
x!
=1- x 0 = 1 - 0,9513 = 0,0487
Ejemplo 2:
En cierto proceso de fabricación en el que se producen artículos de porcelana ocurren
defectos que ocasionan problemas en las ventas, el fabricante asegura que en promedio uno
de cada 1000 artículos producidos es defectuoso. ¿Cuál es la probabilidad de que en una
caja de 3000 artículos haya:
a) exactamente 3 artículos con defectos?
b) al menos un artículo con defectos?
Solución:
a) X: número de artículos defectuosos en la muestra.
= np = 3000(1/1000) = 3
e 3 3 3
P(x=3) = = 0,224042
3!
100
b) P(x 1) = 1 - P(x=0) = 1 – 1/e3 = 1 – 0,049787 = 0,950213
Ejemplo 3:
El número de clientes que llegan a un banco es en promedio 60 por hora, ¿cuál es la
probabilidad de que lleguen 2 clientes en:
a) un minuto?
b) dos minutos?
Solución:
a) = 60(1/60) = 1
1 2
P(x=2) = e 1 1 / 2e 0,1839
2!
b) = 120(1/60) = 2
P(x=2) = e-222/2! = 2/e2 = 0,27067
Utilidad
Se utiliza en muchos fenómenos que ocurren en la naturaleza, en la industria y en cualquier
campo, tales como: la temperatura del medio ambiente, la precipitación pluvial, las
mediciones de magnitudes físicas, el peso y la talla de las personas, etc.
Ejemplos
Consumo de cierto producto por un mismo grupo de individuos,
Cociente intelectual, grado de adaptación a un medio
Efecto de una misma dosis de un fármaco, o de una misma cantidad de abono
Propiedades
101
1.- Sus puntos de inflexión son: - y + , por lo tanto es cóncava hacia abajo en el
intervalo - < x < + ,
2.- La media y la Varianza de la distribución son: y 2 respectivamente, y que son los
parámetros de la distribución.
3.- Las áreas comprendidas bajo la curva normal son:
, corresponde al 68,26% del área total.
2, corresponde al 95,44% del área total.
3, corresponde al 99,74% del área total.
4.- A cualquier v.a que tiene distribución normal con media y varianza 2, se le
representa por: N(, 2)
Definición:
Se dice que una variable aleatoria continua X, tiene una distribución normal, si su función
de densidad está dada por:
F (x) = 1 1 x 2 -<x< Donde: - < < y > 0
exp ( )
2 2
a) P(Z≤1.60)
0.9452
Según la Tabla de la Distribución Normal
Para Z1.60 P=0.9452
1.60
b) P(Z≤1.30)
Según la Tabla de la Distribución Normal
0.9032
Para Z1.30 P=0.9032
1.30
c) P(Z≤-2.36)
Según la Tabla de la Distribución Normal
0.0039
Para Z-2.36 = 1- Z2.36 P=1-0.9961=0.0039
Z-2.36 = 0.0039
102
-2.36
d) P(-2.00≤Z≤2.00)
Según la Tabla de la Distribución Normal
Para -2.00≤Z≤2.00 = Z2.00- Z-2.00 P=0.9772-(1-0.9772)=0.9772-0.0228=0.9544
-2.00≤Z≤2.00 = 0.9544
0.9544
-2.00 2.00
e) P(-2.50≤Z≤2.50)
Según la Tabla de la Distribución Normal
Para -2.50≤Z≤2.50 = Z2.50- Z-2.50 P=0.9938-(1-0.9938)=0.9938-0.0062=0.9876
-2.50≤Z≤2.50 = 0.9876
0.9876
-2.50 2.50
Aplicaciones
1. Los tiempos de atención al cliente en minutos en una entidad financiera BCP tienen
distribución normal con medios 10 minutos y desviación estándar de 0.6 minutos, hallar:
103
Como se tiene 10 clientes entonces el número de tiempo de atención de 11 minutos está
dada por:
n1 = n X P [X ˂ 11]
n1 = n X P [Z ˂ 1.67]
n1 = 10 X 0.95254
n1 = 9.53 minutos
0.9522
10 11
X
0.9
0 1.282
X
Como se tiene 10 clientes entonces el número de clientes porcentaje de 8 minutos está dada
por:
n1 = n XP [x> 8]
n1 = n X P [Z > - 3.33]
n1 = 10 X 0.00343
n1 = 3.43 de clientes
104
0.9996
8 10
X
10 − 10
P(X < 10) = 𝑃(𝑍 < )
0.6
P( X < 10) = P( Z< 0 )
P( X < 10) = 0.500000
P( X < 10) = 0.500000
c.2. ¿Cuántos clientes son atendidos en más de 11 minutos. P[X > 11]
11 − 10
P(X >11) = 𝑃(𝑍 > )
0.6
P( X > 11) = 1 - P( Z> 1.67 )
P( X > 11) = 1-0.952540
P( X > 11) = 0.04746
105
0.04779
10 11
X
2. Los salarios de los trabajadores en cierta industria son en promedio $ 11.9 por hora y la
desviación estándar es de $ 0.4. Si los salarios tienen una distribución normal. ¿Cuál es
la probabilidad de que un trabajador seleccionado al azar:
a) Reciba salarios inferiores a $ 11?
P [X ≤ 11]
P (X≤11) = 11 – 11.9/0.4
P (Z≤ -2.25) = P (Z< -2.25)
P (Z≤ -2.25) = 0.0122
n₁ = n x P (x≤11)
n₁ = n x P (Z≤ -2.25)
n₁ =11 x 0.0122
n₁ = 0.1342
n₁ =13.42 Dólares
0.01222
11 11.9
X
b) ¿Cuál debe ser el salario menor que gana un trabajador que se encuentra entre
el 10% de los trabajadores que más ganan?
P [X≤ X1] = 0.10
Estandarizando obtenemos:
P (-Z≤X₁) = 0.01
Interpolando obtenemos:
Z AREA
-1.29 0.985
106
-Z 0.10
-1.28 0.1003
0.8997
11.9 12.412
X
3. La renta media de los habitantes de un país es de 4 de ptas/año, con una varianza de 1,5.
Se supone que se distribuye según una distribución normal. Calcular:
Estandarizando obtenemos:
P[Z≥Z1]=0.80
107
Z1 Se encuentra en el área de los positivos de la distribución normal estándar, entonces
aplicamos la propiedad:
P [Z≥Z1]=1-P[Z≤Z1]=0.80
1-P [Z≤Z1]=0.80
P [Z<Z1]=0.20
Interpolando:
Z ÁREA
-0.85 0.1977
Z 0.20
-0.84 0. 2005
0.0028 0.01
=
0.0023 Z-0.85
X1 = 4 + (-0.84 x 1.5)
X1 = 4 + 1.26
X1 = -2.74 renta mínima.
0.8
2.738 4
X
108
Utilidad
1) Para determinar el intervalo de confianza dentro del cual se puede estimar la media de
una población a partir de una muestra pequeña(n<30)
2) Para probar hipótesis cuando una investigación se basa en muestreo pequeño.
3) Para probar si dos muestras proviene de la misma población.
Ejemplos
-Para probar que el promedio de calificaciones de un grupo de 12 estudiantes, es el mismo
del año anterior.
- El efecto del consumo de nicotina de mujeres embarazada con el contenido mineral óseo
de su hijo.
Elementos
Significancia, α= Alfa
Ejemplos:
109
b) P [ -1.325 ≤ T ≤ 2.845]
P [T ≤ 2.845] – P [T≤ -1 .325]
0.995 – 0.1
P (T) = 0.895
110
Elementos
Grados de libertad (n-1)
Nivel de significancia α = alfa
Varianza muestral S2
Varianza poblacional σ2
Ejemplos:
Suponga que los tiempos requeridos por un cierto autobús para alcanzar un de sus destinos
en una ciudad grande forman una distribución normal con una desviación estándar =1
minuto. Si se elige al azar una muestra de 17 tiempos, encuentre la probabilidad de que la
varianza muestral sea mayor que 2.
Solución:
Se denomina también la distribución Chi- cuadrado con k grados de libertad. que puede ser
cualquier entero positivo incluyendo al 1 y está representado por “df”.
a) P [ X ≥ 40.00]
= 1- P [ X ≤ 40.00]
=1 - 0.995
111
0.005
b) P [ 15.45 ≤ X ≤ 40.00]
P [ X ≤ 40.00] - P [ X ≤ 15.45]
0.995 - 0.25
0.745
z= x
~ N (0,1)
Por lo tanto:
E(z) = E( x ) = E(x/) – E(/) = E(x)/ - / = / - / = 0
V(z) = V( x ) = V(x/) – V(/) = V(x)/2 – 0 = 2/2 = 1
En consecuencia:
f(z)= 1 1 -<z<
exp z 2
2 2
112
Solución:
a) P(z 1) = F(1) = 0,8413
b) P(z > 2) = 1 – P(z 2) = 1 – F(2) = 1 – 0,9772 = 0,0228
c) P(z > 1,5) = F(1,5) = 0,9332
d) P( -2 < z < 1.75) = F(1,75) – F(-2) = 0,9599 – 0,0228 = 0,9371
e) P(0,05 < z > 1,96) = F(1,96) – F(0,05) = 0,975 – 0,5199 = 0,4551
Nota.- la tabla usa valores de z con dos decimales como máximo, por lo que se debe
redondear los valores de z originales a dos decimales.
Ejemplos Prácticos:
Ejemplo 1:
El tiempo requerido para ensamblar una pieza mecánica es una v.a. cuya distribución es
normal con media igual a 12,9 mn. y = 2 minutos, ¿cuál es la probabilidad de que una
pieza sea ensamblada en:
a) en menos de 11,5 mn.?
b) entre 11 y 14,8 mn.?
c) en más de 11,8 mn.?
d) exactamente 11 mn.?
Solución:
a) P(x < 11,5) = P ( z < z1) = P(z < - 0,7) = 0,2420
Donde z1 = 11,5 12,9 = -0.7
2
b) P (11 < x < 14, 8) = P (z2 < z < z3)= P(-0,95 < z < 0,95)
Dónde: z2 = 11 12,9 z3 = 14,8 12,9
0,95 0,95
2 2
c) P(x > 11,8) = P(z > z4) = P(z > -0,55) = 1 – F(-0,55) = 1- 0,7088
113
d) P(x=11) = 0, sin embargo es factible estimar la probabilidad entre 110,5, es decir
P(10,5 x 11,5) = P(z1 z z2)
Dónde: z1 = 10,5 12,9 1,2 z2 = 11,5 12,9 0,7
2 2
P(-1,2 z - 0,7) = P(0,7 z 1,2) = 0,88493 – 0,75804 = 0, 12689
Como puede apreciar esta probabilidad es alta, por lo que la recomendación es cuando los
valores sean bastante altos y no pequeños como lo que se tiene. O cuando se usa variables
discretas.
Ejemplo 2:
Un embarque de 2500 aros son enviados a una ensambladora con las especificaciones que
los diámetros de los aros deben estar en el intervalo 0,3 0,005 pulgadas. Si los diámetros
internos de los aros tienen una distribución normal con media 0,302 pulg. Y una = 0,003
pulg.¿Qué porcentaje de aros cumplirán las especificaciones?
Solución:
P(0,295 < x < 0,305) = P(z1 < z < z2) = P(-2,33 < z < 1,00)
Donde. z1 = 0,295 0,302 = - 2,33 z2 = 0,305 0302 1,00
0,003 0,003
Ejemplo 3:
Los hornos eléctricos fabricados por una compañía tienen una duración promedio de 15000
hrs. Y una = 2500 hrs.
a) si el fabricante promete reponer todo horno que falle antes de las 7500 hrs., ¿qué
proporción de sus hornos tendrá que reponer?
b) si da como tiempo de garantía de 8500 hrs., ¿qué proporción de los hornos tendrá
reponer?
c) si sólo quiere reponer máximo el 1% de sus hornos, ¿qué tiempo de garantía tendrá que
dar?
Solución:
a) P(x 7500) = P(z z1)
Donde z1 = 7500 1500 3
2500
P(z -3) = F(-3) = 0,0013 0,13% de sus hornos
114
b) P(x 8500) = P(z z2)
Donde z1 = 8500 1500 2,6
2500
P(z -2,6) = F(-2,6) = 0,0047 0,4,7% de sus hornos
PROBLEMAS PROPUESTOS
1.- En una fábrica hay 12 máquinas. Cada una de ellas está averiada un día de cada 10,
¿cuál es la probabilidad de que en un determinado día haya más de tres máquinas
averiadas?
2.- De una población de conservas se sabe que el 60% son buenos. Si se extrae un
conjunto de 10 de ellos, ¿cuál es la probabilidad de que en ese conjunto haya 7
defectuosos?
3..- Un médico ha obsevado que el 13% de sus pacientes sufre de efectos negativos cuando
le administran cierto fármaco, a un grupo de 5 pacientes le recetó éste medicamento y
desea saber la siguiente probabilidad.
115
a) Que ninguno de ellos tenga efectos negativos
b) Uno o más tengan los efectos nosivos.
c) Un paciente tenga efectos nosivos
4.- De cada 2000 tornillos fabricados por una determinada máquina hay 2 defectuosos. Para
realizar el control de calidad se observan 150 tornillos y se rechaza el lote si el número de
defectuosos es mayor que 1. ¿Calcular la probabilidad de que el lote sea rechazado?
6.- El número medio de llamadas telefónicas que se reciben en una central en cada minuto
es de 2, determínese la probabilidad que se reciban más de 5 llamadas.
8.- La concertista de piano Donna Prima está muy molesta por el número de tosidos que se
presentan en la audiencia justo antes de que empiece a tocar. Durante su última gira Donna
estimó un promedio de 8 tosidos justo antes de empezar su concierto. La señora Prima le ha
advertido a su diretor que si escucha mas de cinco tosidos en el concierto de esa noche, se
rehusará a tocar. ¿cuál será la probabilidad de la artista toque esa noche?
117
CAPÍTULO VIII
Muestreo
Tamaño de Muestra
8.1. Tamaño de Muestras
Para determinar un tamaño de muestra es necesario identificar los siguientes componentes o
elementos:
1) La varianza (σ2): corresponde al grado de variabilidad que presentan las unidades de
la población. Mientras más grande sea σ2 mayor será el tamaño de la muestra. El valor de
σ2x supuestamente conocido, de lo contrario se debe estimar a través de una investigación
118
preliminar. En el caso de σ2p = PQ, sucede algo similar, pero se tiene la costumbre de tomar
P= 0,50 con lo cual se obtiene el máximo valor posible de n.
2) Nivel de confianza: Tiene relación directa con el tamaño de la muestra, por lo tanto
se dirá que a mayor nivel de confianza más grande debe ser el tamaño de la muestra. Los
valores de Z se obtienen mediante el uso de tablas como se ha venido haciendo. El nivel de
significación es fijado por el investigador, de acuerdo a su experiencia.
3) Precisión de la estimación: Corresponde al margen de error que el investigador fija
de acuerdo con el conocimiento que tenga acerca del parámetro que piensa estimar. Se le
conoce como error de muestreo (E).
Las fórmulas para el cálculo del tamaño de muestra son los siguientes:
TAMAÑO DE Cuando se conoce “N” Cuando NO se conoce
MUESTRA “N”
𝑁 ∗ 𝑍2 ∗ 𝜎 2 𝑍2 ∗ 𝜎 2
𝑛= 𝑛=
Para la media (𝑁 − 1) ∗ 𝐸 2 + 𝑍 2 ∗ 𝜎 2 𝐸2
𝑁 ∗ 𝑍2 ∗ 𝑃 ∗ 𝑄 𝑍2 ∗ 𝑃 ∗ 𝑄
𝑛= 𝑛=
Para la proporción (𝑁 − 1) ∗ 𝐸 2 + 𝑍 2 ∗ 𝑃 ∗ 𝑄 𝐸2
Donde:
n: Tamaño de muestra
Nivel de Valor de
Z: Nivel de confianza
confianza “Z”
E: Margen de error
90% 1,65
𝜎 2 : Varianza poblacional
𝜎: Desviación estándar de la población 95% 1,96
P: Proporción de la población que tiene la 99% 2,58
característica de interés
Q: 1- P
N: Tamaño de la población
Ejemplo. 1:
El auditor de un banco desea estimar la proporción de estados, de cuenta bancarias
mensuales para los depositantes del banco que tendrán errores de varias clases, y especifica
un coeficiente de confianza del 99% y un error máximo de 4%.
(a)Determinar el tamaño de la muestra si no se dispone de información sobre la proporción
verdadera de los estados de cuenta mensuales que tienen errores.
(b)Determinar el tamaño de la muestra, si el auditor, por su experiencia, cree que la
verdadera proporción de estados de cuenta con errores es 0.15.
119
Solución A:
𝑍2 ∗ 𝑃 ∗ 𝑄
𝑛=
Z99% = 2,58 𝐸2
E = 4% = 0,04
P = 0,5 2,582 ∗ 0,5 ∗ 0,5
𝑛=
Q = 1-0,5 = 0,5 0,042
𝑛 = 1040
Solución B:
𝑍2 ∗ 𝑃 ∗ 𝑄
Z99% = 2,58 𝑛=
𝐸2
E = 4% = 0,04
P = 0,15 2,582 ∗ 0,15 ∗ 0,85
Q = 1-0,15 = 0,85 𝑛=
0,042
𝑛 = 530
Ejemplo. 2:
Se pretende realizar una investigación para conocer el tiempo de estudio semanal dado
en horas, de los estudiantes de la Universidad Señor de Sipán. Si un estudio previo
determinó que la varianza fue de 0,32 horas. ¿Qué tamaño de muestra sería
conveniente para la investigación? Considerando un nivel de confianza del 95% y un
error tolerable de 0,05 horas.
Solución :
𝑍2 ∗ 𝜎 2
𝑛=
𝐸2
Z95% = 1,96
1,962 ∗ 0,32
E = 0,05 𝑛=
0,052
σ2 = 0,32
𝑛 = 492
8.2. Muestreo
El muestreo son las técnicas o herramientas utilizadas para la realización de una
muestra. En la aplicación de estas técnicas es necesario conocer y manejar algunos términos
indispensables en el desarrollo de una investigación, tal como se detallan a continuación:
120
contrario, tan sólo se hace recuento se le denomina atributo o puede ser una variable
discreta.
Considerar la población como conjunto de unidades o elementos, debe entenderse como un
grupo de personas, familias, establecimientos, manzanas, barrios, etc., pero en realidad es
un conjunto de medidas obtenidas de las características estudiadas.
121
- Afijación óptima: cuando el tamaño, tanto de la muestra general como para cada uno
de los estratos muestrales, depende del grado de variabilidad de la característica en
cada estrato y del costo mínimo para una precisión dada.
Es importante hacer notar que en este caso los criterios de selección pueden variar de
experto a experto, al determinar cuáles son las unidades de muestreo representativas de la
población.
122
recaptura, esto es, aquéllos que han sido capturados previamente y marcados. Este tipo de
técnicas se utiliza mucho en el muestreo de insectos, peces, venados, ballenas y, en general,
poblaciones de animales en extinción.
PROBLEMAS PROPUESTOS
1. De una población N=10000 personas nos proponemos obtener una muestra, para
estimar el ingreso promedio por persona. Se quiere que la estimación muestra, no se aparte
123
en más de $5000 del promedio verdadero y que esto se cumpla en 95 de cada 100 casos. La
desviación típica es de $30000 ¿Cuál es el tamaño de muestra óptimo?
2. Supongamos que en un área dada, la proporción de explotaciones agropecuarias que
poseen energía es de 0,36 ¿Cuál es el error de muestreo de la estimación, utilizando una
muestra al azar de 300 explotaciones, con una confianza del 95% un total de 8000
explotaciones?
3. ¿Qué tamaña deberá tener una muestra para estimar dentro del 3% la proporción de
mujeres casadas que van periódicamente a consulta ginecológica, en una población de 5000
mujeres y una seguridad del 95%?
4. Se desea estimar el costo promedio de matrículas de los estudiantes universitarios
de la ciudad. Por estudios anteriores y a precios actuales se sabe que la desviación típica es
de $18000. a) Calcular el tamaño de muestra fijando para ello un error de $3000 y una
confianza del 99% b) Si se considera que la población estudiantil que se desea investigar es
de 12000 ¿Cuál sería el valor de n?
5. En cierta residencial se espera que el 60% de las familias tengan vehículo propio. Se
desea hacer una investigación para estimar la proporción de familias propietarias de
vehículos, con un error del 3% y un coeficiente de confianza del 90%. a) Determine el
tamaño de muestra b) ¿Qué sucedería si P=0,5?
6. Una oficina de investigaciones sobre salud considera que el 20% de las personas
adultas de una región, padecen cierta enfermedad parasitaria. ¿Cuántas personas tendrán
que seleccionar en la muestra al azar, para que el error del estimado de la proporción sea
del 7% y tenga una confianza del 99%?
7. Interesa estimar el número promedio de accidentes de tránsito en una ciudad.
Durante un año (365 días) se determina una desviación típica de 12 accidentes diarios.
¿Cuántos días (tamaño de muestra) se requieren para no errar en más de dos accidentes, con
un 90% de confianza?
8. Entre los estudiantes de cierta universidad privada, se desea tomar una muestra para
estimar la proporción de alumnos que utilizan la biblioteca. El error debe conservarse en un
4% con una confianza del 96%. ¿Cuál es el tamaño de la muestra, si la universidad tiene
3200 alumnos matriculados?
9. ¿Qué tamaño de muestra se requiere para una población de 5000 unidades, si se
desea un error del 8% y un intervalo de confianza del 95%?
10. A partir de una muestra de 200 observaciones se encontró que, en una remesa había
20 acumuladores defectuosos. Utilizando un nivel de confianza del 99%. Calcule el error de
muestreo.
124
CAPÍTULO IX
Introducción a la Inferencia
Estadística: Estimación
125
La estadística tiene como finalidad inferir algo sobre una población con base en una
muestra aleatoria tomada de la población sobre la cual deseamos hacer la inferencia. La
Población tiene constantes desconocidas que la caracterizan, sobre estas constantes se hace
la inferencia. La inferencia consiste en estimar y probar hipótesis sobre estas constantes
desconocidas.
b) Estimador. Es aquel que se calcula con los datos de la muestra (es una función de
la muestra). Como ejemplo señalaremos a la media de la muestra ( X ) la cual se calcula con
los datos de la muestra cómo sigue
x 1 x 2 ... x n
X
n
POBLACION
Media de la población
2 Varianza de la población
Desviación estándar de la población Parámetros
p
Proporción de la población
MUESTRA
X Media de la muestra
S2 Varianza de la muestra
p̂ Proporción de la muestra
126
c) Estimador puntual. Es aquel que estima al parámetro mediante un solo valor o punto.
Ejemplo la media de la muestra.
d) Estimador por intervalo. Llamado también intervalo de confianza es aquel que estima
al parámetro mediante un intervalo con un coeficiente de confianza (1- ).
e) Hipótesis. Es una afirmación sobre algo la cual puede ser falsa o verdadera.
Ejemplo. Mañana lloverá.
f) Hipótesis estadística. Es una afirmación sobre uno o varios parámetros de una o varias
poblaciones.
Ejemplo. =20, la edad media de todos los alumnos de la USS es 20 años.
g) Hipótesis nula. Es una afirmación sobre uno o varios parámetros que incluye la
igualdad. se designa con Ho.
Ejemplo. Ho = Los datos de la muestra provienen de una distribución normal.
k) Puntos críticos. Son valores tabulares que delimitan la región de rechazo (RR) y la de
no rechazo (RA).
127
distribución aproximadamente normal. La muestra aleatoria se puede haber tomado de
cualquier distribución no necesariamente de la distribución normal.
Primero presentaremos el resultado para estimar la proporción de una población y en
seguida un ejemplo.
Teorema 1
Si n 30, entonces:
p̂q̂ p̂q̂
p̂ - Z , p̂ Z .
2
n 2
n
Donde:
x
p̂ , q̂ =1- p̂ , n es el tamaño de la muestra y Z α es un valor en la tabla de Z o
n 2
distribución normal estándar de tal manera que a su derecha esta una probabilidad
.
2
Ejemplo 1.
En un estudio sobre desocupación en el Municipio de T se tomó una muestra aleatoria de
200 personas en edad laboral del Municipio de T de las cuales 26 contestaron que no tienen
trabajo.
a) Estimar puntualmente a p, la proporción de desocupados en el Municipio de T.
b) Encontrar un 95% intervalo de confianza para p, Es decir estimar p con un
coeficiente de confianza del 95%.
c) Interpretar el estimador puntual y el estimador por intervalo.
Solución
Puesto que n=200 es mayor que 30 y el número de éxitos es x=26
128
b) Un 95% de confianza para p se encuentra usando el inciso b) del teorema 1
Un 100(1- )% intervalo de confianza para p es
p̂q̂ p̂q̂
p̂ - Z , p̂ Z .
2
n 2
n
Donde:
normal estándar de tal manera que a su derecha esta una probabilidad .
2
Para encontrar Z α , primero debemos calcular usando la siguiente formula.
2
0.05
Entonces 0.025 y Z α se encuentra en la tabla de la normal estándar ubicando
2 2 2
1.9 0.025
En seguida determinamos los valores del límite inferior y del límite superior de 95% del
intervalo de confianza para p
p̂q̂ (0.13)(0.87)
LI p̂ - Z 0.13 1.96 0.13 0.05 0.08
2
n 200
p̂q̂ (0.13)(0.87)
LS p̂ Z 0.13 1.96 0.13 0.05 0.18
2
n 200
Entonces un 95% intervalo de confianza para p es [0.08, 0.18]. Es decir se estima que la
proporción poblacional esta entre 0.08 y 0.18.
129
c) Interpretación.
Si usamos un estimador puntual para estimar p, se concluye que el porcentaje de
desocupación en el Municipio de T es alrededor del 13% y si usamos un estimador por
intervalo para estimar p se concluye que el porcentaje de desocupación en el Municipio de
T esta entre el 8% y el 18% dicha conclusión se hace con un confianza de confianza
del95%.o con un error del 5%.
Teorema 2
Si se cumplen los dos requerimientos mencionados anteriormente; es decir, si la
variable en estudio tiene distribución normal y la varianza de esta distribución es
desconocida (si la varianza es desconocida, entonces la desviación estándar de la
población también es desconocida), entonces
a) El mejor estimador puntual para es la media muestral X .
b) Un 100(1- )% intervalo de confianza para es
S S
X - t n -1, , Xt .
2 n n -1,
2 n
Donde:
X es la media de la muestra, S es la desviación estándar de la muestra, n es el tamaño
de la muestra y t α es un valor en la tabla de t de Student con n-1 grados de
n 1,
2
libertad (GL) de tal manera que a su derecha esta una probabilidad de
2
130
Ejemplo 2
En un estudio para estimar el salario promedio mensual de los profesores del departamento
de Lambayeque se tomó una muestra aleatoria de tres profesores a los cuales se les registro
su salario mensual en soles. Se conoce que variable salario tiene distribución normal. Los
datos de la muestra se dan a continuación
1200 800 1000
Como los dos requerimientos se cumplen: la variable en estudio tiene distribución normal y
la varianza 2 es desconocida, usaremos el teorema 2 para encontrar los estimadores de .
a) El mejor estimador puntual para es X
n
S S
X - t n -1, , Xt . Donde:
2 n n -1,
2 n
X =1000,
n=3,
( x i ) 2 (1200 800 1000) 2
x i2 n
1200 2 800 2 1000 2
3
S 40000 ,
n 1 3 1
0.05
0.025 y
2 2
columna los n-1=2 grados de libertad, en la primera hilera la probabilidad 0.025 y
2
finalmente se detecta el valor t α en la intersección de estos dos valores como se indica
n 1,
2
en la tabla siguiente:
131
0.025
2
n-1=2 4.303
Con estos datos podemos calcular el límite inferior (LI) y el límite superior (LS) del
intervalo de confianza pedido.
S 200
LI X t ε 1000 4.303 * 1000 496.88 503.12.
n 1, n 3
2
S 200
LS X t 1000 4.303 *
ε 1000 496.88 1496.88.
n 1,
n 3
2
A si un 95% intervalo de confianza para .12 es [503.12, 1496.88].
c) Interpretación
Si se usa un estimador puntual, se concluye que el salario promedio mensual de todos los
profesores del departamento de Lambayeque es de 1000 soles, sin embargo si se usa un
estimador por intervalo para el salario promedio, se estima que el salario promedio mensual
de todos los profesores del departamento de Lambayeque esta entre 503 soles y 1496.88
soles.
132
PROBLEMAS PROPUESTOS
2. En un estudio realizado por Waall Street Journal, se tomó una muestra aleatoria de
900 personas que están suscritas en Wall Street Journal, de estas 900 personas el 40%
indicaron que terminaron al menos dos años en una Universidad.
a) Encuentre un 95% intervalo de confianza para la proporción de suscritores de Wall
Street Journal que terminaron al menos dos años de estudios universitarios.
b) Interprete lo que encontró en el inciso a).
6. Un agricultor afirma que él puede determinar si una semilla de papaya es macho con
solo palpar la semilla. Para probar tal afirmación se tomaron 1000 semillas al azar para que
examine el agricultor y determine si es semilla de papayo macho, posteriormente se
sembraron las semillas y se determinó realmente si eran semillas de papayo macho.
Finalmente al hacer el cotejo se encontró que el agricultor de detecto el sexo de 6 semillas
correctamente.
133
a) Encontrar un estimador puntual para la proporción de semillas detectadas
correctamente por el agricultor con respecto al sexo.
b) Encontrar un 95% intervalo de confianza para la proporción de semillas detectadas
correctamente por el agricultor con respecto al sexo. ¿Cuál es su opinión con respecto a
la afirmación del agricultor?
10. Se analizó una marca particular de margarina dietética para determinar el nivel de
ácido graso polinsaturado (en porcentaje).Una muestra de 6 paquetes al azar dio como
resultado los siguientes datos:
16.8 17.2 17.4 16.9 16.5 17.1
Se conoce que el nivel de ácido graso polinsaturado tiene distribución normal.
a) Encontrar un estimador puntual para .
b) Encuentre un 95% Intervalo de confianza para .
c) Interprete en términos del problema lo calculado en los incisos a) y b).
134
CAPÍTULO X
Introducción a la Inferencia
Estadística: Prueba de
Hipótesis
135
10.1 PRUEBAS DE HIPOTESIS
Otra de las finalidades de la inferencia estadística, probablemente la más importante
en investigación, es la prueba de hipótesis. Es decir, probar enunciados o afirmaciones
sobre los parámetros de las poblaciones.
136
III. Pruebas de Hipótesis para la proporción “p” y para la media “ ”:
En los resultados o teoremas para pruebas de hipótesis presentaremos en cada uno de ellos
tres incisos describiendo brevemente los pasos a seguir para probar la hipótesis. Es decir, se
presenta el valor calculado (estadística de prueba), el valor tabular o punto crítico, la región
de rechazo (RR), región de no rechazo o región de aceptación (RA), y la regla de decisión.
Teorema 3
Si n, el tamaño de muestra, es mayor o igual a 30, entonces
a) Ho: p = p* versus
Ha: p p*
RR RA RR
-Zt Zt
Regla de decisión
137
b) Ho: p≤p* versus
Ha: p>p*
RA RR
Zt
Regla de decisión
RR RA
-Zt
Regla de decisión
138
Ejemplo
Usando los datos del ejemplo del estudio de desocupación en el municipio de T probar con
=0.05 que el porcentaje de desocupación en el municipio de T es diferente del 4%,
afirmación que hace el gobierno central.
2. Nivel de significancia:
=0.05.
3. Estadístico de prueba:
p̂ p *
Zc
p * (1 p*)
n
4. Región de aceptación y rechazo:
Zt= Z α Z 0.05 Z 0.025 1.96 .
2 2
RR RA RR
-Zt Zt
-1.96 1.96
7. Conclusión:
Con un nivel de significancia del 5% se concluye que el porcentaje de desocupación en
el municipio de T es significativamente diferente del 4% que afirma el gobierno central.
139
También podríamos haber probado la hipótesis considerando en la hipótesis alternante que
la proporción de desocupados en el municipio de T es mayor del 4%, lo cual ilustraremos
en seguida.
Usaremos el inciso b) del teorema 3.
1. Planteamiento de hipótesis:
Ho: p=0.04 versus
H1: p>0.04
2. Nivel de significancia:
=0.05
3. Estadístico de prueba:
p̂ p *
Zc
p * (1 p*)
n
4. Región de aceptación y rechazo:
Valor tabular Zt
RA RR
Zt
1.96
7. Conclusión:
140
B. Pruebas de hipótesis sobre el parámetro , media de una población
Trataremos solo el caso cuando la variable en estudio tiene distribución normal con
varianza desconocida., para este caso se presenta la una prueba de dos colas (Ha: *)
y dos pruebas de una cola (Ha: > * y Ha: < *).
Teorema 4
a) Ho: = * versus
Ha: *
Xμ*
tc
S
n
Valor tabular tt
α
tt= t α valor en la tabla de Tcon n - 1 GL tal que a su derecha esta una probabilid ad .
n 1, 2
2
GL=grados de libertad
Región de rechazo (RR) y la región de aceptación (RA)
RR RA RR
- tt tt
Regla de decisión
b) Ho: = * versus
Ha: > *
Valor calculado tc
Xμ*
tc
S
n
141
Valor tabular tt
tt= t n 1, valor en la tabla de Tcon n - 1 GL tal que a su derecha esta una probabilid ad .
GL=grados de libertad
RA RR
tt
Regla de decisión
c) Ho: = * versus
Ha: < *
Valor calculado tc
Xμ*
tc
S
n
Encontrar el tt
tt= t n 1, valor en la tabla de Tcon n - 1 GL tal que a su derecha esta una probabilid ad .
GL=grados de libertad
RR RA
- tt
Regla de decisión
142
Ejemplo
Usando los datos del ejemplo de investigación sobre estimación del salario promedio de
todos los profesores del departamento de Lambayeque, probar con =0.05 si el salario
promedio de los profesores es diferente a 1200 soles mensuales.
En el ejemplo tenemos los siguientes datos: n=3, la media muestral es igual a 1000 y la
desviación estándar de la muestra es 200.
1. Planteamiento de hipótesis: 2.Nivel de significancia:
Ho: =1200 versus =0.05
H1: 1200
3. Estadístico de prueba:
X μ*
tc
S
n
4. Región de aceptación y rechazo:
Valor tabular tt
t α t 2,0.025 4.303
n 1,
tt= 2
- tt tt
-4.303 4.303
5. Calculamos el estadístico de prueba:
X μ * 1000 1200
tc 1.73
S 200
n 3
6. Decisión:
Como el tc = -1.73 cae en la RA, no se rechaza Ho.
7. Conclusión:
Con un nivel de significancia del 5 % (error del 5%) se concluye que el salario
promedio de los profesores del departamento de Lambayeque no es significativamente
diferente de 1200 soles por mes. Es decir, con un nivel de significancia del 5% los datos de
muestra aleatoria no muestran evidencias para rechazar la hipótesis de que el salario
promedio de todos los profesores del departamento de Lambayeque es de 1200 soles
mensuales
143
PROBLEMAS PROPUESTOS
3. En un estudio realizado por Wall Street Journal, se tomó una muestra aleatoria de 900
personas que están suscritas en Wall Street Journal, de estas 900 personas el 40% indicaron
que terminaron al menos dos años en una Universidad.
Probar con =0.05 que la proporción de suscritores de Wall Street Journal que terminaron
al menos dos años de estudios universitarios es del 50%.
4. Un gerente compro 10000 baterías para la empresa en la cual trabaja. El gerente toma
una muestra aleatoria de 300 baterías de las 10000 compradas las cuales fueron examinadas
resultando 42 baterías defectuosas.
Probar con =0.05 que menos del 5%. De las baterías son defectuosas. De su conclusión
en términos del problema.
7. Un fabricante de llantas está investigando la vida de las llantas producidas con un nuevo
producto. Tomo una muestra aleatoria de 16 llantas producidas con este nuevo producto y
las ha probado hasta el fin de su vida útil en una prueba de carretera. La media y la
desviación estándar muestrales son 60139.7 y 3645.94 km. Se conoce que la vida útil de las
llantas tiene distribución normal. Al fabricante le gustaría demostrar que la vida media de
144
esta nueva llanta es mayor de 60000 km. Formule y pruebe las hipótesis apropiadas con
=0.05, y establezca conclusiones.
11 09 03 03 03
05 10 06 05 02
03 15 04 07 01
08 18 02 03 02
01 11 03 03 03
04 02 06 05 05
03 05 08 01 04
Para probar si los datos de la muestra provienen de una distribución normal construya un
histograma de frecuencias y observe si la distribución de frecuencias tiene forma
acampanada lo cual indicara que los datos provienen de una distribución normal en caso
contrario se concluye que los datos no provienen de una distribución normal.
Hacer la prueba normal. Revisar un libro donde este descrito la prueba de bondad de ajuste
para prueba de normalidad. Por ejemplo puede revisar el libro: Introducción a los métodos
estadísticos un enfoque multidisciplinario de los autores Said y Zarate.
145
CAPÍTULO XI
146
Pruebas No Paramétricas
Supongamos que tenemos un número k de clases en las cuales se han ido registrando un
total de n observaciones (n será pues el tamaño muestral). Denotaremos las frecuencias
observadas en cada clase por O1, O2,…, Ok (Oi es el número de valores en la clase Ai). Se
cumplirá:
O1 + O2 +... + O k = n
Lo que queremos es comparar las frecuencias observadas con las frecuencias esperadas
(teóricas), a las que denotaremos por E1, E2,..., Ek. Se cumplirá:
E1 + E2 +... + E k = n
Frecuencia Observada Frecuencia Observada
Clase 1 O1 E1
Clase 2 O2 E2
Clase K Ok Ek
Total n n
147
Ejemplo
El director de “Movil”, tiene la responsabilidad de controlar el nivel de existencias para
cuatro tipos de automóvil vendidos por la firma. En el pasado, ha ordenado nuevos
automóviles bajo la premisa de que los cuatro tipos son igualmente populares y la demanda
de cada tipo es la misma. Sin embargo, recientemente las existencias se han vuelto más
difíciles de controlar, y el director considera que debería probar su hipótesis respecto a una
demanda uniforme.
Solución
1. Planteamiento de hipótesis
H0: La demanda es uniforme para los cuatro tipos de autos.
H1: La demanda no es uniforme para los cuatro tipos de autos.
2. Nivel de significancia:
α=0.05
3. Estadístico de prueba
(𝑂−𝐸𝑖 )2
𝜒 2 = ∑𝑘𝑖=1 ; 𝟐
𝜒𝟎.𝟎𝟓;𝟑 = 𝟕. 𝟖𝟏𝟓
𝐸𝑖
7. Conclusión:
La demanda no es uniforma para los 4 tipos de autos.
148
2. Prueba de Independencia, La prueba de independencia Chi-cuadrado, nos permite
determinar si existe una relación entre dos factores analizadas en un estudio. Para saber si
dos factores muestran algún grado de dependencia se construyen tablas de doble entrada
(filas y columnas) .Es necesario resaltar que esta prueba nos indica si existe o no una
relación entre las variables, pero no indica el grado o el tipo de relación; es decir, no indica
el porcentaje de influencia de una variable sobre la otra o la variable que causa la
influencia.
Ejemplo 1
Alicia García es la directora de investigación de Plaguicidas de un importante Laboratorio
en la ciudad de Chiclayo. En su proyecto actual Alicia debe determinar si existe alguna
relación entre la clasificación de efectividad que los consumidores asignan a un nuevo
insecticida y el sitio (urbano o rural) en el cual se utiliza. De los 100 consumidores a
quienes se le aplicó la encuesta, 75 vivían en zonas urbanas y 25 en zonas rurales. La Tabla
2. Resume las clasificaciones hechas por los consumidores. (Use α=0.10)
149
Tabla 2.
Clasificación según el uso de Plaguicidas
Debajo del 15 6 21
promedio
Total 75 25 100
Solución
1. Planteamiento de hipótesis
H0: La clasificación y la ubicación son independientes.
H1: La clasificación y la ubicación No son independientes.
2. Nivel de significancia:
α=0.10
3. Estadístico de prueba
(𝑂−𝐸𝑖 )2
𝜒 2 = ∑𝑘𝑖=1 ; 𝟐
𝜒𝟎.𝟏𝟎;𝟑 = 𝟒. 𝟔𝟎𝟓
𝐸𝑖
150
Cálculo de las frecuencias esperadas:
𝑛1. 𝑛.1 (75)(31)
𝑒11 = = = 23.25
𝑛. . (100)
Estadístico de prueba:
𝜒𝒄𝟐 = 3.76
6. Decisión
Como 𝜒𝑐2 < 𝜒𝑡2 , entonces No se rechaza la Ho
7. Conclusión
No existen suficientes evidencias estadísticas con un nivel de significación α=0,05 para
afirmar que la clasificación de la efectividad y la ubicación donde se utiliza sean
independientes.
151
Ejemplo 2
Un investigador quiere estudiar si hay asociación entre la práctica deportiva y la sensación
de bienestar. Extrae una muestra aleatoria de 100 sujetos. Los datos aparecen a
continuación.
Solución
1. Planteamiento de hipótesis
H0: La práctica deportiva y la sensación de bienestar son independientes.
H1: La práctica deportiva y la sensación de bienestar No son independientes.
2. Nivel de significancia:
α=0.10
3. Estadístico de prueba
(𝑂−𝐸𝑖 )2
𝜒 2 = ∑𝑘𝑖=1 ; 𝟐
𝜒𝟎.𝟏𝟎;𝟏 = 𝟔, 𝟔𝟑
𝐸𝑖
Grados de libertad=(r-1)(c-1)=(2-1)(2-1)=1
Al 0.05 de significancia =6,63
152
5. Calculamos el estadístico de prueba
Estadístico de prueba:
𝜒𝒄𝟐 = 8.13
6. Decisión
Como 𝜒𝑐2 < 𝜒𝑡2 , entonces se rechaza la Ho
7. Conclusión
Existen suficientes evidencias estadísticas con un nivel de significación α=0,05 para
afirmar que la práctica deportiva y la sensación de bienestar están asociadas.
153
3. Prueba de Homogeneidad
De varias muestras cualitativas, consiste en comprobar si varias muestras de un carácter
cualitativo proceden de la misma población. Es necesario que las dos variables medibles
estén representadas mediante categorías con las cuales construiremos una tabla de
contingencia.
Solución
1. Planteamiento de hipótesis
H0: La opinión sobre el producto X es semejante en los tres distritos.
H1: La opinión sobre el producto X No es semejante en los tres distritos
2. Nivel de significancia:
α=0.05
3. Estadístico de prueba
(𝑂−𝐸𝑖 )2
𝜒 2 = ∑𝑘𝑖=1 ; 𝟐
𝜒𝟎.𝟎𝟓;𝟒 = 𝟗, 𝟒𝟖𝟖
𝐸𝑖
Grados de libertad=(r-1)(c-1)=(3-1)(3-1)=4
Al 0.05 de significancia =9,488
154
4. Región de aceptación y rechazo
𝑺𝒊 𝜒𝒄𝟐 > 𝜒𝒕𝟐 𝒆𝒏𝒕𝒐𝒏𝒄𝒆𝒔 𝒔𝒆 𝒓𝒆𝒄𝒉𝒂𝒛𝒂 𝒍𝒂 𝑯𝒐
𝑺𝒊 𝜒𝒄𝟐 > 𝜒𝒕𝟐 𝒆𝒏𝒕𝒐𝒏𝒄𝒆𝒔 𝒔𝒆 𝒓𝒆𝒄𝒉𝒂𝒛𝒂 𝒍𝒂 𝑯𝒐
Estadístico de prueba:
𝜒𝒄𝟐 = 78,42099
6. Decisión
Como 𝜒𝑐2 > 𝜒𝑡2 , entonces se rechaza la Ho
7. Conclusión
Existen suficientes evidencias estadísticas con un nivel de significación α=0,05 que la
aceptación del producto X no es semejante en los distritos de La Victoria, José Leonardo
Ortiz y Chiclayo.
155
PROBLEMAS PROPUESTOS
Si 72 68 140
No 48 12 60
Total 120 80 200
A un nivel de significancia de α=0.1 pruebe si existe relación entre las variables analizadas.
2. Se selecciona al azar 236 trabajadores y se les clasifica de acuerdo con sus hábitos
de beber licor, obteniéndose los siguientes resultados.
Hábito de licor Rendimiento laboral
Alto Medio Bajo
Bebedor en exceso 28 31 14
Bebedor 29 16 12
promedio
Poco bebedor 17 9 23
No bebedor 27 19 11
Pruebe la hipótesis de independencia de los factores, es decir que el rendimiento laboral de
un trabajador es independiente del hábito que tiene de beber licor, para una significancia
α=0.05.
3. En un grupo de enfermos que se quejaban que no podían dormir se les dio somníferos y
placebos. Los datos se muestran en la tabla adjunta.
Duermen bien Duermen mal
Somníferos 58 20
Placebos. 94 48
¿Es lo mismo tomar somnífero o placebos para dormir bien o mal en este grupo de
enfermos. Pruebe a un nivel de significancia del 5%
156
Lugar de Grado de perjuicio Total
residencia Alto Bajo
AA.HH 32 28 60
Urbanizaciones 225 290 515
Residenciales 50 79 129
Total 307 397 704
A un nivel de significación del 5% pruebe si las variables “perjuicio étnico” y “Lugar de
residencia” son independientes.
10. En una muestra aleatoria de 100 ciudadanos del distrito de Lambayeque, se les
clasificó por su ocupación: obrero, estudiante, profesional, y se les consultó si están a favor
o en contra de la integración de un organismo de justicia, propuesto por el congreso. los
datos se muestran a continuación.
Obrero estudiante profesional
A favor 23 29 27
158
En contra 25 39 35
Proponga y pruebe una hipótesis para demostrar, con el 5% de significancia, que la opinión
de los ciudadanos es independiente de su ocupación.
CAPÍTULO XII
REGRESIÓN Y
CORRELACIÓN LINEAL
159
Regresión y correlación lineal simple
En muchas ocasiones surge la necesidad de estudiar la relación que existe entre dos
variables cuantitativas que tienen distribución aproximadamente normal. Por ejemplo,
promedio ponderado semestral y número de horas de estudio en una muestra de estudiantes
universitario del I Ciclo de estudios. Antes de establecer un modelo que relacione a ambas
variables, es necesario averiguar si estas dos variables esta correlacionadas entre sí; es decir
realizar una análisis de correlación.
12.1. Análisis de correlación de dos variables cuantitativas
El coeficiente de correlación poblacional ρ entre dos variables aleatorias x e y, se estima
con “r”.
n Yt X t Yt X t
r
n Yt 2 Yt n X t2 X t
2 2
Las sumatorias en la fórmula anterior se realizan sobre las n observaciones, tomadas como
muestra.
160
1. Planteamiento de la hipótesis
H0: ρxy = 0 (las variables no están correlacionadas)
𝑟 ∗ √(𝑛 − 2)
𝑡=
√1 − 𝑟 2
4. Región de rechazo
Tomar una muestra de n observaciones en las que se consideran dos variables, una variable
x independiente, considerada libre de error es decir una variable fijada de antemano y una
variable y, variable dependiente, considerada variable aleatoria, o sea una de las posibles
respuestas de la variable y a la variable x. Se tienen entonces un conjunto de n pares de la
forma (x,y)
161
a) Realizar un diagrama de dispersión de las variables (x,y) en un sistema de
coordenadas cartesianas, ya visto anteriormente y calcula el coeficiente de correlación.
b) En base a la información anterior y si se considera apropiado un modelo de recta,
encontrar la ecuación de la recta que mejor ajuste (o represente) a todos los puntos del
diagrama. A través de esta ecuación es posible predecir el valor de y para un determinado
valor de x.
c) La ecuación de la recta es la siguiente:
y 0 1 xi i
yˆ 0 1 x1
Donde ( ŷi ) es el valor ajustado o estimado para un cierto valor de “x” y los valores a y b
son los estimadores o valores que estiman a los parámetros poblacionales y y que se
calculan con los datos muestrales.
n xi y i xi y i
0 y 1 x 1
n xi xi
2 2
Dónde:
y : media aritmética de las y
x : media aritmética de las x
162
Si existe una relación lineal entre la variable Y y la variable X, el coeficiente de regresión β
de la ecuación yˆ 0 1 x1 , debe ser diferente de cero, es decir debemos realizarse la
siguiente prueba de hipótesis:
2. Nivel de significancia
α = 0.05
3. Prueba estadística
ˆ
t
S ˆ
ˆ 2
S 2ˆ
(X t X )2
e 2
t
(Yt 0 1 X t ) 2
ˆ 2 i 1
n2 n2
Intervalo de confianza para el coeficiente de regresión:
1 t1-n2 [ EE ( 1 )]
2
n 2
Donde t1- es el percentil apropiado de la distribución t con (n-2) grados de libertad.
2
163
independiente. El coeficiente de determinación expresa la variabilidad explicada por el
modelo de regresión. A partir de él podeos calcular el coeficiente de alineación. Este
coeficiente expresa la proporción de la variabilidad de la variable dependiente no explicada
por el modelo y viene dado por la siguiente expresión: [1 – R2 ]
Ejemplo
Se conduce un experimento en 12 sujetos para analizar si la dosis de cierta droga (en ml)
está relacionada con el tiempo de reacción a un estímulo en segundos.
Droga (ml) 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0 6,5
Tiempo (segs) 1,0 0,8 1,8 1,4 2,1 1,8 2,2 3,0 2,75 3,0 4,1 4,9
3
Tiempo de reacción (seg)
0 R² = 0.8824
0 1 2 3 4 5 6 7
n Yt X t Yt X t
r
nY t
2 2
Yt n X t2 X t
2
164
12 ∗ 130.9 − 28.85 ∗ 45
𝑟= = 0.939
√(12 ∗ 85.7125)2 (12 ∗ 204.5 − 452 )
Se puede concluir de existe una alta correlación positiva entre el tiempo de reacción y dosis
de la droga.
4. Región de rechazo
RR RA RR
-t t
-2.2281 +2.2281 (este valor se ha obtenido de la tabla T de Student
con 10 grados de libertad y con 0.025 de
probabilidad)
5. Decisión: Como el t calculado es mayor que el punto crítico 2.2281, se rechaza Ho
6. Conclusión: Si existe correlación entre el tiempo de reacción y dosis de la droga,
con un nivel de significancia de 0.05.
Como se observa que si existe una alta correlación lineal directa entre las variables de
estudio, el siguiente paso es determinar un modelo que los relacione a ambas variables.
Análisis de Regresión.
Estimación de la recta de regresión: yˆ 0 1 x1
Se debe obtener los valores de a y b, mediante las siguientes relaciones:
165
n xi y i xi y i
1 0 y 1 x
n xi xi
2 2
̂1 = 12(130.9)−45(28.85)
𝛽 2 = 0.63531469
12(204.5)−45
yˆ 0.023 0.64 x1
Significancia estadística del coeficiente de regresión
Antes veamos algunos cálculos auxiliares
Y 𝑌̂ 𝑒̂ ̅̅̅2
(𝑥 − 𝑥)
1 0,657 0,117649 7,5625
0,8 0,97465 0,03050262 5,0625
1,8 1,2923 0,25775929 3,0625
1,4 1,60995 0,044079 1,5625
2,1 1,9276 0,02972176 0,5625
1,8 2,24525 0,19824756 0,0625
2,2 2,5629 0,13169641 0,0625
3 2,88055 0,0142683 0,5625
2,75 3,1982 0,20088324 1,5625
3 3,51585 0,26610122 3,0625
4,1 3,8335 0,07102225 5,0625
4,9 4,15115 0,56077632 7,5625
suma 1,92270699 35,75
166
1. Planteamiento de las hipótesis
H 0 : 1 0
H 1 : 1 0
2. Nivel de significancia
α = 0.05
3. Prueba estadística
ˆ
t
S ˆ
0.63531469
𝑡= = 8.663
0.07333622
Donde, un estimador para Var ( ˆ ) es:
ˆ 2 0.1922707
S 2ˆ = = 0.0053782
(X t X ) 2 35.75
0.07333622
S ˆ
e 2
t
(Y ˆ ˆ X t ) 2
ˆ 2 i 1
t
1,92270699/(12-2) = 0.1922707
n2 n2 =
4. Región de rechazo
RR RA RR
-t t
-2.2281 +2.2281 (este valor se ha obtenido de la tabla T de Student
con 10 grados de libertad y con 0.025 de
probabilidad)
Como existe una relación lineal entre las variables de estudio, se podría predecir el tiempo
167
de reacción al estímulo que tendría un sujeto si la dosis fuera de 7 ml
yˆ 0.023 0.64(7) = 4,46893941
0.63531469 ± 2.2281x0.07333622
LI : 0.4719
LS : .0.7987
Como el intervalo de confianza no contiene a la unidad, el coeficiente de regresión es
diferente de cero, por lo que se concluye que el tiempo de reacción al estímulo y la dosis de
droga están linealmente relacionas y esta relación es directa, con un nivel de confianza del
95%
El coeficiente de determinación es (0.939)2 = 0.882, es decir el porcentaje de variaciones
observadas en el tiempo de reacción al estímulo que es explicado por las variaciones de la
dosis de la droga es del 87.1%. El porcentaje de variación del tiempo de reacción al
estímulo que no es explicado por la dosis de la droga es del 0.118 [1 – R2 ]
A continuación se presenta los cálculos realizados con el MegaStat
ANOVA
table
Source SS df MS F p-value
Regression 14,4296 1 14,4296 75,05 5,82E-06
Residual 1,9227 10 0,1923
Total 16,3523 11
168
de mayor utilidad práctica, que es la regresión lineal múltiple. Por regresión lineal múltiple
entenderemos el análisis de regresión lineal pero ahora con más de una variable explicativa.
yi 0 1 xi1 2 xi 2 p xip i
para i= 1, 2, ...,n
y 0 1 x1 2 x2 p x p
Si suponemos que la respuesta media está relacionada con los parámetros a través de la
ecuación: y 0 1 x1 2 x 2 p x p , esto quiere decir que podemos estimar la
media de la variable respuesta a través de la estimación de los parámetros de regresión. Si
esta ecuación se ajusta a la realidad entonces tenemos una forma de describir cómo la
media de la variable respuesta “y” varía con las variables explicatorias x1 , x 2 , , x p .
169
b) Estimación de los parámetros de regresión múltiple.
y yˆ i .
2
observada y la respuesta estimada, lo que equivale a minimizar: i
s 2
ˆ
2 e
2
i
y i yˆ i
2
n p 1
n p 1
y x
variabilidad: s y2 x
s y2 / x es entonces el estimador de la variabilidad de la respuesta y, tomando en cuenta las
variables explicatorias xj.
170
y yi
2
2 i
Lo distinguimos de s que es la variabilidad de y sin tomar en cuenta las
n 1
y
Notas:
- Vamos a dejar a SPSS el cálculo del error estándar de b j
- Tendremos entonces un test de hipótesis asociado a cada variable explicatoria en el
modelo.
- Podemos realizar hipótesis de una cola, donde H1: j 0 o H1: j 0 , pero lo
usual es hacer el test bilateral.
j
d) Intervalo de confianza para :
Un intervalo de confianza ( 1 )*100% para j está dado por:
bj t (n p 1) EE (b j )
1
2
EE (b j ) es el error estándar de b j
171
e) Intervalos de confianza para la respuesta media e intervalos de predicción
individual:
La tabla ANOVA es similar a la de regresión simple. Los grados de libertad del modelo son
ahora p en vez de 1, lo que refleja que ahora tenemos p variables explicatorias en vez de
sólo una. Las sumas de cuadrados representan las fuentes de variación. Recordemos que la
suma de cuadrados total es igual a la suma de los cuadrados del modelo de regresión más la
suma de los cuadrados del residuo:
SCT = SCMod + SCRes
172
H 0 : 1 2 p 0
H 1 : al menos un j no es cero
La hipótesis nula dice que ninguna de las variables explicatorias son predictoras de la
variable respuesta. La hipótesis alternativa dice que al menos una de las variables
explicatorias está linealmente relacionada con la respuesta. Como en regresión simple,
valores grandes de F nos dan evidencia en contra de hipótesis nula. Cuando H0 es
verdadera, el estadístico F tiene distribución F de Fisher con (p, n-p-1) grados de libertad.
Los grados de libertad están asociados a los grados de libertad del modelo y del residuo en
la tabla ANOVA.
Recordemos que en regresión lineal simple el test F de la tabla ANOVA es equivalente al test t
bilateral para la hipótesis de que la pendiente es cero. Ahora, el test F de regresión múltiple
docima la hipótesis de que todos los coeficientes de regresión (con excepción del intercepto)
son cero, hipótesis que no es de mucho interés. En el problema de regresión múltiple interesan
más las hipótesis individuales para cada parámetro asociado a cada variable explicatoria.
R
2 SCMod
( yˆ y ) 2
y y
2
SCTotal i
Ejemplo
Los datos provienen de un estudio de consumo de helado que abarcó las primaveras y
veranos de tres años. El consumo de helados de midió en pintas per cápita por semana, el
precio del helado en dólares, el ingreso familiar de los consumidores en dólares por
semana y la temperatura en grados Fahrenheit.
Consumo: Y 0.386 0.374 0.393 0.425 0.406 0.344 0.327 0.288 0.269 0.256
Precio: X1 1.35 1.41 1.39 1.40 1.36 1.31 1.38 1.34 1.33 1.39
Ingreso:X2 351 356 365 360 342 351 369 356 342 356
173
Temperatura:X3 41 56 63 68 69 65 61 47 32 24
Resumen
Tabla 1
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,818538824
Coeficiente de determinación R^2 0,670005806
R^2 ajustado 0,505008709
Error típico 0,04207347
Observaciones 10
174
Tabla 2: análisis de varianza para el contraste global de los coeficientes
Suma de Promedio de Valor crítico
Grados de libertad cuadrados los cuadrados F de F
Regresión 3 0,021564539 0,00718818 4,06071269 0,068130513
Residuos 6 0,010621061 0,001770177
Total 9 0,0321856
175
Correlaciones entre variables
Tabla 4
Correlaciones entre variables
Consumo Precio Ingreso Temperatura
Correlación de 1 ,338 ,116 ,592
Pearson
Consumo
Sig. (bilateral) ,340 ,749 ,072
N 10 10 10 10
Correlación de ,338 1 ,567 ,180
Pearson
Precio
Sig. (bilateral) ,340 ,087 ,619
N 10 10 10 10
Correlación de ,116 ,567 1 ,585
Pearson
Ingreso
Sig. (bilateral) ,749 ,087 ,076
N 10 10 10 10
Correlación de ,592 ,180 ,585 1
Pearson
Temperatura
Sig. (bilateral) ,072 ,619 ,076
N 10 10 10 10
176
De la tabla 1 se puede observar una alta correlación entre las variables (dependiente e
independientes: 0.82). El 67% de la variación de la variable dependiente es explicado
por las variables independientes.
Con respecto al contraste global:
H 0 : 1 2 p 0
H 1 : al menos un j no es cero
De la tabla 2 se puede observar el valor crítico F mayor que 0.05, por lo que se acepta
Ho, es decir no existe una relación lineal entre el consumo, precio, ingreso y
temperatura.
Con respecto a los contrastes individuales
177
PROBLEMAS PROPUESTOS
178
4. Una empresa de mecánica industrial, tiene información de 10 meses, y quiere
determinar si existe alguna relación entre el gasto mensual en miles de dólares y el
número de piezas fabricadas. Y: Gasto mensual y X: número de piezas fabricadas. Los
datos se presentan a continuación:
Y 191 170 272 155 280 173 234 116 153 178
X 40 42 53 35 56 39 48 30 37 40
8. Un investigador cree que la inteligencia de los niños, medida a través del coeficiente
intelectual (CI en puntos), depende del número de hermanos. Toma una muestra
aleatoria de 15 niños y ajusta una regresión lineal simple. Los resultados aparecen en la
salida adjunta.
CI 110 115 120 118 110 108 105 104 98 99 98 100 90 93 90
Hermanos 0 1 1 1 2 2 2 3 3 4 4 5 5 5 6
179