New Trabajo de Word
New Trabajo de Word
New Trabajo de Word
FRESNILLO.
31 DE MAYO 2023.
Función de probabilidad
Una función de probabilidad, también llamada función de masa de probabilidad es una función
matemática que describe la probabilidad de que una variable aleatoria discreta tome un
determinado valor. Es decir, una función de probabilidad devuelve la probabilidad asociada a que
una variable discreta sea exactamente igual a un valor.
Por ejemplo, la probabilidad de sacar cualquier número al lanzar un dado es de 1/6 (un dado tiene
seis caras), por lo tanto, la función de probabilidad asociada a este espacio muestral será igual a
1/6 para cualquier valor.
EJEMPLOS:
Ejemplo 1.
p
x
i
1
Representación
n es el número de pruebas.
k es el número de éxitos.
p es la probabilidad de éxito.
q es la probabilidad de fracaso.
El número combinatorio
Ejemplo 2.
La última novela de un autor ha tenido un gran éxito, hasta el punto de que el 80%
de los lectores ya la han leído. Un grupo de 4 amigos son aficionados a la lectura:
¿Cuál es la probabilidad de que el grupo hayan leído la novela 2 personas?
n=4
2
p = 0.8
q = 0.2
B (4, 0.2)
Ejemplo 3.
En primer lugar, tenemos que calcular las probabilidades de obtener cara, para
ello, se deben dividir los casos posibles entre el número total de casos. Puedes
ver el cálculo de todas las probabilidades en la siguiente tabla:
3
Como puedes comprobar, la función probabilística del ejercicio cumple
todas la
Ejemplos 3.
Ejemplo 4.
4
Extracción de tres bolas de una urna que contiene 6 bolas blancas y 4 negras. Si
consideramos la variable aleatoria número de bolas negras extraídas.
Ejemplo 5.
1. Se tiene una urna con 12 bolitas rojas, 15 verdes y 13 azules y se extrae una al azar.
Como la variable aquí es cualitativa, se asigna un número a las bolitas rojas, otro a las
verdes y otro a las azules.
5
Y su gráfico es:
6
DISTRIBUCIÓN BIOMINAL.
En teoría de la probabilidad y estadística, la distribución binomial o distribución
binomial es una distribución de probabilidad discreta que cuenta el número de éxitos en
una secuencia de ensayos de Bernoulli independientes entre sí con una probabilidad
fija de ocurrencia de éxito entre los ensayos. Un experimento de Bernoulli se caracteriza
por ser dicotómico, esto es, solo dos resultados son posibles, a uno de estos se le
denomina “éxito” y tiene una probabilidad de ocurrencia y al otro se le denomina “fracaso”
y tiene una probabilidad
La distribución binomial se utiliza con frecuencia para modelizar el número de aciertos en
una muestra de tamaño n extraída con reemplazo de una población de tamaño N. Si el
muestreo se realiza sin reemplazo, las extracciones no son independientes, por lo que la
distribución resultante es una distribución hipergeométrica, no una distribución binomial.
Sin embargo, para N mucho mayores que n, la distribución binomial sigue siendo una
buena aproximación, y se utiliza ampliamente.
Más matemáticamente, la distribución binomial es una distribución discreta de
probabilidad descrita por dos parámetros: n el número de experimentos realizados, y p la
probabilidad de éxito. Para cada experimento llamado ensayo Bernoulli, utilizamos
una variable aleatoria que toma el valor 1 cuando se consigue un éxito y el valor 0 en
caso contrario. La variable aleatoria, suma de todas estas variables aleatorias, cuenta el
número de éxitos y sigue una distribución binomial. Es posible entonces obtener la
probabilidad de k éxitos en una repetición de n experimentos:
Ejemplos:
1
Lo primero que hay que hacer es definir las variables del experimento:
7
x = número de éxitos (en este caso es igual a 3, ya que buscamos la
probabilidad de que 3 de los 4 amigos las hayan visto)
p = probabilidad de éxito (0,8)
q = probabilidad de fracaso (0,2). Este resultado se obtiene al restar 1-p.
Tras definir todas las variables, solo tenemos que sustituirlas en la fórmula:
Fuera del corchete, hay dos números. El primero sería 0,83=0,512 y el segundo es
0,2 (porque 4-3 = 1 y cualquier número elevado a 1 es el mismo).
Si lo multiplicamos por 100, tenemos como resultado que hay una probabilidad del
40,96 % de que 3 de los 4 amigos hayan visto las Olimpiadas de Brasil.
Otro ejemplo: vamos a suponer que queremos coger un taxi, vamos a calcular la
probabilidad de que el próximo taxi que pase esté libre u ocupado.
Si lo multiplicamos por 100, tenemos como resultado que hay una probabilidad del
0,64 % de que 2 de los 5 taxis estén libres.
Ejemplo 2.
8
Al repetir la experiencia 350 veces obtenemos:
Ejemplo 3.
La probabilidad de fracaso, que sería encontrar una pieza sin defectos, es:
9
El número de repeticiones n es 10 y el número de éxitos k para que el queremos
calcular su probabilidad es 2.
Sustituimos cada una de las variables por sus valores en la fórmula:
Ejemplo 4.
10
La probabilidad de éxito, es decir, que un estudiante abandone es:
Nos piden la probabilidad de que uno o ninguno abandones sus estudios, que es
igual a la suma de la probabilidad de que ninguno abandone sus estudios más la
probabilidad de que uno abandone sus estudios:
11
Nos preguntan también si es más probable, que todos abandonen sus estudios o
que ninguno lo haga.
La probabilidad de que ninguno abandone la hemos calculado antes:
Ejemplo 5.
12
Nos preguntan la probabilidad de que al menos uno llegue puntual. Eso quiere
decir la probabilidad de que uno llegue puntual o que dos lleguen puntuales o que
tres lleguen puntuales, ya que en los tres casos al menos uno está llegando
puntual.
Por tanto, para calcular esta probabilidad tenemos que sumar la probabilidad de
que uno llegue puntual más la probabilidad de que dos lleguen puntuales más la
probabilidad de que tres lleguen puntuales:
Para k=2:
13
Por tanto, la probabilidad de que al menos uno llegue puntual es de 98,42%.
Otra forma de resolver el ejercicio es teniendo en cuenta de que el espacio
muestral del experimento es darse cuenta de que al menos uno es el suceso
contrario a ninguno.
Si calculamos la probabilidad de que ninguno llegue puntual P(X=0) y después
calculamos su contrario, como 1-P(X=0), es lo mismo que calcular la suma de las
probabilidades del resto de casos:
14
Distribución hipergeométrica
La distribución hipergeométrica es una distribución discreta que modela el número
de eventos en una muestra de tamaño fijo cuando usted conoce el número total de
elementos en la población de la cual proviene la muestra. Cada elemento de la
muestra tiene dos resultados posibles (es un evento o un no evento). Las
muestras no tienen reemplazo, por lo que cada elemento de la muestra es
diferente. Cuando se elige un elemento de la población, no se puede volver a
elegir. Por lo tanto, la probabilidad de que un elemento sea seleccionado aumenta
con cada ensayo, presuponiendo que aún no haya sido seleccionado.
Utilice la distribución hipergeométrica para muestras obtenidas de poblaciones
relativamente pequeñas, sin reemplazo. Por ejemplo, la distribución
hipergeométrica se utiliza en la prueba exacta de Fisher para probar la diferencia
entre dos proporciones y en muestreos de aceptación por atributos cuando se
toman muestras de un lote aislado de tamaño finito.
La distribución hipergeométrica se define por 3 parámetros: tamaño de la
población, conteo de eventos en la población y tamaño de la muestra.
Ejemplos
Ejemplo 1.
Usted recibe un envío de pedido especial de 500 etiquetas. Supongamos que el
2% de las etiquetas es defectuoso. El conteo de eventos en la población es de 10
(0.02 * 500). Usted toma una muestra de 40 etiquetas y desea determinar la
probabilidad de que haya 3 o más etiquetas defectuosas en esa muestra. La
probabilidad de que haya 3 o más etiquetas defectuosas en la muestra es de
0.0384.
EJEMPLO 2.
Un lote contiene 100 piezas de un proveedor de tubería local y 200 unidades de
un proveedor de tubería del estado vecino. Si se seleccionan 4 piezas al azar y sin
reemplazo.
15
N = 300 | X = 100 | n = 4 | x = 4
Utilizando R tenemos:
N = 300 | X = 100 | n = 4 | x = 2, 3 o 4
16
Utilizando R tenemos:
N = 300 | X = 100 | n = 4 | x = 1, 2, 3 o 4
Utilizando R tenemos:
17
> 1-dhyper (0, 4, 296, 100)
[1] 0.8044538
N = 10 | X = 3 | n = 4 | x = 2
EJEMPLO 3.
18
Utilizando R tenemos:
> dhyper(2, 5, 4, 4)
[1] 0.4761905
b) N = 9 | X = 4 | n = 5 | x = 0, 1, 2
EJEMPLO 4.
19
fume? Concepto: El complemento: 100%- el que no necesita. Datos: N = 20
Personas C = 7 Personas n = 4 personas x = 1,2,3,4 DESARROLLO: 𝑃(𝑋 ≥ 1) =
𝑃(𝑋 = 1) + 𝑃(𝑋 = 2) + 𝑃(𝑋 = 20 − 7 ( )( ) 𝑃(𝑋) = 0 4 − 0 20 ( ) 4 7 13 ( )( ) 𝑃(𝑋) = 0 4
20 ( ) 4 C = Combinatoria: 𝑐
7! 0! (7 − 0)!
𝑎! 𝑏! (𝑎 − 𝑏)! 𝑪13 4 =
𝑪𝟏𝟑 𝟒 = 𝟕𝟏𝟓 𝑪𝑁 𝑛 =
𝑁! 𝑛! (𝑁 − 𝑛)! 𝑪20 4 =
Reemplazar
𝑪𝟐𝟎 𝟒 = 𝟒𝟖𝟒𝟓
𝑃(𝑋) =
1 ∗ 715 4845
𝑃(𝑋) =
143 969
= 1 − 𝑃 (𝑋 = 0) =1−
143 969
20
EJEMPLO 5.
𝟑 𝟑 () () 𝑷(𝑿) = 𝟐 𝟐 𝟔 () 𝟒
𝑪32 =
3! 2! (3 - 2)!
𝑪𝑁 𝑛 =
𝑁! 𝑛! (𝑁 − 𝑛)!
3! 2! (3 - 2)!
𝑪𝟔−𝟑 𝟒−𝟐 = 𝟑
𝑪64 =
6! 4! (6 - 4)!
𝑪𝟔𝟒 = 𝟏𝟓 Reemplazando
𝑃(𝑋) =
3∗3 15
𝑃(𝑋) =
35
21
La probabilidad de que tenga un empleado 5 años o más de labor es del 60%
EJERCICIO A RESOLVER En una caja hay 10 celulares de los cuales hay 3
celulares dañados concretamente de una marca china, si se saca 5 celulares de la
caja ¿Cuál es la probabilidad de sacar un celular dañado?
22
DISTRIBUCIÓN DE POISSON.
EJEMPLOS
1.- Un estudio sismológico determinó que, durante los últimos 100 años, hubo 93
terremotos grandes en todo el mundo, de al menos 6.0 en la escala de Richter –
logarítmica-. Supongamos que la distribución de Poisson es un modelo adecuado
en este caso. Hallar:
23
– 2 años (4 terremotos)
– 0 años (5 terremotos)
– 1 años (6 terremotos)
– 1 años (7 terremotos)
¿Cómo se comparan estos resultados con los obtenidos en el inciso b? ¿Es la
distribución de Poisson una buena elección para modelar estos eventos?
Solución a)
a) Los terremotos son sucesos cuya probabilidad p es pequeña y estamos
considerando un período restringido de tiempo, de un año. El promedio de
terremotos es:
μ = 93 / 100 terremotos/año = 0.93 terremotos por año.
Solución b)
b) Para calcular las probabilidades solicitadas, se sustituyen valores en la fórmula
dada al comienzo:
P(y=k) =\frac {\mu ^{y}. e^{-\mu }}{y!}Por ejemplo para encontrar P(2), que sería la
probabilidad de que se den 2 grandes terremotos al año:
y=2
μ = 0.93
e = 2.71828
P (2) =\frac {0.93^ {2}. e^{-0.93}} {2!}=\frac{0.93^{2}.2.71828^{-0.93}}
{2.1.0!}=0.171Y esta es la probabilidad de que se den 7 grandes terremotos
durante un año:
P (7) =\frac {0.93^{7}. e^{-0.93}}{7!}=0.0000471
Es bastante menor que P (2).
Los resultados se listan a continuación:
P (0) = 0.395, P (1) = 0.367, P (2) = 0.171, P (3) = 0.0529, P (4) = 0.0123, P (5) =
0.00229, P (6) = 0.000355, P (7) = 0.0000471.
Por ejemplo, podríamos decir que hay una probabilidad de 39.5 % de que no
ocurra ningún gran terremoto en un año dado. O que hay 5,29 % de que ocurran 3
grandes terremotos en dicho año.
24
Solución c)
c) Se analizan las frecuencias, multiplicando por n=100 años:
39.5; 36.7; 17.1; 5.29; 1.23; 0.229; 0.0355 y 0.00471.
EJEMPLO 2.
Una compañía estima que el número de componentes que fallan antes de cumplir
100 horas de funcionamiento sigue una distribución de Poisson. Si el número
promedio de fallos es 8 en ese tiempo, encontrar las siguientes probabilidades:
a) Que un componente falle en 25 horas.
b) Falla de menos de dos componentes, en 50 horas.
c) Que fallen por lo menos tres componentes en 125 horas.
Solución a)
a) Se sabe que el promedio de fallas en 100 horas es 8, por lo tanto, en 25 horas
se espera la cuarta parte de fallos, es decir 2 fallos. Este será el parámetro μ.
Se pide la probabilidad de que falle 1 componente, la variable aleatoria es
“componentes que fallan antes de 25 horas” y su valor es y =1. Al sustituir en la
función de probabilidad:
P (2) =\frac{2^{1}.e^{-2}}{1!}=\frac{2^{2}\times .2.71828^{-2}}{1.0!}=0.271 b) Ahora
la variable aleatoria es “componentes que fallan antes de las 50 horas”. El
parámetro es μ= 4, ya que el valor esperado de fallas en 50 horas es 4.
Sin embargo, la pregunta es la probabilidad de que fallen menos de dos
componentes en 50 horas, no que fallen exactamente 2 componentes en 50 horas,
por lo tanto, hay que sumar las probabilidades de que:
-Ninguno falle
-Falle solamente 1
P (fallen menos de 2 componentes) = P (0) + P (1)
P (0) =\frac {4^{0}. e^{-4}}{0!}=\frac{1\times .2.71828^{-4}}{0!}=0.0183P(1)=\
frac{4^{1}.e^{-4}}{1!}=\frac{4\times .2.71828^{-4}}{1!}=0.0732
P (fallen menos de 2 componentes) = 0.0183+0.0732 =0.0915
c) Que fallen por lo menos 3 componentes en 125 horas, significa que pueden
fallar 3, 4, 5 o más en dicho tiempo.
25
La probabilidad que ocurra al menos uno de entre varios sucesos es igual a 1,
menos la probabilidad que no ocurra ninguno de los sucesos.
-El suceso que se busca es que fallen 3 o más componentes en 125 horas
-Que no ocurra el suceso significa que fallan menos de 3 componentes, cuya
probabilidad es: P (0) +P (1) +P (2)
El parámetro μ de la distribución en este caso es:
μ = 8 + 2 = 10 fallos en 125 horas.
P (fallen 3 o más componentes) = 1- P (0)- P (1)- P (2) =
=1-\frac {10^ {0}. e^{-10}} {0!}-\frac{10^{1}.e^{-10}}{1!}-\frac{10^{2}.e^{-10}}{2!}= 1-
0.0026786 = 0.9972
EJEMPLO 3.
P (X = 0 llamadas) = 0.00005
P (X = 1 llamada) = 0,00045
P (X = 2 llamadas) = 0,00227
P (X = 3 llamadas) = 0,00757
Y así.
Esto les da a los gerentes del centro de llamadas una idea de cuántas llamadas
probablemente recibirán por hora y les permite administrar los horarios de los
empleados en función de la cantidad de llamadas esperadas.
EJEMPLO 4.
26
número de llegadas a un restaurante
Los restaurantes utilizan la distribución de Poisson para modelar la cantidad de
clientes esperados que llegarán al restaurante por día.
EJEMPLO 5.
27
DISTRIBUCIÓN NORMAL.
La distribución normal nos permite crear modelos de muchísimas variables y
fenómenos, como, por ejemplo, la estatura de los habitantes de un país, la
temperatura ambiental de una ciudad, los errores de medición y muchos otros
fenómenos naturales, sociales y hasta psicológicos
EJEMPLOS:
EJEMPLO 1.-
EJEMPLO 2
peso al nacer de los bebés
Está bien documentado que el peso al nacer de los recién nacidos se distribuye
normalmente con una media de unas 7.5 libras.
El histograma del peso al nacer de los bebés recién nacidos en los EE. UU.
Muestra una forma de campana que suele tener la distribución normal:
28
EJEMPLO 3.
29
EJEMPLO 4.
Tallas de zapatos
La distribución de tallas de zapatos para hombres en los EE. UU. Se distribuye
aproximadamente normalmente con una media de talla 10 y una desviación
estándar de 1.
Un histograma de las tallas de calzado de todos los hombres estadounidenses
revela una forma de campana con un solo pico en la talla 10:
EJUEMPLO 5.
presión arterial
La distribución de la presión arterial diastólica para los hombres se distribuye
normalmente con una media de aproximadamente 80 y una desviación estándar
de 20.
Un histograma de la distribución de la presión arterial para todas las medias
muestra una distribución normal con forma de campana:
30
DISTIBUCIÓN T-STUDENT
La distribución T de estudent o distribución t en es un modelo teórico utilizado para
aproximar el momento de primer orden de una población normalmente distribuida
cuando el tamaño de la muestra es pequeño y se desconoce la desviación típica.
En otras palabras, la distribución t es una distribución de probabilidad que estima
el valor de la media de una muestra pequeña extraída de una población que sigue
una distribución normal y de la cual no conocemos su desviación típica.
EJEMPLOS.
31
EJEMPLO 2
Suponga que Ud. tiene una técnica que puede modificar la edad a la cual los niños comienzan a
hablar. En su localidad, el promedio de edad en la cual un niño emite su primera palabra es de 13.0
meses. No se conoce la desviación estándar poblacional. Usted aplica dicha técnica a una muestra
aleatoria de 15 niños. Los resultados arrojan que la edad media muestral en la que se pronuncia la
primera palabra es de 11.0 meses, con una desviación estándar de 3.34. Pruebe la hipótesis de
que la técnica afecta la edad en que los niños empiezan a hablar con un nivel de significancia alfa
del 0.05.
Aquí las preguntas de la investigación serían ¿Cuáles son la hipótesis nula y la alternativa? y si con
el procesamiento estadístico se puede afirmar que la técnica es efectiva para modificar la edad en
que los niños empiezan a hablar.
Hipótesis nula: La técnica no afecta la edad en que los niños comienzan a hablar,
matemáticamente sería, H0 = 13.0
Hipótesis alternativa: La técnica afecta la edad en que los niños comienzan a hablar,
matemáticamente sería, H1 ≠ 13.0
32
EJEMPLO 3.
Se aplica una prueba de autoestima a 25 personas quienes obtienen una calificación promedio de
62.1 con una desviación estándar de 5.83. Se sabe que el valor correcto de la prueba debe ser
mayor a 60. ¿Existe suficiente evidencia para comprobar que no hay problemas de autoestima en
el grupo seleccionado?
H1 > 60;
H0 =< 60.
El resultado de la ecuación es 1.8. Dado que 1.8 es mayor que 1.7109 cae en la región de H1 y se
acepta la hipótesis alternativa. Si buscamos el valor de 1.8 bajo la curva normal encontraremos que
es de 0.0359 el cual es menor que 0.05. La conclusión es que no hay problemas de autoestima en
el grupo estudiado. Esto con el diseño de la investigación presentado.
EJERCICIO 4.
Una profesora del programa de estudios para la mujer cree que la cantidad de cigarrillos fumados
por las mujeres se ha incrementado en años recientes. Un censo realizado hace dos años con
mujeres de una ciudad vecina mostró que el número promedio de cigarrillos fumados diariamente
por una mujer era de 5.4 con una desviación estándar de 2.5. Para evaluar esta hipótesis, la
profesora determinó el número de cigarrillos fumados diariamente por una muestra aleatoria de 120
mujeres que viven actualmente en la ciudad donde habita. Los datos muestran que el número de
cigarrillos fumados diariamente por las 120 mujeres tiene una media de 6.1 y una desviación
estándar de 2.7. Con esa información y un nivel de significancia de 0.05, ¿tiene razón la profesora
al afirmar que la cantidad de cigarrillos fumados por las mujeres se ha incrementado?
33
Los resultados de la ecuación muestran una Tp de 2.9 que, contrastada con la Tc obtenido de
tablas para un extremo que resulta en 1.6449 cae en la región de rechazo de H0. Si calculamos P
en tablas para 2.90 es 0.002, muy por debajo del 0.05 del nivel de significancia.
EJERCICIO 5.
La siguiente es una tabla de resultados del coeficiente intelectual entre niños que tienen buenas
calificaciones en lectura y de aquellos que tienen bajas calificaciones en lectura. A un nivel de
significancia del 0.05, ¿hay diferencia significativa entre el coeficiente intelectual entre los grupos?
Utilice la prueba de T de Student contrastando las hipótesis contra el valor crítico.
1 105 94
2 110 95
3 100 93
4 102 93
5 103 92
6 104 95
7 108 100
Media
DS
Distribución Chi-cuadrada
34
La distribución chi-cuadrado
Es una distribución de probabilidad cuyo símbolo es χ². En concreto, la
distribución chi-cuadrado es la suma del cuadrado de k variables aleatorias
independientes con distribución normal.
Así pues, la distribución chi-cuadrado tiene k grados de libertad. Por lo tanto, una
distribución chi-cuadrada tiene tantos grados de libertad como la suma de los
cuadrados de variables con distribución normal que representa
La distribución chi-cuadrado también se conoce como distribución de Pearson.
Cabe destacar que la distribución chi-cuadrado es un caso especial de la
distribución gamma.
La distribución chi-cuadrado se utiliza mucho en inferencia estadística, por
ejemplo, se usa en el contraste de hipótesis y en los intervalos de confianza. Más
abajo veremos cuáles son las aplicaciones de este tipo de distribución de
probabilidad.
EJEMPL 1.
En el primer ejemplo de este tutorial, le mostraré cómo crear un diagrama de
densidad de la distribución de chi cuadrado en R. Como primer paso, necesitamos
crear una secuencia de valores de entrada:
x_ dchisq <- seq. (0 , 20 , by = 0.1 ) # Especifique los valores x para la función dch
Ahora, podemos aplicar la función dchisq R a nuestra secuencia creada
previamente. Tenga en cuenta que especificamos que los grados de libertad de la
distribución de chi cuadrado sean iguales a 5. Puede cambiar este valor para
producir una densidad de chi cuadrado con diferentes grados de libertad.
y_dchisq <- dchisq ( x_dchisq, df = 5 ) # Aplicar la función dchisq
Si queremos crear un gráfico que represente nuestra salida, podemos usar
la función de trazado :
plot ( y_dchisq ) # Trazar valores dchisq
35
Figura 1: Densidad Chi Cuadrado.
La figura 1 ilustra el diagrama de chi cuadrado que hemos creado con el código
anterior.
Ejemplo 2
En la encuesta telefónica realizada el pasado curso por los alumnos los resultados
fueron muy dispares, mientras algunos realizaron las cuatro entrevistas programadas
siguiente:
Total 57
A un nivel de confianza del 90% ¿Puede afirmarse que estas diferencias han sido
36
debidas al azar? O por el contrario están motivadas por alguna otra causa.
1º La hipótesis nula de que los resultados obtenidos son debidos al azar implica que en
todas las llamadas hay la misma probabilidad de conseguir respuesta y que el resultado
4º Para calcular el valor del estadístico necesitamos las probabilidades de los valores,
para ello es preciso estimar previamente el valor de P a partir de los datos de la muestra.
Las llamadas con éxito han sido 1·16 + 2·24 + 3·9 + 4·2 = 99.
serán:
El resto de los cálculos necesarios para obtener el valor del estadístico aparecen
57 0,989
37
5º El estadístico tiene 5 sumandos, pero como hemos estimado un parámetro, debemos buscar en
las tablas de la Ji-cuadrado con 3 grados de libertad. El valor de la variable que deja por debajo una
probabilidad de 0,9 es 6,25.
6º Como el valor del estadístico 0,989 es menor que el valor crítico, 6,25 se acepta la
hipótesis nula.
7º Los resultados obtenidos por los alumnos pueden ser fruto del azar
EJEMPLO 3
38
Ejemplo 4
39
Distribución F
La distribución F de Snedecor, también llamada distribución F de Fisher-Snedecor
o simplemente distribución F, es una distribución de probabilidad continua que se
usa en la inferencia estadística, especialmente en el análisis de la varianza.
Una de las propiedades de la distribución F de Snedecor es que queda definida
por el valor de dos parámetros reales, m y n, que indican sus grados de libertad.
Así pues, el símbolo de la distribución F de Snedecor es F m,n, donde m y n son los
parámetros que definen la distribución.
EJEMPLOS.
1 considere dos muestras de poblaciones que tienen la misma varianza
poblacional. Si la muestra 1 tiene tamaño n1 = 5 y la muestra 2 tiene tamaño n2 =
10, determine la probabilidad teórica que el cociente de sus varianzas respectivas
sea menor o igual a 2.
Solución
Pero se nos dice que las varianzas poblacionales son iguales, por lo que para este
ejercicio se aplica:
40
Ejemplo 2.
Se tienen dos procesos de manufactura de láminas delgadas. La variabilidad del
espesor debe ser lo menor posible. Se toman 21 muestras de cada proceso. La
muestra del proceso A tiene una desviación estándar de 1,96 micras, mientras que
la del proceso B tiene desviación estándar de 2,13 micras. ¿Cuál de los procesos
tiene menor variabilidad? Utilizar un nivel de rechazo del 5%.
Solución
Los datos son los siguientes: Sb = 2,13 con nb = 21; Sa = 1,96 con na = 21. Esto
significa que ha de trabajarse con una distribución F de (20, 20) grados de libertad.
La hipótesis nula implica que la varianza poblacional de ambos procesos es
idéntica, es decir σa^2 / σb^2 = 1. La hipótesis alternativa implicaría varianzas
poblacionales diferentes.
Entonces, bajo la suposición de varianzas poblacionales idénticas, se define el
estadístico F calculado como: F c = (Sb/Sa) ^2.
Como el nivel de rechazo se ha tomado como α= 0,05, entonces α/2= 0,025
La distribución F (0.025; 20,20) = 0,406, mientras que F (0.975; 20,20) = 2,46.
Por lo tanto, la hipótesis nula será cierta si el F calculado cumple: 0,406≤Fc≤2,46.
De lo contrario se rechaza la hipótesis nula.
Como F c= (2,13/1,96) ^2 = 1,18 se concluye que el estadístico Fc está en el
rango de aceptación de la hipótesis nula con una certeza del 95%. En otras
palabras, con una certeza del 95% ambos procesos de manufactura tienen la
misma varianza poblacional.
Ejemplo 3.
41
EJEMPLO 4.
42
UNIDAD # 5 REGRESIÓN LINEAL.
REGRESIÓN Y CORRELACIÓN.
La correlación y la regresión nos ayudan a comprender la relación entre las variables y a predecir
el estado de los pacientes con
La correlación examina la fuerza de la relación entre dos variables, ninguna de las cuales se
considera la variable que uno está
EJEMPLOS
Una compañía desea hacer predicciones del valor anual de sus ventas totales en
cierto país a partir de la relación de éstas y la renta nacional. Para investigar la
relación cuenta con los siguientes datos:
43
1La recta de regresión de Y sobre X.
2El coeficiente de correlación lineal e interpretarlo.
3Si en la renta nacional del país fue de millones de euros. ¿Cuál será la
predicción para las ventas
44
45
2 El coeficiente de correlación lineal e interpretarlo.
EJEMPLO 2.
46
información estadística obtenida de una muestra de tamaño 12
sobre la relación existente entre la inversión realizada y el
rendimiento obtenido en cientos de miles de euros para
explotaciones agrícolas, se muestra en el siguiente cuadro:
Inversión (X), Rendimiento (Y)
Calcular:
47
Calcular:
48
2 La previsión de inversión que se obtendrá con un rendimiento de 1 250 000 €.
EJEMPLO 3.
49
Se pide:
Se pide:
50
]
51
2 calificación estimada para una persona que hubiese
estudiado horas.
EJEMPLO 4
52
1 obtener la recta de regresión de la conducta agresiva en función de la edad.
53
2 A partir de dicha recta, obtener el valor de la conducta agresiva
que correspondería a un niño de 7.2 años.
EJEMPLO 5
Se pide:
1 calcular la covarianza.
2Obtener e interpretar el coeficiente de correlación lineal.
3Ecuación de la recta de regresión de Y sobre X.
Los valores de dos variables X e Y se distribuyen según la tabla siguiente:
54
Se pide:
1 calcular la covarianza.
55
2 obtener e interpretar el coeficiente de correlación lineal.
56
DIAGRAMA DE DISPERCIÓN
En ocasiones, algunos datos dan lugar a puntos anómalos, que se presentan separados del patrón
de puntos. El usuario debe dejar fuera del análisis esos puntos, que quizás son debidos a lecturas
equivocadas o a algún cambio en las condiciones del proceso, etc.
EJEMPLO1:
EJEMPLO 2
Las notas de 12 alumnos de una clase en Matemáticas y Física son las siguientes:
57
Matemáticas Física
2 1
3 3
4 2
4 4
5 4
6 4
6 6
7 4
7 6
8 7
10 9
10 10
EJEMPLO 3
58
EJEMPLO 4.
EJEMPLO 5-
La regresión lineal es una técnica de análisis de datos que predice el valor de datos desconocidos
mediante el uso de otro valor de datos relacionado y conocido. Modela matemáticamente la
variable desconocida o dependiente y la variable conocida o independiente como una ecuación
lineal. Por ejemplo, supongamos que tiene datos sobre sus gastos e ingresos del año pasado. Las
técnicas de regresión lineal analizan estos datos y determinan que tus gastos son la mitad de tus
ingresos. Luego calculan un gasto futuro desconocido al reducir a la mitad un ingreso conocido
futuro.
59
EJEMPLOS
EJEMPLO 1.
EJEMPLO 2.
EJEMPLO 3
EJEMPLO 4.
60
EJEMPLO 5.
CORREALCIÓN.
La correlación es una medida estadística que expresa hasta qué punto dos variables están
relacionadas linealmente (esto es, cambian conjuntamente a una tasa constante). Es una
herramienta común para describir relaciones simples sin hacer afirmaciones sobre causa y efecto.
EJEMLPOS:
EJEMPLO 1.
61
EJEMPLO 2.
EJEMPLO 3.
En una empresa de transportes trabajan cuatro conductores. Los años de antigüedad de permisos de
conducir y el número de infracciones cometidas en el último año por cada uno de ellos son los siguientes:
62
La correlación es perfecta e inversa.
EJEMPLO 4
EJEMPLO 5.
63
DERTERMINACIÓN Y ANALISIS DE LOS COEFICIENGES DE CORRELACIÓN
Y DE DETERMINACIÓN.
¿Qué es el coeficiente de correlación?
Para dos variables, la fórmula compara la distancia de cada dato puntual respecto a la media de la
variable y utiliza esta comparación para decirnos hasta qué punto la relación entre las variables se
ajusta a una línea imaginaria trazada entre los datos. A esto nos referimos cuando decimos que la
correlación examina las relaciones lineales.
EJEMPLOS:
1-
EJEMPLO 2.
Las notas de alumnos de una clase en Matemáticas y Física son las siguientes:
64
Hallar el coeficiente de correlación de la distribución e interpretarlo.
65
2Hallamos las medias aritméticas.
3Calculamos la covarianza.
66
EJEMPLO 3
67
Al ser el coeficiente de correlación negativo, la correlación es inversa.
EJEMPLO 4.
68
EJEMPLO 5.
69
EJEMPLOS.
1.
EJEMPLO 2.
EJEMPLO 3.
70
EJEMPLO 4.
EJEMPLO 5.
las siguientes:
71
INTERVALO DE CONFIANZA Y PRUEBA PARA EL COEFICIENTE DE
CORRELACIÓN.
La razón para crear un intervalo de confianza para un coeficiente de correlación es capturar nuestra
incertidumbre al estimar un coeficiente de correlación de población.
Por ejemplo, supongamos que queremos estimar el coeficiente de correlación entre la altura y el peso de los
residentes de un determinado condado. Dado que hay miles de residentes en el condado, sería demasiado
costoso y llevaría mucho tiempo buscar información sobre la altura y el peso de cada residente.
En su lugar, podríamos seleccionar una muestra aleatoria simple de residentes y simplemente recopilar
información sobre ellos.
EJEMPLOS:
EJEMPLO 1.
Tamaño de muestra n = 30
Coeficiente de correlación entre talla y peso r = 0,56
A continuación, se explica cómo encontrar un intervalo de confianza del 95% para
el coeficiente de correlación de la población:
Paso 1: realizar la transformación de Fisher.
Sea z r = ln (1 + r / 1-r) / 2 = ln (1 + .56 / 1-.56) / 2 = 0.6328
Paso 2: Encuentre los límites superior e inferior del registro.
Deje L = z r – (z 1-α / 2 / √ (n-3)) = .6328 – (1.96 / √ (30-3)) = .2556
Sea U = z r + (z 1-α / 2 / √ (n-3)) = .6328 + (1.96 / √ (30-3)) = 1.01
Paso 3: Encuentre el intervalo de confianza.
Intervalo de confianza = [(e 2L -1) / (e 2L +1), (e 2U -1) / (e 2U +1)]
Intervalo de confianza = [(e 2 (.2556) -1) / (e 2 (.2556) +1), (e 2 (1.01) -1) / (e 2 (1.01) +1)]
= [.2502, .7658]
72
ERRORES DE MEDICIÓN.
El error de medición se define como la diferencia entre el valor medido y el "valor verdadero". Los errores de
medición afectan a cualquier instrumento de medición y pueden deberse a distintas causas. Las que se
pueden de alguna manera prever, calcular, eliminar mediante calibraciones y compensaciones, se denominan
deterministas o sistemáticos y se relacionan con la exactitud de las mediciones. Los que no se pueden prever,
pues dependen de causas desconocidas, o estocásticas se denominan aleatorios y están relacionados con la
precisión del instrumento.
. Atendiendo a su naturaleza los errores cometidos en una medición, los errores admiten una clasificación en
dos grandes vertientes: errores aleatorios y errores sistemáticos:
EJEMPLOS:
Ejemplo 1.
Error aleatorio
Los errores aleatorios son aquellos que se dan cuando se hacen medidas consecutivas de un mismo objeto o
fenómeno, obteniendo valores diferentes en cada caso.
En las ciencias sociales los errores aleatorios están representados por condiciones que afecten de manera
particular a un miembro de la muestra que está siendo analizada.
Ejemplo
Se está estudiando el desempeño de un grupo de alumnos en los deportes. Hay cientos de elementos que
afectan a cada joven, como las horas de sueño que ha tenido, el humor, la condición física, entre otros.
Cabe destacar que estas condiciones no intervienen en la actuación del grupo, sino en la de un solo individuo,
lo que añade diferencias interesantes en los datos obtenidos.
EJEMPLO 2.
Error sistemático
A diferencia de los errores aleatorios, los errores sistemáticos dependen directamente del sistema que se está
empleando para realizar la medición. Por este motivo, son errores constantes.
En las ciencias sociales, el error sistemático se produce cuando hay una condición que afecte de manera
general el desempeño de todos los individuos de la muestra.
Ejemplo
Un grupo de estudiantes debe presentar un examen sorpresa sobre un contenido que no se ha visto a
profundidad en clases.
Se espera que el resultado de la evaluación sea pobre en cada caso, lo que representa un error sistemático.
EJEMPLO 3.
Error despreciativo
Es aquel error que, por ser mínimo, no constituye un problema para las mediciones que se están llevando a
cabo.
Ejemplo
73
Si se está trabajando en metros y la medida varía por 1 milímetro, se considera que este error no es
significativo y el resultado se acepta como correcto.
EJEMPLO 4.
Error significativo
El error significativo es aquel que representa un problema para el trabajo que se está realizando. Si la
diferencia de medidas es muy grande, evidentemente se tratará de un error significativo.
Ejemplo
Cuando se preparan soluciones valoradas (aquellas que requieren medidas precisas de soluto y solvente), un
error en la medición de los componentes siempre será significativo.
EJEMPLO 5.
Muchos de los errores que se cometen al momento de hacer mediciones pueden ser atribuidos a los
instrumentos que se emplean.
Existen algunos instrumentos que requieren ser calibrados para que las medidas obtenidas sean precisas.
Los termómetros deben ser sometidos a mantenimiento y calibración cada cierto tiempo, para que no existan
errores significativos en las medidas de la temperatura.
Ejemplo
Los defectos de fábrica, las deformaciones y otras imperfecciones son algunos ejemplos de los causantes de
errores. Asimismo, los instrumentos están sujetos a desgastarse por el uso.
74
UNIDAD # 6 ESTADISTICA APLICADA
MOESTREO.
Se le conoce como muestreo a la técnica para la selección de una muestra a partir de una población
estadística.
Al elegir una muestra aleatoria se espera conseguir que sus propiedades sean extrapolables a la población.
Este proceso permite ahorrar recursos, y a la vez obtener resultados parecidos a los que se alcanzarían si se
realizase un estudio a toda la población. En las investigaciones llevadas por empresarios y de la medicina se
usa muestreo extensivamente en recoger información sobre poblaciones.
Cabe mencionar que para que el muestreo sea válido y se pueda realizar un estudio adecuado (que consienta
no solo hacer estimaciones de la población sino estimar también los márgenes de error correspondientes a
dichas estimaciones), debe cumplir ciertos requisitos. Nunca podremos estar enteramente seguros de que el
resultado sea una muestra representativa, pero sí podemos actuar de manera que esta condición se alcance
con una probabilidad alta.
En el muestreo, si el tamaño de la muestra es más pequeño que el tamaño de la población, se puede extraer
dos o más muestras de la misma población. Al conjunto de muestras que se pueden obtener de la población
se denomina espacio muestral. La variable que asocia a cada muestra su probabilidad de extracción sigue la
llamada distribución muestral.
EJEMPLOS:
EJEMPLO 1
Por ejemplo, un investigador tiene la intención de recoger una muestra sistemática de 500 personas en una
población de 5000. Numera cada elemento de la población de 1 a 5.000 y elegirá a cada 10 individuos para
que formen parte de la muestra (Población total/tamaño de la muestra = 5.000/500 = 10).
Ejemplo 2
Muestreo aleatorio simple. Un equipo de investigación busca saber cuál es el ingreso promedio de la
población de una ciudad. Para realizar la muestra representativa, se hace una lista de todos los individuos, a
cada uno se le asigna un número y con un programa informático especial se escogen 300.000 personas.
EJEMPLO 3
Muestreo por conglomerados. El Ministerio de Educación busca determinar cuáles son las características que
diferencian las universidades públicas de las privadas. Se eligen muestra representativa diez universidades
públicas y diez privadas al azar.
EJEMPLO 4
EJEMPLO 5
Muestreo aleatorio estratificado. Un equipo de investigadores está analizando las opiniones de la población
sobre la reforma de una ley. Para seleccionar la muestra representativa, se divide la población en cuatro
75
grupos etarios (de 18 a 30 años, de 30 a 45 años, de 46 a 60 años y mayores de 60 años) y después se
escoge a los individuos de manera aleatoria.
EJEMPLO 6
Muestreo por conveniencia. Una empresa de marketing está realizando un estudio sobre los criterios de
elección de marcas de los clientes. Para seleccionar la muestra representativa, se entrevista a personas en
tiendas de ropa y supermercados, que se encuentran en un mismo vecindario.
EJEMPLO 7
Muestreo accidental o consecutivo. Un investigador está estudiando las preferencias de los sujetos en
relación con la literatura. Para seleccionar la muestra representativa, escoge una librería y entrevista a los
clientes que concurran allí en la primera semana de julio
EJEMPLO 8.
Muestreo subjetivo. Un investigador está estudiando la efectividad de las campañas publicitarias televisivas.
Para seleccionar la muestra representativa, escoge a personas que hayan realizado anuncios y a
televidentes.
EJEMPLO 9
Muestreo de bola de nieve. Un grupo de investigadores está haciendo un estudio sobre un servicio secreto de
inteligencia. Para realizar la selección de la muestra representativa, deberá contactar a una persona que haya
trabajado en esta agencia y lograr que brinde además información de otros individuos que quieran participar
en las entrevistas.
EJEMPLO 10
Muestreo por cuotas. Un grupo de investigadores está estudiando la división de las tareas domésticas según
el género. Para seleccionar la muestra representativa, deben tener en cuenta que las mujeres representan el
47,2 % y los hombres el 52,8 % de la población.
EEMPLOS:
Ejemplo 1.
Una empresa de mensajería que opera en la ciudad tarda una media de 35 minutos en llevar un paquete,
con una desviación típica de 8 minutos. Supongamos que durante el día de hoy han repartido 200
paquetes.
a) ¿Cuál es la probabilidad de que la media de los tiempos de entrega de hoy esté entre 30 y 35 minutos?
76
b) ¿Cuál es la probabilidad de que, en total, para los doscientos paquetes hayan estado más de 115 horas?
Consideremos la variable X = “Tiempo de entrega del paquete”. Sabemos que su media es 35 minutos y su
desviación típica, 8. Pero fijaos en que no sabemos si esta variable sigue una distribución normal. Durante
el día de hoy se han entregado n = 200 paquetes. Es decir, tenemos una muestra x1, x2, ..., xn de nuestra
variable.
Por el teorema del límite central sabemos que la media muestral se comporta como una normal de
donde Z es una normal (0,1). Es decir, tenemos una probabilidad aproximada del 0,4616 de que la media
Por lo que respecta a la segunda pregunta, de entrada, debemos pasar las horas a minutos, ya que ésta es
la unidad con la que nos viene dada la variable. Observad que 115 horas por 60 minutos nos dan 6.900
y como que sabemos que la media se distribuye aproximadamente como una normal de media 35 y
desviación típica 0,566 (supondremos siempre que la distribución de la media es normal, ya sea porque la
variable de interés es normal o porque la muestra es lo bastante grande), esta probabilidad se puede
77
EJEMPLO 2.
Dado que la muestra es grande (n=100) podemos aplicar el teorema del límite central. Por lo tanto, la media
de la muestra se aproxima a una distribución normal con los parámetros
Esto es
Calculamos la probabilidad
Necesitamos calcular la probabilidad de que la suma de los elementos de una muestra esté en un cierto
intervalo. Sabemos que la suma de la muestra se aproxima a una distribución normal con los parámetros
78
Esto es
Calculamos la probabilidad
EJEMPLO 3.
Esto es
79
Aproximar la probabilidad usando la distribución normal obtenida
EJEMPLO 4.
La renta media de los habitantes de un país se distribuye uniformemente entre 4,0 millones ptas. y 10,0
millones ptas. Calcular la probabilidad de que al seleccionar al azar a 100 personas la suma de sus rentas
supere los 725 millones ptas.
Cada renta personal es una variable independiente que se distribuye según una función uniforme. Por ello, a
la suma de las rentas de 100 personas se le puede aplicar el Teorema Central del Límite.
m = (4 + 10) / 2 = 7
s 2 = (10 - 4) ^2 / 12 = 3
Por tanto, la suma de las 100 variables se distribuye según una normal cuya media y varianza son:
Para calcular la probabilidad de que la suma de las rentas sea superior a 725 millones ptas, comenzamos por
calcular el valor equivalente de la variable normal tipificada:
Estadística
Luego:
Es decir, la probabilidad de que la suma de las rentas de 100 personas seleccionadas al azar supere los 725
millones de pesetas es tan sólo del 7,49%
ENEMPLO 5.
80
En una asignatura del colegio la probabilidad de que te saquen a la pizarra en cada clase es del 10%. A lo
largo del año tienes 100 clases de esa asignatura. ¿Cuál es la probabilidad de tener que salir a la pizarra más
de 15 veces?
Salir a la pizarra es una variable independiente que sigue el modelo de distribución de Bernouilli:
"No salir a la pizarra", le damos el valor 0 y tiene una probabilidad del 0,9
Por tanto, la suma de las 100 variables se distribuye según una normal cuya media y varianza son:
Para calcular la probabilidad de salir a la pizarra más de 15 veces, calculamos el valor equivalente de la
variable normal tipificada:
Estadística
Luego:
Es decir, la probabilidad de tener que salir más de 15 veces a la pizarra a lo largo del curso es tan sólo del
4,75% (¡¡¡ ánimo !!!, no es tan grave)
81
DISTRIBUCIÓN MJUESTRAL DE LA MEDIA
Se denomina muestreo al proceso por el que generamos las muestras. Una muestra es una parte (un
subconjunto) de la población, y se desea que la muestra sea lo más representativa posible de la población de
la que procede. Sin embargo, por muy cuidadosa que sea la selección de la muestra difícilmente será una
representación exacta de la población. Esto significa que su tendencia central, variabilidad, etc., aproximarán
las de la población, pero habrá cierta diferencia, que interesa sea lo menor posible. Un concepto clave de
muestreo es el de representatividad: Los procedimientos de muestreo tienen por objeto generar muestras lo
más representativas posible de las poblaciones dados los objetivos de la investigación y las circunstancias
que afectan al muestreo.
Desde un punto de vista aplicado, se denomina muestreo el proceso de selección de la muestra o muestras a
utilizar para la investigación. Esto supone generar una o pocas muestras. Actualmente es de interés la
selección de muestras para la simulación informática de los procesos de muestreo, particularmente para la
obtención de distribuciones muestrales. En estos casos el número de muestras generadas puede ser muy
grande (10.000, 80.000, o más) y el procedimiento de muestreo se realiza informáticamente y con
procedimientos específicos.
Desde un punto de vista teórico, el concepto de muestreo es fundamental para la Inferencia Estadística. El
hecho de que las muestras no sean exactamente representativas de las poblaciones significa que las
inferencias presentan cierto margen de incertidumbre. Para cuantificarlo y definir técnicas inferenciales es
necesario conocer cómo se comportan los estadísticos obtenidos en las muestras, esto es, cómo son las
distribuciones muestrales de los estadísticos habitualmente utilizados para la inferencia.
Las muestras singulares generadas para investigación con sujetos suelen utilizarse para obtener algunos
estadísticos (Media, proporción, cuasi varianza, etc.) con los que se realiza el proceso de inferencia. En
cambio, las muestras simuladas por ordenador suelen ser utilizadas para obtener distribuciones muestrales y
realizar inferencia. Esto es de interés cuando se dan circunstancias especiales que no aconsejan utilizar los
procedimientos habituales. Las distribuciones muestrales son las distribuciones de estadísticos de muestras
que pertenecen a la misma población. Por ejemplo, la distribución muestral de la Media es la distribución de
las Medias de muestras de un mismo tamaño extraídas de la misma población.
EJEMPLO 1.
82
denomina población). Pero supongamos que podemos
seleccionar cinco puntuaciones aleatoriamente y obtener la
Media de la muestra. Si repetimos el proceso y generamos más
muestras tendremos más Medias muestrales y podremos ver
cómo se distribuyen:
83
y con 1000 muestras
84
EJEMPLO 2.
EJEMPLO 3.
85
EJEMPLO 4.
86
EJEMPLO 5.
Un estudio realizado por una compañía de seguros de automóviles establece que una de
cada cinco personas accidentadas es mujer. Si se contabilizan, por término medio, 169
accidentes cada fin de semana:
a) ¿Cuál es la probabilidad de que, en un fin de semana, la proporción de mujeres
accidentadas supere el 24 % ?
b) ¿Cuál es la probabilidad de que, en un fin de semana, la proporción de hombres
accidentados supere el 85 % ?
c) ¿Cuál es, por término medio, el número esperado de hombres accidentados cada fin
de semana?
87
DISTRIBICIÓN MUESTRAL DE UNA PROPORCIÓN
La distribución muestral de proporciones permite investigar la proporción de algún atributo en una muestra
(variables cualitativas), se genera como la distribución muestral de medias, a excepción de que al extraer las
muestras de la población se calcula el estadístico proporción en lugar del estadístico promedio.
Además, muchas aplicaciones involucran poblaciones de datos cualitativos que deben compararse utilizando
proporciones o porcentajes, acción que se denomina cálculo de probabilidad del estadístico de diferencia de
proporciones dentro de la distribución muestral con el mismo nombre.
EJEMPLOS 1.
SOLUCIÓN
normal
sería
a)
88
EJEMPLO 2.
contrato. De una encuesta realizada a 950 personas, elegida al azar, 200 de ellas
manifestaron que tenían teléfono móvil de contrato. A la vista de estos resultados y con
un nivel de significación del 5\%, ¿puede admitirse que la proporción de personas con
contraste de hipótesis con hipótesis nula “la proporción p es mayor o igual que 0.25”.
SOLUCIÓN
Contraste
(hipótesis nula)
(hipótesis alternativa)
(tamaño de la muestra)
89
(proporción de la muestra)
al
Miramos la tabla de la N (0,1) y vemos que los más próximo a 0.95 es 0.9495 (1.64) y
0.9505(1.65). Tanto si tomamos 1.64, como si tomamos 1.65 nos deberían dar el
resultado por bueno, no obstante, como está a la misma distancia de ambos, voy a
tomar 1.645 (la mitad entre 1.64 y 1.65).
Por tanto
EJEMPLO 3.
90
Se quiere estimar la proporción de estudiantes que asiste de forma regular al cine. Para ello, se toma una
muestra aleatoria simple de tamaño 300 y se obtiene que, de ellos, 210 acuden con regularidad al cine.
- b) Con el mismo nivel de confianza, siendo la proporción muestral la misma, si queremos que el error sea
menor que 0.02, ¿cuántos alumnos como mínimo hay que elegir en la muestra?
SOLUCIÓN
(proporción de la muestra)
: tamaño de la muestra
confianza:
91
Miramos la tabla de la N(0,1) y obtenemos
b) Con los mismos datos del apartado anterior, si queremos que el error sea menor que 0.02
tendríamos:
92
Tenemos que despejar "n"
Para que el error sea menor que 0.02 deberíamos tomar una muestra
de
EJEMPLO 4.
Tomada, al azar, una muestra de 120 estudiantes de una Universidad se encontró que 54 de ellos hablaban
inglés. Se pretende repetir la experiencia para conseguir que la cota del error que se comete al estimar, por un
93
intervalo de confianza, la proporción de alumnos que hablan inglés en esa Universidad no sea superior a 0,05,
con un nivel de confianza del 99\%. ¿Cuántos alumnos tendríamos que tomar, como mínimo, en la muestra?
SOLUCIÓN
La fórmula del intervalo de confianza para la proporción:
Proporción de la muestra:
Tamaño de la muestra:
94
Sustituyendo en la fórmula por los datos del problema obtenemos n=656.43 aproximadamente, por
tanto, n debe ser mayor o igual que 657 (para que el error sea menor o igual a 0.05)
EJEMPLO 5.
Un estudio sociológico afirma que el 70% de las familias cena viendo la televisión. Se desea contrastar la
veracidad de esta afirmación y, para ello, se toma una muestra de 500 familias, en la que se observa que 340
ven la televisión mientras cenan. Decida, mediante un contraste de hipótesis, si la afirmación es cierta con un
nivel de significación de 0.01.
SOLUCIÓN
Contraste bilateral para la proporción
95
Toma de decisión
La proporción de la muestra es
aceptamos
ESTIMACIÓN.
Estimar qué va a ocurrir respecto a algo (o qué está ocurriendo, o qué ocurrió), a pesar de ser un elemento
muy claramente estadístico, está muy enraizado en nuestra cotidianidad. Dentro de ello, además hacemos
estimaciones dentro de un intervalo de posibilidades. Por ejemplo: “creo que terminaré la tarea en unos 5-6
días”. Lo que hacemos en el terreno del análisis de datos es aplicar matizaciones técnicas a este hábito.
Vamos a dedicar este documento al concepto de estimación, comenzando con la estimación puntual. Después
nos ocuparemos de desarrollar un modelo de estimación por intervalo donde identificaremos los elementos
fundamentales, con su significado y símbolo. Y, por último, habrá que desarrollar cómo se calculan esos
elementos.
EJEMPLO 1
96
EJEMPLO 2.
EJEMPLO 3.
97
EJEMPLO 4.
EJEMPLO 5.
98
ESTIMACIÓN POR INTERVALO.
La estimación por intervalos consiste en establecer el intervalo de valores donde es más probable se
encuentre el parámetro. La obtención del intervalo se basa en las siguientes consideraciones:
a) Si conocemos la distribución muestral del estimador podemos obtener las probabilidades de ocurrencia de
los estadísticos muestrales.
c) El problema es que el parámetro poblacional es desconocido, y por ello el intervalo se establece alrededor
del estimador. Si repetimos el muestreo un gran número de veces y definimos un intervalo alrededor de cada
valor del estadístico muestral, el parámetro se sitúa dentro de cada intervalo en un porcentaje conocido de
ocasiones. Este intervalo es denominado "intervalo de confianza"
EJEMPLO 1.
Se generan 100000 muestras aleatorias (n=25) de una población que sigue la distribución Normal, y resulta:
99
En consecuencia, el intervalo dentro del cual se halla el 95% de las Medias muestrales es
(Nota: Los valores +-1.96 que multiplican la Desviación Típica de la distribución muestral son los valores cuya
función de distribución es igual a 0.975 y 0.025 respectivamente y se pueden obtener en las tablas de la
distribución Normal estandarizada o de funciones en aplicaciones informáticas como Excel). Seguidamente
generamos una muestra de la población y obtenemos su Media, que es igual a 4.5. Si establecemos el
intervalo alrededor de la Media muestral, el parámetro poblacional (5.1) está incluido dentro de sus límites:
Ahora bien, la distancia de un punto A a un punto B es la misma que de B a A. Por esa razón, la distancia
desde m a la Media muestral es la misma que va de la Media muestral a m. En consecuencia, si hacemos un
muestreo con un número grande de muestras observamos que el 95% de las veces (aproximadamente) el
valor de la Media de la población (m) se encuentra dentro del intervalo definido alrededor de cada uno de los
valores de la Media muestral. El porcentaje de veces que el valor de m se halla dentro de alguno de los
intervalos de confianza es del 95%, y es denominado nivel de confianza.
Si queremos establecer un intervalo de confianza en que él % de veces que m se halle dentro del intervalo
sea igual al 99%, la expresión anterior es:
(Obtenemos el valor +-2.58 que multiplica la Desviación Típica de la distribución muestral en las tablas
de la distribución Normal estandarizada o de funciones en aplicaciones informáticas como Excel), y
son los valores cuya función de probabilidad es igual a 0.995 y 0.005 respectivamente).
EJEMPLO 2.
La siguiente imagen muestra la distribución de las Medias muestrales obtenidas de 100000 muestras
aleatorias y los intervalos alrededor de cada una de las Medias obtenidas de diez de las muestras:
donde ls y le simbolizan los límites superior e inferior del intervalo de confianza al 95%.
10
Nueve de los diez intervalos (salvo el definido alrededor de la Media muestral igual a 3.7) incluyen el valor del
parámetro dentro sus límites.
EJEMPLO 3.
Una empresa de investigación llevó a cabo una encuesta para determinar la cantidad media que los
fumadores gastan en cigarrillos durante una semana. La semana encontró que la distribución de cantidades
gastadas por semana tendía a seguir una distribución normal, con una desviación estándar de $5. Una
muestra de 64 fumadores reveló que = $20. a) ¿Cuál es el estimador de intervalo de confianza de 95% para
la μ?
10
EJEMPLO 4.
% La Doctora Patton es profesora de inglés. Hace poco contó el número de palabras con faltas de ortografía
en un grupo de ensayos de sus estudiantes. Observó que la distribución de palabras con faltas de ortografía
por ensayo se regía por una distribución normal con una desviación estándar de 2.44 palabras por ensayo. En
su clase de 40 alumnos de las 10 de la mañana, el número medio de las palabras con faltas de ortografía fue
de 6.05. Construya un intervalo de confianza de 90
EJEMPLO 5,
A asociación Estadounidense de Productores de Azúcar desea calcular el consumo medio de azúcar por año.
Una muestra de 16 personas revela que el
10
INTERVALO DE CONFIANZA PARA UNA MEDIDA.
El intervalo de confianza describe la variabilidad entre la medida obtenida en un estudio y la medida real de la
población (el valor real). Corresponde a un rango de valores, cuya distribución es normal y en el cual se
encuentra, con alta probabilidad, el valor real de una determinada variable.
EJEMPLO:
El peso (en gramos) de las cajas de cereales de una determinada marca sigue una
distribución). N (μ, 5 Se han tomado los pesos de 16 cajas seleccionadas aleatoriamente,
y los resultados obtenidos han sido: 506, 508, 499, 503, 504, 510, 497, 512, 514, 505,
493, 496, 506, 502, 509, 496. a) Obtener los intervalos de confianza del 90%, 95% y 99%
para la media poblacional. b) Determinar cuál sería el tamaño muestral necesario para
conseguir, con un 95% de confianza, un intervalo de longitud igual a 2 gramos. c)
Suponiendo ahora que σ es desconocida, calcular los intervalos de confianza para la
media al 90%, 95% y 99%.
Solución.
a) Estamos situados en el caso de construir un intervalo de confianza para la media
poblacional μ de varianza conocida 25 2 σ =. Sabemos que el intervalo de confianza de
nivel 1 − α, viene dado por:
10
10
EJEMPLO 2.
Una muestra aleatoria extraída de una población normal de varianza 100, presenta
una media muestral x = 160. Con una muestra de tamaño 144, se pide:
generan.
Solución:
más preciso, pero no olvidemos que su nivel de confianza es también menor (el 90 por
10
EJEMPLO 3,
10
EJEMPLO 4.
10
EJEMPLO 5.
Se selecciona una muestra aleatoria de 600 familias, a las que se pregunta si tienen o no
ordenador en casa. Contestaron afirmativamente 240 familias. Obtener un intervalo de
confianza al nivel del 95% para la proporción real de familias que poseen ordenador en
casa.
Solución:
La característica en estudio es dicotómica, tenemos que construir un intervalo de
confianza para el parámetro p (proporción) de la variable aleatoria binomial asociada al
estudio de la característica. Como el tamaño de la muestra es suficientemente grande, n =
600, se puede utilizar la aproximación normal.
10
Por ejemplo, supongamos que queremos estimar la proporción de personas en un determinado
condado que están a favor de una determinada ley. Dado que hay miles de residentes en el
condado, sería demasiado costoso y llevaría mucho tiempo preguntar a cada residente sobre su
postura sobre la ley.
En cambio, podríamos seleccionar una muestra aleatoria simple de residentes y preguntar a cada
uno si apoyan o no la ley:
Dado que seleccionamos una muestra aleatoria de residentes, no hay garantía de que la
proporción de residentes en la muestra que están a favor de la ley coincida exactamente con la
proporción de residentes en todo el condado que están a favor de la ley. Entonces, para capturar
esta incertidumbre, podemos crear un intervalo de confianza que contenga un rango de valores
que probablemente contengan la verdadera proporción de residentes que están a favor de la ley en
todo el condado.
Usamos la siguiente fórmula para calcular un intervalo de confianza para una proporción de
población:
dónde:
p: proporción de la muestra
z: el valor z elegido
n: tamaño de la muestra
El valor z que utilizará depende del nivel de confianza que elija. La siguiente tabla muestra el valor
z que corresponde a las opciones de nivel de confianza más populares:
EJEMPLOS
EJEMPLO 1
Supongamos que se contrata a una compañía de estudios de mercado para que estime el
porcentaje de adultos que viven en una gran ciudad y que tienen teléfonos móviles. Se encuestan
quinientos residentes adultos seleccionados al azar en esta ciudad para determinar si tienen
teléfonos móviles. De las 500 personas incluidas en la muestra, 421 respondieron que sí: tienen
teléfonos móviles. Utilizando un nivel de confianza del 95 %, calcule una estimación del intervalo
de confianza para la verdadera proporción de residentes adultos de esta ciudad que tienen
teléfonos móviles.
Solución
10
n = 500
p′=xn=421500=0,842
q′ = 1 – p′ = 1 – 0,842 = 0,158
Esto se puede calcular utilizando la tabla de probabilidad normal estándar del A - CUADROS
ESTADÍSTICOS. Esto también se puede encontrar en la tabla t de los estudiantes en la columna
de 0,025 y en infinitos grados de libertad porque en infinitos grados de libertad la distribución de los
estudiantes se convierte en la distribución normal estándar, Z.
EJEMPLO 2.
11
EJEMPLO 3.
Un responsable financiero de una compañía quiere estimar el porcentaje de cuentas por
cobrar que llevan más de 30 días de retraso. Analiza 500 cuentas y descubre que 300
tienen más de 30 días de retraso. Calcule un intervalo de confianza del 90 % para el
verdadero porcentaje de cuentas por cobrar con más de 30 días de retraso, e interprete el
intervalo de confianza.
EJEMPLO 4.
11
Suponga que queremos estimar la proporción de residentes en un condado que están a favor de
una determinada ley. Seleccionamos una muestra aleatoria de 100 residentes y les preguntamos
sobre su postura sobre la ley. Aquí están los resultados:
Intervalo de confianza del 90%: 0,56 +/- 1,645 * (√ .56 (1-.56) / 100) = [0,478, 0,642]
Intervalo de confianza del 95%: 0,56 +/- 1,96 * (√ .56 (1-.56) / 100) = [0,463, 0,657]
Intervalo de confianza del 99%: 0,56 +/- 2,58 * (√ .56 (1-.56) / 100) = [0,432, 0,688]
Nota: También puede encontrar estos intervalos de confianza utilizando el intervalo de confianza
para la calculadora de proporciones.
EJEMPLO 5.
Un gerente de un canal de televisión debe estimar que porcentaje de hogares tienen más de un
televisor. Una muestra aleatoria de 500 hogares revela que 275 de ellos tiene 2 o más televisores.
¿Cuál es el intervalo de confianza a un nivel de confianza del 90% para estimar la proporción de
hogares que tienen 2 o más televisores? Entonces tenemos que:
PRUEBA DE HIPOTESIS.
Una prueba de hipótesis es una regla que especifica si se puede aceptar o rechazar una afirmación acerca de
una población dependiendo de la evidencia proporcionada por una muestra de datos.
Una prueba de hipótesis examina dos hipótesis opuestas sobre una población: la hipótesis nula y la hipótesis
alternativa. La hipótesis nula es el enunciado que se probará. Por lo general, la hipótesis nula es un
enunciado de que "no hay efecto" o "no hay diferencia". La hipótesis alternativa es el enunciado que se desea
poder concluir que es verdadero de acuerdo con la evidencia proporcionada por los datos de la muestra.
11
Con base en los datos de muestra, la prueba determina si se puede rechazar la hipótesis nula. Usted utiliza el
valor p para tomar esa decisión. Si el valor p es menor que el nivel de significancia (denotado como α o alfa),
entonces puede rechazar la hipótesis nula.
Un error común de percepción es que las pruebas estadísticas de hipótesis están diseñadas para seleccionar
la más probable de dos hipótesis. Sin embargo, al diseñar una prueba de hipótesis, establecemos la hipótesis
nula como lo que queremos desaprobar. Puesto que establecemos el nivel de significancia para que sea
pequeño antes del análisis (por lo general, un valor de 0.05 funciona adecuadamente), cuando rechazamos la
hipótesis nula, tenemos prueba estadística de que la alternativa es verdadera. En cambio, si no podemos
rechazar la hipótesis nula, no tenemos prueba estadística de que la hipótesis nula sea verdadera. Esto se
debe a que no establecimos la probabilidad de aceptar equivocadamente la hipótesis nula para que fuera
pequeña.
EJEMPLOS:
EJEMPLO 1.
Un criador de pollos sabe por experiencia que el peso de los pollos de cinco meses es 4,35 libras. Los pesos
siguen una distribución normal. Para tratar de aumentar el peso de dichas aves se le agrega un aditivo al
alimento. En una muestra de pollos de cinco meses se obtuvieron los siguientes pesos (en libras).
4,41 4,37 4,33 4,35 4,30 4,39 4,36 4,38 4,40 4,39
En el nivel 0,01, ¿el aditivo ha aumentado el peso medio de los pollos? Estime el valor de p.
11
EJEMPLO 2.
Una empresa que se dedica a hacer en cuestas se queja de que un agente realiza en promedio 53 encuestas
por semana. Se ha introducido una forma más moderna de realizar las encuetas y la empresa quiere evaluar
su efectividad. Los números de encuestas realizadas en una semana por una muestra aleatoria de agentes
son:
53 57 50 55 58 54 60 52 59 62 60 60 51 59 56
En el nivel de significancia 0,05, ¿puede concluirse que la cantidad media de entrevistas realizadas por los
agentes es superior a 53 por semana? Evalúe el valor p.
11
EJEMPLO 4.
Lisa Monín es directora de presupuesto en la empresa New Process Company, desea comparar los gastos
diarios de transporte del equipo de ventas y del personal de cobranza. Recopiló la siguiente información
muestral (importe en dólares).
Al nivel de significancia de 0,10, ¿puede concluirse que los gastos medios diarios del equipo de ventas son
mayores? cuál es el valor p?
11
EJEMPLO 4.
El rector de cierta universidad piensa que, durante los últimos años, la edad promedio de los estudiantes que
asisten a esta institución ha cambiado. Se realiza un estudio en que se mide la edad de 150 alumnos elegidos
al azar entre todos los estudiantes de este centro de educación superior. La edad promedio es de 23,5 años.
Un censo realizado en la universidad, unos cuantos años antes del estudio, revelo una edad promedio de 22,4
años; con una desviación estándar de 7,6. Utilice un nivel de significancia del 0,05.
EJEMPLO 5.
Se lleva a cabo un estudio para comparar la eficacia de dos métodos de enseñanza de un tema sobre
estadística:
A. Conferencias en el grupo
11
B. asesoría personalizada
11
ERRORES TIPO I Y II.
Ninguna prueba de hipótesis es 100% cierta. Puesto que la prueba se basa en probabilidades, siempre existe
la posibilidad de llegar a una conclusión incorrecta. Cuando usted realiza una prueba de hipótesis, puede
cometer dos tipos de error: tipo I y tipo II. Los riesgos de estos dos errores están inversamente relacionados y
se determinan según el nivel de significancia y la potencia de la prueba. Por lo tanto, usted debe determinar
qué error tiene consecuencias más graves para su situación antes de definir los riesgos.
Error de tipo I
Si usted rechaza la hipótesis nula cuando es verdadera, comete un error de tipo I. La probabilidad de cometer
un error de tipo I es α, que es el nivel de significancia que usted establece para su prueba de hipótesis. Un α
de 0.05 indica que usted está dispuesto a aceptar una probabilidad de 5% de estar equivocado al rechazar la
hipótesis nula. Para reducir este riesgo, debe utilizar un valor menor para α. Sin embargo, usar un valor menor
para alfa significa que usted tendrá menos probabilidad de detectar una diferencia si está realmente existe.
Error de tipo II
Cuando la hipótesis nula es falsa y usted no la rechaza, comete un error de tipo II. La probabilidad de cometer
un error de tipo II es β, que depende de la potencia de la prueba. Puede reducir el riesgo de cometer un error
de tipo II al asegurarse de que la prueba tenga suficiente potencia. Para ello, asegúrese de que el tamaño de
la muestra sea lo suficientemente grande como para detectar una diferencia práctica cuando está realmente
exista.
EJEMPLOS.
EJEMPLO 1.
Un determinado tratamiento en fase experimental afirma tener una tasa de curación de, al menos, el 84 \%
para las personas mayores de 60 años contra la diabetes. Describa los errores tipo I y tipo II en este contexto,
y además, determine cuál error es más grave.
SOLUCIÓN:
Identificamos los escenarios con los errores tipo I y II y vemos cual tiene consecuencias mas graves:
Error tipo I:
Una persona mayor de años con diabetes cree que la tasa de curación del tratamiento es inferior
al , cuando en realidad es de, al menos, el .
Una persona mayor de años con diabetes cree que el tratamiento tiene un índice de curación de, al
menos, el cuando su índice de curación es inferior al .
11
Como podemos analizar, el error tipo II contiene la consecuencia más grave ya que, si una persona cree que
el tratamiento funciona, al menos, el de las veces, lo más probable es que esto influya en la decisión
de la persona sobre la conveniencia de utilizar el tratamiento como opción de curación o no.
EJEMPLO 2.
Supongamos que la hipótesis nula, , es: El equipo de escalada de Frank es seguro. Indiquemos cuales
serían el error tipo I y II.
SOLUCIÓN:
Identificamos los escenarios con los errores tipo I y II y vemos cual tiene consecuencias mas graves:
Error tipo I:
Frank piensa que su equipo de escalada puede no ser seguro cuando, en realidad, sí lo es.
Frank cree que su equipo de escalada puede ser seguro cuando, en realidad, no lo es.
Notemos que, en este caso, el error con mayores consecuencias es el tipo II, puesto que al creerse que es
seguro cuando en realidad no lo es podría traer muchos accidentes.
EJEMPLO 3.
Supongamos que la hipótesis nula, , es: La víctima de un accidente de tráfico está viva cuando llega a la
sala de urgencias de un hospital.
Indiquemos cuales serían el error tipo I y II. ¿Cuál tendría consecuencias más graves?
Identificamos los escenarios con los errores tipo I y II y vemos cual tiene consecuencias más graves:
Error tipo I:
El equipo de emergencia cree que la víctima está muerta cuando, en realidad, está viva.
El equipo de emergencia cree que la víctima está viva cuando, en realidad, está muerta.
El error con mayores consecuencias es el error tipo I, puesto que si el equipo de emergencia cree que la
víctima está muerta (cuando en realidad está viva), no la atenderán y eso podría atraer consecuencias graves
como que en verdad muera.
EJEMPLO 4.
11
Unos expertos en control de calidad quieren probar la hipótesis nula de que un nuevo panel solar no es más
eficaz que el modelo viejo.
En el error tipo II aceptamos la hipótesis nula cuando en realidad esta es falsa, es decir, aceptamos que un
nuevo panel solar no es más eficaz que el modelo viejo, cuando en realidad sí lo es.
Error tipo I:
En el error tipo I rechazamos la hipótesis nula cuando en realidad esta es verdadera, es decir, el nuevo panel
no es más eficaz y concluimos que sí lo es.
EJEMPLO 5.
Los laboratorios genéticos "It’s a Boy" afirman poder aumentar la probabilidad de elegir el sexo del bebé, en
ese caso, masculino. Los estadísticos quieren poner a prueba esta afirmación. Supongamos que la hipótesis
nula es: Los laboratorios genéticos It’s a Boy no tienen efecto en el resultado del sexo.
Error tipo I:
El error tipo I resulta cuando se rechaza una hipótesis nula que en realidad es verdadera. En este caso,
afirmaríamos que creemos que los laboratorios genéticos It’s a Boy influyen en el resultado del sexo, cuando
en realidad no tienen ningún efecto.
Este tipo de error se produce cuando no se rechaza una hipótesis nula que es falsa. En el contexto,
afirmaríamos que los laboratorios genéticos It’s a Boy no influyen en el resultado del sexo de un bebé cuando,
de hecho, sí lo hacen.
El proceso de prueba de hipótesis sigue un procedimiento simple de cuatro pasos. Este proceso será lo que
usemos para lo que quede del libro de texto y curso, y aunque la hipótesis y las estadísticas que usemos
cambiarán, este proceso no lo hará.
Paso 1: Exponer las Hipótesis Tus hipótesis son lo primero que debes exponer. De lo contrario, ¡no hay nada
que probar! Hay que exponer la hipótesis nula (que es lo que probamos) y la hipótesis alternativa (que es lo
que esperamos). Estos deben ser declarados matemáticamente tal y como fueron presentados anteriormente
12
Y en palabras, explicando en inglés normal lo que cada uno quiere decir en términos de la pregunta de
investigación.
Paso 2: Encuentra los Valores Críticos A continuación, establecemos formalmente los criterios que usaremos
para probar nuestras hipótesis. Hay dos piezas de información que informan nuestros valores críticos: α
, que determina qué parte del área bajo la curva compone nuestra región de rechazo, y la direccionalidad de
la prueba, que determina dónde estará la región.
Paso 3: Calcular el estadístico de prueba Una vez que tenemos nuestras hipótesis y los estándares que
utilizamos para probarlas, podemos recopilar datos y calcular nuestro estadístico de prueba, en este caso z
. Este paso es donde surgirán la gran mayoría de las diferencias en futuros capítulos: diferentes pruebas
utilizadas para diferentes datos se calculan de diferentes maneras, pero la forma en que las usamos e
interpretamos sigue siendo la misma.
Paso 4: Tomar la Decisión Finalmente, una vez que tengamos nuestro estadístico de prueba obtenido,
podemos compararlo con nuestro valor crítico y decidir si debemos rechazar o no rechazar la hipótesis nula.
Cuando hacemos esto, debemos interpretar la decisión en relación con nuestra pregunta de investigación,
indicando qué concluimos, en qué basamos nuestra conclusión y las estadísticas específicas que obtuvimos.
EJEMPLOS
Ejemplo 1: Biología
Las pruebas de hipótesis se utilizan a menudo en biología para determinar si algún nuevo tratamiento,
fertilizante, pesticida, químico, etc. causa un aumento del crecimiento, resistencia, inmunidad, etc. en plantas
o animales.
Por ejemplo, suponga que un biólogo cree que cierto fertilizante hará que las plantas crezcan más durante un
período de un mes de lo que con normalidad crecen, que actualmente es de 20 pulgadas. Para probar esto,
aplica el fertilizante a cada una de las plantas en su laboratorio durante un mes.
H 0: μ = 20 pulgadas (el fertilizante no tendrá ningún efecto sobre el crecimiento medio de la planta)
H A: μ> 20 pulgadas (el fertilizante hará que aumente el crecimiento medio de la planta)
Si el valor p de la prueba es menor que algún nivel de significancia (por ejemplo, α = .05), entonces ella puede
rechazar la hipótesis nula y concluir que el fertilizante conduce a un mayor crecimiento de la planta.
Por ejemplo, suponga que un médico cree que un nuevo medicamento puede reducir la presión arterial en
pacientes obesos. Para probar esto, puede medir la presión arterial de 40 pacientes antes y después de usar
el nuevo medicamento durante un mes.
H 0: μ después = μ antes (la presión arterial media es la misma antes y después de usar el medicamento)
H A: μ después de <μ antes (la presión arterial media es menor después de usar el medicamento)
12
Si el valor p de la prueba es menor que algún nivel de significancia (por ejemplo, α = .05), entonces puede
rechazar la hipótesis nula y concluir que el nuevo fármaco conduce a una reducción de la presión arterial.
Por ejemplo, supongamos que una empresa cree que gastar más dinero en publicidad digital genera un
aumento de las ventas. Para probar esto, la empresa puede aumentar el dinero gastado en publicidad digital
durante un período de dos meses y recopilar datos para ver si las ventas generales han aumentado.
H 0: μ después = μ antes (la media de ventas es la misma antes y después de gastar más en publicidad)
H A: μ después > μ antes (las ventas medias aumentaron después de gastar más en publicidad)
Si el valor p de la prueba es menor que algún nivel de significancia (por ejemplo, α = .05), entonces la
empresa puede rechazar la hipótesis nula y concluir que un aumento de la publicidad digital conduce a un
aumento de las ventas.
Ejemplo 4: Fabricación
Las pruebas de hipótesis también se utilizan a menudo en las plantas de fabricación para determinar si algún
nuevo proceso, técnica, método, etc. provoca un cambio en el número de productos defectuosos producidos.
Por ejemplo, supongamos que una determinada planta de fabricación quiere probar si algún método nuevo
cambia o no la cantidad de widgets defectuosos producidos por mes, que actualmente es 250. Para probar
esto, pueden medir la cantidad media de widgets defectuosos producidos antes y después de usar el nuevo
método durante un mes.
Luego pueden realizar una prueba de hipótesis utilizando las siguientes hipótesis:
H 0 : μ después = μ antes (el número medio de widgets defectuosos es el mismo antes y después de usar
el nuevo método)
H A : μ después de ≠ μ antes (el número medio de widgets defectuosos producidos es diferente antes y
después de usar el nuevo método)
Si el valor p de la prueba es menor que algún nivel de significancia (por ejemplo, α = .05), entonces la planta
puede rechazar la hipótesis nula y concluir que el nuevo método conduce a un cambio en el número de
dispositivos defectuosos producidos por mes.
12
PRUEBA DE HIPOTEISIS PARA LA MEDIA.
La prueba de hipótesis para la media es un método estadístico que se usa para rechazar o no la hipótesis
nula de una media poblacional.
Cabe destacar que las pruebas de hipótesis se llaman de maneras diferentes, en estadística también se
conocen como contrastes de hipótesis, test de hipótesis o pruebas de significación.
A continuación, vamos a ver cómo se calcula el estadístico de la prueba de hipótesis para la media. No
obstante, la fórmula varia ligeramente según si se conoce la varianza o no, por lo que primero veremos cómo
se hace cuando la varianza es conocida y luego cuando la varianza es desconocida.
Donde:
Una vez se ha calculado el estadístico de la prueba de hipótesis para la media, se debe interpretar el
resultado para rechazar o no la hipótesis nula:
12
Si la prueba de hipótesis para la media corresponde a la cola izquierda, se rechaza la
hipótesis nula si el estadístico es menor que el valor crítico -Zα.
EJEMPLOS:
EJEMPLO 1.
PASO 3. Encontrar la región critica o de rechazo para un nivel de significancia α= 0.05. Para esto debemos de
saber que el valor del área bajo la curva 0.05 (por el valor de α)se encuentra al lado derecho del valor Z pero
el valor que debemos encontrar para usar la tabla es el de 1- α por lo tanto para encontrar el valor critico
debemos buscaren la tabla de distribución normal 1- 0.05 = 0.95, como no encontramos en valor
exacto usaremos 0.9495 que le corresponde el valor Z de 1.64
12
Como se puede ver en la ilustración anterior el valor z encontrado por la formula sé encuentra dentro la región
de rechazo (en color amarillo) por lo que vamos a rechazarla hipótesis nula H0 por lo tanto vamos a dar como
“aceptada” la hipótesis alternativa que nos dice que el promedio de vida es mayor a 70. Por lo que nuestra
conclusión sería: que la vida promedio actual es mayor a 70 años.
Ejemplo 2
Un fabricante de equipo deportivo desarrolló un nuevo sedal para pesca sintético que afirma que tiene una
resistencia media a la rotura de 8 kilogramos con una desviación estándar de 0.5 kilogramos. Pruebe la
hipótesis de que μ = 8 kilogramos contra la
alternativa de que μ ≠ 8 kilogramos, si se prueba una muestra aleatoria de 50 sedales y se encuentra que
tiene una resistencia media a la rotura de 7.8 kilogramos. Utilice un nivel de significancia de 0.01.
DATOS.
=0.5
n=50
=7.8
α= 0.01
PASO 1. Formulemos las hipótesis de acuerdo con lo que nos menciona el ejemplo que nos dice “pruebe la
hipótesis de que μ = 8 kilogramos contra la alternativa de que μ ≠8 kilogramos” por lo tanto las hipótesis
quedan de la siguiente manera: H0: μ = 8 kilogramos. H1: μ ≠ 8 kilogramos
12
z = = = -2.8288PASO
2. Encontrar la región critica o de rechazo para un nivel de significancia α= 0.01. Para esto recordemos
que por el signo de la hipótesis alternativa ≠, sabemos que es una prueba de dos colas, por lo tanto,
para encontrar el valor de Z debemos de dividir el valor de α entre 2, α /2 que en nuestro caso es de
0.01 / 2 = 0.005 y restar a 1 el valor de α /2, es decir 1- α /2= 1-0.005 =0.995. El valor de 0.995 es el
valor que vamos a buscar en las tablas y nos da un valor de z= 2.57. Aprovechando la simetría de la
curva normal tenemos que las regiones de rechazo se encontrarán en 2.57 y -2.5
PASO 4. Conclusiones
12
Como el valor de z calculado cae en una de las regiones de rechazo, la hipótesis nula se rechaza por lo tanto
la conclusión es que la resistencia media a la rotura no es igual a 8 kg
Ejemplo 3:
El Instituto Eléctrico Edison publica cifras del número anual de kilowatts-hora que gastan varios
aparatos electrodomésticos. Se afirma que la aspiradora gasta un promedio de 46 kilowatts-hora al
año. Si una muestra aleatoria de 12 hogares que se incluye en un estudio planeado indica que las aspiradoras
gastan un promedio de 42kilowatts-hora al año con una desviación estándar de 11.9 kilowatts-hora, ¿en un
nivel de significancia de 0.05 esto sugiere que las aspiradoras gastan, en promedio, menos de 46 kilowatts-
hora anualmente? Suponga que la población de kilowatts-hora es normal.
DATOS.
n=12
= 42 kw
S=11.9
α=0.05
H0: μ = 46 kilowatts-hora.
t = = = -1.1644
PASO 3. Con el nivel de significancia de α=0.05 encontraremos los valores de t. Para esto, utilizaremos en
valor de α= 0.05 y con grados de libertad v= n-1= 12-1=11, si buscamos este valor en la tabla de distribución t
encontramos que es de 1.796. Dado el signo de la hipótesis alterna sabemos que la región de rechazo se
encuentra en el lado negativo por lo que aprovechando la propiedad de la curva de distribución
t que también es simétrica podemos decir que t= -1.796.
12
PASO 4. Conclusiones. Como la t calculada cae dentro de la región de aceptación no rechazamos H0 , por lo
tanto podemos concluir que las aspiradoras domesticas gastan en promedio 46kilowatts-hora al
año.
EJEMPLO 4.
Se lleva a cabo un experimento para comparar el desgaste por abrasivos de dos diferentes
materiales laminados. Se prueban 12 piezas del material 1 exponiendo cada pieza a una máquina para medir
el desgaste. Diez piezas del material 2 se prueban de manera similar. En cada caso, se observa la
profundidad del desgaste. Las muestras del material 1 dan un desgaste promedio de 85 unidades con una
desviación estándar muestral de 4; en tanto que las muestras del material 2 dan un promedio de 81 y una
desviación estándar muestral de 5. Podríamos concluir, con un nivel de significancia de0.05, que el desgaste
abrasivo del material 1 excede el del material 2 en más de 2unidades? Suponga que las poblaciones son
aproximadamente normales con varianzas iguales.
DATOS:
α= 0.05
PASO 1. Formular la hipótesis. Recordemos que generalmente a la hipótesis nula se asigna el signo de
igualdad, en este caso tenemos dos medias y se deben de considerar. La hipótesis alternativa se
formula en base a el enunciado del ejemplo en donde nos dice “que el desgaste abrasivo del material 1
excede el del material 2 en más de 2 unidades” por lo que quedan de la siguiente manera.
H0: μ1 − μ2 = 2.
12
H1: μ1 − μ2 > 2.
PASO 3. Encontrar t de tablas con un nivel de significancia α=0.05 y con grados de libertad v= n1 + n2 – 2,
que es igual a 12+10 – 2 = 20.
12
PASO 4. Conclusiones. Como el valor calculado de t cae en la zona de aceptación NO se rechaza H0 por lo
que podemos concluir que la diferencia entre los materiales 1 y 2 promedio en el desgaste abrasivo es igual a
2.
Ejemplo 5.
Cuando Jeffrey tenía ocho años estableció un tiempo medio de 16,43 segundos al
nadar las 25 yardas en estilo libre, con una desviación típica de 0,8 segundos. Su
padre, Frank, pensó que Jeffrey podría nadar más rápido las 25 yardas en estilo
libre si utilizaba gafas para nadar. Frank le compró a Jeffrey un nuevo par de gafas
para nadar costosas y cronometró 15 veces que nadó las 25 yardas en estilo libre.
En las 15 veces, el tiempo medio de Jeffrey fue de 16 segundos. Frank pensó que
las gafas para nadar ayudaron a Jeffrey a nadar más rápido que los 16,43
segundos. Realice una prueba de hipótesis con un α preestablecido = 0,05.
Solución
Establezca la prueba de la hipótesis:
13
Dado que el problema se refiere a una media, se trata de una prueba de una única
media poblacional.
Establezca las hipótesis nula y alternativa:
En este caso hay una impugnación o reclamo implícitos. Esto es que las gafas
reducirán el tiempo de natación. El efecto es formular la hipótesis como una
prueba de una cola. El planteamiento siempre estará en la hipótesis alternativa
porque la carga de la prueba siempre recae en la alternativa. Recuerde que el
statu quo deberá derrotarse con un alto grado de confianza, en este caso del 95
%. Las hipótesis nula y alternativa son las siguientes:
H0: μ ≥ 16,43 Ha: μ < 16,43
Para que Jeffrey nade más rápido, su tiempo debiera ser inferior a 16,43
segundos. El “<” indica que es de cola izquierda.
Determine la distribución necesaria:
Variable aleatoria: X= el tiempo medio para nadar las 25 yardas de estilo libre.
Distribución para el estadístico de prueba:
El tamaño de la muestra es inferior a 30 y no conocemos la desviación típica de la
población, por lo que se trata de una prueba t y la fórmula adecuada es:
13
El paso 3 es el cálculo del estadístico de la prueba con la fórmula seleccionada.
Hallamos que el estadístico de prueba es 2,08, lo que significa que la media
muestral está a 2,08 desviaciones típicas de la media hipotética de 16,43.
Ten en cuenta que las pruebas de hipótesis también se pueden llamar contrastes
de hipótesis, test de hipótesis o pruebas de significación.
EJEMPLOS:
EJEMPLO 1.
13
Una vez hemos visto la definición de la prueba de hipótesis para la proporción y
cuál es su fórmula, vamos a resolver un ejemplo para entender mejor el concepto.
La proporción de personas de la
muestra que se han curado con el
medicamento es:
13
Por otro lado, como el nivel de significación es 0,05 y es una prueba de hipótesis
de dos colas, el valor crítico de la prueba es 1,96.
EJEMPLO 2.
13
EJEMPLO 2.
13
Un artículo reciente, publicado en el diario USA today, indica que solo a uno de
cada tres egresados de una universidad les espera un puesto de trabajo. En una
investigación a 200 egresados recientes de su universidad, se encontró que 80
tenían un puesto de trabajo. Puede concluirse en el nivel de significancia 0,02,
¿que en su universidad la proporción de estudiantes que tienen trabajo es mayor?
13
EJEMPLO 3.
Al nivel de significancia 0,02, ¿puede decirse que hay una proporción mayor de
Demócratas a favor de reducir los estándares?
13
EJEMPLO 4.
13
EJEMPLO 5.
13