New Trabajo de Word

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 141

INSTITUTO TECNOLÓGICO SUPERIOR DE

FRESNILLO.

DOCENTE: JESÚS ADDIEL GÓMEZ VALDEZ.

ALUMNO: JUAN MANUEL VÁZQUEZ RAYGOZA.

CARRERA: INGENIERÍA EN MINERÍA.

MATERIA: PROBABILIDAD Y ESTADÍSTICA.

TRABAJO FINAL. UNIDADES, 4.- DISTRIBUCIÓN DE


PROBABILIDAD.
5.- REGRESIÓN LINEAL
6.- ESTADÍSTICA APLICADA.

31 DE MAYO 2023.
Función de probabilidad
Una función de probabilidad, también llamada función de masa de probabilidad es una función
matemática que describe la probabilidad de que una variable aleatoria discreta tome un
determinado valor. Es decir, una función de probabilidad devuelve la probabilidad asociada a que
una variable discreta sea exactamente igual a un valor.

Por ejemplo, la probabilidad de sacar cualquier número al lanzar un dado es de 1/6 (un dado tiene
seis caras), por lo tanto, la función de probabilidad asociada a este espacio muestral será igual a
1/6 para cualquier valor.

EJEMPLOS:

Ejemplo 1.

Calcular la distribución de probabilidad de las puntuaciones obtenidas al lanzar un dado.

p
x
i

1
Representación

La representación de una distribución discreta de probabilidad es un


diagrama de barras.

Función de probabilidad de la distribución binomial

La función de probabilidad de la distribución binomial, también


denominada función de la distribución de Bernoulli es:

n es el número de pruebas.
k es el número de éxitos.
p es la probabilidad de éxito.
q es la probabilidad de fracaso.

El número combinatorio

Ejemplo 2.

La última novela de un autor ha tenido un gran éxito, hasta el punto de que el 80%
de los lectores ya la han leído. Un grupo de 4 amigos son aficionados a la lectura:
¿Cuál es la probabilidad de que el grupo hayan leído la novela 2 personas?
n=4

2
p = 0.8

q = 0.2

B (4, 0.2)

Ejemplo 3.

Ejemplo de función de probabilidad

Ahora que ya sabemos la definición y las características de la función de


probabilidad, vamos a ver un ejemplo de este tipo de función probabilística.

 Calcula las probabilidades de sacar cara 0, 1, 2, 3 y 4 veces


haciendo cuatro lanzamientos de monedas independientes.
Luego grafica la función de probabilidad hallada.

En primer lugar, tenemos que calcular las probabilidades de obtener cara, para
ello, se deben dividir los casos posibles entre el número total de casos. Puedes
ver el cálculo de todas las probabilidades en la siguiente tabla:

Y una vez hemos calculado todas las probabilidades, podemos representar


los valores de la función de probabilidad en una gráfica:

3
Como puedes comprobar, la función probabilística del ejercicio cumple
todas la

s propiedades de las funciones de probabilidades, ya que todos sus valores


están entre 0 y 1 y, además, la suma de todos sus valores es equivalente a
1.

Ejemplos 3.

Tomemos como ejemplo el lanzamiento dos monedas. La variable aleatoria X


toma los siguientes valores para cada caso:
(cara cara) → x1
(cara-cruz, cruz-cara) → x2
(cruz-cruz) → x3
En el caso anterior, la función P(xi) = pi da los siguientes resultados:
P(x1) = p1 = 0,25
P(x2) = p2 = 0,5
P(x3) = p3 = 0,25

Vemos que se cumple que la suma de probabilidades de cada caso es igual a 1:

Σ pi = p1 + p2 + p3 = 0,25 + 0,5 + 0,25 = 1

Ejemplo 4.

4
Extracción de tres bolas de una urna que contiene 6 bolas blancas y 4 negras. Si
consideramos la variable aleatoria número de bolas negras extraídas.

Ejemplo 5.

1. Se tiene una urna con 12 bolitas rojas, 15 verdes y 13 azules y se extrae una al azar.
Como la variable aquí es cualitativa, se asigna un número a las bolitas rojas, otro a las
verdes y otro a las azules.

5
Y su gráfico es:

En este ejemplo la función de probabilidad se define como:

6
DISTRIBUCIÓN BIOMINAL.
En teoría de la probabilidad y estadística, la distribución binomial o distribución
binomial es una distribución de probabilidad discreta que cuenta el número de éxitos en
una secuencia de ensayos de Bernoulli independientes entre sí con una probabilidad
fija de ocurrencia de éxito entre los ensayos. Un experimento de Bernoulli se caracteriza
por ser dicotómico, esto es, solo dos resultados son posibles, a uno de estos se le
denomina “éxito” y tiene una probabilidad de ocurrencia y al otro se le denomina “fracaso”
y tiene una probabilidad
La distribución binomial se utiliza con frecuencia para modelizar el número de aciertos en
una muestra de tamaño n extraída con reemplazo de una población de tamaño N. Si el
muestreo se realiza sin reemplazo, las extracciones no son independientes, por lo que la
distribución resultante es una distribución hipergeométrica, no una distribución binomial.
Sin embargo, para N mucho mayores que n, la distribución binomial sigue siendo una
buena aproximación, y se utiliza ampliamente.
Más matemáticamente, la distribución binomial es una distribución discreta de
probabilidad descrita por dos parámetros: n el número de experimentos realizados, y p la
probabilidad de éxito. Para cada experimento llamado ensayo Bernoulli, utilizamos
una variable aleatoria que toma el valor 1 cuando se consigue un éxito y el valor 0 en
caso contrario. La variable aleatoria, suma de todas estas variables aleatorias, cuenta el
número de éxitos y sigue una distribución binomial. Es posible entonces obtener la
probabilidad de k éxitos en una repetición de n experimentos:

Ejemplos:
1

Vamos a imaginar que un 80 % de las personas de todo el mundo vieron las


Olimpiadas 2016 en Río de Janeiro. Una vez finalizadas, 4 amigos se reúnen para
charlar. ¿Cuál es la probabilidad de que 3 de ellos las hayan visto?

Lo primero que hay que hacer es definir las variables del experimento:

 n = 4 (el total de la muestra)

7
 x = número de éxitos (en este caso es igual a 3, ya que buscamos la
probabilidad de que 3 de los 4 amigos las hayan visto)
 p = probabilidad de éxito (0,8)
 q = probabilidad de fracaso (0,2). Este resultado se obtiene al restar 1-p.
Tras definir todas las variables, solo tenemos que sustituirlas en la fórmula:

El numerador de la factorial se obtiene entonces multiplicando 4 · 3 · 2 · 1 = 24,


mientras que en el denominador tendríamos que multiplicar 3 · 2 · 1 · 1 = 6. Por lo
tanto, el resultado de la factorial sería 24/6=4.

Fuera del corchete, hay dos números. El primero sería 0,83=0,512 y el segundo es
0,2 (porque 4-3 = 1 y cualquier número elevado a 1 es el mismo).

Por tanto, el resultado final sería: 4 · 0,512 · 0,2 = 0,4096.

Si lo multiplicamos por 100, tenemos como resultado que hay una probabilidad del
40,96 % de que 3 de los 4 amigos hayan visto las Olimpiadas de Brasil.

Otro ejemplo: vamos a suponer que queremos coger un taxi, vamos a calcular la
probabilidad de que el próximo taxi que pase esté libre u ocupado.

Definimos las variables del experimento. Vamos a asignar a la probabilidad de


éxito (p), es decir, de que esté libre un 40 % (es decir: 0,4). Por tanto, la
probabilidad de fracaso (q), es decir, de que esté ocupado, será 1-p, es decir, 1-
0,4=0,6 o, lo que es lo mismo, el 60 %.

Vamos a calcular la probabilidad de que, de 5 taxis, 2 estén libres.

El numerador de la factorial se obtiene entonces multiplicando 5 · 4 · 3 · 2 · 1 =


120, mientras que en el denominador tendríamos que multiplicar 2 · 1 · 3 · 2 · 1 =
12. Por lo tanto, el resultado de la factorial sería 120/12=10.

Fuera del corchete, tendríamos 0,42=0,16 y 0,63=0,002.

Por tanto, el resultado final sería: 10 · 0,16 · 0,002 = 0,0064.

Si lo multiplicamos por 100, tenemos como resultado que hay una probabilidad del
0,64 % de que 2 de los 5 taxis estén libres.

Ejemplo 2.

Lanzamos 5 chinchetas y observamos el número de ellas que caen con


la punta hacia arriba.

8
Al repetir la experiencia 350 veces obtenemos:

nº de puntas hacia arriba 0 1 2 3 4 5


nº de veces en los 350
60 133 101 45 10 1
lanzamientos

¿Ajustan los resultados a una distribución Binomial? ¿Cuál sería el valor de p en


caso afirmativo?

Comprueba el resultado obtenido con lápiz y papel con la siguiente escena.


Cambia el valor de p y observa cómo varían los valores teóricos, intenta conseguir
el ajuste óptimo y compruébalo con los resultados obtenidos aplicando el
procedimiento descrito en este apartado.

Ejemplo 3.

En un taller, el 3% de las piezas tiene algún defecto. Calcular la probabilidad de


que, en una muestra de 15 piezas, se encuentren 5 defectuosas.
Solución
Estamos ante un caso de distribución binomial, ya que el experimento sólo puede
tener 2 resultados (pieza defectuosa o pieza no defectuosa), se repite 15 veces y
la probabilidad de éxito en cada experimento es la misma en cada uno.
Por tanto, podemos utilizar la fórmula de distribución binomial:

Donde X la definimos como el número de piezas defectuosas:

La probabilidad de tener éxito, que es la de encontrar una pieza defectuosa es de


0,03:

La probabilidad de fracaso, que sería encontrar una pieza sin defectos, es:

9
El número de repeticiones n es 10 y el número de éxitos k para que el queremos
calcular su probabilidad es 2.
Sustituimos cada una de las variables por sus valores en la fórmula:

Desarrollamos el número combinatorio y operamos en los exponentes:

Y operamos con la calculadora:

Encontrar 5 piezas defectuosas en una muestra de 15 tiene una probabilidad muy


baja.

Ejemplo 4.

Sabemos que 1 de cada 5 estudiantes universitarios españoles abandona sus


estudios. Se eligen al azar 5 estudiantes universitarios. Halla la probabilidad de
que uno o ninguno abandones sus estudios.
¿Qué es más probable, que todos abandonen sus estudios o que ninguno lo
haga?
Solución
Cada experimento sólo puede tener 2 resultados (abandona o no abandona), se
repite 5 veces y la probabilidad de éxito en cada experimento igual en cada uno,
por lo que estamos ante una distribución binomial y podemos utilizar su fórmula:

Donde X la definimos como el número de estudiantes que abandona:

10
La probabilidad de éxito, es decir, que un estudiante abandone es:

La probabilidad de fracaso, que es que el estudiante siga estudiando es:

Nos piden la probabilidad de que uno o ninguno abandones sus estudios, que es
igual a la suma de la probabilidad de que ninguno abandone sus estudios más la
probabilidad de que uno abandone sus estudios:

Para calcular la probabilidad de que ninguno abandone sus estudios no es


necesario utilizar la fórmula de distribución normal (aunque puedes hacerlo si
quieres y comprobar que el resultado es el mismo). Si tenemos en cuenta el
diagrama de árbol, el itinerario donde ninguno abandona es el itinerario donde
todos siguen y sólo hay uno posible.
La probabilidad la probabilidad de que ninguno abandone es:

Para calcular la probabilidad de que uno abandone sí vamos a utilizar la fórmula


de distribución binomial:

donde k=1, n=5 y p y q son igual a los valores antes calculados.


Sustituimos y nos queda:

En este caso, el número combinatorio es igual a 5 y operamos en los exponentes.


El resultado es:

Sumamos ambas probabilidades y obtenemos el resultado de la probabilidad de


que ninguno o uno abandone:

11
Nos preguntan también si es más probable, que todos abandonen sus estudios o
que ninguno lo haga.
La probabilidad de que ninguno abandone la hemos calculado antes:

Y la probabilidad de que todos abandonen, teniendo en cuenta el único itinerario


en un diagrama de árbol es:

Por tanto, lo más probable es que ninguno abandone.

Ejemplo 5.

La probabilidad de que un trabajador llegue puntual a su puesto de trabajo es 3/4.


Si se eligen 3 trabajadores al azar, ¿cuál es la probabilidad de que al menos uno
llegue puntual?
Solución
En este caso, tenemos 3 experimentos que consisten en elegir un trabajador,
donde el resultado en cada uno puede ser que llegue puntual o que no llegue
puntual. En cada experimento la probabilidad de éxito siempre es de 3/4, por lo
que podemos utilizar la fórmula de distribución binomial:
La variable aleatoria X que hemos definido que sea el resultado éxito son el
número de trabajadores que llegan puntual:

La probabilidad de éxito, es decir, de llegar puntual es:

La probabilidad de fracaso, es decir, de llegar tarde es:

12
Nos preguntan la probabilidad de que al menos uno llegue puntual. Eso quiere
decir la probabilidad de que uno llegue puntual o que dos lleguen puntuales o que
tres lleguen puntuales, ya que en los tres casos al menos uno está llegando
puntual.
Por tanto, para calcular esta probabilidad tenemos que sumar la probabilidad de
que uno llegue puntual más la probabilidad de que dos lleguen puntuales más la
probabilidad de que tres lleguen puntuales:

Para calcular cada una de ellas utilizamos la fórmula de distribución binomial:

Donde para los tres casos, n=3, p=0,75 y q=0,25


Para k=1:

Operamos y nos queda:

Para k=2:

Operamos y nos queda:

Para k=3, lo obtenemos directamente elevando al cubo la probabilidad de éxito,


según el único itinerario posible del diagrama de árbol:

Sumamos las tres probabilidades y nos queda:

13
Por tanto, la probabilidad de que al menos uno llegue puntual es de 98,42%.
Otra forma de resolver el ejercicio es teniendo en cuenta de que el espacio
muestral del experimento es darse cuenta de que al menos uno es el suceso
contrario a ninguno.
Si calculamos la probabilidad de que ninguno llegue puntual P(X=0) y después
calculamos su contrario, como 1-P(X=0), es lo mismo que calcular la suma de las
probabilidades del resto de casos:

Calculamos la probabilidad de que ninguno llegue puntual:

Y calculamos su suceso contario:

La pequeña diferencia de los resultados se debe a la aproximación por decimales


realizada.

14
Distribución hipergeométrica
La distribución hipergeométrica es una distribución discreta que modela el número
de eventos en una muestra de tamaño fijo cuando usted conoce el número total de
elementos en la población de la cual proviene la muestra. Cada elemento de la
muestra tiene dos resultados posibles (es un evento o un no evento). Las
muestras no tienen reemplazo, por lo que cada elemento de la muestra es
diferente. Cuando se elige un elemento de la población, no se puede volver a
elegir. Por lo tanto, la probabilidad de que un elemento sea seleccionado aumenta
con cada ensayo, presuponiendo que aún no haya sido seleccionado.
Utilice la distribución hipergeométrica para muestras obtenidas de poblaciones
relativamente pequeñas, sin reemplazo. Por ejemplo, la distribución
hipergeométrica se utiliza en la prueba exacta de Fisher para probar la diferencia
entre dos proporciones y en muestreos de aceptación por atributos cuando se
toman muestras de un lote aislado de tamaño finito.
La distribución hipergeométrica se define por 3 parámetros: tamaño de la
población, conteo de eventos en la población y tamaño de la muestra.

Ejemplos
Ejemplo 1.
Usted recibe un envío de pedido especial de 500 etiquetas. Supongamos que el
2% de las etiquetas es defectuoso. El conteo de eventos en la población es de 10
(0.02 * 500). Usted toma una muestra de 40 etiquetas y desea determinar la
probabilidad de que haya 3 o más etiquetas defectuosas en esa muestra. La
probabilidad de que haya 3 o más etiquetas defectuosas en la muestra es de
0.0384.

EJEMPLO 2.
Un lote contiene 100 piezas de un proveedor de tubería local y 200 unidades de
un proveedor de tubería del estado vecino. Si se seleccionan 4 piezas al azar y sin
reemplazo.

a) ¿Cuál es la probabilidad de que todas sean del proveedor local?

15
N = 300 | X = 100 | n = 4 | x = 4

Utilizando R tenemos:

> dhyper(4, 4, 296, 100)


[1] 0.01185408

b) ¿Cuál es la probabilidad de que dos o más piezas de la muestra sean del


proveedor local?

N = 300 | X = 100 | n = 4 | x = 2, 3 o 4

16
Utilizando R tenemos:

> sum (dhyper(2:4, 4, 296, 100))


[1] 0.4074057

c) ¿Cuál es la probabilidad de que al menos una pieza de la muestra sea del


proveedor local?

N = 300 | X = 100 | n = 4 | x = 1, 2, 3 o 4

Utilizando R tenemos:

17
> 1-dhyper (0, 4, 296, 100)
[1] 0.8044538

Considerando que en la urna hay un total de 10 objetos, 3 de los cuales son


defectuosos, si de seleccionan 4 objetos al azar, ¿cuál es la probabilidad de que 2
sean defectuosos?

N = 10 | X = 3 | n = 4 | x = 2

Utilizando R tenemos:> dhyper (2, 4, 6, 3)


[1] 0.3

EJEMPLO 3.

¿Cuál es la probabilidad de que una mesera se rehúse a servir bebidas


alcohólicas únicamente a dos menores de edad si verifica aleatoriamente solo 5
identificaciones de entre 9 estudiantes, de los cuales 4 no tienen la edad
suficiente?, b) ¿Cuál es la probabilidad de que como máximo 2 de las
identificaciones pertenezcan a menores de edad?
a) N = 9 | X = 4 | n = 5 | x = 2

18
Utilizando R tenemos:

> dhyper(2, 5, 4, 4)
[1] 0.4761905
b) N = 9 | X = 4 | n = 5 | x = 0, 1, 2

Utilizando R tenemos: > sum (dhyper (0:2, 5, 4, 4))


[1] 0.6428571

EJEMPLO 4.

En una empresa donde trabajan 20 personas, hay 7 que fuman, si se seleccionan


a 4 personas al azar ¿cuál es la probabilidad de que al menos una

19
fume? Concepto: El complemento: 100%- el que no necesita. Datos: N = 20
Personas C = 7 Personas n = 4 personas x = 1,2,3,4 DESARROLLO: 𝑃(𝑋 ≥ 1) =
𝑃(𝑋 = 1) + 𝑃(𝑋 = 2) + 𝑃(𝑋 = 20 − 7 ( )( ) 𝑃(𝑋) = 0 4 − 0 20 ( ) 4 7 13 ( )( ) 𝑃(𝑋) = 0 4
20 ( ) 4 C = Combinatoria: 𝑐

! 𝑪𝑋𝐶 = 𝑥! (𝑐 − 𝑥)! 𝑪70 =

7! 0! (7 − 0)!

𝑪𝟕𝟎 = 𝟏 𝑎 𝑪𝑁−𝐶 𝑛−𝑥 = 𝑪𝑏 =

𝑎! 𝑏! (𝑎 − 𝑏)! 𝑪13 4 =

13! 4! (13 − 4)!

𝑪𝟏𝟑 𝟒 = 𝟕𝟏𝟓 𝑪𝑁 𝑛 =

𝑁! 𝑛! (𝑁 − 𝑛)! 𝑪20 4 =

Reemplazar

20! 4! (20 - 4)!

𝑪𝟐𝟎 𝟒 = 𝟒𝟖𝟒𝟓

𝑃(𝑋) =

1 ∗ 715 4845

𝑃(𝑋) =

143 969

= 1 − 𝑃 (𝑋 = 0) =1−

143 969

= 0.852 La probabilidad de que al menos uno fume es: = 𝟖𝟓. 𝟐𝟒%

20
EJEMPLO 5.

6 empleados han estado en la compañía durante 5 o más años, si se eligen 4


empleados al azar de ese grupo ¿Cuál es la probabilidad de que exactamente dos
de ellos tengan una antigüedad de 5 años o más?

Datos: N = 6 Empleados C = 3 Personas n = 4 empleados x = 2 antigüedad


Aplicando la fórmula de Distribución Hipergeométrica) () 2 4 − 2 𝑃(𝑋) = 6 () 4

C = Combinatoria: 𝑐! 𝑪𝑋𝐶 = 𝑥! (𝑐 − 𝑥)!

𝟑 𝟑 () () 𝑷(𝑿) = 𝟐 𝟐 𝟔 () 𝟒

𝑪32 =

3! 2! (3 - 2)!

𝑪𝟑𝟐 = 𝟑 𝑎 𝑪𝑁−𝐶 𝑛−𝑥 = 𝑪𝑏 =

𝑎! 𝑏! (𝑎 − 𝑏)! 3 𝑪6−3 4−2 = 𝑪2 =

𝑪𝑁 𝑛 =

𝑁! 𝑛! (𝑁 − 𝑛)!

3! 2! (3 - 2)!

𝑪𝟔−𝟑 𝟒−𝟐 = 𝟑

𝑪64 =

6! 4! (6 - 4)!

𝑪𝟔𝟒 = 𝟏𝟓 Reemplazando

𝑃(𝑋) =

3∗3 15

𝑃(𝑋) =

35

21
La probabilidad de que tenga un empleado 5 años o más de labor es del 60%
EJERCICIO A RESOLVER En una caja hay 10 celulares de los cuales hay 3
celulares dañados concretamente de una marca china, si se saca 5 celulares de la
caja ¿Cuál es la probabilidad de sacar un celular dañado?

22
DISTRIBUCIÓN DE POISSON.

La distribución de Poisson es una distribución de probabilidad discreta que se


aplica a las ocurrencias de algún evento durante un periodo determinado. Es decir,
es una distribución de probabilidad discreta en la que solo es necesario conocer
los eventos y cuál es su frecuencia media de ocurrencia para poder conocer la
probabilidad de que ocurran.
Una distribución es discreta cuando se toma un número de valor finito, mientras
que las continuas usan un número infinito de valores.
La distribución de Poisson fue creada por el matemático y filósofo francés del siglo
XVII Simeón-Denis Poisson en su proyecto para modelar la frecuencia de eventos
durante un rango de tiempo determinado. Esta distribución la hizo pública en el
año 1838 en su trabajo “Investigación sobre la probabilidad de los juicios en
materias criminales y civiles”

EJEMPLOS
1.- Un estudio sismológico determinó que, durante los últimos 100 años, hubo 93
terremotos grandes en todo el mundo, de al menos 6.0 en la escala de Richter –
logarítmica-. Supongamos que la distribución de Poisson es un modelo adecuado
en este caso. Hallar:

a) El promedio de ocurrencia de grandes terremotos al año.

b) Si P(y) es la probabilidad de que ocurran y terremotos durante un año


seleccionado al azar, hallar las siguientes probabilidades:

P (0), P (1), P (2), P (3), P (4), P (5), P (6) y P (7).

c) Los verdaderos resultados del estudio son los siguientes:


– 47 años (0 terremotos)
– 31 años (1 terremotos)
– 13 años (2 terremotos)
– 5 años (3 terremotos)

23
– 2 años (4 terremotos)
– 0 años (5 terremotos)
– 1 años (6 terremotos)
– 1 años (7 terremotos)
¿Cómo se comparan estos resultados con los obtenidos en el inciso b? ¿Es la
distribución de Poisson una buena elección para modelar estos eventos?

Solución a)
a) Los terremotos son sucesos cuya probabilidad p es pequeña y estamos
considerando un período restringido de tiempo, de un año. El promedio de
terremotos es:
μ = 93 / 100 terremotos/año = 0.93 terremotos por año.
Solución b)
b) Para calcular las probabilidades solicitadas, se sustituyen valores en la fórmula
dada al comienzo:
P(y=k) =\frac {\mu ^{y}. e^{-\mu }}{y!}Por ejemplo para encontrar P(2), que sería la
probabilidad de que se den 2 grandes terremotos al año:
y=2
μ = 0.93
e = 2.71828
P (2) =\frac {0.93^ {2}. e^{-0.93}} {2!}=\frac{0.93^{2}.2.71828^{-0.93}}
{2.1.0!}=0.171Y esta es la probabilidad de que se den 7 grandes terremotos
durante un año:
P (7) =\frac {0.93^{7}. e^{-0.93}}{7!}=0.0000471
Es bastante menor que P (2).
Los resultados se listan a continuación:
P (0) = 0.395, P (1) = 0.367, P (2) = 0.171, P (3) = 0.0529, P (4) = 0.0123, P (5) =
0.00229, P (6) = 0.000355, P (7) = 0.0000471.

Por ejemplo, podríamos decir que hay una probabilidad de 39.5 % de que no
ocurra ningún gran terremoto en un año dado. O que hay 5,29 % de que ocurran 3
grandes terremotos en dicho año.

24
Solución c)
c) Se analizan las frecuencias, multiplicando por n=100 años:
39.5; 36.7; 17.1; 5.29; 1.23; 0.229; 0.0355 y 0.00471.

EJEMPLO 2.
Una compañía estima que el número de componentes que fallan antes de cumplir
100 horas de funcionamiento sigue una distribución de Poisson. Si el número
promedio de fallos es 8 en ese tiempo, encontrar las siguientes probabilidades:
a) Que un componente falle en 25 horas.
b) Falla de menos de dos componentes, en 50 horas.
c) Que fallen por lo menos tres componentes en 125 horas.
Solución a)
a) Se sabe que el promedio de fallas en 100 horas es 8, por lo tanto, en 25 horas
se espera la cuarta parte de fallos, es decir 2 fallos. Este será el parámetro μ.
Se pide la probabilidad de que falle 1 componente, la variable aleatoria es
“componentes que fallan antes de 25 horas” y su valor es y =1. Al sustituir en la
función de probabilidad:
P (2) =\frac{2^{1}.e^{-2}}{1!}=\frac{2^{2}\times .2.71828^{-2}}{1.0!}=0.271 b) Ahora
la variable aleatoria es “componentes que fallan antes de las 50 horas”. El
parámetro es μ= 4, ya que el valor esperado de fallas en 50 horas es 4.
Sin embargo, la pregunta es la probabilidad de que fallen menos de dos
componentes en 50 horas, no que fallen exactamente 2 componentes en 50 horas,
por lo tanto, hay que sumar las probabilidades de que:
-Ninguno falle
-Falle solamente 1
P (fallen menos de 2 componentes) = P (0) + P (1)
P (0) =\frac {4^{0}. e^{-4}}{0!}=\frac{1\times .2.71828^{-4}}{0!}=0.0183P(1)=\
frac{4^{1}.e^{-4}}{1!}=\frac{4\times .2.71828^{-4}}{1!}=0.0732
P (fallen menos de 2 componentes) = 0.0183+0.0732 =0.0915
c) Que fallen por lo menos 3 componentes en 125 horas, significa que pueden
fallar 3, 4, 5 o más en dicho tiempo.

25
La probabilidad que ocurra al menos uno de entre varios sucesos es igual a 1,
menos la probabilidad que no ocurra ninguno de los sucesos.
-El suceso que se busca es que fallen 3 o más componentes en 125 horas
-Que no ocurra el suceso significa que fallan menos de 3 componentes, cuya
probabilidad es: P (0) +P (1) +P (2)
El parámetro μ de la distribución en este caso es:
μ = 8 + 2 = 10 fallos en 125 horas.
P (fallen 3 o más componentes) = 1- P (0)- P (1)- P (2) =
=1-\frac {10^ {0}. e^{-10}} {0!}-\frac{10^{1}.e^{-10}}{1!}-\frac{10^{2}.e^{-10}}{2!}= 1-
0.0026786 = 0.9972

EJEMPLO 3.

llamadas por hora a un centro de llamadas


Los centros de llamadas utilizan la distribución de Poisson para modelar la
cantidad de llamadas esperadas por hora que recibirán para saber cuántos
representantes del centro de llamadas deben mantener en el personal.

Por ejemplo, suponga que un centro de llamadas determinado recibe 10 llamadas


por hora. Podemos usar una calculadora de distribución de Poisson para encontrar
la probabilidad de que un centro de llamadas reciba 0, 1, 2, 3… llamadas en una
hora determinada:

P (X = 0 llamadas) = 0.00005
P (X = 1 llamada) = 0,00045
P (X = 2 llamadas) = 0,00227
P (X = 3 llamadas) = 0,00757
Y así.
Esto les da a los gerentes del centro de llamadas una idea de cuántas llamadas
probablemente recibirán por hora y les permite administrar los horarios de los
empleados en función de la cantidad de llamadas esperadas.
EJEMPLO 4.

26
número de llegadas a un restaurante
Los restaurantes utilizan la distribución de Poisson para modelar la cantidad de
clientes esperados que llegarán al restaurante por día.

Por ejemplo, suponga que un restaurante determinado recibe un promedio de 100


clientes por día. Podemos usar la calculadora de distribución de Poisson para
encontrar la probabilidad de que el restaurante reciba más de un cierto número de
clientes:

P (X> 110 clientes) = 0,14714


P (X> 120 clientes) = 0.02267
P (X> 130 clientes) = 0,00171
Y así.
Esto les da a los gerentes de restaurantes una idea de la probabilidad de que
reciban más de un cierto número de clientes en un día determinado.

EJEMPLO 5.

Número de fallos de red por semana


Las empresas de tecnología utilizan la distribución de Poisson para modelar el
número de fallas de red esperadas por semana.

Por ejemplo, suponga que una empresa determinada experimenta un promedio de


1 falla de red por semana. Podemos usar la calculadora de distribución de Poisson
para encontrar la probabilidad de que la empresa experimente un cierto número de
fallas en la red en una semana determinada:
P (X = 0 fallas) = 0.36788
P (X = 1 falla) = 0.36788
P (X = 2 fallas) = 0.18394
Y así.
Esto le da a la empresa una idea de cuántas fallas es probable que ocurran cada
semana.

27
DISTRIBUCIÓN NORMAL.
La distribución normal nos permite crear modelos de muchísimas variables y
fenómenos, como, por ejemplo, la estatura de los habitantes de un país, la
temperatura ambiental de una ciudad, los errores de medición y muchos otros
fenómenos naturales, sociales y hasta psicológicos

EJEMPLOS:
EJEMPLO 1.-

¿Qué pasaría si se realiza una encuesta en una ciudad a personas adultas


consultando su estatura? A partir de los resultados obtenidos, se puede elaborar
un histograma que tendría la siguiente forma:

Como vemos, el histograma tiene forma de campana, una característica


importante de la distribución normal.

EJEMPLO 2
peso al nacer de los bebés
Está bien documentado que el peso al nacer de los recién nacidos se distribuye
normalmente con una media de unas 7.5 libras.
El histograma del peso al nacer de los bebés recién nacidos en los EE. UU.
Muestra una forma de campana que suele tener la distribución normal:

28
EJEMPLO 3.

altura de los machos


La distribución de la altura de los machos en los EE. UU. Se distribuye
aproximadamente normalmente con una media de 70 pulgadas y una desviación
estándar de 3 pulgadas.
Un histograma de la altura de todos los hombres estadounidenses revela una
forma de campana:

29
EJEMPLO 4.
Tallas de zapatos
La distribución de tallas de zapatos para hombres en los EE. UU. Se distribuye
aproximadamente normalmente con una media de talla 10 y una desviación
estándar de 1.
Un histograma de las tallas de calzado de todos los hombres estadounidenses
revela una forma de campana con un solo pico en la talla 10:

EJUEMPLO 5.
presión arterial
La distribución de la presión arterial diastólica para los hombres se distribuye
normalmente con una media de aproximadamente 80 y una desviación estándar
de 20.
Un histograma de la distribución de la presión arterial para todas las medias
muestra una distribución normal con forma de campana:

30
DISTIBUCIÓN T-STUDENT
La distribución T de estudent o distribución t en es un modelo teórico utilizado para
aproximar el momento de primer orden de una población normalmente distribuida
cuando el tamaño de la muestra es pequeño y se desconoce la desviación típica.
En otras palabras, la distribución t es una distribución de probabilidad que estima
el valor de la media de una muestra pequeña extraída de una población que sigue
una distribución normal y de la cual no conocemos su desviación típica.
EJEMPLOS.

31
EJEMPLO 2
Suponga que Ud. tiene una técnica que puede modificar la edad a la cual los niños comienzan a
hablar. En su localidad, el promedio de edad en la cual un niño emite su primera palabra es de 13.0
meses. No se conoce la desviación estándar poblacional. Usted aplica dicha técnica a una muestra
aleatoria de 15 niños. Los resultados arrojan que la edad media muestral en la que se pronuncia la
primera palabra es de 11.0 meses, con una desviación estándar de 3.34. Pruebe la hipótesis de
que la técnica afecta la edad en que los niños empiezan a hablar con un nivel de significancia alfa
del 0.05.

Aquí las preguntas de la investigación serían ¿Cuáles son la hipótesis nula y la alternativa? y si con
el procesamiento estadístico se puede afirmar que la técnica es efectiva para modificar la edad en
que los niños empiezan a hablar.

Hipótesis nula: La técnica no afecta la edad en que los niños comienzan a hablar,
matemáticamente sería, H0 = 13.0

Hipótesis alternativa: La técnica afecta la edad en que los niños comienzan a hablar,
matemáticamente sería, H1 ≠ 13.0

El resultado de Tp es -2.32. Si lo comparamos con el resultado de T crítico o Tc obtenido de tablas


con un nivel de significancia alfa de 0.05 y 14 grados de libertad para dos extremos, el resultado de
Tc es 2.145

32
EJEMPLO 3.
Se aplica una prueba de autoestima a 25 personas quienes obtienen una calificación promedio de
62.1 con una desviación estándar de 5.83. Se sabe que el valor correcto de la prueba debe ser
mayor a 60. ¿Existe suficiente evidencia para comprobar que no hay problemas de autoestima en
el grupo seleccionado?

Paso 1. Hipótesis alternativa: la que se va a comprobar. El grupo no tiene problemas de


autoestima. Valor de prueba para determinar autoestima mayor a 60. Hipótesis nula, lo contrario a
la hipótesis alternativa.

H1 > 60;

H0 =< 60.

Paso 2. Determinar el nivel de significancia alfa: alfa = 0.05.

Paso 3. Resultados de la evidencia muestral: X = 62.1; s = 5.83

Paso 4. Aplicar la distribución de probabilidad calculando T:

El resultado de la ecuación es 1.8. Dado que 1.8 es mayor que 1.7109 cae en la región de H1 y se
acepta la hipótesis alternativa. Si buscamos el valor de 1.8 bajo la curva normal encontraremos que
es de 0.0359 el cual es menor que 0.05. La conclusión es que no hay problemas de autoestima en
el grupo estudiado. Esto con el diseño de la investigación presentado.

EJERCICIO 4.
Una profesora del programa de estudios para la mujer cree que la cantidad de cigarrillos fumados
por las mujeres se ha incrementado en años recientes. Un censo realizado hace dos años con
mujeres de una ciudad vecina mostró que el número promedio de cigarrillos fumados diariamente
por una mujer era de 5.4 con una desviación estándar de 2.5. Para evaluar esta hipótesis, la
profesora determinó el número de cigarrillos fumados diariamente por una muestra aleatoria de 120
mujeres que viven actualmente en la ciudad donde habita. Los datos muestran que el número de
cigarrillos fumados diariamente por las 120 mujeres tiene una media de 6.1 y una desviación
estándar de 2.7. Con esa información y un nivel de significancia de 0.05, ¿tiene razón la profesora
al afirmar que la cantidad de cigarrillos fumados por las mujeres se ha incrementado?

33
Los resultados de la ecuación muestran una Tp de 2.9 que, contrastada con la Tc obtenido de
tablas para un extremo que resulta en 1.6449 cae en la región de rechazo de H0. Si calculamos P
en tablas para 2.90 es 0.002, muy por debajo del 0.05 del nivel de significancia.

EJERCICIO 5.
La siguiente es una tabla de resultados del coeficiente intelectual entre niños que tienen buenas
calificaciones en lectura y de aquellos que tienen bajas calificaciones en lectura. A un nivel de
significancia del 0.05, ¿hay diferencia significativa entre el coeficiente intelectual entre los grupos?
Utilice la prueba de T de Student contrastando las hipótesis contra el valor crítico.

Coeficiente Intelectual de Coeficiente Intelectual de


No Progresivo
Buenos Lectores Malos Lectores

1 105 94

2 110 95

3 100 93

4 102 93

5 103 92

6 104 95

7 108 100

Media

DS

Distribución Chi-cuadrada

34
La distribución chi-cuadrado
Es una distribución de probabilidad cuyo símbolo es χ². En concreto, la
distribución chi-cuadrado es la suma del cuadrado de k variables aleatorias
independientes con distribución normal.
Así pues, la distribución chi-cuadrado tiene k grados de libertad. Por lo tanto, una
distribución chi-cuadrada tiene tantos grados de libertad como la suma de los
cuadrados de variables con distribución normal que representa
La distribución chi-cuadrado también se conoce como distribución de Pearson.
Cabe destacar que la distribución chi-cuadrado es un caso especial de la
distribución gamma.
La distribución chi-cuadrado se utiliza mucho en inferencia estadística, por
ejemplo, se usa en el contraste de hipótesis y en los intervalos de confianza. Más
abajo veremos cuáles son las aplicaciones de este tipo de distribución de
probabilidad.
EJEMPL 1.
En el primer ejemplo de este tutorial, le mostraré cómo crear un diagrama de
densidad de la distribución de chi cuadrado en R. Como primer paso, necesitamos
crear una secuencia de valores de entrada:
x_ dchisq <- seq. (0 , 20 , by = 0.1 ) # Especifique los valores x para la función dch
Ahora, podemos aplicar la función dchisq R a nuestra secuencia creada
previamente. Tenga en cuenta que especificamos que los grados de libertad de la
distribución de chi cuadrado sean iguales a 5. Puede cambiar este valor para
producir una densidad de chi cuadrado con diferentes grados de libertad.
y_dchisq <- dchisq ( x_dchisq, df = 5 ) # Aplicar la función dchisq
Si queremos crear un gráfico que represente nuestra salida, podemos usar
la función de trazado :
plot ( y_dchisq ) # Trazar valores dchisq

35
Figura 1: Densidad Chi Cuadrado.
La figura 1 ilustra el diagrama de chi cuadrado que hemos creado con el código
anterior.

Ejemplo 2

En la encuesta telefónica realizada el pasado curso por los alumnos los resultados

fueron muy dispares, mientras algunos realizaron las cuatro entrevistas programadas

otros no consiguieron cumplimentar ninguna de ellas. La distribución del número de

entrevistas conseguidas por los 57 alumnos que participaron en el proyecto fue la

siguiente:

Nº entrevistas Nº alumnos0 61 162 243 94 2

Total 57

A un nivel de confianza del 90% ¿Puede afirmarse que estas diferencias han sido

36
debidas al azar? O por el contrario están motivadas por alguna otra causa.

1º La hipótesis nula de que los resultados obtenidos son debidos al azar implica que en

todas las llamadas hay la misma probabilidad de conseguir respuesta y que el resultado

de cada llamada es independiente de las restantes. Entonces el número de entrevistas

conseguidas por cada alumno es la suma de cuatro variables de Bernoulli y por

consiguiente, la distribución sería una Binomial con n = 4 y P desconocida.

2º La hipótesis alternativa es que no siguen esa distribución Binomial.

3º Como la variable es discreta y además la hipótesis nula no especifica totalmente la

distribución utilizaremos el test Ji-cuadrado de bondad de ajuste.

4º Para calcular el valor del estadístico necesitamos las probabilidades de los valores,

para ello es preciso estimar previamente el valor de P a partir de los datos de la muestra.

El total de llamadas ha sido 57·4 = 228.

Las llamadas con éxito han sido 1·16 + 2·24 + 3·9 + 4·2 = 99.

La proporción es 99/228 = 0,4342.

Las probabilidades aplicando la función de probabilidad de la distribución Binomial

serán:

0,4342 ·0,5658 0,102504 Pr (0 )0 4= ÷÷øöççèæx = =0,4342 ·0,5658 0,314614 Pr (1)1 3= ÷÷øöççèæx


==

Tema 12. Contrastes No Paramétricos. 50,4342 ·0,5658 0,362124 Pr (2 )2 2= ÷÷øöççèæx = =0,4342


·0,5658 0,185334 Pr (3)3 1= ÷÷øöççèæx = =0,4342 ·0,5658 0,035544 Pr( 4)4 0= ÷÷øöççèæx = =

El resto de los cálculos necesarios para obtener el valor del estadístico aparecen

ordenados en la tabla siguiente: xi ni pi npi ni-npi (ni-npi) 2(ni-npi) 2/npi

0 6 0,1025 5,84 0,16 0,03 0,005

1 16 0,3146 17,93 -1,93 3,72 0,207

2 24 0,3621 20,64 3,36 11,29 0,547

3 9 0,1853 10,56 -1,56 2,43 0,230

4 2 0,0355 2,02 -0,02 0 0

57 0,989

37
5º El estadístico tiene 5 sumandos, pero como hemos estimado un parámetro, debemos buscar en
las tablas de la Ji-cuadrado con 3 grados de libertad. El valor de la variable que deja por debajo una
probabilidad de 0,9 es 6,25.

6º Como el valor del estadístico 0,989 es menor que el valor crítico, 6,25 se acepta la

hipótesis nula.

7º Los resultados obtenidos por los alumnos pueden ser fruto del azar

EJEMPLO 3

38
Ejemplo 4

39
Distribución F
La distribución F de Snedecor, también llamada distribución F de Fisher-Snedecor
o simplemente distribución F, es una distribución de probabilidad continua que se
usa en la inferencia estadística, especialmente en el análisis de la varianza.
Una de las propiedades de la distribución F de Snedecor es que queda definida
por el valor de dos parámetros reales, m y n, que indican sus grados de libertad.
Así pues, el símbolo de la distribución F de Snedecor es F m,n, donde m y n son los
parámetros que definen la distribución.
EJEMPLOS.
1 considere dos muestras de poblaciones que tienen la misma varianza
poblacional. Si la muestra 1 tiene tamaño n1 = 5 y la muestra 2 tiene tamaño n2 =
10, determine la probabilidad teórica que el cociente de sus varianzas respectivas
sea menor o igual a 2.

Solución

Debe recordarse que el estadístico F se define como:

Pero se nos dice que las varianzas poblacionales son iguales, por lo que para este
ejercicio se aplica:

Como se desea saber la probabilidad teórica de que este cociente de varianzas


muestrales sea menor o igual a 2, necesitamos conocer el área bajo la distribución
F entre 0 y 2, el cual puede obtenerse por tablas o software. Para esto ha de
tenerse en cuenta que la distribución F requerida tiene d1 = n1 – 1 = 5 – 1 = 4 y d2
= n2 – 1 = 10 – 1 = 9, es decir la distribución F con grados de libertad (4, 9).
Mediante el uso de la herramienta estadística de GeoGebra se determinó que esta
área es 0.82, por lo que se concluye que la probabilidad que el cociente de
varianzas muestrales sea menor o igual a 2 es del 82%.

40
Ejemplo 2.
Se tienen dos procesos de manufactura de láminas delgadas. La variabilidad del
espesor debe ser lo menor posible. Se toman 21 muestras de cada proceso. La
muestra del proceso A tiene una desviación estándar de 1,96 micras, mientras que
la del proceso B tiene desviación estándar de 2,13 micras. ¿Cuál de los procesos
tiene menor variabilidad? Utilizar un nivel de rechazo del 5%.
Solución
Los datos son los siguientes: Sb = 2,13 con nb = 21; Sa = 1,96 con na = 21. Esto
significa que ha de trabajarse con una distribución F de (20, 20) grados de libertad.
La hipótesis nula implica que la varianza poblacional de ambos procesos es
idéntica, es decir σa^2 / σb^2 = 1. La hipótesis alternativa implicaría varianzas
poblacionales diferentes.
Entonces, bajo la suposición de varianzas poblacionales idénticas, se define el
estadístico F calculado como: F c = (Sb/Sa) ^2.
Como el nivel de rechazo se ha tomado como α= 0,05, entonces α/2= 0,025
La distribución F (0.025; 20,20) = 0,406, mientras que F (0.975; 20,20) = 2,46.
Por lo tanto, la hipótesis nula será cierta si el F calculado cumple: 0,406≤Fc≤2,46.
De lo contrario se rechaza la hipótesis nula.
Como F c= (2,13/1,96) ^2 = 1,18 se concluye que el estadístico Fc está en el
rango de aceptación de la hipótesis nula con una certeza del 95%. En otras
palabras, con una certeza del 95% ambos procesos de manufactura tienen la
misma varianza poblacional.

Ejemplo 3.

41
EJEMPLO 4.

42
UNIDAD # 5 REGRESIÓN LINEAL.
REGRESIÓN Y CORRELACIÓN.

La correlación y la regresión nos ayudan a comprender la relación entre las variables y a predecir
el estado de los pacientes con

respecto a una variable particular de interés.

La correlación examina la fuerza de la relación entre dos variables, ninguna de las cuales se
considera la variable que uno está

tratando de predecir (la variable objetivo).

El análisis de regresión examina la capacidad de uno o más factores, llamados variables


independientes, para predecir el estado

de un paciente con respecto a la variable objetivo o dependiente.

EJEMPLOS

Una compañía desea hacer predicciones del valor anual de sus ventas totales en
cierto país a partir de la relación de éstas y la renta nacional. Para investigar la
relación cuenta con los siguientes datos:

X representa la renta nacional en millones de euros e Y representa las ventas de la


compañía en miles de euros en el periodo que va desde hasta (ambos
inclusive). Calcular:

43
1La recta de regresión de Y sobre X.
2El coeficiente de correlación lineal e interpretarlo.
3Si en la renta nacional del país fue de millones de euros. ¿Cuál será la
predicción para las ventas

Una compañía desea hacer predicciones del valor anual de sus


ventas totales en cierto país a partir de la relación de éstas y la
renta nacional. Para investigar la relación cuenta con los
siguientes datos:

X representa la renta nacional en millones de euros e Y representa


las ventas de la compañía en miles de euros en el periodo que va
desde hasta (ambos inclusive). Calcular:

1 La recta de regresión de Y sobre X.

44
45
2 El coeficiente de correlación lineal e interpretarlo.

Es un coeficiente de correlación positivo y cercano a uno, por lo


que la correlación es directa y fuerte.

3 Si en la renta nacional del país fue de millones de


euros. ¿Cuál será la predicción para las ventas de la compañía en
este año?

EJEMPLO 2.

46
información estadística obtenida de una muestra de tamaño 12
sobre la relación existente entre la inversión realizada y el
rendimiento obtenido en cientos de miles de euros para
explotaciones agrícolas, se muestra en el siguiente cuadro:
Inversión (X), Rendimiento (Y)

Calcular:

1La recta de regresión del rendimiento respecto de la inversión.


2La previsión de inversión que se obtendrá con un rendimiento de
1 250 000 €.

La información estadística obtenida de una muestra de tamaño 12 sobre la relación


existente entre la inversión realizada y el rendimiento obtenido en cientos de miles de euros
para explotaciones agrícolas, se muestra en el siguiente cuadro:

47
Calcular:

1 La recta de regresión del rendimiento respecto de la inversión.

48
2 La previsión de inversión que se obtendrá con un rendimiento de 1 250 000 €.

EJEMPLO 3.

El número de horas dedicadas al estudio de una asignatura y la


calificación obtenida en el examen correspondiente, de ocho
personas es: Horas (X)Calificación (Y)

49
Se pide:

1Recta de regresión de Y sobre X.


2Calificación estimada para una persona que hubiese estudiado
horas
El número de horas dedicadas al estudio de una asignatura y la
calificación obtenida en el examen correspondiente, de ocho
personas es:

Se pide:

1 recta de regresión de Y sobre X.

50
]

51
2 calificación estimada para una persona que hubiese
estudiado horas.

EJEMPLO 4

En la tabla siguiente se indica la edad (en años) y la conducta


agresiva (medida en una escala de cero a 10) de 10 niños. Edad
Conducta Agresiva

1Obtener la recta de regresión de la conducta agresiva en función


de la edad.
2A partir de dicha recta, obtener el valor de la conducta agresiva
que correspondería a un niño de años.

En la tabla siguiente se indica la edad (en años) y la conducta


agresiva (medida en una escala de cero a 10) de 10 niños.

52
1 obtener la recta de regresión de la conducta agresiva en función de la edad.

53
2 A partir de dicha recta, obtener el valor de la conducta agresiva
que correspondería a un niño de 7.2 años.

EJEMPLO 5

Los valores de dos variables X e Y se distribuyen según la tabla


siguiente:

Se pide:

1 calcular la covarianza.
2Obtener e interpretar el coeficiente de correlación lineal.
3Ecuación de la recta de regresión de Y sobre X.
Los valores de dos variables X e Y se distribuyen según la tabla siguiente:

54
Se pide:

1 calcular la covarianza.

Convertimos la tabla de doble entrada en una tabla simple.

55
2 obtener e interpretar el coeficiente de correlación lineal.

Es una correlación negativa débil.

3 ecuación de la recta de regresión de Y sobre X.

56
DIAGRAMA DE DISPERCIÓN

El Diagrama de Dispersión tiene el propósito de controlar mejor el proceso y mejorarlo, resulta


indispensable conocer cómo se comportan algunas variables o características de calidad entre sí,
esto es, descubrir si el comportamiento de unas depende del comportamiento de otras, o no, y en
qué grado.

El Diagrama de Dispersión es una herramienta utilizada cuando se desea realizar un análisis


gráfico de datos bivariados, es decir, los que se refieren a dos conjuntos de datos. El resultado del
análisis puede mostrar que existe una relación entre una variable y la otra.

En un Diagrama de Dispersión el patrón de puntos puede asumir formas diversas, dependiendo de


la relación que exista entre las variables. Si el patrón de puntos asume la forma (quizás
aproximada) de una línea recta, se dice que existe una relación lineal entre las variables.

En ocasiones, algunos datos dan lugar a puntos anómalos, que se presentan separados del patrón
de puntos. El usuario debe dejar fuera del análisis esos puntos, que quizás son debidos a lecturas
equivocadas o a algún cambio en las condiciones del proceso, etc.

EJEMPLO1:

EJEMPLO 2

Las notas de 12 alumnos de una clase en Matemáticas y Física son las siguientes:

57
Matemáticas Física

2 1

3 3

4 2

4 4

5 4

6 4

6 6

7 4

7 6

8 7

10 9

10 10

EJEMPLO 3

58
EJEMPLO 4.

EJEMPLO 5-

REGRESION LINEAL SIMPLE.

La regresión lineal es una técnica de análisis de datos que predice el valor de datos desconocidos
mediante el uso de otro valor de datos relacionado y conocido. Modela matemáticamente la
variable desconocida o dependiente y la variable conocida o independiente como una ecuación
lineal. Por ejemplo, supongamos que tiene datos sobre sus gastos e ingresos del año pasado. Las
técnicas de regresión lineal analizan estos datos y determinan que tus gastos son la mitad de tus
ingresos. Luego calculan un gasto futuro desconocido al reducir a la mitad un ingreso conocido
futuro.

59
EJEMPLOS

EJEMPLO 1.

EJEMPLO 2.

EJEMPLO 3

EJEMPLO 4.

60
EJEMPLO 5.

CORREALCIÓN.

La correlación es una medida estadística que expresa hasta qué punto dos variables están
relacionadas linealmente (esto es, cambian conjuntamente a una tasa constante). Es una
herramienta común para describir relaciones simples sin hacer afirmaciones sobre causa y efecto.

EJEMLPOS:

EJEMPLO 1.

61
EJEMPLO 2.

EJEMPLO 3.

En una empresa de transportes trabajan cuatro conductores. Los años de antigüedad de permisos de
conducir y el número de infracciones cometidas en el último año por cada uno de ellos son los siguientes:

Calcular el coeficiente de correlación lineal e interpretarlo.

62
La correlación es perfecta e inversa.

EJEMPLO 4

EJEMPLO 5.

63
DERTERMINACIÓN Y ANALISIS DE LOS COEFICIENGES DE CORRELACIÓN
Y DE DETERMINACIÓN.
¿Qué es el coeficiente de correlación?

El coeficiente de correlación es la medida específica que cuantifica la intensidad de la relación


lineal entre dos variables en un análisis de correlación. En los informes de correlación, este
coeficiente se simboliza con la r.

¿Cómo se utiliza el coeficiente de correlación?

Para dos variables, la fórmula compara la distancia de cada dato puntual respecto a la media de la
variable y utiliza esta comparación para decirnos hasta qué punto la relación entre las variables se
ajusta a una línea imaginaria trazada entre los datos. A esto nos referimos cuando decimos que la
correlación examina las relaciones lineales.

EJEMPLOS:

1-

EJEMPLO 2.

Las notas de alumnos de una clase en Matemáticas y Física son las siguientes:

64
Hallar el coeficiente de correlación de la distribución e interpretarlo.

1 añadimos a la tabla columnas con , y , respectivamente. El último renglón de la tabla se obtiene


sumando los valores de cada columna:

65
2Hallamos las medias aritméticas.

3Calculamos la covarianza.

4Calculamos las desviaciones típicas.

5 aplicamos la fórmula del coeficiente de correlación lineal.

Al ser el coeficiente de correlación positivo, la correlación es directa.

Como coeficiente de correlación está muy próximo a 1 la correlación es muy fuerte.

66
EJEMPLO 3

Los valores de dos variables e se distribuyen según la tabla siguiente:

Determinar el coeficiente de correlación.

1 convertimos la tabla de doble entrada en tabla simple.

67
Al ser el coeficiente de correlación negativo, la correlación es inversa.

Como coeficiente de correlación está muy próximo a 0 la correlación es muy débil.

EJEMPLO 4.

68
EJEMPLO 5.

DISTRIBUCIÓN NORMAL BIDIMENCIONAL.

Una distribución bidimensional es aquella en las que a cada


individuo le valores de dos variables, las representamos por el par
(xi, y).

Si representamos cada par de valores como las coordenadas de


corresponden los

un punto, el conjunto de todos ellos se llama nube de


puntos o diagrama de dispersión.

69
EJEMPLOS.
1.

EJEMPLO 2.

EJEMPLO 3.

70
EJEMPLO 4.

: En un reconocimiento médico a los niños de un colegio, se les ha pesado, en kilogramos, y se les


ha medido, en centímetros. Aquí tienes los datos de los primeros seis niños:

EJEMPLO 5.

: Las notas de 10 alumnos de una clase en Matemáticas y en Física han sido

las siguientes:

71
INTERVALO DE CONFIANZA Y PRUEBA PARA EL COEFICIENTE DE
CORRELACIÓN.

Un intervalo de confianza para un coeficiente de correlación es un rango de valores que probablemente


contenga un coeficiente de correlación poblacional con un cierto nivel de confianza.

La razón para crear un intervalo de confianza para un coeficiente de correlación es capturar nuestra
incertidumbre al estimar un coeficiente de correlación de población.

Por ejemplo, supongamos que queremos estimar el coeficiente de correlación entre la altura y el peso de los
residentes de un determinado condado. Dado que hay miles de residentes en el condado, sería demasiado
costoso y llevaría mucho tiempo buscar información sobre la altura y el peso de cada residente.

En su lugar, podríamos seleccionar una muestra aleatoria simple de residentes y simplemente recopilar
información sobre ellos.

EJEMPLOS:

EJEMPLO 1.

Suponga que queremos estimar el coeficiente de correlación entre la altura y el


peso de los residentes de un determinado condado. Seleccionamos una muestra
aleatoria de 30 residentes y encontramos la siguiente información:

 Tamaño de muestra n = 30
 Coeficiente de correlación entre talla y peso r = 0,56
A continuación, se explica cómo encontrar un intervalo de confianza del 95% para
el coeficiente de correlación de la población:
Paso 1: realizar la transformación de Fisher.
Sea z r = ln (1 + r / 1-r) / 2 = ln (1 + .56 / 1-.56) / 2 = 0.6328
Paso 2: Encuentre los límites superior e inferior del registro.
Deje L = z r – (z 1-α / 2 / √ (n-3)) = .6328 – (1.96 / √ (30-3)) = .2556
Sea U = z r + (z 1-α / 2 / √ (n-3)) = .6328 + (1.96 / √ (30-3)) = 1.01
Paso 3: Encuentre el intervalo de confianza.
Intervalo de confianza = [(e 2L -1) / (e 2L +1), (e 2U -1) / (e 2U +1)]

Intervalo de confianza = [(e 2 (.2556) -1) / (e 2 (.2556) +1), (e 2 (1.01) -1) / (e 2 (1.01) +1)]
= [.2502, .7658]

72
ERRORES DE MEDICIÓN.
El error de medición se define como la diferencia entre el valor medido y el "valor verdadero". Los errores de
medición afectan a cualquier instrumento de medición y pueden deberse a distintas causas. Las que se
pueden de alguna manera prever, calcular, eliminar mediante calibraciones y compensaciones, se denominan
deterministas o sistemáticos y se relacionan con la exactitud de las mediciones. Los que no se pueden prever,
pues dependen de causas desconocidas, o estocásticas se denominan aleatorios y están relacionados con la
precisión del instrumento.

. Atendiendo a su naturaleza los errores cometidos en una medición, los errores admiten una clasificación en
dos grandes vertientes: errores aleatorios y errores sistemáticos:

EJEMPLOS:

Ejemplo 1.

Error aleatorio

Los errores aleatorios son aquellos que se dan cuando se hacen medidas consecutivas de un mismo objeto o
fenómeno, obteniendo valores diferentes en cada caso.

En las ciencias sociales los errores aleatorios están representados por condiciones que afecten de manera
particular a un miembro de la muestra que está siendo analizada.

Ejemplo
Se está estudiando el desempeño de un grupo de alumnos en los deportes. Hay cientos de elementos que
afectan a cada joven, como las horas de sueño que ha tenido, el humor, la condición física, entre otros.

Cabe destacar que estas condiciones no intervienen en la actuación del grupo, sino en la de un solo individuo,
lo que añade diferencias interesantes en los datos obtenidos.

EJEMPLO 2.

Error sistemático

A diferencia de los errores aleatorios, los errores sistemáticos dependen directamente del sistema que se está
empleando para realizar la medición. Por este motivo, son errores constantes.

Si se emplean instrumentos descalibrados, estos arrojarán medidas erróneas. El error se va a presentar


incluso si se repite el proceso de medición.

En las ciencias sociales, el error sistemático se produce cuando hay una condición que afecte de manera
general el desempeño de todos los individuos de la muestra.

Ejemplo

Un grupo de estudiantes debe presentar un examen sorpresa sobre un contenido que no se ha visto a
profundidad en clases.

Se espera que el resultado de la evaluación sea pobre en cada caso, lo que representa un error sistemático.

EJEMPLO 3.

Error despreciativo

Es aquel error que, por ser mínimo, no constituye un problema para las mediciones que se están llevando a
cabo.

Ejemplo

73
Si se está trabajando en metros y la medida varía por 1 milímetro, se considera que este error no es
significativo y el resultado se acepta como correcto.

EJEMPLO 4.

Error significativo

El error significativo es aquel que representa un problema para el trabajo que se está realizando. Si la
diferencia de medidas es muy grande, evidentemente se tratará de un error significativo.

Hay casos en los que la diferencia es mínima pero igualmente es significativa.

Ejemplo

Cuando se preparan soluciones valoradas (aquellas que requieren medidas precisas de soluto y solvente), un
error en la medición de los componentes siempre será significativo.

EJEMPLO 5.

Error por defectos en el instrumento empleado

Muchos de los errores que se cometen al momento de hacer mediciones pueden ser atribuidos a los
instrumentos que se emplean.

Existen algunos instrumentos que requieren ser calibrados para que las medidas obtenidas sean precisas.

Los termómetros deben ser sometidos a mantenimiento y calibración cada cierto tiempo, para que no existan
errores significativos en las medidas de la temperatura.

Ejemplo

Los defectos de fábrica, las deformaciones y otras imperfecciones son algunos ejemplos de los causantes de
errores. Asimismo, los instrumentos están sujetos a desgastarse por el uso.

74
UNIDAD # 6 ESTADISTICA APLICADA

MOESTREO.
Se le conoce como muestreo a la técnica para la selección de una muestra a partir de una población
estadística.

Al elegir una muestra aleatoria se espera conseguir que sus propiedades sean extrapolables a la población.
Este proceso permite ahorrar recursos, y a la vez obtener resultados parecidos a los que se alcanzarían si se
realizase un estudio a toda la población. En las investigaciones llevadas por empresarios y de la medicina se
usa muestreo extensivamente en recoger información sobre poblaciones.

Cabe mencionar que para que el muestreo sea válido y se pueda realizar un estudio adecuado (que consienta
no solo hacer estimaciones de la población sino estimar también los márgenes de error correspondientes a
dichas estimaciones), debe cumplir ciertos requisitos. Nunca podremos estar enteramente seguros de que el
resultado sea una muestra representativa, pero sí podemos actuar de manera que esta condición se alcance
con una probabilidad alta.

En el muestreo, si el tamaño de la muestra es más pequeño que el tamaño de la población, se puede extraer
dos o más muestras de la misma población. Al conjunto de muestras que se pueden obtener de la población
se denomina espacio muestral. La variable que asocia a cada muestra su probabilidad de extracción sigue la
llamada distribución muestral.

EJEMPLOS:

EJEMPLO 1

Por ejemplo, un investigador tiene la intención de recoger una muestra sistemática de 500 personas en una
población de 5000. Numera cada elemento de la población de 1 a 5.000 y elegirá a cada 10 individuos para
que formen parte de la muestra (Población total/tamaño de la muestra = 5.000/500 = 10).

Ejemplo 2

Muestreo aleatorio simple. Un equipo de investigación busca saber cuál es el ingreso promedio de la
población de una ciudad. Para realizar la muestra representativa, se hace una lista de todos los individuos, a
cada uno se le asigna un número y con un programa informático especial se escogen 300.000 personas.

EJEMPLO 3

Muestreo por conglomerados. El Ministerio de Educación busca determinar cuáles son las características que
diferencian las universidades públicas de las privadas. Se eligen muestra representativa diez universidades
públicas y diez privadas al azar.

EJEMPLO 4

Muestreo sistemático. Un laboratorio está investigando la eficacia de un medicamento. Para seleccionar la


muestra representativa, se realiza una lista de todos los pacientes que se trataron con ese medicamento y se
escoge un individuo cada treinta.

EJEMPLO 5

Muestreo aleatorio estratificado. Un equipo de investigadores está analizando las opiniones de la población
sobre la reforma de una ley. Para seleccionar la muestra representativa, se divide la población en cuatro

75
grupos etarios (de 18 a 30 años, de 30 a 45 años, de 46 a 60 años y mayores de 60 años) y después se
escoge a los individuos de manera aleatoria.

EJEMPLO 6

Muestreo por conveniencia. Una empresa de marketing está realizando un estudio sobre los criterios de
elección de marcas de los clientes. Para seleccionar la muestra representativa, se entrevista a personas en
tiendas de ropa y supermercados, que se encuentran en un mismo vecindario.

EJEMPLO 7

Muestreo accidental o consecutivo. Un investigador está estudiando las preferencias de los sujetos en
relación con la literatura. Para seleccionar la muestra representativa, escoge una librería y entrevista a los
clientes que concurran allí en la primera semana de julio

EJEMPLO 8.

Muestreo subjetivo. Un investigador está estudiando la efectividad de las campañas publicitarias televisivas.
Para seleccionar la muestra representativa, escoge a personas que hayan realizado anuncios y a
televidentes.

EJEMPLO 9

Muestreo de bola de nieve. Un grupo de investigadores está haciendo un estudio sobre un servicio secreto de
inteligencia. Para realizar la selección de la muestra representativa, deberá contactar a una persona que haya
trabajado en esta agencia y lograr que brinde además información de otros individuos que quieran participar
en las entrevistas.

EJEMPLO 10

Muestreo por cuotas. Un grupo de investigadores está estudiando la división de las tareas domésticas según
el género. Para seleccionar la muestra representativa, deben tener en cuenta que las mujeres representan el
47,2 % y los hombres el 52,8 % de la población.

TEOREMA DE LIMITE CENTRAL

El estudio de probabilidades a través de la estadística permite conocer la posibilidad de que un determinado


evento pueda ocurrir, respondiendo todo tipo de interrogantes como la manera en que puede suceder o la
frecuencia de este. Pero para lograr obtener los resultados de estos cálculos, es necesario seleccionar una
población y una muestra, y un método que sea aplicable al caso de estudio. El teorema de límite central,
conocido bajo las siglas TLC, permite realizar estudios probabilísticos con distribuciones de todo tipo.

EEMPLOS:

Ejemplo 1.

Una empresa de mensajería que opera en la ciudad tarda una media de 35 minutos en llevar un paquete,

con una desviación típica de 8 minutos. Supongamos que durante el día de hoy han repartido 200

paquetes.

a) ¿Cuál es la probabilidad de que la media de los tiempos de entrega de hoy esté entre 30 y 35 minutos?

76
b) ¿Cuál es la probabilidad de que, en total, para los doscientos paquetes hayan estado más de 115 horas?

Consideremos la variable X = “Tiempo de entrega del paquete”. Sabemos que su media es 35 minutos y su

desviación típica, 8. Pero fijaos en que no sabemos si esta variable sigue una distribución normal. Durante

el día de hoy se han entregado n = 200 paquetes. Es decir, tenemos una muestra x1, x2, ..., xn de nuestra

variable.

Por el teorema del límite central sabemos que la media muestral se comporta como una normal de

esperanza 35 y desviación típica:

Si utilizamos esta aproximación, ya podemos contestar a la pregunta a. Debemos calcular:

que es aproximadamente igual a la probabilidad siguiente:

donde Z es una normal (0,1). Es decir, tenemos una probabilidad aproximada del 0,4616 de que la media

del tiempo de entrega de hoy haya estado entre 30 y 35 minutos.

Por lo que respecta a la segunda pregunta, de entrada, debemos pasar las horas a minutos, ya que ésta es

la unidad con la que nos viene dada la variable. Observad que 115 horas por 60 minutos nos dan 6.900

minutos. Se nos pide que calculemos la probabilidad siguiente:

y como que sabemos que la media se distribuye aproximadamente como una normal de media 35 y

desviación típica 0,566 (supondremos siempre que la distribución de la media es normal, ya sea porque la

variable de interés es normal o porque la muestra es lo bastante grande), esta probabilidad se puede

aproximar por la probabilidad de una distribución normal estándar Z:

77
EJEMPLO 2.

Las bolsas de sal envasadas por una máquina tienen


y . Las bolsas se empaquetaron en cajas de unidades.
Calcular la probabilidad de que la media de los pesos de las bolsas de un
paquete sea menor que .Calcular la probabilidad de que una
caja de bolsas pese más de .

Calcular la distribución de la media de una muestra

Dado que la muestra es grande (n=100) podemos aplicar el teorema del límite central. Por lo tanto, la media
de la muestra se aproxima a una distribución normal con los parámetros

Esto es

Calculamos la probabilidad

Calcular la distribución de la suma de los elementos de una muestra

Necesitamos calcular la probabilidad de que la suma de los elementos de una muestra esté en un cierto
intervalo. Sabemos que la suma de la muestra se aproxima a una distribución normal con los parámetros

78
Esto es

Calculamos la probabilidad

EJEMPLO 3.

La población de las temperaturas corporales de adultos sanos tiene media y desviación


típica de . Si obtenemos una muestra de personas. ¿Cuál es la probabilidad de que
la media de la temperatura de la muestra sea menor o igual a ?

1Calcular la distribución normal a la que se aproxima la media

Dado que la muestra es grande podemos aplicar el teorema del


límite central. Por lo tanto, la media de la muestra se aproxima a
una distribución normal con los parámetros

Esto es

79
Aproximar la probabilidad usando la distribución normal obtenida

Calculamos la probabilidad de obtener una temperatura menor o


igual a . Para ello, calculamos el valor equivalente en la
variable normal tipificada

EJEMPLO 4.

La renta media de los habitantes de un país se distribuye uniformemente entre 4,0 millones ptas. y 10,0
millones ptas. Calcular la probabilidad de que al seleccionar al azar a 100 personas la suma de sus rentas
supere los 725 millones ptas.

Cada renta personal es una variable independiente que se distribuye según una función uniforme. Por ello, a
la suma de las rentas de 100 personas se le puede aplicar el Teorema Central del Límite.

La media y varianza de cada variable individual es:

m = (4 + 10) / 2 = 7

s 2 = (10 - 4) ^2 / 12 = 3

Por tanto, la suma de las 100 variables se distribuye según una normal cuya media y varianza son:

Media: n * m = 100 * 7 = 700

Varianza: n * s2 = 100 * 3 = 300

Para calcular la probabilidad de que la suma de las rentas sea superior a 725 millones ptas, comenzamos por
calcular el valor equivalente de la variable normal tipificada:

Estadística

Luego:

P (X > 725) = P (Y > 1,44) = 1 - P (Y < 1,44) = 1 - 0,9251 = 0,0749

Es decir, la probabilidad de que la suma de las rentas de 100 personas seleccionadas al azar supere los 725
millones de pesetas es tan sólo del 7,49%

ENEMPLO 5.

80
En una asignatura del colegio la probabilidad de que te saquen a la pizarra en cada clase es del 10%. A lo
largo del año tienes 100 clases de esa asignatura. ¿Cuál es la probabilidad de tener que salir a la pizarra más
de 15 veces?

Se vuelve a aplicar el Teorema Central del Límite.

Salir a la pizarra es una variable independiente que sigue el modelo de distribución de Bernouilli:

"Salir a la pizarra", le damos el valor 1 y tiene una probabilidad del 0,10

"No salir a la pizarra", le damos el valor 0 y tiene una probabilidad del 0,9

La media y la varianza de cada variable independientes m = 0,1

s 2 = 0,10 * 0,90 = 0,09

Por tanto, la suma de las 100 variables se distribuye según una normal cuya media y varianza son:

Media: n * m = 100 * 0,10 = 10

Varianza: n * s2 = 100 * 0,09 = 9

Para calcular la probabilidad de salir a la pizarra más de 15 veces, calculamos el valor equivalente de la
variable normal tipificada:

Estadística

Luego:

P (X > 15) = P (Y > 1,67) = 1 - P (Y < 1,67) = 1 - 0,9525 = 0,0475

Es decir, la probabilidad de tener que salir más de 15 veces a la pizarra a lo largo del curso es tan sólo del
4,75% (¡¡¡ ánimo !!!, no es tan grave)

81
DISTRIBUCIÓN MJUESTRAL DE LA MEDIA

Se denomina muestreo al proceso por el que generamos las muestras. Una muestra es una parte (un
subconjunto) de la población, y se desea que la muestra sea lo más representativa posible de la población de
la que procede. Sin embargo, por muy cuidadosa que sea la selección de la muestra difícilmente será una
representación exacta de la población. Esto significa que su tendencia central, variabilidad, etc., aproximarán
las de la población, pero habrá cierta diferencia, que interesa sea lo menor posible. Un concepto clave de
muestreo es el de representatividad: Los procedimientos de muestreo tienen por objeto generar muestras lo
más representativas posible de las poblaciones dados los objetivos de la investigación y las circunstancias
que afectan al muestreo.

Desde un punto de vista aplicado, se denomina muestreo el proceso de selección de la muestra o muestras a
utilizar para la investigación. Esto supone generar una o pocas muestras. Actualmente es de interés la
selección de muestras para la simulación informática de los procesos de muestreo, particularmente para la
obtención de distribuciones muestrales. En estos casos el número de muestras generadas puede ser muy
grande (10.000, 80.000, o más) y el procedimiento de muestreo se realiza informáticamente y con
procedimientos específicos.

Desde un punto de vista teórico, el concepto de muestreo es fundamental para la Inferencia Estadística. El
hecho de que las muestras no sean exactamente representativas de las poblaciones significa que las
inferencias presentan cierto margen de incertidumbre. Para cuantificarlo y definir técnicas inferenciales es
necesario conocer cómo se comportan los estadísticos obtenidos en las muestras, esto es, cómo son las
distribuciones muestrales de los estadísticos habitualmente utilizados para la inferencia.

Las muestras singulares generadas para investigación con sujetos suelen utilizarse para obtener algunos
estadísticos (Media, proporción, cuasi varianza, etc.) con los que se realiza el proceso de inferencia. En
cambio, las muestras simuladas por ordenador suelen ser utilizadas para obtener distribuciones muestrales y
realizar inferencia. Esto es de interés cuando se dan circunstancias especiales que no aconsejan utilizar los
procedimientos habituales. Las distribuciones muestrales son las distribuciones de estadísticos de muestras
que pertenecen a la misma población. Por ejemplo, la distribución muestral de la Media es la distribución de
las Medias de muestras de un mismo tamaño extraídas de la misma población.

EJEMPLO 1.

Sea un curso con 40 estudiantes (el número de datos es


pequeño para facilitar la comprensión del ejemplo). Queremos
conocer la Media de las puntuaciones del curso, pero por
diversas razones no tenemos acceso a todos los datos (que se

82
denomina población). Pero supongamos que podemos
seleccionar cinco puntuaciones aleatoriamente y obtener la
Media de la muestra. Si repetimos el proceso y generamos más
muestras tendremos más Medias muestrales y podremos ver
cómo se distribuyen:

La Media de los datos seleccionados aleatoriamente (son las


señaladas en negrita) es:

Si repetimos el procedimiento 25 veces generamos 25


muestras. Las Medias de cada muestra son:

El Histograma de la distribución de las Medias de las 25


muestras es

con 100 muestras,

83
y con 1000 muestras

La forma del Histograma se acerca a la del modelo Normal


cuanto mayor es el número de muestras. Esta es una
característica de la distribución muestral de Medias que permite
conocer si la media obtenida en la muestra es muy diferente a
la media de la población, dado que tenemos la siguiente
información:

a) La distribución de Medias muestrales es Normal.

b) La Media y Desviación Típica de la distribución de Medias


muestrales son 4.7 y 1.52 (Nota: La diferencia entre la Media de
la distribución muestral y la Media de la población se debe a que
la muestra es pequeña).

e) Por tanto, sabemos lo siguiente:

* El 95% (aproximadamente) de las Medias muestrales


obtenidas en el muestreo del ejemplo tienen valores entre 1.7 y
7.7

* El valor obtenido (4.2) está entre ambos límites, que definen


el conjunto de valores que obtenemos al hacer un muestreo
aleatorio con muestras de 5 datos de la población del ejemplo.

* Como conclusión, vemos que 4.2 es un valor esperable


cuando efectuamos un muestreo aleatorio con muestras de 5
datos. Diremos que la diferencia observada respeto de la Media
del curso es explicada por el azar (ya que la selección de las
muestras ha sido aleatoria y asumimos que no han influido otros
factores).

84
EJEMPLO 2.

En el último año, el peso de los recién nacidos en una maternidad se ha


distribuido según una ley normal de media μ = 3100 g y desviación típica
σ = 150 g.
¿Cuál será la probabilidad de que la media de una muestra de 100 recién
nacidos sea superior a 3130 g?

EJEMPLO 3.

Supongamos que la estatura media de las alumnas de un instituto es de


165 cm, con desviación típica de 8 cm.
a) Halla los parámetros de una media muestral de tamaño n = 36.
b) ¿Cuál es la probabilidad de que una muestra de 36 alumnas tenga una
media de 167 cm o más centímetros?

85
EJEMPLO 4.

Se sabe que el 10 % de los habitantes de una determinada ciudad va regularmente al


teatro. Se toma una muestra al azar de 100 habitantes de esta ciudad, ¿cuál es la
probabilidad aproximada de que al menos el 13 % de ellos vaya regularmente al teatro?

86
EJEMPLO 5.

Un estudio realizado por una compañía de seguros de automóviles establece que una de
cada cinco personas accidentadas es mujer. Si se contabilizan, por término medio, 169
accidentes cada fin de semana:
a) ¿Cuál es la probabilidad de que, en un fin de semana, la proporción de mujeres
accidentadas supere el 24 % ?
b) ¿Cuál es la probabilidad de que, en un fin de semana, la proporción de hombres
accidentados supere el 85 % ?
c) ¿Cuál es, por término medio, el número esperado de hombres accidentados cada fin
de semana?

87
DISTRIBICIÓN MUESTRAL DE UNA PROPORCIÓN
La distribución muestral de proporciones permite investigar la proporción de algún atributo en una muestra
(variables cualitativas), se genera como la distribución muestral de medias, a excepción de que al extraer las
muestras de la población se calcula el estadístico proporción en lugar del estadístico promedio.

En la distribución muestral de proporciones, la fórmula para calcular la probabilidad parte de la aproximación


de distribución normal a binomial, diferenciando si es una población finita.

Además, muchas aplicaciones involucran poblaciones de datos cualitativos que deben compararse utilizando
proporciones o porcentajes, acción que se denomina cálculo de probabilidad del estadístico de diferencia de
proporciones dentro de la distribución muestral con el mismo nombre.

EJEMPLOS 1.

Una fábrica de pasteles fabrica, en su producción habitual, un 3 \% de pasteles

defectuosos. Un cliente recibe un pedido de 500 pasteles de la fábrica.

Calcula la probabilidad de que encuentre más del 5 \% de pasteles defectuosos.

SOLUCIÓN

Estamos tomando una muestra de tamaño , de una población donde la

proporción de pasteles defectuosos es de . Podemos usar


las Distribución Muestral de Proporciones, que se ajusta a una

normal

En nuestro ejemplo, si sustituimos los valores de y y calculamos,

sería

a)

88
EJEMPLO 2.

Se cree que al menos el 25\% de los usuarios de teléfonos móviles son de

contrato. De una encuesta realizada a 950 personas, elegida al azar, 200 de ellas

manifestaron que tenían teléfono móvil de contrato. A la vista de estos resultados y con

un nivel de significación del 5\%, ¿puede admitirse que la proporción de personas con

contrato en su teléfono móvil ha disminuido? Utilice para la resolución del problema un

contraste de hipótesis con hipótesis nula “la proporción p es mayor o igual que 0.25”.

SOLUCIÓN

Se trata de un contraste de hipótesis para proporción de tipo unilateral (Ver


Teoría)

Contraste

(hipótesis nula)

(hipótesis alternativa)

Región de aceptación (R)

(tamaño de la muestra)

89
(proporción de la muestra)

al

Miramos la tabla de la N (0,1) y vemos que los más próximo a 0.95 es 0.9495 (1.64) y
0.9505(1.65). Tanto si tomamos 1.64, como si tomamos 1.65 nos deberían dar el
resultado por bueno, no obstante, como está a la misma distancia de ambos, voy a
tomar 1.645 (la mitad entre 1.64 y 1.65).

Por tanto

La región de aceptación sería:

Como la proporción de la muestra está fuera de la región de

aceptación , rechazamos la hipótesis nula (

) de que al menos el de los usuarios de teléfonos móviles son de


contrato y admitimos que la proporción de personas con contrato en su teléfono móvil
ha disminuido

EJEMPLO 3.

90
Se quiere estimar la proporción de estudiantes que asiste de forma regular al cine. Para ello, se toma una
muestra aleatoria simple de tamaño 300 y se obtiene que, de ellos, 210 acuden con regularidad al cine.

- a) Calcule un intervalo de confianza al 92 \% para estimar la proporción de estudiantes que va al cine


regularmente. ¿Qué error máximo se cometería si se diera como estimación de dicha proporción 0?7?

- b) Con el mismo nivel de confianza, siendo la proporción muestral la misma, si queremos que el error sea
menor que 0.02, ¿cuántos alumnos como mínimo hay que elegir en la muestra?

SOLUCIÓN

a) Nos piden un intervalo de confianza para la proporción

Y nos aportan los datos:

(proporción de la muestra)

(proporción de la población; cuando no se conozca se toma la proporción de la


muestra)

: tamaño de la muestra

confianza:

Cálculo del valor crítico

91
Miramos la tabla de la N(0,1) y obtenemos

Con todos los datos ya disponibles, creamos el intervalo de confianza

El error máximo sería (aproximadamente un )

b) Con los mismos datos del apartado anterior, si queremos que el error sea menor que 0.02
tendríamos:

92
Tenemos que despejar "n"

Para que el error sea menor que 0.02 deberíamos tomar una muestra

de

EJEMPLO 4.

Tomada, al azar, una muestra de 120 estudiantes de una Universidad se encontró que 54 de ellos hablaban
inglés. Se pretende repetir la experiencia para conseguir que la cota del error que se comete al estimar, por un

93
intervalo de confianza, la proporción de alumnos que hablan inglés en esa Universidad no sea superior a 0,05,
con un nivel de confianza del 99\%. ¿Cuántos alumnos tendríamos que tomar, como mínimo, en la muestra?

SOLUCIÓN
La fórmula del intervalo de confianza para la proporción:

Proporción de la muestra:

Proporción de la población: no se conoce, por tanto tomamos la de la muestra

Tamaño de la muestra:

Valor crítico para una confianza del

Miramos la tabla de la N (0,1) y obtenemos

El error responde a la fórmula:

de donde podemos despejar "n" obteniendo:

94
Sustituyendo en la fórmula por los datos del problema obtenemos n=656.43 aproximadamente, por
tanto, n debe ser mayor o igual que 657 (para que el error sea menor o igual a 0.05)

EJEMPLO 5.

Un estudio sociológico afirma que el 70% de las familias cena viendo la televisión. Se desea contrastar la
veracidad de esta afirmación y, para ello, se toma una muestra de 500 familias, en la que se observa que 340
ven la televisión mientras cenan. Decida, mediante un contraste de hipótesis, si la afirmación es cierta con un
nivel de significación de 0.01.

SOLUCIÓN
Contraste bilateral para la proporción

(hipótesis nula: la proporción es )

(hipótesis alternativa: la proporción no es de )

Región de aceptación (R)

Significación de nivel de confianza:

95
Toma de decisión

La proporción de la muestra es

aceptamos

ESTIMACIÓN.
Estimar qué va a ocurrir respecto a algo (o qué está ocurriendo, o qué ocurrió), a pesar de ser un elemento
muy claramente estadístico, está muy enraizado en nuestra cotidianidad. Dentro de ello, además hacemos
estimaciones dentro de un intervalo de posibilidades. Por ejemplo: “creo que terminaré la tarea en unos 5-6
días”. Lo que hacemos en el terreno del análisis de datos es aplicar matizaciones técnicas a este hábito.
Vamos a dedicar este documento al concepto de estimación, comenzando con la estimación puntual. Después
nos ocuparemos de desarrollar un modelo de estimación por intervalo donde identificaremos los elementos
fundamentales, con su significado y símbolo. Y, por último, habrá que desarrollar cómo se calculan esos
elementos.

EJEMPLO 1

96
EJEMPLO 2.

EJEMPLO 3.

97
EJEMPLO 4.

EJEMPLO 5.

98
ESTIMACIÓN POR INTERVALO.

La estimación por intervalos consiste en establecer el intervalo de valores donde es más probable se
encuentre el parámetro. La obtención del intervalo se basa en las siguientes consideraciones:

a) Si conocemos la distribución muestral del estimador podemos obtener las probabilidades de ocurrencia de
los estadísticos muestrales.

b) Si conociéramos el valor del parámetro poblacional, podríamos establecer la probabilidad de que el


estimador se halle dentro de los intervalos de la distribución muestral.

c) El problema es que el parámetro poblacional es desconocido, y por ello el intervalo se establece alrededor
del estimador. Si repetimos el muestreo un gran número de veces y definimos un intervalo alrededor de cada
valor del estadístico muestral, el parámetro se sitúa dentro de cada intervalo en un porcentaje conocido de
ocasiones. Este intervalo es denominado "intervalo de confianza"

EJEMPLO 1.

Se generan 100000 muestras aleatorias (n=25) de una población que sigue la distribución Normal, y resulta:

99
En consecuencia, el intervalo dentro del cual se halla el 95% de las Medias muestrales es

(Nota: Los valores +-1.96 que multiplican la Desviación Típica de la distribución muestral son los valores cuya
función de distribución es igual a 0.975 y 0.025 respectivamente y se pueden obtener en las tablas de la
distribución Normal estandarizada o de funciones en aplicaciones informáticas como Excel). Seguidamente
generamos una muestra de la población y obtenemos su Media, que es igual a 4.5. Si establecemos el
intervalo alrededor de la Media muestral, el parámetro poblacional (5.1) está incluido dentro de sus límites:

Ahora bien, la distancia de un punto A a un punto B es la misma que de B a A. Por esa razón, la distancia
desde m a la Media muestral es la misma que va de la Media muestral a m. En consecuencia, si hacemos un
muestreo con un número grande de muestras observamos que el 95% de las veces (aproximadamente) el
valor de la Media de la población (m) se encuentra dentro del intervalo definido alrededor de cada uno de los
valores de la Media muestral. El porcentaje de veces que el valor de m se halla dentro de alguno de los
intervalos de confianza es del 95%, y es denominado nivel de confianza.

Si queremos establecer un intervalo de confianza en que él % de veces que m se halle dentro del intervalo
sea igual al 99%, la expresión anterior es:

(Obtenemos el valor +-2.58 que multiplica la Desviación Típica de la distribución muestral en las tablas
de la distribución Normal estandarizada o de funciones en aplicaciones informáticas como Excel), y
son los valores cuya función de probabilidad es igual a 0.995 y 0.005 respectivamente).

EJEMPLO 2.

La siguiente imagen muestra la distribución de las Medias muestrales obtenidas de 100000 muestras
aleatorias y los intervalos alrededor de cada una de las Medias obtenidas de diez de las muestras:

donde ls y le simbolizan los límites superior e inferior del intervalo de confianza al 95%.

10
Nueve de los diez intervalos (salvo el definido alrededor de la Media muestral igual a 3.7) incluyen el valor del
parámetro dentro sus límites.

EJEMPLO 3.

Una empresa de investigación llevó a cabo una encuesta para determinar la cantidad media que los
fumadores gastan en cigarrillos durante una semana. La semana encontró que la distribución de cantidades
gastadas por semana tendía a seguir una distribución normal, con una desviación estándar de $5. Una
muestra de 64 fumadores reveló que = $20. a) ¿Cuál es el estimador de intervalo de confianza de 95% para
la μ?

10
EJEMPLO 4.

% La Doctora Patton es profesora de inglés. Hace poco contó el número de palabras con faltas de ortografía
en un grupo de ensayos de sus estudiantes. Observó que la distribución de palabras con faltas de ortografía
por ensayo se regía por una distribución normal con una desviación estándar de 2.44 palabras por ensayo. En
su clase de 40 alumnos de las 10 de la mañana, el número medio de las palabras con faltas de ortografía fue
de 6.05. Construya un intervalo de confianza de 90

EJEMPLO 5,

A asociación Estadounidense de Productores de Azúcar desea calcular el consumo medio de azúcar por año.
Una muestra de 16 personas revela que el

10
INTERVALO DE CONFIANZA PARA UNA MEDIDA.

El intervalo de confianza describe la variabilidad entre la medida obtenida en un estudio y la medida real de la
población (el valor real). Corresponde a un rango de valores, cuya distribución es normal y en el cual se
encuentra, con alta probabilidad, el valor real de una determinada variable.

EJEMPLO:

El peso (en gramos) de las cajas de cereales de una determinada marca sigue una
distribución). N (μ, 5 Se han tomado los pesos de 16 cajas seleccionadas aleatoriamente,
y los resultados obtenidos han sido: 506, 508, 499, 503, 504, 510, 497, 512, 514, 505,
493, 496, 506, 502, 509, 496. a) Obtener los intervalos de confianza del 90%, 95% y 99%
para la media poblacional. b) Determinar cuál sería el tamaño muestral necesario para
conseguir, con un 95% de confianza, un intervalo de longitud igual a 2 gramos. c)
Suponiendo ahora que σ es desconocida, calcular los intervalos de confianza para la
media al 90%, 95% y 99%.
Solución.
a) Estamos situados en el caso de construir un intervalo de confianza para la media
poblacional μ de varianza conocida 25 2 σ =. Sabemos que el intervalo de confianza de
nivel 1 − α, viene dado por:

10
10
EJEMPLO 2.

Una muestra aleatoria extraída de una población normal de varianza 100, presenta

una media muestral x = 160. Con una muestra de tamaño 144, se pide:

a) Calcular un intervalo de confianza del 95 por ciento para la media poblacional.

b) Calcular un intervalo de confianza del 90 por ciento para la media poblacional.

c) Comparar ambos intervalos, desde el punto de vista de la información que

generan.

d) Si se quiere tener una confianza del 95 por ciento de que su estimación se

encuentra a una distancia de 1,2 cm más o menos de la verdadera media poblacional,

¿cuántas observaciones adicionales deben tomarse?

Solución:

a) Estamos situados en el caso de construir un intervalo de confianza para la media

poblacional μ de varianza conocida 100 2 σ =. Sabemos que el intervalo de confianza de

nivel 1 − α, viene dado por:

El segundo intervalo de confianza es de longitud menor, y, por tanto, podría parecer

más preciso, pero no olvidemos que su nivel de confianza es también menor (el 90 por

100 frente al 95 por ciento del primer intervalo).

d) El error absoluto que se quiere cometer es de 1,2, aplicando la fórmula para la

determinación de la muestra a un nivel de confianza del 95 por 100, se tiene:

10
EJEMPLO 3,

La afluencia de visitantes al parque de Monfragüe durante un mes, medida a través de


una muestra aleatoria durante 10 días elegidos aleatoriamente, han sido los siguientes:
682, 553, 555, 666, 657, 649, 522, 568, 700, 552 Suponiendo que los niveles de afluencia
siguen una distribución normal, y que la desviación típica muestral es de 56,99. a) Se
podría afirmar, con un 95 por ciento de confianza, que la afluencia media al parque es de
600 personas al mes. b) Los adjudicatarios de la explotación al parque, en negociaciones
con la Junta de Extremadura, afirmaron que la afluencia media era constante y que la
dispersión sería de unas 15 personas. ¿Queda esta afirmación probada con los datos
disponibles con un 95% de confianza? Solución: a) Nos encontramos ante un intervalo de
confianza para la media μ de una distribución normal de varianza poblacional desconocida
σ 2), N (μ, σ siendo la muestra pequeña n ≤ 30

10
EJEMPLO 4.

El gasto diario en llamadas telefónicas de dos departamentos X e Y de una misma


empresa sigue una distribución normal, con gasto medio desconocido en ambos. Sin
embargo, se conocen las desviaciones típicas, que son 100 y 110 céntimos de euro para
X e Y, respectivamente. La dirección ha observado que una muestra aleatoria de 20 días,
el gasto medio diario en llamadas realizadas por el departamento X ha sido de 1100
céntimos, y de 1400 en el departamento Y. Obtener un intervalo de confianza para la
diferencia de gastos medios entre ambos departamentos.
Solución:

10
EJEMPLO 5.

Se selecciona una muestra aleatoria de 600 familias, a las que se pregunta si tienen o no
ordenador en casa. Contestaron afirmativamente 240 familias. Obtener un intervalo de
confianza al nivel del 95% para la proporción real de familias que poseen ordenador en
casa.
Solución:
La característica en estudio es dicotómica, tenemos que construir un intervalo de
confianza para el parámetro p (proporción) de la variable aleatoria binomial asociada al
estudio de la característica. Como el tamaño de la muestra es suficientemente grande, n =
600, se puede utilizar la aproximación normal.

INTERVALO DE CONFIANZA PARA UNA PROPORCIÓN

Un intervalo de confianza para una proporción es un rango de valores


que probablemente contenga una proporción de población con un cierto
nivel de confianza.
Este tutorial explica lo siguiente:

 La motivación para crear un intervalo de confianza para una


proporción.
 La fórmula para crear un intervalo de confianza para una
proporción.
 Un ejemplo de cómo calcular un intervalo de confianza para
una proporción.
 Cómo interpretar un intervalo de confianza para una proporción.

Intervalo de confianza para una proporción


La razón para crear un intervalo de confianza para una proporción es capturar nuestra
incertidumbre al estimar una proporción de población.

10
Por ejemplo, supongamos que queremos estimar la proporción de personas en un determinado
condado que están a favor de una determinada ley. Dado que hay miles de residentes en el
condado, sería demasiado costoso y llevaría mucho tiempo preguntar a cada residente sobre su
postura sobre la ley.

En cambio, podríamos seleccionar una muestra aleatoria simple de residentes y preguntar a cada
uno si apoyan o no la ley:

Dado que seleccionamos una muestra aleatoria de residentes, no hay garantía de que la
proporción de residentes en la muestra que están a favor de la ley coincida exactamente con la
proporción de residentes en todo el condado que están a favor de la ley. Entonces, para capturar
esta incertidumbre, podemos crear un intervalo de confianza que contenga un rango de valores
que probablemente contengan la verdadera proporción de residentes que están a favor de la ley en
todo el condado.

Intervalo de confianza para una proporción: fórmula

Usamos la siguiente fórmula para calcular un intervalo de confianza para una proporción de
población:

Intervalo de confianza = p +/- z * (√ p (1-p) / n)

dónde:

p: proporción de la muestra

z: el valor z elegido

n: tamaño de la muestra

El valor z que utilizará depende del nivel de confianza que elija. La siguiente tabla muestra el valor
z que corresponde a las opciones de nivel de confianza más populares:

EJEMPLOS

EJEMPLO 1

Supongamos que se contrata a una compañía de estudios de mercado para que estime el
porcentaje de adultos que viven en una gran ciudad y que tienen teléfonos móviles. Se encuestan
quinientos residentes adultos seleccionados al azar en esta ciudad para determinar si tienen
teléfonos móviles. De las 500 personas incluidas en la muestra, 421 respondieron que sí: tienen
teléfonos móviles. Utilizando un nivel de confianza del 95 %, calcule una estimación del intervalo
de confianza para la verdadera proporción de residentes adultos de esta ciudad que tienen
teléfonos móviles.

Solución

 La solución paso a paso.

Supongamos que X = el número de personas de la muestra que tienen teléfonos


móviles. X es binomial: la variable aleatoria es binaria, la gente o tiene un teléfono
móvil o no lo tiene.

Para calcular el intervalo de confianza, debemos hallar p′, q′.

10
n = 500

x = número de aciertos en la muestra = 421

p′=xn=421500=0,842

p′ = 0,842 es la proporción de la muestra; es la estimación puntual de la proporción de la población.

q′ = 1 – p′ = 1 – 0,842 = 0,158

Como el nivel de confianza solicitado es CL = 0,95, entonces α = 1 - CL = 1 - 0,95 = 0,05 (α2)


(A2) = 0,025.
Entonces zα2=z0,025=1,96

Esto se puede calcular utilizando la tabla de probabilidad normal estándar del A - CUADROS
ESTADÍSTICOS. Esto también se puede encontrar en la tabla t de los estudiantes en la columna
de 0,025 y en infinitos grados de libertad porque en infinitos grados de libertad la distribución de los
estudiantes se convierte en la distribución normal estándar, Z.

El intervalo de confianza para la proporción poblacional binomial verdadera es

EJEMPLO 2.

La Escuela de Adiestramiento Canino de Dundee tiene una proporción mayor que el


promedio de clientes que compiten en eventos profesionales. Se construye un intervalo de
confianza para la proporción poblacional de perros que compiten en eventos profesionales
de 150 escuelas de adiestramiento diferentes. El límite inferior se determina en 0,08 y el
superior en 0,16. Determine el nivel de confianza utilizado para construir el intervalo de la
proporción poblacional de perros que compiten en eventos profesionales.

11
EJEMPLO 3.
Un responsable financiero de una compañía quiere estimar el porcentaje de cuentas por
cobrar que llevan más de 30 días de retraso. Analiza 500 cuentas y descubre que 300
tienen más de 30 días de retraso. Calcule un intervalo de confianza del 90 % para el
verdadero porcentaje de cuentas por cobrar con más de 30 días de retraso, e interprete el
intervalo de confianza.

EJEMPLO 4.

11
Suponga que queremos estimar la proporción de residentes en un condado que están a favor de
una determinada ley. Seleccionamos una muestra aleatoria de 100 residentes y les preguntamos
sobre su postura sobre la ley. Aquí están los resultados:

Tamaño de muestra n = 100

Proporción a favor de la ley p = 0,56

A continuación, se explica cómo encontrar varios intervalos de confianza para la proporción de


población:

Intervalo de confianza del 90%: 0,56 +/- 1,645 * (√ .56 (1-.56) / 100) = [0,478, 0,642]

Intervalo de confianza del 95%: 0,56 +/- 1,96 * (√ .56 (1-.56) / 100) = [0,463, 0,657]

Intervalo de confianza del 99%: 0,56 +/- 2,58 * (√ .56 (1-.56) / 100) = [0,432, 0,688]

Nota: También puede encontrar estos intervalos de confianza utilizando el intervalo de confianza
para la calculadora de proporciones.

EJEMPLO 5.

Un gerente de un canal de televisión debe estimar que porcentaje de hogares tienen más de un
televisor. Una muestra aleatoria de 500 hogares revela que 275 de ellos tiene 2 o más televisores.
¿Cuál es el intervalo de confianza a un nivel de confianza del 90% para estimar la proporción de
hogares que tienen 2 o más televisores? Entonces tenemos que:

PRUEBA DE HIPOTESIS.

Una prueba de hipótesis es una regla que especifica si se puede aceptar o rechazar una afirmación acerca de
una población dependiendo de la evidencia proporcionada por una muestra de datos.

Una prueba de hipótesis examina dos hipótesis opuestas sobre una población: la hipótesis nula y la hipótesis
alternativa. La hipótesis nula es el enunciado que se probará. Por lo general, la hipótesis nula es un
enunciado de que "no hay efecto" o "no hay diferencia". La hipótesis alternativa es el enunciado que se desea
poder concluir que es verdadero de acuerdo con la evidencia proporcionada por los datos de la muestra.

11
Con base en los datos de muestra, la prueba determina si se puede rechazar la hipótesis nula. Usted utiliza el
valor p para tomar esa decisión. Si el valor p es menor que el nivel de significancia (denotado como α o alfa),
entonces puede rechazar la hipótesis nula.

Un error común de percepción es que las pruebas estadísticas de hipótesis están diseñadas para seleccionar
la más probable de dos hipótesis. Sin embargo, al diseñar una prueba de hipótesis, establecemos la hipótesis
nula como lo que queremos desaprobar. Puesto que establecemos el nivel de significancia para que sea
pequeño antes del análisis (por lo general, un valor de 0.05 funciona adecuadamente), cuando rechazamos la
hipótesis nula, tenemos prueba estadística de que la alternativa es verdadera. En cambio, si no podemos
rechazar la hipótesis nula, no tenemos prueba estadística de que la hipótesis nula sea verdadera. Esto se
debe a que no establecimos la probabilidad de aceptar equivocadamente la hipótesis nula para que fuera
pequeña.

EJEMPLOS:

EJEMPLO 1.
Un criador de pollos sabe por experiencia que el peso de los pollos de cinco meses es 4,35 libras. Los pesos
siguen una distribución normal. Para tratar de aumentar el peso de dichas aves se le agrega un aditivo al
alimento. En una muestra de pollos de cinco meses se obtuvieron los siguientes pesos (en libras).

4,41 4,37 4,33 4,35 4,30 4,39 4,36 4,38 4,40 4,39
En el nivel 0,01, ¿el aditivo ha aumentado el peso medio de los pollos? Estime el valor de p.

11
EJEMPLO 2.

Una empresa que se dedica a hacer en cuestas se queja de que un agente realiza en promedio 53 encuestas
por semana. Se ha introducido una forma más moderna de realizar las encuetas y la empresa quiere evaluar
su efectividad. Los números de encuestas realizadas en una semana por una muestra aleatoria de agentes
son:

53 57 50 55 58 54 60 52 59 62 60 60 51 59 56

En el nivel de significancia 0,05, ¿puede concluirse que la cantidad media de entrevistas realizadas por los
agentes es superior a 53 por semana? Evalúe el valor p.

11
EJEMPLO 4.

Lisa Monín es directora de presupuesto en la empresa New Process Company, desea comparar los gastos
diarios de transporte del equipo de ventas y del personal de cobranza. Recopiló la siguiente información
muestral (importe en dólares).

Ventas ($) 131, 135, 146, 165, 136, 142

Cobranza ($) 130, 102, 129, 143, 149, 120, 139

Al nivel de significancia de 0,10, ¿puede concluirse que los gastos medios diarios del equipo de ventas son
mayores? cuál es el valor p?

11
EJEMPLO 4.

El rector de cierta universidad piensa que, durante los últimos años, la edad promedio de los estudiantes que
asisten a esta institución ha cambiado. Se realiza un estudio en que se mide la edad de 150 alumnos elegidos
al azar entre todos los estudiantes de este centro de educación superior. La edad promedio es de 23,5 años.
Un censo realizado en la universidad, unos cuantos años antes del estudio, revelo una edad promedio de 22,4
años; con una desviación estándar de 7,6. Utilice un nivel de significancia del 0,05.

a. Cuáles son las hipótesis?

b. Determine los intervalos de confianza para el 95%

c. Realice el contraste de las hipótesis. ¿Cuál es su conclusión?

EJEMPLO 5.

Se lleva a cabo un estudio para comparar la eficacia de dos métodos de enseñanza de un tema sobre
estadística:

A. Conferencias en el grupo

11
B. asesoría personalizada

Se seleccionan al azar 10 estudiantes de la misma escuela y el mismo ciclo. Posteriormente se aplica un


examen y se obtiene las siguientes puntuaciones:

a. Elabore las hipótesis.

b. Realice el análisis de varianza. Utilice el nivel de significancia del 0,05

c. Contraste las hipótesis e interprete los resultados.

11
ERRORES TIPO I Y II.

Ninguna prueba de hipótesis es 100% cierta. Puesto que la prueba se basa en probabilidades, siempre existe
la posibilidad de llegar a una conclusión incorrecta. Cuando usted realiza una prueba de hipótesis, puede
cometer dos tipos de error: tipo I y tipo II. Los riesgos de estos dos errores están inversamente relacionados y
se determinan según el nivel de significancia y la potencia de la prueba. Por lo tanto, usted debe determinar
qué error tiene consecuencias más graves para su situación antes de definir los riesgos.

Error de tipo I

Si usted rechaza la hipótesis nula cuando es verdadera, comete un error de tipo I. La probabilidad de cometer
un error de tipo I es α, que es el nivel de significancia que usted establece para su prueba de hipótesis. Un α
de 0.05 indica que usted está dispuesto a aceptar una probabilidad de 5% de estar equivocado al rechazar la
hipótesis nula. Para reducir este riesgo, debe utilizar un valor menor para α. Sin embargo, usar un valor menor
para alfa significa que usted tendrá menos probabilidad de detectar una diferencia si está realmente existe.

Error de tipo II

Cuando la hipótesis nula es falsa y usted no la rechaza, comete un error de tipo II. La probabilidad de cometer
un error de tipo II es β, que depende de la potencia de la prueba. Puede reducir el riesgo de cometer un error
de tipo II al asegurarse de que la prueba tenga suficiente potencia. Para ello, asegúrese de que el tamaño de
la muestra sea lo suficientemente grande como para detectar una diferencia práctica cuando está realmente
exista.

EJEMPLOS.

EJEMPLO 1.

Un determinado tratamiento en fase experimental afirma tener una tasa de curación de, al menos, el 84 \%
para las personas mayores de 60 años contra la diabetes. Describa los errores tipo I y tipo II en este contexto,
y además, determine cuál error es más grave.

SOLUCIÓN:

Identificamos los escenarios con los errores tipo I y II y vemos cual tiene consecuencias mas graves:

Error tipo I:

Una persona mayor de años con diabetes cree que la tasa de curación del tratamiento es inferior
al , cuando en realidad es de, al menos, el .

Error tipo II:

Una persona mayor de años con diabetes cree que el tratamiento tiene un índice de curación de, al
menos, el cuando su índice de curación es inferior al .

11
Como podemos analizar, el error tipo II contiene la consecuencia más grave ya que, si una persona cree que
el tratamiento funciona, al menos, el de las veces, lo más probable es que esto influya en la decisión
de la persona sobre la conveniencia de utilizar el tratamiento como opción de curación o no.

EJEMPLO 2.

Supongamos que la hipótesis nula, , es: El equipo de escalada de Frank es seguro. Indiquemos cuales
serían el error tipo I y II.

¿Cuál tendría mayores consecuencias?

SOLUCIÓN:

Identificamos los escenarios con los errores tipo I y II y vemos cual tiene consecuencias mas graves:

Error tipo I:

Frank piensa que su equipo de escalada puede no ser seguro cuando, en realidad, sí lo es.

Error tipo II:

Frank cree que su equipo de escalada puede ser seguro cuando, en realidad, no lo es.

Notemos que, en este caso, el error con mayores consecuencias es el tipo II, puesto que al creerse que es
seguro cuando en realidad no lo es podría traer muchos accidentes.

EJEMPLO 3.

Supongamos que la hipótesis nula, , es: La víctima de un accidente de tráfico está viva cuando llega a la
sala de urgencias de un hospital.

Indiquemos cuales serían el error tipo I y II. ¿Cuál tendría consecuencias más graves?

Identificamos los escenarios con los errores tipo I y II y vemos cual tiene consecuencias más graves:

Error tipo I:

El equipo de emergencia cree que la víctima está muerta cuando, en realidad, está viva.

Error tipo II:

El equipo de emergencia cree que la víctima está viva cuando, en realidad, está muerta.

El error con mayores consecuencias es el error tipo I, puesto que si el equipo de emergencia cree que la
víctima está muerta (cuando en realidad está viva), no la atenderán y eso podría atraer consecuencias graves
como que en verdad muera.

EJEMPLO 4.

11
Unos expertos en control de calidad quieren probar la hipótesis nula de que un nuevo panel solar no es más
eficaz que el modelo viejo.

¿Cuál sería un error tipo II? ¿y tipo I?

Error tipo II:

En el error tipo II aceptamos la hipótesis nula cuando en realidad esta es falsa, es decir, aceptamos que un
nuevo panel solar no es más eficaz que el modelo viejo, cuando en realidad sí lo es.

Error tipo I:

En el error tipo I rechazamos la hipótesis nula cuando en realidad esta es verdadera, es decir, el nuevo panel
no es más eficaz y concluimos que sí lo es.

EJEMPLO 5.

Los laboratorios genéticos "It’s a Boy" afirman poder aumentar la probabilidad de elegir el sexo del bebé, en
ese caso, masculino. Los estadísticos quieren poner a prueba esta afirmación. Supongamos que la hipótesis
nula es: Los laboratorios genéticos It’s a Boy no tienen efecto en el resultado del sexo.

Indiquemos cuales serían el error tipo I y II.

Error tipo I:

El error tipo I resulta cuando se rechaza una hipótesis nula que en realidad es verdadera. En este caso,
afirmaríamos que creemos que los laboratorios genéticos It’s a Boy influyen en el resultado del sexo, cuando
en realidad no tienen ningún efecto.

Error tipo II:

Este tipo de error se produce cuando no se rechaza una hipótesis nula que es falsa. En el contexto,
afirmaríamos que los laboratorios genéticos It’s a Boy no influyen en el resultado del sexo de un bebé cuando,
de hecho, sí lo hacen.

PASOS PARA REALIZAR UNA PRUEBA DE HIPOTESIS

El proceso de prueba de hipótesis sigue un procedimiento simple de cuatro pasos. Este proceso será lo que
usemos para lo que quede del libro de texto y curso, y aunque la hipótesis y las estadísticas que usemos
cambiarán, este proceso no lo hará.

Paso 1: Exponer las Hipótesis Tus hipótesis son lo primero que debes exponer. De lo contrario, ¡no hay nada
que probar! Hay que exponer la hipótesis nula (que es lo que probamos) y la hipótesis alternativa (que es lo
que esperamos). Estos deben ser declarados matemáticamente tal y como fueron presentados anteriormente

12
Y en palabras, explicando en inglés normal lo que cada uno quiere decir en términos de la pregunta de
investigación.

Paso 2: Encuentra los Valores Críticos A continuación, establecemos formalmente los criterios que usaremos
para probar nuestras hipótesis. Hay dos piezas de información que informan nuestros valores críticos: α

, que determina qué parte del área bajo la curva compone nuestra región de rechazo, y la direccionalidad de
la prueba, que determina dónde estará la región.

Paso 3: Calcular el estadístico de prueba Una vez que tenemos nuestras hipótesis y los estándares que
utilizamos para probarlas, podemos recopilar datos y calcular nuestro estadístico de prueba, en este caso z

. Este paso es donde surgirán la gran mayoría de las diferencias en futuros capítulos: diferentes pruebas
utilizadas para diferentes datos se calculan de diferentes maneras, pero la forma en que las usamos e
interpretamos sigue siendo la misma.

Paso 4: Tomar la Decisión Finalmente, una vez que tengamos nuestro estadístico de prueba obtenido,
podemos compararlo con nuestro valor crítico y decidir si debemos rechazar o no rechazar la hipótesis nula.
Cuando hacemos esto, debemos interpretar la decisión en relación con nuestra pregunta de investigación,
indicando qué concluimos, en qué basamos nuestra conclusión y las estadísticas específicas que obtuvimos.

EJEMPLOS
Ejemplo 1: Biología
Las pruebas de hipótesis se utilizan a menudo en biología para determinar si algún nuevo tratamiento,
fertilizante, pesticida, químico, etc. causa un aumento del crecimiento, resistencia, inmunidad, etc. en plantas
o animales.

Por ejemplo, suponga que un biólogo cree que cierto fertilizante hará que las plantas crezcan más durante un
período de un mes de lo que con normalidad crecen, que actualmente es de 20 pulgadas. Para probar esto,
aplica el fertilizante a cada una de las plantas en su laboratorio durante un mes.

Luego realiza una prueba de hipótesis utilizando las siguientes hipótesis:

H 0: μ = 20 pulgadas (el fertilizante no tendrá ningún efecto sobre el crecimiento medio de la planta)

H A: μ> 20 pulgadas (el fertilizante hará que aumente el crecimiento medio de la planta)

Si el valor p de la prueba es menor que algún nivel de significancia (por ejemplo, α = .05), entonces ella puede
rechazar la hipótesis nula y concluir que el fertilizante conduce a un mayor crecimiento de la planta.

Ejemplo 2: Ensayos clínicos


Las pruebas de hipótesis se utilizan a menudo en ensayos clínicos para determinar si algún nuevo
tratamiento, fármaco, procedimiento, etc. produce mejores resultados en los pacientes.

Por ejemplo, suponga que un médico cree que un nuevo medicamento puede reducir la presión arterial en
pacientes obesos. Para probar esto, puede medir la presión arterial de 40 pacientes antes y después de usar
el nuevo medicamento durante un mes.

Luego realiza una prueba de hipótesis utilizando las siguientes hipótesis:

 H 0: μ después = μ antes (la presión arterial media es la misma antes y después de usar el medicamento)

 H A: μ después de <μ antes (la presión arterial media es menor después de usar el medicamento)

12
Si el valor p de la prueba es menor que algún nivel de significancia (por ejemplo, α = .05), entonces puede
rechazar la hipótesis nula y concluir que el nuevo fármaco conduce a una reducción de la presión arterial.

Ejemplo 3: Inversión en publicidad


Las pruebas de hipótesis se utilizan a menudo en los negocios para determinar si alguna nueva campaña
publicitaria, técnica de marketing, etc. provoca un aumento de las ventas.

Por ejemplo, supongamos que una empresa cree que gastar más dinero en publicidad digital genera un
aumento de las ventas. Para probar esto, la empresa puede aumentar el dinero gastado en publicidad digital
durante un período de dos meses y recopilar datos para ver si las ventas generales han aumentado.

Pueden realizar una prueba de hipótesis utilizando las siguientes hipótesis:

 H 0: μ después = μ antes (la media de ventas es la misma antes y después de gastar más en publicidad)

 H A: μ después > μ antes (las ventas medias aumentaron después de gastar más en publicidad)

Si el valor p de la prueba es menor que algún nivel de significancia (por ejemplo, α = .05), entonces la
empresa puede rechazar la hipótesis nula y concluir que un aumento de la publicidad digital conduce a un
aumento de las ventas.

Ejemplo 4: Fabricación
Las pruebas de hipótesis también se utilizan a menudo en las plantas de fabricación para determinar si algún
nuevo proceso, técnica, método, etc. provoca un cambio en el número de productos defectuosos producidos.

Por ejemplo, supongamos que una determinada planta de fabricación quiere probar si algún método nuevo
cambia o no la cantidad de widgets defectuosos producidos por mes, que actualmente es 250. Para probar
esto, pueden medir la cantidad media de widgets defectuosos producidos antes y después de usar el nuevo
método durante un mes.

Luego pueden realizar una prueba de hipótesis utilizando las siguientes hipótesis:

 H 0 : μ después = μ antes (el número medio de widgets defectuosos es el mismo antes y después de usar
el nuevo método)

 H A : μ después de ≠ μ antes (el número medio de widgets defectuosos producidos es diferente antes y
después de usar el nuevo método)

Si el valor p de la prueba es menor que algún nivel de significancia (por ejemplo, α = .05), entonces la planta
puede rechazar la hipótesis nula y concluir que el nuevo método conduce a un cambio en el número de
dispositivos defectuosos producidos por mes.

12
PRUEBA DE HIPOTEISIS PARA LA MEDIA.
La prueba de hipótesis para la media es un método estadístico que se usa para rechazar o no la hipótesis
nula de una media poblacional.

En concreto, la prueba de hipótesis para la media consiste en calcular el estadístico de la prueba y


compararlo con el valor crítico para rechazar o no rechazar la hipótesis nula

Cabe destacar que las pruebas de hipótesis se llaman de maneras diferentes, en estadística también se
conocen como contrastes de hipótesis, test de hipótesis o pruebas de significación.

Fórmula de la prueba de hipótesis para la media

A continuación, vamos a ver cómo se calcula el estadístico de la prueba de hipótesis para la media. No
obstante, la fórmula varia ligeramente según si se conoce la varianza o no, por lo que primero veremos cómo
se hace cuando la varianza es conocida y luego cuando la varianza es desconocida.

La fórmula de la prueba de hipótesis para la media con varianza conocida es la siguiente:

Donde:

Una vez se ha calculado el estadístico de la prueba de hipótesis para la media, se debe interpretar el
resultado para rechazar o no la hipótesis nula:

 Si la prueba de hipótesis para la media es de dos colas, se rechaza la hipótesis nula si el


valor absoluto del estadístico es mayor que el valor crítico Zα/2.

 Si la prueba de hipótesis para la media corresponde a la cola derecha, se rechaza la


hipótesis nula si el estadístico es mayor que el valor crítico Z α.

12
 Si la prueba de hipótesis para la media corresponde a la cola izquierda, se rechaza la
hipótesis nula si el estadístico es menor que el valor crítico -Zα.

EJEMPLOS:
EJEMPLO 1.

PASO 3. Encontrar la región critica o de rechazo para un nivel de significancia α= 0.05. Para esto debemos de
saber que el valor del área bajo la curva 0.05 (por el valor de α)se encuentra al lado derecho del valor Z pero
el valor que debemos encontrar para usar la tabla es el de 1- α por lo tanto para encontrar el valor critico
debemos buscaren la tabla de distribución normal 1- 0.05 = 0.95, como no encontramos en valor
exacto usaremos 0.9495 que le corresponde el valor Z de 1.64

12
Como se puede ver en la ilustración anterior el valor z encontrado por la formula sé encuentra dentro la región
de rechazo (en color amarillo) por lo que vamos a rechazarla hipótesis nula H0 por lo tanto vamos a dar como
“aceptada” la hipótesis alternativa que nos dice que el promedio de vida es mayor a 70. Por lo que nuestra
conclusión sería: que la vida promedio actual es mayor a 70 años.

Ejemplo 2
Un fabricante de equipo deportivo desarrolló un nuevo sedal para pesca sintético que afirma que tiene una
resistencia media a la rotura de 8 kilogramos con una desviación estándar de 0.5 kilogramos. Pruebe la
hipótesis de que μ = 8 kilogramos contra la

alternativa de que μ ≠ 8 kilogramos, si se prueba una muestra aleatoria de 50 sedales y se encuentra que
tiene una resistencia media a la rotura de 7.8 kilogramos. Utilice un nivel de significancia de 0.01.

DATOS.

=0.5

n=50

=7.8

α= 0.01

PASO 1. Formulemos las hipótesis de acuerdo con lo que nos menciona el ejemplo que nos dice “pruebe la
hipótesis de que μ = 8 kilogramos contra la alternativa de que μ ≠8 kilogramos” por lo tanto las hipótesis
quedan de la siguiente manera: H0: μ = 8 kilogramos. H1: μ ≠ 8 kilogramos

PASO 2. Sustituir en la fórmula de Z.

12
z = = = -2.8288PASO

2. Encontrar la región critica o de rechazo para un nivel de significancia α= 0.01. Para esto recordemos
que por el signo de la hipótesis alternativa ≠, sabemos que es una prueba de dos colas, por lo tanto,
para encontrar el valor de Z debemos de dividir el valor de α entre 2, α /2 que en nuestro caso es de
0.01 / 2 = 0.005 y restar a 1 el valor de α /2, es decir 1- α /2= 1-0.005 =0.995. El valor de 0.995 es el
valor que vamos a buscar en las tablas y nos da un valor de z= 2.57. Aprovechando la simetría de la
curva normal tenemos que las regiones de rechazo se encontrarán en 2.57 y -2.5

PASO 4. Conclusiones

12
Como el valor de z calculado cae en una de las regiones de rechazo, la hipótesis nula se rechaza por lo tanto
la conclusión es que la resistencia media a la rotura no es igual a 8 kg

Ejemplo 3:
El Instituto Eléctrico Edison publica cifras del número anual de kilowatts-hora que gastan varios
aparatos electrodomésticos. Se afirma que la aspiradora gasta un promedio de 46 kilowatts-hora al
año. Si una muestra aleatoria de 12 hogares que se incluye en un estudio planeado indica que las aspiradoras
gastan un promedio de 42kilowatts-hora al año con una desviación estándar de 11.9 kilowatts-hora, ¿en un
nivel de significancia de 0.05 esto sugiere que las aspiradoras gastan, en promedio, menos de 46 kilowatts-
hora anualmente? Suponga que la población de kilowatts-hora es normal.

DATOS.

n=12

 = 42 kw

S=11.9

α=0.05

PASO 1 Formular la hipótesis. Recordemos que frecuentemente se asigna el signo de igualdad a la


hipótesis nula. Para planear la hipótesis alterna no auxiliamos del enunciado del ejemplo que
nos dice “esto sugiere que las aspiradoras gastan, en promedio, menos de 46 kilowatts-hora
anualmente” por lo que quedaría de la manera siguiente:

H0: μ = 46 kilowatts-hora.

H1: μ < 46 kilowatts-hora.

PASO 2. Sustituir en la fórmula de t.

t = = = -1.1644

PASO 3. Con el nivel de significancia de α=0.05 encontraremos los valores de t. Para esto, utilizaremos en
valor de α= 0.05 y con grados de libertad v= n-1= 12-1=11, si buscamos este valor en la tabla de distribución t
encontramos que es de 1.796. Dado el signo de la hipótesis alterna sabemos que la región de rechazo se
encuentra en el lado negativo por lo que aprovechando la propiedad de la curva de distribución
t que también es simétrica podemos decir que t= -1.796.

12
PASO 4. Conclusiones. Como la t calculada cae dentro de la región de aceptación no rechazamos H0 , por lo
tanto podemos concluir que las aspiradoras domesticas gastan en promedio 46kilowatts-hora al
año.

EJEMPLO 4.
Se lleva a cabo un experimento para comparar el desgaste por abrasivos de dos diferentes
materiales laminados. Se prueban 12 piezas del material 1 exponiendo cada pieza a una máquina para medir
el desgaste. Diez piezas del material 2 se prueban de manera similar. En cada caso, se observa la
profundidad del desgaste. Las muestras del material 1 dan un desgaste promedio de 85 unidades con una
desviación estándar muestral de 4; en tanto que las muestras del material 2 dan un promedio de 81 y una
desviación estándar muestral de 5. Podríamos concluir, con un nivel de significancia de0.05, que el desgaste
abrasivo del material 1 excede el del material 2 en más de 2unidades? Suponga que las poblaciones son
aproximadamente normales con varianzas iguales.

DATOS:

α= 0.05

PASO 1. Formular la hipótesis. Recordemos que generalmente a la hipótesis nula se asigna el signo de
igualdad, en este caso tenemos dos medias y se deben de considerar. La hipótesis alternativa se
formula en base a el enunciado del ejemplo en donde nos dice “que el desgaste abrasivo del material 1
excede el del material 2 en más de 2 unidades” por lo que quedan de la siguiente manera.

H0: μ1 − μ2 = 2.

12
H1: μ1 − μ2 > 2.

PASO 2. Sustituya en la formula.

PASO 3. Encontrar t de tablas con un nivel de significancia α=0.05 y con grados de libertad v= n1 + n2 – 2,
que es igual a 12+10 – 2 = 20.

12
PASO 4. Conclusiones. Como el valor calculado de t cae en la zona de aceptación NO se rechaza H0 por lo
que podemos concluir que la diferencia entre los materiales 1 y 2 promedio en el desgaste abrasivo es igual a
2.

Ejemplo 5.

Cuando Jeffrey tenía ocho años estableció un tiempo medio de 16,43 segundos al
nadar las 25 yardas en estilo libre, con una desviación típica de 0,8 segundos. Su
padre, Frank, pensó que Jeffrey podría nadar más rápido las 25 yardas en estilo
libre si utilizaba gafas para nadar. Frank le compró a Jeffrey un nuevo par de gafas
para nadar costosas y cronometró 15 veces que nadó las 25 yardas en estilo libre.
En las 15 veces, el tiempo medio de Jeffrey fue de 16 segundos. Frank pensó que
las gafas para nadar ayudaron a Jeffrey a nadar más rápido que los 16,43
segundos. Realice una prueba de hipótesis con un α preestablecido = 0,05.
Solución
Establezca la prueba de la hipótesis:

13
Dado que el problema se refiere a una media, se trata de una prueba de una única
media poblacional.
Establezca las hipótesis nula y alternativa:
En este caso hay una impugnación o reclamo implícitos. Esto es que las gafas
reducirán el tiempo de natación. El efecto es formular la hipótesis como una
prueba de una cola. El planteamiento siempre estará en la hipótesis alternativa
porque la carga de la prueba siempre recae en la alternativa. Recuerde que el
statu quo deberá derrotarse con un alto grado de confianza, en este caso del 95
%. Las hipótesis nula y alternativa son las siguientes:
H0: μ ≥ 16,43 Ha: μ < 16,43
Para que Jeffrey nade más rápido, su tiempo debiera ser inferior a 16,43
segundos. El “<” indica que es de cola izquierda.
Determine la distribución necesaria:
Variable aleatoria: X= el tiempo medio para nadar las 25 yardas de estilo libre.
Distribución para el estadístico de prueba:
El tamaño de la muestra es inferior a 30 y no conocemos la desviación típica de la
población, por lo que se trata de una prueba t y la fórmula adecuada es:

μ0 = 16,43 proviene de H0 y no de los datos. X = 16. s = 0,8; y n = 15.


Nuestro paso 2, establecer el nivel de significación, ya se ha determinado en el
problema, 0,05 para un nivel de significación del 95 %. Merece la pena reflexionar
sobre el significado de esta elección. El error tipo I consiste en concluir que Jeffrey
nada las 25 yardas en estilo libre, en promedio, en menos de 16,43 segundos
cuando, en realidad, nada las 25 yardas en estilo libre, en promedio, en 16,43
segundos (rechaza la hipótesis nula cuando la hipótesis nula es verdadera). Para
este caso, la única preocupación de un error de tipo I parece ser que el padre de
Jeffery puede no apostar por la victoria de su hijo porque no le convence el efecto
de las gafas.
Para calcular el valor crítico tenemos que seleccionar la estadística apropiada de
la prueba. Hemos llegado a la conclusión de que se trata de una prueba t en
función del tamaño de la muestra y de que nos interesa una media poblacional.
Ahora podemos dibujar el gráfico de la distribución t y marcar el valor crítico. Para
este problema los grados de libertad son n-1, es decir, 14. Al buscar 14 grados de
libertad en la columna 0,05 de la tabla t, hallamos 1,761. Este es el valor crítico y
podemos ponerlo en nuestro gráfico.

13
El paso 3 es el cálculo del estadístico de la prueba con la fórmula seleccionada.
Hallamos que el estadístico de prueba es 2,08, lo que significa que la media
muestral está a 2,08 desviaciones típicas de la media hipotética de 16,43.

PRUEBA DE HIPOTESIS PARA UNA PROPORCIÓN.

La prueba de hipótesis para la proporción es un método estadístico que sirve


para determinar si se rechaza o no la hipótesis nula de una proporción
poblacional.
Así pues, según el valor del estadístico de la prueba de hipótesis para la
proporción y el nivel de significación, se rechaza la hipótesis nula o se acepta.

Ten en cuenta que las pruebas de hipótesis también se pueden llamar contrastes
de hipótesis, test de hipótesis o pruebas de significación.

EJEMPLOS:

EJEMPLO 1.

13
Una vez hemos visto la definición de la prueba de hipótesis para la proporción y
cuál es su fórmula, vamos a resolver un ejemplo para entender mejor el concepto.

 Según su fabricante, un medicamento para una enfermedad concreta


tiene una efectividad del 70%. En un laboratorio se está probando la
efectividad de ese medicamento ya que los investigadores creen que
la proporción es diferente, para ello, se
prueba el medicamento en una muestra
de 1000 personas enfermas y se
curan 641 personas. Realiza una prueba
de hipótesis para la proporción
poblacional con un nivel de significación
del 5% para rechazar o no la suposición que tienen los
investigadores.
En este caso, la hipótesis nula y la
hipótesis alternativa de la
prueba de hipótesis para la proporción
de la población son las siguientes:

La proporción de personas de la
muestra que se han curado con el
medicamento es:

Calculamos el estadístico del


contaste de hipótesis para la proporción
aplicando la fórmula vista más arriba.

13
Por otro lado, como el nivel de significación es 0,05 y es una prueba de hipótesis
de dos colas, el valor crítico de la prueba es 1,96.

En conclusión, el valor absoluto del estadístico de la prueba es mayor que el valor


crítico, por lo tanto, rechazamos la hipótesis nula y aceptamos la hipótesis
alternativa.

EJEMPLO 2.

El expendio Pollos Deliciosos asegura que 90% de sus órdenes se entregan en


menos de 10 minutos. En una muestra de 100 órdenes, 82 se entregaron dentro
de ese lapso. Puede concluirse en el nivel de significancia 0,01, que menos de
90% de las órdenes se entregan en menos de 10 minutos?

13
EJEMPLO 2.

13
Un artículo reciente, publicado en el diario USA today, indica que solo a uno de
cada tres egresados de una universidad les espera un puesto de trabajo. En una
investigación a 200 egresados recientes de su universidad, se encontró que 80
tenían un puesto de trabajo. Puede concluirse en el nivel de significancia 0,02,
¿que en su universidad la proporción de estudiantes que tienen trabajo es mayor?

13
EJEMPLO 3.

A una muestra a nivel nacional (en Estados Unidos) de ciudadanos influyentes de


los partidos republicano y demócrat, se les preguntó entre otras cosas, si estaban
de acuerdo con la disminución de los estándares ambientales para permitir el uso
del carbón con alto contenido de azufre como combustible. Los resultados fueron:

Al nivel de significancia 0,02, ¿puede decirse que hay una proporción mayor de
Demócratas a favor de reducir los estándares?

13
EJEMPLO 4.

Harry Hutchings es propietario de un gimnasio y afirma que la ingestión de ciertas


vitaminas aumente la fuerza corporal. Se seleccionan aleatoriamente 10
estudiantes atletas y se les aplica una prueba de fuerza muscular. Después de dos
semanas de tomar las vitaminas y de entrenamiento se les aplica nuevamente la
prueba. Los resultados se muestran a continuación:

13
EJEMPLO 5.

El servicio norteamericano de peces y vida salvaje etiquetaba salmones que


desovaban en el río Hood cerca de Seattle para determinar sus características
migratorias. El servicio pensaba que el 40% de los peces volvían allí cada año:

13

También podría gustarte