Cuaderno
Cuaderno
Cuaderno
Es un área de las matemáticas que se encarga de recolectar, organizar, analizar, y difundir los
resultados o datos para la toma de decisiones con el menor costo posible.
Medida de tendencia central, esto es porque es el centro de gravedad de la nube de puntos. Esta
tiene sus ventajas y desventajas:
Ventajas:
Desventajas:
Puede estar muy influenciada por la presencia de valores demasiado altos o bajos.
o Si esto sucede, es recomendado utilizar la mediana.
Hay una media acotada que intenta eliminar valores extremos, esto no es mas que ignorar el 25%
de valores en ambos extremos. Pero esta puede llegar a alterar el resultado fundamentalmente.
De igual forma, la media geometrica (Raiz(x1*x2*x3*….)) es menos sensible que la media normal.
Desviación estándar:
Es una medida de dispersión de los datos, respecto de la media muestral. Es decir, de los datos que
se tienen, la desviación estándar mide que tan alejados están los datos del promedio. Sus ventajas
y desventajas son las mismas que las de la media muestral.
La formula es la siguiente:
Varianza muestral:
Total:
El total es un estadístico que dimensiona la magnitud global de una variable cuantitativa. Esto
significa que ayuda a hacer una estimación del total de las variables. Tiene las mismas ventajas y
desventajas que el promedio. Este se calcula como:
τ =N∗^x
Mediana:
Es también una medida de tendencia central, pero esta divide en dos partes iguales a la
distribución de los datos.
Este estadístico mide la frecuencia relativa de una categoría de una variable cualitativa.
y ¿ casos de interes
^p= =
n ¿ casos en la muestra
Siempre: 0 ≤ p ≤ 1
q^ =1− ^p
La única medida de tendencia central que se puede utilizar para datos cualitativos es la moda.
Tipos de estimaciones
Por intevalos: Esta es la más sencilla para inferencias estadísticas. Se pueden realizar gracias a las
muestras. Detrás de estas muestras existen las técnicas de muestreo.
El muestreo es un conjunto de técnicas que permiten obtener un tamaño muestral que sea
representativo de la población. Para esto es importante definir dos conceptos fundamentales:
Los censos son una buena fuente de información para conocer la población, esta es una encuesta
global de la población. Un sondeo es en cambio una encuesta parcial de la población. Ejemplos de
sondeo son las encuestas de empleo, ENDI (Encuesta Nacional de Desnutrición Infantil).
Distribuciones
Discretas:
Continuas:
Exponencial: ξ (λ)
Normal Estándar: N(0,1)
o Aprox. T-student
Si se dispone de n variables con media μ y varianza σ 2, la variable y=sum(i,n)Xi, tiene media nu, y
varianza nsigm.^2. Si se construye la variable z=y-(nu/sig.raiz(n)), tendrá una N(0,1) para n->inf.
Se podrá utilizar una distribución normal estándar cuando tengamos 30 o más casos (n).
∝ : Nivel de significación
Nivel de confianza( NC ) :=1−∝
El nivel de confianza se puede definir con un ejemplo: Si usamos un nivel de confianza del 95%
significa que si repetimos el experimento en las mismas condiciones, en al menos 95 se va a
generar el mismo resultado.
La primera técnica de muestreo que vamos a ver, es la que no considera el tamaño de la población.
En estos casos, que pueden ser recurrentes, por no tener acceso o similar no debe ser un
impedimento para realizar un estudio o investigación.
Z ∝ ∗σ
IC μ =[ x ± E μ ], con E = 2
μ
√n
Entonces:
Z ∝ ∗σ
√ n= 2
Eμ
2
Z ∝ ∗σ
2
n=( )
Eμ
[ ( )]
IC μ = x ±
Z ∝∗S
2
√n
¿
( )
2
t∝ ∗S
(n−1)
2
n=
Eμ
3. IC para población
y
n → y → ^p=
n
[
I C p= ^p ± Z α ∗
2 √ ]^p q^
n
B ( n ; p ) → N ( np ; √ npq )
E p =Z ∝ ∗
2 √ ^p q^
n
( )
2
Z∝
2
n= ∗ ^p q^
Ep
Estatura Frecuenci
a
110 10
111 15
112 22
113 24
114 11
115 9
Ejercicios
Peso medio de ladrillos tiene una deviación estándar de 0.12 kilos. Media es 4.07
a ¿ NC =99 %
[
IC= x ±
Z α ∗σ
2
√n ]
α
=0,005
2
α
El área bajo la curva será: 1− =0.995.
2
En la tabla, buscamos ese 0.995 en el interior, El valor de Z α Sera el valor vertical + el valor
2
horizontal de los bordes. Para nuestro caso: 2.575 (Como no es exactamente uno de los dos
valores, hacemos un promedio entre 2.58 y 2.57).
[
I C u= 4.07 ±
2,575∗0.12
√ 60 ]
I C u [ 4.07 ± 0.04 ] = [ 4.03; 4.11 ]
b) Al 95%
a ¿ NC =95 %
[
IC= x ±
Z α ∗σ
2
√n ]
α =5 %
α
=0,025
2
α
El área bajo la curva será: 1− =0.975. Z α =1.96
2 2
[
I C u= 4.07 ± 1,
96∗0.12
√60 ]
I C u=[ 4.04 ; 4.10 ]
El peso promedio de una muestra de 46 perros fue de 58 libras, y el intervalo de confianza al 95%
fue de [55,5;60,5]. ¿Cuál fue la desviación estándar?
n=46
x=58
IC=[ 55 , 5; 60 ,5 ]
IC= x ±[ Z α ∗σ
2
√n ]
Ls−Li 60.5−55.5
Eθ = = =2 ,5
2 2
Z α ∗σ
2
2.5=
√n
Z α =1.96
2
2.5
σ= ∗√ 46=8 , 65
1.96
Los siguientes datos son los pesos (en gramos) del contenido de 16 cajas de cereal que
seleccionaron en un proceso de llenado con el propósito de verificar el peso medio:
X =509.93 ≈ 510
σ =26.33
NC =90 %
Una población normal tiene una desviación estándar de 100. Un IC para la media es al 95% es
C[360.5;409.5] y otro intervalo de confianza obtenido de la misma muestra para la misma media es
[361.5;408.5].
σ =100
NC =95 %
a) IC=[360.5 ; 409.5]
409.5−360.5
Eθ = =24.5
2
α =1−95 %
α =5 %
α
=2.5 %
2
Areabajo lacurva=1−2.5 %=0.975
Z α =1.96
2
Z α ∗σ
2
n= =64
Eθ
Z α ∗σ
b) E = 2
U
√n
Eu √ n ( 23.5∗8 )
Zα= = =1.88
2
σ 100
α
0.9699=1− → α=−2 ( 0.9699−1 )=0.06
2
NC =1−α =1−0.06=94 %
La siguiente información corresponde a las notas sobre diez puntos de dos cursos de historia
dictados por el mismo profesor:
NC =95 %
α
=2.5 %
2
t 0.025(24 ) =¿ 2.064 ¿
[ ][
tα ∗S
2.064∗0.5
]
(n−1)
IC= x ± 2
= 7.3 ± =[ 7.09 ; 7.51 ]
√n √ 25
b.
t 0.025(21) =¿2.080 ¿
IC= 7.6 ±
[ 2.08∗0.3
√22 ]
=[ 7.39 ; 7.81 ]
c.
x 2−x 1=0.3
[
I C u= x 1−x 2 ±t α ∗S
2 (n + n −2 )
1 2
√ ]
1 1
+
n 1 n2
2
S =0.17 → S=0.41
I C u=[ −0.54 ;−0.06 ]
Con el objetivo de estimar el porcentaje de trabajo infantil se utilizo una muestra de 800 ninos, de
los cuales 175 declararon que trabajaban. Cuando se entrego el informe, se indico que el
porcentaje de trabajo infantil varia entre18.67 y el 25.34%. ¿Cuál fue el NC utilizado?
E p =0.033
E p =Z α ∗
2 √ ^p q^
n
^p=0.22
q^ =0.78
0.033=Z α ∗
2 √ 0.22∗0 ,78
800
Z α =2.25
2
α =( 1−0,9878 )∗2=0.024
NC =1−α =97.56 %
El muestreo irrestricto no considera el tamaño de la población, Lo que significa que el efecto que
de esta no incide en el cálculo de la muestra. Eso es una desventaja porque si la muestra es muy
pequeña no voy a requerir un tamaño de muestra tan grande. Para solventar el problema existe el
muestreo aleatorio simple que si bien no considera la composición interna de la población, si toma
en cuenta el tamaño de dicha poblacion.
√n √
∗
N−n
N
Si n < 30:
[ ]
t α ∗S
I Cμ= x ±
2 (n−1)
√n
∗
√ N−n
N
En este intervalo, se utiliza la distribución normal estándar con la desviación estándar muestral
porque se supone que el tamaño de la muestra es lo suficientemente grande. Sin embargo, si
n<30 vamos a usar el t α en lugar de Z α .
2 ( n−1) 2
N −n
: Se conoce como factor de corrección poblacional. Dicho factor se puede desestimar en el
N
N −n
cálculo del intervalo siempre y cuando n ≤ 5%N . Esto se debe porque va a tender a ser 1.
N
Z α ∗S
E μ= 2
√n √
∗
N−n
N
2 2
Z α ∗N∗S
2
n=
N ¿ E2μ +Z 2α ¿ S 2
2
Cuando la población es muy grande, existirá una convergencia entre el MAI y MAS, significando
que es mucho mejor cuando el tamaño de la muestre es pequeño.
2) IC para el Z en el MAS
[ ]
Z α ∗NS
I C τ^ = τ^ ± 2
√n
∗
√ N −n
N
Si n < 30:
[ ]
t α ∗NS
I C μ = τ^ ±
2 ( n−1)
√n
∗
√ N −n
N
√n
2
∗
√
N−n y
N
2 (n−1)
√n
∗
√ N −n
N
El tamaño de la muestra se lo puede calcular como:
2 2 2
Z α ∗N ∗S
2
n=
E + Z 2α ¿ N∗S 2
2
μ
2
3) IC para la ρ en el MAS
y
Recordatorio: ρ̂ =
n
[
I C ρ= ^ρ ± Z α ∗
2 √ √ ]
^
PQ^
n−1
∗
N−n
N
Si n <30, no se puede utilizar estos valores de confianza. Debemos utilizar un intervalo de confianza
utilizando Ji – Cuadrada
Si:
√ √
^
PQ^ N−n
Ep=Z α ∗ ∗
2 n−1 N
n será al despejar:
n=
N Z 2α P
(
^Q^ + E p2
2
)
NE p + Z ^ ^ 2 2
PQ α
2
NOSOSTROS USAMOS:
^Q
N Zα P ^2
2
n= ; Si , n−1 ≈ n .
^Q
NE p +Z 2α P
2
^
2
Aproximaciones de S:
Rango
n ≤ 16 → S ≈
√n
Rango
16< n≤ 100 → S ≈
4
Rango
100<n ≤ 400 → S ≈
5
Rango
400 <n → S ≈
6
Ejercicios:
Supongamos una población N=40000, ¿Cuál será el tamaño de la muestra (n) si quiero trabajar con
un E μ=5 dolares y NC =99 % y 95 % , si se sabe según una prueba piloto, un mínimo de 10 y un
máximo de 70 de 30 casos?
N=40000
E μ=5
NC =99 %
A partir del rango, podemos obtener S ≈ Rango
70−10
S≈ =15
4
1. Z α =2.575
2
1. Z α =1.96
2
2 2
Z α ∗N∗S
2
1 ¿ n= =59.58 ≈ 60
E ∗N + Z 2α ∗S2
2
μ
2
2 2
Z α ∗N∗S
2
2 ¿ n= =34.80 ≈ 35
E ∗N + Z 2α ∗S2
2
μ
2
Se supone que se tiene una población de 18000 personas, se obtuvo una muestra de 400
personas, y se obtuvo un promedio de 15, y se obtuvo una desviación de 18.5, y un 19
porcentaje de personas señalan una categoría 1.
Calcular un IC para el total de personas que estarían de acuerdo con la categoría 1
N=40000∗19 %=3420
n=400∗19 %=76
X =15
S=18.5
^
P=19 %
τ^ =N∗X=51300
n<5 %∗N
NC =95 %
[ ]
Z α ∗NS
I C τ^ = τ^ ± 2
√n
∗
√ N −n
N
[
I C τ^ = 51300 ±
2.96∗3420∗18.5
√ 400 ]
I C τ =[ 45099.54 ; 57500.46 ]
Tenemos una población N de 40000 que corresponden a una ciudad pequeña, queremos
hacer un estudio de percepción para conocer sobre un tema.
¿Cuál es el tamaño de la muestra n, si a) usa el tamaño máximo de la muestra b) después
de una prueba piloto, 18 personas estaban de acuerdo, después de 100 encuestas; Con un
error del 5%, y conocemos que cada encuesta cuesta 5$?
N=40000
Eu =5 %
n=
( ^Q
N Z 2α P
2
^ + E p2
)
NE p + Z α ^ ^
2 2
PQ
2
n=
( ^Q
N Z 2α P
2
^ + E p2
)
NE p + Z ^ ^
2 2
PQ α
2
40000 ( 2.962∗18 %∗82 %+ 5 %2 )
n= 2 2
=226
40000∗5 % +2.96 ∗18 %∗82 %
Si la prueba piloto está bien hecha, escogemos la opción b, ya que utilizamos menos encuestas
para un mismo resultado, significando un menor costo.
Ejercicios:
Una empresa de distribución esta interesada en estudiar el numero de unidades vendidas. De 750
50 50
puntos se selecciono una muestra obteniendo:
∑ x i=454 y ∑ x 2i =13060 . De esta muestra un
subconjutno corresponde a ciudades de menos de 50000 habitantes en las que existen 150 puntos
20 20
de venta, que se obtuvo:
∑ x i=172 y ∑ x 2i =7536 . A partir de esta información y con un nivel
de significación del 2%,
N 1=750
50 50
∑ x i=454 , ∑ x 2i =13060
n
1 1
X=
n
∑ xi= ∗454=9.08
50
√ √
n
1 1
S= ∑ 2 2
x i −n x = [ 13060−50∗9.08 2 ]=13 ,51
n−1 50−1
N 2=150
20 20
∑ x i=172 , ∑ x 2i =7536
n
1 1
X=
n
∑ xi= 20 ∗172=8 , 60
√ √
n
1 1
S= ∑ 2 2
x i −n x = [ 7536−20∗8 ,60 2 ]=17 , 85
n−1 20−1
primer caso :50 ≤ 32 ,5 ( F ) ¿ Segundo caso : 20≤ 32 ,5 (F)
[
I C τ = 9 , 08∗750 ±
750
2.33
√50
13 , 51∗750
√750−50
750 ]
=[ 3584 , 43 ; 10035 , 57 ]
[
I C τ = 8 , 60∗150 ±
150
2.539
√20
17 , 85∗150
√
150−20
150 ]
=[−125 ,15 ; 2705 , 15 ]
Muestreo Estratificado
Factores de expansión.
Cuando tenemos una muestra que no está auto ponderada, es decir, la composición interna de la
población no se ve reflejada en la muestra, al momento de realizar las estimaciones se pueden
cometer errores de sobre y subrepresentación estadística, es decir, en el caso de que este
subrepresentado significa que su participación en la muestra es menor a la que debería tener, y
cuando este sobrerrepresentado su participación en la muestra es mayor a la que debería tener. Se
puede corregir usando factores de expansión o ponderación.
Ni
F exp=
ni
F r¿
F pond =
F r¿
El factor de expansión permite reproducir la composición interna y el tamaño de la población. En
cambio, el factor de ponderación reproduce únicamente la composición interna de la población.
Ejemplo: Dividir a la población por sexo, Dividir por etnias, Nivel educativo, etc.
La ventaja del muestreo estratificado es que se puede generar una estimación conjunta a partir de
una información desagregada. También puede calcular tamaños muestrales para cada estrato.
k k
N=∑ N i , n=∑ ni
ni → x i → si
k
1
X est= ∗∑ N i∗X i
N
[ √ )]
Zα
(
N 2i ∗S 2i N i∗ni
k
I Cμ= x ±
N
2
∗ ∑ ni
∗
Ni
i=0
Si, ∀ ni ≤5 %∗N i:
[ √ ]
Zα k
N 2i ∗S 2i
I Cμ= x ±
N
2
∗ ∑ ni
i=0
τ^ est=N∗X est
[ √∑ ( )]
k 2 2
N i ∗S i N i∗ni
I C τ = τ^ ± Z α /2
i=0 ni Ni
[ √∑ ] k 2 2
N i ∗S i
I C τ = τ^ ± Z α /2
i=0 ni
ni → y i → ^p i
k
1
^pest = ∗∑ N ∗ ^p
N i=0 i i
[ )]
Zα
√ (
^p ∗q^ N i∗n i
k
I C p= ^p est ±
N
2
∗ ∑ N 2i ni−1i Ni
i i
[ ]
Zα
√ ^p ∗q^
k
I C p= ^p est ±
N
2
∗ ∑ N 2i ni−1i
i i
Asignación Equitativa:
Únicamente se debe utilizar cuando los tamaños poblacionales de los estratos son los mismos. (
N 1=N 2 =N 3=…=N k ) Caso contrario, esta asignación va a generar problemas de sobre y
subrepresentación estadística.
k
k∗Z 2α ∗∑ N 2i S2i
2 i
n= k
2
E N +Z
2 2
α ∑ N i S 2i
2 i
n
ni =
k
Asignación Proporcional:
Dado que los tamaños de los estratos en la población difícilmente van a tener el mismo tamaño, el
uso de la asignación equitativa normalmente es ineficiente. Para resolver ese problema está la
asignación proporcional que considera los tamaños de cada estrato en la población.
k
NZ 2
α ∑ N i S 2i
2 i
n= k
2
E N +Z 2 2
α ∑ N i S 2i
2 i
Ni
ni = ∗n
N
Asignación Optima:
(∑ )
k 2
2
Z α N i Si
2 i
n= k
2
E N +Z 2 2
α ∑ N i S 2i
2 i
N i Si n
ni =
T
k
T =∑ N i S i
i
Ejercicio:
Ni ni Xi si yi
Estrato
1 5000 370 15.4 2.5 150
Estrato
2 4000 350 13.2 3.2 138
Hallar el I C μ e I C p
[ √ )]
Zα
(
k 2 2
N i ∗S i N i−ni
I Cμ= x ±
N
2
∗ ∑ ni
∗
Ni
NC =95 %
^x est =14.42
I C μ =[ 14.22 ; 14.62 ]
[ )]
Zα
√ (
^p ∗q^ N i−ni
k
I C p= ^p est ±
N
2
∗ ∑ N 2i ni−1i Ni
i i
k
1
^pest = ∗∑ N ∗ ^p
N i=0 i i
yi
^p=
ni
^
Pest =0.4
n2 =842
Ejercicios:
Ni ni xi si^2
c1 2149 200 154 4.1
c2 1879 200 158 3.7
I C τ =x
k
1
X est= ∑ N i X i=155 ,87
N i
τ^ =N X est =4028∗155.87=627844.36
NC =95 %
[ √
I C τ = τ^ ± Z α ∗
2
k
∑ Ni
i
2
( N i−ni
Ni
ni
)
∗S2i
]
I C τ =[ 627844.36 ±744.35 ] =[ 627100.01; 628588.71 ]
b¿
Err=0.15
NC =96 %
( )
k 2
Z 2α ∑ N i Si
2 i
n= k
E 2 N 2 + Z 2α ∑ N i S 2i
2 i
Z α =2.054
2
2
2.054 ( 63452727.25.25 )
n= =618
0.152∗40282+ 2.0542 ( 7965.72 )
k
T =∑ N i S i=7965.72
i
S i∗0.733
ni =N i
15763.2
2149∗√ 4.1∗618
n1 = =337.59 ≈ 338
15763.2
1879∗√ 3.7∗618
n2 = =280.41≈ 280
15763.2
Ejercicios:
Ensambladora A( f N ):60 % A
n A =38
n b=6 2
y A =6
y B =10
[ √ ]
2
N i ∗N i−ni
Zα k ∗ ^p q^
Ni
^ est ±
I C p= P
2
N
∗ ∑ ni−1
i
yi
Pi= ; P =0.1578 , PB =0.1612
ni A
Ni
fN =
i
N
k k
1 N
^pest = ∗∑ N i∗ ^pi → ∑ i ∗ ^pi=0.1592
N i=0 i =0 N
√
N 2i
√
2 ∗N i−ni
N i ∗N i−ni N
2
Zα k ∗ ^p q^ k ∗^p q^
Ni Ni
Er=
N
2
∗ ∑ ni−1
→Zα ∑ ni−1
i 2 i
Er=1.96∗
√ 0.62∗0.1578∗0.8422 0.42∗0.1612∗0.8388
37
+
61
=0.7956 ≈ 7.9561%
Ejercicio:
N Q =1030231
N G =1245045
N C =213741
PQ =0.67
PG =0.72
PC =0.61