Tema 04 - Inferencia Estadística

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 7

Estadística

Tema 04 - Inferencia estadística La varianza del estimador es pequeña si n es grande (la distribución del estimador está
La inferencia es tratar de sacar conclusiones sobre una población, a partir de una muestra. concentrada alrededor de la media. 𝐸𝐸{𝑇𝑇}, si la media tiene un sesgo que no disminuye al
Hay varios procedimientos, de forma sencilla: aumentar n, las estimaciones estarán desviadas del valor a observar.
Estimación: Para calcular la media de una población, hago la media de la muestra e infiero Por ejemplo: Los disparos sobre una diana.
que esa será la media de la población. El conjunto de disparos es el conjunto de observaciones del estimador
Intervalos de confianza: Si la media de la muestra es 1.3, infiero que la media de la población El centro de la nube de impactos es el valor esperado del estimador
estará entre 1 y 1.6. La probabilidad de que así sea, es el llamado nivel de confianza. Los disparos, se agrupan en su centro en función de la varianza del estimador (precisión del
Contrastes de hipótesis: De estudios anteriores se tiene un dato, la media por ejemplo, se arma).
hace la media de la muestra y si se obtiene un resultado muy improbable, es raro que sea Si la mira está desviada o no será el sesgo.
correcto.
De forma general, la inferencia trata de sacar conclusiones a partir de un variable aleatoria
con función de densidad sobre la propia función o sobre alguno de sus argumentos conocidos.
4.1 Estimación puntual
Sabemos que un estadístico es una función sobre las variables aleatorias que intervienen en
una muestra. Por ejemplo: La media de la muestra, la varianza...
Si un estadístico es usado para estimar parámetros poblacionales, tenemos un Estimador. Lo normal es que la varianza (precisión) dependa del tamaño muestral y baje (suba la
Por ejemplo: Normalmente usaremos la media muestral para estimar la media poblacional, y precisión) baje a medida que aumenta el tamaño muestra.
la varianza muestral, para estimar la varianza poblacional.  Estimadores suficientes: El que usa toda la información relevante de la muestra.
𝑋𝑋� → 𝜇𝜇 Si 𝑃𝑃(𝑋𝑋1 = 𝑥𝑥1 ; … ; 𝑋𝑋𝑛𝑛 = 𝑥𝑥𝑛𝑛 | 𝑇𝑇 = 𝑡𝑡), no dependen del parámetro.
𝑆𝑆 2 → 𝜎𝜎 2 Por ejemplo: El lanzamiento de una moneda. 𝑋𝑋 = 1 con probabilidad 𝑝𝑝, y 𝑋𝑋 = 0 con 1 − 𝑝𝑝.
No todos los estimadores son de calidad. Por ejemplo, usar solo dos valores para hacer una Indica la probabilidad de extraer una muestra concreta dependiendo del valor del estimador,
media en vez de todos los valores de la muestra... y no dependiendo del parámetro estimado.
Por ello, un estimador ha de cumplir ciertas características.  Estimadores de verosimilitud: El que hace que la muestra obtenida sea la más probable.
 Estimadores insesgados: (Que no tengan sesgo) Es aquel cuya esperanza matemática es 𝜃𝜃
Por ejemplo: En el lanzamiento de tres monedas. El resultado de la muestra es: CCX
(parámetro a estimar).
Probamos con 𝑝𝑝 = 0,1 𝑜𝑜 0,2 𝑜𝑜 0,3 ¿Qué valor haría más probable la muestra (es decir CCX)?
Su sesgo: 𝐸𝐸�𝜃𝜃�� = 𝜃𝜃
Si 𝑝𝑝 = 0,1 → 𝑃𝑃(𝐶𝐶𝐶𝐶𝑋𝑋) = 0.1 ∙ 0.1 ∙ 0.9 = 0.009
Por ejemplo: Sea la media poblacional: 𝜃𝜃 = 𝜇𝜇 y el estadístico 𝜃𝜃� = 𝑋𝑋�, la esperanza matemática Si 𝑝𝑝 = 0,2 → 𝑃𝑃(𝐶𝐶𝐶𝐶𝑋𝑋) = 0.2 ∙ 0.2 ∙ 0.8 = 0.032
de 𝐸𝐸�𝜃𝜃�� = 𝜃𝜃 Si 𝑝𝑝 = 0,3 → 𝑃𝑃(𝐶𝐶𝐶𝐶𝑋𝑋) = 0.3 ∙ 0.3 ∙ 0.7 = 0.063
(La esperanza de la media muestral, es la media poblacional). Entonces, vemos que el valor que hace más probable la muestra es Si 𝑃𝑃(𝐶𝐶) = 0.3.
Por ejemplo: Por lo tanto, el valor del parámetro que hace que la muestra resulte más probable es el
De la media poblacional, la media muestral estimador de verosimilitud.
De la varianza poblacional, la cuasi varianza muestral ¿Hay otro valor de 𝑝𝑝 que haga mayor la probabilidad? Es decir, se desconoce la probabilidad
El uso de estimadores insesgados, o con sesgo pequeño, es conveniente para muestras de que hay. Y la probabilidad de cara es 𝑝𝑝.
tamaño grande. 𝑃𝑃(𝐶𝐶𝐶𝐶𝐶𝐶) = 𝑝𝑝 ∙ 𝑝𝑝 ∙ (1 − 𝑝𝑝) = 𝒑𝒑𝟐𝟐 − 𝒑𝒑𝟑𝟑

1
Estadística
Y esto es una función que depende de 𝑝𝑝. Con sus máximos y mínimos (cómo cualquier
función). Cómo queremos saber el valor mayor (donde la muestra obtenida sea la más
probable), pues:
Extremos relativos: Igualando derivada a cero y resolvemos para obtener extremos
relativos. Luego nos aseguramos que la solución sea máximo relativo. Buscamos ese 0.025 en la tabla.
𝑆𝑆𝑆𝑆 𝑓𝑓 ′′ (𝑥𝑥0 ) > 0: 𝑀𝑀í𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟.

𝑆𝑆𝑆𝑆 𝑓𝑓 ′′ (𝑥𝑥0 ) < 0: 𝑀𝑀á𝑥𝑥𝑥𝑥𝑥𝑥𝑥𝑥 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟
Por lo tanto: 𝒇𝒇(𝒑𝒑) = 𝒑𝒑𝟐𝟐 − 𝒑𝒑𝟑𝟑 → 𝒇𝒇′ (𝒙𝒙) = 𝟐𝟐𝒑𝒑 − 𝟑𝟑𝒑𝒑𝟐𝟐 → 𝟐𝟐𝒑𝒑 − 𝟑𝟑𝒑𝒑𝟐𝟐 = 𝟎𝟎
𝒑𝒑 = 𝟎𝟎
𝟐𝟐𝒑𝒑 − 𝟑𝟑𝒑𝒑𝟐𝟐 = 𝟎𝟎 → 𝒑𝒑(𝟐𝟐 − 𝟑𝟑𝟑𝟑) = 𝟎𝟎 → � 𝟐𝟐 Por lo tanto, es igual a 1.96.
𝟐𝟐 − 𝟑𝟑𝟑𝟑 = 𝟎𝟎 → 𝒑𝒑 = 𝜎𝜎 𝜎𝜎
𝟑𝟑 Entonces, el intervalo de confianza es: (𝑋𝑋� − 𝑧𝑧𝛼𝛼 ∙ , 𝑋𝑋� + 𝑧𝑧𝛼𝛼 ∙ )
√𝑛𝑛 √𝑛𝑛
𝑆𝑆𝑆𝑆 𝑝𝑝 = 0 → 2 − 0 = 2 → 𝑓𝑓"(𝑝𝑝) > 0 𝑦𝑦 𝑒𝑒𝑒𝑒 𝑚𝑚í𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛
𝑓𝑓"(𝑝𝑝) = 2 − 6𝑝𝑝 → � 2
Y el error es:
𝑆𝑆𝑆𝑆 𝑝𝑝 = → 2 − 4 = −2 → 𝑓𝑓"(𝑝𝑝) < 0, 𝑦𝑦 𝑒𝑒𝑒𝑒 𝑚𝑚á𝑥𝑥𝑥𝑥𝑥𝑥𝑥𝑥 𝜎𝜎 11
3
𝑧𝑧𝛼𝛼 ∙= 2.695 → 1.96 ∙
4.2 Intervalos de confianza √𝑛𝑛 √65
Entonces, el intervalo de confianza: Es decir, la media está en el intervalo con esta
Dado un valor 1 − 𝛼𝛼 entre 0 y 1, se halla un intervalo (𝑎𝑎, 𝑏𝑏) tal que 𝑃𝑃(𝑎𝑎 < 𝜃𝜃 < 𝑏𝑏) = 1 − 𝛼𝛼 a
partir de los valores de la muestra. probabilidad:
Si tenemos una muestra 𝜃𝜃 con un parámetro que estima 𝜃𝜃�, el parámetro de la población (78 − 2.695, 78 + 2.695)
probablemente no coincida con la estimación, pero probablemente esté entre dos valores: El intervalo de confianza contendrá la media poblacional en el 95% de las muestras.
�𝜃𝜃� − 𝐸𝐸, 𝜃𝜃� + 𝐸𝐸�: (E de error)  Si la varianza poblacional es desconocida:
𝑋𝑋� − 𝜇𝜇
Por ejemplo: Si la media de varias alturas medidas es X, lo más probable es que la mediana 𝑁𝑁(0,1) =
esté entre (𝑋𝑋 − 5, 𝑋𝑋 + 5) siendo ese 5 el llamado error de estimación. 𝑆𝑆/√𝑛𝑛
Siendo 𝑆𝑆 la cuasidesviación típica.
 Si la varianza poblacional es conocida:
Por ejemplo: Los pesos de una población siguen una distribución normal. Se extrae una
𝑋𝑋� − 𝜇𝜇
𝑁𝑁(0,1) = media aleatoria simple de tamaño 30. La media muestral es 78 y la cuasivarianza muestral es
𝜎𝜎/√𝑛𝑛
110. Hallar un intervalo de confianza para la media poblacional con una probabilidad del 99%.
Por ejemplo: Los pesos de una población siguen una distribución normal con varianza 121. Se
Cuasivarianza muestral = 110
extrae una muestra aleatoria simple de tamaño 64, resultando que la media (muestral) es
La media poblacional es desconocida: 𝜇𝜇
78kg. Halla un intervalo en el que se encuentra la media poblacional con una probabilidad del � = 𝟕𝟕𝟕𝟕
𝑆𝑆 2 = 110 → 𝑆𝑆 = 10.44, 𝑛𝑛 = 30, 𝑿𝑿
95%.
Desviación típica = √𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣 = √121 = 11
La media poblacional es desconocida: 𝜇𝜇
𝑋𝑋 = 𝑁𝑁(𝜇𝜇, 11), 𝑛𝑛 = 64, � = 𝟕𝟕𝟕𝟕
𝑿𝑿
𝑧𝑧 = 1 − 0.99 = 0.01 → 𝑧𝑧 = 0.005
Primero hay que calcular típico de 𝑧𝑧,es decir, el valor que deja en medio el 95% de las
0.5 En la tabla, en este caso T de Student al intervenir la cuasivarianza: Y n-1 grados de libertad,
observaciones: 𝑧𝑧 = 1 − 0.95 = 0.5 entre las dos colas, entonces, en una: = 0.025
2 es decir, 29 grados de libertad 2,756.
𝑆𝑆 𝑆𝑆
Entonces, el intervalo de confianza: �𝑋𝑋� − 2.756 ∙ ; 𝑋𝑋� + 2.756 ∙ �
√𝑛𝑛 √𝑛𝑛
𝑆𝑆 10.49
Error: 2.756 ∙ → 2.756 ∙
√𝑛𝑛 √30

2
Estadística
 Intervalo de confianza para la varianza poblacional: Llamamos potencia de contraste a: 1 − 𝑃𝑃(𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝐼𝐼𝐼𝐼) “es la probabilidad de rechazar
Se necesita un estadístico donde intervenga la media: Ya que es una normal 0, 1 siendo falsa” el error tipo II también llamado: Β (𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏). Que es igual a la probabilidad de
(𝑛𝑛 − 1) ∙ 𝑆𝑆 2 (𝑛𝑛 − 1) ∙ 𝑆𝑆 2 aceptar 𝐻𝐻0 siendo falsa.
� , �
𝑏𝑏𝛼𝛼 𝑎𝑎𝛼𝛼 La probabilidad de error tipo II, es la probabilidad de acertar, siendo 𝐻𝐻0 falsa.
Por ejemplo: En el ejemplo anterior, hallar un intervalo de confianza para la varianza 𝑃𝑃(𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴 | 𝐻𝐻0 = 𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓). Que es lo contrario de la potencia.
poblacional con un nivel de confianza del 95%. Por ejemplo: (Contraste para la media de una población normal). Se tiene una población
normal de varianza 10. Se desea contrastar la hipótesis nula de que la media poblacional es
40 frente a la alternativa de que es 50. Para ello se extrae una muestra de tamaño 25. Si
fijamos un nivel de significación del 5%.
A) Determinar la región de aceptación y de rechazo.
4.3 Contrastes de hipótesis B) Si la media de la muestra ha resultado ser 44, ¿Cuál es la decisión a adoptar?
Por ejemplo: Por estudios anteriores, la media de cierta población era 170. ¿Ha variado? A) Queremos contrastar la hipótesis nula de que la media es 40, frente a la alternativa
La hipótesis de trabajo es: Media 170 𝐻𝐻 → 𝜇𝜇 = 40
𝑛𝑛 = 25; � 0 ; 𝛼𝛼 = 0.05 = 𝑃𝑃(𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇 𝐼𝐼)
𝐻𝐻1 → 𝜇𝜇 = 50
Suponemos que es cierta, y si llegamos a una conclusión muy improbable, rechazamos la
En un contraste de hipótesis siempre hay que establecer una región de aceptación y de
hipótesis.
rechazo. Se usa un estadístico llamado estadístico de contraste (en este caso, la media
Para contrastar, se extrae una muestra y se ve lo cerca que cae la media muestral de 170
muestral). Hay que establecer una región, si el valor del estadístico está en esta región, se
El criterio para conocer lo “cerca” que ha de estar el dato para ser aceptado. O criterio de
acepta.
aceptación: Intervalo en el que un alto porcentaje de muestras tienen el dato en él.
Tenemos 𝜇𝜇 = 40 y 𝜇𝜇 = 50. Entonces, con el estadístico de contraste 𝑋𝑋� se aceptará siempre
Por contra, tenemos la región de rechazo, donde, se rechazará la hipótesis.
que no esté cerca de 𝐻𝐻1 → 𝜇𝜇 = 50 o sea superior a cierto valor 𝑐𝑐 cercano a 𝑋𝑋� = 50 > 𝑐𝑐.
Por ejemplo: Algunos contrastes de hipótesis pueden ser:
Para calcular 𝑐𝑐 usamos el dato de error Tipo I. Entonces:
- Comprobar si una moneda está trucada (La media sería 0.5 si no)
Vemos que la probabilidad de rechazar 𝐻𝐻0 siendo cierta es de 0.05.
- Comprobar si una serie de datos provienen de una distribución normal.
𝑃𝑃(𝑟𝑟𝑟𝑟𝑟𝑟ℎ𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 𝐻𝐻0 | 𝐻𝐻0 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐) = 0.05 →
 Planteamiento general
𝑃𝑃(𝑋𝑋� > 𝑐𝑐 | 𝜇𝜇 = 40) =
Siempre hay una hipótesis nula 𝐻𝐻0 → 𝒑𝒑. 𝒆𝒆: 𝜇𝜇 = 3 e Hipótesis alternativa (Contraria a la
𝜎𝜎 10
anterior, no se pueden dar las dos a la vez) 𝐻𝐻1 → 𝒑𝒑. 𝒆𝒆: 𝜇𝜇 = 8. → 𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇 𝑋𝑋� = 𝑁𝑁 �𝜇𝜇, � → 𝑁𝑁 �40, � → 𝑁𝑁(40, 2)
√𝑛𝑛 √25 = 5
Por ejemplo: En los ejemplos anteriores:
𝑋𝑋� − 40 𝑐𝑐 − 40
𝐻𝐻 → 𝜇𝜇 = 170; 𝜇𝜇 > 170 = 𝑃𝑃 � > � = 0.05
- La media es 170. → � 0 2 2
𝐻𝐻1 → 𝜇𝜇 ≠ 170; 𝜇𝜇 < 170
𝐻𝐻 → 𝜇𝜇 = 𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛
- Distribución normal. → � 0
𝐻𝐻1 → 𝜇𝜇 ≠ 𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛
Entonces, tenemos cómo región de aceptación y región de rechazo (= región crítica).
Tenemos hipótesis simples y compuestas: Según la hipótesis y su veracidad, podemos
equivocarnos, y dependiendo de la decisión tomada podemos caer en un error u otro:
Vemos que el valor 0.05 se encuentra entre estas dos casillas:
𝐻𝐻0 es cierta 𝐻𝐻0 es falsa
Se acepta 𝐻𝐻0 Decisión correcta Error tipo II
Se rechaza 𝐻𝐻0 Error tipo I Decisión correcta
Error tipo I = Nivel de significación = 𝛼𝛼

3
Estadística
Elegimos la menor, 1.64. Por ejemplo: Una variable aleatoria tiene distribución normal 𝑁𝑁(𝜇𝜇, 10). A fin de contrastar
𝑐𝑐 − 40 que su media es igual a 40 frente a la hipótesis alternativa de que es distinta de 40, se ha
= 1.64 → 𝑐𝑐 = 3.28 + 40 = 43.28 tomado una muestra aleatoria simple de 25 observaciones. La suma de los valores de la
2
Con esto hemos calculado el valor crítico y podemos establecer la regla de decisión. muestra es igual a 1125.
Regla de decisión: a) Plantear el contraste de hipótesis, hallar la región de aceptación de la hipótesis nula e
indicar cuál la decisión a tomar con un nivel de significación de 0,05.
Si 𝑋𝑋� > 43.28 rechazamos 𝐻𝐻0 . La región de rechazo es: (43.28, +∞)
b) Hallar la potencia del contraste para 𝜇𝜇 = 45.
Si 𝑋𝑋� ≤ 43.28 aceptamos 𝐻𝐻0 . La región de aceptación es: (−∞, 43.28)
Queremos contrastar la hipótesis nula de que la media es 40, frente a la alternativa
B) Simplemente miramos si está en la región de aceptación o de rechazo.
𝐻𝐻 → 𝜇𝜇 = 40
𝑋𝑋� = 44 → 𝐫𝐫𝐫𝐫𝐫𝐫𝐫𝐫𝐫𝐫𝐫𝐫𝐫𝐫𝐫𝐫𝐫𝐫𝐫𝐫 𝐻𝐻0 en el 95% de las muestras, es rechazado. Hay un 0.5% de 𝑛𝑛 = 25; � 0 ; 𝛼𝛼 = 0.05 = 𝑃𝑃(𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇 𝐼𝐼)
𝐻𝐻1 → 𝜇𝜇 ≠ 40
cometer error tipo II. En un contraste de hipótesis siempre hay que establecer una región de aceptación y de
Vemos la relación entre los errores de tipo I y tipo II. (En rojo, los valores del ejemplo) rechazo. Se usa un estadístico llamado estadístico de contraste (en este caso, la media
muestral). Hay que establecer una región, si el valor del estadístico está en esta región, se
acepta.
𝛼𝛼 = 0.05 es 𝑃𝑃(𝑟𝑟𝑟𝑟𝑟𝑟ℎ𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 𝐻𝐻0 | 𝐻𝐻0 𝑐𝑐𝑐𝑐𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒)
El estadístico de contraste fija dos valores a la misma distancia de la media.
Si 𝑋𝑋� está muy a la izquierda de 40 se rechaza, y si está muy a la derecha, también.
Entonces, la región de rechazo 𝑋𝑋� < 40 − 𝑐𝑐 o 𝑋𝑋� > 40 + 𝑐𝑐.
Hay que calcular pues, el valor 𝑐𝑐, usamos el dato de error Tipo I. Entonces:
Vemos que la probabilidad de rechazar 𝐻𝐻0 siendo cierta es de 0.05.
𝑃𝑃(𝑟𝑟𝑟𝑟𝑟𝑟ℎ𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 𝐻𝐻0 | 𝐻𝐻0 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐) = 0.05 →
𝑃𝑃(𝑋𝑋� < 40 − 𝑐𝑐 ∪ 𝑋𝑋� > 40 + 𝑐𝑐 | 𝜇𝜇 = 40) =
= 𝑃𝑃(𝑋𝑋� < 40 − 𝑐𝑐 | 𝜇𝜇 = 40) + 𝑃𝑃(𝑋𝑋� > 40 + 𝑐𝑐 | 𝜇𝜇 = 40)
𝜎𝜎 10
→ 𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇 𝑋𝑋� = 𝑁𝑁 �𝜇𝜇, � → 𝑁𝑁 �40, � → 𝑁𝑁(40, 2)
𝛼𝛼: Error tipo I = Nivel de significación. Es la probabilidad de rechazar siendo cierta. √𝑛𝑛 √25 = 5
𝛽𝛽: Error tipo II. Es la probabilidad de aceptar siendo 𝐻𝐻0 falsa. 𝑋𝑋� − 40 40 − 𝑐𝑐 − 40 −𝑐𝑐 𝑋𝑋� − 40 40 + 𝑐𝑐 − 40 𝑐𝑐
= 𝑃𝑃 � <� �= � + 𝑃𝑃 � >� � = � = 0.05
1 − 𝛽𝛽: Potencia. Es la probabilidad de rechazar siendo falsa. 2 2 2 2 2 2
 Contrastes unilaterales y bilaterales Cómo tenemos dos valores simétricos, entre las dos colas, tenemos 0.05, en cada cola, tiene
Se puede dar el caso de tener un caso simple (cómo el que hemos visto) a que los tenga que haber: 0.025
𝑐𝑐
compuestos. Y ese valor es: 1.96. Entonces = 1.96 → 𝑐𝑐 = 3.92
2
40 − 𝑐𝑐 = 36.08 → 40 + 𝑐𝑐 = 43.92
Con esto hemos calculado el valor crítico y podemos establecer la regla de decisión.
Regla de decisión:
Caso 1: La región de rechazo va a ser del tipo 𝑋𝑋� > 𝑐𝑐. Equivalente al Caso 3.
Si 𝑋𝑋� < 36.08 𝑜𝑜 𝑋𝑋� > 43.92 rechazamos 𝐻𝐻0 . La región de rechazo es: (−∞, 36.08) ∪
Caso 2: La región de rechazo: 𝑋𝑋� < 𝑐𝑐... Equivalente al caso 4. (43.92 ∪ +∞)
Los casos 1 a 4 son unilaterales. (Se resuelven igual que el caso general). En caso contrario, aceptamos aceptamos 𝐻𝐻0 . La región de aceptación es: (36.08, 43.92)
Y el caso 5 es un caso bilateral. Se rechazará por ambos lados de 𝐻𝐻0 . Y ahora, comprobamos: Siendo la suma de los valores 1125 / 25 = 45. Que está en región de
rechazo. Por lo que rechazamos.

4
Estadística
B) La potencia de contraste. 1 − 𝑃𝑃(𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝐼𝐼𝐼𝐼) = Esto nos da un valor. Y según el nivel de confianza. Se trabaja con chi cuadrado con (2 clases),
= 1 − 𝑃𝑃(𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 𝐻𝐻0 | 𝜇𝜇 = 45) es decir 𝑘𝑘 = 2 → 𝑘𝑘 − 1 = 1, por lo que es chi cuadrado con 1 grado de libertad. Siendo 0,05,
En este caso se tipifica con 𝜇𝜇 = 45 y se calculan las probabilidades. en la tabla nos da 3.84 que es el valor máximo que aceptamos.
 Contrastes de bondad de ajuste (0.45 − 0.5)2 (0.55 − 0.5)2
𝐷𝐷 = 500 ∙ � + � = 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣.
Con una función dada, son contrastes del tipo: 0.5 0.5
𝐻𝐻0 → 𝐿𝐿𝑎𝑎 𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓ó𝑛𝑛 𝑑𝑑𝑑𝑑 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑ó𝑛𝑛 𝑑𝑑𝑑𝑑 𝑋𝑋 𝑒𝑒𝑒𝑒 𝐹𝐹(𝑥𝑥)(𝑜𝑜 𝑙𝑙𝑙𝑙 𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓ó𝑛𝑛 𝑑𝑑𝑑𝑑 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 𝑒𝑒𝑒𝑒 𝑓𝑓(𝑥𝑥) Si el valor que obtenemos es menor que 3.84 se acepta. Si es mayor, se rechaza.
→�
𝐻𝐻1 → 𝐿𝐿𝑎𝑎 𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓ó𝑛𝑛 𝑑𝑑𝑑𝑑 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑ó𝑛𝑛 𝑑𝑑𝑑𝑑 𝑋𝑋 𝑛𝑛𝑛𝑛 𝑒𝑒𝑒𝑒 𝐹𝐹(𝑥𝑥)(𝑜𝑜 𝑙𝑙𝑙𝑙 𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓ó𝑛𝑛 𝑑𝑑𝑑𝑑 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 𝑛𝑛𝑛𝑛 𝑒𝑒𝑒𝑒 𝑓𝑓(𝑥𝑥)
Los individuos pueden dividirse en clases (con valores discretos o intervalos).

Por ejemplo: Muestra dividida en clases, un primer intervalo de 120 a 130...


Se calcula la frecuencia en cada muestra y se divide por el total, para obtener la frecuencia
relativa o proporción.
Y luego, considero la proporción mediante la hipótesis nula. Suponiendo que la distribución
es normal, se calcula la probabilidad de que 𝑋𝑋� la esté entre 120 – 130, obtenemos los valores
teóricos.
Y luego para aceptar que 𝐻𝐻0 es cierta 𝑝𝑝1 y 𝑝𝑝̂1 han de ser muy parecidas, para eso, las
restamos.
Los estadísticos de contraste:

Siguen un chi cuadrado con k – 1 grados de libertad.


Por ejemplo: Para contrastar si una moneda está equilibrada, se hizo un experimento que
consistió en lanzar la moneda 500 veces, apareciendo 275 caras y 225 cruces.
Decidir si, con un nivel de significación de 0,05, se puede aceptar la hipótesis de que la
moneda está equilibrada.
𝐻𝐻 → 𝑃𝑃(é𝑥𝑥𝑥𝑥𝑥𝑥𝑥𝑥) = 0.5
→� 0
𝐻𝐻1 → 𝑃𝑃(é𝑥𝑥𝑥𝑥𝑥𝑥𝑥𝑥) ≠ 0.5
Cara Cruz
Proporciones bajo 𝐻𝐻0 𝑝𝑝̂1 : 0.5 𝑝𝑝̂2 : 0.5
Proporciones observadas 𝑝𝑝̂1 : 275/500 = 0.55 𝑝𝑝̂2 : 225/500 = 0.45
Calculamos el estadístico de contraste.
(0.45 − 0.5)2 (0.55 − 0.5)2
𝐷𝐷 = 500 ∙ � + �
0.5 0.5

5
Estadística
𝑯𝑯𝟎𝟎 : 𝜽𝜽 = 𝟎𝟎 Si |𝑋𝑋| ≤ 𝑐𝑐, 𝐻𝐻0 La función de densidad del vector muestral (𝑋𝑋1 , … , 𝑋𝑋𝑛𝑛 ) para la muestra de tamaño 𝑛𝑛 es.
- Variable aleatoria d. normal: 𝑋𝑋 con 𝑁𝑁(𝜃𝜃, 1). , r. de decisión: .
𝐻𝐻1 : 𝜃𝜃 ≠ 0 Si |𝑿𝑿| > 𝒄𝒄, no 𝐻𝐻0 1 1 𝑛𝑛
(𝑥𝑥 2
𝑓𝑓(𝑥𝑥1 , … , 𝑥𝑥𝑛𝑛 ; 𝜇𝜇) = 𝑒𝑒 −2∙∑𝑖𝑖=1 𝑖𝑖 −𝜇𝜇)
Hallar valor 𝑐𝑐, para que el test de hipótesis tenga probabilidad de error I, ≤ 0.02. (2𝜋𝜋) 𝑛𝑛/2

Error I: “Rechazamos 𝐻𝐻0 siendo cierta”. Fijada una muestra 𝑥𝑥1 , … , 𝑥𝑥𝑛𝑛 la verosimilitud es una función de 𝜇𝜇 y el valor en que alcanza su
𝑃𝑃(𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝐼𝐼) = 𝑃𝑃(|𝑿𝑿| > 𝒄𝒄 | 𝜽𝜽 = 𝟎𝟎) = 𝑃𝑃({𝑋𝑋 > 𝑐𝑐} ∪ {𝑋𝑋 < −𝑐𝑐} | 𝜃𝜃 = 0) máximo es el estimador de máxima verosimilitud del parámetro. Ese valor será función de la
si 𝜃𝜃 = 0 entonces 𝑋𝑋 es 𝑁𝑁(0, 1). muestra. Para simplificar, tomamos logaritmos:
𝑃𝑃({𝑋𝑋 > 𝑐𝑐} ∪ {𝑋𝑋 < −𝑐𝑐} | 𝜃𝜃 = 0) = 𝑃𝑃({𝑍𝑍 > 𝑐𝑐} ∪ {𝑍𝑍 < −𝑐𝑐} = 2𝑃𝑃(𝑍𝑍 > 𝑐𝑐)) 1 𝑛𝑛 𝑛𝑛 2
log 𝑓𝑓(𝑥𝑥1 , … , 𝑥𝑥𝑛𝑛 ; 𝜇𝜇) = − ∙ � (𝑥𝑥𝑖𝑖 − 𝜇𝜇)2 − ∙ log
Y tenemos que encontrar el valor 𝑐𝑐 que 2𝑃𝑃(𝑍𝑍 > 𝑐𝑐) = 0.02, es decir, 𝑃𝑃(𝑍𝑍 > 𝑐𝑐) = 0.01. 2 𝑖𝑖=1 2 𝜋𝜋
En la tabla d. normal, aproximadamente: 𝑃𝑃(𝑍𝑍 > 2.325) = 0.01 entonces: 𝑐𝑐 = 2.325. El máximo se calcula hallando los puntos singulares, que son los que anulan la derivada:
𝑛𝑛 𝑛𝑛
2 3 𝑠𝑠𝑠𝑠 𝑥𝑥 ≥ 𝜃𝜃
- Variable aleatoria con f. densidad: 𝑓𝑓(𝑥𝑥; 𝜃𝜃) = �2𝜃𝜃 /𝑥𝑥 . � (𝑥𝑥𝑖𝑖 − 𝜇𝜇) = −𝑛𝑛𝑛𝑛 + � 𝑥𝑥𝑖𝑖
0 𝑠𝑠𝑠𝑠 𝑥𝑥 < 𝜃𝜃 1
𝑖𝑖=1 𝑖𝑖=1
𝐻𝐻 : 𝜃𝜃 = 1 Si 𝑋𝑋 < 𝑐𝑐, se acepta 𝐻𝐻 0 siendo la solución: 𝜇𝜇̂ = 𝑥𝑥̅ = ∑𝑛𝑛𝑖𝑖=1 𝑥𝑥𝑖𝑖
Contrastar 0 con r. decisión: 𝑛𝑛
𝐻𝐻1 : 𝜃𝜃 > 1 Si 𝑋𝑋 ≥ 𝑐𝑐, se rechaza 𝐻𝐻0 Este punto es máximo ya que la segunda derivada es menor que cero: −𝑛𝑛 < 0
---- Para hallar valor 𝑐𝑐, para que el test de hipótesis tenga probabilidad de error I, ≤ 0.01. Por lo que el estimador de máxima verosimilitud es la media muestral y, para la muestra que
Error I: “Rechazamos 𝐻𝐻0 siendo cierta”. hemos extraído, el valor del estimador es:
𝑃𝑃(𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 𝑑𝑑𝑑𝑑 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝐼𝐼) = 𝑃𝑃(𝑋𝑋 ≥ 𝑐𝑐 | 𝜃𝜃 = 1) = 0.01 1 9 81
2 𝑥𝑥̅ = � 𝑥𝑥𝑖𝑖 = =9
𝑠𝑠𝑠𝑠 𝑥𝑥 ≥ 1 9 𝑖𝑖=1 9
Si 𝜃𝜃 = 1, entonces 𝑋𝑋 se distribuye con una función de densidad igual a: 𝑓𝑓(𝑥𝑥) = �𝑥𝑥 3 ---- Para plantear el contraste de la hipótesis: “el tiempo medio de funcionamiento es 𝜇𝜇 =
0 𝑠𝑠𝑠𝑠 𝑥𝑥 < 1
entonces: 0.01 = 𝑃𝑃(𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 𝑑𝑑𝑑𝑑 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝐼𝐼) = 𝑃𝑃(𝑋𝑋 ≥ 𝑐𝑐 | 𝜃𝜃 = 1) = 10" frente a la alternativa de que es menor. ¿Qué decisión se adoptaría, ante la evidencia

2 1 ∞ 1 que proporciona la muestra, si se toma un nivel de significación de 0.01?
= � 3 𝑑𝑑𝑑𝑑 = − � 2 � = 2 Si 𝑋𝑋� ≥ 𝑐𝑐 se acepta 𝐻𝐻0
𝑐𝑐 𝑥𝑥 𝑥𝑥 𝑐𝑐 𝑐𝑐 Usamos la siguiente regla de decisión: �
Por lo tanto, el valor crítico 𝑐𝑐 cumple 𝑐𝑐 2 = 1/0.01, es decir 𝑐𝑐 = 10. Si 𝑋𝑋� < 𝑐𝑐, se rechaza 𝐻𝐻0
---- Para calcular la potencia del test para 𝜃𝜃 = 8. La probabilidad de cometer un error de tipo I es:
Error II: “Aceptar 𝐻𝐻0 siendo falsa” (Su probabilidad es 𝑝𝑝). 0.01 = 𝑃𝑃(𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝐼𝐼) = 𝑃𝑃(𝑟𝑟𝑟𝑟𝑟𝑟ℎ𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 𝐻𝐻0 |𝐻𝐻0 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐) = 𝑃𝑃(𝑋𝑋� < 𝑐𝑐 | 𝜇𝜇 = 10) =
𝑋𝑋� − 10 𝑐𝑐 − 10
Potencia de test: “1 − 𝑝𝑝” OJO! = 𝑃𝑃 � > | 𝜇𝜇 = 10� = 𝑃𝑃(𝑍𝑍 < 3(𝑐𝑐 − 10))
𝑃𝑃(𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝐼𝐼𝐼𝐼) = 𝑃𝑃(𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 𝐻𝐻0 |𝜃𝜃 = 8) = 𝑃𝑃(𝑋𝑋 < 10 | 𝜃𝜃 = 8) 𝟏𝟏/√𝟗𝟗 𝟏𝟏/√𝟗𝟗
2∙82 En la tabla de distribución normal, vemos que aproximadamente: 𝑃𝑃(𝑍𝑍 < −2.327) = 0.01,
Si 𝜃𝜃 = 8 la variable 𝑋𝑋 se distribuye con función de densidad igual a: 𝑓𝑓(𝑥𝑥) = � 𝑥𝑥 3 𝑠𝑠𝑠𝑠 𝑥𝑥 ≥ 8 entonces 3(𝑐𝑐 − 10) = −2.327 siendo el valor crítico 𝑐𝑐 = 9.224. Cómo la muestra tiene 𝑋𝑋� =
0 𝑠𝑠𝑠𝑠 𝑥𝑥 < 8 9 < 9.22 se rechaza la hipótesis nula.
entonces: 𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃 = 𝑃𝑃(𝑋𝑋 ≥ 10 | 𝜃𝜃 = 8) =
OJO! Si es 𝜃𝜃 = 2 y Variable aleatoria X tiene distribución normal demedia y varianza desconocidas. Una

2 ∙ 82 2
1 ∞ 8 2 muestra aleatoria de tamaño once: 12, 8.5, 10, 10.5, 9.2, 8.8, 11, 9.5, 11.5, 8.7, 10.3
=� 3
𝑑𝑑𝑑𝑑 = −8 � � = � � = 0.64 𝑠𝑠𝑠𝑠 𝑥𝑥 ∈ (0, 𝜃𝜃). La
10 𝑥𝑥 𝑥𝑥 2 10 10 ---- Dar una estimación insesgada de la varianza de la variable.
La potencia del test es: 0.64 integral es hasta 2
Un estimador insesgado de la varianza es la cuaasivarianza muestral, se define por:
El tiempo en miles de horas de dispositivos electrónicos es una variable X con distribución
𝑵𝑵(𝝁𝝁, 𝟏𝟏). Para una muestra aleatoria de nueve de estos dispositivos se registraron los
siguientes tiempos de funcionamiento: 7, 10, 8.5, 8, 11.5, 7.2, 8.8, 10.3, 9.7
---- Para hallar la estimación de máxima verosimilitud de 𝜇𝜇. La muestra extraída tiene un tamaño 𝑛𝑛 = 11, la suma de sus observaciones es ∑ 𝑖𝑖 𝑥𝑥𝑖𝑖 = 110 y
Estimación de máxima verosimilitud: valor de 𝜇𝜇 que hace máxima la función de densidad de la suma de los cuadrados de las observaciones es ∑ 𝑖𝑖 𝑥𝑥𝑖𝑖2 = 1113.86, se sigue que la media
la muestra. muestral:
Para calcularlo, la función de densidad de una variable 𝑁𝑁(𝜇𝜇, 1) es:
1 2
𝑓𝑓(𝑥𝑥; 𝜇𝜇) = 𝑒𝑒 −(𝑥𝑥−𝜇𝜇) /2 −∞ < 𝑥𝑥 < ∞
2√2𝜋𝜋 Y la estimación insesgada de la varianza:

1
Estadística
---- Encontrar intervalo de confianza, con confianza del 95%, para la varianza de la variable.
Para encontrar un intervalo de confianza para la varianza, consideramos el estadístico:
Que tiene distribución donde el tamaño muestral es 𝑛𝑛 = 11, para hallar el intervalo
de confianza, buscamos dos valores (a y b) que cumplan: usamos el estadístico:
Una posibilidad es hallar valores de 𝜒𝜒 2 que cumplan 𝑃𝑃(𝜒𝜒102 2
< 𝑎𝑎) = 0.025 y 𝑃𝑃(𝜒𝜒10 > 10) =
0.025, que nos da el intervalo simétrico.
En la tabla 𝜒𝜒 2 con 10 grados de libertad: 𝑎𝑎 = 3.25 y 𝑏𝑏 = 20.48 así que: Distribuido con una 𝑡𝑡𝑛𝑛−1 , de STUDENT con 𝑛𝑛 − 1 grados de libertad.
OJO! Para hallar un intervalo de confianza, encontramos dos valores 𝑡𝑡∗ y 𝑡𝑡 ∗ que cumplan:
En la tabla, n-1
Si invertimos la desigualdad: Por la simetría de la distribución 𝑡𝑡, el intervalo de longitud mínima, es que se obtiene cuando
grados de
𝑡𝑡∗ = 𝑡𝑡 ∗ . Así, solo tenemos que encontrar el valor 𝑡𝑡 ∗ que:
libertad

es decir: O el valor 𝑃𝑃(𝑡𝑡14 > 𝑡𝑡 ∗ ) = 0.05. En la fila 14 de la tabla de STUDENT: 𝑡𝑡 ∗ = 1.761 qué implica:

que es un intervalo de extremos aleatorios que contiene el valor real de la varianza O lo que es lo mismo, esperamos que el intervalo:
poblacional en un 95% de los casos.
Para la muestra extraída:

Con lo que el intervalo de confianza pedido: contenga a 𝜇𝜇 en el 90% de las muestras.


Ahora, por los resultados de la muestra, tenemos 𝑥𝑥̅ = 20 y 𝑆𝑆 2 = 7.5 y el intervalo de
confianza pedido es: (18.755, 21.245)
El tiempo de conexión de los usuarios a una determinada red es una variable aleatoria con
distribución normal 𝑁𝑁(𝜇𝜇, 𝜎𝜎) de media y varianzas desconocidas. Una muestra aleatoria de En una urna hay 5 bolas, 𝑘𝑘 son azules (1, 2, 3 𝑜𝑜 5) y el resto rojas. De la urna se extrae una
15 usuarios proporcionó los siguientes resúmenes estadísticos para los tiempos de conexión muestra aleatoria simple de tres bolas. Sea 𝑁𝑁 el número de bolas azules de la muestra.
en minutos: ---- Para cada valor de 𝑘𝑘, calcular 𝑃𝑃(𝑁𝑁 = 1). k=1 de 5 n-k son rojas de n
∑15 15 2 Se extraen tres bolas, siendo N=1 azul
𝑖𝑖=1 𝑥𝑥𝑖𝑖 = 300 y ∑𝑖𝑖=1 𝑥𝑥𝑖𝑖 = 6105.
---- Hallar las estimaciones insesgadas de 𝜇𝜇 y de 𝜎𝜎 2 . 3 1 4 2 3! 1 16 1 16 48
𝑃𝑃(𝑁𝑁 = 1 𝑦𝑦 𝑘𝑘 = 1) = � � ∙ � � ∙ � � = ∙� �∙ =3∙ ∙ =
Dos estimadores insesgados de 𝝁𝝁 y otra de 𝝈𝝈𝟐𝟐 : 1 5 5 1! (3 − 1)! 5 25 5 25 125
3 2 3 2 54
𝑃𝑃(𝑁𝑁 = 1 𝑦𝑦 𝑘𝑘 = 2) = � � ∙ � � ∙ � � = ⋯ =
1 5 5 125
3 5 2 2 36
Ante los resultados de la muestra, las estimaciones insesgadas son: 𝑥𝑥̅ =
300
= 20 y: 𝑃𝑃(𝑁𝑁 = 1 𝑦𝑦 𝑘𝑘 = 3) = � � ∙ � � ∙ � � = ⋯ =
15
1 5 5 125
3 4 1 2 12
𝑃𝑃(𝑁𝑁 = 1 𝑦𝑦 𝑘𝑘 = 4) = � � ∙ � � ∙ � � = ⋯ =
1 5 5 125
---- Valor que hace máxima la probabilidad 𝑃𝑃(𝑁𝑁 = 1).
Vemos los resultados anteriores, y la máxima probabilidad la da cuando 𝑘𝑘 = 2.
---- Encontrar un intervalo de confianza, con una confianza del 90%, para la media 𝜇𝜇 del ---- Si 𝑁𝑁 = 2 ¿cuál es el estimador de máxima verosimilitud para 𝑘𝑘?
tiempo de conexión. 𝟑𝟑 3
Cómo la varianza es desconocida, para calcular el intervalo de confianza para la media, 𝑃𝑃(𝑁𝑁 = 2) = � � ∙ 𝒑𝒑𝑵𝑵 ∙ (𝟏𝟏 − 𝒑𝒑)𝟑𝟑−𝑵𝑵 = � � ∙ 𝑝𝑝2 ∙ (1 − 𝑝𝑝)1 = 3𝑝𝑝2 − 3𝑝𝑝3 ← 𝑃𝑃(𝑘𝑘) = 𝑝𝑝
𝟐𝟐 2
𝑝𝑝 = 0
′ (𝑁𝑁 2
Hacemos la derivada: 𝑓𝑓 = 2) = 6𝑝𝑝 − 9𝑝𝑝 y los valores que la hacen 0. � 2
𝑝𝑝 = 𝑬𝑬𝑬𝑬𝑬𝑬
3

También podría gustarte