UD4 Inferencia
UD4 Inferencia
UD4 Inferencia
I. Introducción y objetivos
II. Inferencia
III. Verosimilitud
IV. Resumen
VI. Glosario
Lección 1 de 6
I. Introducción y objetivos
La inferencia estadística plantea un problema opuesto al del tema anterior, que trataba sobre cómo calcular
la probabilidad de ciertos sucesos aleatorios y elegir una muestra representativa de la población.
La inferencia estadística tiene como objetivo obtener conclusiones de la población de estudio a partir de la
información proporcionada por la muestra seleccionada.
Por ejemplo, si se quiere estimar la media de los ingresos anuales de los españoles y se selecciona una
muestra de 100 personas: ¿qué valor se utiliza para estimar la media poblacional? Si la media de la muestra
es 1 200 €, se puede afirmar que la media poblacional es “aproximadamente 1 200 €”. Sin embargo, no se
puede decir que el valor de la media poblacional sea exactamente 1 200 € ya que habitualmente la media
poblacional no coincide exactamente con la media muestral.
El principal objetivo de la inferencia es utilizar la información de la muestra para sacar conclusiones acerca
de la población a estudio.
Hay dos herramientas que permiten obtener conclusiones sobre la población de estudio a partir de la
información proporcionada por los datos de la muestra: los intervalos de confianza y los contrastes de
hipótesis.
I N T E R VA LO DE C O N F I A N Z A C O N T R A S T E DE HI PÓ T E S I S
Rango de valores entre los cuales se puede asegurar que se encuentra un parámetro de la población con
cierto nivel de confianza prefijado.
I N T E R VA LO DE C O N F I A N Z A C O N T R A S T E DE HI PÓ T E S I S
Procedimiento que permite sacar conclusiones acerca de una hipótesis sobre un parámetro de la población
con cierto nivel de confianza prefijado.
Figura 1. Proceso de inferencia.
Fuente: elaboración propia (2020).
C O NT I NU A R
II. Inferencia
A continuación, se detallan las dos herramientas que permiten obtener conclusiones sobre la población de
estudio a partir de la información proporcionada por los datos de la muestra: los intervalos de confianza y los
contrastes de hipótesis.
La estimación puntual se define como una estimación proporcionada por los datos de la muestra para un
parámetro de población desconocido, como puede ser la media o la proporción.
Por el contrario, los intervalos de confianza, aunque también estimados a partir de los datos de la muestra,
se definen como una región alrededor de la estimación puntual que contiene el parámetro de la población
con una cierta probabilidad.
Por tanto, la estimación por intervalos trata de construir a partir de la muestra un intervalo dentro del cual se
supone que se encuentra el parámetro a estimar con un cierto grado de confianza. Para ello, se utilizan dos
estimadores, uno para el límite inferior del intervalo y otro para el límite superior. Estos límites se calculan a
través de los estadísticos obtenidos en la muestra (por ejemplo: la media y la desviación estándar) que
tienen una distribución en el muestreo. Si seleccionáramos varias muestras diferentes, se calcularían
intervalos de confianza diferentes. La probabilidad con la que el intervalo contiene el parámetro población y
que determina el nivel del intervalo de confianza (por ejemplo, 95 %) se basa en esta distribución de
muestreo.
El nivel de confianza, expresado como un porcentaje, se define como la probabilidad a priori de que el
intervalo basado en la muestra seleccionada contenga el verdadero valor de la población. En otras palabras:
si se repitiese el proceso de muestreo infinitas veces, el nivel de confianza sería la proporción de intervalos
que contendrían el valor verdadero de parámetro poblacional.
Para que un intervalo sea útil, su nivel de confianza debe ser alto:
1 − α = 0,90 o α = 0,10
1 − α = 0,95 o α = 0,05
1 − α = 0,99 o α = 0,01
Siempre que 0,95 (95 %) sea el nivel de confianza más común y 0,99 (99 %) en casos críticos.
Cuando un intervalo calculado es amplio, implica que los datos han proporcionado poca información sobre el
parámetro, mientras que un intervalo estrecho resulta de los datos que proporcionan información más
precisa sobre el parámetro.
C O NT I NU A R
A partir de este estimador, se calculan los límites superior e inferior del intervalo sobre su distribución y se
buscan los valores que dejan encerrada una probabilidad 1 − α. Los intervalos de confianza se suelen
construir de forma simétrica, de manera que el límite inferior deje una probabilidad acumulada inferior α/2 y
el límite superior deje una probabilidad acumulada superior también de α/2.
Se ilustrará de forma intuitiva la construcción del intervalo de confianza para la media de una población y se
aprenderá a calcular el resto con R y su interpretación. Todos los intervalos de confianza aquí planteados se
calculan de forma similar basándose en sus respectivas distribuciones el muestreo, por lo que solo se
mostrará el cálculo en R y su interpretación.
Para los ejemplos en R, se utilizará una base con información sobre el salario diario de 3 000 individuos
(dataset-37830_wage.csv).
dataset-37830_wage.zip
40.1 KB
C O NT I NU A R
Si se quisiera determinar el gasto medio diario en la cafetería de los empleados de una empresa
multinacional, la población de estudio sería el total de empleados de la empresa multinacional. El
parámetro poblacional de interés es el gasto medio en la cafetería de los empleados. A la media de una
variable cuantitativa en la población se la denotaría como μ. Dado que por razones prácticas y financieras
no se puede acceder a todos los empleados de la empresa multinacional, sse ha seleccionado una
muestra de 160 empleados a los que se les ha medido el gasto.
En los 160 empleados de la muestra, el gasto medio (͠ ͞x ) es 9,7 € y la desviación estándar (σ) es 1,9 €.
Si se hubiera seleccionado una muestra diferente, se habría obtenido una media y una desviación
estándar diferente debido a lo que se conoce como variación en el muestreo, es decir: debido a la
variabilidad que se observa al estudiar muestras en lugar de poblaciones.
Si, en lugar de una única muestra, se seleccionaran 1000 muestras de tamaño 160 de la población, se
calculara la media de gasto en cada una de las 1000 muestras y se representasen las 1000 medias de
gasto en un histograma, se obtendría la distribución en el muestreo de la media muestral.
A continuación, se ilustrará la construcción teórica del intervalo de confianza al 95 % para la media de una
población. Un intervalo de confianza para la media de una variable cuantitativa en la población de la que se
extrajo la muestra es un rango de valores obtenidos a partir de los datos de la muestra, dentro de los cuales
se encuentra con total seguridad la media de la variable cuantitativa en la población.
En la mayoría de las situaciones no se sabe la desviación estándar poblacional (σ). Sin embargo, cuando el
tamaño muestral es suficientemente grande (n>60), en su lugar se utilizará la desviación estándar muestral
(s), y se calculará un intervalo de confianza al 95 % para una media con la siguiente fórmula:
En este ejemplo, un intervalo de confianza al
95 % para el gasto medio en cafetería de los empleados de una empresa multinacional se calcularía como:
Se tiene una seguridad al 95 % de que el gasto medio en cafetería de los empleados de una empresa
multinacional está entre 9,41 y 9,99 €.
Se puede calcular un intervalo de confianza de una media a un nivel de confianza distinto del 95 %; por
ejemplo, al 90 o 99 %. Para ello, basta con cambiar el valor 1,96 por el punto de la distribución normal
estándar, que deja en las colas una probabilidad del 10 % o 1 %, respectivamente:
Un intervalo de confianza será más preciso cuanto más estrecho sea, es decir: cuanto menor sea la
distancia entre el límite superior y el límite inferior.
Existen dos alternativas para disminuir la amplitud de un intervalo de confianza: aumentar el tamaño de la
muestra o disminuir el nivel de confianza. La primera es la opción más recomendable ya que: “cuanto más
grande es una muestra, más información proporciona y más precisas son las conclusiones obtenidas a
partir de ella”.
Muestras pequeñas
Si el tamaño muestral es pequeño (n<60), la desviación estándar muestral, s, puede no ser un buen
estimador de la desviación estándar poblacional, σ. Por este motivo, se utiliza la distribución t de student, en
lugar de la distribución normal, para calcular un intervalo de confianza para la media.
La mayoría de los programas estadísticos utilizan, de forma general, la distribución t de student para el
cálculo de intervalos de confianza para una media. La razón es que la distribución t de student es la
apropiada si el tamaño muestral es pequeño, y se aproxima a la normal estándar si el tamaño muestral es
grande.
La t de student es una distribución continua simétrica determinada por un parámetro conocido como grados
de libertad: tn es una distribución t de student con n grados de libertad.
La fórmula para el cálculo de un intervalo de confianza al 95 % para una media viene dado por:
Donde tn-1 es el punto de la distribución t de student con n-1 grados de libertad que deja en las colas una
probabilidad del 5 %.
C O NT I NU A R
La función “t.test” se usa para calcular intervalos de confianza para la media y diferencia de medias, con
muestras independientes y dependientes (o pareadas).
Para calcular intervalos de confianza para la media se utilizará la función “t.test”. Es necesario definir dos
argumentos:
El resto de los argumentos se usan cuando se desea obtener intervalos de confianza para diferencia de
media con muestras independientes y dependientes (o pareadas).
Ejemplo
Para calcular intervalos de confianza para la proporción a partir de la función “prop.test” es necesario definir
tres argumentos: x considera el conteo de éxitos, n indica el número de eventos y “conf.level” corresponde al
nivel de confianza.
Ejemplo
Ejemplo
Se dice que dos muestras o poblaciones están relacionadas o pareadas cuando se quieren comparar dos
mediciones sobre el mismo individuo.
Ejemplo
Para construir intervalos de confianza bilaterales para la proporción a partir de la función “prop.test” es
necesario definir tres argumentos:
Ejemplo
C O NT I NU A R
Tal y como se explicaba en el apartado anterior, en general nunca se sabrá con absoluta certeza si una
hipótesis estadística es cierta o falsa, ya que para ello habría que estudiar a todos los individuos de la
población.
Para comprobar la veracidad o falsedad de estas hipótesis, hay que contrastarlas con los resultados
obtenidos de las muestras. Si los resultados observados en las muestras coinciden, dentro de un margen de
error admisible, con lo que cabría esperar en caso de que la hipótesis fuese cierta, la hipótesis se aceptará
como verdadera, mientras que en caso contrario se rechazará por ser falsa y se buscarán nuevas hipótesis
capaces de explicar los datos observados.
Como las muestras se obtienen aleatoriamente, la decisión de aceptar o rechazar una hipótesis estadística
se tomará sobre una base de probabilidad.
Por ejemplo, se desea comprobar si el número de pólizas de seguros vendidas por la oficina de Cáceres
siguen una distribución normal.
Contrastes de conformidad
–
El objetivo es comprobar si una hipótesis sobre si cierto parámetro de la población (por ejemplo, la media)
toma cierto valor que tenemos como hipótesis.
Por ejemplo, verificar si el número de pólizas de seguros vendidas en un mes es igual a 50.
Por ejemplo, ver si el número de pólizas vendidas en un mes en dos oficinas son iguales.
Pasos en la realización del contraste de hipótesis
En la mayoría de los casos un contraste supone tomar una decisión entre dos hipótesis antagonistas:
La hipótesis nula H0 es la hipótesis de partida (la que se contrasta). Debe recoger el hecho que
se quiera someter a prueba. La hipótesis nula se suele plantear en términos de igualdad:
La hipótesis alternativa se puede establecer de tres maneras, dependiendo del interés del investigador:
En el primer caso se habla de contraste bilateral y en los otros dos contrastes unilaterales (derecho en el 2º
caso, o izquierdo en el 3º).
Ejemplo
Una vez planteadas la hipótesis nula y alternativa, se debe tomar una decisión a partir de las observaciones.
Existen dos decisiones posibles:
Se debe calcular cómo de probable sería observar el valor de la media muestral que se ha observado, o uno
más extremo, si la hipótesis nula fuera cierta.
Para calcular esta probabilidad, se deben aplicar los conocimientos adquiridos en la unidad anterior sobre
cómo calcular probabilidades tomando como base la distribución normal.
El primer paso para calcular la probabilidad de que la media estimada sea mayor o igual que la media de
referencia, consiste en calcular la puntuación z correspondiente.
La probabilidad de observar una media de la variable cuantitativa como la observada en la muestra, o más
extrema. Si la hipótesis nula fuera cierta se conoce como p-valor.
Ejemplo
Este valor, conocido como p-valor unilateral, indica cómo de probable sería
encontrar una puntuación z menor o igual que -2,57. Dado que una
puntuación en el otro extremo de la curva normal mayor o igual que 2,57,
también iría a favor de la hipótesis alternativa; el procedimiento general
consiste en multiplicar por dos el p-valor unilateral, con lo que se obtiene el
p-valor bilateral o, simplemente, p-valor.
Figura 6. P-valor bilateral.
Fuente: elaboración propia (2020).
La probabilidad de observar un gasto medio en la muestra de 169,6 €, si la hipótesis nula fuera cierta (es
decir, la muestra se obtuvo de una población cuyo gasto medio es 171,4), es 0,01016.
Es poco probable que la muestra se haya obtenido de una población cuyo gasto medio es 171,4. Se rechaza
la hipótesis nula, es decir: no es posible asumir que el gasto medio de la población de estudiantes sea 171,4.
Conforme el p-valor es más pequeño, mayor es la evidencia en contra de la hipótesis nula (Figura 7.):
Figura 7. Interpretación del p-valor.
Fuente: elaboración propia (2020).
Habitualmente, aunque es algo arbitrario, se adopta nivel de significación α= 0,05 como punto de corte por
debajo del cual se considera que se dispone de suficientes evidencias para rechazar la hipótesis nula,
concluyendo que la asociación es estadísticamente significativa. Si el p-valor es superior a 0,05, se
considera que es muy probable que las diferencias observadas se deban únicamente al azar, por lo que la
asociación no es estadísticamente significativa.
Esto hace que, una vez realizado el contraste de hipótesis, se puedan cometer dos clases de errores
diferentes:
H0 es cierta H0 es falsa
Error de tipo I (nivel de significación α): es la probabilidad de rechazar la hipótesis nula siendo esta
verdadera.
Error de tipo II: es la probabilidad de aceptar la hipótesis nula siendo esta falsa.
Potencia: capacidad del test para detectar una asociación cuando existe.
Los errores tipo I y II son inversamente proporcionales, es decir: cuando uno aumenta, el otro disminuye. La
única forma para disminuir los dos es aumentando el tamaño muestral.
C O NT I NU A R
Pruebas de conformidad:
Contraste para la media de una población (variable cuantitativa)
Para realizar este contraste de hipótesis, se utilizará la función “ttest”. En este caso, se debe prestar
especial atención a los argumentos:
alternative: tipo de hipótesis alterna. Los valores disponibles son "two.sided" cuando la hipótesis
alternativa es “≠”, "less" para el caso “<” y "greater" para “>”.
Ejemplo
Para realizar este contraste de hipótesis se utiliza la función “prop.test”. En este caso, se debe prestar
especial atención a los argumentos:
alternative: tipo de hipótesis alterna. Los valores disponibles son "two.sided" cuando la hipótesis
alternativa es “≠”, "less" para el caso “<” y "greater" para “>”.
Ejemplo
Se quiere estudiar si la proporción de empleados con seguro de salud es
igual al 70 %.
En primer lugar, se plantea la hipótesis nula y alternativa:
El p-valor es 0,2491 > 0,05 (nivel significación alfa) por lo que NO hay
suficiente evidencia para rechazar la hipótesis nula de que la proporción
poblacional es igual al 70 %.
Pruebas de homogeneidad:
Ejemplo
Para realizar este contraste, habrá que utilizar la función “t.test” y la opción “PARIED=TRUE” y “mu=0”.
Ejemplo
Para estudiar la asociación entre dos variables categóricas, se utiliza la función “chisq.test”.
Ejemplo
En la población de empleados de la que se extrajo la muestra se quiere
comprobar si existe asociación entre la raza (blanco, negro, asiático) y el
nivel de estudios (bajo, medio, alto).
El p-valor es menor a 0,05, por lo que hay suficiente evidencia para rechazar
la hipótesis nula de NO asociación.
C O NT I NU A R
Hay multitud de elementos que se consideran barreras para la conversión; puntos de fricción que el
vendedor debería evitar o disminuir al máximo.
Cabe preguntarse si el modelo que se implementó o la acción sobre un determinado segmento de clientes
después de extraer conclusiones de un análisis estadístico tuvo algún tipo de impacto, o bien si el escenario
que se implementó fue mejor que cualquier otro alternativo. El test A/B es una metodología muy interesante
que permite poder testar infinidad de modelos y ver si realmente funcionan o no.
En resumen, se necesitará:
Especificar una hipótesis alternativa: esto es lo que se piensa que sucederá. Por ejemplo: la
variante B funcionará un 20 % mejor que la variante A.
Especificar la hipótesis nula: se basará en la asunción que no existe ninguna diferencia entre
la variante B y la variante A.
Variable objetivo o dependiente: esto significa decidir lo que la variable pretende. Ejemplos de
ello puede ser conseguir que alguien haga clic en la siguiente página, ponga más cosas en el
carrito de compra virtual o cualquier otro elemento que implique múltiples variaciones de una
acción. Sea cual sea esa llamada a la acción o métrica, se usará para interpretar el
rendimiento de las variaciones.
Una vez definidos todos estos puntos, la siguiente pregunta a hacerse es: ¿cuántas muestras de cada
variante se necesitan para tener resultados estadísticamente significativos?
Para determinar esto, se realiza un análisis de potencia. La idea del análisis de potencia es que identifica el
tamaño de muestra necesario con base en una serie de parámetros; cosas la probabilidad de que la
hipótesis nula sea rechazada cuando la hipótesis alternativa es verdadera (es decir, la probabilidad de no
cometer un error del tipo II), el p valor, el número de variantes, y el tamaño de la diferencia entre la medición
de los dos grupos, etc. La razón por la que se hace esto es para asegurar que no se haga un experimento tan
largo que muchos de los clientes tengan que ver la peor versión, pero aun así que sea suficiente como para
obtener resultados fiables.
Formalmente:
k - número de variantes: tantas como se quiera, pero al menos dos. Una cosa a tener en cuenta
es que cuantas más variantes, más datos se necesitan.
n - tamaño de la muestra por grupo: se deja como valor nulo, puesto que es el elemento que se
trata de averiguar.
f - diferencia observada entre los grupos que queremos validar: cuanto mayor sea la diferencia,
menor será la muestra requerida.
Ejemplo
LE A D G E N E R AT I O N M E DI O S E-COMMERCE
Las páginas de lead generation o generación de leads son aquellas destinadas a las ventas de servicios,
principalmente, o a la búsqueda de clientes potenciales. Los test A/B permiten probar varias versiones de la
página para ver cuál funciona mejor.
LE A D G E N E R AT I O N M E DI O S E-COMMERCE
En el testing editorial, en sitios web de mucho contenido, los test suelen estar enfocados a comprobar el
éxito de un tipo de contenidos en particular o a personalizar el contenido para cada tipo de usuario.
LE A D G E N E R AT I O N M E DI O S E-COMMERCE
Algunos de los elementos más comúnmente optimizados son la página de inicio, los elementos de la ficha
de producto, las descripciones de producto o incluso los botones y sus mensajes.
Lección 3 de 6
III. Verosimilitud
En estadística, la función de verosimilitud es una función de los parámetros de un modelo estadístico que
permite realizar inferencias acerca de su valor a partir de un conjunto de observaciones. Es un concepto muy
utilizado en el campo del aprendizaje automático, donde se utiliza para determinar qué valores de los
parámetros de un modelo serían aquellos que mejor explicarían un conjunto de datos observados.
Modelo: se asume que el número de eventos es una variable aleatoria X ~ Bin (10, π). El modelo también
supone que los eventos ocurren independientemente uno del otro.
La probabilidad de observar estos datos, basada en este modelo y el parámetro desconocido π, tal y como
se vio en la unidad dos, es:
Dado que π es desconocido, es natural considerar cómo la probabilidad de observar estos datos varía con
diferentes valores de π:
Claramente, según el modelo, la probabilidad de obtener los datos observados es mayor si se elige que π sea
0,4 que si se elige 0,2 o 0,5. Por tanto, un estimador razonable de π, basado en los datos, parece ser ese
valor de π que produce la mayor probabilidad de obtener los datos observados. De hecho, de los valores de π
que se han elegido en la tabla, la probabilidad es más alta si se elige π = 0,4; intuitivamente, esto también es
sensato, ya que es la proporción muestral.
Resumen:
Se puede trazar la forma de esta función para valores de entre 0 y 1, como se muestra en la tabla. Teniendo
en cuenta que la distribución de probabilidad que se utiliza para generar los valores de esta función, para los
datos fijos observados X = 4, es discreta y bastante distinta de la función de probabilidad continua.
La gráfica confirma gráficamente que el valor de que maximiza la probabilidad es, de hecho 0,4; este valor
es, por lo tanto, la estimación de máxima verosimilitud de π:
Figura 8. Función de verosimilitud de π.
Fuente: elaboración propia (2020).
Verosimilitud de la binomial
–
Más generalmente, si X es una variable aleatoria que sigue una distribución binomial, “X ~ Bin (n,π)”,
entonces el estadístico X/n es el estimador de máxima verosimilitud ÎÎ , de π; y x/n es la estimación de
máxima verosimilitud, ^π, de π.
Notas:
1.L es la verosimilitud (likelihood en inglés).
2.P(x\θ) puede ser una probabilidad (distribución discreta) o una densidad (distribución continua); para esta función, θ es
fijo, ya que la probabilidad o densidad se evalúa sobre valores de x condicionales al valor fijo de θ.
3.L(θ\x) es una función de θ; para esta función, x es fijo, ya que la verosimilitud se evalúa sobre los valores de θ, condicional
al valor fijo de x.
4. La probabilidad no es una función de densidad de probabilidad.
Log -verosimilitud
–
La estimación de máxima verosimilitud de un parámetro θ puede obtenerse maximizando la verosimilitud
L( θ\datos) o el log-verosimilitud l( θ\datos) (ya que l cambia en la misma dirección L). Convencionalmente,
la estimación de máxima verosimilitud se denota poniendo un acento circunflejo en el parámetro: θ . El log-
verosimilitud suele ser una función más fácil de diferenciar, por lo que la estimación de máxima
verosimilitud generalmente se puede calcular como la solución de:
6. Consistente.
Lección 4 de 6
IV. Resumen
Contraste de hipótesis: procedimiento que permite sacar conclusiones acerca de una hipótesis sobre un
parámetro de la población con cierto nivel de confianza prefijado.
El test A/B básicamente es una metodología de comparación de múltiples versiones de una determinada
variable, una landing page, un determinado botón, etc., lo que muestra las diferentes versiones a los
clientes o posibles clientes y evalúa la calidad de la interacción mediante alguna métrica. Cada vez que
se quieran probar múltiples variaciones de un determinado output y realizar experimentos, el test AB es
una opción muy interesante.
Lección 5 de 6
I. PROBLEMA INVESTIGACIÓN
ENUNCIADO
5 000 restaurantes han comprado fruta de temporada en el último mes a unos grandes almacenes. Se
desea tomar una muestra para estimar la compra media. Se quiere que dicha estimación tenga un error
máximo de dos kilos y se busca un nivel de confianza del 90 %. Con una muestra piloto de 40
restaurantes, se ha obtenido una media de 168,5 kg con una desviación típica de 20,5 kg.
SE PIDE
ENUNCIADO
La empresa XYZ es un sitio de comercio electrónico mundial con versiones localizadas del sitio. Un
científico de datos en XYZ notó que los usuarios con sede en España tienen una tasa de conversión
mucho más alta que cualquier otro país de habla hispana.
SE PIDE
Confirmar que la prueba es realmente negativa. Es decir: parece que la versión anterior del sitio con
una sola traducción en España y Latinoamérica funciona mejor que la actual.
Explicar por qué eso podría estar sucediendo. ¿Suficiencia muestral? ¿Sesgo de selección?
ENUNCIADO
Suponiendo que la empresa está en un proyecto de creación de un producto, una de las tareas del
proyecto es realizar una encuesta de opinión sobre el grado de aceptación que tendría este nuevo
producto en el mercado. El coste de la encuesta depende del número n de entrevistas que se realicen y
el error de las proporciones de las contestaciones disminuye cuando n aumenta. Como no se sabe
cuánto dinero está dispuesta a invertir la empresa, tabular los tamaños muestrales para los errores 5 %,
3 %, 2 %, 1 %, y para niveles de confianza 0,95 y 0,99, suponiendo el peor caso.
SE PIDE
Añadir un comentario para que el equipo de dirección del proyecto, en el que hay componentes
ignorantes en materia de encuestas, para que vean cómo quedarían redactados los datos técnicos de la
encuesta y puedan decidir el tamaño de muestra leyendo el informe.
IV. PROBLEMA DE AUDIENCIA DE LA TELEVISIÓN
ENUNCIADO
Se han medido los siguientes valores (en miles de personas) para la audiencia de un programa de
televisión en distintos días (supuestos igualmente distribuidos e independientes):
521, 100, 593, 535, 488, 317, 206, 639, 866, 624
SE PIDE
Construir un intervalo de confianza del “$90$\%” para la audiencia poblacional media y otro para la
varianza poblacional, bajo la hipótesis de que la población de audiencias sigue una ley normal.
V. CAMPAÑA DE MARKETING
ENUNCIADO
Una empresa dedicada a la fabricación de cervezas realizó una campaña de marketing a dos muestras
independientes de clientes, en Madrid y Barcelona, para vender una nueva cerveza con sabor de cereza.
La campaña de Madrid tuvo un tamaño “n_1=500” y 200 clientes compraron, mientras que en Barcelona
se realizó la campaña a “n_2=750” y se obtuvo un resultado de 210 ventas.
SE PIDE
Construir una matriz dos por dos que contenga en filas los valores de Madrid y Barcelona y por
columnas las respuestas sí y no.
Con la función “prop.test” contrastar si las proporciones por ciudades son iguales o distintas.
Resolver el contraste con el p-valor y obtener e interpretar un intervalo de confianza del 95 para la
diferencia de proporciones.
Hay que verificar la información de las etiquetas de las fábricas de bombillas. En este caso, se está
analizando a una empresa que afirma que la duración media de las bombillas que fabrica es de más de
10 000 horas. En una muestra de 30 bombillas, se encontró que sólo duran 9 900 horas en promedio.
SE PIDE
Suponiendo que la desviación estándar de la población es de 120 horas, con una significación
estadística del 0,05, ¿se puede rechazar la afirmación del fabricante? ¿Se daría por buena?
dataset-37830_wage.zip
40.1 KB
test_table.zip
3.2 MB
user_table.zip
2.8 MB
VER SOLUCIÓN
SOLUCIÓN
La solución de este caso práctico se encuentra en el archivo que puedes descargar a continuación.
VI. Glosario
Estimación puntual
–
Valor concreto obtenido a partir de los datos de la muestra para estimar el valor deseado.
Intervalo de confianza
–
Rango de valores entre los cuales podemos estar seguros de que se encuentra un parámetro de la
población con cierto nivel de confianza prefijado.
Contraste de hipótesis
–
Procedimiento que permite sacar conclusiones acerca de una hipótesis sobre un parámetro de la
población cierto nivel de confianza prefijado.