UD4 Inferencia

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 68

Inferencia

I. Introducción y objetivos

II. Inferencia

III. Verosimilitud

IV. Resumen

V. Caso práctico con solución

VI. Glosario
Lección 1 de 6

I. Introducción y objetivos

1.1. Introducción de la unidad

La inferencia estadística plantea un problema opuesto al del tema anterior, que trataba sobre cómo calcular
la probabilidad de ciertos sucesos aleatorios y elegir una muestra representativa de la población.

La inferencia estadística tiene como objetivo obtener conclusiones de la población de estudio a partir de la
información proporcionada por la muestra seleccionada.

Por ejemplo, si se quiere estimar la media de los ingresos anuales de los españoles y se selecciona una
muestra de 100 personas: ¿qué valor se utiliza para estimar la media poblacional? Si la media de la muestra
es 1 200 €, se puede afirmar que la media poblacional es “aproximadamente 1 200 €”. Sin embargo, no se
puede decir que el valor de la media poblacional sea exactamente 1 200 € ya que habitualmente la media
poblacional no coincide exactamente con la media muestral.

A la estimación realizada a través de la muestra se le llamará “estimación puntual”. Los estimadores


puntuales solo dan una idea aproximada del verdadero valor del parámetro a estimar, sin saber cómo de
fiable es tal aproximación. Sin embargo, habitualmente se realizan afirmaciones sobre la población general
con cierto nivel de confianza (fijada previamente) a través de los intervalos de confianza y los contrastes de
hipótesis.

El principal objetivo de la inferencia es utilizar la información de la muestra para sacar conclusiones acerca
de la población a estudio.

Hay dos herramientas que permiten obtener conclusiones sobre la población de estudio a partir de la
información proporcionada por los datos de la muestra: los intervalos de confianza y los contrastes de
hipótesis.

I N T E R VA LO DE C O N F I A N Z A C O N T R A S T E DE HI PÓ T E S I S

Rango de valores entre los cuales se puede asegurar que se encuentra un parámetro de la población con
cierto nivel de confianza prefijado.

I N T E R VA LO DE C O N F I A N Z A C O N T R A S T E DE HI PÓ T E S I S

Procedimiento que permite sacar conclusiones acerca de una hipótesis sobre un parámetro de la población
con cierto nivel de confianza prefijado.
Figura 1. Proceso de inferencia.
Fuente: elaboración propia (2020).

C O NT I NU A R

1.2. Objetivos de la unidad


En esta unidad se presentan los conceptos básicos de probabilidad e inferencia. Al final de esta sesión, el
alumno poseerá las siguientes habilidades:

1 Entender el concepto de intervalo de confianza.

2 Conocer los diferentes contrastes de hipótesis.

3 Aplicar la inferencia para sacar conclusiones acerca de la población de estudio.

4 Conocer los tipos de test A/B.

5 Saber realizar en R los diferentes contrastes aprendidos en esta unidad.


Lección 2 de 6

II. Inferencia

A continuación, se detallan las dos herramientas que permiten obtener conclusiones sobre la población de
estudio a partir de la información proporcionada por los datos de la muestra: los intervalos de confianza y los
contrastes de hipótesis.

2.1. Intervalos de confianza

La estimación puntual se define como una estimación proporcionada por los datos de la muestra para un
parámetro de población desconocido, como puede ser la media o la proporción.

Por el contrario, los intervalos de confianza, aunque también estimados a partir de los datos de la muestra,
se definen como una región alrededor de la estimación puntual que contiene el parámetro de la población
con una cierta probabilidad.

El intervalo de confianza es una medida de cómo de precisa es la


estimación del parámetro: cuanto más estrecho sea el intervalo de
confianza, más se reduce el rango en el que existe confianza acerca
de la existencia del parámetro.

Por tanto, la estimación por intervalos trata de construir a partir de la muestra un intervalo dentro del cual se
supone que se encuentra el parámetro a estimar con un cierto grado de confianza. Para ello, se utilizan dos
estimadores, uno para el límite inferior del intervalo y otro para el límite superior. Estos límites se calculan a
través de los estadísticos obtenidos en la muestra (por ejemplo: la media y la desviación estándar) que
tienen una distribución en el muestreo. Si seleccionáramos varias muestras diferentes, se calcularían
intervalos de confianza diferentes. La probabilidad con la que el intervalo contiene el parámetro población y
que determina el nivel del intervalo de confianza (por ejemplo, 95 %) se basa en esta distribución de
muestreo.

El nivel de confianza, expresado como un porcentaje, se define como la probabilidad a priori de que el
intervalo basado en la muestra seleccionada contenga el verdadero valor de la población. En otras palabras:
si se repitiese el proceso de muestreo infinitas veces, el nivel de confianza sería la proporción de intervalos
que contendrían el valor verdadero de parámetro poblacional.

Para que un intervalo sea útil, su nivel de confianza debe ser alto:

1 − α = 0,90 o α = 0,10

1 − α = 0,95 o α = 0,05

1 − α = 0,99 o α = 0,01

Siempre que 0,95 (95 %) sea el nivel de confianza más común y 0,99 (99 %) en casos críticos.

Cuando un intervalo calculado es amplio, implica que los datos han proporcionado poca información sobre el
parámetro, mientras que un intervalo estrecho resulta de los datos que proporcionan información más
precisa sobre el parámetro.

C O NT I NU A R

2.1.1. Cálculo de los intervalos de confianza


Como ya se ha comentado, para calcular un intervalo de confianza se suele partir de un estimador puntual
del que se conoce su distribución en el muestreo.

A partir de este estimador, se calculan los límites superior e inferior del intervalo sobre su distribución y se
buscan los valores que dejan encerrada una probabilidad 1 − α. Los intervalos de confianza se suelen
construir de forma simétrica, de manera que el límite inferior deje una probabilidad acumulada inferior α/2 y
el límite superior deje una probabilidad acumulada superior también de α/2.

Figura 2. Distribución normal.


Fuente: elaboración propia (2020).

Se ilustrará de forma intuitiva la construcción del intervalo de confianza para la media de una población y se
aprenderá a calcular el resto con R y su interpretación. Todos los intervalos de confianza aquí planteados se
calculan de forma similar basándose en sus respectivas distribuciones el muestreo, por lo que solo se
mostrará el cálculo en R y su interpretación.

Para los ejemplos en R, se utilizará una base con información sobre el salario diario de 3 000 individuos
(dataset-37830_wage.csv).
dataset-37830_wage.zip
40.1 KB

C O NT I NU A R

2.1.2. Construcción teórica del intervalo de confianza para una media

Si se quisiera determinar el gasto medio diario en la cafetería de los empleados de una empresa
multinacional, la población de estudio sería el total de empleados de la empresa multinacional. El
parámetro poblacional de interés es el gasto medio en la cafetería de los empleados. A la media de una
variable cuantitativa en la población se la denotaría como μ. Dado que por razones prácticas y financieras
no se puede acceder a todos los empleados de la empresa multinacional, sse ha seleccionado una
muestra de 160 empleados a los que se les ha medido el gasto.
En los 160 empleados de la muestra, el gasto medio (͠ ͞x ) es 9,7 € y la desviación estándar (σ) es 1,9 €.

Si se hubiera seleccionado una muestra diferente, se habría obtenido una media y una desviación
estándar diferente debido a lo que se conoce como variación en el muestreo, es decir: debido a la
variabilidad que se observa al estudiar muestras en lugar de poblaciones.
Si, en lugar de una única muestra, se seleccionaran 1000 muestras de tamaño 160 de la población, se
calculara la media de gasto en cada una de las 1000 muestras y se representasen las 1000 medias de
gasto en un histograma, se obtendría la distribución en el muestreo de la media muestral.

Figura 3. Histograma de la media de gasto en 1 000 muestras.

Fuente: elaboración propia (2020).

Si se seleccionasen 10 000 muestras de tamaño 160 de la población, la distribución en el muestreo de


las 10 000 medias tendría la siguiente forma:

Figura 4. Distribución en el muestreo de la media de gasto.

Fuente: elaboración propia (2020).


Por el teorema central del límite, se sabe que si el tamaño muestral (n) es lo suficientemente grande:

La distribución en el muestreo de las medias es aproximadamente normal.

La media de la distribución en el muestreo de las medias es la media poblacional (µ)

La desviación estándar de la distribución en el muestreo de las medias, conocida como error


estándar (EE), es la desviación estándar poblacional (σ) dividida por la raíz cuadrada del
tamaño muestral:

A continuación, se ilustrará la construcción teórica del intervalo de confianza al 95 % para la media de una
población. Un intervalo de confianza para la media de una variable cuantitativa en la población de la que se
extrajo la muestra es un rango de valores obtenidos a partir de los datos de la muestra, dentro de los cuales
se encuentra con total seguridad la media de la variable cuantitativa en la población.

La distribución en el muestreo de las medias, X, es aproximadamente:

En la mayoría de las situaciones no se sabe la desviación estándar poblacional (σ). Sin embargo, cuando el
tamaño muestral es suficientemente grande (n>60), en su lugar se utilizará la desviación estándar muestral
(s), y se calculará un intervalo de confianza al 95 % para una media con la siguiente fórmula:
En este ejemplo, un intervalo de confianza al

95 % para el gasto medio en cafetería de los empleados de una empresa multinacional se calcularía como:

Se tiene una seguridad al 95 % de que el gasto medio en cafetería de los empleados de una empresa
multinacional está entre 9,41 y 9,99 €.

La fórmula general para calcular un intervalo de confianza al 95 % de un parámetro poblacional es:

Se puede calcular un intervalo de confianza de una media a un nivel de confianza distinto del 95 %; por
ejemplo, al 90 o 99 %. Para ello, basta con cambiar el valor 1,96 por el punto de la distribución normal
estándar, que deja en las colas una probabilidad del 10 % o 1 %, respectivamente:

Un intervalo de confianza será más preciso cuanto más estrecho sea, es decir: cuanto menor sea la
distancia entre el límite superior y el límite inferior.

Existen dos alternativas para disminuir la amplitud de un intervalo de confianza: aumentar el tamaño de la
muestra o disminuir el nivel de confianza. La primera es la opción más recomendable ya que: “cuanto más
grande es una muestra, más información proporciona y más precisas son las conclusiones obtenidas a
partir de ella”.

Muestras pequeñas

Si el tamaño muestral es pequeño (n<60), la desviación estándar muestral, s, puede no ser un buen
estimador de la desviación estándar poblacional, σ. Por este motivo, se utiliza la distribución t de student, en
lugar de la distribución normal, para calcular un intervalo de confianza para la media.

La mayoría de los programas estadísticos utilizan, de forma general, la distribución t de student para el
cálculo de intervalos de confianza para una media. La razón es que la distribución t de student es la
apropiada si el tamaño muestral es pequeño, y se aproxima a la normal estándar si el tamaño muestral es
grande.

La t de student es una distribución continua simétrica determinada por un parámetro conocido como grados
de libertad: tn es una distribución t de student con n grados de libertad.

Figura 5. Distribución t de student con diferentes grados de libertad.


Fuente: elaboración propia (2020).

La fórmula para el cálculo de un intervalo de confianza al 95 % para una media viene dado por:
Donde tn-1 es el punto de la distribución t de student con n-1 grados de libertad que deja en las colas una

probabilidad del 5 %.

C O NT I NU A R

2.1.3. Cálculo de intervalo de confianza en R

Intervalos para una población:

Intervalo para la media de una población

La función “t.test” se usa para calcular intervalos de confianza para la media y diferencia de medias, con
muestras independientes y dependientes (o pareadas).

La función y sus argumentos son los siguientes:

Para calcular intervalos de confianza para la media se utilizará la función “t.test”. Es necesario definir dos
argumentos:

x: vector numérico o variable con los datos de interés.


“conf.level”: nivel de confianza a usar. Por defecto es 0,95.

El resto de los argumentos se usan cuando se desea obtener intervalos de confianza para diferencia de
media con muestras independientes y dependientes (o pareadas).

Ejemplo

Se desea calcular el intervalo de confianza al 95 % y 99 % de confianza de la


variable salario (los datos utilizados, wage, pueden encontrarse entre los
recursos del campus).

Se puede asegurar al 95 % que el salario de la población de trabajadores


esta entre 110,10 y 113,19 $.
Se puede asegurar al 90 % que el salario de la población de trabajadores
esta entre 110,45 112,95 $.
Al disminuir el nivel de confianza, el intervalo de confianza se hace más
estrecho..

Intervalo para una proporción de una población


Utilizaremos la función prop.test para calcular intervalos de confianza para la proporción y diferencia de
proporciones. La función y sus argumentos son los siguientes:

Para calcular intervalos de confianza para la proporción a partir de la función “prop.test” es necesario definir
tres argumentos: x considera el conteo de éxitos, n indica el número de eventos y “conf.level” corresponde al
nivel de confianza.

Ejemplo

Se desea calcular el intervalo de confianza para la proporción de empleados


con seguro de salud en la población de empleados.
Hay un 95 % de confianza en que la proporción de empleados con seguro de salud está entre 0,67 y 0,71 (67
% y 71 %).

Intervalos para la comparación de dos poblaciones:

Intervalo para la diferencia de medias de dos poblaciones independientes (µ1=µ2)

Ejemplo

Se desea calcular un intervalo de confianza al 95 % de la diferencia de


medias en el salario entre los que tienen seguro de salud y los que no. Para
construir intervalos de confianza para la diferencia de medias de muestras
independientes se usa la función “t.test” y es necesario definir cinco
argumentos:

“x∼y”: donde x es la variable continua e y es la variable categórica.

“paired=FALSE”: indica que el intervalo de confianza se hará para


muestras independientes; en el caso de que sean dependientes (o
pareadas) este argumento será “paired=TRUE”.

“var.equal=FALSE”: indica que las varianzas son desconocidas y


diferentes. Si las varianzas se pueden considerar iguales se
coloca “var.equal=TRUE”.

“conf.level”: nivel de confianza.


Se tiene un 95 % de confianza en que la diferencia de medias de salario entre
aquellos con seguro de salud y los que no está entre 24,99 y 30,84 $. Como
el intervalo de confianza no incluye al cero, se puede concluir con una
confianza al 95 % que SÍ existen diferencias en el salario entre aquellos con y
sin salario.

Intervalo para la diferencia de medias de dos poblaciones pareadas o relacionadas

Se dice que dos muestras o poblaciones están relacionadas o pareadas cuando se quieren comparar dos
mediciones sobre el mismo individuo.

Ejemplo

Un equipo de atletismo ha decidido contratar a un nuevo entrenador. Para


decidir si al cabo de un año mantienen su contrato, se seleccionan
aleatoriamente a 10 miembros del equipo y se cronometran sus tiempos en
100 metros lisos al inicio del año. Al final del año se volverá a cronometrar a
esos mismos 10 corredores. Se calculará un intervalo de confianza al 95 %
para la media de la diferencia entre el rendimiento antes y después.

Para construir intervalos de confianza bilaterales para la diferencia de


medias de muestras dependientes a partir de la función “t.test” es necesario
definir cuatro argumentos:

x: vector numérico con la información de la muestra uno.

y: vector numérico con la información de la muestra dos.


“paired=TRUE” indica que el intervalo de confianza se hará para
muestras dependientes o pareadas.

“conf.level”: nivel de confianza.

Se sabe con el 95 % de confianza que la media de las diferencias en los


tiempos antes y después está entre -0,58 y 0,48. Como el intervalo de
confianza incluye al valor “cero”, se puede asegurar al 95 % de confianza que
el rendimiento de los atletas no ha cambiado.

Intervalo para la diferencia de proporciones de dos poblaciones

Para construir intervalos de confianza bilaterales para la proporción a partir de la función “prop.test” es
necesario definir tres argumentos:

x: vector con el conteo de éxitos de las dos muestras.

n: vector con el número de ensayos.

“conf.level”: nivel de confianza.

Ejemplo

Se quiere calcular el intervalo de confianza para la diferencia en el porcentaje


de personas con buena salud entre los que tiene seguro de salud y los que
no.
Hay un 95 % de confianza en que la diferencia del porcentaje de personas
con muy buena salud va entre 0,04 y 0,10. Como el intervalo de confianza no
incluye al cero, hay una seguridad del 95 % de confianza en que sí hay
diferencias el porcentaje de empleados con muy buena salud entre los que
tiene seguros de salud y los que no; por lo tanto, son muestras
desequilibradas.

C O NT I NU A R

2.2. Contrastes de hipótesis


En muchas ocasiones, el objetivo de un análisis estadístico será verificar, basándose en la información de la
muestra, una hipótesis formulada sobre un parámetro de la población de estudio. Por ejemplo, el objetivo es
verificar si el gasto familiar en alimentación de una familia es igual a
200 €.

Tal y como se explicaba en el apartado anterior, en general nunca se sabrá con absoluta certeza si una
hipótesis estadística es cierta o falsa, ya que para ello habría que estudiar a todos los individuos de la
población.

Para comprobar la veracidad o falsedad de estas hipótesis, hay que contrastarlas con los resultados
obtenidos de las muestras. Si los resultados observados en las muestras coinciden, dentro de un margen de
error admisible, con lo que cabría esperar en caso de que la hipótesis fuese cierta, la hipótesis se aceptará
como verdadera, mientras que en caso contrario se rechazará por ser falsa y se buscarán nuevas hipótesis
capaces de explicar los datos observados.

Como las muestras se obtienen aleatoriamente, la decisión de aceptar o rechazar una hipótesis estadística
se tomará sobre una base de probabilidad.

El contraste de hipótesis será un procedimiento cuyo objetivo es


determinar si una determinada hipótesis enunciada acerca de la
población es compatible o no con la información proporcionada por
la muestra.

Tipos de contrastes de hipótesis

Contrastes de bondad de ajuste



El objetivo es comprobar una hipótesis sobre la forma de la distribución de la población.

Por ejemplo, se desea comprobar si el número de pólizas de seguros vendidas por la oficina de Cáceres
siguen una distribución normal.

Contrastes de conformidad

El objetivo es comprobar si una hipótesis sobre si cierto parámetro de la población (por ejemplo, la media)
toma cierto valor que tenemos como hipótesis.

Por ejemplo, verificar si el número de pólizas de seguros vendidas en un mes es igual a 50.

Contrastes de homogeneidad e independencia



El objetivo es comparar un parámetro de la población en dos grupos diferentes.

Por ejemplo, ver si el número de pólizas vendidas en un mes en dos oficinas son iguales.
Pasos en la realización del contraste de hipótesis

Para ayudar a la compresión de la realización de contrastes de hipótesis se


explicarán los pasos acompañados con un ejemplo:
1

Se quiere determinar si el gasto medio en tarjeta de crédito en alimentación de


la población de 725 estudiantes de la que se extrajo una muestra de 150
personas es igual o diferente a 171,4 €.
2

La media del gasto en alimentación en la muestra de 150 individuos fue 169,6 €


y la desviación estándar 8,5 €.

De forma intuitiva, se observa que la media de gasto mensual en alimentación


de los 150 estudiantes de la muestra (169,6 €) no es exactamente igual a 171,4
€.
3

Sin embargo, no se sabe si la diferencia observada es una diferencia real o es


debida al error en el muestreo, ya que 169,6 € es solo un estimador de la
verdadera media de la población de estudiantes (recuérdese que si se extrajese
una nueva muestra se obtendría otra media muestral diferente).
4

Para determinar si la diferencia observada entre la media muestral y el valor


171,4 es una diferencia real en la población o se debe a la variación en el
muestreo, se realiza un contraste de hipótesis.
El primer paso en la realización de un contraste de hipótesis es el
planteamiento de las hipótesis.

Establecer la hipótesis nula (H0) e hipótesis alternativa (H1)

En la mayoría de los casos un contraste supone tomar una decisión entre dos hipótesis antagonistas:

La hipótesis nula H0 es la hipótesis de partida (la que se contrasta). Debe recoger el hecho que
se quiera someter a prueba. La hipótesis nula se suele plantear en términos de igualdad:

La hipótesis alternativa H1 es la que, como su nombre indica, se ofrece como alternativa a la


nula. Esta hipótesis, representa que se ha producido un cambio con respecto a la situación
descrita por la hipótesis nula.

La hipótesis alternativa se puede establecer de tres maneras, dependiendo del interés del investigador:
En el primer caso se habla de contraste bilateral y en los otros dos contrastes unilaterales (derecho en el 2º
caso, o izquierdo en el 3º).

Ejemplo

Hipótesis nula: el gasto medio mensual en alimentación de la población de


estudiantes es igual a 171,4 €

Hipótesis alternativa: el gasto medio mensual en alimentación de la


población de estudiantes es diferente a 171,4:

Cálculo del test estadístico de contraste y cálculo del p-valor

Una vez planteadas la hipótesis nula y alternativa, se debe tomar una decisión a partir de las observaciones.
Existen dos decisiones posibles:

1) Aceptar la hipótesis nula.


2) Rechazar la hipótesis nula.
A partir de la información proporcionada por la muestra, se debe decidir si los datos son o no compatibles
con la hipótesis nula. En el ejemplo se debe decidir si los datos son compatibles con la hipótesis de que el
gasto medio mensual en alimentación en la población de la que se extrajo la muestra es igual a 171,4 €.

Se debe calcular cómo de probable sería observar el valor de la media muestral que se ha observado, o uno
más extremo, si la hipótesis nula fuera cierta.

Para calcular esta probabilidad, se deben aplicar los conocimientos adquiridos en la unidad anterior sobre
cómo calcular probabilidades tomando como base la distribución normal.

Según las propiedades de la distribución en el muestreo de la media muestral, se establece que, si la


hipótesis nula fuera cierta, la media muestral

El primer paso para calcular la probabilidad de que la media estimada sea mayor o igual que la media de
referencia, consiste en calcular la puntuación z correspondiente.

El valor z que se acaba de calcular se conoce con el nombre de test estadístico.

Cálculo del p-valor

La probabilidad de observar una media de la variable cuantitativa como la observada en la muestra, o más
extrema. Si la hipótesis nula fuera cierta se conoce como p-valor.
Ejemplo

Si la hipótesis nula fuera cierta, es decir, si la media poblacional del gasto


fuera 171,4 €, ¿cuál es la probabilidad de que observar un valor de media
muestral de 169,6 € o más extremo?

Este valor, conocido como p-valor unilateral, indica cómo de probable sería
encontrar una puntuación z menor o igual que -2,57. Dado que una
puntuación en el otro extremo de la curva normal mayor o igual que 2,57,
también iría a favor de la hipótesis alternativa; el procedimiento general
consiste en multiplicar por dos el p-valor unilateral, con lo que se obtiene el
p-valor bilateral o, simplemente, p-valor.
Figura 6. P-valor bilateral.
Fuente: elaboración propia (2020).

La probabilidad de observar un gasto medio en la muestra de 169,6 €, si la hipótesis nula fuera cierta (es
decir, la muestra se obtuvo de una población cuyo gasto medio es 171,4), es 0,01016.

Es poco probable que la muestra se haya obtenido de una población cuyo gasto medio es 171,4. Se rechaza
la hipótesis nula, es decir: no es posible asumir que el gasto medio de la población de estudiantes sea 171,4.

Interpretación del p-valor

Conforme el p-valor es más pequeño, mayor es la evidencia en contra de la hipótesis nula (Figura 7.):
Figura 7. Interpretación del p-valor.
Fuente: elaboración propia (2020).

Habitualmente, aunque es algo arbitrario, se adopta nivel de significación α= 0,05 como punto de corte por
debajo del cual se considera que se dispone de suficientes evidencias para rechazar la hipótesis nula,
concluyendo que la asociación es estadísticamente significativa. Si el p-valor es superior a 0,05, se
considera que es muy probable que las diferencias observadas se deban únicamente al azar, por lo que la
asociación no es estadísticamente significativa.

Cuando se realiza un contraste de hipótesis, pueden darse dos situaciones posibles:

a) La hipótesis nula es cierta.


b) La hipótesis nula es falsa.

Esto hace que, una vez realizado el contraste de hipótesis, se puedan cometer dos clases de errores
diferentes:

Aceptar la hipótesis nula cuando esta es falsa.

Rechazar la hipótesis nula cuando es cierta, tal como se ve en la tabla siguiente:


Hipótesis verdadera (realidad)

H0 es cierta H0 es falsa

Decisión tomada Aceptar H0 Decisión correcta Error tipo II (β)

Error tipo I (nivel de Decisión correcta


Rechazar H0
significación α) Potencia (1-β)

Error de tipo I (nivel de significación α): es la probabilidad de rechazar la hipótesis nula siendo esta
verdadera.

Error de tipo II: es la probabilidad de aceptar la hipótesis nula siendo esta falsa.

Potencia: capacidad del test para detectar una asociación cuando existe.

Los errores tipo I y II son inversamente proporcionales, es decir: cuando uno aumenta, el otro disminuye. La
única forma para disminuir los dos es aumentando el tamaño muestral.

C O NT I NU A R

2.2.1. Construcción de intervalos de confianza en R

Pruebas de conformidad:
Contraste para la media de una población (variable cuantitativa)

Para realizar este contraste de hipótesis, se utilizará la función “ttest”. En este caso, se debe prestar
especial atención a los argumentos:

alternative: tipo de hipótesis alterna. Los valores disponibles son "two.sided" cuando la hipótesis
alternativa es “≠”, "less" para el caso “<” y "greater" para “>”.

mu: valor de referencia de la prueba.

Ejemplo

Se quiere estudiar si la media de salario de los empleados es igual o


diferente a 130 $ diarios.
En primer lugar, se plantea la hipótesis nula y alternativa:
El p-valor es “<2.2e-16 < 0.05(alfa)”, por lo que hay suficiente evidencia para
rechazar la hipótesis nula de que la media poblacional es igual a 130.

Contraste para una proporción de una población (variable dicotómica)

Para realizar este contraste de hipótesis se utiliza la función “prop.test”. En este caso, se debe prestar
especial atención a los argumentos:

alternative: tipo de hipótesis alterna. Los valores disponibles son "two.sided" cuando la hipótesis
alternativa es “≠”, "less" para el caso “<” y "greater" para “>”.

p: valor de referencia de la prueba.

correct: valor lógico para indicar si se usa la corrección de Yates.

Ejemplo
Se quiere estudiar si la proporción de empleados con seguro de salud es
igual al 70 %.
En primer lugar, se plantea la hipótesis nula y alternativa:

El p-valor es 0,2491 > 0,05 (nivel significación alfa) por lo que NO hay
suficiente evidencia para rechazar la hipótesis nula de que la proporción
poblacional es igual al 70 %.

Pruebas de homogeneidad:

Contraste de comparación de medias de dos poblaciones independientes (variable


cuantitativa y variable dicotómica)
Para realizar este contraste, se debe utilizar la función “ttest” prestando especial atención a los argumentos:

“var.equal=TRUE”: indica que las varianzas son desconocidas pero iguales.

“mu=0”: la hipótesis nula será que la diferencia de medias es igual a cero.

Ejemplo

Se quiere contrastar si la media del salario en los empleados de la población


de la que se extrajo la muestra es igual entre aquellos que tienen seguro de
salud y los que no.
El p-valor es < 0,05, por lo que hay suficiente evidencia para rechazar la
hipótesis nula de que la diferencia de las medias de salario entre los que
tienen seguro y lo que no es igual a cero. Se puede concluir que existen
diferencias significativas en el salario entre los que tienen seguro y los que
no.

Contraste de comparación de medias de dos poblaciones pareadas o relacionadas

Para realizar este contraste, habrá que utilizar la función “t.test” y la opción “PARIED=TRUE” y “mu=0”.

Ejemplo

Un equipo de atletismo ha decidido contratar a un nuevo entrenador. Para


decidir si al cabo de un año mantienen su contrato, se selecciona
aleatoriamente a 10 miembros del equipo y se cronometran sus tiempos en
100 metros lisos al inicio del año. Al final del año se volverá a cronometrar a
esos mismos 10 corredores. En vista de los datos obtenidos, ¿hay
diferencia significativa entre el rendimiento de los corredores tras un año de
entrenar con el nuevo instructor?
El p-valor es 0,8358 > 0,05, por lo que no hay evidencia suficiente para
rechazar la hipótesis nula de que la media de la diferencia entre antes y
después es igual a cero.

Contraste chi-cuadrado para la asociación entre dos variables categóricas

Para estudiar la asociación entre dos variables categóricas, se utiliza la función “chisq.test”.

Ejemplo
En la población de empleados de la que se extrajo la muestra se quiere
comprobar si existe asociación entre la raza (blanco, negro, asiático) y el
nivel de estudios (bajo, medio, alto).

El p-valor es menor a 0,05, por lo que hay suficiente evidencia para rechazar
la hipótesis nula de NO asociación.

C O NT I NU A R

2.3. TEST A/B


La tasa de conversión media de un sitio de comercio electrónico suele ser de entre un 1 % y un 3 %. Lo cierto
es que el proceso de conversión es complejo, ya que influyen muchos factores para su éxito, como la
calidad del tráfico generado, la experiencia de usuario, la calidad de la oferta, la reputación del sitio web, las
acciones de la competencia, etc.

Hay multitud de elementos que se consideran barreras para la conversión; puntos de fricción que el
vendedor debería evitar o disminuir al máximo.
Cabe preguntarse si el modelo que se implementó o la acción sobre un determinado segmento de clientes
después de extraer conclusiones de un análisis estadístico tuvo algún tipo de impacto, o bien si el escenario
que se implementó fue mejor que cualquier otro alternativo. El test A/B es una metodología muy interesante
que permite poder testar infinidad de modelos y ver si realmente funcionan o no.

El test AB básicamente es una metodología de comparación de múltiples versiones de una determinada


variable, una landing page, un determinado botón, etc. Elementos que muestran las diferentes versiones a
los clientes o posibles clientes y evalúan la calidad de la interacción mediante alguna métrica. Sirve, por
tanto, para probar múltiples variaciones de un determinado output y realizar experimentos.

En resumen, se necesitará:

Especificar una hipótesis alternativa: esto es lo que se piensa que sucederá. Por ejemplo: la
variante B funcionará un 20 % mejor que la variante A.

Especificar la hipótesis nula: se basará en la asunción que no existe ninguna diferencia entre
la variante B y la variante A.

Variable objetivo o dependiente: esto significa decidir lo que la variable pretende. Ejemplos de
ello puede ser conseguir que alguien haga clic en la siguiente página, ponga más cosas en el
carrito de compra virtual o cualquier otro elemento que implique múltiples variaciones de una
acción. Sea cual sea esa llamada a la acción o métrica, se usará para interpretar el
rendimiento de las variaciones.

Variables independientes: al diseñar cualquier experimento, se deberá definir qué variables


independientes o explicativas se desea utilizar para predecir la variable dependiente; en el
caso de test AB, la variable explicativa de la variación de la variable dependiente es
simplemente qué versión de la campaña o página se muestra para conducir a qué resultado.

Otro aspecto clave a la hora de diseñar un test AB es el aspecto temporal.


 Es importante que las variantes se distribuyan a los clientes durante el mismo
período de tiempo. El tiempo es un buen ejemplo de algo en lo que hay que
estandarizar en lugar de dejar que la estacionalidad juegue un papel en el resultado
del experimento. Cuando se lleve a cabo un experimento, debe hacerse para todas y
cada una de las variantes.

Una vez definidos todos estos puntos, la siguiente pregunta a hacerse es: ¿cuántas muestras de cada
variante se necesitan para tener resultados estadísticamente significativos?

Para determinar esto, se realiza un análisis de potencia. La idea del análisis de potencia es que identifica el
tamaño de muestra necesario con base en una serie de parámetros; cosas la probabilidad de que la
hipótesis nula sea rechazada cuando la hipótesis alternativa es verdadera (es decir, la probabilidad de no
cometer un error del tipo II), el p valor, el número de variantes, y el tamaño de la diferencia entre la medición
de los dos grupos, etc. La razón por la que se hace esto es para asegurar que no se haga un experimento tan
largo que muchos de los clientes tengan que ver la peor versión, pero aun así que sea suficiente como para
obtener resultados fiables.

Formalmente:

k - número de variantes: tantas como se quiera, pero al menos dos. Una cosa a tener en cuenta
es que cuantas más variantes, más datos se necesitan.

n - tamaño de la muestra por grupo: se deja como valor nulo, puesto que es el elemento que se
trata de averiguar.

f - diferencia observada entre los grupos que queremos validar: cuanto mayor sea la diferencia,
menor será la muestra requerida.

Nivel de significación: p-valor a utilizar. Típicamente se acepta un resultado que sea


estadísticamente significativo al 0,05.
Potencia estadística: si la hipótesis es cierta, ¿cuál es la probabilidad de que sea aceptada? El
estándar es típicamente 0,8.

Ejemplo

Hay un 10 % de probabilidades de que la gente que vio el botón lo pulse. Con


la modificación propuesta, se espera un cambio del 2 % en la tasa de clics.
La potencia que se le asigna al test A/B es del 80 % y se exige que sea
estadísticamente significativo al 0,05.

Se necesita una muestra de al menos 3841 observaciones para cada


escenario para detectar si efectivamente el cambio producido es del 2 %.
Tómese el supuesto de que se ha lanzado el test y se ha obtenido el número
total de muestras y el número total de aciertos para cada uno de los grupos.
Dadas estas variables, pueden ser utilizadas para calcular si el cambio ha
sido debido a la implementación del escenario o no.

El cambio debería ser mayor que el mínimo cambio detectable, es decir: en


nuestro caso, se ha definido que el cambio debe ser del 2 %. En los
resultados de arriba se puede comprobar que el intervalo de confianza se
encuentra por encima de ese 2 % (está entre 2,02 % y 3,7 %), por lo que,
definitivamente, y según este pequeño test realizado, sí se lanzaría el cambio
de botón.
C O NT I NU A R

2.3.1. ¿Qué tipos de sitios realizan A/B testing?


Todos los sitios web pueden beneficiarse del A/B testing debido a que cada uno de ellos tiene un objetivo
medible, pero principalmente este tipo de análisis se usa en:

LE A D G E N E R AT I O N M E DI O S E-COMMERCE

Las páginas de lead generation o generación de leads son aquellas destinadas a las ventas de servicios,
principalmente, o a la búsqueda de clientes potenciales. Los test A/B permiten probar varias versiones de la
página para ver cuál funciona mejor.

LE A D G E N E R AT I O N M E DI O S E-COMMERCE

En el testing editorial, en sitios web de mucho contenido, los test suelen estar enfocados a comprobar el
éxito de un tipo de contenidos en particular o a personalizar el contenido para cada tipo de usuario.

LE A D G E N E R AT I O N M E DI O S E-COMMERCE
Algunos de los elementos más comúnmente optimizados son la página de inicio, los elementos de la ficha
de producto, las descripciones de producto o incluso los botones y sus mensajes.
Lección 3 de 6

III. Verosimilitud

En estadística, la función de verosimilitud es una función de los parámetros de un modelo estadístico que
permite realizar inferencias acerca de su valor a partir de un conjunto de observaciones. Es un concepto muy
utilizado en el campo del aprendizaje automático, donde se utiliza para determinar qué valores de los
parámetros de un modelo serían aquellos que mejor explicarían un conjunto de datos observados.

En el contexto de la probabilidad elemental, se puede ver la verosimilitud de la siguiente manera:

Generalmente se da la probabilidad de un evento simple, por


ejemplo, “prob(cara en el lanzamiento de una moneda) = 0,5”; y se
requiere para calcular la probabilidad de un evento complejo:
“prob(observar cuatro caras si se lanza la moneda 10 veces)”.

En el contexto de la inferencia estadística, la situación es al revés: no se conoce la probabilidad de un evento


simple, “prob(cara en el lanzamiento de una moneda)”, pero se ha observado un evento complejo, por
ejemplo: se ha lanzado 10 veces una moneda y se han observado cuatro caras. A partir de esto, se necesita
obtener la mejor estimación de la probabilidad del evento simple que es desconocido. También se necesita
saber cómo de buena es la estimación de la probabilidad desconocida: ¿cuál es la incertidumbre asociada
con nuestra estimación? El concepto de verosimilitud proporciona un buen marco para esta tarea.
C O NT I NU A R

3.1. Verosimilitud y estimadores de máxima verosimilitud


Se introducen estas ideas usando un ejemplo: se observan cuatro eventos entre 10 sujetos. Se define un
modelo que supone que estos datos se extraen de una distribución binomial con el parámetro π:

Modelo: se asume que el número de eventos es una variable aleatoria X ~ Bin (10, π). El modelo también
supone que los eventos ocurren independientemente uno del otro.

Datos: se ha observado la realización de X, x = 4.

La probabilidad de observar estos datos, basada en este modelo y el parámetro desconocido π, tal y como
se vio en la unidad dos, es:

Dado que π es desconocido, es natural considerar cómo la probabilidad de observar estos datos varía con
diferentes valores de π:
Claramente, según el modelo, la probabilidad de obtener los datos observados es mayor si se elige que π sea
0,4 que si se elige 0,2 o 0,5. Por tanto, un estimador razonable de π, basado en los datos, parece ser ese
valor de π que produce la mayor probabilidad de obtener los datos observados. De hecho, de los valores de π
que se han elegido en la tabla, la probabilidad es más alta si se elige π = 0,4; intuitivamente, esto también es
sensato, ya que es la proporción muestral.

Resumen:

Se han observado los datos (cuatro eventos de 10 sujetos).

Se ha definido un modelo de probabilidad binomial en términos del parámetro π, en base al cual


se asume que los datos han sido muestreados; y se ha calculado la probabilidad de observar
los datos para varios valores de π.

Se ha elegido como un estimador sensible de π que produce la mayor probabilidad.


 Es importante tener en cuenta que la función que se está maximizando, aunque tiene
la misma apariencia algebraica que la probabilidad, es una función de X maximizada
con respecto a π.

Esta función se llama verosimilitud de π:

Se puede trazar la forma de esta función para valores de entre 0 y 1, como se muestra en la tabla. Teniendo
en cuenta que la distribución de probabilidad que se utiliza para generar los valores de esta función, para los
datos fijos observados X = 4, es discreta y bastante distinta de la función de probabilidad continua.

La gráfica confirma gráficamente que el valor de que maximiza la probabilidad es, de hecho 0,4; este valor
es, por lo tanto, la estimación de máxima verosimilitud de π:
Figura 8. Función de verosimilitud de π.
Fuente: elaboración propia (2020).

Verosimilitud de la binomial

Más generalmente, si X es una variable aleatoria que sigue una distribución binomial, “X ~ Bin (n,π)”,
entonces el estadístico X/n es el estimador de máxima verosimilitud ÎÎ , de π; y x/n es la estimación de
máxima verosimilitud, ^π, de π.

Definición general de verosimilitud



Para un modelo de probabilidad con el parámetro π, la probabilidad del parámetro π dados los datos
observados x se define como:

Notas:
1.L es la verosimilitud (likelihood en inglés).
2.P(x\θ) puede ser una probabilidad (distribución discreta) o una densidad (distribución continua); para esta función, θ es
fijo, ya que la probabilidad o densidad se evalúa sobre valores de x condicionales al valor fijo de θ.
3.L(θ\x) es una función de θ; para esta función, x es fijo, ya que la verosimilitud se evalúa sobre los valores de θ, condicional
al valor fijo de x.
4. La probabilidad no es una función de densidad de probabilidad.

Log -verosimilitud

La estimación de máxima verosimilitud de un parámetro θ puede obtenerse maximizando la verosimilitud
L( θ\datos) o el log-verosimilitud l( θ\datos) (ya que l cambia en la misma dirección L). Convencionalmente,
la estimación de máxima verosimilitud se denota poniendo un acento circunflejo en el parámetro: θ . El log-
verosimilitud suele ser una función más fácil de diferenciar, por lo que la estimación de máxima
verosimilitud generalmente se puede calcular como la solución de:

Propiedades de los estimadores de máxima verosimilitud



Se puede demostrar que los estimadores de máxima verosimilitud basados en una muestra del tamaño n
tienen algunas propiedades muy útiles, que se enumeran a continuación:

1. Asintóticamente insesgado: es decir, su sesgo tiende a cero al aumentar el tamaño muestral.

2. Asintóticamente eficientes: de todos los estimadores asintóticamente centrados, el de máxima


verosimilitud tiene menor varianza.

3. Asintóticamente normal: si el tamaño muestral es suficientemente grande se distribuye siguiendo


una normal.

4. Transformación invariante: el estimador máximo verosímil sigue siéndolo después de


trasformaciones.

5. Suficiente: contiene toda la información de los datos relevantes para estimar.

6. Consistente.
Lección 4 de 6

IV. Resumen

Repasa los conocimientos adquiridos en la unidad

El principal objetivo de la inferencia es utilizar la información de la muestra para sacar conclusiones


acerca de la población a estudio. Hay dos herramientas que permiten obtener conclusiones sobre la
población a estudio a partir de la información proporcionada por los datos de la muestra: los intervalos de
confianza y los contrastes de hipótesis.
Intervalo de confianza: rango de valores entre los cuales podemos estar seguros de que se encuentra
un parámetro de la población con cierto nivel de confianza prefijado.

Contraste de hipótesis: procedimiento que permite sacar conclusiones acerca de una hipótesis sobre un
parámetro de la población con cierto nivel de confianza prefijado.

El test A/B básicamente es una metodología de comparación de múltiples versiones de una determinada
variable, una landing page, un determinado botón, etc., lo que muestra las diferentes versiones a los
clientes o posibles clientes y evalúa la calidad de la interacción mediante alguna métrica. Cada vez que
se quieran probar múltiples variaciones de un determinado output y realizar experimentos, el test AB es
una opción muy interesante.
Lección 5 de 6

V. Caso práctico con solución

Aplica los conocimientos adquiridos en esta unidad

I. PROBLEMA INVESTIGACIÓN

ENUNCIADO

5 000 restaurantes han comprado fruta de temporada en el último mes a unos grandes almacenes. Se
desea tomar una muestra para estimar la compra media. Se quiere que dicha estimación tenga un error
máximo de dos kilos y se busca un nivel de confianza del 90 %. Con una muestra piloto de 40
restaurantes, se ha obtenido una media de 168,5 kg con una desviación típica de 20,5 kg.
SE PIDE

¿Qué tamaño de muestra se debe escoger?

II. PROBLEMA TEST A/B

ENUNCIADO

La empresa XYZ es un sitio de comercio electrónico mundial con versiones localizadas del sitio. Un
científico de datos en XYZ notó que los usuarios con sede en España tienen una tasa de conversión
mucho más alta que cualquier otro país de habla hispana.

SE PIDE
Confirmar que la prueba es realmente negativa. Es decir: parece que la versión anterior del sitio con
una sola traducción en España y Latinoamérica funciona mejor que la actual.

Explicar por qué eso podría estar sucediendo. ¿Suficiencia muestral? ¿Sesgo de selección?

III. PROBLEMA DE ENCUESTAS

ENUNCIADO

Suponiendo que la empresa está en un proyecto de creación de un producto, una de las tareas del
proyecto es realizar una encuesta de opinión sobre el grado de aceptación que tendría este nuevo
producto en el mercado. El coste de la encuesta depende del número n de entrevistas que se realicen y
el error de las proporciones de las contestaciones disminuye cuando n aumenta. Como no se sabe
cuánto dinero está dispuesta a invertir la empresa, tabular los tamaños muestrales para los errores 5 %,
3 %, 2 %, 1 %, y para niveles de confianza 0,95 y 0,99, suponiendo el peor caso.

SE PIDE

Añadir un comentario para que el equipo de dirección del proyecto, en el que hay componentes
ignorantes en materia de encuestas, para que vean cómo quedarían redactados los datos técnicos de la
encuesta y puedan decidir el tamaño de muestra leyendo el informe.
IV. PROBLEMA DE AUDIENCIA DE LA TELEVISIÓN

ENUNCIADO

Se han medido los siguientes valores (en miles de personas) para la audiencia de un programa de
televisión en distintos días (supuestos igualmente distribuidos e independientes):

521, 100, 593, 535, 488, 317, 206, 639, 866, 624

SE PIDE

Construir un intervalo de confianza del “$90$\%” para la audiencia poblacional media y otro para la
varianza poblacional, bajo la hipótesis de que la población de audiencias sigue una ley normal.
V. CAMPAÑA DE MARKETING

ENUNCIADO

Una empresa dedicada a la fabricación de cervezas realizó una campaña de marketing a dos muestras
independientes de clientes, en Madrid y Barcelona, para vender una nueva cerveza con sabor de cereza.
La campaña de Madrid tuvo un tamaño “n_1=500” y 200 clientes compraron, mientras que en Barcelona
se realizó la campaña a “n_2=750” y se obtuvo un resultado de 210 ventas.

SE PIDE

Construir una matriz dos por dos que contenga en filas los valores de Madrid y Barcelona y por
columnas las respuestas sí y no.

Con la función “prop.test” contrastar si las proporciones por ciudades son iguales o distintas.

Resolver el contraste con el p-valor y obtener e interpretar un intervalo de confianza del 95 para la
diferencia de proporciones.

VI. AUDITOR DE BOMBILLAS


ENUNCIADO

Hay que verificar la información de las etiquetas de las fábricas de bombillas. En este caso, se está
analizando a una empresa que afirma que la duración media de las bombillas que fabrica es de más de
10 000 horas. En una muestra de 30 bombillas, se encontró que sólo duran 9 900 horas en promedio.

SE PIDE

Suponiendo que la desviación estándar de la población es de 120 horas, con una significación
estadística del 0,05, ¿se puede rechazar la afirmación del fabricante? ¿Se daría por buena?

dataset-37830_wage.zip
40.1 KB

test_table.zip
3.2 MB
user_table.zip
2.8 MB

VER SOLUCIÓN

SOLUCIÓN

La solución de este caso práctico se encuentra en el archivo que puedes descargar a continuación.

Caso practico unidad 3.zip


3.8 KB
Lección 6 de 6

VI. Glosario

El glosario contiene términos destacados para la


comprensión de la unidad

Estimación puntual

Valor concreto obtenido a partir de los datos de la muestra para estimar el valor deseado.

Intervalo de confianza

Rango de valores entre los cuales podemos estar seguros de que se encuentra un parámetro de la
población con cierto nivel de confianza prefijado.

Contraste de hipótesis

Procedimiento que permite sacar conclusiones acerca de una hipótesis sobre un parámetro de la
población cierto nivel de confianza prefijado.

Potencia de una prueba estadística o el poder estadístico



Es la probabilidad de que la hipótesis nula sea rechazada cuando la hipótesis alternativa es verdadera.

La función de verosimilitud (o, simplemente, verosimilitud)



Es una función de los parámetros de un modelo estadístico que permite realizar inferencias acerca de su
valor a partir de un conjunto de observaciones.

También podría gustarte