Apuntes Estadística - R USAL
Apuntes Estadística - R USAL
Apuntes Estadística - R USAL
Media
“Media aritmética” >> suma de los valores dividido para el total de observaciones.
2. Código: sum(x[])/100
1. Código: mean(x)
Trimmed mean
La media es muy sensible a valores extremos.
La función mean() tiene la opción de acotar el cálculo en la proporción deseada. Para ello
podemos recurrir a la opción de que R nos preste su “ayuda”, es decir, que nos de el resultado
o el código el propio software, sin nosotros tener que aprenderlo de memoria o buscarlo en
internet. Para ello usamos el siguiente código: #help(mean)
Mediana
Es el valor que separa la mitad “superior” de los datos de la mitad “inferior”.
Se ordena los valores y se toma el valor que se encuentra en la mitad de todos. Si el número de
observaciones es par, se obtiene del promedio de los valores centrales.
Código: Median ()
Formación de este histograma:
Código 2: hist(y)
Código 3: median(y)
Moda
Es el valor más frecuente en una serie, por lo tanto, el más probable de ser observado. Sin
embargo, R no provee una función por defecto para hallar la moda. para eso pedimos ayuda a
la comunidad. Tenemos que crear una función (acción) que nos permita obtener la moda:
ux <- unique(x)
ux[tab == max(tab)]
Resultado: [1] 4
Localización
Rango
Intervalo que contiene todos los datos entre el valor mínimo y máximo de un conjunto. ¿Cómo
podemos saber el valor mínimo y máximo?
Código: min(x)
Código: max(x)
R tiene una función específica para determinar el rango (mínimo y máximo al mismo tiempo).
Código: range()
Cuantiles
“Cortes” que dividen el conjunto de datos en partes similares.
Cuartiles
Se dividen los datos en 4 partes “iguales”. Se ordenan de menor a mayor (Q1, Q2, Q3, Q4)
(Q=Cuartil) y la lógica es que “debajo” de un determinado cuartil se encuentra el porcentaje
inferior de los datos.
Q2=?
Q3=?
Dado que esta medida es muy utilizada, R tiene una fácil implementación para visualizar los
cuartiles. Usamos para ello un gráfico de bigote y caja (o boxplot).
Código: boxplot(x)
¿Por qué es muy utilizado el cuartil? Porque nos permite ver inmediatamente una distribución.
Deciles y Percentiles
Se dividen los datos en diez o cien grupos similares. Como podemos ver, los deciles y
percentiles son una forma específica de cuantiles. R tiene una función incorporada que calcula
los cuantiles en la división que deseemos.
Código: quantile()
En el siguiente ejemplo incluimos el argumento (código) probs = seq(0, 1, 0.25), ¿pero por
qué?
Resultado: 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
1.0 10.9 20.8 30.7 40.6 50.5 60.4 70.3 80.2 90.1 100.0
Resultado: 0% 10% 20% 30% 40% 50% 60% 70% 80% 90%
1.0 118.9 432.8 942.7 1648.6 2550.5 3648.4 4942.3 6432.2 8118.1
100%
10000.0
Dispersión
Nos indica en qué medida nuestros datos están “apretados” o “estirados” respecto a la media
aritmética.
Varianza
La más usual es la varianza que corresponde a la esperanza del cuadrado de la desviación de la
variable respecto a su media.
Código: var()
Desviación típica
La varianza se expresa en unidades que corresponden al cuadrado de la medida original, por
ello la raíz cuadrada de la varianza es una medida más usada para reportar dispersión en los
datos.
Código: sd ()
Rango intercuartílico
Es la diferencia entre el Q3 y Q1. Nos permite saber cuántas observaciones están dentro del
50% del total (Q2)
Código: IQR ()
R tiene varias herramientas para trabajar con variables aleatorias. Las principales son muy
sencillas de usar. Para cada variable aleatoria (entre las más comunes) hay una abreviatura.
Para trabajar con ellas hay cuatro funciones, de tal modo que cada función comienza con una
letra diferente:
Así, casi todas las funciones que trabajan con variables aleatorias funcionan de un modo
similar. El cuadro 1 muestra las abreviaturas y las funciones de densidad de las principales
variables aleatorias que utilizamos.
De tal modo que nos va a representar una distribución normal entre los valores Z -3 y 3
(desviaciones típicas -3 a 3), con el título que le indicamos.
También podemos generar directamente una variable que contenga valores aleatorios que
siguen una distribución normal:
- Primer paso: Generamos una variable con 100 casos que sigue una distribución
normal, con media 0 y desviación típica 1
- Segundo paso: Como son sólo 100 casos, es posible que la media se aleje un poco del
valor 0
Código: summary(variable.normal)
- Tercer paso: Podéis examinar los primeros casos con la función head()
Código: head(variable.normal)
Código: stem(variable.normal)
La función stem() produce un tipo de gráfico que se llama de tallo (steam and leaf), en el que
la primera cifra, a la izquierda del tallo, es la de las decenas (en este caso decimales) y la
segunda, a la derecha, la de las unidades (en este caso centésimas).
La distribución binomial
En el cálculo de probabilidades, utilizamos la distribución binomial para analizar ensayos
repetidos de una variable con dos valores posibles cuya probabilidad es conocida. Por ejemplo,
¿cuál es la probabilidad de obtener cuatro veces el número 3 al lanzar un dado de seis caras
ocho veces?
Hacemos 8 ensayos
Queremos saber la probabilidad de que nos salga un 3 la mitad de las veces, es decir, 4.
1 - pbinom(5, 8, 0.166666)
¿Qué ocurre si tenemos que hacer cálculos con una variable con más de dos estados posibles?
En ese caso utilizaremos una distribución multinomial y las funciones:
La distribución de Poisson
En principio, utilizamos la distribución de Poisson (es discreta, no continua) para realizar
cálculos de probabilidad cuando el número de ensayos es muy elevado y la probabilidad es
muy baja. La forma de la distribución depende de un parámetro Lambda que es igual al
producto del número de ensayos por la probabilidad. Así, debemos o calcular primero lambda
o introducirlo directamente en la fórmula.
Hay muchos problemas de probabilidad que se pueden resolver con facilidad por medio de la
distribución de Poisson. Se utiliza a menudo para analizar situaciones en las que se requiere
contar el número de veces que se produce un determinado suceso en un periodo determinado
de tiempo, a lo largo de una distancia o en un área determinada.
El promedio de visitas a una tienda es de 15 personas por hora, durante todo el día. ¿Cuál es la
probabilidad de que en una hora determinada haya 5 o menos visitas?
En este caso el valor de lambda se nos da directamente: Lambda=15. Por lo tanto podemos
calcularlo con la función acumulada:
Código: ppois(5, 15)
Que, como veis, es una probabilidad muy pequeña. O también, de modo equivalente:
x <- 0:30
plot(dpois(x, 15))
Observad que, si lambda es más bajo, la distribución tiene una forma diferente:
plot(dpois(x, 5))
Una persona compra el mismo billete de lotería en 500 sorteos distintos. Si en cada sorteo la
probabilidad de que gane el premio es de 1/1000, ¿Cuál es la probabilidad aproximada de lo
siguiente?
a) De que gane 0 premios
b) De que gane exactamente 1 premio
c) De que gane al menos 2 premios
En un grupo de clase hay 10 estudiantes de los cuales 6 son hombres y 4 mujeres. Si extraemos
al azar y sin reemplazamiento a 5 personas del grupo. ¿Cuál es la probabilidad de que sean 3
hombres?
Código: dhyper(3, 6, 4, 5)
Lógica = (Lo que queremos sacar, Número de casos X, Número de casos Y, Lo que sacamos de la
muestra).
¿Por qué tiene sentido utilizar en este caso la distribución hipergeométrica? Porque se da el
caso de que cada vez que seleccionamos a una persona la eliminamos del conjunto de
personas que podemos seleccionar de nuevo, por lo que se alteran las probabilidades
posteriores de ser seleccionado de cada uno. Queremos saber la probabilidad de sacar tres
hombres de una selección de cinco. Hay seis hombres y cuatro mujeres.
Los problemas relacionados con barajas son relativamente sencillos aplicando la distribución
hipergeométrica: ¿Qué probabilidad tenemos de sacar un póker de mano si extraemos cinco
cartas de una baraja completa (sin comodines)? Dado que deben ser cuatro cartas iguales, nos
da igual cuales sean. por lo tanto, la instrucción
Fijaos en que al utilizar la distribución binomial lo que hacíamos era calcular un determinado
resultado entre dos opciones para una serie de ensayos de Bernoulli (en los que puede haber
dos resultados, que solemos llamar éxito y fracaso). La distribución geométrica nos permite
calcular la probabilidad de que tengamos que realizar un determinado número de ensayos
hasta tener un éxito. Este número es indeterminado y en realidad puede ser enorme.
Por ejemplo, supongamos que nuestro jugador de baloncesto acierta los triples un 60% de las
veces (puto Stephen Curry aquí bro); la distribución del número de ensayos que debe hacer
hasta acertar sigue una distribución geométrica, que podemos analizar en r con la ayuda de
la función dgeom() y su familia.
Si lo que debemos analizar son tiempos de espera, nos conviene utilizar la variante continua de
la distribución geométrica, que llamamos distribución exponencial.
Supongamos que estamos estudiando los tiempos de espera a los que se ven sometidos los
usuarios de una administración pública en la atención en una ventanilla en la que el
promedio de tiempo hasta que se recibe atención es de 30 minutos.
dexp(20, 1/30)
Nos da la probabilidad de que una persona sea atendida a los 20 minutos de llegar (recordad,
función densidad).
pexp(20, 1/30)
Nos dice la probabilidad de que sea atendida en los primeros 20 minutos (función de
distribución acumulada).
La distribución normal
Los cálculos a partir de la distribución normal se hacen de forma análoga a todos los anteriores,
teniendo en cuenta que se trata de una distribución contínua, por lo que los cálculos sobre
intervalos se harán por medio de la distribución acumulada, es decir, por medio de la
función pnorm(). Los cálculos inversos, cuando se nos pide un valor de Z a partir de una
probabilidad, los podemos calcular con qnorm(). Así
pnorm(1,96)
qnorm(1/3)
Nos dice que en qué valor en unidades Z desde el origen (a la izquierda del todo) alcanzamos
un tercio de los casos (o de las probabilidades).
Estas funciones trabajan por defecto con los datos estandarizados; es decir, con media 0 y
desviación típica 1. Si trabajamos con una distribución no estandarizada, con métrica, podemos
especificarlo en la misma función.
Así, para calcular en qué valor alcanzamos el percentil cuarenta de una distribución normal con
media 60 y desviación típica 17 podemos calcularlo con: