Tema 3 EXPLORACION Y DESCRIPCION UNIVARIADA
Tema 3 EXPLORACION Y DESCRIPCION UNIVARIADA
Tema 3 EXPLORACION Y DESCRIPCION UNIVARIADA
Hay varios tipos de estadísticos o índices que nos ayudan a resumir y describir los valores
de la variable:
- Índices de posición: describe la posición que toma la muestra en la variable. Están
los índices de tendencia central y cuantiles. Los primeros se dividen en moda, media
y mediana.
- La variabilidad o dispersión: se refiere al grado de concentración de los datos.
entendida como la separación entre las observaciones. Nos dice si la variable en los
datos es homogénea (más concentración) o heterogéneos (menos concentración).
Es independiente, aunque complementaria de la tendencia central. Para medir esto
se usa la amplitud total, la desviación media, varianza, desviación típica, amplitud
semi-intercuartil y el coeficiente de variación.
- La forma de las distribuciones: se refiere a la simetría y a la curtosis. La primera
hace referencia al grado en que los datos tienden a repartirse de forma similar por
encima y debajo de los valores centrales. La curtosis se refiere al grado de
apuntamiento de la distribución de frecuencias, es decir, si hay más datos en la parte
cercana al promedio o en los extremos de la distribución.
Moda: la variable que más se repite. Puede ser unimodal, bimodal, etc. Puede calcularse
para todos los tipos de variables.
Mediana: divide al total de la población ordenada de mayor a menor en dos partes iguales.
Es el valor de la variable que tiene la propiedad de que la mitad de los individuos toman
valores iguales o inferiores y la otra mitad viceversa. Se calcula para cuasi-cuantitativas y
cuantitativas. Para calcular la mediana en datos no agrupados:
1. Ordenar de mayor a menor.
2. Calcular el tamaño muestral, n.
3. Sumarle 1 a n y dividir entre dos o multiplicar por 0.5.
4. a. Si el valor es entero: esa es la mediana.
5. b. Si el valor no es entero: la mediana es la media de los dos datos. Si sale 10.5,
coger media de 10 y 11.
Media: es la suma de todas las variables entre el tamaño muestral n. Se calcula para
cuantitativas. No se recomienda en distribuciones muy asimétricas. Tiene dos propiedades:
- En cualquier distribución, la media de las diferencias entre cada valor y la media es
0.
- Si sometemos una variable a una transformación lineal, su media experimentará
igual transformación.
Cuantiles
Dividen los datos de la distribución en partes que tiene cada una de ellas el mismo número
de observaciones. Así, podemos ver la posición del valor de una variable comparándola con
el resto de los valores de la muestra. Los más usados son:
- Cuartiles: dividen a la población en 4 trozos iguales. Se distinguen Q1, Q2 y Q3.
- Q1: es el valor de la variable que deja por debajo de sí el 25% con
puntuaciones inferiores.
- Q2: deja por debajo de sí el 50% con puntuaciones inferiores.
- Q3: deja por debajo de sí el 75% con puntuaciones inferiores.
Se calcula de la siguiente forma:
1. Ordenar datos de mayor a menor.
2. Calcular la posición del dato. Para el primer cuartil (n+1)/4 y para el tercero 3(n+1)/4.
3. a. Si el dato es entero: el cuartil es el valor de la observación que ocupe esa
posición.
4. b. Si tiene parte entera y decimal (e, d): el cuartil se calcula de la forma siguiente.
Escalas de cuantiles
Se suele decir la cuarta parte con puntuaciones más bajas, bajas, altas y más altas.
Medidas de dispersión
Si estamos con una variable que se distribuye normalmente alrededor de la media, a una
distancia de hasta una desviación típica nos encontraríamos el 68% de las observaciones, y
a 2 desviaciones típicas, al 95%.
c. Coeficientes de variación.
Permite dilucidar, de entre dos poblaciones, cuál es la que presenta mayor
dispersión. Está expresado en porcentaje. La fórmula es:
Asimetría
Se refiere al modo en que se reparten los datos a un lado u otro de la tendencia central.
Puede ser negativa, cuando las puntuaciones están por encima de la media principalmente
(cola hacia la izquierda), o positiva, cuando viceversa (cola a la derecha). El coeficiente de
asimetría se mide así:
Apuntamiento o curtosis
En el diagrama de caja y bigotes se representan los 3 cuartiles y los valores límite superior
e inferior de los datos sobre un rectángulo, alineado horizontal o verticalmente. Los lados
más largos del rectángulo muestran el recorrido intercuartílico o AIQ. El rectángulo está
dividido por un segmento vertical que indica la mediana. Las líneas que sobresalen se
llaman bigotes. Cualquier dato que esté fuera de la línea o rectángulo es un caso atípico.
Una vez calculado esto, se recurre a las puntuaciones típicas (Zi), se calcula así:
Esto nos indica las distancias a la media de la distribución de las puntuaciones, medidas en
unidades de desviación típica. La z sirve para calcular cuál es la puntuación más extrema y
comparar.