Bloque 1. Descriptiva Univariante

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 55

Bloque II.

- Análisis
Estadístico de una variable

1
1 Tema 3. Distribuciones de Frecuencia. Medidas de posición y
dispersión.

Ana Navarro Quiles 2


1 Tema 3. Distribuciones de Frecuencia. Medidas de posición y
dispersión.

3
3.1 Variable Estadística.
3.2 Distribuciones de frecuencias.
3.3 Representaciones gráficas.
3.4 Medidas de posición centrales.
3.5 Medidas de posición no centrales.
3.6 Medidas de dispersión absolutas.
3.7 Medidas de dispersión relativas.
3.8 Tipificación.

Ana Navarro Quiles 4


3.1 Variable Estadística.
3.2 Distribuciones de frecuencias.
3.3 Representaciones gráficas.
3.4 Medidas de posición centrales.
3.5 Medidas de posición no centrales.
3.6 Medidas de dispersión absolutas.
3.7 Medidas de dispersión relativas.
3.8 Tipificación.

5
3.1 Variable Estadística

Una Variable es una característica observable que varía entre los


diferentes individuos de una población la cual puede adoptar
diferentes valores. Las podemos dividir en dos tipos:
Cualitativas: se usan con datos que representan categorías
que son mutuamente excluyentes. Los valores que toman no
se pueden cuantificar. Sexo, Nivel Educativo.
Cuantitativas: se usan con datos que representan cantidad
numéricas que permiten hacer operaciones matemáticas. Los
valores que toman se pueden cuantificar. Peso, No de hijos.

Ana Navarro Quiles 6


Cualitativa

Nominales: no hay relación entre las categorías. Sólo permite


clasificar (no jerarquizar ni ordenar). Género, nacionalidad,
grupo sanguíneo.
Dicotómicas: dos categorías. hombre/mujer, sano/enfermo.
Policotómicas: varias categorías. grupo sanguíneo (A/B/AB).
Ordinales: sus posibles categorías se encuentrar jerarquizadas
y ordenadas. Mejoría de un tratamiento, grado de dolor.

7
Cuantitativa

Discretas: sólo puede tomar valores aislados (Pueden tomar


un número finito de valores). No de.
Continuas: pueden tomar cualquier valor de la recta real.
Peso, precio de unas acciones.

8
3.1 Variable Estadística
3.2 Distribuciones de frecuencias
3.3 Representaciones gráficas.
3.4 Medidas de posición centrales.
3.5 Medidas de posición no centrales.
3.6 Medidas de dispersión absolutas.
3.7 Medidas de dispersión relativas.
3.8 Tipificación.

9
3.2 Distribuciones de frecuencias

La tabla de frecuencias es una herramienta que permite ordenar


datos de manera que se presentan numéricamente las
características de la distribución de ese conjunto de datos.

xi : diferentes valores de la variable.


xi ni Ni fi Fi n: número de categorías.
x1 n1 N1 = n1 n1 /N F1 = f1 N: total de la muestra.
x2 n2 N2 = n1 + n2 n2 /N F2 = f1 + f2
x3 n3 N3 = n1 + n2 + n3 n3 /N F3 = f1 + f2 + f3 ni : frecuencia absoluta.
. . . . . Ni : frecuencia absoluta acumulada.
. . . . .
. . . . .
xn nn Nn = N nn /N Fn = 1 fi : frecuencia relativa.
Fi : frecuencia relativa acumulada.

1 Nota: Esta definición viene dada en el caso en el que la variable toma valores discretos (en un conjunto finito). En
el caso de variables continuas (o cuando el número de datos es muy elevado), como veremos más adelante, los
valores discretos pasan a ser intervalos.

10
ni : frecuencia absoluta. Número de veces que se repite un determinado
valor (i-ésimo) de la variable.
Ni : frecuencia absoluta acumulada. Suma de la frecuencia absoluta
correspondiente más todas las anteriores.

Ni = n1 + n2 + · · · + ni .

fi : frecuencia relativa. Proporción de valores iguales a xi en el conjunto


total de datos (x1 , . . . , xn ). Es decir, la frecuencia absoluta entre el total
de datos N
ni
fi = .
N
Si se muestra la frecuencia relativa por cien se obtiene el porcentaje.
Fi : frecuencia relativa acumulada. Suma de la frecuencia relativa
correspondiente más todas las anteriores.

Fi = f1 + f2 + · · · + fi .
n
2 Nota: fi = f1 + f2 + · · · + fn = 1.

i=1
3 Nota: En el caso de intervalos el “número de veces que se repite" pasaría a ser “número de valores que pertenecen
al intervalo correspondiente"

11
Ejemplo
La lista de notas en matemáticas de 30 alumnos son las siguientes:

Frecuencia absoluta
(ni ): Se realiza el
recuento de la variable
que se estudia (notas)
para ver el número de
veces que aparece cada
nota.

4 Nota: en la fila Total destacamos que la suma de frecuencias absolutas debe ser 30.

12
Ejemplo
La lista de notas en matemáticas de 30 alumnos son las siguientes:

Frecuencia absoluta
acumulada (Ni ): suma
de frecuencias absolutas
de valores menores o
iguales a xi

5 Nota: en la fila Total destacamos que la última frecuencia absoluta acumulada debe ser 30.

13
Ejemplo
La lista de notas en matemáticas de 30 alumnos son las siguientes:

Frecuencia relativa (fi ):


división de la frecuencia
absoluta entre el total de
elementos N = 30.

6 Nota: en la fila Total destacamos que la suma de frecuencias relativas debe ser 1 o el 100%.

14
Ejemplo
La lista de notas en matemáticas de 30 alumnos son las siguientes:

Frecuencia relativa
acumulada (Fi ):
suma de frecuencias
relativas de valores
menores o iguales a xi

7 Nota: en la fila Total destacamos que la última frecuencia relativa acumulada debe ser 1 o el 100%.

15
Ejemplo
TABLA DE FRECUENCIAS

16
Agrupación de datos en intervalos

En variables continuas, o en discretas cuando el número de datos


distintos se hace casi tan grande como el número de datos, se hace
necesario, para poder estudiarlos, agrupar los datos en intervalos o
clases.
Sobre las clases, debemos conocer los siguientes conceptos:
Límites de clase: cada intervalo tiene un límite inferior (LI)
y un límite superior (LS), [LIi , LSi ), (LIi , LSi ]...
Amplitud de clase: diferencia entre el límite superior e
inferior. Vamos a intentar que sea la misma para cada
intervalo.
Marca de clase: punto medio de cada intervalo. Este valor
se utilizará para calcular otras medidas posteriormente.

17
¿Cómo determinamos los intervalos?
Se busca el valor máximo (xmax ) y el mínimo (xmin ) de todos los
posibles valores de la variable. Determinamos el rango
(R = xmax − xmin ).
Dividimos el rango por la cantidad de intervalos (ninter ) que se
desea tener, obteniéndo así la amplitud (A) de cada intervalo.

Regla de Sturges
R Alternativa

A= ninter = 1 + 3.32 log(N)
ninter ninter = N.
N = tamaño de la muestra,

Nota 1: El número de clases o ninter debe ser un número entero, por


tanto, si el resultado es decimal, se aproxima al entero inmediato superior.
Comenzando por el mínimo valor de la variable, que será el extremo
inferior del primer intervalo, se suma a este valor la amplitud para
obtener el extremo superior y así sucesivamente.

18
Ejemplo

Primero, ordenamos los datos en orden ascendente

19
Ejemplo
R = 40 − 10 = 30.
ninter = 1 + 3.31 log(60) = 6.90 ≈ 7.
R 30
A= = = 4.28 ≈ 4.3.
ninter 7
Intervalo Marca ni LI LS Marca ni
[10, 14.3) 12.15 6 10 14.3 12.15 6
[14.3, 18.6) 16.45 8 14.3 18.6 16.45 8
[18.6, 22.9) 20.75 11 18.6 22.9 20.75 11
[22.9, 27.2) 25.05 11 22.9 27.2 25.05 11
[27.2, 31.5) 29.35 13 27.2 31.5 29.35 13
[31.5, 35.8) 33.65 7 31.5 35.8 33.65 7
[35.8, 40.1) 37.95 4 35.8 40.1 37.95 4
8 Nota:
√ √
podríamos haber tomado ninter = N = 60 = 7.74 ≈ 8.

20
3.1 Variable Estadística
3.2 Distribuciones de frecuencias
3.3 Representaciones gráficas.
3.4 Medidas de posición centrales.
3.5 Medidas de posición no centrales.
3.6 Medidas de dispersión absolutas.
3.7 Medidas de dispersión relativas.
3.8 Tipificación.

21
3.3 Representaciones gráficas

Diagrama de barras.
Histograma.
Polígonos de frecuencias.
Gráficos de sectores.

22
Diagrama de barras: muestran los valores de las frecuencias
absolutas. Se usa cuando la variable es discreta o cualitativa

23
Histograma: Diagramas de barras para distribuciones
cuantitativas continuas.

24
Polígonos de frecuencias: Se trazan las frecuencias
absolutas o relativas y se unen los puntos resultantes. Se
utilizan preferentemente en caracteres cuantitativos y tienen
especial interés cuando se indican frecuencias acumulativas.

25
Gráficos de sectores: Dividen un círculo en porciones
proporcionales según el valor de las frecuencias relativas.

26
3.1 Variable Estadística.
3.2 Distribuciones de frecuencias.
3.3 Representaciones gráficas.
3.4 Medidas de posición centrales.
3.5 Medidas de posición no centrales.
3.6 Medidas de dispersión absolutas.
3.7 Medidas de dispersión relativas.
3.8 Tipificación.

27
Medidas de posición
Las medidas de posición son de dos tipos:
Medidas de posición central: informan sobre los valores
medios de la serie de datos. media aritmética, mediana y
moda
Medidas de posición no centrales: informan como se
distribuye el resto de valores de la serie.cuartiles, deciles y
percentiles

28
3.4 Medidas de posición centrales

Media aritmética.
Mediana.
Moda.

29
Media aritmética. Es la suma de todos sus posibles valores,
ponderada por las frecuencias de los mismos.
Datos sin agrupar n

1
∑ xi ni n
i=1
x̄ = (x1 n1 + x2 n2 + · · · + xn nn ) = = ∑ xi fi
N N i=1

siendo, ni las frecuencias absolutas, fi las frecuencias relativas y N


el número total de observaciones.
Datos agrupados. Calculamos la media aritmética del mismo modo
pero utilizando, en este caso, la marca de clase.

30
Propiedades de la media aritmética.
1. La media aritmética es el centro de gravedad de la distribución.
Es decir, la suma de las desviaciones de los valores de la variable
con respecto a su media es igual a cero.

(x1 − x̄ )n1 + (x2 − x̄ )n2 + · · · + (xn − x̄ )nn = 0.

2. La media aritmética se ve afectada por cambios de origen. Si a


todos los valores de la variable les sumamos (o restamos) un valor
constante k, la media queda aumentada (o disminuida) en ese
número.
yi = xi + k =⇒ ȳ = x̄ + k

31
Propiedades de la media aritmética.
3. La media aritmética se ve afectada por cambios de escala. Si a
todos los valores de la variable les multiplicamos (o dividimos) un
valor constante k > 0, la media queda multiplicada (o dividida) por
ese número.
yi = kxi =⇒ ȳ = k x̄

4. La media aritmética se ve afectada por cambios de origen y de


escala (transformación lineal de la variable).

yi = axi + b =⇒ ȳ = ax̄ + b

32
Propiedades de la media aritmética.
5. Si de un conjunto de valores, obtenemos 2 o más subconjuntos
disjuntos, entonces la media aritmética del conjunto total, se
relaciona con las medias de los distintos subconjuntos como sigue:
x¯1 N1 + x¯2 N2 + · · · x¯j Nj
x̄ = .
N
Siendo, x¯j la media del subconjunto j, Nj el tamaño del subconjunto
j y N el tamaño total N = N1 + · · · + Nj .

33
Ventajas de la media aritmética.
En su cálculo intervienen todos los valores de la distribución.
Es un valor único para cada distribución de frecuencias.
Es siempre calculable.

Inconvenientes de la media aritmética.


Es muy sensible a valores extremos. Si la variable presenta
valores extremos, esto puede distorsionar su valor haciéndola
poco representativa.

34
La mediana. Es el valor de la variable que deja a su izquierda y
derecha el mismo número de observaciones (50% en cada lado).

Cálculo de la mediana

Datos sin agrupar


Ordenamos los valores de menor a mayor.
Calculamos las frecuencias absolutas acumuladas (Ni ).
Calculamos la mitad del número de observaciones N/2.
Si N es impar entonces N/2 siempre es distinto de Ni y la
mediana es xi que se corresponde con el primer Ni > N/2.
Si N es par entonces puede pasar que N/2 = Ni y la mediana
sería (xi + xi+1 )/2. En el caso que N/2 6= Ni procedemos
como en el caso impar.

35
Cálculo de la mediana

Datos agrupados
Ordenamos los valores de menor a mayor.
Calculamos las frecuencias absolutas acumuladas (Ni ).
Determinar el intervalo mediano Ni ≥ N/2 =⇒ [LIi , LSi ).

N/2 − Ni−1
Mediana = LIi + ci
ni
siendo ci la amplitud del intervalo (si es siempre el mismo lo hemos
denotado A anteriormente) y ni la frecuencia absoluta del intervalo.

9 Nota: Si Ni = N/2 entonces el valor de la mediana es LSi .

36
Usos, ventajas e inconvenientes de la mediana.

En el caso de variable cualitativas expresadas en escala


ordinal, es la medida más representativa.
En el caso de variables cuantitativas con valores extremos es
preferible a la media aritmética.
Es fácil de calcular, pero en su determinación no intervienen
todos los valores de la variable

A la mediana le afectan los cambios de origen y de escala de la


misma manera que sucedía en el caso de la media aritmética.

37
Ejemplo
Sea la muestra 175, 164, 188, 176, 167, 158, 162, 182

175 + 164 + · · · + 182


Media: x̄ = = 171.5.
8
Mediana. Ordenamos la muestra
158, 162, 164, 167, 175, 176, 182, 188. N = 8 por tanto
167 + 175
Mediana = = 171.
2
Dada la muestra 175, 164, 188, 176, 167, 158, 162, 1820
La media es 376.25.
La mediana es 171.

38
La moda. Valor de la variable que más veces se repite (más
frecuente)
Cálculo de la moda

Datos sin agrupar: Mo = xi siendo xi aquel con mayor frecuencia


absoluta (maxi ni ). La moda o valor modar puede no ser única.

Datos agrupados
Cálculo del intervalo modal, el intervalo más frecuente, maxi ni ,
[LIi , LSi ).
El valor modal viene dado por

ni − ni−1 ni+1
Mo = LIi + ci , Mo ≈ LIi + ci ,
(ni − ni−1 ) + (ni − ni+1 ) ni−1 − ni+1

siendo ci la amplitud del intervalo y nj las frecuencias absolutas


correspondientes.

39
Datos agrupados con intervalos de amplitud variable
Bajo esta circunstancia la mayor frecuencia absoluta no es
significativa a la hora de determinar el intervalo modal.
Al ser los intervalos de distinta amplitud, la frecuencia no es
indicativa de la mayor o menor abundancia de valores en el
intervalo, por lo que se calculará la densidad (di ).
Ahora calculamos el intervalo modal, que será en este caso el intervalo
más denso, maxi di , [LIi , LSi ).
El valor modal viene dado por
di+1
Mo = LIi + ci ,
di−1 + di+1

40
Usos, ventajas e inconvenientes de la moda.

En el caso de variables cualitativas expresadas en escala


nominal, es la medida más representativa, de hecho, es la
medida de tendencia central que puede obtenerse.
Es fácil de calcular e interpretar, pero en su determinación no
intervienen todos los valores de la variable.

A la moda le afectan los cambios de origen y de escala de la misma


manera que sucedía en el caso de la media aritmética.

41
3.5 Medidas de posición no centrales

Cuantiles. Valores de la variable (suponiendo que está ordenada)


que dividen a la distribución en partes iguales que comprenden el
mismo número de observaciones o individuos.

Cuartiles. Son 3 valores de la variable que dividen a la distribución


en 4 partes iguales, cada una de las cuales contiene el 25% de las
observaciones.
Deciles. Son 9 valores de la variable que dividen a la distribución en
10 partes iguales, cada una de las cuales contiene el 10% de las
observaciones.
Percentiles. Son 99 valores de la variable que dividen a la
distribución en 100 partes iguales, cada una de las cuales contiene el
1% de las observaciones.

42
Datos sin agrupar

Cuartiles.
N 2N N 3N
C1 = xi =⇒ C2 = xi =⇒ = C3 = xi =⇒
4 4 2 4
Deciles.
N 2N 9N
D1 = xi =⇒ D2 = xi =⇒ ··· D9 = xi =⇒
10 10 10
Percentiles.
N 2N 99N
P1 = xi =⇒ P2 = xi =⇒ ··· P99 = xi =⇒
100 100 100

43
Datos agrupados
r
N − Ni−1
Qr /k = LIi + k ci .
ni
Donde:
Cuartiles: k = 4 y r = 1, 2, 3.
Deciles: k = 10 y r = 1, 2, . . . , 9.
Percentiles: k = 100 y r = 1, 2, . . . , 99.

Observación
Me = C2 = D5 = P50 .
C1 = P25 y C3 = P75 .
D1 = P10 , D2 = P20 , etc...

44
3.1 Variable Estadística.
3.2 Distribuciones de frecuencias.
3.3 Representaciones gráficas.
3.4 Medidas de posición centrales.
3.5 Medidas de posición no centrales.
3.6 Medidas de dispersión absolutas.
3.7 Medidas de dispersión relativas.
3.8 Tipificación.

45
Medidas de dispersión

OBJETIVO GENERAL
En el apartado anterior se definieron una serie de medidas de
posición, cuyo objetivo era resumir y sintetizar toda la
información disponible en la distribución de frecuencias.
El objetivo de este tema, será ver hasta qué punto estas medidas
son representativas y, por tanto, válidad como síntesis de toda esa
información.
Medir la representatividad de estas medidas, equivale a
cuantificar la separación de los valores de la distribución
respecto a dicha medida.
A la mayor o menor separación de los valores respecto a otro, se
le denomina dispersión o variabilidad

46
Medidas de dispersión
Las medidas de dispersión son de dos tipos:
Medidas de dispersión absolutas. Recorrido, Recorrido
intercuartílico, Desviación media, Varianza y desviación típica.
Dependen de las unidades de medida de las variables.
No son útiles para comparar distribuciones.
Medidas de dispersión relativas: Coeficiente de variación
de Pearson, Índice de dispersión respecto a la mediana.
Son adimensionales, es decir, no dependen de las unidades de
medida.
Permiten comparar 2 ó más distribuciones.

47
3.6 Medidas de dispersión absolutas
Recorrido (o rango). Diferencia entre el mayor y el menor valor que
toma la variable.
R = xmax − xmin .
Cuanto mayor sea el recorrido mayor será la dispersión.

Recorrido intercuartílico. Diferencia entre el tercer y el primer cuartil

RI = C3 − C1 .

Esta medida de dispersión considera la longitud del intervalo en el cual


están comprendidos el 50% de los valores centrales de la distribución
(suprime los extremos). Cuanto mayor sea el recorrido intercuartílico
mayor será la dispersión.

48
Desviación media....
Respecto a la media aritmética. Promedio de la suma de las
diferencias en valor absoluto de los valores de la variable con
respecto a la media.
n
∑ |xi − x̄ |ni n
i=1
Dx̄ =
N
= ∑ |xi − x̄ |fi .
i=1

Cuanto mayor sea Dx̄ , mayor será la dispersión de la distribución y,


por tanto, menor será la representatividad de la media aritmética.
n
∑ |xi − Me|ni n
i=1
Respecto a la mediana. DMe =
N
= ∑ |xi − Me|fi .
i=1

Propiedad =⇒ DMe ≤ Dx̄ .

49
Varianza. Promedio de los cuadrados de las desviaciones (diferencias) de
los valores de la variable respecto a su media.
n
∑ (xi − x̄ )2 ni n
i=1
S2 = = ∑ (xi − x̄ )2 fi .
N i=1

Cuanto mayor sea S 2 , mayor será la dispersión de la distribución y, por


tanto, menor será la representatividad de la media.
n
En la práctica utilizaremos: S 2 = ∑ xi2 fi − x̄ 2 .
i=1


Desviación típica. S = + S 2

Propiedad =⇒ DMe ≤ Dx̄ ≤ S.

50
Propiedades de la varianza y la desviación típica

Nunca pueden tomar valores negativos, S 2 ≤ 0 y S ≤ 0.


No se ven afectados por cambios de origen.
n
Sy2 = Sx2
Sx2 = ∑ xi2 fi − x̄ 2 =⇒ yi = xi + k =⇒
i=1
Sy = Sx

Si se ven afectados por cambios de escala.


n
Sy2 = k 2 Sx2
Sx2 = ∑ xi2 fi − x̄ 2 =⇒ yi = kxi =⇒
i=1
Sy = kSx

Nota: Ante cambio de origen y escala simultáneos (transformación


lineal), sólo se verán afectadas por el cambio de escala.
yi = a + bxi =⇒ Sy2 = b 2 Sx2

51
3.7 Medidas de dispersión relativas

Coeficiente de variación de Pearson. Es una de las medidas de


dispersión relativas más utilizadas, y se define como el cociente
entre la desviación típica y la media.
S
CV = .

Cuanto mayor sea CV , mayor será la dispersión de la distribución
y, por tanto, menor será la representatividad de la media.

Índice de dispersión respecto a la mediana.


DMe
CVMe = .
Me

52
Propiedades de CV

Máxima representatividad si CV = 0.
Representatividad óptima si CV ≤ 0.
No se ve afectado por cambios de escala, pero sí por cambios
de origen.
Sy kSx
Cambio de escala: yi = kxi =⇒ CVy = = = CVx
ȳ k X̄
Sy Sx
Cambio de origen: yi = xi + k =⇒ CVy = = 6= CVx
ȳ X̄ + k

53
3.1 Variable Estadística.
3.2 Distribuciones de frecuencias.
3.3 Representaciones gráficas.
3.4 Medidas de posición centrales.
3.5 Medidas de posición no centrales.
3.6 Medidas de dispersión absolutas.
3.7 Medidas de dispersión relativas.
3.8 Tipificación.

54
3.8 Tipificación

No es una medida de posición ni tampoco de dispersión. Es un


proceso de transformación lineal que facilita la comparación entre
valores de 2 ó más distribuciones diferentes.

El objetivo principal es transformar los valores de las variables de


ambas distribuciones, con el fin de poder comparar la posición
relativa de diversos valores en distintas distribuciones.

xi ni zi ni
x1 n1 x̄ z n1 z̄ = 0
=⇒ 1
··· ··· Sx2 ··· ··· Sz2 = 1
xn nn zn nn
x1 − x̄
zi =
Sx
55

También podría gustarte