Clase 1 Estadística
Clase 1 Estadística
Clase 1 Estadística
Media
Dado un conjunto de datos numéricos x1, …, xn, se define la
media aritmética por:
x=
x i
n
Donde la sumatoria se extiende al número total de datos.
Mediana
La mediana es una valor tal que, una vez ordenados en magnitud los datos, el
50% es menor que ella y el 50% mayor. Por tanto, al ordenar los datos, la
mediana es el valor central.
Si la cantidad de datos de la muestra es par hay que promediar los dos datos
centrales.
Si la cantidad de datos de la muestra es impar la mediana es el valor del
centro de los datos.
Moda
La moda es el valor más frecuente.
Comparación de medidas de centralización
Desde un punto de vista puramente descriptivo las tres medidas
proporcionan información complementaria, PERO: la media utiliza todos los
datos y es preferible si los datos son homogéneos; tiene el inconveniente de
que es muy sensible a observaciones atípicas, y un error de datos o un valor
anormal puede modificarla totalmente.
Por el contrario, la mediana utiliza menos información que la
media, ya que sólo tiene en cuenta el orden de los datos y no
su magnitud, pero, en contrapartida, no se ve alterada si una
observación (o en general una pequeña parte de las
observaciones) contiene errores grandes de medida o de
transcripción.
media = x = 0x0,44+1x0,29+2x0,16+3x0,07+4x0,03+6x0,01 = 1
mediana = 1
moda = 0
Medidas de dispersión
Desviación típica
A cada medida de centralización podemos asociarle una medida
de la variabilidad de los datos respecto a ella. A la media le
asociamos la desviación típica, definida por:
(
ix − x )2
s=
n −1
n −1
Coeficiente de variación
Meda
Rango intercuartílico
Q − Q1
LS = Q3 + 1,5 3
2
4) Considerar como valores atípicos los situados fuera del intervalo
(LI, LS).
5) Dibujar una línea que vaya desde cada extremo del rectángulo
central hasta el valor más alejado no atípico, es decir, que está dentro
del intervalo (LI, LS).
6) Identificar todos los datos que están fuera del intervalo (LI, LS),
marcándolos como atípicos.
11 4 4 3
12 5 4 7 2 7
13 3 5 4
14 2 7
15 2
16 1
17 2
decenas unidades
Diagrama de barras
Para los datos de variables discretas, y en general para
distribuciones de frecuencia de datos sin agrupar se utiliza el
diagrama de barras. Este diagrama representa los valores de la
variable en el eje de las abscisas levantando en cada punto una
barra vertical de longitud igual a la frecuencia relativa ó absolutas.
Para los datos de la Tabla 1
0
1
2
3
4
5
6
0 10 20 30 40
frequency