Introducción A La Estadística Descriptiva
Introducción A La Estadística Descriptiva
Introducción A La Estadística Descriptiva
Por ejemplo, los datos de las ventas de 4 años de una empresa, se puden representar a través de la
siguiente gráfica:
2
1
0
2013
2014
2015
2016
Visualmente y sin conocer mayor detalle del proceso de la empresa, la primera conclusión que
obtenemos de dicha gráfica es que, las ventas en el año 2013, fueron mayores respecto a los demás
años. De la misma manera, 2015 fue el año en el que hubo menos ventas.
Por ahora, es suficiente con comprender por qué es importante conocer el ámbito de estudio de la
estadística descriptiva y de qué manera nos puede ayudar en la toma decisiones. Más adelante
estudiaremos temas especificos del análisis de datos.
Respecto a los datos, estudiaremos dos tipos: datos agrupados y no agrupados. Los datos agrupados
son aquellos que, podemos consolidar por alguna característica cualitativa o cuantitativa, y de esta
manera, estudiarlos o analizarlos a través de dicha característica, mientras que en los datos no
agrupados no sucede esto. En ambos casos, podremos determinar medidas y valores que nos
ayuden a realizar ciertas conclusiones respecto a ellos.
Por el contrario, estos datos que representan las calificaciones de un grupo de secundaria, no tienen
la caractarística de agrupamiento:
10 8 9 9 9 7 9 8
6 7 9 5 6 7 10 10
Los datos son parte de una muestra o de una población. En estadística, la población es la totalidad
de los datos, mientras que la muestra solo es una parte de esa población. La mayoría de los estudios
estadísticos se realizan con muestras, pues resulta muy complicado obtener todos los datos de la
población, sobre todo cuando esta es, en términos prácticos, muy grande.
Una variable estadística es una cualidad o característica de una población o muestra. Por ejemplo,
la estatura promedio de los estudiantes de una escuela o el número de autos en una localidad. Si se
trata de la población, estudiaremos las variables estadísticas a través de parámetros, mientras que
para las muestras, será a través de estadísticos. Más adelante, estudiaremos con más detalle los
parámetros y estadísticos, pero por ahora, será suficiente con entender que uno aplica a
poblaciones (parámetro) y el otro, a muestras (estadístico).
En este punto, analizaremos algunos conceptos relativos a datos agrupados, que utilizaremos más
adelante. Para ello, tomemos el escenario siguiente: la tabla que se muestra a continuación contiene
las edades de los trabajadores de una empresa refresquera:
19 22 18 23 25 26 22 18 30 32
30 19 38 41 44 40 39 52 56 61
43 45 48 49 50 52 27 23 22 63
66 33 34 25 28 27 29 32 39 41
18 19 22 26 29 51 27 22 45 44
43 44 19 26 27 33 34 39 33 37
22 20 40 48 34
Para un observador que no tenga ninguna relación con la empresa, al ver esta tabla, le resultará un
poco complicado emitir alguna conclusión al respecto. Imagina la misma situación para una empresa
en la que laboran 4000 empleados.
Edad Frecuencia
18 – 27 25
28 – 37 14
38 – 47 15
48 – 57 8
58 – 67 3
Ahora, los datos ya están agrupados por intervalos y estos se muestran junto con su respectivo
conteo o frecuencias. La tabla anterior representa la distribución de frecuencias de las edades de
los trabajadores de la empresa refresquera. Por ahora, no es importante saber cómo se construye
(más adelante se estudiará cómo hacerlo), sino lo que representa.
Utilizaremos la distribución de frecuencias de este ejemplo para introducir los demás conceptos que
necesitamos conocer y que mencionaremos a continuación:
• Clase: Es cada uno de los intervalos. En la tabla anterior tenemos 5 clases o intervalos.
• Límite inferior de clase: Es el dato más pequeño de cada clase o intervalo. En la tabla de
distribución de frecuencias los límites inferiores de cada clase son 18, 28, 38, 48 y 58
respectivamente. Se representa como LIC.
• Marca de clase: Es el punto medio de la clase o intervalo. Las marcas de clase se calculan
sumando el respectivo límite inferior con el límite superior de cada clase y dividiendo entre
2. Las marcas de clase de la tabla de distribuciones de frecuencia de nuestro ejemplo son
22.5, 32.5, 42.5, 52.5 y 62.5 respectivamente. Se representa como 𝒙𝒊 .
• Amplitud de clase: Es la diferencia entre los límites superiores o inferiores de dos clases
continuas.
• Frontera de clase: Son los puntos medio que existen entre los límites de intervalos
consecutivos y se utilizan para separar las clases, pero sin los espacios creados por los límites
de clase. Entre la primera clase y la segunda, los límites que interactúan son 27 y 28
respectivamente. El punto medio entre ambos es 27.5. Entre la segunda clase y la tercera,
los límites que interactúan son 37 y 38 respectivamente. El punto medio entre ambos es
37.5. Si continuamos con el proceso, encontraremos que los puntos medios siguientes son
47.5 y 57.5 respectivamente. Observa que el límite superior de la última clase no tiene
interacción. En este caso, la frontera de clase se puede calcular siguiendo el patrón
detectado, es decir restándole 0.5 a cada límite inferior o sumándole 0.5 a cada límite
superior. De esta manera, las fronteras de clase completas serían 27.5, 37.5, 47.5, 57.5 y
67.5. El número de fronteras de clase es el mismo que el número de clases. Las fronteras de
clase son útiles cuando construimos histogramas.
18 – 27 25 38.46%
28 – 37 14 21.54%
38 – 47 15 23.08%
48 – 57 8 12.31%
58 – 67 3 4.62%
18 – 27 25 25
28 – 37 14 39
38 – 47 15 54
48 – 57 8 62
58 – 67 3 65
Observa que la última frecuencia acumulada debe ser igual a la suma de todas las frecuencias
absolutas. De esta manera podemos verificar si nuestra tabla es correcta. La frecuencia acumulada
se representa como Fi.
Ahora, es el momento de conocer cómo se construye de forma apropiada, una tabla de distribución
de frecuencias. Utilicemos el siguiente algoritmo:
1. Calcula el número de clases utilizando la regla de Sturges. Esta regla establece que el número de
clases c, se puede calcular como c = 1 + 3.322 log (n), donde n representa el número de datos o
tamaño de la muestra. Si el resultado contiene decimales, se deberá considerar el entero más
cercano (hacia arriba o hacia abajo, según corresponda).
Si el resultado contiene decimales, se deberá redondear siempre al siguiente entero (por ejemplo,
si el resultado es 4.05, entonces se redondea a 5).
3. Determina el límite inferior de la primera clase. Por conveniencia, este debe ser el valor más
pequeño o uno menor.
5. Finalmente, se procede a colocar las correspondientes frecuencias absolutas para cada clase.
Ejemplo: Los siguientes datos representan las edades de los estudiantes de la carrera de medicina
de una universidad. Elabora la tabla de distribución de frecuencias.
18 20 23 24 22 27 26 25 25 26
29 22 23 24 22 25 34 30 28 25
22 22 26 23 23 26 28 29 24 21
30 29 26 25 24
Solución: Apliquemos el algoritmo en cuestión paso a paso. Observemos que el número de datos
en la tabla es de 35, es decir, n = 35.
3. Cálculo del límite inferior de la primera clase: elegimos 18, ya que es el dato más pequeño.
Con estos valores, es relativamente sencillo calcular los límites superiores de cada clase:
• Límite superior de la primera clase: 20 (se obtuvo al restar 1 del límite inferior
de la segunda clase)
• Límite superior de la segunda clase: 20 + 3 = 23
• Límite superior de la tercera clase: 23 + 3 = 26
• Límite superior de la cuarta clase: 26 + 3 = 29
• Límite superior de la quinta clase: 29 + 3 = 32
• Límite superior de la sexta clase: 32 + 3 = 35
Edad Frecuencia
18 – 20 2
21 – 23 10
24 – 26 14
27 – 29 6
30 – 32 2
33 – 35 1
Es importante mencionar que habrá situaciones en las que los valores del número de clases, así
como el de la amplitud, tendrán que ajustarse para que la tabla sea más precisa. Observa que la
tabla anterior la construimos a partir de datos no agrupados. Si ya se encuentran agrupados, el
número de clases o intervalos ya es un dato conocido.
Ejercicio: Para la siguiente tabla, verifica para las clases indicadas, que los valores de la frecuencia
acumulada, frecuencia relativa, marca de clase y frontera de clase, sean los que se indican.
Algunos tipos de representación gráfica que son muy útiles en estadísctica son las graficas de barras,
las gráficas circulares (pastel) y los histogramas entre otros. Si bien es importante saber cómo se
construyen, es mucho más relevante la información que de ellas se puede obtener.
Gráfica de barras: Una gráfica de barras es una forma de resumir un conjunto de datos por
categorías. La altura de cada barra representa un dato cuantitativo de alguna categoría que se desee
mostrar. En este tipo de gráficas, se pueden incluir varias características relativas a la categoría en
cuestión.
5
5
4 4.4 4.5
4.3
3 3.5
3
2.8
2 2.4 2.5
2 2
1.8
1
0
2014 2015 2016 2017
Autos Camiones Camionetas
En la gráfica antrior, la categoría ventas incluye tres productos diferentes durante los últimos 4 años.
Se recomienda utilizar los gráficos de barras cuando tus datos están categorizados. Así, de esta
manera, el análisis de la información es más sencilla de realizar.
Por otra parte, observa que en este tipo de gráficos, existe una separación entre cada categoría.
Visualmente, esto los hace diferentes de los histogramas.
Ventas (mdp)
La gráfica circular anterior, intenta enfatizar que, en el año 2014, las ventas superaron por mucho a
las de los otros años. Se obtiene esa conclusión de forma general y por inspección solamente de
cómo se presentan los datos en este tipo de gráficas.
Polígono de frecuencias: Se obtiene a partir del histograma y para crearlo, bastará con unir las
marcas de clase con una línea recta. Es importante mencionar que tanto el inicio com el fin de la
gráfica, deben “tocar” el eje de las abcisas. Para ello, se adicionarán dos clases, una al inicio y otra
al final, con frecuencia cero. Esto permitirá que la gráfica inicie y termine sobre el ejer de las
abscisas.
Ojiva: Es un gráfico que, mediante el trazado de una línea, muestra las frecuencias acumuladas. Si
representa frecuencias acumuladas se llama simplemente ojiva, y si representa los porcentajes de
las frecuencias relativas acumuladas, se llama ojiva porcentual.