Ruta de Clase Datos Agrupados
Ruta de Clase Datos Agrupados
Ruta de Clase Datos Agrupados
Ruta de clase
TEMA: Datos agrupados
I. Preguntas Generales
II. Introducción
Cuando el conjunto de datos contiene una gran cantidad de valores numéricos continuos, se hace necesario
construir la distribución de frecuencias, organizando o dividiendo el conjunto de datos en subgrupos llamados
intervalos de clase o simplemente clases, esto para facilitar los cálculos, la interpretación y análisis de estos
datos. Recordemos que uno de los objetivos de la estadística descriptiva es resumir el conjunto de datos y a
partir de este resumen identificar tendencias, realizar un análisis y poder tomar decisiones objetivas en
contextos definidos donde pertenecen los datos. Por esto la agrupación de datos hace parte de la estadística
descriptiva y ayuda al investigador a interpretar el conjunto de datos ya resumido.
Como ya sabemos, un conjunto de datos también se puede representar gráficamente. Si deseamos graficar
una distribución de frecuencias con datos agrupados, podemos hacer uso del histograma de frecuencias, el
polígono de frecuencias y la ojiva.
En esta ruta de clase, vamos a mostrar el histograma de frecuencias y corresponde a los estudiantes consultar
sobre la construcción del polígono de frecuencias y de la ojiva.
Para construir la distribución de frecuencias de datos agrupados se hace necesario seguir los siguientes pasos:
* Determinar la cantidad de clases ó intervalos de clase que se quiere utilizar
* Determinar el ancho de clase.
* Determinar los límites de cada clase (superior e inferior).
* Luego se completa la tabla con la marca de clase y las frecuencias absolutas y relativas respectivas.
Cantidad de Clases : K
El número de clases depende de la cantidad de datos. Es decir cuanto mayor sea el número de observaciones,
mayor será el número de clases que se requieren. La experiencia indica que el número de clases oscila entre 5
y 20. Por esto el investigador puede en un momento dado decidir entre 5 y 20 o también la estadística presenta
varias fórmulas para calcular este número.
Una forma útil de calcular la cantidad de clases es aplicar la fórmula : K = √𝑛
Siendo K el número de clases o número de grupos de datos en los que vamos a dividir el conjunto de datos y n
el total de datos de la muestra-
Ancho de Clase :C
Para establecer el ancho de clase lo primero que se debe hacer es encontrar el rango que es la diferencia
entre el valor máximo y el valor mínimo de la serie de datos y luego calcular el ancho de clase C, con K y el
rango.
Rango = valor máximo – valor mínimo
C = Rango / k Siendo C el ancho de clase.
Se deben escoger de tal manera que cada valor ó dato pertenezca a una sola clase.
El límite inferior de la primera clase será el valor mínimo de la serie de datos, luego a ese primer límite inferior
se le suma el ancho de clase para hallar el límite superior de ese primer intervalo de clase. Luego en el
segundo intervalo, se coloca el límite superior del primer intervalo como el límite inferior del segundo intervalo,
se le suma el ancho de clase para hallar el límite superior del segundo intervalo y así se continua hasta
completar el número de intervalos de clase que hemos definido.
NOTA:
1. Toda tabla o distribución de frecuencias para datos, debe llevar el nro de la tabla, el titulo, cuerpo de
la tabla y la fuente.
2. Se debe tener en cuenta que el primer intervalo es cerrado [ ], los demás intervalos serán abierto,
cerrado ( ], esto para garantizar que no se traslapen los intervalos de clase.
Marca de Clase : MC
Es el punto medio de cada intervalo de clase. Es un valor que representa a todos los datos del intervalo de
clase.
Un ejemplo:
El siguiente conjunto de datos corresponde al tiempo en minutos que tarda una muestra de niños de un
Instituto para la educación preescolar de niños en situación de discapacidad visual, en responder a una prueba
de escritura en braile.
Solución.
Note que el conjunto de datos es grande y contiene una variable cuantitativa continua. En este caso, se debe
realizar una distribución de frecuencias para datos agrupados
Pasos a seguir :
2. Hallar el rango
Rango = (5-0.6) = 4.4
Tabla No 1.
Distribución de frecuencias para el tiempo en minutos que tarda una muestra de niños de un
Instituto de Educación preescolar para niños en situación de discapacidad visual, en responder a
una prueba de escritura en braile.
1. Se observa que 26 niños, es decir el 20% de los niños del Instituto del estudio, demoraron entre 1.4 y
2.2 minutos en resolver la prueba.
2. El 84% (109) de los niños del Instituto en estudio, demoraron máximo 3.8 minutos en resolver la
prueba.
3. 62 niños, es decir el 48% de los niños del estudio demoraron más de 3 minutos en resolver la prueba.
Histograma de frecuencias:
El histograma, es una forma de graficar los datos que se encuentran en una distribución de frecuencias para
datos agrupados. Debemos tener en cuenta que el histograma nos da la misma información que nos da la
distribución de frecuencias, somos nosotros quienes decidimos si presentamos en el informe de resultados el
histograma o la distribución de frecuencias.
Gráfico No 1.
Histograma de frecuencias para el tiempo en minutos que tarda una muestra de
niños de un Instituto para educación preescolar de niños en situación de discapaci-
dad visual, en responder a una prueba de escritura en braile
45
40
35
30
Nro de niños
25
20
15
10
5
0
0,6 - 1,4 1,4 - 2,2 2,2 - 3 3 - 3,8 4 - 4,6 4,6 - 5,4
Tiempo
Fuente : Investigadores.
En este histograma, podemos ver que la distribución del conjunto de datos es asimétrica con sesgo negativo,
adicionalmente, podemos pensar que las medidas de tendencia central podrán estar ubicadas entre los
intervalos 2.2 – 3 y 3 – 3.8.
Trabajo para resolver de manera individual : Construya e interprete el polígono de frecuencias y la ojiva para
este conjunto de datos.
Cuando los datos están agrupados en una tabla de distribución de frecuencias, la media se calcula como:
∑ MC∗FA ∑ MC∗FA
Clases Clases
μ= X=
N n
Dónde:
La mediana para datos que se encuentra agrupados en una tabla de distribución de frecuencias se calcula
como:
Se ubica la clase donde se encuentra el 50% de FRA (frecuencia relativa acumulada) y sobre esa clase se
calcula
Me=LI clase +
( 50−FRA anterior
FR clase )
∗amplitud
Si los datos se encuentran agrupados en una tabla de distribución de frecuencias, la moda es el valor
alrededor del cual se encuentra la mayor concentración de información.
Si las clases tienen igual amplitud, se ubica la clase modal como la que tiene mayor frecuencia absoluta o
mayor frecuencia relativa, y sobre esa clase se calcula:
Cuando los datos se encuentran agrupados en una tabla de distribución de frecuencias, la varianza se calcula
como:
2
∑ ( MC−μ)2∗FA 2
∑ ( MC −X )2∗FA
σ = Clases S = Clases
N n−1
Primer cuartil
Q1=LI clase +
( 25−FRA anterior
FR clase )
∗amplitud
Tercer cuartil
Para hallar el rango intercuartil y los cercos superior e inferior, se utiliza la misma metodología y formulas
vistas en el caso de los datos sin agrupar.
Se ubica la clase que contiene el percentil deseado y sobre esa clase se calcula
P=LI clase +
( P %−FRA anterior
FR clase )∗amplitud
Se realizó un estudio sobre la edad a la que los jóvenes de una zona de alto riesgo social inician su
actividad delictiva. Los investigadores tomaron una muestra de 50 jóvenes de la zona y les
preguntaron la edad a la cual comenzaron a delinquir. Los resultados se resumieron en la siguiente
distribución de frecuencias. Se desea hacer el análisis exploratorio de los datos resumidos en esta
distribución de frecuencias
Tabla No 2.
Distribución de frecuencias para la edad en que una muestra de jóvenes de una zona de alto
riesgo social inician su actividad delictiva.
Frecuencia
Frecuencia Frecuencia
Marca Frecuencia Relativa
Clase Intervalo relativa Absoluta
de clase absoluta acumulada
(%) acumulada
(%)
1 (9-13] 11 8 16 8 16
2 (13-17] 15 13 26 21 42
3 (17-21] 19 10 20 31 62
4 (21-25] 23 9 18 40 80
5 (25-29] 27 6 12 46 92
6 (29-33] 31 4 8 50 100
TOTAL 50 100
Fuente : Investigadores.
Promedio
11∗8+15∗13+. . .+ 31∗4
X= =19.3
50
La edad promedio a la que comienza la actividad delictiva en los jóvenes de dicha zona es de 19.3 años.
La mediana
La clase que contiene 50% de frecuencia relativa acumulada es la clase 3, sobre esa clase se calcula:
Me=17+ ( 50−42
20 )
∗4=18.6
El 50% de los jóvenes comienza su actividad delictiva por debajo de los 18.6 años
La moda
La clase modal es la número 2, dado que tiene la mayor frecuencia absoluta, sobre esa clase se calcula:
Mo=13+ ( 2∗26−16−20
26−16
)∗4=15.5
La edad a la que con mayor frecuencia comienza la actividad delictiva los jóvenes de la zona es a los 15.5
años
La varianza
2 2
2 (11−19.3) ∗8+.. .+(31−19.3) ∗4
S= =37.12
49
La desviación estándar
S= √37.12=6.09
Coeficiente de variación
6.09
CV = ∗100=31.6 %
19.3
Cuartiles
Q1=13+ ( 25−16
26 )
∗4=14.4
El 25% de los jóvenes comenzó su actividad delictiva antes de las 14.4 años
Q3=2 1+ ( 75−62
18 )
∗4=23.9
El 75% de los jóvenes comenzó su actividad delictiva antes de las 23.9 años