Ruta de Clase Datos Agrupados

BIOESTADÍSTICA
Ruta de clase
TEMA: Datos agrupados
Objetivo: Resumir la información mediante datos agrupados
I. Preguntas Generales
a) ¿Cuándo debemos agrupar un conjunto de datos para poderlos interpretar?

b) ¿Cómo debemos agrupar el conjunto de datos?.
c) ¿Cómo se puede determinar el número de intervalos o clases para agrupar los datos?
d) ¿Cómo podemos construir la distribución de frecuencias para datos agrupados?
e) ¿Qué información podemos obtener de la distribución de frecuencias en datos agrupados?
f) ¿Cómo se representa una distribución de frecuencias de datos agrupados?
II. Introducción
Cuando el conjunto de datos contiene una gran cantidad de valores numéricos continuos, se hace necesario
construir la distribución de frecuencias, organizando o dividiendo el conjunto de datos en subgrupos llamados
intervalos de clase o simplemente clases, esto para facilitar los cálculos, la interpretación y análisis de estos
datos. Recordemos que uno de los objetivos de la estadística descriptiva es resumir el conjunto de datos y a
partir de este resumen identificar tendencias, realizar un análisis y poder tomar decisiones objetivas en
contextos definidos donde pertenecen los datos. Por esto la agrupación de datos hace parte de la estadística
descriptiva y ayuda al investigador a interpretar el conjunto de datos ya resumido.
Como ya sabemos, un conjunto de datos también se puede representar gráficamente. Si deseamos graficar
una distribución de frecuencias con datos agrupados, podemos hacer uso del histograma de frecuencias, el
polígono de frecuencias y la ojiva.
En esta ruta de clase, vamos a mostrar el histograma de frecuencias y corresponde a los estudiantes consultar
sobre la construcción del polígono de frecuencias y de la ojiva.
III. Construcción de una distribución de frecuencias para datos agrupados
Para construir la distribución de frecuencias de datos agrupados se hace necesario seguir los siguientes pasos:
* Determinar la cantidad de clases ó intervalos de clase que se quiere utilizar
* Determinar el ancho de clase.
* Determinar los límites de cada clase (superior e inferior).
* Luego se completa la tabla con la marca de clase y las frecuencias absolutas y relativas respectivas.
Cantidad de Clases : K
El número de clases depende de la cantidad de datos. Es decir cuanto mayor sea el número de observaciones,
mayor será el número de clases que se requieren. La experiencia indica que el número de clases oscila entre 5
y 20. Por esto el investigador puede en un momento dado decidir entre 5 y 20 o también la estadística presenta
varias fórmulas para calcular este número.
Una forma útil de calcular la cantidad de clases es aplicar la fórmula : K = √𝑛
Siendo K el número de clases o número de grupos de datos en los que vamos a dividir el conjunto de datos y n
el total de datos de la muestra-
Ancho de Clase :C
Para establecer el ancho de clase lo primero que se debe hacer es encontrar el rango que es la diferencia
entre el valor máximo y el valor mínimo de la serie de datos y luego calcular el ancho de clase C, con K y el
rango.
Rango = valor máximo – valor mínimo
C = Rango / k Siendo C el ancho de clase.
Límites de Clase o límites del intervalo de clase : (LI, LS)
Se deben escoger de tal manera que cada valor ó dato pertenezca a una sola clase.
El límite inferior de la primera clase será el valor mínimo de la serie de datos, luego a ese primer límite inferior
se le suma el ancho de clase para hallar el límite superior de ese primer intervalo de clase. Luego en el
segundo intervalo, se coloca el límite superior del primer intervalo como el límite inferior del segundo intervalo,
se le suma el ancho de clase para hallar el límite superior del segundo intervalo y así se continua hasta
completar el número de intervalos de clase que hemos definido.
NOTA:
1. Toda tabla o distribución de frecuencias para datos, debe llevar el nro de la tabla, el titulo, cuerpo de
la tabla y la fuente.
2. Se debe tener en cuenta que el primer intervalo es cerrado [ ], los demás intervalos serán abierto,
cerrado ( ], esto para garantizar que no se traslapen los intervalos de clase.
Marca de Clase : MC
Es el punto medio de cada intervalo de clase. Es un valor que representa a todos los datos del intervalo de
clase.
Un ejemplo:
El siguiente conjunto de datos corresponde al tiempo en minutos que tarda una muestra de niños de un
Instituto para la educación preescolar de niños en situación de discapacidad visual, en responder a una prueba
de escritura en braile.
0,6 1,6 2,1 2,5 2,9 3,2 3,5 3,7 4,4

0,8 1,6 2,1 2,6 2,9 3,2 3,5 3,8 4,4
0,8 1,6 2,2 2,6 2,9 3,2 3,5 3,8 4,4
0,9 1,7 2,2 2,6 2,9 3,2 3,5 3,8 4,6
1 1,7 2,2 2,7 2,9 3,2 3,5 3,9 4,6
1 1,7 2,2 2,7 2,9 3,2 3,5 4 4,6
1,1 1,8 2,2 2,7 3 3,2 3,5 4 4,7
1,2 1,8 2,2 2,7 3 3,3 3,5 4 4,7
1,3 1,8 2,2 2,8 3,1 3,3 3,6 4 4,8
1,3 1,8 2,4 2,8 3,1 3,3 3,6 4,1 5
1,4 1,9 2,4 2,8 3,1 3,4 3,7 4,2
1,4 1,9 2,5 2,8 3,1 3,4 3,7 4,2
1,4 1,9 2,5 2,8 3,1 3,4 3,7 4,2
1,5 1,9 2,5 2,8 3,1 3,4 3,7 4,2
1,5 1,9 2,5 2,8 3,1 3,5 3,7 4,3
A partir de estos datos se pide realizar una distribución de frecuencias e interpretar la información.
Solución.
Note que el conjunto de datos es grande y contiene una variable cuantitativa continua. En este caso, se debe
realizar una distribución de frecuencias para datos agrupados
Pasos a seguir :
1. Decidir cuantos en cuantos intervalos de clase se va a agrupar todo el conjunto de datos.

Por decisión del investigador, se deciden 6 intervalos de clase.
2. Hallar el rango
Rango = (5-0.6) = 4.4
3. Calcular el ancho de clase

C = 4.4/6 = 0.73. Es aconsejable aproximar por exceso este ancho de clase, para evitar que algún
dato quede fuera de los intervalos de clase, en este caso C = 0.8
4. Construir los intervalos de clase (Ver tabla).
5. Construir la marca de clase (Ver tabla).
6. Construir la tabla de distribución de frecuencias. (Ver tabla).
Tabla No 1.
Distribución de frecuencias para el tiempo en minutos que tarda una muestra de niños de un
Instituto de Educación preescolar para niños en situación de discapacidad visual, en responder a
una prueba de escritura en braile.
Intervalo de clase Frec. Rel.

Marca de Frecuencia Frecuencia Frec. Abs.
Clase acumulada
Li Ls Clase absoluta relativa (%) Acum.
(%)
1 0,6 1,4 2 13 10 13 10
2 1,4 2,2 3,6 26 20 39 30
3 2,2 3 5,2 29 22 68 52
4 3 3,8 6,8 41 32 109 84
5 3,8 4,6 8,4 17 13 126 97
6 4,6 5,4 10 4 3 130 100
130
Fuente: Investigadores sociales.
Alguna interpretación de los resultados obtenidos en la tabla de distribución de frecuencias:
1. Se observa que 26 niños, es decir el 20% de los niños del Instituto del estudio, demoraron entre 1.4 y
2.2 minutos en resolver la prueba.
2. El 84% (109) de los niños del Instituto en estudio, demoraron máximo 3.8 minutos en resolver la
prueba.
3. 62 niños, es decir el 48% de los niños del estudio demoraron más de 3 minutos en resolver la prueba.
Histograma de frecuencias:
El histograma, es una forma de graficar los datos que se encuentran en una distribución de frecuencias para
datos agrupados. Debemos tener en cuenta que el histograma nos da la misma información que nos da la
distribución de frecuencias, somos nosotros quienes decidimos si presentamos en el informe de resultados el
histograma o la distribución de frecuencias.
Para el ejemplo que traemos, el histograma de frecuencias es el siguiente:
Gráfico No 1.
Histograma de frecuencias para el tiempo en minutos que tarda una muestra de
niños de un Instituto para educación preescolar de niños en situación de discapaci-
dad visual, en responder a una prueba de escritura en braile
45
40
35
30
Nro de niños
25
20
15
10
5
0
0,6 - 1,4 1,4 - 2,2 2,2 - 3 3 - 3,8 4 - 4,6 4,6 - 5,4
Tiempo
Fuente : Investigadores.
En este histograma, podemos ver que la distribución del conjunto de datos es asimétrica con sesgo negativo,
adicionalmente, podemos pensar que las medidas de tendencia central podrán estar ubicadas entre los
intervalos 2.2 – 3 y 3 – 3.8.
Trabajo para resolver de manera individual : Construya e interprete el polígono de frecuencias y la ojiva para
este conjunto de datos.
IV. Medidas de tendencia central en datos agrupados
Cuando los datos están agrupados en una tabla de distribución de frecuencias, la media se calcula como:
Media poblacional Media muestral
∑ MC∗FA ∑ MC∗FA
Clases Clases
μ= X=
N n
Dónde:
MC es la marca de cada una de las clases

FA es la frecuencia absoluta de cada clase
N es el número de individuos o tamaño de la población
n es el número de individuos o tamaño de la muestra
La mediana para datos que se encuentra agrupados en una tabla de distribución de frecuencias se calcula
como:
Se ubica la clase donde se encuentra el 50% de FRA (frecuencia relativa acumulada) y sobre esa clase se
calcula
Me=LI clase +
( 50−FRA anterior
FR clase )
∗amplitud
Si los datos se encuentran agrupados en una tabla de distribución de frecuencias, la moda es el valor
alrededor del cual se encuentra la mayor concentración de información.
Si las clases tienen igual amplitud, se ubica la clase modal como la que tiene mayor frecuencia absoluta o
mayor frecuencia relativa, y sobre esa clase se calcula:
Mo=LI clase+ ( FR clase−FR anterior

)
2∗FR clase −FR anterior −FR posterior
∗amplitud
V. Medidas de dispersión o variabilidad
Cuando los datos se encuentran agrupados en una tabla de distribución de frecuencias, la varianza se calcula
como:
Varianza poblacional Varianza muestral
2
∑ ( MC−μ)2∗FA 2
∑ ( MC −X )2∗FA
σ = Clases S = Clases
N n−1
VI. Medidas de posición
Los cuartiles en datos agrupados se calcula como:
Primer cuartil
Se ubica la clase que contiene el 25% de FRA
Q1=LI clase +
( 25−FRA anterior
FR clase )
∗amplitud
Tercer cuartil
Se ubica la clase que contiene el 75% de FRA

Q3=LI clase +
( 75−FRA anterior
FR clase )
∗amplitud
Para hallar el rango intercuartil y los cercos superior e inferior, se utiliza la misma metodología y formulas
vistas en el caso de los datos sin agrupar.
Para cualquier percentil
Se ubica la clase que contiene el percentil deseado y sobre esa clase se calcula
P=LI clase +
( P %−FRA anterior
FR clase )∗amplitud
Ejercicio completo para datos agrupados
Se realizó un estudio sobre la edad a la que los jóvenes de una zona de alto riesgo social inician su
actividad delictiva. Los investigadores tomaron una muestra de 50 jóvenes de la zona y les
preguntaron la edad a la cual comenzaron a delinquir. Los resultados se resumieron en la siguiente
distribución de frecuencias. Se desea hacer el análisis exploratorio de los datos resumidos en esta
distribución de frecuencias
Tabla No 2.
Distribución de frecuencias para la edad en que una muestra de jóvenes de una zona de alto
riesgo social inician su actividad delictiva.
Frecuencia
Frecuencia Frecuencia
Marca Frecuencia Relativa
Clase Intervalo relativa Absoluta
de clase absoluta acumulada
(%) acumulada
(%)
1 (9-13] 11 8 16 8 16
2 (13-17] 15 13 26 21 42
3 (17-21] 19 10 20 31 62
4 (21-25] 23 9 18 40 80
5 (25-29] 27 6 12 46 92
6 (29-33] 31 4 8 50 100
TOTAL 50 100
Fuente : Investigadores.
Promedio
11∗8+15∗13+. . .+ 31∗4
X= =19.3
50
La edad promedio a la que comienza la actividad delictiva en los jóvenes de dicha zona es de 19.3 años.
La mediana
La clase que contiene 50% de frecuencia relativa acumulada es la clase 3, sobre esa clase se calcula:
Me=17+ ( 50−42
20 )
∗4=18.6
El 50% de los jóvenes comienza su actividad delictiva por debajo de los 18.6 años
La moda
La clase modal es la número 2, dado que tiene la mayor frecuencia absoluta, sobre esa clase se calcula:
Mo=13+ ( 2∗26−16−20
26−16
)∗4=15.5
La edad a la que con mayor frecuencia comienza la actividad delictiva los jóvenes de la zona es a los 15.5
años
La varianza
2 2
2 (11−19.3) ∗8+.. .+(31−19.3) ∗4
S= =37.12
49
La varianza de la edad de inicio de la actividad delictiva es de 37.12 años2
La desviación estándar
S= √37.12=6.09
La desviación estándar de la edad de inicio de la actividad delictiva es de 6.09 años
Coeficiente de variación
6.09
CV = ∗100=31.6 %
19.3
El porcentaje de variabilidad de la edad de inicio de la actividad delictiva es de 31.6%
Cuartiles
La clase que tiene 25% de FRA acumulada es la clase 2
Q1=13+ ( 25−16
26 )
∗4=14.4
El 25% de los jóvenes comenzó su actividad delictiva antes de las 14.4 años
La clase que tiene 75% de FRA acumulada es la clase 2
Q3=2 1+ ( 75−62
18 )
∗4=23.9
El 75% de los jóvenes comenzó su actividad delictiva antes de las 23.9 años
VII. Ejercicios del taller
Realizar previo a la clase los ejercicios 1, 2, 3 y 4 del taller de datos agrupados

Ruta de Clase Datos Agrupados

Cargado por

Copyright:

Formatos disponibles

Ruta de Clase Datos Agrupados

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Ruta de Clase Datos Agrupados

Cargado por

Copyright:

Formatos disponibles

BIOESTADÍSTICA

Objetivo: Resumir la información mediante datos agrupados

a) ¿Cuándo debemos agrupar un conjunto de datos para poderlos interpretar?

III. Construcción de una distribución de frecuencias para datos agrupados

Límites de Clase o límites del intervalo de clase : (LI, LS)

0,6 1,6 2,1 2,5 2,9 3,2 3,5 3,7 4,4

1. Decidir cuantos en cuantos intervalos de clase se va a agrupar todo el conjunto de datos.

3. Calcular el ancho de clase

4. Construir los intervalos de clase (Ver tabla).

5. Construir la marca de clase (Ver tabla).

6. Construir la tabla de distribución de frecuencias. (Ver tabla).

Intervalo de clase Frec. Rel.

Fuente: Investigadores sociales.

Alguna interpretación de los resultados obtenidos en la tabla de distribución de frecuencias:

Para el ejemplo que traemos, el histograma de frecuencias es el siguiente:

IV. Medidas de tendencia central en datos agrupados

Media poblacional Media muestral

MC es la marca de cada una de las clases

Mo=LI clase+ ( FR clase−FR anterior

V. Medidas de dispersión o variabilidad

Varianza poblacional Varianza muestral

VI. Medidas de posición

Los cuartiles en datos agrupados se calcula como:

Se ubica la clase que contiene el 25% de FRA

Se ubica la clase que contiene el 75% de FRA

Para cualquier percentil

Ejercicio completo para datos agrupados

La varianza de la edad de inicio de la actividad delictiva es de 37.12 años2

La desviación estándar de la edad de inicio de la actividad delictiva es de 6.09 años

El porcentaje de variabilidad de la edad de inicio de la actividad delictiva es de 31.6%

La clase que tiene 25% de FRA acumulada es la clase 2

La clase que tiene 75% de FRA acumulada es la clase 2

VII. Ejercicios del taller

Realizar previo a la clase los ejercicios 1, 2, 3 y 4 del taller de datos agrupados

También podría gustarte