2023 Estadística Descriptiva Medidas Datos Agrupados

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 20

FUNDAMENTOS DE ESTADÍSTICA DESCRIPTIVA

Medidas de Resumen.- Medidas Estadísticas en Datos Agrupados


(Tendencia Central, Posición, Variación y Forma)

GENERACIÓN DE PRODUCTO: Manual o Producto Publicable de Apoyo

Documento de Docencia

Rojas Vega Homero Abraham

Trujillo Trujillo Carlos Francisco

UNIVERSIDAD COOPERATIVA DE COLOMBIA

FACULTAD DE INGENIERÍAS

PROGRMA DE INGENIERÍA CIVIL

NEIVA

2023
Fundamentos de Estadística descriptiva.

4. Medidas Descriptivas

Medidas de Tendencia Central


Media.

Mediana.

Moda.

Medidas de Posición
Cuartiles.

Deciles.

Percentiles.

Medidas de Variabilidad.
Rango.

Rango Intercuartílico.

Varianza.

Desviación Estándar.

Coeficiente de Variación.

Medida de Forma
Coeficiente de Asimetría.

Medida de Altura
Coeficiente de Curtosis.

APLICACIÓN N° 8.
Medidas Estadísticas en Datos Agrupados.- (Medidas de Tendencia Central, Posición,
Variabilidad, Forma y Altura)

Las medidas numéricas resumen para datos agrupados, provenientes de datos no agrupados
en una muestra, se les reconoce también como estadísticas. Pueden encontrarse en el centro,
medidas de tendencia central o de centralización; presentarse en cualquier otra ubicación,
medidas de posición o de localización; medir variabilidad de los datos, medidas de dispersión
o variación; e identificar cómo se reúnen, el comportamiento y la agudeza, medidas de forma;
de una distribución.

Las medidas estadísticas o medidas resumen para datos agrupados, se definen, expresan y
calculan a continuación:

Medidas de Tendencia Central. - Conocidas también como medidas de centro o centralización.


Las medidas de este tipo, consideradas significativas o de mayor importancia son: La Media
Aritmética, la Mediana y la Moda.

La Media Aritmética. - Denominada también promedio, considerada la medida de tendencia


central más robusta, registrada como Equis Barra ( x ), resume en un solo valor numérico lo
que sucede con la distribución, utiliza para su cálculo la participación de todos los datos y se
calcula con la fórmula o ecuación reconocida con la expresión,
 x i ni
x=
n
Sea x i una variable cuantitativa con datos numéricos expresados como x 1 , x 2 ,. . ., x n , y n i
frecuencias absolutas asignadas a cada valor de la variable, expresadas como n 1 , n 2 ,..., n n ,
la forma de calcular la medida numérica resumen de los datos llamada media aritmética, es:

x =
 x i ni x n + x2 n2 +
= 1 1
... + xn n n
n n
Donde x 1 n 1 , x 2 n 2 ,..., x n n n es el producto de valores de la variable x i multiplicados por su
frecuencia, los cuales se deben sumar, y n el total de datos o sumatoria de las frecuencias,
valor por el cual se debe dividir la sumatoria de los productos.

La Mediana. - Medida tratada aquí como de tendencia central, considerada por algunos autores
como de posición, se registra como Equis Tilde ( ~
x ).

Se debe establecer el punto o posición p (~


x ) donde se encuentra situada la mediana, así:
k ( n)
p (~
x) = Con: k = 50, porcentaje que representa, y n = sumatoria de las frecuencias.
100

La posición así calculada se ubica en la columna de frecuencias absolutas acumuladas (N i). Si


se localiza entre dos valores de esta columna, se le llama grupo K al intervalo que corresponde
al valor acumulado posterior a la posición, grupo donde se encuentra la mediana.

 p (~x ) - N k − 1 
x = Lím. Inf .Grupo k + A 
~ 
 n 
 k 
~
La mediana ( x ) se calcula sumándole al límite inferior del grupo k el producto de la amplitud
multiplicada por el valor resultante de dividir la diferencia entre la posición de la mediana y el
valor en la columna de frecuencias acumuladas anterior a la posición, una vez dividido entre
la frecuencia en el grupo k. Es decir, para facilitar el cálculo y el entendimiento de la fórmula,
~
reste primero de la posición de la mediana p ( x ) el valor de la frecuencia absoluta acumulada
anterior al grupo k, (N k-1), divida la diferencia por la frecuencia absoluta del grupo k, ( n k), el
resultado se multiplica por la amplitud, (A), y el resultado de este producto se suma al límite
inferior del intervalo en el grupo k. De esta manera se calcula la mediana ( x ).
~

El procedimiento que aquí se expresa para la obtención de la mediana, ( ~ x ), se debe tener en


cuenta al trabajar las estadísticas o medidas resumen de localización o de posición, como son:
cuartiles, deciles y percentiles, por utilizar el mismo método para el cálculo de la posición y la
medida; cambia el valor de ( k ) o porcentaje que representa cada una de ellas, base para el
cálculo de la posición, ubicar la posición en las frecuencias absolutas acumuladas, determinar
el grupo k y continuar con el proceso para determinar la correspondiente medida.

La Moda. - Se denota como (Mo), se considera la medida de centro menos robusta, obedece
a observar en la columna de frecuencia absoluta (n i) cual es el valor más grande, establecer
el intervalo al que pertenece dicha frecuencia, considerar ese intervalo como el intervalo modal
y la marca de clase de ese intervalo será la moda de la distribución. Puede haber o no haber
moda. Si la distribución no tiene moda es AMODAL, pero si tiene moda se puede dar que la
distribución tenga una sola moda, UNIMODAL, tenga dos modas, BIMODAL, tres o más modas,
en cuyo caso es, MULTIMODAL.

En las medidas de centro, Media Aritmética, Mediana y Moda, los cálculos suelen dar valores
o resultados diferentes en la distribución; solo si ésta además de presentar una progresión
aritmética presenta simetría, entonces se da que: x = ~ x = Mo

Medidas de Posición. - Se llaman también medidas de localización o de ubicación. Se presentan


los Cuartiles (uno, dos y tres), los Deciles (uno, dos, tres, . . ., hasta el nueve) y los Percentiles
(uno, dos, tres, . . ., hasta el noventa y nueve).

El método para obtener la posición donde se encuentra ubicada la medida estadística y calcular
la medida que se busca, es igual al planteado para la mediana.

Quartiles. - Corresponden a tres puntos que dividen la distribución en cuatro partes iguales,
equivaliendo cada parte a un 25%. Es así como el Cuartil uno (Q1) es el valor en la distribución
que se hace mayor al 25% pero inferior al otro 75%, el Cuartil dos (Q2) mayor que el 50%
pero menor al otro 50% y el Cuartil tres (Q3) mayor que el 75% pero menor que el otro 25%.

La posición de los Cuartiles o sitio donde se ubica la medida, se obtiene con la fórmula:
k (n)
p (Q1) = Con: k = 25, porcentaje que representa, y n = sumatoria de las frecuencias.
100

k ( n)
p (Q2 ) = Con: k = 50, porcentaje que representa, y n = sumatoria de las frecuencias.
100

k ( n)
p (Q3 ) = Con: k = 75, porcentaje que representa, y n = sumatoria de las frecuencias.
100
La posición así calculada se ubica en la columna de frecuencia absoluta acumulada (N i). Si se
localiza entre dos valores de esta columna, se llama grupo K al intervalo que corresponde el
valor acumulado posterior a la posición, grupo donde se encuentra el cuartil que se busca.

 p (Q ) - N 
Q = Lím. Inf .Grupok + A  k −1 
 nk 
 

Cualquiera de los tres cuartiles (Q1, Q2, Q3) se calcula sumándole al límite inferior del grupo k
el producto de la amplitud multiplicada por el valor resultante de dividir la diferencia entre la
posición del correspondiente cuartil y el valor en la columna de frecuencia absoluta acumulada
anterior a la posición, una vez dividido entre la frecuencia en el grupo k. Para facilitar el cálculo
y entendimiento de la fórmula, reste de la posición del respectivo cuartil que se busca el valor
de la frecuencia absoluta acumulada anterior al grupo k, (es decir N k-1), divida esta diferencia
por la frecuencia absoluta del grupo k (es decir n k), el resultado de esta división se multiplica
por la amplitud (A) y el resultado de este producto se le suma al límite inferior del intervalo
en el grupo k. De esta manera se encuentra el cuartil que se busca (Q1, Q2, o Q3).

Deciles. - Corresponden a nueve puntos que dividen la distribución en diez (10) partes iguales,
equivaliendo cada parte a un 10%. Es así como el Decil uno (D1) es el valor en la distribución
que se hace mayor al 10% pero menor al 90%, el Decil dos (D2) mayor que el 20% pero
menor al 80%, el Decil tres (D3) mayor que el 30% pero menor al 70% y así sucesivamente
hasta el Decil nueve (D9) mayor que el 90% pero menor al 10%.

La posición de los Deciles o sitio donde se ubica la medida, se obtiene con la fórmula:
k ( n)
p ( D1) = Con: k = 10, porcentaje que representa, y n = sumatoria de las frecuencias.
100

k (n)
p ( D2 ) = Con: k = 20, porcentaje que representa, y n = sumatoria de las frecuencias.
100

k ( n)
p ( D3 ) = Con: k = 30, porcentaje que representa, y n = sumatoria de las frecuencias.
100

Para calcular posición de Decil cuatro p ( D 4) k =40; p ( D 5) k =50; p ( D 6) k =60; p ( D 7 ) k =70;


p ( D 8) k =80; y p ( D 9) k =90. Para todas las posiciones n = sumatoria de las frecuencias.
La posición así calculada se ubica en la columna de frecuencia absoluta acumulada (N i). Si se
localiza entre dos valores de esta columna, se llama grupo K al intervalo que corresponde el
valor acumulado posterior a la posición, grupo donde se encuentra el decil que se busca.

 p (D ) - N k − 1 
D = Lím. Inf .Grupo k + A  
 n 
 k 
Cualquiera de los nueve deciles (D1, D2, D3, . . ., D9) se calcula sumándole al límite inferior del
grupo k o grupo donde se encuentre la posición, el producto de la amplitud multiplicada por
el valor resultante de dividir la diferencia entre la posición del correspondiente decil y el valor
en la columna de frecuencias absolutas acumuladas anterior a la posición, dividido entre la
frecuencia en el grupo k. Es decir, para facilitar el cálculo y el entendimiento de la fórmula,
primero reste de la posición del respectivo decil que se busca el valor en la columna de la
frecuencia acumulada anterior a la del grupo k, (es decir N k-1), divida esta diferencia entre la
frecuencia absoluta del grupo k (n k), el resultado de esta división multiplíquelo por la amplitud
(A) y el resultado de este producto se suma al límite inferior del intervalo en el grupo k, para
encontrar de esta manera el decil que se busca, bien sea, (D1, D2, D3, . . ., o D9).

Percentiles. - Corresponden a noventa nueve puntos que dividen la distribución en cien partes
iguales, equivaliendo cada parte a un 1%. Es así como el Percentil uno (P1) es el valor que se
hace mayor, en la distribución, al 1% pero menor que el 99%, el Percentil dos (P2) mayor que
el 2% pero menor que el 98%, el Percentil tres (P3) mayor que el 3% pero menor que el 97%
y así sucesivamente hasta el Percentil noventa y nueve (P 99) que se hace mayor que el 99%
pero menor que el 1%.

La posición de los Percentiles o sitio donde se ubica la medida, se obtiene con la fórmula:
k (n)
p ( P1) = Con: k = 1, porcentaje que representa, y n = sumatoria de las frecuencias.
100

k ( n)
p ( P2 ) = Con: k = 2, porcentaje que representa, y n = sumatoria de las frecuencias.
100

k ( n)
p ( P3 ) = Con: k = 3, porcentaje que representa, y n = sumatoria de las frecuencias.
100

Así hasta calcular p ( P99 ) con k =99 y para todas con n = sumatoria de las frecuencias.
La posición así calculada se ubica en la columna de frecuencia absoluta acumulada (N i). Si se
localiza entre dos valores de esta columna, se llama grupo K al intervalo que corresponde el
valor acumulado posterior a la posición, grupo donde se encuentra el percentil que se busca.

 p (P ) - N 
k −1 
P = Lím. Inf .Grupo k + A 
 nk 
 

Cualquiera de los noventa y nueve percentiles (P1, P2, P3, ..., p99) se calcula sumándole al límite
inferior del grupo k el producto de la amplitud multiplicada por el valor resultante de dividir la
diferencia entre la posición del correspondiente percentil y el valor en la columna de frecuencia
absoluta acumulada anterior a la posición, una vez dividido entre la frecuencia en el grupo k.
Para facilitar el cálculo y entendimiento de la fórmula, reste de la posición del percentil que se
busca el valor de la frecuencia absoluta acumulada anterior al grupo k, (es decir N k-1), divida
esta diferencia por la frecuencia absoluta del grupo k (es decir n k), el resultado de esta división
se multiplica por la amplitud (A) y el resultado de este producto se le suma al límite inferior
del intervalo en el grupo k. De esta manera se encuentra el percentil que se busca, bien sea,
(P1, P2, P3, . . ., o P99).

Medidas de Variación. - Llamadas también de Dispersión. Miden variabilidad de los datos en


la distribución respecto a la media aritmética o promedio como medida de centro o de
tendencia central. Se trabaja el Rango, el Rango Intercuartílico, la Varianza, la Desviación
Estándar y el Coeficiente de Variación.

Rango. - El Rango ( R ) llamado también Recorrido, corresponde a la diferencia que existe entre
el valor máximo y el valor mínimo de la variable xi. R= x Máx − x Mín
Determina variabilidad, rango o recorrido, entre el mayor y el menor valor de la distribución.
Rango Intercuartílico. - El Rango Intercuartílico ( R.I .C. ) corresponde a la diferencia que existe
entre el cuartil máximo, cuartil tres, y el cuartil mínimo, cuartil uno. R.I .C. = Q3 − Q1

Determina variabilidad, rango o recorrido que existe en el cincuenta por ciento (50%) central
de la distribución, es decir entre el cuartil mayor y el cuartil menor, para ella calculados.

2
Varianza. - Se reconoce como S y representa el promedio de las variaciones o desviaciones,
calculadas respecto a la media, elevadas al cuadrado y ponderadas por las frecuencias, se
dice que es el segundo momento de la distribución ya que la media es el primer momento.

Se calcula estableciendo las desviaciones de los diferentes valores que toma la variable, en el
caso de datos agrupados discretos, o marcas de clase, en el caso de datos agrupados en clases
o intervalos, calculadas respecto a la media aritmética (xi - x ). Las desviaciones se elevan al
cuadrado (xi - x )2, se ponderan por las frecuencias [(xi - x )2 ni], se suman [  (xi - x )2 ni] y se
divide por (n-1). Se establece la Varianza bajo la fórmula o ecuación conocida con la expresión,

( x i - x ) 2 ni
S2 =
n −1
Para ilustrar el cálculo de la Varianza por medio de reemplazamiento en la fórmula se parte
de que sea x i los diferentes valores que toma una variable, en el caso de datos agrupados
discretos, o las marcas de clase, en el caso de datos agrupados en clases o intervalos, datos
de una variable cuantitativa expresados en forma numérica como x 1 , x 2 ,. . ., x n , sea equis
barra x la media o promedio calculado para datos agrupados a ser restado, sea ni las
frecuencias que se expresan como n 1 , n 2 ,..., n n asignadas a los diferentes valores de la
variable o a las marcas de clase de los intervalos y sea n=  ni = total de datos, la forma de
calcular la medida numérica resumen que expresa el promedio de las desviaciones al cuadrado
de esos valores respecto de su media aritmética, llamada Varianza, será:

S 2 = ( xi - x ) ni = ( x1 - x ) n 1 + ( x 2 - x ) n 2 + . . . + ( xk - x ) n k
2 2 2 2
n −1 n −1

Se retoma lo ilustrado para el cálculo de varianza reemplazamiento en fórmula, pero ahora se


utiliza extensión de tabla. Se parte de las clases o intervalos resultantes del procedimiento de
clasificación para agrupar, se establecen marcas de clase x i con sus respectivas frecuencias
n i y se continúa con las operaciones que plantea el encabezado de la tabla.

(x i-1 - x i+1) xi ni ( xi - x ) ( x i - x )2 ( x i - x )2 n i
(x i-1 - x i+1) x1 n1 ( x1 - x) ( x1 - x )2 ( x1 - x )2 n 1
(x i+1 - x i+2) x2 n2 ( x2 - x) ( x2 - x )2 ( x2 - x )2 n 2
* * * * * *
* * * * * *
* * * * * *
(x k-1 - x k+1) xk nk ( xk - x) ( xk - x )2 ( xk - x )2 n k
Total ∑n i = n ( xi - x ) 2 n i =
El total de la columna de encabezado (xi - x )2 ni, es decir  (xi - x )2 ni, es el valor que se
divide por (n-1) y de esta forma se calcula la Varianza.

Desviación Estándar. - Se conoce como ( S ) . Refleja el promedio de variaciones o desviaciones


de los valores que toma la variable xi en el caso de datos agrupados discretos o las marcas
de clase en el caso de datos agrupados en clases o intervalos, respecto a la media aritmética
o promedio (x ) . Su cálculo obedece a la raíz cuadrada de la Varianza.

S= S2

Coeficiente de Variación. - Se conoce como ( C. .V . ). Refleja el porcentaje de variabilidad de la


distribución. Se calcula dividiendo la Desviación Estándar por la media aritmética, multiplicado
ese resultado por 100.
S
C. V . = * 100
x

Medidas de Forma. - Una manera de entender el comportamiento o tendencia, sin graficar, de


unos datos agrupados o la distribución de los mismos, se basa en la relación entre sus medidas
de centro, centralización o de tendencia central; media x , mediana ~x y moda Mo.

La tendencia de una distribución en el caso de datos agrupados, se observa con la medida de


forma conocida como Asimetría. La distribución puede ser Asimétrica o Simétrica.

La distribución Asimétrica puede mostrar Asimetría positiva o negativa según presente mayor
cantidad de valores superiores a la media o inferiores a ella, respectivamente.

La distribución es Asimétrica positiva cuando la mayor cantidad de valores son superiores que
la media. Al cumplirse esta condición, se da también que las desviaciones positivas por valores
superiores que la media son mayores que las negativas por valores inferiores a ella. Presenta
además que la suma de las desviaciones da como resultado un valor positivo, es decir mayor
a cero (>o). Cuando la distribución presenta Asimétrica positiva o a la derecha cumple también
la condición: Media x mayor que la Mediana ~x mayor que la Moda Mo.
En símbolos x > ~ x > Mo

La distribución es Asimétrica negativa cuando la mayor cantidad de valores son inferiores que
la media. Al cumplir esta condición, se da también que las desviaciones negativas por valores
inferiores que la media son mayores que las positivas por valores superiores que ella. Presenta
además que la suma de las desviaciones da como resultado un valor negativo, es decir menor
a cero (<o). Cuando la distribución exhibe Asimétrica negativa o a la izquierda cumple también
la condición: Media x menor que la Mediana ~x menor que la Moda Mo.
En símbolos x < ~ x < Mo

La distribución es Simétrica cuando la cantidad de valores superiores e inferiores que la media


son iguales. La cantidad de desviaciones positivas y negativas son iguales y su suma es igual
a cero (=0). Cumple la condición: Media x igual a la Mediana ~x igual a la Moda Mo.
En símbolos x = ~x = Mo
Uno de los coeficientes para calcular la Asimetría y determinar si la distribución es Asimétrica
positiva o a la derecha, Asimétrica negativa o a la izquierda o Simétrica, es el Coeficiente de
Asimetría de Karl Pearson, dado por la fórmula que relaciona el multiplicar por tres la diferencia
entre la Media y la Mediana y dividir por la desviación estándar.

3( x - ~
x)
A=
S

Según si el resultado es positivo o mayor que cero (0), negativo o menor que cero (0), o si es
igual a cero (0), el análisis del Coeficiente de Asimetría (A) que se obtiene al utilizar la fórmula
de Karl Pearson, muestra que:

La distribución es Asimétrica Positiva o a la derecha si la diferencia entre la Media y la Mediana


multiplicada por tres y dividida por la Desviación Estándar, da como resultado un valor mayor
que cero (0), es decir arroja un valor positivo.
A  0 Luego Valor (+ )

La distribución es Asimétrica Negativa o a la izquierda si la diferencia entre la Media y Mediana


multiplicada por tres y dividida por la Desviación Estándar, da como resultado un valor menor
que cero (0), es decir arroja un valor negativo.

A  0 Luego Valor (−)

La distribución es Simétrica si la diferencia entre la Media y la Mediana multiplicada por tres


y dividida por la Desviación Estándar, da como resultado cero (0).

A=0

Si bien la tendencia de la distribución la establece la asimetría o simetría, para determinar su


aspecto o la agudeza se tiene la medida conocida como Curtosis o Apuntamiento.

El Coeficiente de Curtosis establece el aspecto o agudeza de la distribución. Determina si esta


es más puntiaguda que la distribución Normal, igual de apuntada a la Normal o más aplanada
que la Normal. Una de las fórmulas para calcular el Coeficiente de Curtosis (C), es la siguiente:

( xi − x ) ni
4

C= n − 3
2
 ( xi − x ) 2 ni 
 
 n 
 
La distribución es Leptocúrtica si es más puntiaguda que la Normal, mayor concentración en
los valores centrales de la variable y cumple con: C  0 Luego Valor (+)

La distribución es Mesocúrtica si es igual de apuntada a la Normal y cumple con: C =0

La distribución es Platocúrtica si es más aplanada que la Normal, menor concentración en los


valores centrales de la variable y cumple con: C  0 Luego Valor (−)
APLICACIÓN N° 8.
Para esta aplicación N° 8 se toma la información con la que se trabajó en la aplicación N° 5,
se parte de las calificaciones o notas definitivas del semestre de cuarenta (40) estudiantes de
dos (2) de los cursos de Estadística Descriptiva, cuyos datos inicialmente presentados como
no agrupados, se les aplica el procedimiento de clasificación de Sturges para ser agrupados
en clases o intervalos, dando como resultado la siguiente tabla de distribución de frecuencias,
base para el cálculo de las Medidas Estadísticas Numéricas de Resumen.

Calificaciones Calificaciones N° de
definitivas definitivas Estudiantes
(x i - 1 - x i + 1) (x i) (n i)
(2.0 – 2.3) 2.15 3
(2.3 – 2.6) 2.45 4
(2.6 – 2.9) 2.75 6
(2.9 – 3.2) 3.05 10
(3.2 – 3.5) 3.35 8
(3.5 – 3.8) 3.65 5
(3.8 – 4.1) 3.95 4
Total Total 40

La aplicación de las medidas numéricas resumen en datos agrupados se plantea bajo enfoques
conocidos como reemplazamiento en fórmula o por ampliación de tabla. Para el caso de las
medidas de centro, Media aritmética, Mediana y Moda, se tiene:

Media Aritmética. - Para su cálculo, se multiplica todos y cada uno de los valores de las marcas
de clase x i por su correspondiente frecuencia n i, una vez multiplicados se suman los productos,
una vez sumados se divide el resultado de esa sumatoria por el número total de datos.

Por reemplazamiento en fórmula sería:

 x i ni x n + x n + . . . + xn n n 2.15 * 3 + 2.45 * 4 + . . . + 3.95 * 4 124.1


x = = 1 1 2 2 = = = 3.1025  3.10
n n 40 40

Por ampliación de tabla:


(x i) (n i) xi ni
2.15 3 6.45
 x i ni
2.45 4 9.80 x =
n
2.75 6 16.50
3.05 10 30.50 124.1
x =
40
3.35 8 26.80
3.65 5 18.25 x = 3.1025
3.95 4 15.80
Total n = 40 ∑ x i n i = 124.1 x  3.10
Se obtiene como resultado que la media aritmética o promedio de las calificaciones o notas
definitivas del semestre, antes de habilitación, de cuarenta estudiantes de dos de los cursos
de estadística descriptiva, uno diurno y otro nocturno, es 3.10

Mediana. - La mediana es la medida de centro que se hace superior al 50% de los datos, pero
inferior que el otro 50%. Para el cálculo del sitio central donde se encuentra posicionada la
medida, es decir, para calcular la posición de la mediana, se tiene que k = 50 y n = 40 datos.
k ( n) 50 (40) 2000
Entonces: p (~
x) = = = = 20
100 100 100
Se busca la clase o intervalo donde está el valor de la calificación o nota definitiva de semestre
del estudiante de la posición 20, en la columna frecuencia absoluta acumulada (N i). Se observa
que las primeras 13 notas o calificaciones fueron inferior a 2.9, los estudiantes del 14 al 23
obtuvieron entre 2.9 y menos de 3.2, es decir, la nota o calificación del estudiante 20 está en
la clase o intervalo (2.9 - 3.2), el cual se designa como grupo k.

Calificaciones Calificaciones N° de Frec. Absol.


definitivas definitivas Estudiantes Acumulada
(x i - 1 - x i + 1) (x i) (n i) (N i)
(2.0 – 2.3) 2.15 3 3
(2.3 – 2.6) 2.45 4 7
(2.6 – 2.9) 2.75 6 13 N k-1
Grupo k (2.9 – 3.2) 3.05 10 23
(3.2 – 3.5) 3.35 8 31
(3.5 – 3.8) 3.65 5 36
(3.8 – 4.1) 3.95 4 40
Total Total 40

En lo sombreado con negro y escrito con blanco en la tabla, se logra determinar que la clase
o intervalo llamado grupo k presenta límite inferior de 2.9, amplitud (A) de 0.3 resultante de
la diferencia entre el límite superior 3.2 e inferior 2.9 de la clase o intervalo, frecuencia (n k)
de 10 y frecuencia acumulada anterior a la del grupo k (N k-1) igual a 13, datos necesarios que
junto a la posición de la mediana 20, sirven para calcular el valor de la medida. Reemplazando
en la fórmula:
~  p (~x ) - N k −1   20 − 13  = 2.9 + 0.3 (0.7) = 3.11
x = Lím. Inf .Grupo k + A   = 2.9 + 0.3  
 nk   10 
Siendo la mediana una medida de centro, que determina el valor de la variable que se hace
superior al 50% de los datos, pero inferior al otro 50%, el valor calculado indica que 20 de los
40 estudiantes obtuvieron como calificación o nota definitiva de semestre antes de habilitación
menos de 3.11, pero que los otros 20 estudiantes alcanzaron calificación superior a 3.11.

Moda. - La forma más sencilla es establecer el intervalo modal determinado por ser el de más
alta frecuencia absoluta (n i) y la marca de clase (x i) como el valor que representa la mayor
frecuencia absoluta en la distribución. Si se observa la tabla siguiente, la mayor frecuencia
absoluta (n i) es 10 y está en la clase o intervalo (2.9 - 3.2) y la marca de clase es 3.05.
Calificaciones Calificaciones N° de
definitivas definitivas Estudiantes
(x i - 1 - x i + 1) (x i) (n i)
(2.0 – 2.3) 2.15 3
(2.3 – 2.6) 2.45 4
(2.6 – 2.9) 2.75 6
Intervalo Modal (2.9 – 3.2) 3.05 10 Mayor Frecuencia
(3.2 – 3.5) 3.35 8
(3.5 – 3.8) 3.65 5
(3.8 – 4.1) 3.95 4
Total Total 40

Así las cosas, la distribución presenta un único intervalo modal (2.9 - 3.2) y una única moda
Mo = 3.05, siendo una distribución UNIMODAL.

Para el cálculo de la moda de una manera más precisa se debe, una vez establecido el intervalo
modal, tener en cuenta el límite inferior de ese intervalo, la amplitud (A) de clase o intervalo,
la frecuencia absoluta (n i) en el intervalo modal, la frecuencia absoluta del intervalo anterior
al modal (n i - 1) y la frecuencia absoluta del intervalo posterior al modal (n i + 1).

Calificaciones Calificaciones N° de
definitivas definitivas Estudiantes
(x i - 1 - x i + 1) (x i) (n i)
(2.0 – 2.3) 2.15 3
(2.3 – 2.6) 2.45 4
(2.6 – 2.9) 2.75 6 n i–1
Intervalo Modal (2.9 – 3.2) 3.05 10 ni
(3.2 – 3.5) 3.35 8 n i+1
(3.5 – 3.8) 3.65 5
(3.8 – 4.1) 3.95 4
Total Total 40

 ni - ni −1   10 − 6 
M o = Lím. Inf + A   = 2.9 + 0.3 
 
 = 2.9 + 0.3 (0.66667 ) = 3.10

( n - n − 1) + (n i - n i + 1)  (10 − 6) + (10 − 8) 
 i i 
En síntesis, las medidas resumen de centro para la distribución de datos que representa las
calificaciones o notas definitivas de semestre, antes de habilitación, de 40 estudiantes de dos
de los cursos de estadística, uno diurno y otro nocturno, arroja una media o promedio de 3.10,
mediana de 3.11 y moda de 3.05 calculada de manera sencilla o de 3.10 más precisa.

Para continuar con la aplicación, ahora en referencia a las medidas de localización, posición o
ubicación, se calculará Cuartil Uno Q1, Decil Siete D7 y Percentil Ochenta P80.
Cuartil Uno Q1, Decil Siete D7, Percentil Ochenta P80.- Para facilitar el entendimiento del cálculo
de las medidas de localización propuestas, se hace necesario ver lo desarrollado en el cálculo
de la mediana, tener en cuenta que cambia la posición, el grupo k donde se encuentra, por lo
demás, el procedimiento es igual para el cálculo de todas las medidas de localización, es decir,
tres cuartiles, nueve deciles y noventa y nueve percentiles. De esta manera quedan:

Cuartil Uno. - Medida que se hace superior al 25% de los datos, pero inferior al otro 75%.
Para hallar el sitio donde se encuentra posicionada la medida, es decir, la posición del Cuartil
Uno, se tiene que k = 25 y n = 40 datos.

k (n) 25 (40) 1000


Entonces: p (Q1 ) = = = = 10
100 100 100
Se busca la clase o intervalo donde está el valor de la calificación o nota definitiva de semestre
del estudiante de la posición 10, en la columna frecuencia absoluta acumulada (N i). Se observa
que las primeras 7 notas o calificaciones fueron inferior a 2.6, los estudiantes del 8 al 13
obtuvieron entre 2.6 y menos de 2.9, es decir, la calificación o nota del estudiante 10 está en
la clase o intervalo (2.6 - 2.9), el cual se designa como grupo k.

Calificaciones Calificaciones N° de Frec. Absol.


definitivas definitivas Estudiantes Acumulada
(x i - 1 - x i + 1) (x i) (n i) (N i)
(2.0 – 2.3) 2.15 3 3
(2.3 – 2.6) 2.45 4 7 N k-1
Grupo k (2.6 – 2.9) 2.75 6 13
(2.9 – 3.2) 3.05 10 23
(3.2 – 3.5) 3.35 8 31
(3.5 – 3.8) 3.65 5 36
(3.8 – 4.1) 3.95 4 40
Total Total 40

En lo sombreado con negro y escrito con blanco en la tabla, se logra determinar que la clase
o intervalo llamado grupo k presenta límite inferior de 2.6, amplitud (A) de 0.3 resultante de
la diferencia entre el límite superior 2.9 e inferior 2.6 de la clase o intervalo, frecuencia (n k)
de 6 y frecuencia acumulada anterior a la del grupo k (N k-1) igual a 7, datos necesarios que
junto a la posición del cuartil uno 10, sirven para calcular el valor de la medida. Reemplazando
en la fórmula:
 p (Q1) - N k − 1   10 − 7 
Q1 = Lím. Inf . Grupo k + A   = 2.6 + 0.3



 = 2.6 + 0.3

(0.5) = 2.75
 nk   6 
Indica que 10 de los 40 estudiantes, o sea el 25% de ellos, obtuvieron calificaciones o notas
definitivas del semestre inferiores a 2.75 y el 75% lograron calificaciones o notas definitivas
de semestre superiores a 2.75.

Decil Siete. - Medida que se hace superior al 70% de los datos, pero inferior al otro 30%. Para
hallar el sitio donde se encuentra posicionada la medida, es decir, la posición del Decil Siete,
se tiene que k = 70 y n = 40 datos.
k (n) 70 (40) 2800
Entonces: p ( D7 ) = = = = 28
100 100 100

Se busca la clase o intervalo donde está el valor de la calificación o nota definitiva de semestre
del estudiante de la posición 28, en la columna frecuencia absoluta acumulada (N i). Se observa
que las primeras 23 notas o calificaciones fueron inferiores a 3.2, los estudiantes del 24 al 31
obtuvieron entre 3.2 y menos de 3.5, es decir, la calificación o nota del estudiante 28 está en
la clase o intervalo (3.2 - 3.5), el cual se designa como grupo k.

Calificaciones Calificaciones N° de Frec. Absol.


definitivas definitivas Estudiantes Acumulada
(x i - 1 - x i + 1) (x i) (n i) (N i)
(2.0 – 2.3) 2.15 3 3
(2.3 – 2.6) 2.45 4 7
(2.6 – 2.9) 2.75 6 13
(2.9 – 3.2) 3.05 10 23 N k-1
Grupo k (3.2 – 3.5) 3.35 8 31
(3.5 – 3.8) 3.65 5 36
(3.8 – 4.1) 3.95 4 40
Total Total 40

En lo sombreado con negro y escrito con blanco en la tabla, se logra determinar que la clase
o intervalo llamado grupo k presenta límite inferior de 3.2, amplitud (A) de 0.3 resultante de
la diferencia entre el límite superior 3.5 e inferior 3.2 de la clase o intervalo, frecuencia (n k)
de 8 y frecuencia acumulada anterior a la del grupo k (N k-1) igual a 23, datos necesarios que
junto a la posición del Decil Siete 28, sirven para calcular el valor de la medida. Reemplazando
en la fórmula:
 p (D7 ) - N k − 1   28 − 23 
D7 = Lím. Inf .Grupo k + A   = 3.2 + 0.3 

 = 3.2 + 0.3 (0.625) = 3.3875
 nk 
  8 

Indica que 28 de los 40 estudiantes, o sea el 70% de ellos, conquistaron calificaciones o notas
definitivas del semestre inferiores a 3.39 y el 30% obtuvieron calificaciones o notas definitivas
de semestre superiores a 3.39.

Percentil Ochenta. - Medida que se hace superior al 80% de los datos, pero inferior al otro
20%. Para hallar el sitio donde se encuentra posicionada la medida, es decir, la posición del
Percentil Ochenta, se tiene que k = 80 y n = 40 datos.
k ( n) 80 (40) 3200
Entonces: p ( P80 ) = = = = 32
100 100 100

Se busca la clase o intervalo donde está el valor de la calificación o nota definitiva de semestre
del estudiante de la posición 32 en la columna frecuencia absoluta acumulada (N i). Se observa
que las primeras 31 notas o calificaciones estuvieron inferiores a 3.5, los estudiantes del 32
al 36 obtuvieron calificaciones entre 3.5 y menos de 3.8, es decir, la calificación o nota del
estudiante 32 está en la clase o intervalo (3.5 - 3.8), el cual se designa como grupo k.
Calificaciones Calificaciones N° de Frec. Absol.
definitivas definitivas Estudiantes Acumulada
(x i - 1 - x i + 1) (x i) (n i) (N i)
(2.0 – 2.3) 2.15 3 3
(2.3 – 2.6) 2.45 4 7
(2.6 – 2.9) 2.75 6 13
(2.9 – 3.2) 3.05 10 23
(3.2 – 3.5) 3.35 8 31 N k-1
Grupo k (3.5 – 3.8) 3.65 5 36
(3.8 – 4.1) 3.95 4 40
Total Total 40

En lo sombreado con negro y escrito con blanco en la tabla, se logra determinar que la clase
o intervalo llamado grupo k presenta límite inferior de 3.5, amplitud (A) de 0.3 resultante de
la diferencia entre el límite superior 3.8 e inferior 3.5 de la clase o intervalo, frecuencia (n k)
de 5 y frecuencia acumulada anterior a la del grupo k (N k-1) igual a 31, datos necesarios que
junto a la posición del Percentil Ochenta 32, sirven para calcular la medida. Reemplazando en
la fórmula:
 p (P80) - N k − 1   32 − 31  = 3.5 + 0.3 (0.2) = 3.56
P80 = Lím. Inf .Grupo k + A   = 3.5 + 0.3  
 nk   5 
Indica que 32 de los 40 estudiantes, o sea el 80% de ellos, consiguieron calificaciones o notas
definitivas del semestre inferiores a 3.56 y el 20% obtuvieron calificaciones o notas definitivas
de semestre superiores a 3.56.

Continuando la aplicación, ahora en referencia a las medidas de Variación o Dispersión, se


calcula; Rango, Rango Intercuartílico, Varianza, Desviación y Coeficiente de variación.

Rango. - Definido el Rango de la distribución como la diferencia entre el máximo y mínimo


valor de la variable x i, para el caso, el límite superior de la última clase o intervalo 4.1 menos
el límite inferior de la primera clase o intervalo 2.0.

Calificaciones
definitivas

(2.0 – 2.3)
R = X máx. – X mín.
(2.3 – 2.6)
(2.6 – 2.9) R = 4.1 – 2.0

(2.9 – 3.2) R = 2.1


(3.2 – 3.5)
(3.5 – 3.8)
(3.8 – 4.1)
Total
Implica que existe rango o recorrido en la distribución de las calificaciones o notas definitivas
de semestre, antes de habilitación, de un grupo de cuarenta estudiantes de dos de los cursos
de estadística descriptiva, de dos puntos una décima (2.1).

Rango Intercuartílico. - Determinado como la diferencia entre el cuartil mayor (Q 3) y el cuartil


menor (Q1) de la distribución, entonces:

Calificaciones Calificaciones N° de Frec. Absol.


definitivas definitivas Estudiantes Acumulada
(x i - 1 - x i + 1) (x i) (n i) (N i)
(2.0 – 2.3) 2.15 3 3
(2.3 – 2.6) 2.45 4 7 N k-1
Grupo k (Q1) (2.6 – 2.9) 2.75 6 13
(2.9 – 3.2) 3.05 10 23 N k-1
Grupo k (Q3) (3.2 – 3.5) 3.35 8 31
(3.5 – 3.8) 3.65 5 36
(3.8 – 4.1) 3.95 4 40
Total Total 40

k ( n) 75 (40) 3000
p (Q3 ) = = = = 30
100 100 100
 p (Q3) - N k − 1   30 − 23 
Q3 = Lím. Inf .Grupo k + A   = 3.2 + 0.3   = 3.2 + 0.3 (0.875) = 3.4625
 nk   8 
k ( n) 25 (40) 1000
p (Q1 ) = = = = 10
100 100 100

 p (Q1) - N k − 1   10 − 7  = 2.6 + 0.3 (0.5) = 2.75


Q1 = Lím. Inf .Grupo k + A   = 2.6 + 0.3  
 nk   6 
R.I .C = Q3 − Q1 = 3.4625 - 2.75 = 0.7125

Implica que el rango o recorrido, de las calificaciones o notas definitivas de semestre, antes
de habilitación, del 50% central del grupo de cuarenta estudiantes de dos de los cursos de
estadística descriptiva, es de 0.71 centésima.

Varianza. - Para el cálculo de la medida resumen de dispersión denominada varianza, se puede


recomendar, entre otros, dos (2) procedimientos conocidos como reemplazo en fórmula o por
extensión de tabla.

Si se reemplaza en fórmula, a cada marca de clase x i se le resta la media o promedio x , las


diferencias se elevan al cuadrado (x i - x ) , los cuadrados se multiplican por las frecuencias n i
2

de cada clase o intervalo para ser sumadas y divididas por el total de datos menos uno.

( x i - x )2 n i ( x1 - x )2 n 1 + ( x2 - x )2 n 2 + . . . + ( xn - x )2 n n
S2 = =
n −1 n −1
Calificaciones Calificaciones N° de
definitivas definitivas Estudiantes
(x i - 1 - x i + 1) (x i) (n i)
(2.0 – 2.3) 2.15 3
(2.3 – 2.6) 2.45 4
(2.6 – 2.9) 2.75 6
(2.9 – 3.2) 3.05 10
(3.2 – 3.5) 3.35 8
(3.5 – 3.8) 3.65 5
(3.8 – 4.1) 3.95 4
Total Total 40

x =
 x i ni x n + x 2n 2 +
= 1 1
... + xn n n
=
2.15 * 3 + 2.45 * 4 + . . . + 3.95 * 4
=
124.1
= 3.1025  3.10
n n 40 40
(2.15 - 3.10 ) 2 * 3 + (2.45 - 3.10) 2 * 4 + . . . . . . . . . . . . . . + (3.95 - 3.10) 2 * 4
S2 =
40 − 1

( - 0.95 ) 2 * 3 + ( - 0.65 ) 2 * 4 + . . . . . . . . . . . . . . + ( 0.85 ) 2 * 4


S2 =
40 − 1

2.7075 + 1.69 + . . . . . .. . . . + 2.89 10.06


S2 = = = 0.2579487
40 − 1 39

Si se utiliza la tabla o el Excel para el cálculo de la Varianza y teniendo en cuenta que la media
aritmética o promedio de la distribución es 3.10, se ilustra de la siguiente manera:

(x i) (n i) (x i - x ) (x i - x )2 (x i - x )2 n i
2.15 3 -0.95 0.9025 2.7075
2.45 4 -0.65 0.4225 1.6900
2.75 6 -0.35 0.1225 0.7350
3.05 10 -0.05 0.0025 0.0250
3.35 8 0.25 0.0625 0.5000
3.65 5 0.55 0.3025 1.5125 ( x i - x ) 2 ni 10 .06
S2 = = = 0.2579487
3.95 4 0.85 0.7225 2.8900 n −1 40 − 1
Total 40 ∑=10.06

Desviación Estándar. - La Desviación estándar ( S ) como raíz cuadrada de la varianza ( S 2 ) ,

S= S2 = 0..2579487 = 0.5078865
Indica el promedio de las desviaciones o variaciones de x i, correspondiente a marcas de clase
de los intervalos, respecto a la media aritmética o promedio de la distribución como medida
de tendencia central, la cual es considerada su primer momento.
Coeficiente de Variación. - Se establece como la división de la desviación estándar y la media,
multiplicado el resultado de la división por cien para expresarse en porcentaje, Luego:
S 0.5078865
C. V . = * 100 = *100 = 16.383435 %  16.38%  16.4%
x 3.10
Implica porcentaje de variabilidad de la distribución, compara dispersión o variación entre dos
o más variables y establece mayor o menor variabilidad entre ellas.

Ahora bien, para establecer el comportamiento o tendencia de los datos en la distribución y el


apuntamiento de la misma, se calcula la Asimetría y Curtosis como medidas de forma.

Coeficiente de Asimetría.- Para la aplicación de esta medida de forma en datos agrupados, se


toma el resultado de la medida de centro Media x (3.10), Mediana ~
x (3.11) y el resultado de
la medida de variación Desviación estándar S (0.525727). Para obtener el coeficiente de
asimetría de Pearson, se reemplaza en la fórmula y se obtiene:
~
3 ( x - x ) 3 (3.10 - 3.11)
A= = = - 0.05706384 Donde A Valor Negativo  0
S 0.525727
Al ser negativo el coeficiente de asimetría de Pearson, es decir menor a cero, implica que la
distribución es Asimétrica negativa o a la izquierda, concentra mayor cantidad de datos como
valores menores que la media.

Coeficiente de Curtosis. - Para la aplicación de esta medida de forma en datos agrupados, se


trabaja relacionando las marcas de clase de la distribución con el resultado de la media de la
misma x (3.10). Se utiliza el procedimiento de extensión de tabla para el cálculo.

(x i) (n i) (x i - x) (x i - x )4 (x i - x )4 n i (x i - x )2 (x i - x )2 n i
2.15 3 -0.95 0.81450625 2.44351875 0.9025 2.7075
2.45 4 -0.65 0.17850625 0.71402500 0.4225 1.6900
2.75 6 -0.35 0.01500625 0.09003750 0.1225 0.7350
3.05 10 -0.05 0.00000625 0.00006250 0.0025 0.0250
3.35 8 0.25 0.00390625 0.03125000 0.0625 0.5000
3.65 5 0.55 0.09150625 0.45753125 0.3025 1.5125
3.95 4 0.85 0.52200625 2.08802500 0.7225 2.8900
Total 40 ∑=5.82445 ∑=10.06

Reemplazando información obtenida utilizando extensión de tabla en la fórmula para el cálculo


del Coeficiente de Curtosis, se tiene:
( xi − x ) ni
4
5.82445
n 40 0.14561125
C= − 3 = − 3 = − 3 = - 0.69792774
 ( xi − x ) 2 ni 
2
 10 .06 
2 0.06325225
   
 n   40 
 
Al ser negativo el Coeficiente de Curtosis, es decir menor que cero, implica que la distribución
es Platocúrtica, más aplanada que la normal y menor concentración en los valores centrales.

También podría gustarte