Unidad Temática Iii Estadística Descriptiva
Unidad Temática Iii Estadística Descriptiva
Unidad Temática Iii Estadística Descriptiva
ESTADÍSTICA DESCRIPTIVA
● Variables cuantitativas:
Discretas:
Las cuales solo toman valores enteros (1,2,8,-4 y otros)
Individuo:
Cualquier elemento que aporte información sobre el fenómeno que se estudia. Así,
si estudiamos la altura de los niños de una clase, cada alumno es un individuo.
Población:
Conjunto de todos los individuos (personas, objetos, animales, otros) que aporten
información sobre el fenómeno que se estudia por ejemplo si se estudia el precio
de la vivienda en una ciudad, la población será el total de las viviendas.
Muestra:
Subconjunto que es seleccionado de una población. Partiendo del estudio del
precio de la vivienda de una ciudad lo normal no es recoger información de toda la
población sino una muestra representativa.
Las variables aleatorias son variables que se seleccionan al azar o por procesos
aleatorios.
Cuando se dispone de un gran número de datos, es útil distribuirlos en clases o
categorías con el fin de simplificar su presentación.
Una vez agrupados los datos en clases, se llama frecuencia de clase al número
de datos que pertenece a cada categoría. Y a la representación tabular de datos
agrupados en clases con su frecuencia correspondiente se le conoce como:
“Distribución de Frecuencias” o “Tabla de Frecuencias”.
Ejemplo:
La siguiente tabla corresponde a las estaturas de un grupo de 60 personas.
Estatura (cm) No. de personas
clases (frecuencias)
150-154 2
155-159 8
160-164 12
165-169 15
170-174 10
175-179 8
180-184 5
Ejercicio:
Considere la siguiente información para construir la tabla correspondiente de
distribución de frecuencias.
Total=
Una ventaja de estos es que permiten comparar dos o más grupos de datos a
diferencia de los histogramas en una misma gráfica o sistema coordenado.
Una Ojiva se utiliza para representar la frecuencia acumulada. Es similar al
Polígono de frecuencia, se forma o se construye uniendo los puntos más altos de
cada columna de un Histograma que represente las Frecuencias Acumuladas.
Ejercicio:
3145 15879 6914 4572 11374 12764 9061 8245 10563 8164
6395 8758 17270 10755 10465 7415 9637 9361 11606 7836
13517 7645 9757 9537 23957 8020 8346 12848 8438 6347
21333 9280 7538 7414 11707 9144 7424 25639 10274 4683
5089 6904 9182 12193 12472 8494 6032 16012 9282 3000
Construir una tabla para la distribución de frecuencias con seis intervalos de igual
amplitud y dibujar histograma, polígono de frecuencia y ojiva.
Las medidas de tendencia central son valores numéricos que señalan un tipo de
centro de conjunto de datos, el cual se emplea para representar el conjunto. Las
más importantes son: la mediana, la media aritmética, la moda y la media
geométrica.
Quizá la medida numérica de tendencia central que se usa más ampliamente es la
media aritmética llamada en adelante simplemente media.
∑ Xi
X 1 + X 2 +..+ X n i=1
media muestral=X = =
n ❑
∑X
X 1+ X 2+ ..+ X N i=1 i
media poblacional=μ= =
N ❑
Desventajas:
❖ Como la media emplea para su cálculo el valor de cada dato de la
muestra o de la población, si uno o más de estos valores son
considerablemente grandes o pequeños, la media no es promedio
apropiado para representar los datos.
Media ponderada.
Se denomina media ponderada de un conjunto de datos al resultado de multiplicar
cada uno de estos por un valor particular para cada uno de ellos, llamado peso,
obteniendo a continuación la suma de estos productos y dividiendo el resultado
entre la suma de los pesos.
El peso depende de la importancia o significado de cada dato, es decir es un
promedio en el que cada valor u observación, se pondera con algún factor de
acuerdo a su importancia.
Para un conjunto dado de “n” datos representado como X1, X2, …, Xn, cuyos pesos
correspondientes son: W1, W2, …, Wn, la media ponderada se calcula con la
siguiente expresión:
n
W 1 X 1+ W 2 X 2 +..+ W n X n ∑
W i Xi
i=1
media ponderada=X P= =
W 1 +W 2+..+W n ❑
Moda
En un conjunto de datos, la moda es el valor que más repite, se dice también que
es el valor que tiene mayor frecuencia absoluta f.
La moda es particularmente útil para representar conjunto de observaciones
corresponden a las escalas nominal y ordinal.
Ventajas:
Moda geométrica.
La media de un conjunto de “n” números enteros positivos X 1, X2, X3 …, Xn, se
define como la raíz n-ésima del producto de los n valores: La expresión algebraica
es:
Datos agrupados:
Algunas veces solo se dispone de la distribución de frecuencias de los datos; si se
busca un valor representativo de los datos o una medida de dispersión se deben
estimar basándose en la distribución de frecuencias.
Media.
Para aproximar la media de los datos organizados en una distribución de
frecuencias, se comenzará por asumir que las observaciones de cada clase
(frecuencia absoluta de clase f) están representadas por la marca de clase X, con
lol que la expresión para la media es:
∑f X
f 1 X 1+ f 2 X 2 +...+ f k X k i=1 i i
X= =
f 1 + f 2 +..+f k ❑
Desventaja:
Moda.
En datos agrupados se puede tener una primera aproximación a la moda,
utilizando la marca de la clase modal: la clase con mayor frecuencia absoluta.
^
X =L+
( ∆1
)
∆ 1+ ∆ 2
A
Donde:
L1= límite inferior de la clase modal (la que contiene la moda).
Δ1= exceso de la frecuencia modal sobre la frecuencia de la clase contigua inferior.
Δ2= exceso de la frecuencia modal sobre la frecuencia de la clase contigua
superior.
A= ancho del intervalo de la clase modal.
Ejercicios:
1. Encontrar la mediana de las estaturas de 40 estudiantes a partir de la
siguiente distribución de clases y frecuencias
a) 3,5,2,6,5,9,5,2,8,6
b) 51.6,48.7,50.3,49.5,48.9
Medidas de dispersión
Rango.
La amplitud o rango se concentra en el número mayor y menor en un conjunto de
datos, es decir, los puntos extremos. Dicha medida se puede expresar en dos
formas:
a. Como la diferencia entre los valores mayor y menor de la muestra.
b. Como los valores mayor y menor del grupo.
Desviación media.
Un inconveniente del rango es que emplea solamente dos valores y no considera
los demás valores. Una forma de involucrar todos los valores consiste en recubrir
a las diferencias de datos con respecto a la media (valor “central”). Así para un
conjunto dado X1, X2, X3 …, Xn cuya media es X , las desviaciones son:
Las diferencias suelen verse como desviaciones entre los que se observa (X i) y lo
que se espera, representado por X por lo tanto, podrá pensarse que la media de
las desviaciones es una media adecuada a la variabilidad. Esto, sin embargo, no
es así ya que .la suma de las desviaciones; con ello se eliminan las diferencias
negativas y se suman exclusivamente números positivos. El resultado es una
medida de variabilidad conocida como: desviación media.
∑ ( X i−μ ) 2
σ 2= i =1
❑
Donde:
µ= La media poblacional
S= √ ❑
∑ ( X i− X )2
σ 2= i =1
❑
X = media muestral
S= √ ❑
( )
n ❑
n ∑ Xi
∑ X i 2−
i=1
❑
σ 2= i =1
❑
S= √ ❑
Rango.
Desviación estándar.
2
f 1 ( X 1−X )2+ f 2 ( X 2− X )2 +..+ f k ( X k − X )2
σ =
n−1
k
f i ( X i −X ) ∑
k 2 f i X i2−n X 2
¿∑ = i=1
i=1 n−1 ❑
S= √ ❑
S= √ ❑
V= ( XS ) ( 100)
Donde:
S es la desviación estándar
x es la media
Ejercicios:
1.Un fabricante de focos produce dos tipos de focos, A y B. Los focos tienen una
duración media x A=¿1495 horas y x B =¿ 1875 horas, respectivamente y las
desviaciones típicas o estándar son SA = 280 horas y SB = 3l0 horas. ¿Qué tipo de
foco tiene la mayor dispersión absoluta y la mayor dispersión relativa (coeficiente
de variación)?
2. Calcular la varianza y la desviación estándar de los siguientes datos: 2, 4, 6 y 8
sabiendo que corresponden a una población.
4. Calcular la varianza y la desviación estándar de los siguientes datos: 10, 12, 13,
16, 9, 8, 12, 8, 6, 16 sabiendo que corresponden a una población.