Unidad Temática Iii Estadística Descriptiva

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 19

UNIDAD TEMÁTICA III.

ESTADÍSTICA DESCRIPTIVA

Es la rama de las matemáticas que recolecta, presenta y caracteriza un conjunto de


datos, por ejemplo: edad de una población, altura de los estudiantes de una escuela,
temperatura en los meses de verano y otros. Con el fin de describir apropiadamente las
diversas características de ese conjunto.

La estadística comprende la rama descriptiva, la teoría de la probabilidad y el


muestreo. Las tres ramas emplean el método científico, que consiste en:
a) Definir detalladamente el problema
b) Crear un plan para la recopilación de datos
c) Reunir los datos
d) Analizar e interpretar los datos
e) Anotar las conclusiones y otros descubrimientos en forma clara y concisa

Al conjunto de los distintos valores numéricos que adopta un carácter cuantitativo


se llama variable estadística.

Las variables pueden ser de dos tipos:

● Variables cualitativas o categóricos:

Estas no se pueden medir numéricamente (nacionalidad, color de piel,


sexo).

● Variables cuantitativas:

Estas tienen valor numérico (edad, precio de un producto, ingresos


anuales).
Y se clasifican en:

Discretas:
Las cuales solo toman valores enteros (1,2,8,-4 y otros)

Ejemplo: El número de hermanos pueden ser 1,2,3 y otros y nunca


(podrían ser 3.45).
Continuas:
Las cuales toman cualquier valor real dentro de un intervalo.
Ejemplo: La velocidad de un vehículo puede ser 90.4 km/h, 94.57 km/h
y otros.
Cuando se estudia el comportamiento de una variable deben considerarse los
conceptos siguientes:

Individuo:
Cualquier elemento que aporte información sobre el fenómeno que se estudia. Así,
si estudiamos la altura de los niños de una clase, cada alumno es un individuo.
Población:
Conjunto de todos los individuos (personas, objetos, animales, otros) que aporten
información sobre el fenómeno que se estudia por ejemplo si se estudia el precio
de la vivienda en una ciudad, la población será el total de las viviendas.
Muestra:
Subconjunto que es seleccionado de una población. Partiendo del estudio del
precio de la vivienda de una ciudad lo normal no es recoger información de toda la
población sino una muestra representativa.
Las variables aleatorias son variables que se seleccionan al azar o por procesos
aleatorios.
Cuando se dispone de un gran número de datos, es útil distribuirlos en clases o
categorías con el fin de simplificar su presentación.
Una vez agrupados los datos en clases, se llama frecuencia de clase al número
de datos que pertenece a cada categoría. Y a la representación tabular de datos
agrupados en clases con su frecuencia correspondiente se le conoce como:
“Distribución de Frecuencias” o “Tabla de Frecuencias”.
Ejemplo:
La siguiente tabla corresponde a las estaturas de un grupo de 60 personas.
Estatura (cm) No. de personas
clases (frecuencias)
150-154 2
155-159 8
160-164 12
165-169 15
170-174 10
175-179 8
180-184 5

LRC (Límite Real de Clase)


Los límites reales o verdaderos de una clase son aquéllos que se obtienen
restándole media unidad de medida al límite aparente inferior de una clase y
sumándole media unidad de medida al límite superior aparente de las diferentes
clases, es decir, son valores no observables de la variable en estudio, puesto que
no lo registra la unidad utilizada.
Ejemplo: en el intervalo seleccionado teóricamente es de 154.50 a 159.50 el LRC
a veces se utilizan para representar a la clase.
Tamaño o ancho de intervalo de clase:
Es la diferencia entre los limites reales de clase y se denota por la letra minúscula
“c” es decir:
c=159.5-154.5=5cm

Dato mayor−Dato menor


Ancho de la clase=c =
k

Marca de clase (x). Es el punto medio de un intervalo de clase; así en el intervalo


anterior.
La marca de clase es:
159+ 155
X= =157
2

Para determinar el número de clases empleamos la expresión:


k
2 =n
Donde:
K= número de clases
n= número de datos

Para formar una distribución de frecuencias es necesario considerar lo


siguiente:

a) Rara vez se utilizan menos de 6 o más de 15 clases, el número que se


emplee depende de la naturaleza cuantía e intervalo que cubren los datos.
b) Las clases deben abarcar a todos los datos.
c) Cada dato debe pertenecer a una única clase.
d) Siempre que sea posible los intervalos de clase deben ser del mismo
ancho.

Ejercicio:
Considere la siguiente información para construir la tabla correspondiente de
distribución de frecuencias.

Toneladas de maíz cosechado en un campo experimental


2.73 1.62 2.58 1.62 2.21 2.05 1.33 2.39 1.97 1.69
2.84 1.46 0.57 1.65 1.82 1.36 1.46 0.75 2.21 1.27
2.13 2.06 2.03 1.34 0.96 1.37 0.45 1.21 0.69 0.96
0.89 2.17

Distribución de frecuencias de las toneladas de maíz (multiplicadas por 100).


Límites de Limites reales de clase
clase
Frecuencia Marca de clase
Inferior- Inferior- Cuenta absoluta (f) (x)
Superior Superior

Total=

Una tabla de frecuencias muestra de forma ordenada un conjunto de datos


estadísticos y a cada uno de ellos le asigna una frecuencia que, en pocas
palabras, son las veces que se repite un número o dato.
Tipos de frecuencias
Frecuencias absolutas: son el número de veces que se repite un
número en un conjunto de datos.
Frecuencias absolutas acumuladas: es la suma de las frecuencias
absolutas.
Frecuencia relativa: corresponde a las veces que se repite un número
en un conjunto de datos respecto al total, pero se expresa en
porcentajes (%).
Frecuencia relativa acumulada: es la suma de las frecuencias
relativas.

Presentación gráfica de una distribución de frecuencia

A veces es conveniente representar los datos gráficamente dada la naturaleza de


las tablas de distribución de frecuencias y así determinar que el manejo de estos
corresponde a las escalas de nivel de intervalo y razón.

Para lo anterior se disponen de varios diagramas para representar gráficamente


una distribución de frecuencias y estos son: histograma de frecuencias, ojivas,
polígono de frecuencias y polígono de frecuencias acumuladas.

Un Histograma es la representación gráfica de una tabla de frecuencias. El


histograma puede ser: de frecuencias absolutas, de frecuencias relativas, de
frecuencias absolutas acumuladas y de frecuencias relativas acumuladas. Es un
despliegue grafico bidimensional que utiliza rectángulos. Las bases de los rectángulos se
colocan en el eje horizontal y corresponden en cierta forma a las clases de la variable de
estudio. En el otro eje se muestran las frecuencias (absolutas, relativas o acumuladas)
asociadas con cada clase.
Más profundamente, el histograma de frecuencias es una representación visual de
los datos en donde se evidencian fundamentalmente tres características: forma,
acumulación o tendencia posicional y dispersión o variabilidad.

Un Polígono de Frecuencia es el nombre que recibe una clase de gráfico que se


crea a partir de un histograma de frecuencia. Los histogramas emplean columnas
verticales para reflejar las frecuencias, los polígonos de frecuencia se forman
uniendo los puntos más altos de cada una de las columnas del Histograma.

Es una distribución de frecuencias, las frecuencias absolutas, relativas o


porcentuales son valores discretos. Esto da lugar a que un histograma, las
frecuencias parecen “saltar repentinamente” de una clase a la contigua. Si se
requiere dar una impresión de aumento o disminución continua de las frecuencias
se puede utilizar la representación de la tabla mediante el polígono de frecuencias.

Una ventaja de estos es que permiten comparar dos o más grupos de datos a
diferencia de los histogramas en una misma gráfica o sistema coordenado.
Una Ojiva se utiliza para representar la frecuencia acumulada. Es similar al
Polígono de frecuencia, se forma o se construye uniendo los puntos más altos de
cada columna de un Histograma que represente las Frecuencias Acumuladas.

Al estar construido en función de las frecuencias acumuladas permite ver cuántas


observaciones se encuentran por encima o debajo de ciertos valores, en lugar de
solo exhibir los números asignados a cada intervalo.
Cabe destacar que las Ojivas también se pueden hacer a la inversa, comenzando
con la mayor y terminando con la menor frecuencia.

Ejercicio:

Se presentan a continuación los ingresos semanales que obtiene una empresa


dedicada al negocio de la venta de hamburguesas:

3145 15879 6914 4572 11374 12764 9061 8245 10563 8164
6395 8758 17270 10755 10465 7415 9637 9361 11606 7836
13517 7645 9757 9537 23957 8020 8346 12848 8438 6347
21333 9280 7538 7414 11707 9144 7424 25639 10274 4683
5089 6904 9182 12193 12472 8494 6032 16012 9282 3000
Construir una tabla para la distribución de frecuencias con seis intervalos de igual
amplitud y dibujar histograma, polígono de frecuencia y ojiva.

Calcular la amplitud del intervalo para 6 clases:

Medidas de tendencia central o de posición

Las medidas de tendencia central son valores numéricos que señalan un tipo de
centro de conjunto de datos, el cual se emplea para representar el conjunto. Las
más importantes son: la mediana, la media aritmética, la moda y la media
geométrica.
Quizá la medida numérica de tendencia central que se usa más ampliamente es la
media aritmética llamada en adelante simplemente media.

Media muestral y poblacional.


En las fórmulas estadísticas se acostumbra a denotar la primera observación de
una variable X como X1 la segunda como X2 y así sucesivamente.
En general la i-ésima observación de X se representa como X i. Si los datos
corresponden a una muestra, la media se representa por X y si corresponde a una
población se utiliza la letra griega μ (mu).
Independientemente de que se tenga datos de una muestra o de una población, el
procedimiento para calcular la media es el mismo.

❖ Para una muestra con “n” observaciones X 1, X2, …, Xn , la expresión


algebraica que tiene la media es:
n

∑ Xi
X 1 + X 2 +..+ X n i=1
media muestral=X = =
n ❑

❖ De la misma forma para una población con N elementos y N


observaciones X1, X2, …, Xn , la expresión algebraica es:
N

∑X
X 1+ X 2+ ..+ X N i=1 i
media poblacional=μ= =
N ❑

Desventajas:
❖ Como la media emplea para su cálculo el valor de cada dato de la
muestra o de la población, si uno o más de estos valores son
considerablemente grandes o pequeños, la media no es promedio
apropiado para representar los datos.

Media ponderada.
Se denomina media ponderada de un conjunto de datos al resultado de multiplicar
cada uno de estos por un valor particular para cada uno de ellos, llamado peso,
obteniendo a continuación la suma de estos productos y dividiendo el resultado
entre la suma de los pesos.
El peso depende de la importancia o significado de cada dato, es decir es un
promedio en el que cada valor u observación, se pondera con algún factor de
acuerdo a su importancia.
Para un conjunto dado de “n” datos representado como X1, X2, …, Xn, cuyos pesos
correspondientes son: W1, W2, …, Wn, la media ponderada se calcula con la
siguiente expresión:
n

W 1 X 1+ W 2 X 2 +..+ W n X n ∑
W i Xi
i=1
media ponderada=X P= =
W 1 +W 2+..+W n ❑

Moda

En un conjunto de datos, la moda es el valor que más repite, se dice también que
es el valor que tiene mayor frecuencia absoluta f.
La moda es particularmente útil para representar conjunto de observaciones
corresponden a las escalas nominal y ordinal.
Ventajas:

❖ Se puede determinar en observaciones dadas en todas las escalas de


medición nominal, ordinal, de intervalo y de razón.
❖ No se ve afectada por valor atípicos “que no es característico de ningún
tipo o modelo conocido”.
❖ Se puede emplear como medida de tendencia central en una
distribución de frecuencias si hay una clase abierta.
Desventajas:

❖ Algunos conjuntos de datos no tienen moda porque ningún valor aparece


más de una vez.
❖ En algunos casos hay más de una moda, 2 modas (conjunto bimodal). Y se
debe a definir que moda representa los datos.

Moda geométrica.
La media de un conjunto de “n” números enteros positivos X 1, X2, X3 …, Xn, se
define como la raíz n-ésima del producto de los n valores: La expresión algebraica
es:

Media geométrica : MG=√ X 1∗X 2∗.. X n


n

Datos agrupados:
Algunas veces solo se dispone de la distribución de frecuencias de los datos; si se
busca un valor representativo de los datos o una medida de dispersión se deben
estimar basándose en la distribución de frecuencias.

Media.
Para aproximar la media de los datos organizados en una distribución de
frecuencias, se comenzará por asumir que las observaciones de cada clase
(frecuencia absoluta de clase f) están representadas por la marca de clase X, con
lol que la expresión para la media es:

Media de datos agrupados:


k

∑f X
f 1 X 1+ f 2 X 2 +...+ f k X k i=1 i i
X= =
f 1 + f 2 +..+f k ❑

Desventaja:

❖ No es apropiada si hay una clase abierta.


Mediana.
En un conjunto de datos ordenados la mediana es el valor por debajo del cual se
encuentran el mismo número de valores que por encima de él. Como se tienen los
datos en una distribución de frecuencias. Se desconocen los valores individuales
por lo que no se puede determinar la mediana exacta, estimándose de la siguiente
manera:
Se localiza la clase en que se encuentra la mediana: clase mediana.
Se asume que los datos dentro de la clase mediana se distribuyen uniformemente
y se interpola dentro de la clase para obtener la mediana.
Mediana de datos agrupados:
n
−∑ F
~ 2
X= L+ A
f
Donde:
L= es el límite inferior de la clase mediana.
n= número de datos
f= frecuencia de la clase mediana
F= frecuencia acumulada a la clase que procede la clase mediana.
A= ancho de la clase mediana

Moda.
En datos agrupados se puede tener una primera aproximación a la moda,
utilizando la marca de la clase modal: la clase con mayor frecuencia absoluta.

^
X =L+
( ∆1
)
∆ 1+ ∆ 2
A

Donde:
L1= límite inferior de la clase modal (la que contiene la moda).
Δ1= exceso de la frecuencia modal sobre la frecuencia de la clase contigua inferior.
Δ2= exceso de la frecuencia modal sobre la frecuencia de la clase contigua
superior.
A= ancho del intervalo de la clase modal.
Ejercicios:
1. Encontrar la mediana de las estaturas de 40 estudiantes a partir de la
siguiente distribución de clases y frecuencias

Estaturas (cm) Frecuencias (fi)


118 – 126 3
127 – 135 5
136 -- 144 9
145 – 153 12
154 -- 162 5
163 – 171 4
172 -- 180 2

2. Encontrar la media, mediana y moda de los siguientes datos:

a) 3,5,2,6,5,9,5,2,8,6
b) 51.6,48.7,50.3,49.5,48.9

Medidas de dispersión

Las medidas de dispersión muestran la variabilidad de una distribución, indicando


por medio de un número si las diferentes observaciones de una variable están
muy alejadas entre sí. Cuanto mayor sea el número mayor la variabilidad y cuanto
menor más semejantes serán entre sí las observaciones. Existen varias medidas
de variabilidad, siendo las más comunes: el rango, la varianza, la desviación
estándar la desviación media y el coeficiente de variación.

Rango.
La amplitud o rango se concentra en el número mayor y menor en un conjunto de
datos, es decir, los puntos extremos. Dicha medida se puede expresar en dos
formas:
a. Como la diferencia entre los valores mayor y menor de la muestra.
b. Como los valores mayor y menor del grupo.
Desviación media.
Un inconveniente del rango es que emplea solamente dos valores y no considera
los demás valores. Una forma de involucrar todos los valores consiste en recubrir
a las diferencias de datos con respecto a la media (valor “central”). Así para un
conjunto dado X1, X2, X3 …, Xn cuya media es X , las desviaciones son:

d 1= X 1−X , d 2=X 2−X , … , d n=X n−X

Las diferencias suelen verse como desviaciones entre los que se observa (X i) y lo
que se espera, representado por X por lo tanto, podrá pensarse que la media de
las desviaciones es una media adecuada a la variabilidad. Esto, sin embargo, no
es así ya que .la suma de las desviaciones; con ello se eliminan las diferencias
negativas y se suman exclusivamente números positivos. El resultado es una
medida de variabilidad conocida como: desviación media.

| X 1−X|+|X 2 −X|+..+| X n−X| 1


n
DM =
n
= ∑|X −X|
n i=1 i

Varianza y desviación estándar.


La varianza y la desviación estándar también se basan en la suma de las
desviaciones, solo que, elevándolas al cuadrado, ya que al multiplicar una
desviación negativa por sí misma da un número positivo.
La varianza y la desviación estándar son las medidas de variabilidad más
ampliamente usadas y sus definiciones son:
Varianza: Es la medida aritmética de las desviaciones de la media elevadas al
cuadrado.
Desviación estándar: Es la raíz cuadrada (positiva) de la varianza.
La varianza y desviación estándar poblacional y muestral difieren en sus cálculos
por lo que se abordan independientemente.
Varianza poblacional.
La varianza poblacional para un número infinito N de datos no agrupados se
encuentra así:
N

∑ ( X i−μ ) 2
σ 2= i =1

Donde:
µ= La media poblacional

Desviación estándar Poblacional

S= √ ❑

Varianza y desviación estándar muéstrales.

Para una muestra de tamaño n, tenemos:

∑ ( X i− X )2
σ 2= i =1

X = media muestral
S= √ ❑

El emplear a n-1 en lugar de n en el denominador se debe a que el uso de n tiende


a subestimar la varianza y la desviación estándar poblacionales y empleando n-1
se obtiene una corrección de esa tendencia o sesgo.
Sesgo: el sesgo estadístico es un error que se detecta en los resultados de un
estudio y se debe a factores en la recolección, análisis, interpretación o sesión de
datos.
Expresiones equivalentes más prácticas para los cálculos numéricos están dadas
por:

( )
n ❑

n ∑ Xi
∑ X i 2−
i=1

σ 2= i =1

S= √ ❑

Medidas de dispersión de datos agrupados

Rango.

Para estimar datos agrupados se resta el límite inferior de la última clase a su


límite superior.

Desviación estándar.

Para aproximar la varianza de datos organizados en una distribución de


frecuencias, al igual que en el caso de la media, se representan las observaciones
de cada clase (fi) por la marca de clase correspondiente (Xi), obteniendo las
siguientes expresiones:

2
f 1 ( X 1−X )2+ f 2 ( X 2− X )2 +..+ f k ( X k − X )2
σ =
n−1
k

f i ( X i −X ) ∑
k 2 f i X i2−n X 2
¿∑ = i=1
i=1 n−1 ❑

Y para la desviación estándar muestral, tenemos:

S= √ ❑

S= √ ❑

Coeficiente de variación (dispersión absoluta y relativa). Es la expresión


porcentual que representa la desviación estándar de una muestra con respecto a
su media.
En algunos casos las dispersiones en términos absolutos pueden ser diferentes en
la realidad y por ello se tienen que analizar en términos de coeficientes de
variación.
El coeficiente de variación está definido por la siguiente fórmula:

V= ( XS ) ( 100)
Donde:
S es la desviación estándar
x es la media
Ejercicios:

1.Un fabricante de focos produce dos tipos de focos, A y B. Los focos tienen una
duración media x A=¿1495 horas y x B =¿ 1875 horas, respectivamente y las
desviaciones típicas o estándar son SA = 280 horas y SB = 3l0 horas. ¿Qué tipo de
foco tiene la mayor dispersión absoluta y la mayor dispersión relativa (coeficiente
de variación)?
2. Calcular la varianza y la desviación estándar de los siguientes datos: 2, 4, 6 y 8
sabiendo que corresponden a una población.

3. Calcular la varianza y la desviación estándar de los siguientes datos: 1, 3, 5, 7 y


9 sabiendo que corresponden a una muestra

4. Calcular la varianza y la desviación estándar de los siguientes datos: 10, 12, 13,
16, 9, 8, 12, 8, 6, 16 sabiendo que corresponden a una población.

También podría gustarte