Notas de Clase. Contenidos Estadística Descriptiva V.3

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 16

Universidad Del Magdalena

Estadística I
Julio Reales Caro
Docente
NOTAS DE CLASE: CONTENIDOS DADOS EN EL PRIMER SEGUIMIENTO

Referencia: Humberto S, LL & Rojas A, C. Estadística descriptiva y distribuciones


de probabilidad. Capitulo1 Estadística descriptiva. 1ra ED. Ediciones Uninorte.
(Barranquilla, Colombia). 408 p.

Concepto de estadística: Ciencia que se ocupa de recoger, clasificar, representar y


resumir los datos de muestras, y de hacer inferencias (extraer conclusiones) acerca de
las poblaciones de las que estas proceden.

Estadística Descriptiva: Comprende aquellos métodos que incluyen técnicas para


recolectar, presentar, analizar e interpretar datos.

Estadística Inferencial: Parte de la estadística que se ocupa de llegar a conclusiones


(inferencias) acerca de las poblaciones a partir de los datos de las muestras extraídas
de ellas.

Población: conjunto de individuos con propiedades comunes, sobre las que se realiza
una investigación de tipo estadístico.

Muestra: es una parte representativa de la población o también denominada como un


subconjunto de la población.

Tamaño Muestral: número de individuos que forman la muestra.

Muestreo: Proceso de obtención de muestras representativas de la población.


(Aleatorio y determinístico)

Variable: Es una característica de la población que se está analizando en un estudio


estadístico.

Modalidades, categorías o clases: distintas formas en que se manifiesta una variable.

Un poco de Historia.

Las culturas griegas, romanas y egipcias se consideran precursoras de la estadística,


incluso culturas indígenas como los Aztecas hacen parte de la historia de la estadística,

NOTAS DE CLASE 1
Universidad Del Magdalena
Estadística I
Julio Reales Caro
Docente
dado que se organizaban a partir de los registros rudimentarios que llevaban de sus
actividades.

A medida que se va definiendo el estado, la necesidad de la estadística se acentúa más


y más, como algo orgánico, y es precisamente de la palabra estado, de donde parece
derivarse el nombre de ésta disciplina.

En Roma la organización del estado se perfecciona en todos los órdenes y ello influye
en la estadística, cuya base queda establecida en el CENSUS, que era una doble
investigación practicada regularmente sobre los ciudadanos y sus bienes.

Por su parte, se considera fundador de la estadística como disciplina a Godofredo


Achenwall (1719-1772), profesor y economista alemán quien, siendo profesor de la
universidad de Leipzig (Alemania), escribió sobre el descubrimiento de una nueva
ciencia que llamó estadística (palabra derivada del termino alemán “Staat” que significa
“estado”) y que definió como “el conocimiento profundo de la situación respectiva y
comparativa de cada estado”.

TIPOS DE DATOS.

Categóricas (Cualitativos): Expresan cualidades o atributos (Ej: Color)

Numéricos (Cuantitativos): Expresan magnitudes o cantidades, que son resultado de


medición de algún instrumento, conteo de eventos u operaciones matemáticas simples:

 Discretos: la magnitud es expresable solo mediante números enteros (Ej: No de


hijos)
 Continuos: existe potencialmente un número infinito de valores enteros entre dos
puntos de la escala (Ej: peso)
 Derivados: generadas a partir de cálculos simples de medidas discretas o
continuas.

Escala de Medida.

Nominal: la cualidad que se mide no tiene ninguna secuencia lógica (ej. Sexo)

Ordinal: las observaciones pueden ser ordenadas de menor a mayor, pero las

NOTAS DE CLASE 2
Universidad Del Magdalena
Estadística I
Julio Reales Caro
Docente
distancias no tienen sentido (ej. opinión sobre la calidad de un producto)

Intervalo: las distancias tienen sentido, su magnitud es igual a todo lo largo de la escala,
se puede realizar comparaciones; pero el cero es arbitrario, por lo que operaciones
matemáticas no son realizables. (Ej. temperatura, prueba de inteligencia)

De Razón: mismas características de la escala de intervalo, pero cuenta con el cero,


realizando cualquier operación matemática o lógica. (ej. Altura, peso, salario)

Tablas de Frecuencia No Agrupadas

Son aquellas en donde cada dato tiene la frecuencia correspondiente. Los datos
organizados en tablas de frecuencias no agrupadas se denominan usualmente datos no
agrupados. (aplican tanto para datos categóricos, como para numéricos)

Pasos para la construcción de una tabla de frecuencia de datos No Agrupados: tener en


cuenta que tenemos una muestra de tamaño N, donde la variable estadística X toma los
valores distintos 𝑥1 , 𝑥2 , … , 𝑥𝑘 .

1. Organizar los diferentes valores que toma la variable estadística en orden


ascendente.
2. Generalmente un mismo valor de la variable aparecerá repetido más de una vez (es
decir k < N). De forma que el siguiente paso es la construcción de una tabla en la que
se indiquen los valores posibles de la variable y su frecuencia de aparición.
3. Frecuencia absoluta 𝒏𝒊 : Definida como el número de veces que aparece repetido el
valor en cuestión de la variable estadística en el conjunto de las observaciones
realizadas. Si 𝑁 es el número de observaciones (o tamaño de la muestra), las
frecuencias absolutas cumplen las propiedades:

𝟎 ≤ 𝒏𝒊 ≤ 𝑵, ∑𝒌𝒊=𝟏 𝒏𝒊 = 𝑵

4. Frecuencia relativa 𝒇𝒓 : Cociente entre la frecuencia absoluta y el número de


observaciones realizadas 𝑁.

𝑛𝑖
𝑓𝑖 =
𝑁

NOTAS DE CLASE 3
Universidad Del Magdalena
Estadística I
Julio Reales Caro
Docente
Se debe cumplir:

∑𝒌𝒊=𝟏 𝒏𝒊
𝟎 ≤ 𝒏𝒊 ≤ 𝑵, ∑𝒌𝒊=𝟏 𝒇𝒊 = =𝟏
𝑵

FRECUENCIA
NOMBRE DE LA FRECUENCIA
ABSOLUTA
VARIABLE (𝑿𝒊 ) RELATIVA (𝒇𝒓 )
(𝒏𝒊 )
𝒙𝟏 𝒏𝟏 𝒇𝟏
𝒙𝟐 𝒏𝟐 𝒇𝟐
. . .
. . .
. . .
𝒙𝒌 𝑛𝑘 𝑓𝑘

Ejemplo: La tabla de frecuencias (no agrupada) para el conjunto de datos 3 5 7 6 4 3 7


6 6 7 5 7 es
DATO Frecuencia
3 2
4 1
5 2
6 3
7 4

Tablas de Frecuencia Agrupadas

Cuando el número de valores distintos que toma la variable estadística es demasiado


grande o la variable es continua, no es útil elaborar una tabla de frecuencias como la
vista anteriormente. En estos casos se realiza un agrupamiento de los datos en
intervalos y se hace un recuento del número de observaciones que caen dentro de cada
uno de ellos, el resultado se denomina Tabla de Frecuencia de Datos Agrupados. En
resumen, una distribución de frecuencias agrupadas, es una tabla en la cual se agrupan
en clases los valores posibles para una variable y se registra el número de valores
observados que corresponde a cada clase.

NOTAS DE CLASE 4
Universidad Del Magdalena
Estadística I
Julio Reales Caro
Docente
Pasos para la construcción de una tabla de frecuencia agrupada.

1. ordenar los datos.

2. determinar el Rango: R = Dato Mayor – Dato Menor (se trabaja el dato exacto)

3. número de clases (Regla de Sturges1): 𝑐 = (3,3 ∗ log(𝑛)) + 1 (se aproxima de la forma


clásica, el entero más cercano)

𝑅
4. determinar la amplitud de clase: 𝑤 = 𝑐
(se aproxima al entero siguiente)

5. calculo de la frontera inferior:


Unidad de Medida (UM): este valor está asociado al tipo
𝑢𝑛𝑖𝑑𝑎𝑑 𝑑𝑒 𝑚𝑒𝑑𝑖𝑑𝑎 de dato (discreto o continuo), si el dato es discreto
𝑃𝑢𝑛𝑡𝑜 𝑀𝑒𝑑𝑖𝑜 =
2 (Entero) la UM será igual a 1, si el dato es continuo
(decimal), la UM tomará valores dependiendo de la
𝐹𝑟𝑜𝑛𝑡𝑒𝑟𝑎 𝐼𝑛𝑓𝑒𝑟𝑖𝑜𝑟 = 𝑑𝑎𝑡𝑜 𝑚𝑒𝑛𝑜𝑟 − 𝑝𝑢𝑛𝑡𝑜 𝑚𝑒𝑑𝑖𝑜
cantidad de decimales que tengan los datos originales,
por ejemplo: dato 14,5 (un decimal) = 0,1. Si el dato es
14,26 (dos decimales) = 0,01, a medida que aparezcan
decimales, se agrega un cero a la UM.
6. calculo de la frontera superior:

𝐹𝑟𝑜𝑛𝑡𝑒𝑟𝑎 𝑆𝑢𝑝𝑒𝑟𝑖𝑜𝑟 = 𝑓𝑟𝑜𝑛𝑡𝑒𝑟𝑎 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 + 𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑

7. clases

8. calculo de la frecuencia absoluta: se cuenta cuantos datos hay en cada intervalo de


clase.

Ejemplo: Construya una tabla de frecuencias agrupadas considerando los siguientes


datos.

14 21 23 21 16 19 22 25 16 16 24 24 25 19 16 19 18 19 21 12
16 17 18 23 25 20 23 16 20 19 24 28 15 22 24 20 22 24 22 20

1
Es de resaltar que esta regla no es la única forma de estimar el número de clases adecuada para la
tabla, pero al ser la de mayor difusión y dado su fácil procedimiento, se decide trabajar con esta en el
presente documento.

NOTAS DE CLASE 5
Universidad Del Magdalena
Estadística I
Julio Reales Caro
Docente
Paso 1: ordenar los datos

12 14 15 16 16 16 16 16 16 17 18
18 19 19 19 19 19

20 20 20 20 21 21 21 22 22 22 22 23 23 23 24 24 24 24 24
25 25 25 28

Paso 2: determinar el Rango

R = 28 – 12 = 16

Paso 3: número de clases (Regla de Sturges)

𝑐 = (3,3 ∗ log(𝑛)) + 1
𝑐 = (3,3 ∗ log(40)) + 1 = 6,2867 ≈ 6

Paso 4: determinar la amplitud de clase


𝑅 16
𝑤= = = 2,66 ≈ 3
𝑐 6

Paso 5: cálculo de la frontera inferior

Dado que todos los datos son enteros, la unidad de medida es 1.

𝑢𝑛𝑖𝑑𝑎𝑑 𝑑𝑒 𝑚𝑒𝑑𝑖𝑑𝑎 1
𝑃𝑢𝑛𝑡𝑜 𝑀𝑒𝑑𝑖𝑜 = = = 0,5
2 2

𝐹𝑟𝑜𝑛𝑡𝑒𝑟𝑎 𝐼𝑛𝑓𝑒𝑟𝑖𝑜𝑟 = 𝑑𝑎𝑡𝑜 𝑚𝑒𝑛𝑜𝑟 − 𝑝𝑢𝑛𝑡𝑜 𝑚𝑒𝑑𝑖𝑜 = 12 − 0,5 = 11,5

Paso 6: cálculo de la frontera superior

𝐹𝑟𝑜𝑛𝑡𝑒𝑟𝑎 𝑆𝑢𝑝𝑒𝑟𝑖𝑜𝑟 = 𝑓𝑟𝑜𝑛𝑡𝑒𝑟𝑎 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 + 𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑 = 11,5 + 3 = 14,5

Pasos 7 y 8.

NOTAS DE CLASE 6
Universidad Del Magdalena
Estadística I
Julio Reales Caro
Docente

Primera frontera
Primera frontera
superior estimada
inferior estimada

El valor de la frontera Para calcular las


superior en la clase 1 siguientes fronteras
(anterior), se convierte en el superiores, sólo se debe
valor de la frontera inferior sumar la amplitud (w).
de la clase 2 (siguiente)
Se cuenta la cantidad
de valores que caen en
el intervalo estimado y
se coloca su valor.
Paso 9: cálculo de la marca de clase (X)

𝒇𝒓𝒐𝒏𝒕𝒆𝒓𝒂𝒊𝒏𝒇𝒆𝒓𝒊𝒐𝒓 + 𝒇𝒓𝒐𝒏𝒕𝒆𝒓𝒂𝒔𝒖𝒑𝒆𝒓𝒊𝒐𝒓
𝑴𝒂𝒓𝒄𝒂 𝒅𝒆 𝑪𝒍𝒂𝒔𝒆 =
𝟐

Cálculo de la frecuencia relativa, la acumulada y la relativa acumulada.

La información de la gráfica muestra el histograma de frecuencia absoluta y el polígono


de frecuencia absoluta.

NOTAS DE CLASE 7
Universidad Del Magdalena
Estadística I
Julio Reales Caro
Docente

12 12
Frecuencia absoluta 10 10 P.F.=marca de
P.I.=marca de 8 8 clase final + w
clase inicial – w 6 6 =28 + 3 = 31
=13 – 3 = 10 4 4
2 2
0 0
10 13 16 19 22 25 28 31
Marca de Clase y Fronteras

Histograma Polígono de Frecuencia

Tabla Bivariada.

Tabla descriptiva de las variables (esta es un apoyo, para entender la forma como se
está analizando la información)

VARIABLE DESCRIPCIÓN TIPO DE ESCALA CATEGORÍA


(en qué consiste DATO DE (forma como se
la variable) MEDIDA presenta la variable)
Edad Años Cumplidos Cuantitativa De Valor en número
Intervalo entero de los años
cumplidos.
Sexo Sexo biológico Cualitativa Nominal 0. Hombre.
del individuo. 1. Mujer.

NOTAS DE CLASE 8
Universidad Del Magdalena
Estadística I
Julio Reales Caro
Docente
ANÁLISIS EXPLORATORIO DE DATOS UNIVARIADOS

MEDIDAS DE TENDENCIA CENTRAL.

 Media aritmética:
∑𝑛1 𝑥𝑖
𝑋̅ =
𝑛
Ej: edades de jóvenes de primer semestre de universidad, 18, 18, 18, 18, 19, 19, 19, 20,
20, 21.
18 + 18 + 18 + 18 + 19 + 19 + 19 + 20 + 20 + 21
𝑋̅ = = 19
10

 Media ponderada: «es importante, cuando los datos tienen un peso diferente en
la muestra o población»
∑𝑛1(𝑥𝑖 ∗ 𝑓𝑖 )
̅
𝑋=
∑𝑛1 𝑓𝑖
Ej:
Edades 18 19 20 21
Frecuencia 4 3 2 1

(18 ∗ 4) + (19 ∗ 3) + (20 ∗ 2) + (21 ∗ 1)


𝑋̅ = = 19
4+3+2+1

NOTAS DE CLASE 9
Universidad Del Magdalena
Estadística I
Julio Reales Caro
Docente

 Media aproximada: (media para tabla de datos agrupados)

∑𝑛1(𝑥𝑖 ∗ 𝑓𝑎 )
𝑥̅𝑎 =
∑𝑛1(𝑓𝑎 )

Mediana Datos Puntuales.

Mediana: es el valor que se encuentra en la mitad de los datos, por lo tanto, es la


medida de tendencia central que divide a la distribución de datos en dos partes iguales.
Para determinar la mediana de un conjunto de n datos, hay que realizar los siguientes
pasos:

1. Ordene los datos de menor a mayor.


2. El valor de la mediana dependerá del hecho de que n sea par o impar (estas
fórmulas son un indicador de la posición):

 x n2  x n 1
 2
Si n es par
Me   2
 xn  1 Si n es impar
 2

NOTAS DE CLASE 10
Universidad Del Magdalena
Estadística I
Julio Reales Caro
Docente
Propiedad de los indicadores (Sensibilidad)

Mucha sensibilidad en un indicador puede ser contraproducente, puesto que cambios


irrelevantes (valores extremos) en la muestra pueden producir grandes cambios en el
indicador, lo cual puede prestarse para interpretaciones equivocadas.

¿Cuál indicador representa mejor la


muestra?
Ejemplo:

Gastos de 5 estudiantes en la universidad:

Gasto (xi): 1700, 3000, 5000, 6500, 70000. Me= 5.000

La moda (Mo) corresponde al dato de la muestra que tiene mayor frecuencia.

Medidas de Posición
Percentiles:
Dividen la distribución en 100 partes iguales, cada uno representa el 1% de la
población.

Deciles:
Dividen la distribución en 10 partes iguales, cada uno representa el 10% de la
población.
Cuartiles:
Dividen la distribución en 4 partes iguales, cada uno representa el 25% de la
población.

Equivalencias para trabajar sólo con la fórmula del percentil para todas las medidas.

• P25 = Q1 P50 = Q2= Me P75 = Q3

• P10 = D1, P20 = D2, P30 = D3, ..., P50= D5= Me, ..., P90= D9, P100= D10

Para calcular el p-ésimo (punto) percentil de un conjunto de n datos, es importante


tener en cuenta los siguientes pasos:

NOTAS DE CLASE 11
Universidad Del Magdalena
Estadística I
Julio Reales Caro
Docente

 Ordenar los datos de manera ascendente.


 Se ubica la posición del percentil que se desea hallar.
P *(n  1)
XP 
100
Donde P es el percentil de interés y n es la cantidad de observaciones.

Decidir de acuerdo a uno de los dos casos:

 Si Xp no es entero se interpola un valor a partir de las dos posiciones


encontradas.
 Si Xp es entero el valor del percentil corresponde a la posición encontrada

Ejemplo: Los siguientes datos corresponden a las edades de 14 personas


seleccionadas al azar entre cierta clase de empleados de la población objetivo de
estudio: 25, 38, 29, 42, 39, 54, 23, 33, 45, 45, 26, 34, 30, 31.

Calcular el Primer Cuartil

El primer cuartil corresponde al percentil 25, por lo cual, se calcula la posición 25 de los
datos:

25*(14  1)
X 25   3.75
100
Según el paso anterior el P25 está entre el tercero y cuarto puesto, que les corresponde
a los siguientes valores:

• En la cuarta posición le corresponde 29


• En la tercera posición le corresponde 26
• La diferencia entre estos valores es 3

Multiplicamos esa diferencia (3) por la parte decimal de la posición Xp: 3*0.75=2.25

Concluimos que P25 = Valor de la tercera posición más el producto:

P25  Q1  26  2.25  28.25


NOTAS DE CLASE 12
Universidad Del Magdalena
Estadística I
Julio Reales Caro
Docente

Medidas de Variabilidad

 El rango o recorrido de un conjunto de datos se define como la diferencia entre el


dato más alto y el más bajo.

𝑅𝑎𝑛𝑔𝑜 = 𝑋𝑚𝑎𝑦𝑜𝑟 − 𝑋𝑚𝑒𝑛𝑜𝑟

 Rango Intercuartíl es la diferencia entre el tercer y el primer cuartil. Es decir,

𝑅 𝐼 = 𝑄3 − 𝑄1

Varianza y Desviación Poblacional

 simbolizada por 𝜎 2
∑𝑁
1 (𝑥𝑖 − 𝜇)
2
𝜎2 =
𝑁

Desviación.
∑𝑁
1 (𝑥𝑖 − 𝜇)
2
𝜎=√
𝑁

Varianza y Desviación Muestral

Simbolizada por 𝑆 2 ,
2
∑𝑛1(𝑥𝑖 − 𝑥̅ )2
𝑠 =
𝑛−1
Desviación:
∑𝑛(𝑥𝑖 − 𝑥̅ )2
𝑆=√ 1
𝑛−1

Coeficiente de Variación.

El coeficiente de variación permite eliminar la influencia de la unidad de medida.

NOTAS DE CLASE 13
Universidad Del Magdalena
Estadística I
Julio Reales Caro
Docente

𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑑𝑒 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠


𝐶𝑉 = ( ) ∗ 100
𝑀𝑒𝑑𝑖𝑎 𝑎𝑟𝑖𝑡𝑚é𝑡𝑖𝑐𝑎 𝑑𝑒 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠

𝑠
𝐶𝑉 = ( ) ∗ 100
𝑥̅

Coeficiente de Asimetría.

Coeficiente de Asimetría de Pearson: (Unimodal)

𝑀𝑒𝑑𝑖𝑎 𝐴𝑟𝑖𝑡𝑚é𝑡𝑖𝑐𝑎 − 𝑀𝑜𝑑𝑎


𝐴𝑝 =
𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛

Si 𝐴𝑝 = 0 la distribución es simétrica; si 𝐴𝑝 > 0, la distribución es sesgada positivamente


(izquierda), y si 𝐴𝑝 < 0, la distribución es sesgada negativamente (Derecha).

 Los coeficientes de asimetría de Fisher (simbolizado por 𝑔𝑙 ) y de Fisher


estandarizado (simbolizado por 𝑔𝑠 ) de un conjunto de datos x1, . . . , xn con
frecuencias f1, . . . , fn se definen, respectivamente, como

NOTAS DE CLASE 14
Universidad Del Magdalena
Estadística I
Julio Reales Caro
Docente
∑𝑛 3
1 (𝑥𝑖 −𝑥̅ ) 𝑓𝑖 𝑔𝑙
𝑔𝑙 = ; 𝑔𝑠 =
𝑠3𝑛
√6⁄𝑛

Si g1 = 0 la distribución es simétrica; si g1 > 0, la distribución es sesgada positivamente,


y si g1 < 0, la distribución es sesgada negativamente.

Coeficiente de Curtosis.

Las medidas de curtosis estudian la distribución de frecuencias en la zona central de la


misma. La mayor o menor concentración de frecuencias alrededor de la media y en la
zona central de la distribución dará lugar a una distribución más o menos apuntada.

Diagrama de Cajas y Bigotes (Boxplot)

Este diagrama constituye una síntesis muy buena de la distribución de frecuencias y su


sencillez la hace más útil, sobre todo en situaciones donde se hace necesario comparar
dos o más distribuciones.

NOTAS DE CLASE 15
Universidad Del Magdalena
Estadística I
Julio Reales Caro
Docente

Los diagramas de cajas y bigotes son útiles, entre otros para los siguientes propósitos:

1. Para identificar la localización de los datos alrededor de la mediana.


2. Para hacerse una buena idea de la dispersión de los datos, basándose en la
longitud de la caja. Además se aprecia el rango de los datos.
3. Permite observar el grado de asimetría de una distribución, comparando las
proporciones de la caja que queda a los lados de la mediana.
4. Útil para identificar posibles valores atípicos (fuera de los cercos)

Referencias Bibliográficas.

 Kazmier, L. & Díaz, A. (1991). Estadística aplicada a la administración y la


economía. 2da ED. McGraw Hill. (México). 450 p
 Humberto S, LL & Rojas A, C. (2015). Estadística descriptiva y distribuciones de
probabilidad. Capitulo1 Estadística descriptiva. 1ra ED. Ediciones Uninorte.
(Barranquilla, Colombia). 408 p.
 Gómez G, H. (2009). Estadística. Notas de Clase. 273 p.
 Martínez B, C. (2012). Estadística y Muestreo. 13va ED. ECOE Ediciones.
(Bogotá, Colombia). 874 p.

NOTAS DE CLASE 16

También podría gustarte