Estadistica Descriptiva Parte 1

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 56

Bienvenidos al curso de

Estadística
Maximiliano Albornoz

Doctor en Ciencias Económicas


Magister en Economía
Licenciado en Economía
Licenciado en Administración
Profesor en docencia superior

Profesor Adjunto de Estadística en UBA, UNLZ y UAI


Profesor Adjunto de Macroeconomía y política económica, Calculo Financiero y
Microeconomía, UBA, ITB

Economista con matricula Activa en Prov. Bs As y CABA


Director de proyectos de investigación (UM, UCES, UNO, UAA)
Director de tesinas de grado (UBA, UNO)
Autor de artículos académicos en revistas con referato
PRIMERA PARTE:

INTRODUCCION
¿Estadística?

•Se origina con la consolidación de los Estados Nación en el siglo XVII.

•En sus principios, tenía como finalidad brindar información al Reino y


al Estado sobre Población.

•Sus primeras técnicas fueron calcular Tablas de Mortalidad.

•Otra de sus aplicaciones fue estimar “probabilidades” con los juegos


de azar (Naipes, Ruleta, etc.).

•Finalmente, durante el siglo XX se consolida su última rama, la


inferencia, especialmente para obtener resultados generales a partir
de muestras.
¿Estadística?

*La Estadística tiene como objeto brindar información para la toma


de decisiones, sea el gobierno, de las empresas o de los
consumidores.

•Se pasa del “dato a secas” a información tabulada y organizada para


su análisis.

•La Estadística se organiza en base a 3 (tres) grandes áreas o bloques:

•1. Estadística Descriptiva: cuya finalidad es organizar y clasificar


datos.
•2. Probabilidad: Cuantificar a la “incertidumbre”.
•3. Inferencia: Obtener “reglas generales” a partir de una muestra.
Temario del curso

•Medidas de tendencia central (media, mediana, moda).

•Medidas de variabilidad o dispersión (desvío medio, desvío


estándar, rango, varianza y coeficiente de variabilidad).

•Medidas de posición: Cuartiles, Deciles y Percentiles.

•Medidas de Forma: Coeficiente de Asimetría y Curtosis.

•Gráficos: Barras, Dispersión, Columnas, Histograma.


Temario del curso

•Enfoques Objetivos: Probabilidad clásica. Probabilidad


Frecuencista. Enfoque subjetivo.

•Teoremas de la suma y del producto de probabilidad.

•Probabilidad condicional.

•Teorema de Bayes.

•Eventos compatibles e incompatibles. Dependencia e


independencia.

•Tabla de contingencia.
Temario del curso

•Distribuciones Discretas. Bernoulli. Binomial. Multinomial.


Poisson. Hipergeométrica. Pascal.

•Distribuciones Continuas. Uniforme. Normal. Log-Normal. Beta.


Gamma.

•Teorema del Límite Central (TLC).

•Ley de los Grandes Números (LGN).


Temario del curso

•Estimación puntual o por intervalos de confianza.

•Test de Hipótesis. Error de Tipo I y Error de Tipo II.

•Regresión lineal simple y Regresión Lineal múltiple.


Correlación. Medidas de bondad de ajuste.

•Series cronológicas. Ciclo. Tendencia. Estacionalidad.


Factores aleatorios.

•Números Índices. Paasche. Laspeyres.


Estadística como disciplina técnica

•La Estadística es una disciplina que es transversal a diferentes áreas


del conocimiento: medicina, biología, psicología, ingeniería, ciencias
económicas, etc.

•El objetivo de la Estadística es generar información para la toma de


decisiones.

•Los usuarios de la información brindada por la Estadística son de


diferentes ordenes económicos y sociales: los gobiernos nacionales,
provinciales y municipales, empresarios Pymes o grandes empresas,
estudiantes secundarios o universitarios, cámaras empresarias,
consultoras económicas, organismos internacionales, etc.

•La calidad y cantidad de información generada y publicada es una


característica de la institucionalidad o transparencia de un país.
Conceptos Introductorios

•Diferencia entre “Población” (N) y “Muestra” (n)

•Si la muestra está “bien hecha” los estimadores son Insesgados:

E(b)= b

•Variables: Atributos o características de un objeto / persona, etc.


Conceptos Introductorios

•Variables y Datos cualitativos (sexo, nacionalidad, color de ojos,


etc.).

•Variables y Datos cuantitativos (ingresos mensuales, choques por


año, nacimientos por día, etc.).
1. Datos discretos (se pueden contar. Números enteros).
2.Datos continuos (se pueden medir. Números con decimales).

•Variables dependientes y independientes.


“Trade-off” entre Población y Muestra

•Población: Todo el conjunto de elementos. Ejemplo: Censos de


Población.

•La ventaja de la población es obtener información sobre todas las


unidades de observación.

•Los problemas son el tiempo para procesar los datos y el costo


económico de su realización.

•Muestra: Encuesta Permanente de Hogares (EPH).

•Las ventajas de la muestra es su reducido costo y el fácil análisis.


Aplicaciones empíricas 1:
Seguros y seguridad social
Aplicaciones empíricas 2:
Distribución del ingreso
Aplicaciones empíricas 3:
Mortalidad y Natalidad
Aplicaciones empíricas 4:
La inflación y los índices de precios
Búsqueda de datos ¿Dónde?

Los datos para realizar un trabajo o análisis estadístico pueden


provenir principalmente de dos tipos de fuentes:

1. Fuentes Primarias: Son aquellos que crea el investigador para su


estudio en particular. Su ventaja es que están hechas a “medida”.
Su desventaja es el costo de generarlas. Ejemplo: un relevamiento
de expectativas de comercio o industria.

1. Fuentes Secundarias: Son datos generados por un tercero


(ejemplo, el INDEC) y el usuario toma esa información y la trabajo
según su conveniencia. Su ventaja es el bajo costo de obtener y su
desventaja que no siempre los datos se orientan a nuestras
“necesidades”.
Instituto Nacional de Estadística y Censos (INDEC)

Creado en 1968 por Juan Vital Sourrouille (1940-2021), uno de los “padre” de las
Cuentas Nacionales de Argentina, Ministro de Economía de la Argentina (1985-1989)
durante la presidencia de Ricardo Alfonsín, discípulo de Richard Stone (Premio Nobel de
Economía 1984, fundador de las Cuentas Nacionales).
CANTIDADES ABSOLUTAS

Son aquellos datos cuantitativos que están expresados en las unidades de medida correspondientes a la
magnitud que se está midiendo.
Ejemplo, PIB per cápita en dólares a PPP (precio de paridad de compra)

CANTIDADES RELATIVAS

Son aquellos datos cuantitativos que surgen del cociente entre dos cantidades absolutas correspondientes a
la misma magnitud y unidad de medida.
Ejemplo, la tasa de crecimiento del PIB entre dos periodos.
Una forma práctica para obtener la relación porcentual entre el módulo de dos números
𝑎 y 𝑏 (𝑏0), es hacer el cociente entre ellos:

a a
=c y c =1 + v = 1+ v
b b
c =1  v = 0  a = b
Si v es positivo, (v.100) es el porcentaje
c 1  v  0  a  b que a es mayor que b.

Si v es negativo, (-v.100) es el
c 1  v  0  a  b porcentaje que a es menor que b.

a
v = −1 Donde b es la base de comparación
b
MANUAL DEL PRINCIPIANTE EN ESTADÍSTICA DESCRIPTIVA Y PROBABILIDAD. Graciela Duret((*)) pág. 27

El precio de cierto tipo de papel ha sido en el mes de Mayo de


$25 por unidad, y en el mes de Junio de $31 por unidad. Calcule,
porcentualmente, cuánto mayor es el precio de Junio con
respecto a Mayo.

Extraemos los datos del Precio en Mayo: $25  Precio base


problema: Precio en Junio: $31

𝑎
Calculamos la variación: 𝜈 = −1
𝑏
31
𝜈= − 1 = 0,24 → 24%
25
RTA: el precio de Junio es 24% mayor que el precio de Mayo.
Ejemplo: Comparaciones internacionales de PIB per cápita en dólares a PPP

Fuente: FMI
VARIACION ABSOLUTA
Country Argentina VA Brazil VA Chile VA United States VA ARGENTINA 2019
2010 18.912 14.679 19.348 49.414
PIB 2019 CON RESPECTO A 2018 CAYO EN 752 DOLARES
2011 19.817 4,8% 15.131 3,1% 20.306 4,9% 49.826 0,8% POR HABITANTE
2012 19.392 -2,1% 15.290 1,0% 21.156 4,2% 50.586 1,5%
2013 19.638 1,3% 15.617 2,1% 21.802 3,1% 51.165 1,1% VARIACION PORCENTUAL
2014 18.935 -3,6% 15.562 -0,3% 21.969 0,8% 52.080 1,8% PIB 2019 CON RESPECTO A 2018 CAYO 4,1%
2015 19.244 1,6% 14.880 -4,4% 22.246 1,3% 53.209 2,2%
2016 18.645 -3,1% 14.269 -4,1% 22.379 0,6% 53.696 0,9% Forma 1: -0,041 = (17.509 – 18.261)/18.261
Form2: -0,041= (17.509/18.261) -1
2017 18.933 1,5% 14.305 0,3% 22.350 -0,1% 54.614 1,7%
2018 18.261 -3,5% 14.347 0,3% 22.837 2,2% 55.865 2,3% PROPORCION RELATIVA
2019 17.509 -4,1% 14.372 0,2% 22.976 0,6% 56.844 1,8% EN 2011, EL PIB PER CAPITA DE ARGENTINA CON RESPECTO
A EEUU ERA DEL 39,7%, MIENTRAS QUE EN 2019 ERA DE
30,8%
A MODO DE CIERRE

LA ESTADISTICA PUEDE SER UNA SALIDA LABORAL

BIG DATA
CIENCIA DE DATOS
BUSINESS ANALITYCS

ESTADISTICA+ INFORMATICA
A MODO DE CIERRE

LA ESTADISTICA PUEDE SER UNA SALIDA LABORAL


SEGUNDA PARTE:

ESTADISTICA DESCRIPTIVA
ANÁLISIS ESTADÍSTICO
DESCRIPTIVO:

Es el que permite describir el


comportamiento empírico de las
variables, mediante el cálculo de
algunas medidas capaces de resumir
la información que contienen los
datos, la construcción de cuadros y
gráficos especiales.
Son medidas capaces de extractar la
esencia de los datos para caracterizar
y describir las variables en estudio.
MEDIDAS QUE RESUMEN
INFORMACIÓN

son medidas capaces de extractar la


esencia de los datos para caracterizar
y describir las variables en estudio.

MEDIDAS DE MEDIDAS DE MEDIDAS MEDIDAS DE


TENDENCIA VARIABILIDAD DE FORMA CONCENTRACIÓN
CENTRAL (POSICION)
Parámetro y Estadístico I

*Un Parámetro es una medida numérica de una población.


Ejemplo: el promedio poblacional se calcula:

𝑁
𝑖=1 𝑋𝑖 𝑋1 + 𝑋2 + ⋯ 𝑋𝑁
𝜇= =
𝑁 𝑁

* Los parámetros son siempre “fijos” porque son medidas


obtenidas de la población, la cual se considera permanente
y fija.
Parámetro y Estadístico II

*Un Estadístico o Estadígrafo es una medida numérica de


una muestra. Ejemplo: el promedio muestral se calcula:
𝑛
𝑖=1 𝑥𝑖 𝑥1 + 𝑥2 + ⋯ 𝑥𝑛
𝑥= =
𝑛 𝑛

* Los estadísticos son siempre “variables” porque son


medidas obtenidas de muestras, las cuales varían al ser
seleccionadas.
Medidas Numéricas “Cuantitativas”

•Los datos podrían trabajarse de dos maneras:


1. No agrupados (cuando la muestra es chica, menor a 30 elementos)
2. Agrupados (cuando la muestra es grande)

Se empezará trabajando con datos no agrupados y calculando las


medidas descriptivas básicas, para luego pasar a las medidas
descriptivas con datos agrupados.

Las medidas más relevantes son la media, la moda, la mediana, los


cuartiles, percentiles, la varianza, el desvío estándar, el coeficiente
de variación y la asimetría y curtosis.
Medidas Numéricas “Cuantitativas”

•Es posible caracterizar a un conjunto de datos numéricos por la


medición de su tendencia central, su variabilidad, posición y forma.

•La mayoría de los conjuntos de datos presentan una tendencia a


agruparse en torno a un valor central. Se habla de “promedio”, “valor
mediano” o “el más frecuente” cuando nos referimos de manera
informal a la media, mediana y el modo.

•Empezamos calculando esos valores para datos cuantitativos


continuos de forma no agrupada (no hay una tabla de frecuencia)

•Ejemplo de aplicación: el ingreso per cápita en dólares a Purchasing


Power Parity (PPP)
Medidas de tendencia central

Tipos de promedios (medias)

1. Media aritmética simple: es la mas utilizada

2. Media geométrica: se utiliza, por ejemplo con tasas de variaciones

3. Media armónica

4. Media aritmética ponderada: un ítem o elemento tiene mas peso


que los otros. Ejemplo: índice de precios al consumidor (IPC),
donde alimentos y bebidas representa aproximadamente el 40%
del total.

Comentario: µ es la media o promedio poblacional mientras que 𝑥


se refiere al promedio o media muestral
ANALISIS DE DATOS NO AGRUPADOS

Medidas de tendencia central

Media o Promedio Aritmético Simple

La media aritmética es la medida más común de tendencia central.


Sirve como “punto de equilibrio” del conjunto de datos. Todos los
valores tienen la misma ponderación o importancia.

n
i=1 xi
𝑥=
n

Es el momento absoluto de orden uno (recordar para mas


adelante….MOMENTOS)
Medidas de tendencia central

Ejemplo: PIB per cápita en dólares a PPP


País 2019 ¿Cuál es el PIB “promedio”
Argentina 17.508,9 de la muestra?
Bolivia 7.134,6 1. Datos no agrupados
Brasil 14.371,6 2. Variable continua
Chile 22.975,6 3. Se utiliza el promedio o
Ecuador 10.251,7 media aritmética simple
Colombia 13.567,9
149.324,2
Mexico 18.218,1 𝑥= = 14.932,4
10
Peru 12.850,2
Uruguay 20.586,5 Es el ingreso promedio
Paraguay 11.859,3 aritmético regional
Medidas de tendencia central

Ejemplo: PIB per cápita en dólares a PPP

País 2019 Problemas de la media


Argentina 17.508,9 1. Muy sensible a datos
Bolivia 7.134,6 extremos (outliers)
Brasil 14.371,6
206.168,3
Chile 22.975,6 𝑥= = 18.742,5
11
Ecuador 10.251,7
Colombia 13.567,9 2. Agregar a EEUU, aumentó
Mexico 18.218,1 el promedio un 25,5%
Peru 12.850,2 (18.742,5/14.932,4-1)
3. Entonces, el promedio se
Uruguay 20.586,5
torna no representativo de la
Paraguay 11.859,3
muestra
EEUU 56.844,3
MEDIA GEOMÉTRICA

Para datos sin agrupar:

Xg = n  xi  xi  0

Para datos agrupados:

Xg = n
 xi fi
 xi  0
DESVENTAJAS DE LA MEDIA GEOMÉTRICA:

1. los valores de la variable deben ser NO NULOS y , en algunos


casos necesariamente POSITIVOS.

2. Su cálculo es muy laborioso.


Se la utiliza cuando es necesario promediar variables cuyos
valores forman una serie y se originan como cocientes entre otras
dos variables, como por ejemplo las tasas de crecimiento
periódicas:
yi
xi =  yi  0
yi −1
y1 y2 y3 yn
x1 = ; x2 = ; x3 = ; ... ; xn =  yi  0
y0 y1 y2 yn −1
MEDIA ARITMETICA VERSUS MEDIA GEOMETRICA
PIB a precios constantes
Periodo Variación
de 1993 (en miles)
2003 256.023 8,8%
2004 279.141 9,0% En el largo plazo, pequeñas
2005 304.764 9,2% diferencias se convierten en
2006 330.565 8,5% grandes diferencias.
2007 359.170 8,7%
2008 383.444 6,8% Recordar de Matemática
2009 386.704 0,9% Financiera la Teoría del
2010 422.130 9,2% Interés Compuesto.
2011 459.571 8,9%

Media aritmética 7,8%


Media geométrica 6,6%
MEDIA ARITMETICA VERSUS MEDIA GEOMETRICA
Diferencias entre el PIB per capita usando media aritmetica y
media geometrica
180000

160000

140000
Pais A Pais B
120000

100000

80000

60000

40000

20000

0
7

70
1
4

10
13
16
19
22
25
28
31
34
37
40
43
46
49
52
55
58
61
64
67

73
76
79
82
85
88
91
94
97
100
MEDIA ARMÓNICA
Para datos sin agrupar:

n
Xa =  xi  0
1
x
i

Para datos agrupados:

n
Xa =  xi  0
fi
 xi
Medidas de tendencia central

Mediana

La mediana es el valor que divide en dos partes iguales a un conjunto


de datos ya ordenado. La mediana no se ve afectada por los valores
extremos. Es el valor del centro de un conjunto de datos ordenado de
menor a mayor.
El 50% de los valores son menores que la mediana y el otro 50% son
mayores
Medidas de tendencia central

Mediana

Regla 1: si el conjunto de datos viene de una muestra de orden impar,


la mediana es el valor colocado en el medio.

Ejemplo: 1115799 n=7 La mediana es 5

Regla 2: si el conjunto de datos viene de una muestra de orden par, la


mediana es el promedio de los dos valores colocados en el medio.

Ejemplo: 11167899 n=8 La mediana es 6,5: (6+7)/2


Medidas de tendencia central

El problema de la media en la distribución del ingreso


...El 50% de la población relevada por le EPH gana menos de 14.500,
son casi 15 millones de personas…
Medidas de tendencia central
Ejemplo: PIB per cápita en dólares a PPP
n País 2019 ¿Cuál es el PIB “mediano” de
1 Bolivia 7.134,6 la muestra?
2 Ecuador 10.251,7 1. Datos no agrupados
3 Paraguay 11.859,3 2. Variable continua
4 Peru 12.850,2
3. Se ordenan de menor a
mayor
5 Colombia 13.567,9
4. El PIB de Brasil es la
6 Brasil 14.371,6
mediana de la muestra
7 Argentina 17.508,9 5. Quedan 5 países a la
8 Mexico 18.218,1 izquierda y derecha de la
9 Uruguay 20.586,5 mediana
10 Chile 22.975,6
11 EEUU 56.844,3
Medidas de tendencia central

Ejemplo: PIB per cápita en dólares a PPP


n País 2019 La mediana no se ve afectada
1 Bolivia 7.134,6 por lo que pasa en los
2 Ecuador 10.251,7 extremos
3 Paraguay 11.859,3
4 Peru 12.850,2
Si reemplazo a EEUU por
Singapore (uno de los tigres
5 Colombia 13.567,9
del “milagro” de Asia
6 Brasil 14.371,6
Oriental), la mediana no se
7 Argentina 17.508,9 altera
8 Colombia 18.218,1
9 Uruguay 20.586,5 La mediana analiza lo que
10 Chile 22.975,6 pasa en el centro y no es
11 Singapore 90.080,1 sensible a los extremos
Medidas de tendencia central

La Moda
La moda es el valor del conjunto de datos que aparece con mayor
frecuencia. Como la mediana, la aparición de valores extremos no
afecta la moda. En un conjunto de datos, puede no haber moda o puede
haber varias.

Las fallas de un servidor por día tiene la siguiente distribución (n=14)


Fallas = 0 0 1 2 2 𝟑 𝟑 𝟑 𝟑 𝟑 4 6 7 26

La moda es 3. La mediana es 3. La media es 4,5. El valor extremo atípico


(outliers) es 26.

Un conjunto de datos no tiene moda (modo) cuando ninguno de los


valores es “más frecuente”: en el ejemplo de PIB per cápita a PPP no
había moda.
Medidas de tendencia central

Uso de EXCEL en ESTADISTICA DESCRIPTIVA

1. Voy a DATOS
2. LUEGO A ANALISIS DE DATOS (sino está instalado tengo que ir
ARCHIVOS/OPCIONES / COMPLEMENTOS/Herramientas de analisis)
3. Marco las celda y elijo la opción de resumen de estadísticas
Medidas de tendencia central
Columna1
Uso de EXCEL en ESTADISTICA
DESCRIPTIVA Media 18742,5965
Error típico 4056,06301
1. Voy a DATOS Mediana 14371,624
2. LUEGO A ANALISIS DE Moda #N/A
DATOS (sino está instalado Desviación
estándar 13452,4391
tengo que ir OPCIONES /
Varianza de la
COMPLEMENTOS) muestra 180968119
3. Marco las celda y elijo la Curtosis 7,78951227
opción de resumen de Coeficiente de
estadísticas asimetría 2,6339969
Rango 49709,748
Mínimo 7134,565
Máximo 56844,313
Suma 206168,562
Cuenta 11

También podría gustarte