Resumen Estadistica
Resumen Estadistica
Resumen Estadistica
TEMA 1
ESTADISTICA: es aquella parte de la ciencia que nos permite la búsqueda,
recolección, análisis, ordenamiento de datos cuant y cuali que están relacionados con
una variable de estudio que pertenece a un universo preestablecido.
Es una disciplina que nos proporciona principios y herramientas para emitir juicios
sobre colectivos; basados en datos obtenidos para propósitos específicos. Por ende,
nos brinda el soporte para saber qué datos obtener, como cuando y donde obtenerlos.
Y una vez obtenidos, proporciona los métodos y procedimientos para organizarlos con
diferentes propósitos. BASICAMENTE para la toma de decisiones
administrativas/contables.
1
Miranda, Gerardo Julián
¿QUE ES LA VARIABLE?
Rasgo o característica de los elementos de la población que se pretende estudiar. Es
lo que motiva nuestro interés de estudio, es lo que se va a medir y representa una
característica o cualidad de la UNIDAD DE ANALISIS.¡
Unidades de análisis: son los elementos donde se observa el valor que toma la
variable.
DATOS: son el resultado de la medición de la variable sobre las Unidades de análisis.
Por ej si analizamos la cantidad devengada por los tx de la construcción la variable es
el ingreso y esta medida en $.
Población: es el conjunto de todos los elementos a los que se somete un estudio
estadístico. Ósea es el conjunto de las unidades de análisis
Un. De análisis: cada individuo o unidad estadística donde voy a observar el valor que
toma la variable. Es elemento de la población. Como a veces or cuestión de tiempo o
costo no podemos analizar toda la población procedemos a tomar una muestra.
Muestra: Es un conjunto de representativo de la población de referencia. La podemos
definir como un subconjunto representativo de la población.
2
Miranda, Gerardo Julián
3
Miranda, Gerardo Julián
Distribución de frecuencias:
Es un arreglo ordenado de los datos estadísticos en forma ascendente en una tabla
de doble entrada en la cual se le asigna a cada dato su frecuencia de ocurrencia
correspondiente.
TIPOS DE FRECUENCIA
Frecuencia absoluta: Es el número de veces que se repite cada valor de la variable.
Se representa por fi. La suma de las frecuencias absolutas es igual al número total de
datos u observaciones, que se representa por “n”.
Σfi=f 1+ f 2+ f 3+…+ fm=n
4
Miranda, Gerardo Julián
5
Miranda, Gerardo Julián
6
Miranda, Gerardo Julián
FRECUENCIAS FRECUENCIAS
ABSOLUTAS ABSOLUTAS
RELATIVAS RELATIVAS
PORCENTUALES PORCENTUALES
SIMPLES ACUMULADAS
OJIVA
HISTOGRAMA POLÍGONO DE
… FRECUENCIA
7
Miranda, Gerardo Julián
Medidas de posición
Son aquellas que nos indican la ubicación de los valores observados de nuestra
variable. Como se trata de un numeronúmero que pretende representar un conjunto
de valores numéricos, esta representatividad será mayor cuanto masmás
concentrados, o cerca unos de otros estén los integrantes del conjunto y será menor a
medida que los datos se dispersen.
1. Modo (Mo): Es aquel valor observado de la variable X que tiene mayor
frecuencia absoluta (fi).
2. Mediana (Mna): Es el valor central, aquel que deja la misma cantidad de datos
a su izq. y a su derecha. El cálculo dependerá si n es par o impar
Li+
()n
2
−Fi−1
∗i
fi
3. Media aritmética (~ x ): definimos a la media aritmética como la sumatoria de los
valores de la variable x dividido en el total de observaciones.
( Xi . fi )
I. Sin intervalos: x=Σ
n
( x . fi )
II. Con intervalos: x=
n
Propiedades de la media aritmética
8
Miranda, Gerardo Julián
Medidas de dispersión
Las medidas de dispersión tratan, a través del cálculo de diferentes fórmulas, de arrojar
un valor numérico que ofrezca información sobre el grado de variabilidad de una variable.
9
Miranda, Gerardo Julián
Los Números índices son indicadores de los cambios ocurridos en una variable p un
grupo de variables, en un instante determinado con relación a otro instante
considerado como referencia o base.
Se pueden aplicar a cualquier variable (precios, cantidades, salarios, producción) y
nos informan rápida y precisamente sobre el porcentaje de incremento o decremento
que ha sufrido nuestra variable.
10
Miranda, Gerardo Julián
0 x0
I 0= =1
x0
3. Inversión: El producto de dos índices en los que se han invertido los períodos base
y de comparación es igual a la unidad.
t 0
I 0 ⋅ I t =1
4. Circular: Es una generalización de la de inversión. Si generalizamos a tres períodos
t’, t, o, tendremos:
t t 0
I 0 ⋅ I n ⋅ I t =1
5. Proporcionalidad: Si la magnitud varía en proporción 1 + K, y fijado el período de
comparación, el número índice también varía en la misma proporción. Sea:
11
Miranda, Gerardo Julián
12
Miranda, Gerardo Julián
a. Laspeyres: usa el índice de media aritmética ponderando con W0, ósea con
las cantidades consumidas de cada uno de los artículos involucrados en el
cálculo en el periodo base.
b. Paasche: Usa el índice medio armónico, pondera con el factor de
ponderación en el año dado. Requiere actualización permanente en todos
los periodos y aparte hay cambios en los hábitos de consumo.
c. Fisher: Es un promedio de los dos índices anteriores dado que el índice de
Laspeyres sobreestima y el índice de Paasche subestima. Utiliza la media
geométrica
13
Miranda, Gerardo Julián
14
Miranda, Gerardo Julián
15
Miranda, Gerardo Julián
Unidad 3 “Probabilidad”
Teoría de probabilidad
Es una rama de las matemáticas que tuvo sus orígenes en los juegos de azar, cuya
ejecución genera resultados inciertos. Es la que se dedica a estudiar esa
incertidumbre en los procesos para poder predecir los resultados a largo plazo.
Experimento aleatorio: es aquel proceso que cada vez que se lleva a cabo o se
observa, presenta un resultado entre varios posibles. La noción de experimento
aleatorio trae aparejada la noción de incertidumbre en el sentido de que es
imposible predecir cual, entre todos los resultados posibles, es el que se va a
presentar. Por ej.: lanzar una moneda, lanzar un dado, extraer una carta,
lanzar un dado hasta que salga el nº 4.
Espacio muestral (S): Es el conjunto de todos los resultados de un experimento
aleatorio. Se simboliza con S.
16
Miranda, Gerardo Julián
17
Miranda, Gerardo Julián
6) Evento intersección (E1 ∩ E2): este evento está formado por todos los rdos
comunes a E1 y E2. En el ej. anterior E1 ∩ E2= {2}.
Los sucesos se pueden visualizar perfectamente a graves del DIAGRAMA DE VENN
AXIOMAS DE PROBABILIDAD
Los axiomas sobre los cuales se sustenta la teoría matemática de las probabilidades
son 3:
18
Miranda, Gerardo Julián
19
Miranda, Gerardo Julián
Definición de probabilidad
Sea un espacio muestral s, finito y equiprobable, l probabilidad de cualquier evento E
de S, se define como el número de resultados del evento sobre el número de
resultados del espacio muestral.
numero de resultdos de E casos favorables
P ( E )= =
numero de resultados de S casos posibles
Distribución de probabilidad
Es la asignación de un valor de probabilidad a cada resultado del S. Para que esta
sea considerada como tal deberá cumplirse la condición de cierre, la cual se verifica
cuando la suma de todas las probabilidades de una distribución es igual a 1..
Tipos de probabilidad.
Probabilidad marginal y conjunta: Sean A y B dos particiones del Espacio
Muestral S, tal que A: A1, A2,…, As son mutuamente excluyentes y B: B1, B2,
…, Bt también. Los resultados de S pueden clasificarse en una tabla a doble
entrada como la siguiente:
20
Miranda, Gerardo Julián
Este resultado suele llamarse” Teorema del Producto”, y tiene una importancia
primordial para el cálculo de Probabilidades.
INDEPENDENCIA
Sean E1 y E2 sucesos de S, se dice que E1 y E2 son independientes si se cumple
cualquiera de las siguientes relaciones:
P(Ai/Bj) = P(Ai). La condición Bj no está interviniendo
P(Bj/Ai) = P(Bj). La condición Ai no está interviniendo.
P(Ai·Bj) = P(Ai) · P(Bj). SOLO SI SON INDEPENDIENTES.
La independencia es la no incidencia del suceso condicionante sobre el condicionado.
VARIABLE ALEATORIA.
Es un valor cuantitativo o la cuantificación del espacio muestral. Tiene características
que surgen de cálculos matemáticos que a partir de un numero resumen el
comportamiento de la variable aleatoria (porque está asociada a una probabilidad).
Ya no contamos con medidas descriptivas, sino con parámetros los cuales se
obtienen mediante un experimento aleatorio que arroja diversos resultados que tienen
que ser cuantificados.
La variable aleatoria es una función que asocia a cada resultado del S un número real.
Cuando le asociamos un valor de probabilidad a cada uno de esos resultados, surge
lo que se denomina una función de probabilidad.
V.A.: X:SR
21
Miranda, Gerardo Julián
Una variable aleatoria puede ser discreta o continua, según como sea el espacio
muestral al que este asociado.
1. Esperanza de una variable aleatoria.
Es un parámetro y se asemeja al concepto de la media aritmética visto anteriormente.
Es el valor esperado (por qué estamos hablando de variables asociados a
probabilidades con un margen de error) de una V.A., y según sea discreta o continua
será como la calculemos
Sí X es Discreta E(X) = ∑ x · P(x)
22
Miranda, Gerardo Julián
23
Miranda, Gerardo Julián
Uniforme discreta
DISCRETAS
Binomial
Poisson
1
f ( k )=P ( X =k )=
n
f ( k )=P ( X =k )=1 /6
24
Miranda, Gerardo Julián
n+1
Esperanza: E ( x )=
2
Distribución binomial.
Es una distribución de probabilidad que describe el número de éxitos al realizar n-
experimentos independientes entre sí (trabajamos con reposición), acerca de una
variable aleatoria. Y que las reviste las siguientes propiedades:
1) El experimento consiste en repetir n ensayos
2) Cada ensayo da un resultado que puede ser clasificado como un éxito o
fracaso=DICOTOMIA. De ahí proviene el nombre de la distribución.
3) La probabilidad de éxito (p) es conocida y constante a lo largo de todo el
experimento.
La distribución de probabilidad de nuestra variable aleatoria X se llama Distribución
Binomial de probabilidad y se expresa mediante la siguiente formula:
25
Miranda, Gerardo Julián
26
Miranda, Gerardo Julián
n n
Distribución de Poisson
Es aplicable a eventos aleatorios que no ocurren como resultados venidos de un
experimento, como sucede en Binomial, sino más bien en puntos aleatorios del tiempo
o del espacio. Nos interesa calcular el valor de la variable en un tiempo/espacio
determinado
Para eventos así podemos contar el número de ocurrencias del evento en
determinado tiempo o espacio, pero carece de sentido hablar del número de no
ocurrencias (fracasos) del mismo en dicho tiempo o espacio. Por ej., podemos contar
fácilmente el número de clientes que entran a un comercio en 1 hora, pero no tiene
sentido hablar de la cantidad de clientes que no entraron en esa hora.
Este tipo de eventos sigue un modelo Poisson donde:
X Bi ( n ; p ) donde n−→ ∞ y p−→ 0
Bajo estas condiciones podemos considerar que el producto de n y p permanece
constante
n . p=Cte=λ−→ p=λ /n
Modelo matemático de Poisson.
∞
λ
Por ser ∑ El desarrollo en serie de ⅇ λ .
x=0 x!
27
Miranda, Gerardo Julián
Uniforme
Tipos de
distribucion
continuas
Normal o
de Gauss
28
Miranda, Gerardo Julián
Distribución Uniforme.
Vamos a considerar ahora una v.a. X continua que puede tomar únicamente valores
dentro de un intervalo (ab) con probabilidad constante, donde a y b son reales y
finitos. El espacio muestral es
S= {x/x ∈ R ∧ a< x <b }
Supongamos que queremos calcular la Prob. Que X este dentro de un intervalo (cd)
(ab) esto es P(c<x<d).
P (c<X<d)=(cd)/(ab)=d-c /b-a
29
Miranda, Gerardo Julián
30
Miranda, Gerardo Julián
31
Miranda, Gerardo Julián
Aproximaciones.
32
Miranda, Gerardo Julián
poblacion.
Conjunto de elemtnos que poseen una caracteristica o
atributo comun observable.
Ventajas Desventajas
Evita la realización de censos Existe la posibilidad de un sesgo
Es menos costoso y más rápido Hay un margen de error
Facilita los cálculos estadísticos Presenta dificultades en grandes
poblaciones
Permite inferir los rdos de la muestra a la Dificultad para llegar al elemento
población objeto de estudio seleccionado de la población
33
Miranda, Gerardo Julián
TIPOS DE MUESTREO.
Probabilísticos: están asociados a un valor de probabilidad y su metodología está
relacionada al azar.
Aleatorio simple: donde todos los elementos de la población tienen la misma
probabilidad de ser seleccionados. Se utiliza la tabla de números aleatorios
seleccionando números al azar.
Estratificado: Lo que se hace es dividir a la población en estratos (grupos de
elementos que son homogéneos entre si y entre los estratos son
heterogéneos). La sección de los elementos de la muestra debe ser tal que
represente a cada uno de los estratos. Se ve cuantos elementos hay en cada
estrato, cuanto representa eso del total en la población y esa proporción se
aplica a la muestra….
Por conglomerados: Se divide la población en grupos, pero los elementos de
los conglomerados son heterogéneos y entre los conglomerados son
homogéneos….
Sistemáticos: Primero se establece una cota (k=N/n) que está dada por el
tamaño de la población sobre el tamaño de la muestra.
No probabilísticos: no están relacionados al azar
Intencionales: Consiste en seleccionar elementos de una población en base a
lo que un experto cree serán las unidades que darán respuesta a cierta
cuestión en particular.
34
Miranda, Gerardo Julián
Errores
Depende del sistema de muestreo que seleccionemos y de la forma o el
procedimiento que utilicemos para elegir los elementos a ser integrados en la
muestra, vamos a cometer 2 tipos de errores estadísticos:
I. ALEATORIOS: Se relacionan con el muestreo aleatorio o probabilístico.
II. SISTEMATICOS: Se vinculan con procedimientos de selección de datos.
35
Miranda, Gerardo Julián
Tema 1: Aspectos básicos. Error Tipo I y error Tipo II. Nivel de significación. Pruebas
de uno y dos extremos. Hipótesis nula y alternativa.
Tema 2: Test de diferencias de medias muestrales. Test de diferencias de
proporciones muestrales. Prueba Chi-Cuadrado. Tipos. Limitaciones. Tablas y usos.
Aplicaciones. Interpretaciones
.
36
Miranda, Gerardo Julián
Aspectos básicos.
Hipótesis estadística: es una proposición, supuesto o conjetura sobre los parámetros
de una o mas poblaciones. Es importante recordar que las hipótesis siempre son
proposiciones sobre la población o distribución bajo estudio, no proposiciones sobre la
muestra.
Prueba o test de hipótesis: es un procedimiento con el que se busca tomar una
decisión sobre el valor de verdad de una hipótesis estadística. Al realizar una prueba
de hipótesis decidimos si rechazar o no esa hipótesis estadística. Basamos la decisión
en la evidencia muestral.
Procedimiento que me permite comprobar a partir de un análisis muestral, un
supuesto o suposición con relación a un parámetro poblacional o su distribución.
37
Miranda, Gerardo Julián
Conceptos fundamentales.
¿Qué es una VARIABLE? Un variable es una característica de interés que tienen los
individuos de una población. Por ej.: el peso de un paquete de galletitas. Cantidad de
materias aprobadas de un alumno.
¿Qué es un parámetro? Es una constante asociada a la distribución de probabilidad
de una variable aleatoria. Es una medida descriptiva que caracteriza a la población.
¿Qué es un estimador de un parámetro? Es un estadístico (variable aleatoria
función de las observaciones muestrales) que toma valores cercanos al verdadero
valor del parámetro.
P: prop.
poblacional
38
Miranda, Gerardo Julián
39
Miranda, Gerardo Julián
40
Miranda, Gerardo Julián
3) El area bajo la curva vale 1. La mediana es aquel valor de la variable que deja
igual cantidad de datos a la izquierda que a la derecha. Y la media es igual a
los Grados de libertad.
4) Por ser calculada mediante el cuadrado de las diferencias de valores, la curva
siempre sera positiva. El valor mas pequeño posible para la X 2 es 0 y el
maximo es el +∞.
41
Miranda, Gerardo Julián
42
Miranda, Gerardo Julián
43
Miranda, Gerardo Julián
Significado de “r”
r=1 indica una correlacion perfecta y directa
r=-1 idncia correlacion perfecta e inversa
r=0 indica que no existe relacion entre las variables
44
Miranda, Gerardo Julián
Analisis de regresion.
Incluye un conjunto de tecnicas utilizadas en dos operaciones principales:
Derivar una ecuacion y una linea (recta o curvilinea) que describa la relacion
entre las variables.
Estimar una variable (Dependiente “y”) a partir de otras/s variable/s
(independiente “x”).
El analisis de regresion involucra el estudio de la relacion entre 2 VARIABLES
CUANTITATIVAS. En general interesa:
a) Investigar si existe una asociacion entre 2 variables testeando la hipotesis de
independencia estaditica.
b) Estudiar la fuerza de la asociacion, a traves de una medida de asociacion
denominada coeficiente de correlacion
c) Estudiar la forma de la relacion. Usando los datos propondremos un modelo
para la relacion y a partir de ella sera posible predecir el valor de una variable a
partir de la otra.
La decision sobre que analisis usar en una situacion particular depende de la
naturaleza de la variable dependendiente (OUTCOME) y del tipo de funcion que se
propone para relacionar el outcome y la variable independiente. Intervienen 2
variables en el analisis de regresion:
I. Covariables o variables independientes o variables regresoras: Se usan como
predictores o son variables de confunsion que interesa controlar.
II. Outcome o variable dependiente o variable de respuesta: Atributos sobre los
cuales queremos medir cambios o hacer predicciones.
Utilidad del analisis de regresion:
Permite desarrollar un modelo para predecir valores de una variable numerica (VD)
con base en los valores de una o mas variables diferentes (VI).
Permite identificar el tipo de relacion matematica existente entre la VD y la VI, a fin de
cuantificar el efecto que tienen los cambios en la VI sobe la VD.
45
Miranda, Gerardo Julián
46
Miranda, Gerardo Julián
Modelo Matematico
Deterministico: Supone que bajo condiciones ideales, el comportamiento de la
variable dependiente puede se totalmente descripto por una funcion matematica de
las variables independientes (o por un conjunto de ecuaciones que relacionen las
variables)
Es decir, en condiciones ideales el modelo permite predecir SIN ERROR el valor de la
variable dependiente
Ej: Ley de la gravedad
`Podemos predecir exactamente la posicion de un ojeto que cae en caida libre y en el
vacio para cada instante de tiempo.
Estadistico: Permite la incorporacion de un COMPONENTE ALEATORIO en la
relacion. En consecuencia, las predicciones obtenidas a traves de modelos
estadisticos tendran asociado un error de prediccion.
Ej: relacion de la altura con la edad en niños
Niños de la misma edad seguramente no tendran la misma altura. Sim embargo, a
traves de un modelo estadistico es posible concluir que la altrua aumenta con la edad.
Es mas, podriamos predecir la altura de un niño de cierta edad y asociarle un ERROR
DE PREDICCION que tiene en cuenta: ERRORES DE MEDICION Y VARIABILIDAD
ENTRE INDIVIDUOS.
47
Miranda, Gerardo Julián
48
Miranda, Gerardo Julián
49
Miranda, Gerardo Julián
50
Miranda, Gerardo Julián
¿Para que sirve? Nos permite evaluar las suposiciones, para determinar si el modelo
de regresion es el adecuado.
e i= y i− ^yi
51
Miranda, Gerardo Julián
52
Miranda, Gerardo Julián
53
Miranda, Gerardo Julián
54
Miranda, Gerardo Julián
55
Miranda, Gerardo Julián
56