Resumen Estadistica

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 56

Miranda, Gerardo Julián

UNIDAD 1 “Estadística descriptiva”

Tema 1: Concepto y aplicación de la Estadística. Proceso de investigación


Estadística. Estadística Descriptiva y Estadística Inductiva.
Tema 2: Variables Estadísticas. Variables Cualitativas. Variables Cuantitativas.
Variables Discretas y Continuas. Unidades de Estudio. Población. Muestras.
Tema 3: Recopilación y ordenamiento de datos. Tratamiento Descriptivo de valores
observados de una variable cuantitativa. Construcción de Tablas de Frecuencias.
Frecuencias Absolutas y Relativas. Frecuencias Acumuladas. Intervalos iguales y
desiguales. Elección del Módulo. Tablas de Clasificación Cruzada. Gráficos: de
bastones, escalonados, histogramas, polígonos de frecuencias, ojivas. Análisis de una
tabla. Comparación de Distribuciones de Frecuencias.
Tema 4: Medidas de Tendencia Central: Media aritmética, Mediana, Modo. Media
Geométrica. Media armónica. Características, propiedades, usos. Medidas de
Dispersión: Recorrido, Variancia, Dispersión. Coeficiente de Variación.
Características, propiedades y usos de las Medidas de Dispersión.

TEMA 1
ESTADISTICA: es aquella parte de la ciencia que nos permite la búsqueda,
recolección, análisis, ordenamiento de datos cuant y cuali que están relacionados con
una variable de estudio que pertenece a un universo preestablecido.
Es una disciplina que nos proporciona principios y herramientas para emitir juicios
sobre colectivos; basados en datos obtenidos para propósitos específicos. Por ende,
nos brinda el soporte para saber qué datos obtener, como cuando y donde obtenerlos.
Y una vez obtenidos, proporciona los métodos y procedimientos para organizarlos con
diferentes propósitos. BASICAMENTE para la toma de decisiones
administrativas/contables.

1. Estadística descriptiva: Es la parte de la ciencia que analiza las series de datos


vinculados a una variable determinada (por ej edad de una población,
calificaciones del personal de una empresa, ingresos por venta, tiempo de
duración de fabricar un producto) y trata de extraer conclusiones sobre el
comportamiento de estas variables.

2. Estadística inferencial: es la parte de la ciencia que nos brinda las técnicas


adecuadas para que, a partir del análisis descriptivo de una muestra, podamos
inferir el conocimiento del comportamiento de la población.

1
Miranda, Gerardo Julián

Proceso involucrado en el análisis estadístico vinculado a un proceso de


investigación de una variable cuantitativa.
Un estudio estadístico consta de las siguientes fases:
1. Planteo el problema
2. Definir el objetivo de la investigación: hacia donde quiero llegar
3. Precisar el universo o población
4. Elaborar los instrumentos de recolección de datos cuantitativos: una vez
cumplido el tercer paso
5. PROCEDER CON EL TRATAMIENTO DESCRIPTIVO DE UNA VARIABLE
CUANTITATIVA
 Recoger los datos
 Ordenar los datos de menor a mayor
 Organizar los datos en TABLAS DE FRECUENCIA
 Construcción de gráficos y cálculo de medidas descriptivas
 Análisis y tratamiento de los datos
 Obtención de conclusiones: Diagnóstico o una validación de la hipótesis

¿QUE ES LA VARIABLE?
Rasgo o característica de los elementos de la población que se pretende estudiar. Es
lo que motiva nuestro interés de estudio, es lo que se va a medir y representa una
característica o cualidad de la UNIDAD DE ANALISIS.¡
Unidades de análisis: son los elementos donde se observa el valor que toma la
variable.
DATOS: son el resultado de la medición de la variable sobre las Unidades de análisis.
Por ej si analizamos la cantidad devengada por los tx de la construcción la variable es
el ingreso y esta medida en $.
Población: es el conjunto de todos los elementos a los que se somete un estudio
estadístico. Ósea es el conjunto de las unidades de análisis
Un. De análisis: cada individuo o unidad estadística donde voy a observar el valor que
toma la variable. Es elemento de la población. Como a veces or cuestión de tiempo o
costo no podemos analizar toda la población procedemos a tomar una muestra.
Muestra: Es un conjunto de representativo de la población de referencia. La podemos
definir como un subconjunto representativo de la población.

CLASIFICACION DE LAS VARIABLES.

2
Miranda, Gerardo Julián

 Variable CUANTITATIVA: Son aquellas características que toman valores


numéricos y frecuentemente son el resultado de un conteo o de una medición.
Ej: q de personal por sector de la empresa, peso (kg) de una persona, la altura
(m).
 Discretas: (conteo de variable) surgen del proceso de conteo de
elementos. Toman un numero discreto de valores es decir números
enteros. Ej: las calificaciones de un grupo de estudiantes, la cantidad de
materias reprobadas.
 Continuas: (medición de variable) Surgen de un proceso de medición de
una variable. Toman valores numéricos del grupo de los denominados
números reales, es decir no solo valores enteros sino tamb fraccionarios
o decimales. Ej: altura, eso, tiempo de reacción de un compuesto
químico.
I. Escala intervalar: permite medir las variables numéricas,
estableciendo distancias entre dos un de análisis. El 0 no implica
la ausencia de la variable medida. Por ej. 0 grados centígrados
II. Escala de razón: es considerada como la más fuerte en virtud
que el cero es un valor que indica la ausencia de la característica
que se está midiendo. Por ej.: el cero en los ingresos de una
tienda se pueden interpretar como que no ha tenido ventas.

 Variable CUALITATIVA: son aquellas características que toman calores tipo


atributo, categoría o cualidad, es decir no es en forma numérica operable
matemáticamente; sino como categorías o atributos. Ej: genero, color de ojos,
profesión, métodos de enseñanza.
 Nominal: se utilizan nombres para establecer categorías. Ej: si se desea
analizar la preferencia del consumidor por det productos.

3
Miranda, Gerardo Julián

 Ordinal: Las categorías establecidas mediante esta escala presentan


entre sus posibles valores una relación de orden. Ej: nivel de estudios
cuyos valores pueden ser; grupos etarios, nivel jerárquico
organizacional, orden en que ingrese a una carrera.
Escala de medición: Instrumento que me facilita la medición de la variable en mi
unidad de análisis. Si es cualitativa, la escala de medición es nominal u ordinal.

Distribución de frecuencias:
Es un arreglo ordenado de los datos estadísticos en forma ascendente en una tabla
de doble entrada en la cual se le asigna a cada dato su frecuencia de ocurrencia
correspondiente.

 Título: Descripción completa de la variable, debe estar acotada en tiempo y


espacio.
 Cuerpo: 5 columnas y un conjunto de filas. En la primera fila los valores que va
a tomar nuestra variable, las otras 4 son la frecuencia con que aparece cada
valor de una variable y hacen referencia a unidades de análisis.
 Fuente: es de donde saco la información o quien la brindo, puede ser primaria
(yo elaboro) o secundaria (voy a otro organismo que ya proceso la
información).

TIPOS DE FRECUENCIA
Frecuencia absoluta: Es el número de veces que se repite cada valor de la variable.
Se representa por fi. La suma de las frecuencias absolutas es igual al número total de
datos u observaciones, que se representa por “n”.
Σfi=f 1+ f 2+ f 3+…+ fm=n

4
Miranda, Gerardo Julián

Frecuencia relativa porcentual: es el cociente entre las frecuencias absolutas y el total


de observaciones. Se puede expresar en tantos % y se representa por hi*100. La
suma de las frecuencias relativas porcentuales es igual a 100%
fi
%hi= ∗100
n
Frecuencia absoluta acumulada menor que: este valor nos indica el número de veces
que se repite un dato xi o menores. Es la suma de las frecuencias absolutas de todos
los valores inferiores o iguales al valor considerado. Se representa por Fi.
F1= f1
F2= f1+f2
F3= f1+f2+f3
.
.
Fm= f 1 + f 2 + f 3+ …+ fm

Representación gráfica de distribución de frecuencias.


Los gráficos van a variar según estemos trabajando con frecuencias simples o
frecuencias acumuladas.
1. Representación de la frecuencia absoluta o relativa simple: trabajaremos con el
grafico de bastones, donde en el eje de las x colocaremos los valores de la
variable y en el eje de las y los valores de la frecuencia absoluta o relativa. Y la
altura de cada bastón nos indicara el nivel de cada frecuencia.

2. Representación de la frecuencia absoluta o relativa acumulada menor o igual


que: utilizaremos el grafico escalonado, se va sumando frecuencia a frecuencia
a medida que voy avanzando en los valores de la variable, pero entre un valor
y otro de variable no asume ningún valor entonces realiza un salto de escalón.

5
Miranda, Gerardo Julián

Análisis de distribución de frecuencias agrupadas


La distribución de frecuencias agrupadas o tabla de datos agrupados se emplea si las
variables presentan una gran cantidad de datos o cuando la variable es continua. Se
agrupan los valores en intervalos que tengan o no la misma amplitud, denominados
clases; y a cada clase se le asigna su frecuencia correspondiente.
LIMITES DE LA CLASE (LI-LS)
Son los extremos de cada uno de los intervalos. Cada clase está delimitada por un
límite inferior y un límite superior.
AMPLITUD DE LA CLASE
La amplitud de la clase es la diferencia entre el límite superior e inferior de la clase.
LS-LI= i/h
MARCA DE LA CLASE
La marca de clase es el punto medio de cada intervalo y es el valor que representa a
todo el intervalo para el cálculo de algunos parámetros.
X =(LS + LI )/2
Operativamente es aconsejable que el número de intervalo se encuentre entre 6 y 15.
Utilizaremos la regla de STURGE para determinar el número de intervalos:
k =1+3,332∗log n
Una vez realizada la regla de STURGE dividimos el rango en k y calculamos la
amplitud o longitud del intervalo: R/K=i/h
Ese intervalo lo vamos a construir siguiendo una regla en donde voy a incluir en cada
intervalo los valores de la variable que sean mayores o iguales que el límite inferior y
estrictamente menor que el límite superior
LI ≤ x < LS

6
Miranda, Gerardo Julián

Representación gráfica de distribución de frecuencias agrupadas

FRECUENCIAS FRECUENCIAS
ABSOLUTAS ABSOLUTAS
RELATIVAS RELATIVAS
PORCENTUALES PORCENTUALES
SIMPLES ACUMULADAS
OJIVA

HISTOGRAMA POLÍGONO DE
… FRECUENCIA

Tabla de clasificación cruzada


Es una tabla de dos variables, cuyos datos relacionados están ordenados en filas y
columnas. También se denomina tabla dinámica. Su punto fuerte es la capacidad de
estructurar, resumir y mostrar grandes cantidades de datos.
Es una tabla que relaciona dos variables cualitativas o categóricas y variables
cuantitativas categorizadas (agrupar una variable en clases)

Los totales son las frecuencias


marginales

Las tablas de contingencia permiten observar la respuesta simultanea de dos


variables. Para la construcción de la tabla de contingencia: en las filas se colocan las
modalidades de una variable y en las columnas las de la segunda variable. Cada
casilla de la tabla contiene las frecuencias absolutas de los sujetos que cumplen con
los dos criterios de clasificación.

7
Miranda, Gerardo Julián

MEDIDAS DESCRIPTIVAS DE UNA VARIABLE

Medidas de posición
Son aquellas que nos indican la ubicación de los valores observados de nuestra
variable. Como se trata de un numeronúmero que pretende representar un conjunto
de valores numéricos, esta representatividad será mayor cuanto masmás
concentrados, o cerca unos de otros estén los integrantes del conjunto y será menor a
medida que los datos se dispersen.
1. Modo (Mo): Es aquel valor observado de la variable X que tiene mayor
frecuencia absoluta (fi).
2. Mediana (Mna): Es el valor central, aquel que deja la misma cantidad de datos
a su izq. y a su derecha. El cálculo dependerá si n es par o impar

I. Cuando n=par es: () ( )


x
n
2
+ x +1
n
2
2
( N +1 )
II. Cuando n=impar es: X
2
III. Cuando utilizamos datos agrupados en intervalos de clase:

Li+
()n
2
−Fi−1
∗i
fi
3. Media aritmética (~ x ): definimos a la media aritmética como la sumatoria de los
valores de la variable x dividido en el total de observaciones.
( Xi . fi )
I. Sin intervalos: x=Σ
n
( x . fi )
II. Con intervalos: x=
n
Propiedades de la media aritmética

8
Miranda, Gerardo Julián

Medidas de dispersión
Las medidas de dispersión tratan, a través del cálculo de diferentes fórmulas, de arrojar
un valor numérico que ofrezca información sobre el grado de variabilidad de una variable.

9
Miranda, Gerardo Julián

1. Recorrido (R): Es una medida de cálculo bastante rápido. Si es pequeño nos


indica que los datos están concentrados en un corto intervalo dentro del campo de
variación de la variable X. Y si R es grande nos indicaría lo contrario. Pero no nos
da información relacionada con lo que sucede con los datos dentro del intervalo.
R = Xn – X1
2. Variancia (S^2): Surge del promedio de los desvíos de los valores de la variable
con relación a su media aritmética elevados al cuadrado. Nunca me va a dar un
numero negativo. Puede dar 0 en el caso de alguna constante.
2 2
S =Σ x 1 . hi−x
3. Desviación estándar (S): Indica el verdadero desvío o el promedio de desvíos de
los valores de la variable con relación a la media, ósea en cuanto se alejan de la
media en más o en menos en relación de la variable
S= √ S2
4. Coeficiente de variación (CV): es un indicador muy útil a la hora de comparar datos
que se expresen en distinta unidad de medida, o cuyas medidas de posición
presentan distintas magnitudes. Otro uso importante es debido a su utilidad para
descartar posibles relaciones entre dos o mas variables.
S
CV = ∗100
x

Unidad 2 “Números índices”

Tema 1: Introducción. Índices Relativos Simples. Índices Sintéticos simples y


ponderados. Construcción y cálculo de los Números Índices. Índice de Laspeyres, de
Paashe. Índice ideal de Fisher. Índices usados en nuestro país.
Tema 2: Cambio de base de los Números Índices. Deflación de series de tiempo
mediante índices de Precios.

Los Números índices son indicadores de los cambios ocurridos en una variable p un
grupo de variables, en un instante determinado con relación a otro instante
considerado como referencia o base.
Se pueden aplicar a cualquier variable (precios, cantidades, salarios, producción) y
nos informan rápida y precisamente sobre el porcentaje de incremento o decremento
que ha sufrido nuestra variable.

10
Miranda, Gerardo Julián

Propiedades de los números índices.


Para terminar esta exposición de la elaboración general de números índices diremos
que de forma ideal deberían cumplir las siguientes propiedades:
1. Existencia: El número índice debe concretarse en un valor real y finito distinto de
cero.
2. Identidad: Si se hacen coincidir los períodos base y de comparación el índice vale
la unidad si se expresa en tantos por uno, o cien si es en tantos por 100.

0 x0
I 0= =1
x0
3. Inversión: El producto de dos índices en los que se han invertido los períodos base
y de comparación es igual a la unidad.
t 0
I 0 ⋅ I t =1
4. Circular: Es una generalización de la de inversión. Si generalizamos a tres períodos
t’, t, o, tendremos:
t t 0
I 0 ⋅ I n ⋅ I t =1
5. Proporcionalidad: Si la magnitud varía en proporción 1 + K, y fijado el período de
comparación, el número índice también varía en la misma proporción. Sea:

11
Miranda, Gerardo Julián

1. Índice relativo simple


Es aquel que surge del cociente entre el precio de una sola variable en un periodo
considerado el periodo dado y el precio de ese mismo artículo en el periodo base
considerado de referencia.
Muestra cual ha sido la variación del precio de ese artículo en el periodo dado con
relación al periodo de referencia.
I t/0 = PT / P0 * 100
Si el resultado del índice es igual a 100 entonces no hubo incremento ni decremento.
Si el resultado es menor a 100, el periodo dado es menor que el periodo base
entonces hubo un decremento en el precio.
Si el resultado da mayor a 100, el periodo dado fue mayor al periodo base entonces
hubo un incremento en el precio.
2. Índice sintéticos o agregativos
Instrumento que nos permite medir el cambio de varios artículos. Son aquellos en
donde ya no contemplamos un solo artículo, sino varios. 18

3. Índices sintéticos ponderados


Cuando hablamos de ponderación nos referimos a que le damos a cada uno de los
valores de la variable un peso que tiene en el conjunto de observaciones. Vamos a
darle una ponderación a cada uno de los precios de cada artículo y eso lo logramos
con las cantidades consumidas. Vamos a considerar el gasto que cada uno de los
artículos nos insume, no solo el precio.

12
Miranda, Gerardo Julián

a. Laspeyres: usa el índice de media aritmética ponderando con W0, ósea con
las cantidades consumidas de cada uno de los artículos involucrados en el
cálculo en el periodo base.
b. Paasche: Usa el índice medio armónico, pondera con el factor de
ponderación en el año dado. Requiere actualización permanente en todos
los periodos y aparte hay cambios en los hábitos de consumo.
c. Fisher: Es un promedio de los dos índices anteriores dado que el índice de
Laspeyres sobreestima y el índice de Paasche subestima. Utiliza la media
geométrica

13
Miranda, Gerardo Julián

14
Miranda, Gerardo Julián

4. Cambio de base en los números índices.


Hemos definido a los índices como el cálculo entre precios o precios ponderados con
cantidades en un periodo dado con relación a un periodo base. Es muy importante
considerar muy bien los elementos que caracterizan al periodo base, no podemos
elegir cualquier periodo. Cuando elijo un periodo base debo tener en cuenta que ese
periodo sea representativo de todos los periodos que voy a analizar en la evolución de
esa variable.
A medida que va pasando el tiempo, ese periodo va cambiando y perdiendo
representatividad por el conjunto de variables exógenas y endógenas. Entonces
vamos a tener q cambiar la base para que resulten más confiables las comparaciones
que estamos haciendo.

5. Deflación de series de precios


Para comparar precios corrientes de un artículo en distintos periodos en el tiempo, se
deben convertir primero estos precios a valores constantes con respecto a un periodo
determinado. Para realizar esta operación, primero debemos cambiar la base de los
índices de precios a el periodo al cual queremos referir todos los precios, y luego
dividimos cada precio corriente por su respectivo nuevo índice y obtenemos el precio
constante del nuevo periodo.

6. Índices utilizados en la economía argentina.


 PIB (Producto interno Bruto): el PIB es el total de bienes y servicios que un
país produce durante un período de tiempo determinado.
 Tasa de desempleo: es el porcentaje de la división entre la población que se
encuentra buscando empleo remunerado y la población que está en edad de
trabajar. Además de indicar si la política laboral es óptima.

15
Miranda, Gerardo Julián

 Tasa de inflación: Se debe entender por inflación el aumento de precios entre


dos periodos, medido a través del IPC.
 Tasa de interés: es el monto que el deudor debe pagar a quien le presta por
usar su capital, es decir que este indicador mide las variaciones de divisar en
mercados internacionales.
 Balanza comercial: recoge todas las transacciones del capital, comercio de
bienes y servicios que un país realiza con otros alrededor del mundo.
 Producción industrial: mide la producción del sector industrial de la economía
de un país. Incluyendo la manufactura, minería y servicios público.
 IPC: el índice de precios al consumo nos indica el crecimiento que han tenido
los precios de los productos y servicios ofrecidos.
El INDEC realiza una encuesta a un grupo representativo de hogares para conocer
sus consumos. Con la información obtenida en las entrevistas se confecciona una
lista de artículos (bienes y servicios) que forman la denominada “Canasta del IPC.
Mensualmente los encuestadores visitan comercios en busca de los precios de los
bienes y servicios de la canasta. Seguimiento y comparación mensual de precios
para calcular su variación en el tiempo.

Unidad 3 “Probabilidad”

Tema 1: Introducción: generalidades sobre Probabilidad. Definición. Conceptos


Fundamentales. Experimento aleatorio. Espacio muestral. Eventos. Axiomas
de Probabilidad.
Tema 2: Elementos de Teoría de conjuntos. Teoremas básicos: Probabilidad del
evento imposible, evento complementario y evento unión. Probabilidad marginal.
Probabilidad conjunta. Probabilidad condicional. Independencia: Definiciones. Eventos
independientes. Teorema de Bayes.
Tema 3: Variable aleatoria. Función de una variable aleatoria. Esperanza y variancia
de una variable aleatoria. Propiedades de la esperanza y variancia.

Teoría de probabilidad
Es una rama de las matemáticas que tuvo sus orígenes en los juegos de azar, cuya
ejecución genera resultados inciertos. Es la que se dedica a estudiar esa
incertidumbre en los procesos para poder predecir los resultados a largo plazo.

 Experimento aleatorio: es aquel proceso que cada vez que se lleva a cabo o se
observa, presenta un resultado entre varios posibles. La noción de experimento
aleatorio trae aparejada la noción de incertidumbre en el sentido de que es
imposible predecir cual, entre todos los resultados posibles, es el que se va a
presentar. Por ej.: lanzar una moneda, lanzar un dado, extraer una carta,
lanzar un dado hasta que salga el nº 4.
 Espacio muestral (S): Es el conjunto de todos los resultados de un experimento
aleatorio. Se simboliza con S.

16
Miranda, Gerardo Julián

Vemos que los S 1 a 4 tienen 2, 6, 40 y 3 resultados respectivamente, mientras que


los S 5, 6 y 7 tienen infinitos resultados, lo que nos lleva a clasificar a los S en 2
grupos:
1. Espacio muestral discreto: cuando tiene número finito de resultados o
un numero infinito numerable (correspondiente a los N naturales)
2. Espacio muestral continuo: cuando tiene un numero infinito no
numerable de resultados (no se puede establecer una correspondencia
uno a uno con los naturales)

 Suceso o evento (E): Aquella porción del S en la cual estamos interesado, es


un subconjunto del S. Puede estar formado por 1 o más rdos del S. Por ej.: E=
la carta es de oro= {as de oros, dos de oros,…., rey de oros}. Con lo que
tenemos un subconjunto formado por 10 cartas que conforman el S.
Tipos de eventos o sucesos.
1) Mutuamente excluyentes: sean E1 Y E2 c S, se dice que son mutuamente
excluyentes si no tienen ningún resultado de S en común. Es decir, si no existe
intersección entre E1 y E2. Cuando no pueden suceder al mismo tiempo. Por
ej.: La carta no puede ser de oro y de copas a la vez, es de una pinta o la otra.
2) Eventos complementarios: sean E y Ec c S, se dice que son complementos en
la medida que Ec contenga todos los elementos que le faltan a E para
completar el espacio muestral. Serán complementarios cuando entre los dos
conformen el espacio muestral. Por ej.: E= “el dado es par” = {2,4,6} es
complementario con Ec= ”el dado es impar” {1,3,5}.

Los sucesos complementarios son mutuamente excluyentes SIEMPRE, pero los


sucesos mutuamente excluyentes no siempre son complementarios

3) Evento imposible (φ ): Es aquel que no tiene ningún resultado de S. Por lo


tanto, es un conjunto vacío.
4) Evento seguro (S): Es el que tiene todos los resultados de S. Es el mismo
conjunto S.
5) Evento unión (E1 u E2): está formado por todos los resultados contenidos en
E1 o en E2 o en ambos. Por ej.: supongamos que en S2 estamos interesados
por todos los rdos contenidos en el E=” el dado es par o es menor q 4” E1=
{2,4,6} E2= {1,2,3} por lo tanto E1u E2= {1,2,3,4,6}

17
Miranda, Gerardo Julián

6) Evento intersección (E1 ∩ E2): este evento está formado por todos los rdos
comunes a E1 y E2. En el ej. anterior E1 ∩ E2= {2}.
Los sucesos se pueden visualizar perfectamente a graves del DIAGRAMA DE VENN

AXIOMAS DE PROBABILIDAD
Los axiomas sobre los cuales se sustenta la teoría matemática de las probabilidades
son 3:

18
Miranda, Gerardo Julián

Sean S un espacio muestral y E, cualquier suceso de S, es decir cualquier


subconjunto de S. Diremos que P es una función de probabilidad en ese espacio
muestral S si se satisface los siguientes 3 axiomas:
1) P(E) es un número real tal que 0 ≤ P(E)≤ 1, para todo suceso E de S.
2) P(S)=1, la probabilidad del espacio muestral es igual a 1.
3) P ( E 1∩ E 2 ) =P ( E 1 ) + P(E 2) si E1 y E2 son dos sucesos M.E. de S es decir
E 1−E 2=φ . La probabilidad de unión de dos sucesos o eventos es igual a la
suma de las probabilidades de cada evento en la medida que ambos eventos
sean M.E.
TEOREMAS DE PROBABILIDAD

Sea S un espacio muestral y P una función de probabilidad en S: la probabilidad que


no ocurra el evento E de S es:
P(Ec) = 1-P(E)
Dado que la unión de E y Ec es igual al espacio muestral (EuEc=S) por el axioma 2
definimos que la probabilidad de la unión es igual a la probabilidad del espacio
muestral, por lo tanto: P (EuEc)= P(S)=1.
Como E y Ec son M.E. por definición, siguiendo con el axioma 3 podemos escribir
que: P(EuEc) = P(E)+P(Ec)=1 por lo tanto P(Ec)= 1-P(E)

Sea S un espacio muestral y P una función de probabilidad en S, la probabilidad del


suceso imposible φ es:
P (φ ¿ = 0
Por la relación sabemos que Suφ = S por lo tanto P(Suφ )= P(S)=1, por el axioma 2
pero S y φ son M.E. ya que no poseen ningún resultado en común, por lo tanto,
podemos aplicar el axioma 3 y tenemos que P (Suφ ¿=¿ P(S)+P (φ ¿=1 entonces P (
φ ¿ = 1-P(S)= 1-1=0

Sea S un espacio muestral y P una función de probabilidad S. Si E1 y E2 son eventos de


S, entonces
P(E1uE2) = P(E1) +P(E2) -P(E1-E2)
Por la tercera relación E1 u E2= E1 u E2. EC1, pero E1 y E2. EC1 son M.E. por lo tanto: (*1)P
(E1 u E2) = P (E1 u E2. EC1) = P(E1) + P (E2.EC1) por el axioma 3. Y por la segunda
relación E2=E2.EC1 u E1.E2, pero E2.EC1 y E1.E2 son M.E. y nuevamente por el axioma 3
podemos escribir que P(E2) = P (E2.EC1 u E1.E2) = P (E2.EC1) + P (E1.E2) por lo tanto P
(E2.EC1) = P(E2)-P(E2)-P (E1.E2). Reemplazando esta probabilidad en la ecuación (*1)
nos queda: P(E1uE2) = P(E1) +P(E2) -P(E1-E2). Este se conoce como el teorema de la
suma.

19
Miranda, Gerardo Julián

Definición de probabilidad
Sea un espacio muestral s, finito y equiprobable, l probabilidad de cualquier evento E
de S, se define como el número de resultados del evento sobre el número de
resultados del espacio muestral.
numero de resultdos de E casos favorables
P ( E )= =
numero de resultados de S casos posibles
Distribución de probabilidad
Es la asignación de un valor de probabilidad a cada resultado del S. Para que esta
sea considerada como tal deberá cumplirse la condición de cierre, la cual se verifica
cuando la suma de todas las probabilidades de una distribución es igual a 1..

Tipos de probabilidad.
 Probabilidad marginal y conjunta: Sean A y B dos particiones del Espacio
Muestral S, tal que A: A1, A2,…, As son mutuamente excluyentes y B: B1, B2,
…, Bt también. Los resultados de S pueden clasificarse en una tabla a doble
entrada como la siguiente:

20
Miranda, Gerardo Julián

La probabilidad marginal son las probabilidades de ocurrencia de cada uno de esos


valores Ai o de cada uno de esos valores Bj, están al margen de la tabla, hacen
referencia a una sola característica que puede ser Ai o Bj. Puede estar expresada
como la suma de las probabilidades conjuntas de Ai y Bj.

P(Ai) = P (Ai · B1) + P (Ai · B2) + · · · + P (Ai · Bt) = ∑ P (Ai · Bj)

 Probabilidad condicional: Aquella que nos permite calcular la probabilidad de


ocurrencia de un suceso, habiendo ocurrido otro, se simboliza como P(Ai/Bj) la
probabilidad de que ocurra el evento condicionado Ai dado que ya ocurrió el
evento condicionante Bj. El espacio muestral se reduce a los casos que
favorecen al suceso condicionante.
La probabilidad conjunta es igual a la probabilidad de Ai dado Bj por la probabilidad de
Bj. Por lo tanto, será la probabilidad de Bj dado Ai por la probabilidad de Ai

P (Ai. Bj) = P(Ai/Bj) · P(Bj) = P(Bj/Ai) · P(Ai)

Este resultado suele llamarse” Teorema del Producto”, y tiene una importancia
primordial para el cálculo de Probabilidades.
INDEPENDENCIA
Sean E1 y E2 sucesos de S, se dice que E1 y E2 son independientes si se cumple
cualquiera de las siguientes relaciones:
 P(Ai/Bj) = P(Ai). La condición Bj no está interviniendo
 P(Bj/Ai) = P(Bj). La condición Ai no está interviniendo.
 P(Ai·Bj) = P(Ai) · P(Bj). SOLO SI SON INDEPENDIENTES.
La independencia es la no incidencia del suceso condicionante sobre el condicionado.

VARIABLE ALEATORIA.
Es un valor cuantitativo o la cuantificación del espacio muestral. Tiene características
que surgen de cálculos matemáticos que a partir de un numero resumen el
comportamiento de la variable aleatoria (porque está asociada a una probabilidad).
Ya no contamos con medidas descriptivas, sino con parámetros los cuales se
obtienen mediante un experimento aleatorio que arroja diversos resultados que tienen
que ser cuantificados.
La variable aleatoria es una función que asocia a cada resultado del S un número real.
Cuando le asociamos un valor de probabilidad a cada uno de esos resultados, surge
lo que se denomina una función de probabilidad.
V.A.: X:SR

21
Miranda, Gerardo Julián

Una variable aleatoria puede ser discreta o continua, según como sea el espacio
muestral al que este asociado.
1. Esperanza de una variable aleatoria.
Es un parámetro y se asemeja al concepto de la media aritmética visto anteriormente.
Es el valor esperado (por qué estamos hablando de variables asociados a
probabilidades con un margen de error) de una V.A., y según sea discreta o continua
será como la calculemos
 Sí X es Discreta E(X) = ∑ x · P(x)

 Si X es continua E(X) = ∫ x · f(x) · dx

22
Miranda, Gerardo Julián

2. Variancia de una variable aleatoria.


Es el otro parámetro con el que trabajaremos. Se define como la esperanza de los
desvíos de cada valor de X con relación a su esperanza elevada al cuadrado.
2 2
σ x=E [x−E ( x)]

Unidad 4 “Distribución de probabilidad”

Tema 1: Distribuciones de probabilidad. Distribuciones de variables discretas:


Distribución binomial. Propiedades. Aplicaciones. Esperanza y variancia de la
binomial. Distribución de Poisson. Aplicaciones. Esperanza y variancia de Poisson.
Tablas. Uso de las mismas.
Tema 2: Distribuciones de variables continuas. Distribución normal o de Gauss.
Características. Funciones de Densidad y de Distribución de Probabilidad. Tipificación
de una variable normal. Tablas. Aplicaciones.
Tema 3: Aproximaciones. Aproximación de Poisson a la binomial. Aproximación
normal a la binomial y Poisson.

23
Miranda, Gerardo Julián

Si surge del conteo de una variable la distribución se considera discreta, y si medimos


la variable es una distribución continua. En esta unidad nos concentraremos en la
distribución discreta.
DISTRIBUCION DE PROBABILIDADES DISCRETA.
Describe la probabilidad de ocurrencia de cada valor de una variable aleatoria
discreta. Una variable aleatoria discreta es una variable aleatoria que tiene valores
contables. Su campo de variación son los números enteros no negativos (N).
TIPOS DE DISTRIBUCIONES

Uniforme discreta
DISCRETAS

Binomial

Poisson

Distribución uniforme discreta.


Nos encontramos con este tipo de distribución cuando el resultado de un experimento
aleatorio puede ser un conjunto finito de resultados, todos de ellos probables (todos
tienen la misma probabilidad de ocurrencia).

1
f ( k )=P ( X =k )=
n

f ( k )=P ( X =k )=1 /6

24
Miranda, Gerardo Julián

Propiedades del modelo Uniforme discreto.

n+1
 Esperanza: E ( x )=
2

( n+1 ) ( 2 ( 2 n+1 ) −3 ( n+1 ) )


 Varianza: V ( x )=
12

Distribución binomial.
Es una distribución de probabilidad que describe el número de éxitos al realizar n-
experimentos independientes entre sí (trabajamos con reposición), acerca de una
variable aleatoria. Y que las reviste las siguientes propiedades:
1) El experimento consiste en repetir n ensayos
2) Cada ensayo da un resultado que puede ser clasificado como un éxito o
fracaso=DICOTOMIA. De ahí proviene el nombre de la distribución.
3) La probabilidad de éxito (p) es conocida y constante a lo largo de todo el
experimento.
La distribución de probabilidad de nuestra variable aleatoria X se llama Distribución
Binomial de probabilidad y se expresa mediante la siguiente formula:

pk=P [ X=k ] = ( nk )∗p . p =( ( n−kn !) ! k ! ) . p .q


k n−k k n−k

Donde “n” es el número de pruebas, “k” el número de éxitos; “p” es la probabilidad de


éxito y “q” la probabilidad de fracaso.

25
Miranda, Gerardo Julián

Generalización del modelo cuando N=1


Un bolillero contiene bolillas blancas (N1) y rojas (N2). En total tenemos N bolillas
(N=N1+N2).
El E.A. consiste en extraer una bolilla al azar y observar su color. Por lo tanto, la
probabilidad de extraer una bolilla blanca será p = N1/N y la llamaremos P. de éxito.
La probabilidad de roja será q = N2/N, de modo que p + q = 1.
Construyamos una v.a X que tome el valor 1 si se extrae una bolilla blanca y 0 si es
roja, es decir, X cuenta el número de bolillas blancas extraídas, y como se trata de
una sola extracción solo puede ser 0 o 1.
Podemos calcular fácilmente la Esperanza y Variancia de X, ya que
P(x=1) = p y P(x=0) = q
E(X)= 1*p+0*p= p
2 2 2 2
σ =E ( X ) −E (¿ )(X )= p− p =p∗(1− p)= p∗q ¿

n=Nº de bolillas (tamaño de la muestra). Consideraremos ahora n variables (X1, X2,


Xn). Cada una de las cuales valdrá 0 o 1 y nos indicará que sucede en cada
extracción.
Xi= Rdo. de la extracción i, es decir Xi=1 (blanca), Xi=0 (roja).

Para cualquier x tenemos σ 2 ( Xi )= p∗q y E(x)=p. Supongamos ahora que n=3, el S


estará dado por el siguiente conjunto de temas:
S= {(0,0,0) ;(1,0,0) ;(0,1,0) ;(0,0,1) ;(1,1,0) ;(1;0;1) ;(0,1,1) ;(1,1,1)}
Tenemos un conjunto de 8 rdos que no son equiprobables ya que P (0,0,0) =q^3 y P
(1,1,0) =(p^2*q) teniendo en cuenta la independencia de las extracciones.
Generalizando, P (X1=x1; X2=x2; X3=x3) =p^x*q^n-x donde x es el nº de éxitos en la
terna.
V.A.= nº de éxitos en las n extracciones=nº de éxitos en la muestra
P(X=x) = Cn2 * px * qn-x para 0≤x≤n (para todo x que varía entre 0 y n) y diremos que
X Bi( n; p) donde n y p se llaman parámetros de la distribución.
CONDICION DE CIERRE
Establece que la suma de las probabilidades a través de todo el espacio muestral
debe ser igual a uno.

26
Miranda, Gerardo Julián

n n

∑ P ( X=x )=∑ Cnx∗P x∗q n−x =( p+q )n=1n =1


x=0 x=0

Esperanza y variancia de la distribución cuando n≠1


E(X)= E (X1+X2+…+Xn) = E(X1) +E(X2) +…+E(Xn)= n*p
2 2 2 2 2
σ x =σ x ( x 1+ x 2+ …+ xn )=σ x + σ x +…+ σ xn=n∗p∗q

Distribución de Poisson
Es aplicable a eventos aleatorios que no ocurren como resultados venidos de un
experimento, como sucede en Binomial, sino más bien en puntos aleatorios del tiempo
o del espacio. Nos interesa calcular el valor de la variable en un tiempo/espacio
determinado
Para eventos así podemos contar el número de ocurrencias del evento en
determinado tiempo o espacio, pero carece de sentido hablar del número de no
ocurrencias (fracasos) del mismo en dicho tiempo o espacio. Por ej., podemos contar
fácilmente el número de clientes que entran a un comercio en 1 hora, pero no tiene
sentido hablar de la cantidad de clientes que no entraron en esa hora.
Este tipo de eventos sigue un modelo Poisson donde:
X Bi ( n ; p ) donde n−→ ∞ y p−→ 0
Bajo estas condiciones podemos considerar que el producto de n y p permanece
constante
n . p=Cte=λ−→ p=λ /n
Modelo matemático de Poisson.

Sea una v.a. X Po ( λ ) .

La función de prob. viene dada por la expresión


−λ
P ( X=x ) =ⅇ .( λ¿¿ x ¿¿ x !) para 0≤ x ≤ ∞ ¿ ¿
Como vemos, esta distribución depende de un solo parámetro λ , y esta basada en un
espacio muestral discreto de tamaño infinito.
Condición de cierre.
∞ ∞ ∞
λx λ
∑ P ( X=x )=∑ ⅇ−λ ⋅ x!
=ⅇ−λ . ∑ ⋅=ⅇ−λ ⋅ ⅇ λ=1
x=0 x=0 x=0 x !


λ
Por ser ∑ El desarrollo en serie de ⅇ λ .
x=0 x!

27
Miranda, Gerardo Julián

DISTRIBUCION DE PROBABILIDADES CONTINUAS

Uniforme
Tipos de
distribucion
continuas
Normal o
de Gauss

28
Miranda, Gerardo Julián

Distribución Uniforme.
Vamos a considerar ahora una v.a. X continua que puede tomar únicamente valores
dentro de un intervalo (ab) con probabilidad constante, donde a y b son reales y
finitos. El espacio muestral es
S= {x/x ∈ R ∧ a< x <b }
Supongamos que queremos calcular la Prob. Que X este dentro de un intervalo (cd)
(ab) esto es P(c<x<d).
P (c<X<d)=(cd)/(ab)=d-c /b-a

La probabilidad esta representada por


el área encerrad por la función f(x) que
llamaremos Función de densidad de
Probabilidad. La prob total será
entonces el área bajo f(x) entre a y b y
deberá valer 1. Tenemos entonces un
rectángulo con base (b-a), altura dada
por f(x) y área=1 es decir

(b-a) f(x) = 1--> f(x)=1/(b-a)

29
Miranda, Gerardo Julián

Distribución Normal o de Gauss


Es la distribución de probabilidad más usada en estadística por la cantidad de
fenómenos aleatorios que pueden ser interpretados por ella, por las propiedades que
posee y por sus usos en Estadística inferencial.
Pueden ser analizados variables discretas como el peso de alimentos envasados,
altura de las personas, longitud de barras de acero, duración de lamparitas eléctricas
y en general todas aquellas variables en las que puede suponerse que sus valores se
aglutinan alrededor de un valor central y disminuye su Prob. al alejarse en mas o en
menos de este valor.
Características de la distribución normal.
La distribución normal es simétrica con forma de campana, con media μ y dispersión
σ x de modo que cuando cambian de valor estos dos parámetros obtenemos distintas
curvas. Y es asintótica, nunca corta al eje de las x.

30
Miranda, Gerardo Julián

31
Miranda, Gerardo Julián

Aproximaciones.

UNIDAD 5 “Muestreo estadístico”.

Tema 1: Consideraciones generales. Terminología. Objetivos. Ley de los Grandes


Números.
Tema 2: Métodos de selección de Muestras: probabilístico y no probabilístico.
Aplicaciones.
Tema 3: Inferencia Estadística. Estimación de Parámetros: Esperanza de las medias
muestrales. Variancia de las medias muestrales. Esperanza de las variancias muestrales.
Estimación puntual e intervalar. Teorema central del límite. Distribuciones Z y “t de
Student”.
Tema 4: Tamaño de la muestra: para medias poblacionales, para proporciones y otros.
Grado de Confianza. Error.

32
Miranda, Gerardo Julián

Entendemos por Muestreo como

 Una técnica que permite la selección de una muestra a partir de una


población o universo.
 Estudia o investiga una muestra y permite inferir esos resultados a una
población.
 Procedimiento que da respuesta a una necesidad de información precisa
de una población.

Universo o Es el total de elementos que se desea estudiar,


analizar, entender o caracterizar.

poblacion.
Conjunto de elemtnos que poseen una caracteristica o
atributo comun observable.

Es el conjunto de elemtnos o individuos que fueron


Muestra. seleccionados del universo, para ser estudiados.
Subconjunto de la poblacion.

Inferir. PROYECTAR en el universo el resultado observado en


la muestra.

Ventajas Desventajas
Evita la realización de censos Existe la posibilidad de un sesgo
Es menos costoso y más rápido Hay un margen de error
Facilita los cálculos estadísticos Presenta dificultades en grandes
poblaciones
Permite inferir los rdos de la muestra a la Dificultad para llegar al elemento
población objeto de estudio seleccionado de la población

Cuando hablamos de población debemos diferenciar POBLACIÓN GENERAL de


POBLACIÓN DE ESTUDIO. Cuando aplicamos un criterio de selección lo hacemos
en la población en la que estamos trabajando, pero no toda la población es objeto de
nuestro estudio. De toda la población, busco la población bajo estudio que tiene la
característica o cualidad observable y de ahí tomo la muestra.

33
Miranda, Gerardo Julián

Cálculo del tamaño de la muestra.


Estimación de parámetros con variable cuantitativa
a) No conozco el tamaño de la población:
2 2
z ⋅σ
n=( 2
)
E
b) Conozco el tamaño de la población
2 2
N ⋅ z ⋅σ
n=
( N −1 ) ⋅ E 2+ z2 ⋅σ 2
Cuando deseo estimar proporciones o trabajo con variables cualitativas
a) Si desconozco el tamaño de la población
2
Z ⋅ p ⋅q
n= 2
E
b) Si desconozco el tamaño de la población
2
N ⋅ z ⋅ p ⋅q
n=
( N −1 ) ⋅ E 2+ z2 p ⋅q

TIPOS DE MUESTREO.
Probabilísticos: están asociados a un valor de probabilidad y su metodología está
relacionada al azar.
 Aleatorio simple: donde todos los elementos de la población tienen la misma
probabilidad de ser seleccionados. Se utiliza la tabla de números aleatorios
seleccionando números al azar.
 Estratificado: Lo que se hace es dividir a la población en estratos (grupos de
elementos que son homogéneos entre si y entre los estratos son
heterogéneos). La sección de los elementos de la muestra debe ser tal que
represente a cada uno de los estratos. Se ve cuantos elementos hay en cada
estrato, cuanto representa eso del total en la población y esa proporción se
aplica a la muestra….
 Por conglomerados: Se divide la población en grupos, pero los elementos de
los conglomerados son heterogéneos y entre los conglomerados son
homogéneos….
 Sistemáticos: Primero se establece una cota (k=N/n) que está dada por el
tamaño de la población sobre el tamaño de la muestra.
No probabilísticos: no están relacionados al azar
 Intencionales: Consiste en seleccionar elementos de una población en base a
lo que un experto cree serán las unidades que darán respuesta a cierta
cuestión en particular.

34
Miranda, Gerardo Julián

 Conveniencia: Selecciona elementos de una población de acuerdo a la


conveniencia del investigador.
 Por cuota: El investigador establece pasos explícitos para obtener una muestra
que sea similar a la población previamente especificada, ejerciendo ciertos
controles sobre algunas características de sus elementos.

Errores
Depende del sistema de muestreo que seleccionemos y de la forma o el
procedimiento que utilicemos para elegir los elementos a ser integrados en la
muestra, vamos a cometer 2 tipos de errores estadísticos:
I. ALEATORIOS: Se relacionan con el muestreo aleatorio o probabilístico.
II. SISTEMATICOS: Se vinculan con procedimientos de selección de datos.

LEY DE LOS GRANDES NUMEROS


La ley de los grandes números es un teorema fundamental de la teoría de la
probabilidad que indica que si repetimos muchas veces (tendiendo al infinito) un
mismo experimento, la frecuencia de que suceda un cierto evento tiende a ser una
constante.
Es decir, la ley de los grandes números señala que si se lleva a cabo repetidas veces
una misma prueba (por ejemplo, lanzar una moneda, tirar una ruleta, etc.), la
frecuencia con la que se repetirá un determinado suceso (que salga cara o sello, que
salga el número 3 negro, etc.) se acercará a una constante. Esta será a su vez la
probabilidad de que ocurra este evento.
TEOREMA CENTRAL DEL LIMITE.
Es una teoría estadística que establece que, dada una muestra suficientemente
grande de la población, la distribución de las medias muestrales seguirá una
distribución normal.
Además, afirma que a medida que el tamaño de la muestra se incrementa, la media
muestral se acercara a la media de la población. Por lo tanto, mediante el TCL
podemos definir la distribución de la media muestral de una determinada población
con una varianza conocida. De manera que la distribución seguirá una distribución
normal si el tamaño de la muestra es lo suficientemente grande.
Las principales propiedades del TCL son:
 Si el tamaño de la muestra es suficientemente grande, la distribución de las
medias muestrales seguirá aproximadamente una distribución normal. El TCL
considera una muestra como grande cuando el tamaño de la misma es
superior a 30. Por lo tanto, si la muestra es superior a 30, la media muestral

35
Miranda, Gerardo Julián

tendrá una función de distribución próxima a una normal. Y esto se cumple


independiente de la forma de la distribución con la que estamos trabajando.
 La media poblacional y la media de las medias muestrales serán iguales. Es
decir, la media de la distribución de todas las medias muestrales será igual a la
media del total de la población.
2
 La varianza de la distribución de las medias muestrales será σ que es la
n
varianza de la población dividido entre el tamaño de la muestra.
Estimación puntual e intervalar.
Cuando estimamos lo que hacemos es tomar una muestra para inferir y caracterizar
una muestra. A partir de los estadísticos de la muestra (medidas descriptivas de la
muestra) vamos a estimar los parámetros de la población.
Estadísticos Parámetros
n N
x μ
2 2
S σ
p P
MUESTRA POBLACION

Estimador insesgado: (que no tiene error) cuando la esperanza de ese estimador es


igual al parámetro poblacional. La media muestral es un estimador insesgado de la
media poblacional porque las esperanzas de las medias muestrales me dan igual a μ.
La varianza muestral (s2) NO es un estimador insesgado de la varianza poblacional
porque la esperanza de la varianza no me da la varianza poblacional. Pero si a la
varianza le realizamos un ajuste ( ^s2=s 2) si es un estimador insesgado, puesto que su
esperanza si conduce al parámetro poblacional.
La estimación puntual consiste en utilizar el estadístico para generalizar a la
población. Mientras que la estimación intervalar consiste en encontrar un intervalo
dentro del cual se encuentre al parámetro poblacional con un determinado porcentaje
de confianza. Se encuentra dentro de 2 limites (LS y LI) determinado por un intervalo
de clase.

Unidad 6 “Test de hipótesis”

Tema 1: Aspectos básicos. Error Tipo I y error Tipo II. Nivel de significación. Pruebas
de uno y dos extremos. Hipótesis nula y alternativa.
Tema 2: Test de diferencias de medias muestrales. Test de diferencias de
proporciones muestrales. Prueba Chi-Cuadrado. Tipos. Limitaciones. Tablas y usos.
Aplicaciones. Interpretaciones
.

36
Miranda, Gerardo Julián

Aspectos básicos.
Hipótesis estadística: es una proposición, supuesto o conjetura sobre los parámetros
de una o mas poblaciones. Es importante recordar que las hipótesis siempre son
proposiciones sobre la población o distribución bajo estudio, no proposiciones sobre la
muestra.
Prueba o test de hipótesis: es un procedimiento con el que se busca tomar una
decisión sobre el valor de verdad de una hipótesis estadística. Al realizar una prueba
de hipótesis decidimos si rechazar o no esa hipótesis estadística. Basamos la decisión
en la evidencia muestral.
Procedimiento que me permite comprobar a partir de un análisis muestral, un
supuesto o suposición con relación a un parámetro poblacional o su distribución.

37
Miranda, Gerardo Julián

Conceptos fundamentales.
¿Qué es una VARIABLE? Un variable es una característica de interés que tienen los
individuos de una población. Por ej.: el peso de un paquete de galletitas. Cantidad de
materias aprobadas de un alumno.
¿Qué es un parámetro? Es una constante asociada a la distribución de probabilidad
de una variable aleatoria. Es una medida descriptiva que caracteriza a la población.
¿Qué es un estimador de un parámetro? Es un estadístico (variable aleatoria
función de las observaciones muestrales) que toma valores cercanos al verdadero
valor del parámetro.

Mu: media de la Media: media


población muestral

Sigma2: varianza S2: varianza muestral


poblacional
S: desvió muestral
Sigma: desvió
P: prop. muestral
poblacional

P: prop.
poblacional

El Estadístico de contraste es una variable aleatoria de distribución conocida que


vincula a un parámetro de interés, con un estimador de ese parámetro.

38
Miranda, Gerardo Julián

¿Qué es una hipótesis estadística? Es una afirmación acerca de la distribución de


una variable aleatoria. Si la afirmación es sobre el valor de un parámetro, es una
hipótesis paramétrica y si la afirmación es sobre la forma de la distribución de
probabilidades, es una hipótesis estadística no paramétrica.
Tipos de hipótesis.
 HIPOTESIS NULA (H0): son las hipótesis que son establecidas para el
propósito de posible rechazo o nulificación. Es una conjetura o suposición
sobre la población que se somete a testeo. Solo puede haber una hipótesis
nula H0.
 HIPOTESIS ALTERNATIVA (H1): Es la que plantea posibilidades alternas a la
hipótesis nula. Cualquier hipótesis, la cual difiere de la hipótesis nula, es
hipótesis alternativa. Pueden existir más de unas hipótesis alternativas.

Errores posibles del test de hipótesis.


H0 ES VERDADERA H0 ES FALSA
Acepto H0 1.Decision correcta. De 3.Error de tipo II
acuerdo el nivel de Probabilidad p=β.
confianza la probabilidad
p=1-α
Rechazo H0 2.Errro de tipo 1. Nivel de 4.Decision correcta. Poder
significación de prueba
Probabilidad p=α Probabilidad p=1-β

39
Miranda, Gerardo Julián

Test de hipotesis no parametricos


CHI CUADRADO (X2)
En Estadística, la distribucion de Pearson, tambien llamada CHI CUADRADO (X2) es
una distribucion de probabilidad continua con un paraetro k que representa los grados
de libertad de la variable aleatoria.
La distribucion chi cuadrado se utiliza para:
1) La bondad de ajuste de una distribucion observada a una teorica.
2) En el test de independencia de dos criterios de clasificacion de los datos
cualitativos y
3) En la esimacion del intervalo de confianza para una desviacion estandar de
la población de una distribucion normal de una desviacion estandar de la
muestra.
4) Tambien esta involucrada en el problema de estimar la media de una población
normalmente distribuida y en el problema de estimar la pendiente de una recta
de regresion lineal, a traves de su papel en la distribucion t de Student y
participa en todos los problemas de analisis de varinza, por su papel en la
distribucion F de Snedecor que es la distribucion del cociente de dos variables
aleatorias independentes con distribucion X2.
La prueba de Pearson se considera una prueba NO PARAMETRICA (no esta referida
a un parámetro determinado, no estamos testeando un parámetro poblacional a partir
de una muestra) que mide la discrepancia entre una DISTRIBUCION OBSERVADA y
otra TEORICA, indicando en que medida las diferencis existntes entre ambas se
deben al azar en el contraste de hipotesis. Tambien se utiliza para probar la
independencia de dos variables entre si, mediante la presentacion de los datos en
tablas de contingencia.
La formula que permite calcular el estadistico es:
k
( 0−E )2
X 2 =∑
i=1 E
Cuanto mayor sea el valor de X2, menos verosimil es que la hipotesis sea correcta.
Tiene mas probabilidad de caer en la zona de rechazo y ademas pq mientras mayor
sea X2 mayor es la diferencia entre los valores observados y los valores epserados.
Utilidad: Son utiles cuando no se cumple el supuesto de normalidad y el tamaño de la
muestra es pequeño.
PROPIEDADES DE X2.
1) Hay una distribucion de X para cada grado de libertad. Igual que en Student, se
distribuye según cada grado de libertad.
2) El modo de cada ditribucion es igual a (Gl-2), el punto mas alto de la curva.

40
Miranda, Gerardo Julián

3) El area bajo la curva vale 1. La mediana es aquel valor de la variable que deja
igual cantidad de datos a la izquierda que a la derecha. Y la media es igual a
los Grados de libertad.
4) Por ser calculada mediante el cuadrado de las diferencias de valores, la curva
siempre sera positiva. El valor mas pequeño posible para la X 2 es 0 y el
maximo es el +∞.

Test de Bondad de ajuste.


La prueba de Chi cuadrado permite determinar si un conjunto de frecuencias teorias o
esperadas (obtenidas de una distribucion de probabilidad como la normal binomial, de
otros metodos) se ajustan a un conjunto de frecuencias observadas en una muestra.
H0: O=E No hay diferencia significativa entre los valores O y E
H1: O≠E
X2 se distribuye con Gl= g-m
Donde g= numero de grupos de frecuencias observadas y esperadas en una muestra
y m= numeros de valores constantes conocidos, usados como restricciones para
encotrar las frecuencias esperadas de la muestra.
Cuanto mas se aproxima a 0 el valor de chi-cuadrado, mas ajustadas estan ambas
distribuciones.

41
Miranda, Gerardo Julián

Test de independencia para tablas de contingencia


Una tabla de contingencia es una tabla de clasificacion cruzada o arreglo de doble
entrada en filas y columnas, que nos muestra las frecuencias observadas de dos
variables cualitativas de una muestra. Y se denomina tabla de contingencia de r x k,
donde r es el numero de filas y k es el numero de columnas. Este tipo de tablas son
usadas frecuentemente en pruebas de independencia
H0: Las variables son independientes
H1: Las variables NO son independientes (la ocurrencia de una influye en la de la
otra)
Los grados de libertad gl vienen dados por:
gl= (r-1) (k-1)

42
Miranda, Gerardo Julián

UNIDAD 7 “Regresion y correlacion”

Tema 1: Regresión en una variable independiente. Ecuación y línea de regresión


muestral y poblacional. Intervalos de confianza y seguridad. Prueba e hipótesis para
coeficientes. Desvíos estándar de regresión. Análisis e interpretaciones. Usos.
Tema 2: Correlación. Muestra y población. Estimadores. Coeficientes de correlación y
determinación. Interpretaciones.
Analisis de correlacion.
Conjunto de tecnicas estadisticas empleado para medir la intensidad de la relacion
entre 2 variables. Es una medicion de TIPO CUALITATIVA.
Una primera aproximacion a la relacion entre esas 2 variables (dependiente e
independiente) la da el DIAGRAMA DE DISPERSION que es la grafica que
representa la relacion entre esas 2 variables.
En los diagramas de dispersion intervienen 2 variables:

 INDEPENDIENTE: es la que proporciona las bases para el calculo,


denominada variable de prediccion. Siempre en el eje de las x
 DEPENDIENTE: variable que se predice o calcula. Siempre en el eje de las y.
Para cada valor de la variable independiente pueden haber muchos valores de la
variable dependiente.
COEFICIENTE DE CORRELACION.

43
Miranda, Gerardo Julián

Describe la intensidad de la relacion entre dos conjuntos de variables escalizadas por


intervalo o por relacion o razon (incluye al 0 como parte de medicion de la variable).
Este coeficiente varia entre -1 y 1, mientras mas se acerca a esos valores, mas
intensamente se relacionan las variables.
Cuando vale 1 es una relacion directa, a medida q crece x crece y, pero cuando vale -
1 es una relacion inversa, a medida que crece x decrece y.

Significado de “r”
r=1 indica una correlacion perfecta y directa
r=-1 idncia correlacion perfecta e inversa
r=0 indica que no existe relacion entre las variables

44
Miranda, Gerardo Julián

Analisis de regresion.
Incluye un conjunto de tecnicas utilizadas en dos operaciones principales:
 Derivar una ecuacion y una linea (recta o curvilinea) que describa la relacion
entre las variables.
 Estimar una variable (Dependiente “y”) a partir de otras/s variable/s
(independiente “x”).
El analisis de regresion involucra el estudio de la relacion entre 2 VARIABLES
CUANTITATIVAS. En general interesa:
a) Investigar si existe una asociacion entre 2 variables testeando la hipotesis de
independencia estaditica.
b) Estudiar la fuerza de la asociacion, a traves de una medida de asociacion
denominada coeficiente de correlacion
c) Estudiar la forma de la relacion. Usando los datos propondremos un modelo
para la relacion y a partir de ella sera posible predecir el valor de una variable a
partir de la otra.
La decision sobre que analisis usar en una situacion particular depende de la
naturaleza de la variable dependendiente (OUTCOME) y del tipo de funcion que se
propone para relacionar el outcome y la variable independiente. Intervienen 2
variables en el analisis de regresion:
I. Covariables o variables independientes o variables regresoras: Se usan como
predictores o son variables de confunsion que interesa controlar.
II. Outcome o variable dependiente o variable de respuesta: Atributos sobre los
cuales queremos medir cambios o hacer predicciones.
Utilidad del analisis de regresion:
Permite desarrollar un modelo para predecir valores de una variable numerica (VD)
con base en los valores de una o mas variables diferentes (VI).
Permite identificar el tipo de relacion matematica existente entre la VD y la VI, a fin de
cuantificar el efecto que tienen los cambios en la VI sobe la VD.

45
Miranda, Gerardo Julián

Por ejemplo, predecir la puntuacion de un examen de ingreso a la universidad en base


a la puntuacion promedio obtenida en el secundario o predecir el salario de un
profesor en base a los años de experiencia.
VD=es la variable que se quiere predecir.
VI= es la variable utilizada para predecir la VD.

1.Lineal psotiva: relacion consumo e ingreso.


2.Lineal negativa: relacion precios y ventas.
3.Paravolica: relacion antigüedad con costo de mantenimiento de una maquina.
4.En U: cantidad de errores por hs en una tarea y cantidad de hs trabajadas.
5.Curvilinea negativa: a medida aue el auto es mas viejo su valor de reventa va
decayendo.
6.No existe relacion entre X e Y.

46
Miranda, Gerardo Julián

Modelo Matematico
Deterministico: Supone que bajo condiciones ideales, el comportamiento de la
variable dependiente puede se totalmente descripto por una funcion matematica de
las variables independientes (o por un conjunto de ecuaciones que relacionen las
variables)
Es decir, en condiciones ideales el modelo permite predecir SIN ERROR el valor de la
variable dependiente
Ej: Ley de la gravedad
`Podemos predecir exactamente la posicion de un ojeto que cae en caida libre y en el
vacio para cada instante de tiempo.
Estadistico: Permite la incorporacion de un COMPONENTE ALEATORIO en la
relacion. En consecuencia, las predicciones obtenidas a traves de modelos
estadisticos tendran asociado un error de prediccion.
Ej: relacion de la altura con la edad en niños
Niños de la misma edad seguramente no tendran la misma altura. Sim embargo, a
traves de un modelo estadistico es posible concluir que la altrua aumenta con la edad.
Es mas, podriamos predecir la altura de un niño de cierta edad y asociarle un ERROR
DE PREDICCION que tiene en cuenta: ERRORES DE MEDICION Y VARIABILIDAD
ENTRE INDIVIDUOS.

47
Miranda, Gerardo Julián

¿Qué me esta midiendo el coeficiente de regresion? Esta midiendo cuanto de las


variaciones de Y son explicadas por las variaciones de X
SSR Suma de cuadrados de regresion variacion explicada
r2= SST = suma total de cuadrados
=
variacion total
Siempre positivo!! Porque son devios y una propiedad dice que la suma de los desvios
con relacion a la media da 0, entonces los elevo al cuadrado. Y puede variar entre 0 y
1. Si vale 1 la relacion es perfecta (todos los puntos caen en la linea de regresion)
¿Como calculo el coeficiente de regresion?

48
Miranda, Gerardo Julián

Estimacion del error estandar.


Es la desviacion estandar alrededor de la linea de prediccion. Es un estadistico que
mide la variabilidad de los valores reales de Y para los valores predichos de Y. Su
concepto es similar al de la varianza estudiado en estadística descriptiva.

49
Miranda, Gerardo Julián

El error estandar se mide en las misas unidades de la variable dependiente Y. De la


misma manera que la DS mide la variabilidad alrededor de la media, el error estandar
mide la variabilidad alrededor de la linea de prediccion.
¿Utilidad del error estandar? Sirve para determinar si existe una relacion
estadisticamente significativa entre dos variables. Para hacer infeencias (intervalares)
acerca de los futuros valores de Y.
Mientras mayor sea el error estandar quiere decir que mayor es la distancia entre los
valores observados y los valores predichos, y eso quiere decir que menos significativa
es la relacion entre esas variables.
Suposiciones de regresion (Line): Primero analizo el diagrama de dispercion para
ver si existe una relacion lineal, verifico que se cumplan los siguientes supuestos y al
final construyo el modelo y realizo el analisis de regresion.
 Linealidad: Establece una relacion lineal entre variables. Realizo el grafico y
veo si se demuestra la relacion lineal entre las variables
 Independencia de errores: Recordemos que los errores eran la diferencia o
distancia existente entre cada valor observado y su recta de prediccion.
Requiere que los errores sean independientes unos de otros. Esta suposicion
es importante cuando se recolectan datos a lo largo de un periodo de tiempo.
En estos casos los errores de un periodo suelen correlacionarse con el
periodo previo.
 Normalidad: Requiere que los errores se distribuyan normalmente en cada
valor de X.
 Igual varianza u homoscedasticidad: Requiere que la varianza de los errores
sea constante para todos los valores de X. Esto es: la variabilidad de Y sera la
misma cuando los valores de X sean bajos o altos.
Estos supuestos los vamos a poder comprobar a partir de lo que se conoce como
Analisis Residual.
El residual o error del valor estimado es la diferencia entre los valores observados (Y i)
y los valores predichos (Y^ ¿ de la variable dependiente para un valor de Xi.

50
Miranda, Gerardo Julián

¿Para que sirve? Nos permite evaluar las suposiciones, para determinar si el modelo
de regresion es el adecuado.
e i= y i− ^yi

51
Miranda, Gerardo Julián

52
Miranda, Gerardo Julián

53
Miranda, Gerardo Julián

54
Miranda, Gerardo Julián

55
Miranda, Gerardo Julián

56

También podría gustarte