Estadistica 2022
Estadistica 2022
Estadistica 2022
LA ESTADÍSTICA ES LA CIENCIA DE LA :
(DESCRIPTIVA)• Sistematización, recogida, ordenación y presentación de los datos
referentes a un fenómeno que presenta variabilidad o incertidumbre para su estudio
metódico, con objeto de
(PROBABILIDAD)• deducir las leyes que rigen esos fenómenos,
(INFERENCIA) • y poder de esa forma hacer previsiones sobre los mismos, tomar
decisiones u obtener conclusiones
PASOS EN UN ESTUDIO ESTADÍSTICO
*Plantear hipótesis sobre una población
*Decidir qué datos recoger (diseño de experimentos)
*Recoger los datos (muestreo)
*Describir (resumir) los datos obtenidos
*Realizar una inferencia sobre la población
*Cuantificar la confianza en la inferencia
POBLACIÓN Y MUESTRA
POBLACIÓN “population”: es el conjunto sobre el que estamos interesados en
obtener conclusiones (hacer inferencia).
- Normalmente es demasiado grande para poder abarcarlo.
CLASE 2
DISTRIBUCIÓN DE FRECUENCIA Es una técnica para presentar y resumir datos
estadísticos.
VENTAJAS Y DESVENTAJAS Aumentan la capacidad de percepción de las cosas.
Sirven para analizar la variabilidad de los datos estadísticos (información). Permiten
ganar en comprensión, pero se pierde detalle.
VARIABILIDAD: No coincidencia de los valores observados de la variable.
CLASE 3
PROMEDIOS, MEDIDAS DE TENDENCIA CENTRAL O MEDIDAS DE
POSICIÓN DEFINICIÓN: Son los valores de las variables que resumen o
caracterizan a un conjunto de datos estadísticos. Se expresan en las unidades de medida
de la Variable.
PROMEDIOS : Media Aritmética (x ) Mediana (Me) Cuartiles (Q1 y Q3 ) Modo
Media Aritmética (x): Es el cociente entre la suma de los valores de la variable y el
número total de ellos.
x = x1 + x2 + x3 + … + xN
N
CARACTERÍSTICAS
Igual unidad de medida que la variable.
Valor calculado, puede o no coincidir con los de la variable.
Influencia de valores extremos.
Fácil cálculo y rigurosidad de definición.
Permite operaciones algebraicas.
MEDIANA (ME) DEFINICIÓN: es aquel valor de la variable que excede al 50 % de
las observaciones y es excedido por el 50% restante de ellas, cuando los valores están
ordenados.
Una manera sencilla de cálculo de mediana en datos sin agrupar es ordenar los datos de
menor a mayor y luego, para ubicar el lugar del valor de la mediana. Aplicar la fórmula:
N +1
2
Características:
• Igual unidad de medida que la variable.
• Para una cantidad de datos impares, coincide con un valor de la variable. Para una
cantidad de datos pares, es un valor calculado.
• No se encuentra influenciado por valores extremos
• Fácil cálculo y rigurosidad de definición
• No es de fácil tratamiento algebraico.
CUARTILES (Q1 Y Q3 )
Definición Q1 : Es el valor de la variable que excede el 25% de las observaciones y es
excedido por el 75% restante, cuando los valores están ordenados.
PARA EL CASO DE CUARTIL 1° se puede aplicar los mismos pasos que en el caso
de la medina, para ubicar el lugar del valor del Q1, aplicar la fórmula: 𝑁 + 1/4
Supongamos el mismo ejemplo que para el caso de la mediana, las edades de 5 niños: 7;
5; 8; 4; 3 Ordenados queda: 3; 4; 5; 7; 8. Su ubicación sería: 5 + 1/4 = 1,5. Es decir que
es el valor de la variable ubicado entre el primero y segundo dato, en este conjunto de
datos, en este caso el valor del Q1 se calcula de la siguiente manera:
𝑄1𝑥 = 3 + 4/2 = 3,5 𝑎ñ𝑜
DEFINICIÓN Q3: Es el valor de la variable que excede el 75% de las observaciones y
es excedido por el 25% restante, cuando los valores están ordenados.
Para el caso de Cuartil 3° se puede aplicar los mismos pasos que en el caso del Q1, para
ubicar el lugar del valor del Q3, aplicar la fórmula: 3(𝑁 + 1)/4. Supongamos el mismo
ejemplo que para el caso del Q1, las edades de 5 niños: 7; 5; 8; 4; 3
Ordenados queda: 3; 4; 5; 7; 8. Su ubicación sería: 3(5 + 1)/4 = 4,5 Es decir que es el
valor de la variable ubicado entre el cuarto y quinto dato, en este conjunto de datos, en
este caso el valor del Q3 se calcula: Q3x = 7+8/2 = 7,5 años
MODO (MO) DEFINICIÓN: es aquel valor de la variable que se repite mayor
cantidad de veces o se presenta con mayor frecuencia entre el conjunto de valores de la
variable que se investiga.
Características:
o Igual unidad de medida que la variable.
o Valor observado, coincide con un valor de la variable.
o Valor calculado cuando se tienen datos agrupados con intervalos de clase
o No se encuentra influenciado por valores extremos
MODO (MO) Una vez ubicada la “Clase Modal”, si la misma contiene más de un valor
de la variable, debe aplicarse la fórmula de interpolación para encontrar el valor del
Promedio buscado.
Distintas formas de distribuciones de frecuencias
a) Distribuciones Simetricas: x = Me = Mo
b) Distribuciones sesgadas a la derecha: x >Me>Mo
c) Distribuciones sesgadas a la izquierda: x <Me <Mo
d) Distribuciones unimodales y moderadamente asimétricas x – Mo = 3(x - Me)
CLASE 4
MEDIDAS DE VARIABILIDAD O DISPERSIÓN
Variabilidad: no coincidencia de los valores observados de la variable. Permiten
conocer la representatividad de los promedios de los valores observados de la variable.
Distintos Tipos Absolutas: Rango (R) Rango Intercuartil (RI) Varianza. Desviación
Estándar
Relativas Rango (R): Coeficiente de Variabilidad Relativa (CVR)
Rango R = Xmax - Xmin
CARACTERÍSTICAS
a) Cálculo y significación sencillos.
b) Medida muy inestable.
c) No da idea del carácter de la distribución dentro de las observaciones extremas.
RANGO INTERCUARTIL: RI = Q3 –Q1
CARACTERÍSTICAS a) Describe variabilidad para el 50% de los valores centrales de
los datos. b) Cálculo y significación sencillos. c) No da idea del carácter de la
distribución dentro de los cuartiles. d) No se adapta a cálculos algebraicos
VARIANZA:
CARACTERÍSTICAS
a) Valores en unidades cuadráticas.
b) Difícil interpretación
Por Ejemplo: Usando la edades de cinco niños, de nuevo, cuyos valores ordenados son:
8; 3; 7; 4; 5 y aplicando la fórmula definicional, sabiendo que su media es de 5,4 años
DESVIACIÓN ESTÁNDAR:
CARACTERÍSTICAS
a) Se mide en las unidades de la variable.
b) Está afectada por cada valor de la variable.
c) Se adapta a cálculos algebraicos.
COEFICIENTE DE VARIABILIDAD RELATIVA Se usa para comparar la
variabilidad de dos o más conjuntos de datos cuando: a) Las unidades de medidas de las
variables son diferentes. b) Las unidades de medidas de las variables son iguales, pero
las Medias Aritméticas son diferentes.
COEFICIENTE DE ASIMETRÍA DE BOWLEY Mide la forma de la distribución de
frecuencias en el 50% central de los valores de la variable
CLASE 5
DISTRIBUCIÓN DE FRECUENCIAS A DOS VARIABLES objetivo mostrar y
analizar cómo se combinan los distintos valores de dos variables. Datos apareados
DATO APAREADO: Par ordenado de valores, el primero de la variable X y el
segundo de la variable Y, que se simbolizan (Xi ; Yi ) y que se obtienen de la medición
simultánea de ambas variables en cada elemento unitario de la población.
DISTRIBUCIÓN DE FRECUENCIAS A DOS VARIABLES.
Definición de Distribución de Frecuencias de dos variables: Tabla estadística que
presenta las “frecuencias conjuntas” de las distintas “clases apareadas” de dos variables.
Es un resumen de un conjunto de datos apareados obtenidos de una población
estadística.
DISTRIBUCIÓN DE FRECUENCIAS EN VALORES RELATIVOS: Porcentajes:
Horizontales Verticales Conjuntos.
CLASE6
CORRELACION Y REGRECION
Correlación Lineal: Es una herramienta que podemos usar para describir el grado de
relación lineal entre las variables. Para ello debe trabajarse con Datos Apareados. (Dato
Apareado es el par de valores resultantes de medir, contar u observar simultáneamente
dos variables en cada uno de los elementos unitarios de una pobación, o bien una
muestra)
Se consideran que dos variables están relacionadas entre sí cuando los valores de una de
ellas varían de una forma sistematica con respecto a los valores de la otra.
Dicho de otro modo, si tenemos dos variables X e Y, exuste relación entre ellas si al
aumentar los valores de X también lo hacen de los Y (Asociación positiva) o por el
contrario si al aumentar los valores de X disminuyen los de Y (Asociación Negativa).
DIAGRAMA DE DISPERSIÓN: Para analizar datos apareados, se realiza su
representación grafica mediante un grafico de Dispersión. Este es simplemente un
grafico de dos dimensiones, donde en un eje (la Abscisa) se grafica la variable X, y en
el otro eje (la ordenada) se grafica la variable Y.
ESTIMADOR DEL COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON:
Varia desde -1 (correlación extrema negativa) hasta +1 (correlación extrema positiva).
Cuando no existe relación lineal entre las variables, el coeficiente es igual a 0.
Clase 7
HACER UN ANALISIS DE REGRESIÓN LINEAL:
1) Desarrollar un modelo estadístico que pueda describir la relación existente entre
una variable dependiente (Y). Modelo de Regresión Lineal Simple.
2) Predecir valores de Y para dados valores de X.
3) Estimar la bondad del ajuste
Debe encontrarse una función que describa la relación existente Y= f (X)
Al analizar valores de X e Y, advertimos que se establecen otras variables que explican
a Y, o sea que : Y = f (X1, X2, X3, …Xk)
También debe establecerse el tipo de relación existente entre las variables (lineal,
exponencial, cuadrática,etc.)
Por razones de simplicidad, usaremos la función lineal y una sola variable
independiente para explicar a Y.
MODELO DE REGRESIÓN LINEAL SIMPLE
Se utiliza una sola variable independiente (X) para predecir los valores de la variable
dependiente (Y)
La relación mas sencilla entre las variables es la relación lineal.
Yi= a + BXi+Ei
Donde:
Y es la variable dependiente
a Matematicamente es la intersección Y. Estadisticamente representa el efecto promedio
fijo de todas las variables que se dejan de lado.
B es la pendiente y representa cuanto cambia Y por cada cambio de X.
X es la variable independiente.
E representa: a) Las otras variables que existen y se dejan de lado; b) las otras funciones
que se dejan de lado, y c) algunos problemas de medición.
i elemento de la muestra o población donde se observan las variables X e Y.
Elegido el dodelo lineal, se plantea como hacer pasar una recta por el diagrama de
dispersión, que realice el “mejor ajuste posible” de los puntos del mismo.
Yci= a+BXi
Cuando se trabaja con una muestra aleatoria de la población, pueden utilizarse a y b
como estimadores de a y B
Yi= a +bXi
El “mejor ajuste posible” consiste en que la recta trazar Yi, minimice la suma de las
distancias cuadráticas que existen entre los valores de Y y los valores de la recta en
cuestión Y
El criterio se llama Metodo de Minimos cuadrados.
Clase 8
ESTIMADOR DEL COEFICIENTE DE DETERMINACIÓN (R2) : Estima la
proporción de variación de la variable Y que es explicada por la variable independiente
del modelo* de regresión lineal simple.
CLASE 9
DEFINICIONES Y CONCEPTOS DE MUESTREO
“El problema de tomar decisiones, íntimamente relacionado con el problema de tener la
información apropiada, generalmente se refiere a problemas complejos y a un conjunto
grande de personas, objetos, etc. Existen limitaciones en cuanto a costo y tiempo en que
la información debe estar lista para que sea útil.”
CENSO: Relevamiento de la información de interés sobre todo el conjunto de
elementos que conforman la población a investigar.
MUESTREO: Relevamiento de la información sobre una parte de los elementos que
conforman la población investigada. La selección de los elementos que integran la
muestra puede hacerse por un experto (Muestreo no Probabilístico) o por un proceso
aleatorio (Muestreo Probabilístico)
B) OBJETIVOS DE LAS TÉCNICAS MUESTRALES:
*Usando la información obtenida de una parte del conjunto (muestra), estimar
información sobre todo el conjunto (población);
*y estimar la calidad de la misma en el sentido de en cuanto discrepa de la verdadera
información.
C) TIPOS DE ERRORES QUE SE COMETEN EN UN MUESTREO. Las
estimaciones realizadas a través del muestreo pueden estar afectadas por:
*ERRORES MUESTRALES: Diferencia entre el valor de un estimador (información
muestral) y su correspondiente parámetro poblacional (resultante de un relevamiento
total de la población).
*ERRORES NO MUESTRALES: Comprenden todos los errores que se pueden
presentar en el transcurso de la investigación, salvo el error muestral. (Sesgo de
selección y Sesgo de medición)
D) TIPOS DE MUESTREO: PROBABILÍSTICO Y NO PROBABILÍSTICO
MUESTREO PROBABILÍSTICO:
Todos los elementos de la población tienen una probabilidad de ser seleccionados para
la muestra.
•La selección de las unidades muéstrales es al azar (sorteo o tablas de números
aleatorios).
•Es posible calcular el valor hasta el cual el valor del estimador puede diferir del valor
del parámetro de la población de interés (error muestral) con cierta probabilidad.
MUESTREO NO PROBABILÍSTICO:
•La inclusión de los elementos en la muestra se basa en el criterio de la persona que
realiza el muestreo.
•Carece de técnicas estadísticas que permitan estimar y controlar la magnitud del error
muestral.
DEFINICIÓN DE MUESTREO PROBABILÍSTICO: proceso por el cual cada
unidad muestral seleccionada para la muestra se realiza en base a un sistema aleatorio
(sorteo o tablas de números aleatorios). Este sistema de selección cuenta con técnicas
estadísticas que permiten estimar y controlar la magnitud del error muestral.
DEFINICIÓN DE MUESTREO NO PROBABILÍSTICO O DE EXPERTOS:
proceso por el cual cada unidad muestral seleccionada para la muestra, es escogida por
una persona con experiencia y conocimiento sobre el problema que se desea investigar.
Este sistema de muestreo carece de técnicas estadísticas que permitan estimar y
controlar la magnitud de error muestral.
TEORÍA DEL MUESTREO marco de referencia construido con la finalidad de
cuantificar el error muestral para su eventual control. Para construir esta teoría es
necesario considerar todas las muestras al azar posibles de un tamaño previamente
especificado, que se puedan extraer de una población.
La teoría muestral se construye en base a dos conceptos fundamentales:
1. que la información muestral trate de informar sobre la población (carencia de sesgo)
y 2. el error muestral sea mínimo (máxima eficiencia).
CLASE 10
PROCESO DE DEDUCCIÓN ESTADÍSTICA
ESQUEMA CON REPOSICIÓN Y CON REPETICIÓN
▪Paso 1: Generar todas las muestras posibles, con un tamaño previamente especificado.
1.1. Construir un marco muestral con cada sujeto enumerado del 1 al N.
1.2. Usando una fuente de números aleatorios, seleccionar números entre 1 y N, n veces.
Muestras simple al azar con reposición y con repetición: son aquellas que tienen
igual probabilidad de ser escogidas y en las que cada componente tiene igual
probabilidad de estar presente en la muestra.
Cantidad de Muestras Posibles: Numero de nuestras diferentes con la misma
probabilidad de selección – Esquema “con y con” M=N
DISTRIBUCIÓN MAESTRAL DE
Es la distribución que resume todas las medias muestrales calculadas a partir de los
datos resultantes en cada una de las muestras posibles, seleccionadas para un dado
tamaño n.
•Cualquier distribución muestral siempre se refiere a:
▪ Una población específica que está siendo muestreada.
▪ A un tamaño específico de muestra aleatoria simple.
Resumen de Características de la Distribución de la Media Muestral
• Contiene los resultados de todas las muestras aleatorias posibles.
• El valor esperado de la Media Muestral es igual a la media poblacional.
• Presenta menos variación que la distribución de la población.
• Su variabilidad es afectada por el tamaño de muestra y por la variabilidad de la
población en estudio.
• Permite conocer las magnitudes posibles del error muestral y las frecuencias con que
pueden presentarse.
• Permite conocer la precisión con la cual se puede estimar la media de la población en
base a cualquier muestra aleatoria simple.
CLASE 11
PROCESO INDUCTIVO
ESTIMACIÓN PUNTUAL Y POR INTERVALOS
Como ya hemos visto, a partir de las estimaciones calculadas con los datos de la/s
muestra/s, queremos obtener una idea de los valores de los parámetros en la población.
Se trata de emplear los estadísticos para estimar los parámetros.
Veremos DOS tipos de estimaciones:
1) Estimación puntual. Aquí obtendremos un punto, un valor, como estimación del
parámetro.
2) Estimación por intervalos. Aquí obtendremos un intervalo el cual estimamos (bajo
cierta probabilidad) que contiene al parámetro.
ESTIMACIÓN PUNTUAL DE PARÁMETROS
Un estimador puntual es simplemente el valor de un estadístico (x, s2, etc) calculando
que una muestra que se emplea para estimar parámetros (media poblacional, varianza
poblacional, etc.). Es decir, cuando obtenemos una media aritmética a partir de una
muestra, tal valor puede ser empleado como un estimado para el valor de la media
poblacional.
DISTRIBUCIÓN NORMAL
Una variable continua sigue la Distribución Normal, cuando se distribuye según la
fórmula:
Esta nueva variable también sigue la Distribución Normal y se denomina variable
estandarizada
La existencia de un Teorema (el del limite central) asegura que las distribuciones
muestrales de x, sea cuales fueran las distribución normal prevista que el tamaño de la
muestra sea suficientemete grande (n>30)
ESTIMACIÓN POR INTERVALOS DE CONFIANZA PARA LA MEDIA
ARITMÉTICA
Se busca incorporar a la estimación puntual, una medida de la variabilidad a la que está
sujeto el estimador, junto a una medida de la confiabilidad que nos merece tal
estimación. A este tipo de estimación se la denomina estimación por intervalos.
Intervalo de confianza se define como: “un conjunto de valores con un límite inferior y
otro superior dentro de los cuales, es posible que esté el parámetro que se desea
estimar”. Ahora bien, ¿cuán grande habrá de ser el intervalo de confianza?
Si decimos que el intervalo de confianza va de menos infinito a más infinito, seguro que
acertamos... Pero eso no es muy útil. En el otro extremo está la estimación puntual, en la
que lo usual es que el valor del estimador no coincida con el valor del parámetro. Si un
intervalo es muy amplio, a los fines operativos la estimación no tiene valor, aunque se
confía plenamente en la misma. Una “precisión” muy alta se ve disminuida por la
escasa confianza que se tiene en ella. Existe una relación competitiva entre precisión y
confianza.
CLASE 12
Esto implica una relación competitiva entre precisión (extensión del intervalo) y su
confiabilidad. O sea, a mayor confiabilidad (confianza), menor precisión (mayor
extensión del intervalo) y viceversa.
CLASE 13
Muestreo de Proporciones Este muestreo se utiliza generalmente para el caso de
variables cualitativas, las que se consideran dicotómicas y en las que interesa conocer
qué proporción de la población tiene la característica que nos interesa. La teoría a
aplicar en este caso, es exactamente la misma que para estimar µ con Muestreo Simple
al Azar.
Y que la gracia de Zeus haga el milagro ….