0% encontró este documento útil (0 votos)
15 vistas19 páginas

EXAMEN1

Descargar como odt, pdf o txt
Descargar como odt, pdf o txt
Descargar como odt, pdf o txt
Está en la página 1/ 19

ESTADÍSTICA I

INTRODUCCIÓN A LA ESTADÍSTICA
1.1 Estadística. Campos de Aplicación:

Definición: la Estadística es la ciencia que se encarga de recoger, organizar, presentar y analizar


conjuntos de datos. Lo que permite dicha ciencia es extender los resultados al conjunto de una
población que se ha observado de forma parcial. Algunos de los campos de aplicación de la
estadística son: los deportes, la política, la economía, el derecho, la demografía, la salud o las
finanzas.

1.2 Población. Elementos y Caracteres:

La población, como objeto de estudio, es aquel conjunto de individuos / personas / empresas /


hogares que queremos estudiar. Los elementos son cada uno de los integrantes de la población, sea
lo que sea que la conforme. Si la población son las familias, cada elemento es una familia. Los
caracteres son las propiedades o cualidades que se observan sobre los elementos de una población.
Distinguimos entre caracteres de dos tipos:

- Cualitativos → son aquellos que no son susceptibles de ser medidos numéricamente. Ejemplo: el
equipo que le gusta más a alguien. A estos caracteres cualitativos se les llama atributos y presentan
modalidades. Se les designa con las primeras letras mayúsculas de abecedario (A, B, C). Para
distinguir las modalidades, se utiliza letras minúsculas con subíndices (a1, a2)

- Cuantitativos → son aquellos que son susceptibles de ser medidos numéricamente. Ejemplo: el
número de hermanos que alguien tiene. A estos caracteres cuantitativos se les llama variables y
toman valores. A las variables se las designa con las últimas letras en mayúscula del abecedario (X,
Y, T, Z) y a los valores, con esas letras minúsculas con subíndices (x1, x2)

1.3 Fuentes de Datos:

Distinguimos entre dos tipos de fuentes de datos:

➔ Fuentes primarias de datos, que son las que elabora el investigador o el equipo de trabajo
➔ Fuentes secundarias de datos, que son las que elabora alguien para mí; es decir, alguna empresa,
entidad o institución que recoge datos para ponerlos a disposición de los investigadores. A veces
pueden no ajustarse a lo que necesitamos precisamente, ya que ha sido alguien externo quien lo ha
elaborado.

1.4 Estadística Descriptiva e Inferencia Estadística:

La Estadística Descriptiva analiza los conjuntos de datos, pero la Inferencia Estadística permite
extrapolar y aproximar esa información. A través del cálculo de probabilidades y sus herramientas,
es posible pasar de la Estadística Descriptiva a la Inferencia Estadística, ya que es el bloque que se
encuentra a mitad de ambas, sirve como puente entre ellas.

1.5 Etapas de una investigación estadística:

Existen 3 etapas:
ESTADÍSTICA UNIDIMENSIONAL
2.1 Introducción:

Nos referimos a una parte de la Estadística Descriptiva. Es la estadística de una sola dimensión; es
decir, el estudio de un solo carácter. Es la parte, por lo tanto, más sencilla.
La Estadística Unidimensional estudia un único carácter, que puede ser cualitativo (atributos que
presentan modalidades) o cuantitativo (variables que presentan valores).

2.2 Tabulación y Distribuciones de Frecuencias

2.2.1 – Tablas Discretas: se utilizan para atributos y para variables que presentan pocos valores
diferentes. Ejemplos:

“Género” es un atributo y presenta dos modalidades (mujer y varón) N es el número total recogido.
“Número de hermanos” es una variable que presenta cuatro valores (0, 1, 2, 3) N es el número total
recogido.

2.2.2 – Tablas Continuas: se utilizan para variables que presentan muchos valores diferentes, lo que
dará lugar a agrupaciones en intervalos. Ejemplo:

“Dinero gastado en el fin de semana” es una variable que presenta cuatro agrupaciones de valores
en intervalos. N es el número total recogido.

2.2.3 – Más distribuciones de frecuencias:

ni → frecuencia absoluta: número de veces que se observa cada clase.

f1 → frecuencia relativa: proporción de veces que se observa cada clase.

Frecuencias acumuladas: se utilizan para características ordinales (las que se pueden ordenar). Las
cuantitativas son siempre ordinales y algunas cualitativas son ordinales si se pueden ordenar (como
el nivel de estudios), frente a otras cualitativas que no pueden ordenarse (equipo favorito).
Ni → frecuencia absoluta acumulada. Es el número de observaciones menores o iguales que el
máximo de la clase i.
Fi → frecuencia relativa acumulada. Es la proporción de observaciones menores o iguales que el
máximo de la clase i.

➔ Ejemplo con el número de hermanos:

➔ Ejemplo con el número de días que se salió durante el fin de semana:

2.3 Representaciones Gráficas:

2.3.1.Atributos → puede utilizarse un diagrama de sectores, que se emplea para características


cualitativas no ordenables. También se puede emplear un diagrama de barras.

2.3.2.Variables → distinguimos entre:

➔ Variables Discretas: se utiliza, principalmente, el diagrama de barras, desde un punto de vista


simple (sin acumular).
Si se trata con frecuencias acumuladas, se emplean diagramas acumulativos, también llamados
diagramas en escalera.

➔ Variables continuas:

Un tipo de representación es el histograma de frecuencias, donde cada barra cubre la totalidad del
intervalo que representa. Se emplea tanto para frecuencias relativas como frecuencias absolutas; es
el equivalente al diagrama de barras.

Un histograma es una colección de


rectángulos en los que la base
coincide con
las bases que definen los intervalos
y donde
la superficie del rectángulo sea
superficial a la
frecuencia.
ni = b x h (base por altura)
Definimos a1 = Li – Li-1

Utilizamos nuestro ejemplo:


Los polígonos acumulativos se corresponden con el diagrama acumulativo y, por lo tanto, es un
diagrama en el que se representan los puntos que corresponden a los límites que definen los
intervalos. Sobre cada uno de los límites del intervalo, se representa cada valor de la frecuencia
acumulada.

Son representaciones de tablas de tipo continuo porque su representación también es continua; es


decir, se hace sin levantar en lápiz del papel (a diferencia de las discretas).

2.3.3 Otras representaciones:

➔ Cartogramas: que son una representación de una zona geográfica.


➔ Series de tiempo: se emplean para medir magnitudes en períodos de tiempo.
➔ Pictogramas: representaciones que utilizan imágenes atendiendo a la naturaleza de lo que
estudiamos.

3.1 INTRODUCCIÓN: MEDIDAS.

➔ Posición: permiten localizar aspectos concretos de una distribución de frecuencias, de decir,de


un conjunto de datos. Resumen la información, son medidas que localizan y posicionan. Tenemos
de dos tipos:

• Centrales → aquellas que representan el centro de una observación. Destaca la Media( actua
como centro de gravedad cero), la Mediana y la Moda ( no localiza el centro de la
distribución, pero para de tipo cualitativo es la única medida de posición que podemos
tener).
• No centrales → son los Cuantiles. No estan en el centro. Cuartiles, deciles, percentiles,

➔ Dispersión: miden lo juntos o separados que están los valores observados en una distribución de
frecuencias. Tenemos también de dos tipos:

• Absolutas → el Recorrido (o Rango), el Recorrido Intercuartílico y la Varianza.


• Relativas → el Coeficiente de Variación (de Pearson) y el Coeficiente de Apertura ( es la
que se utilizaba para el abanico de salarios, un poco parecida al recorrido)

➔ Forma: indican cuál es el aspecto que tiene la distribución estudiada en su conjunto. Son la
Asimetría y la Curtosis (o Apuntamiento). Analizan la simetria dentro de una variación de
frecuencia.

Coeficiente de asietria de Fisher.


➔ Concentración: el Índice de Gini ( desde el punto de vista analítico) y la Curva de Lorenz
( herramienta gráfica que permite analizar cuanto de bien o mal están repartidos los datos en una
distribución).

3.2 MEDIDAS DE POSICIÓN

3.2.1 Media Aritmética → Se define su media como el promedio de las observaciones; es decir:

No tiene sentido calcular medias con caracteres cualitativos, solo tiene sentido con las variables. Se
define su media como el valor que equilibra las distancias de todas las observaciones con respecto a
él. Se representa por X. Se calcula:

Sumar el número total de hermanos entre la cantidad total de personas.

X=69/53= 1.30

Cuando tengo los valores agrupados por intervalos nuestra características pierde información. Se
debe elegir un valor que represente. Escogemos el punto medio porque es el punto mas equilibrado.
La marca de clase es el punto medio del intervalo. El límite superior+ inferior entre dos.

Osea el gasto medio de esta clase fue de 1390/53 = 26.22.

Si se da el caso de una tabla continua, se define para cada intervalo su marca de


clase como:

Propiedades de la media aritmética:

Toma un valor dentro del rango de valores de la variable. NO se puede salir de este rango.
Lleva las mismas unidades que la variable (hermanos, peras, mazanas)
Valor entre el mínimo y el máximo.
La media cambia de la misma manera que la variable.

OT: cambio de origen.

Si calculamos ...(inentendible)
La media es el valor que hace mínima la suma de los cuadrados de las desviaciones. Si en una
población hay L grupos, con L medias, la media global es una media ponderada donde calculo los
recursos del primer grupo, los recursos del sugundo grupo y los del último grupo, dividido por el
número de individuas totales. En el numerador aparece todos los valores y frecuencias y el
denominador los valores.

Ventajas:

Es sencilla de calcular.
La media es única y siempre se puede calcular cuando hablamos de características numéricas.
Resume a tdoso los valores de la distribución. Recoge toda la información.

Inconvenientes:

Es muy sensible a valores externos. Si hay un valor muy grande o un valor muy pequeño desplaza
la media.
No es un buen indicador de posisción porque es una rauyada. Se afecta rápido.

3.2.2. La media ponderada

→ es como la Media Aritmética, pero, en vez de usar frecuencias, se definen pesos para los
diferentes valores. Se define: media que asigan una importancia relativa a cada valor según los
intereses. Es totalemnte subjetiva.

Definir unos pesos a conveniencia en función de lo que queremos hacer. Se llamada ponderada
porque cada uno de los valores está afectado por una ponderación o peso. Se utiliza la freciencia
relativa.

Mismas ventajas y desventajas de la media.

3.2.3. La mediana

Posición central. Deja por debajo el mismo número de observaciones que deja por encima. Por
debajo deja la mitad y la otra encima. No atiende a los valores, le da igual, mientras sean el mismo
número de observaciones. Está justo en el centro.

Usualemnte voy a trabajar con las freciencias acumuladas ascendentes.

Modo de obtención de la Mediana para tablas discretas:

- Calculo Ni (frecuencia absoluta acumulada)


- Calculo N/2 y busco la primera que cumple 𝑁𝑖 ≥ 𝑁/2
- Si Ni > N/2 → Me = Xi
- Si Ni = N/2 → Me = Xi , Xi+1 o 𝑥𝑖+𝑥𝑖+1 /2

Ventajas:
Es una mediana es robusta, no está afectada por valores muy grandes o muy pequeños, es muy
constante. Es facil de calcuñar, un algoritmo sencillo, es muy lógica la expresión. Valor que ocupa
la posición centra.

Inconveniente:

No tiene en cuanta todas las observaciones. No reusme todas la sobservaciones, solo le importa las
centrales.

3.2.4. La moda

→ se define como la clase de mayor repetición. En una tabla discreta, la Moda es la clase(s) más
frecuente(s). La representamos como Mo.
Valor o modalidad de la variable dsitrecta o del atributo que tiene una mayor frecuencia. Para
cuantitatitas discretas como cualitativas.

Puede haber dos modas.


Ventajas de la moda: es facil de encontrar y de interpretar. El atributo que más se observa. La única
medida d epsicion válida para cuando trabajamos con atributos.

3.2.5. Media geométrica y armónica

media importantes que se utilizan en ámbitos concretos.


No son útiles siempre sino en algunos.

3.3 Medidas de posición no central: cuantiles.

Def: se define una característica cuantitativa, el cuantil r-ésimo de orden q como le valor de la
variable que deja por debajo el r/q x100% de las observaciones por encima el resto ( se hacen q
partes en la distribución y qr/q deja partes por debajo y q-r partes por encima).

Casos particulares:

perceptiles ( q=100, 100 partes) -Pr


Deciles (q010, 10 partes)- Dr
Cuartiles (q=4, 4 partes)- Qr

mediana = perceptil 50 = decil 5 = perceptil 2

3.4. Relaciones entre las medidas de posición central.( X, Med, Mo)


La mediana divide al gráfico a la mitad.
Moda es el punto más alto.
La media se verá afectada por valores extremos.

La distribución normal es simétrica.

3.5. Momentos.

Definen para variables. Hay de dos tipos:

Momentos no centrales o momentos con respecto al origen: dada unadistribución de frecuencias, se


define su momento no centrado como el promedio de las observaciones elevada al orden
correspondiente.

Ah: promedio de las observaciones elevadas a h.

Se utilizan porque son muy fáciles de programar. Casos particulares: el momento no centrado de
orden 0 siempre vale 1 y el momento no centrado de orden 1 siempre es la Media Aritmética.
Valores= marca de clase. El del centro

Momentos centrados se les llama m, y dependen del orden del momento. En vez de elevar cada
observación a h lo que se eleva es la diferencia entre los valores y su media.
Casos particulares: el momento centrado de orden 0 vale 1 y el momento centrado de orden 1 vale
0.
La cantidad se le conoce con el ombre de varianza***

Si es de orden par siempre srá positiva.

3.6. Medidas de Dispersión.

Son medidas de dispersión absolutas las que presentan unidades y son: el Rango, el Recorrido
Intercuartílico y la Varianza. Miden lo amplio o separado que están entre si los valores observados
en una variable.

Si están lejos mucha variabilidad.

3.6.1 Rango o recorrido: Re = Máx (Xi) – Mín (Xi) Es sensible a los valores extremos. Diferencia
entre el máximo y el mínimo valor de las observaciones. Fácil de calcular pero como inocnveniente
fundamental es que es muy sensible a valores extremos. Lo que pase en el medio le da igual.
Medida poco robosta porque se construye teniendo en cuenta los extremos.

3.6.2 Recorrido Intercuartílico: distancia que hay entre los dos cuartiles tercero y primero. Es la
amplitud ocupada por el 50% central de la distribución.

RI = Q3 – Q1

Los valores extremos no influyen en esta medida, pero cuesta calcularlo. No es dificil sino
laborioso. La ventaja es su robustez.

Buscar cómo calcular esto

El Recorrido Intercuartílico forma parte de la estadística Robusta. También existe el Recorrido Semi
– Intercuartílico, que es igual a RI/2

ni Ni
Gastos
0-10 20 100 20
10-30 24 480 44
30-150 9 810 53
53

Gastos ejemplo
Re= 150-0=150
RI= 26,45-6.63= 19,82 $ ( SIEMPRE PONER LA UNIDAD)
Q3=26,45
Q1= ¼ x 53= 13.25
Q1= 6.63

Aprender como resolver cuartiles

El recorrido los dos, no tienen en cuenta los valores de los datos.

3.6.3 La Varianza: es el momento central de orden 2 (visto anteriormente) Siempre es mayor o


igual que 0. Siempre que la varianza sea igual que 0, la variable tendrá un único valor.
Normalmente se le llama momento central de orden 2. Tiene en cuenta las posiciones relativas de
todas las observaciones. Diferencias de las observaciones con respecto de la media. Se eleva al
cuadrado y no al cubo porque al cubo el negativo sale positivo y el positivo negativo. Son solo para
variables numéricas, no para características de tipo cualitativo.

Propiedades:

1. Nunca puede ser negativa, siempre mayor o igual que 0, porque es un promedio de cuadrados,
que siempre son mayores que 0. Solo puede ser nulo en un caso, cuando solamente toma un valor en
este caso la variable es...

2. Fórmula simplificada

3 Demostración ( buscar)

Varianza en el número de hermanos:


productos de los valores de la columna por la frecuencia.

Total = 139 la suma de los cuadradaos


var= 139/53 -1.3= 0.932 hermanos al cuadrado.

Var de los gastos:

8300/53- 26.23 2= euros al cuadrado

3.6.4 Desviación Típica:


Son medidas de dispersión relativas las que no tienen unidades y lo son el Coeficiente de Variación
y el Coeficiente de Apertura. Sirven para comparar la dispersión de distribuciones diferentes. La
raiz cuadrada positiva de la varianza o de la variable.

3.6.5 Coeficiente de apertura: es el coeficiente entre el máximo valor observado y el menor


observado. Es una media de dispersión relativa porque no tiene unidades. Sirve, sobre todo, para los
salarios. Su inconveniente es que no se puede siempre calcular; esto pasara cuando alguna variable
sea 0 (es decir, el denominador).
Solo tiene en cuenta el pequeño y el grande, cuantas veces el grande contiene al pequeño. Si en min
es 0 no existe.

3.6.6 Coeficiente de Variación de Pearson: relativiza medidas de dispersión dividiendo entre las
mismas cantidades. Es una medida adimensional porque no tiene unidades. Si el denominador es 0,
no se puede calcular. Se puede expresar en tantos por uno y en tantos por ciento (multiplicando aquí
por 100).

Siempre debe ser positivo, de ahí que se use el valor absoluto en el denominador. El cociente entre
la desviación típica y el valor absoluto de la media.

El coeficiente se mide para comparar la dispersión. No tienen unidades.

3.7. Diagrama de Caja y Bigotes

Es una representación gráfica de una distribución estadística unidimensional que refleja sus
principales características: límite inferior, primer cuartil, mediana, tercer cuartil y límite superior,
informando de cómo son las colas de la misma.
Valores atípicos son los rojos

3.8. Medidas de forma

3.8.1. Índice de Asimetría de Fisher

La simetría indica que Me=X, y si es unimodal entonces: Me=X=Mo.

La suma de todas las discrepancias es cero en la gráfica.

Si g1 > 0 → asimetría positiva; pueden los valores positivos a los negativos. Simetría por la
derecha.
Si g2 < 0 → asimetría negativa; pueden los valores negativos a los positivos. Simetría por la
izquierda.

Debe ser simétrico para que no haya errores, para aplicar métodos de distribución normal.

3.8.2. Coeficiente de Kurtosis ( Apuntamineto).

Lo desarrolla Fisher también.

Comprueba que se divide el momento de orden cuatro por la desviación típica a la cuarta, en casa
de la distribución normal ese cociente siempre da tres, si la variable es normal. Le resta el 3 para
que el cero sea el punto de equilibrio.

Si g2 = 0 → Apuntamiento similar a la distribución normal. Es mesocúrtica.


Si g2 > 0 → Más apuntamiento que la distribución normal. Es leptocúrtica.
Si g3 < 0 → Menos apuntamiento que la distribución normal. Es platicúrtica.
https://economipedia.com/definiciones/curtosis.html BUSCAR AQUÍ LAS FÓRMULAS

3.9 Análisis de la concentración


La curva de Lorenz y el índice de Gini.
¿Que hacen estas herramientas ? EXAMEN
Se refiere al estudio de la distribución o reparto de los recursos. Analisis de los niveles salariales:

Xi ni Xi ni Ni Xi ni acc pi= Ni/N Qi= xini acc/


suma de
recursos xini
1000 20 20000 20 20000 20/25 0.57=
20000/35000
2000 4 8000 24 28000 24/25 28000/35000
7000 1 7000 25 35000 1 Este uno no
sale
25 35000

La suma de xi por ni son los recursos de la distribución. En este caso ingresos.


Se calcula la media: 1400
El 0.57 inidca que el ochenta porciento de los perceptores solo se reparten el 0.57 porciento.
Paradoja del desfile de los enanos.

A Lorenz se le ocurrio situar en el eje de absisas las proprciones de perceptores acumulados, y en el


eje de las y…
• Equidistribución: La curva de Lorenz coincide con la diagonal principal
(línea roja y línea negra del anterior gráfico son la misma).

• Concentración máxima: nulo reparto

Índice de Gini
Ig= 2 sueprficie entre la Curva de Lorenz.
En los sumatorios no se suman todas las clases, la clase del uno nunca se suma. Se extienden hasta
K-1.

Nos permite comparar el reparto de la redistribución de recursos en poblaciones diferentes.

Si IG = 0 → hay equidistribución. Reparto igualitario


Si IG = 1 → hay concentración máxima. Suele ser 0.30
TEMA 4. ESTADÍSTICA BIDIMENSIONAL

4.1. INTRODUCCIÓN

Variables bidimensionales, pares de variables (x,y). Ahora tendremos dos valores, dos cualidades de
los individuos de la población. Parte de la estadística descriptiva que se dedica al estudio de dos
caracteres observados sobre los N individuos de la población. De tal manera de que cada
observación está formada por un par de valores o un par de modalidades; o bien un valor y una
modalidad. Este par de características se observa simultáneamente.

4.2. TABULACIÓN

Tenemos N observaciones de tipo (x1,y1)... (xn,yn). Resumir esto en forma de tabla, en funcion de
sus características:

Tablas simples: se utilizan cuando so,o hay un número pequeño (K) de pares diferentes.

Xi yi ni fi
x1 y1 n1 n1/N
x2 y2 n2 n1/N
x3 y3 n3 n1/N
x4 y4 n4 n1/N
x5 y5 n5 n1/N

En este sentido tanto la x como la y son discretas y presentan pocos pares diferentes. N sigue siendo
el sumatorio de ni.
La frecuencias relativas son las frecuencias absolutas partidos de N. n1/N.

Ejemplo:

xi yi ni fi
1 1 5 5/25
1 2 10 10/25
2 1 8 8/25
2 2 2 2/25
25

No se pueden calcular frecuencias acumuladas, porque la forma de acumular es más difícil ya que
los órdenes no son siempre coherentes.

Tablas de doble sentido: muchos valores de pares K, es amplio. En este caso, califimcamenos las
observaciones de ambas características en clases y las enfrentamos en una tabla de doble entrada.
Si x e y son discretas con r y s clases. Tendríamos:
Y Y1 Y2 Y3 YS

X
X1
X2
XR
sumatorio sumatorio sumatorio sumatorio

Entonces ahora cada frecuencia lleva dos subíndices. El sumatorio de todas las frecuencias será el
sumatorio de cada observación.
FÓRMULA FOTO

A estas frecuencias se les llama frecuencias conjuntas.

Cuando las dos características son cuantitativas, se les llama tablas de correlación.
Cuando las dos características son cualitativas, se les llama tablas de contingencia.

4.3. DISTRIBUCIONES MARGINALES Y CONDICIONALES

Dado una variable bidimensional (x,y) se puede analizar de forma compuesta y tambien se puede
analizar b variable x o la y por separado. Por supuesto, de forma dibimensional cada una de las
calses tiene N observaciones.

X ni
1 15
2 10

y n1
1 13
2 12

Las distribucions marginales ( Son tablas unidimensionales. ) se obtienen en las tablassimples


enumerando las difreentes clases yt suamndo las frecuencias. Por clases, son los valores o
modalidades.
En las tablas de doble entrada o cruzadas las distribuciones marginales se obtienen sumando las
frecuencias conjuntas por fila o por columnas.

DISTRIBUCIONS CONDICIONALES

Dada una distribucion bidimensional con N distribuciones se pueden definir distribuciones


condicionadas teniendo en cuenta una o varias de una de las características para señeccionar un
subconjunto de individuos, y s estudia sobre ella la otra característica. Se representa X /Y
( BUSCAR)
Se representan mediante una barra vertical, poniendo la variable qu se estudia a la izquierda, y la
que pone resticción a la derecha.

4.4. REPRESENTACIÓN GRÁFICA

Si X e Y son discretas- diagrama de barras tradicionales


Si x e Y son continuas-- Estereograma.

4.5 INDEPENDENCIA

Dos características son independientes cuando la distribución d euna de ellas no cambia cuando
calculamos las frecuencias relativas marginales o cualquiera de las frecuencias relativas
condicionales.

También podría gustarte