EXAMEN1
EXAMEN1
EXAMEN1
INTRODUCCIÓN A LA ESTADÍSTICA
1.1 Estadística. Campos de Aplicación:
- Cualitativos → son aquellos que no son susceptibles de ser medidos numéricamente. Ejemplo: el
equipo que le gusta más a alguien. A estos caracteres cualitativos se les llama atributos y presentan
modalidades. Se les designa con las primeras letras mayúsculas de abecedario (A, B, C). Para
distinguir las modalidades, se utiliza letras minúsculas con subíndices (a1, a2)
- Cuantitativos → son aquellos que son susceptibles de ser medidos numéricamente. Ejemplo: el
número de hermanos que alguien tiene. A estos caracteres cuantitativos se les llama variables y
toman valores. A las variables se las designa con las últimas letras en mayúscula del abecedario (X,
Y, T, Z) y a los valores, con esas letras minúsculas con subíndices (x1, x2)
➔ Fuentes primarias de datos, que son las que elabora el investigador o el equipo de trabajo
➔ Fuentes secundarias de datos, que son las que elabora alguien para mí; es decir, alguna empresa,
entidad o institución que recoge datos para ponerlos a disposición de los investigadores. A veces
pueden no ajustarse a lo que necesitamos precisamente, ya que ha sido alguien externo quien lo ha
elaborado.
La Estadística Descriptiva analiza los conjuntos de datos, pero la Inferencia Estadística permite
extrapolar y aproximar esa información. A través del cálculo de probabilidades y sus herramientas,
es posible pasar de la Estadística Descriptiva a la Inferencia Estadística, ya que es el bloque que se
encuentra a mitad de ambas, sirve como puente entre ellas.
Existen 3 etapas:
ESTADÍSTICA UNIDIMENSIONAL
2.1 Introducción:
Nos referimos a una parte de la Estadística Descriptiva. Es la estadística de una sola dimensión; es
decir, el estudio de un solo carácter. Es la parte, por lo tanto, más sencilla.
La Estadística Unidimensional estudia un único carácter, que puede ser cualitativo (atributos que
presentan modalidades) o cuantitativo (variables que presentan valores).
2.2.1 – Tablas Discretas: se utilizan para atributos y para variables que presentan pocos valores
diferentes. Ejemplos:
“Género” es un atributo y presenta dos modalidades (mujer y varón) N es el número total recogido.
“Número de hermanos” es una variable que presenta cuatro valores (0, 1, 2, 3) N es el número total
recogido.
2.2.2 – Tablas Continuas: se utilizan para variables que presentan muchos valores diferentes, lo que
dará lugar a agrupaciones en intervalos. Ejemplo:
“Dinero gastado en el fin de semana” es una variable que presenta cuatro agrupaciones de valores
en intervalos. N es el número total recogido.
Frecuencias acumuladas: se utilizan para características ordinales (las que se pueden ordenar). Las
cuantitativas son siempre ordinales y algunas cualitativas son ordinales si se pueden ordenar (como
el nivel de estudios), frente a otras cualitativas que no pueden ordenarse (equipo favorito).
Ni → frecuencia absoluta acumulada. Es el número de observaciones menores o iguales que el
máximo de la clase i.
Fi → frecuencia relativa acumulada. Es la proporción de observaciones menores o iguales que el
máximo de la clase i.
➔ Variables continuas:
Un tipo de representación es el histograma de frecuencias, donde cada barra cubre la totalidad del
intervalo que representa. Se emplea tanto para frecuencias relativas como frecuencias absolutas; es
el equivalente al diagrama de barras.
• Centrales → aquellas que representan el centro de una observación. Destaca la Media( actua
como centro de gravedad cero), la Mediana y la Moda ( no localiza el centro de la
distribución, pero para de tipo cualitativo es la única medida de posición que podemos
tener).
• No centrales → son los Cuantiles. No estan en el centro. Cuartiles, deciles, percentiles,
➔ Dispersión: miden lo juntos o separados que están los valores observados en una distribución de
frecuencias. Tenemos también de dos tipos:
➔ Forma: indican cuál es el aspecto que tiene la distribución estudiada en su conjunto. Son la
Asimetría y la Curtosis (o Apuntamiento). Analizan la simetria dentro de una variación de
frecuencia.
3.2.1 Media Aritmética → Se define su media como el promedio de las observaciones; es decir:
No tiene sentido calcular medias con caracteres cualitativos, solo tiene sentido con las variables. Se
define su media como el valor que equilibra las distancias de todas las observaciones con respecto a
él. Se representa por X. Se calcula:
X=69/53= 1.30
Cuando tengo los valores agrupados por intervalos nuestra características pierde información. Se
debe elegir un valor que represente. Escogemos el punto medio porque es el punto mas equilibrado.
La marca de clase es el punto medio del intervalo. El límite superior+ inferior entre dos.
Toma un valor dentro del rango de valores de la variable. NO se puede salir de este rango.
Lleva las mismas unidades que la variable (hermanos, peras, mazanas)
Valor entre el mínimo y el máximo.
La media cambia de la misma manera que la variable.
Si calculamos ...(inentendible)
La media es el valor que hace mínima la suma de los cuadrados de las desviaciones. Si en una
población hay L grupos, con L medias, la media global es una media ponderada donde calculo los
recursos del primer grupo, los recursos del sugundo grupo y los del último grupo, dividido por el
número de individuas totales. En el numerador aparece todos los valores y frecuencias y el
denominador los valores.
Ventajas:
Es sencilla de calcular.
La media es única y siempre se puede calcular cuando hablamos de características numéricas.
Resume a tdoso los valores de la distribución. Recoge toda la información.
Inconvenientes:
Es muy sensible a valores externos. Si hay un valor muy grande o un valor muy pequeño desplaza
la media.
No es un buen indicador de posisción porque es una rauyada. Se afecta rápido.
→ es como la Media Aritmética, pero, en vez de usar frecuencias, se definen pesos para los
diferentes valores. Se define: media que asigan una importancia relativa a cada valor según los
intereses. Es totalemnte subjetiva.
Definir unos pesos a conveniencia en función de lo que queremos hacer. Se llamada ponderada
porque cada uno de los valores está afectado por una ponderación o peso. Se utiliza la freciencia
relativa.
3.2.3. La mediana
Posición central. Deja por debajo el mismo número de observaciones que deja por encima. Por
debajo deja la mitad y la otra encima. No atiende a los valores, le da igual, mientras sean el mismo
número de observaciones. Está justo en el centro.
Ventajas:
Es una mediana es robusta, no está afectada por valores muy grandes o muy pequeños, es muy
constante. Es facil de calcuñar, un algoritmo sencillo, es muy lógica la expresión. Valor que ocupa
la posición centra.
Inconveniente:
No tiene en cuanta todas las observaciones. No reusme todas la sobservaciones, solo le importa las
centrales.
3.2.4. La moda
→ se define como la clase de mayor repetición. En una tabla discreta, la Moda es la clase(s) más
frecuente(s). La representamos como Mo.
Valor o modalidad de la variable dsitrecta o del atributo que tiene una mayor frecuencia. Para
cuantitatitas discretas como cualitativas.
Def: se define una característica cuantitativa, el cuantil r-ésimo de orden q como le valor de la
variable que deja por debajo el r/q x100% de las observaciones por encima el resto ( se hacen q
partes en la distribución y qr/q deja partes por debajo y q-r partes por encima).
Casos particulares:
3.5. Momentos.
Se utilizan porque son muy fáciles de programar. Casos particulares: el momento no centrado de
orden 0 siempre vale 1 y el momento no centrado de orden 1 siempre es la Media Aritmética.
Valores= marca de clase. El del centro
Momentos centrados se les llama m, y dependen del orden del momento. En vez de elevar cada
observación a h lo que se eleva es la diferencia entre los valores y su media.
Casos particulares: el momento centrado de orden 0 vale 1 y el momento centrado de orden 1 vale
0.
La cantidad se le conoce con el ombre de varianza***
Son medidas de dispersión absolutas las que presentan unidades y son: el Rango, el Recorrido
Intercuartílico y la Varianza. Miden lo amplio o separado que están entre si los valores observados
en una variable.
3.6.1 Rango o recorrido: Re = Máx (Xi) – Mín (Xi) Es sensible a los valores extremos. Diferencia
entre el máximo y el mínimo valor de las observaciones. Fácil de calcular pero como inocnveniente
fundamental es que es muy sensible a valores extremos. Lo que pase en el medio le da igual.
Medida poco robosta porque se construye teniendo en cuenta los extremos.
3.6.2 Recorrido Intercuartílico: distancia que hay entre los dos cuartiles tercero y primero. Es la
amplitud ocupada por el 50% central de la distribución.
RI = Q3 – Q1
Los valores extremos no influyen en esta medida, pero cuesta calcularlo. No es dificil sino
laborioso. La ventaja es su robustez.
El Recorrido Intercuartílico forma parte de la estadística Robusta. También existe el Recorrido Semi
– Intercuartílico, que es igual a RI/2
ni Ni
Gastos
0-10 20 100 20
10-30 24 480 44
30-150 9 810 53
53
Gastos ejemplo
Re= 150-0=150
RI= 26,45-6.63= 19,82 $ ( SIEMPRE PONER LA UNIDAD)
Q3=26,45
Q1= ¼ x 53= 13.25
Q1= 6.63
Propiedades:
1. Nunca puede ser negativa, siempre mayor o igual que 0, porque es un promedio de cuadrados,
que siempre son mayores que 0. Solo puede ser nulo en un caso, cuando solamente toma un valor en
este caso la variable es...
2. Fórmula simplificada
3 Demostración ( buscar)
3.6.6 Coeficiente de Variación de Pearson: relativiza medidas de dispersión dividiendo entre las
mismas cantidades. Es una medida adimensional porque no tiene unidades. Si el denominador es 0,
no se puede calcular. Se puede expresar en tantos por uno y en tantos por ciento (multiplicando aquí
por 100).
Siempre debe ser positivo, de ahí que se use el valor absoluto en el denominador. El cociente entre
la desviación típica y el valor absoluto de la media.
Es una representación gráfica de una distribución estadística unidimensional que refleja sus
principales características: límite inferior, primer cuartil, mediana, tercer cuartil y límite superior,
informando de cómo son las colas de la misma.
Valores atípicos son los rojos
Si g1 > 0 → asimetría positiva; pueden los valores positivos a los negativos. Simetría por la
derecha.
Si g2 < 0 → asimetría negativa; pueden los valores negativos a los positivos. Simetría por la
izquierda.
Debe ser simétrico para que no haya errores, para aplicar métodos de distribución normal.
Comprueba que se divide el momento de orden cuatro por la desviación típica a la cuarta, en casa
de la distribución normal ese cociente siempre da tres, si la variable es normal. Le resta el 3 para
que el cero sea el punto de equilibrio.
Índice de Gini
Ig= 2 sueprficie entre la Curva de Lorenz.
En los sumatorios no se suman todas las clases, la clase del uno nunca se suma. Se extienden hasta
K-1.
4.1. INTRODUCCIÓN
Variables bidimensionales, pares de variables (x,y). Ahora tendremos dos valores, dos cualidades de
los individuos de la población. Parte de la estadística descriptiva que se dedica al estudio de dos
caracteres observados sobre los N individuos de la población. De tal manera de que cada
observación está formada por un par de valores o un par de modalidades; o bien un valor y una
modalidad. Este par de características se observa simultáneamente.
4.2. TABULACIÓN
Tenemos N observaciones de tipo (x1,y1)... (xn,yn). Resumir esto en forma de tabla, en funcion de
sus características:
Tablas simples: se utilizan cuando so,o hay un número pequeño (K) de pares diferentes.
Xi yi ni fi
x1 y1 n1 n1/N
x2 y2 n2 n1/N
x3 y3 n3 n1/N
x4 y4 n4 n1/N
x5 y5 n5 n1/N
En este sentido tanto la x como la y son discretas y presentan pocos pares diferentes. N sigue siendo
el sumatorio de ni.
La frecuencias relativas son las frecuencias absolutas partidos de N. n1/N.
Ejemplo:
xi yi ni fi
1 1 5 5/25
1 2 10 10/25
2 1 8 8/25
2 2 2 2/25
25
No se pueden calcular frecuencias acumuladas, porque la forma de acumular es más difícil ya que
los órdenes no son siempre coherentes.
Tablas de doble sentido: muchos valores de pares K, es amplio. En este caso, califimcamenos las
observaciones de ambas características en clases y las enfrentamos en una tabla de doble entrada.
Si x e y son discretas con r y s clases. Tendríamos:
Y Y1 Y2 Y3 YS
X
X1
X2
XR
sumatorio sumatorio sumatorio sumatorio
Entonces ahora cada frecuencia lleva dos subíndices. El sumatorio de todas las frecuencias será el
sumatorio de cada observación.
FÓRMULA FOTO
Cuando las dos características son cuantitativas, se les llama tablas de correlación.
Cuando las dos características son cualitativas, se les llama tablas de contingencia.
Dado una variable bidimensional (x,y) se puede analizar de forma compuesta y tambien se puede
analizar b variable x o la y por separado. Por supuesto, de forma dibimensional cada una de las
calses tiene N observaciones.
X ni
1 15
2 10
y n1
1 13
2 12
DISTRIBUCIONS CONDICIONALES
4.5 INDEPENDENCIA
Dos características son independientes cuando la distribución d euna de ellas no cambia cuando
calculamos las frecuencias relativas marginales o cualquiera de las frecuencias relativas
condicionales.