Tema 8 (Estadistica)
Tema 8 (Estadistica)
Tema 8 (Estadistica)
ESTADISTICA DESCRIPTIVA
1. INTRODUCCIÓN
La estadística trata del recuento, ordenación y clasificación de los datos obtenidos por las
observaciones, para poder hacer comparaciones y sacar conclusiones
Clasificación de la estadística:
1. Estadística descriptiva o deductiva: Se enfoca en la presentación y clasificación de los datos
obtenidos de la población analizada
2. Estadística inferencial o inductiva: Mediante la cuál es posible realizar estimaciones de las
características de una población o realizar la toma de decisiones basados en resultados
muestrales. Estimación, prueba de hipótesis, predicción
Un estudio estadístico descriptivo consta de las siguientes fases:
1. Recogida de datos
2. Organización y representación de datos (tablas de frecuencia, gráficas)
3. Análisis de datos o descripción (uso de estadígrafos o estadísticos)
4. Obtención de conclusiones
DEFINICIONES:
Población (N): Es el conjunto de todos los elementos a los que se somete a un estudio estadístico
Individuo o unidad estadística: Cada uno de los elementos que componen la población
Muestra (n): Es un conjunto representativo de la población de referencia, en número de individuos
de una muestra es menor que el de la población ( n < N )
Muestreo: Es la reunión de datos que se desea estudiar, obtenidos de una proporción reducida y
representativa de la población (muestra)
Valor: Es cada uno de los distintos resultados que se pueden obtener en un estudio estadístico. Por
ejemplo si lanzamos una moneda obtenemos dos valores: cara y cruz
Datos: Es cada uno de los valores que se ha obtenido al realizar un estudio estadístico. Por ejemplo,
si lanzamos una moneda al aire 5 veces obtenemos 5 datos (cara, cara, cruz, cara, cruz)
1
2. Tipos de variables estadísticas:
Variables estadísticas: Es cada una de las características o cualidades que poseen los individuos de
una población
A) Variables cualitativas: Se refieren a características o cualidades que no pueden ser medidas
con números. Podemos distinguir dos tipos
1) Nominal: No admiten un criterio de orden. Ejemplo: Estado civil (casado, soltero…)
2) Ordinal o variable cuasicuantitativa: Existe un orden. Ejemplo: Medallas (oro, plata,
bronce), nota en un examen (suspenso, aprobado, notable…), frecuencia de una
actividad...
B) Variable cuantitativa: Es la que se expresa mediante un número. Dos tipos:
1) Variable discreta: Es aquella que toma valores aislados, es decir, no admite valores
intermedios entre dos valores específicos. Ejemplo: Número de hermanos
2) Variable continua: Es aquella que puede tomar cualquier número comprendido entre
dos números (intervalo). Ejemplo: Altura (1.73, 1.69, 1.75)
Desde otro punto de vista, las variables pueden clasificarse atendiendo al número de observaciones
que se realizan en el mismo individuo. Así podemos encontrar
• Variables unidimensionales: Solamente se observa un dato (Ej: La altura de un deportista)
2
3.1 Tablas
A) Representación de tallo y hojas
Un método para iniciar el análisis exploratorio de los datos, previo al uso de los métodos
estadísticos tradicionales, y que además proporciona información rápida, visual es la representación
gráfica de tallo y hojas. Esta representación se basa en la ordenación de los datos a manera de
gráfico, pero sin llegar a ello, utilizando las decenas y las unidades.
Se usa cada uno de los datos separando las decenas de las unidades, es decir, el número 51 se verá
como 5 | 1.
3
Este tipo de tablas de frecuencias se utilizan con variables discretas.
Nota ni Ni fi Fi
3 3 3 0,088 (8,8%) 0,088
5 2 5 0,059 0,147
6 1 6 0,029 0,176
7 7 13 0,206 0,382
8 7 20 0,206 0,588
9 12 32 0,353 0,981
10 2 34 0,059 1,000
TOTAL 34 1,00
La tabla de distribución de frecuencias agrupadas o tabla con datos agrupados se emplea si las
variables toman un número grande de valores o la variable es continua
Se agrupan los valores en intervalos que tengan la misma amplitud denominados clases. A cada
clase se le asigna su frecuencia correspondiente
Clase: Es cada intervalo usado para agrupar los datos de la muestra. Cada clase está delimitada por
el límte inferior de la clase y el límite superior
• Amplitud de la clase: Es la diferencia entre el límite superior e inferior
• Límite real: El que se puede medir en la escala usada. Por ejemplo: Tenemos dos intervalos
60-62 y 63-65, con lo que 62.4 quedaría fuera, entonces el límite real para el primer
intervalo será [59.5 – 62.5)
Marca de clase ( ci ): Es el punto medio de la clase. Es el valor que representa a todo el intervalo
para el cálculo de algunos parámetros
C) Estadística descriptiva bidimensional o distribución bidimensional
Cuando tenemos dos variables podemos ordenar los datos en tablas de doble entrada cuando lo que
representamos son variables y tablas de contingencia cuando estudiamos dos caracteres cualitativos
4
Ejemplo: Relación entre paga y edad en un grupo de alumnos
En realidad lo que obtenemos son los valores de cada una de las variables independientemente de la
otra. A estos valores los llamamos distribuciones marginales de la variables estadísticas
Para tener la distribución marginal completa de la variable edad (y) tomamos la primera y la última
fila
Edad 16 17 18 19
Frecuencia 14 9 4 3
Igualmente para la variable paga (x) tomamos los datos de la primera y la última columna
De igual modo, los parámetros estadísticos bidimensionales los denominanos marginales (media
marginal de x o y, varianza marginal de x o y, etc...)
3.2 Gráficos
Pictogramas: Conjunto de gráficos de aspecto más o menos atractivo que sirven para trasmitir de
forma sencilla la información contenida en una muestra. Entre los pictogramas pueden incluirse los
gráficos de sectores o “tartas”. Se usan con las variables cualitativas nominales
Diagramas de barras: Se usa para variables cuantitativas discretas o variables cualitativas
ordinales. La altura de la barra es proporcional a la frecuencia del valor
Histograma: El más usado para describir variables cuantitativa continuas. El área de la barra es
proporcional a la frecuencia del valor
5
Gráficas de líneas: Consiste en la unión de una serie de puntos trazados en las intersecciones de las
marcas de clase y sus frecuencias. Se usa cuando existe una continuidad entre las observaciones
(crecimiento poblacional, evolución del peso a través del tiempo…). Ejemplo: El peso de Pedro y
Juan a lo largo de cinco años (Pedro será una línea y Juan otra)
Polígono de frecuencias: Parecido al anterior, la diferencia es que se añaden dos clases de
frecuencias cero: una antes de la primera clase con datos y otra después de la última
Polígono acumulativo (ojiva): Parecido al anterior, pero se aplica a las frecuencias acumulativas y
no tiene frecuencia cero al final. Se suele combinar con el histograma
Gráficos de caja: Gráficos muy simples que ayudan a comparar la dispersión de los datos
Diagrama de dispersión o nube de puntos: Es un gráfico bidimensional. Es un representación en
el sistema cartesiano (X,Y), de los valores observados de las variables, en el que a cada par (xi , yi)
se le asocia su frecuencia nij . Ejemplo: Peso y altura de un grupo de alumnos
6
MEDIDAS DE TENDENCIA CENTRAL
MODA (Mo): Es el valor que tiene mayor frecuencia absoluta
MEDIANA (Me): Es el valor que ocupa el lugar central de los datos ordenados de menor a mayor
MEDIA ARITMETICA (X) o (A): Es el valor obtenido al sumar todos los datos y dividir por el
número total N
n
∑ xi a1+ a2 +… an
X̄= i=1 =
N N
1. La suma de las desviaciones de los valores de la variable respecto a su media es 0
2. Si a todos los valores de la variable les sumamos (o multiplicamos) una constante k, la
media aritmética queda aumentada (o multiplicada) en esa constante
3. Si a una variable X le efectuamos una transformación lineal de la forma Y = aX + b con a y
b constantes, la media de la nueva variable queda afectada por dicha transformación lineal.
Esto se demuestra por la propiedad anterior
Ventajas e inconvenientes:
Como ventajas de utilizar la media aritmética como un promedio para sintetizar los valores de la
variable podemos citar las siguientes:
• Considera todos los valores de la distribución.
• Es siempre calculable (en variable cuantitativa).
• Es única.
Como inconvenientes de la utilización de la media aritmética cabe citar que, a veces, puede dar
lugar a conclusiones erróneas, cuando la variable presenta valores muy extremos, que influyen
mucho en la media, haciéndola poco representativa.
Media aritmética ponderada: Se calcula esta media aritmética cuando cada valor de la variable
tiene asociado una ponderación o un peso, distinto de la frecuencia, y que le haga tener más o
menos importancia en la distribución.
En este caso si el dato xi tiene un peso wi, su media ponderada sería:
n
∑ xi· w i
x¯p= i=1n
∑ wi
i=1
Sesgo: Cuando no es simétrica y se extiende más a un lado que a otro. Ej: Sesgo a la izquierda →
La media y la mediana están a la izquierda de la moda (ver coeficientes de asimetría)
7
MEDIA CUADRÁTICA (Q) o CMR (Cuadrado medio de raíz): Se usa para física (voltajes,
corrientes)
X̄ =
√a21 +a 22+…a 2n
N
MEDIA GEOMÉTRICA (G): Se usa para tasas promedio (economía)
n 1
X̄=( ∏ x1 ) =√n a1 · a 2 ·…a n
n
i=1
La media geométrica tiene una ventaja sobre la media aritmética y es que es menos sensible a los
valores extremos.
Como inconvenientes principales señalar que tiene un significado estadístico menos intuitivo que la
media aritmética, su cálculo es difícil y no se puede calcular si un valor de la variable es 0.
MEDIA ARMÓNICA (H): Se suele utilizar para promediar velocidades, tiempos, etc.
n −1
X̄=N ·
( )
∑
i=1
1
xi
=
1 1
N
+ +…
1
a 1 a2 an
Como ventajas podemos mencionar que intervienen todos los valores de la variable y que, en ciertos
casos, es más representativa que la media aritmética.
Como inconvenientes hay que citar la gran influencia de los valores pequeños y que a veces no se
puede calcular (si un valor de la variable es 0).
p p 1/p
M p= (
x1 + ⋯ + xn
n )
Siendo M1 la media aritmética, M2 la media cuadrática y M-1 la media armónica
Q≥ A≥G≥H
8
k·N
−FQ −1
4 k
encuentra el cuartil, F la frecuencia acumulada anterior a la clase del cuartil, N es la suma total de
frecuencias, f la frecuencia absoluta, a es la amplitud de la clase
DIAGRAMA DE CAJA o GRAFICA DE CUADRO
Es una representación de distribuciones estadísticas en la que el 50% de los valores centrales se
destacan mediante un rectángulo (caja) y los valores extremos (el 25% de los menores y el 25% de
los mayores( se representan mediante segmentos llamados bigotes).
Los puntos que separan los cuatro trozos son los cuartiles y la mediana.
∑|xi − x̄|
i=1
Dx =
N
(N) POBLACIÓN → Usamos letras griegas ( σ , μ …) Son parámetros
(n) MUESTRA → Usamos letras romanas ( s, x̄ ) Son estadísticos
VARIANZA o VAR (σ2): Tiene propiedades algebraicas como la media, pero tiene la desventaja de
que sus unidades son distintas del conjunto original de datos al estar elevadas al cuadrado
n
∑ ( x 1−μ )2
σ2 = i=1 Para población
N
9
n
∑ ( x 1− x̄ )2
s 2= i=1 Para muestras
n−1
DESVIACIÓN TÍPICA o ESTANDAR (σ) (SD): Es la raíz cuadrada de la varianza. Nunca es
negativa. μ ±2 σ Serían los valores comunes
Para calcularlo con frecuencias sería
s=
√
n[Σ (f · x2 )]−[Σ(f · x )]2
n(n−1)
f: frecuencia x: marca de clase
TEOREMA DE CHEBYSHEV
Es parecida a la regla empírica (68 – 95 – 99.7) pero para cualquier tipo de distribución, no sólo
normal
c2
Varianza corregida = varianza de los datos agrupados −
12
donde c es la anchura del intervalo de clase. La corrección c2 / 12 (que se resta) se llama corrección
de Sheppard. Se usa para distribuciones de variables continuas donde las «colas» van gradualmente
hacia cero en ambas direcciones.
Los estadísticos difieren respecto de cuándo y dónde debe aplicarse la corrección. Ciertamente no
debe aplicarse antes de examinar cuidadosamente la situación, pues a menudo tiende a
sobrecorregir, con lo que sustituye un error por otro.
10
BIDIMENSIONALES
COVARIANZA (σXY)
σ xy =
∑ ( x i− x̄ )·( yi − ȳ) ⇔ σ =
∑ (x i · y i )− x̄ · ȳ
xy
N N
Su valor depende de la escala (magnitud)
Si es > 0 es DIRECTA, si es < 0 es INVERSA
COEFICIENTE DE CORRELACION LINEAL O COEFICIENTE DE PEARSON (r):
Determina el grado de dependencia lineal entre las variables x e y
σ xy
r= Siempre toma valores entre -1 (inversa) y 1 (directa)
σx · σ y
Si r = 0, no existe correlación lineal (independencia), si r=1 o r=-1 existe dependencia lineal directa
El valor de r no se ve afectado por la elección de x o y
Su signo es igual que el de la covarianza, no varía al cambiar la escala
σ xy
Recta de regresión Y sobre X y− ȳ= ·( x− x̄)
σ 2x
σ xy
Recta de regresión X sobre Y x− x̄= ·( y− ȳ )
σ 2y
11
MATRIZ DE COVARIANZAS: Es una matriz cuadrada que tiene en su diagonal principal las
varianzas de cada una de las distribuciones marginales unidimensionales y en sus elemento no
diagonales las correspondientes covarianzas entre cada dos variables Sijb
1. Es simétrica respecto a su diagonal principal
2. Es definida positiva
3. El determinante de la matriz (determinante de momentos) es siempre no-negativo, L mayor
o igual a 0
( )
S21 S12 … S1 x
2
V = S 21 S 2 … …
… … … …
S x1 S x 2 … S 22
2. Momentos con respecto al origen: Se define el momento de orden r con respecto al origen
como la media aritmética de las potencias de orden r de los datos de la variable:
k
fi
ar =∑ x ri ·
i=1 n
Existe una relación entre los dos momentos, que nos da una forma reducida de
calcular la varianza:
12
Medidas de forma
Para tratar de conocer una distribución no basta con conocer sus medidas de dispersión y de
posición, sino que es necesario, en general, conocer algunos aspectos más de la misma.
Dado que la diversidad de comportamientos de las xi de la distribución se hacía más patente al
realizar la representación gráfica, vamos a tratar de determinar a continuación más medidas, según
la "forma" de la representación; clasificaremos estas medidas en dos grupos: medidas de asimetría y
medidas de curtosis o apuntamiento.
Medidas de asimetría
Tienen por objeto establecer el grado de simetría (o asimetría) de una distribución sin necesidad de
realizar la representación gráfica.
Entenderemos la simetría respecto al eje determinado por la media aritmética, de tal forma que
diremos que una distribución es simétrica cuando los valores de la variable equidistantes de este
valor central tengan la misma frecuencia, en caso contrario diremos que es asimétrica, siendo esta
asimetría negativa o a izquierda si es más larga la rama de la izquierda, es decir, las frecuencias
descienden más lentamente por la izquierda que por la derecha; análogamente llamaremos asimetría
positiva o a derechas aquella en que la rama de la derecha es más larga, es decir las frecuencias
descienden más lentamente por la derecha que por la izquierda.
Debemos buscar ahora una medida adimensional que recoja las desviaciones positivas y negativas
de los valores respecto de la media.
La figura nos muestra las distintas distribuciones:
k
fi
Dado que m1=∑ ( x i−⃗x )· =0
i=1 n
k
fi
hay que buscar una medida que venga influida por el signo; ésta será: m3=∑ ( xi−⃗x )3 ·
i=1 n
13
ya que
• si la curva es simétrica m3 = 0
• si la curva tiene asimetría positiva o a derechas, m3 > 0
• si la curva tiene asimetría negativa o a izquierdas, m3 < 0
Para que no tenga dimensión debemos dividirla por una medida con las mismas unidades (cúbicas),
obteniéndose el coeficiente de asimetría de Fisher.
k
f
m3
∑ (x i−⃗x )3 · ni
i=1
g1 = = 3
s3
[ ]
k
f 2
∑ ( x i−⃗x ) · ni
2
i=1
Siendo su interpretación:
• Si g1 > 0 la distribución es asimétrica positiva o a derecha.
• Si g1 = 0 la distribución es simétrica.
• Si g1 < 0 la distribución es asimétrica negativa o a izquierda.
⃗x −M o
A p=
s
Tiene el inconveniente de que no puede utilizarse en distribuciones bimodales, por ello Pearson
demostró empíricamente que ⃗x −M o≈3(⃗x −M e )
14
Si una distribución tiene mayor apuntamiento que la normal diremos que es "leptocúrtica", si tiene
menor apuntamiento que la normal la llamaremos "platicúrtica", y a las que tengan igual
apuntamiento que la normal las llamaremos "mesocúrticas".
Veamos esto en las siguientes figuras:
i=1
m4
A veces se utiliza como coeficiente de curtosis: g2= −3
s4
15