Tema1 Macroeconomia

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 58

INTRODUCCIÓN A LA ESTADÍSTICA

TEMA 1: INTRODUCCIÓN Y ANÁLISIS GRÁFICO DE DATOS


Curso 2022-23

INT. ESTAD. (Curso 2022-23) TEMA 1 1 / 58


1. ¿Por qué estudiar Estadística?

Cada vez es más imprescindible conocer mejor la realidad (natural,


física, social,...) y por tanto se necesita obtener información que
permita tomar mejores decisiones.
¿Qué es la Estadística? Hay muchas de…niciones; posiblemente, la
que mejor recoge lo que se entiende por Estadística es “conjunto de
procedimientos que ayudan a extraer conclusiones o tomar decisiones
en situaciones de incertidumbre, basándose en datos”.
Ejemplos de contextos donde la Estadística es útil:
Analizar si una determinada política tiene los efectos deseados o no.
Examinar si las diferencias salariales observadas entre una muestra de
hombres y una muestra de mujeres pueden deberse al azar o no.
Tomar una decisión sobre en qué activo invertir un capital entre varios
posibles.
Decidir cuál debe ser la prima que una aseguradora debe cobrar a una
persona teniendo en cuenta las características que se observan de ésta.

INT. ESTAD. (Curso 2022-23) TEMA 1 2 / 58


1. ¿Por qué estudiar Estadística?

El estudio de la Estadística se divide habitualmente en tres partes:


Estadística Descriptiva: técnicas para resumir o describir la
información contenida en un conjunto de datos.
Probabilidad: estudio de las leyes del azar; éstas permiten analizar las
situaciones de incertidumbre utilizando probabilidades.
Inferencia Estadística: procedimientos para extraer conclusiones o
sugerir qué decisión tomar en situaciones de incertidumbre; la
inferencia se realiza a partir de datos del fenómeno que se analiza y
utilizando el modelo de probabilidad adecuado.
En este curso se estudiarán los conceptos básicos de Estadística
Descriptiva y de Probabilidad; en el curso siguiente se estudiará
Inferencia Estadística.

INT. ESTAD. (Curso 2022-23) TEMA 1 3 / 58


1. ¿Por qué estudiar Estadística?

1.1 Población y Muestra


Población es el conjunto de todos los "elementos" que nos interesa
estudiar; el término "elemento" habitualmente se re…ere a una
persona, pero también podría ser un coche, una sucursal bancaria,
etc. El tamaño de la población, N, puede ser muy grande o incluso
in…nito.
Ejemplos de poblaciones: Los votantes de un país, todos los
estudiantes de una universidad, todas las acciones que cotizan en
bolsa, etc...
Muestra es un subconjunto de la población para el cual observamos
sus características.

INT. ESTAD. (Curso 2022-23) TEMA 1 4 / 58


1. ¿Por qué estudiar Estadística?
1.2 Muestreo aleatorio simple
Es un método que se emplea para seleccionar una muestra de tamaño
n. Cada miembro se elige al azar y tiene la misma probabilidad de ser
elegido.
Las muestras que se utilizan en Estadística deben ser representativas
de la población. De este modo podremos "estimar" el valor del
parámetro con el estadístico obtenido en la muestra.
"Estimar" signi…ca generalizar a nivel de la población (parámetro) el
estadístico de interés que calculamos sobre los elementos de la
muestra.
En los cursos obligatorios de Estadística no estudiaremos el problema
de cómo obtener muestras adecuadas; siempre supondremos que
disponemos de una muestra adecuada para estudiar el problema al
que nos enfrentamos (los procedimientos para selección de muestras
se estudian en cursos de “Técnicas de Muestreo”).
INT. ESTAD. (Curso 2022-23) TEMA 1 5 / 58
1. ¿Por qué estudiar Estadística?
1.3 Parámetro y Estadístico
Parámetro: Medida numérica de una característica de la población
que nos interesa estudiar.
Estadístico: Medida numérica de la característica de interés obtenida
en nuestra muestra.
EJEMPLO 1.1: Queremos conocer la altura media de los hombres
españoles mayores de edad. Para ello seleccionamos a 500 hombres
españoles mayores de edad y calculamos la media de sus alturas. En
este caso, ¿quiénes son la población, la muestra, el parámetro y el
estadístico?
Población: Todos los hombres españoles mayores de edad.
Muestra: Los 500 hombres españoles seleccionados.
Parámetro: La media de las alturas de todos los hombres españoles
mayores de edad.
Estadístico: La media de las alturas de los 500 hombres españoles
mayores de edad seleccionados.
INT. ESTAD. (Curso 2022-23) TEMA 1 6 / 58
2. Clasi…cación de variables

Los elementos de una población poseen ciertas cualidades que


llamamos caracteres o variables. Ejemplos: estatura, estado civil,
profesión, edad, etc.
Las variables las clasi…caremos en categóricas o numéricas, según
que el resultado indique una categoría o un número.
2.1 Variables Categóricas: nominales y ordinales
Se caracterizan porque sus modalidades o categorías no pueden
describirse mediante números. A su vez, las variables categóricas las
dividiremos en:
variables categóricas nominales: aquellas en que no hay un orden
natural en las categorías.
variables categóricas ordinales: aquellas en que sí hay un orden
natural en las categorías.
Ejemplos de variables categóricas pueden ser sexo, estado civil, grado
de estudios, evaluación del profesorado, etc.
INT. ESTAD. (Curso 2022-23) TEMA 1 7 / 58
2. Clasi…cación de variables

2.2 Variables Numéricas: discretas y continuas


Son medibles pudiendo atribuir a cada una de sus modalidades un
número. A su vez, las variables numéricas las dividiremos en:
variables numéricas discretas: aquellas en que el conjunto de posibles
resultados es o bien …nito o bien in…nito numerable (es decir, in…nito
pero que se puede contar, como el conjunto de los números naturales).
variables numéricas continuas: aquellas en que el conjunto de
posibles resultados no es ni …nito ni in…nito numerable, como un
intervalo de la recta real de la forma (a, b ), con a < b.
En ocasiones, las variables categóricas se denominan “cualitativas”, y
las variables numéricas se denominan “cuantitativas”.

INT. ESTAD. (Curso 2022-23) TEMA 1 8 / 58


2. Clasi…cación de variables
Normalmente es muy fácil distinguir si una variable categórica es
nominal u ordinal. En cuanto a las variables numéricas:
Las observaciones de una variable continua tienen, por su naturaleza,
in…nitos decimales, aunque siempre aparecerán recortados y vendrán
con unos pocos decimales, o quizá ninguno; pero aunque no aparezca
ningún decimal no debemos olvidar que esto es porque se han omitido
decimales, y que la variable es continua. Son variables continuas, por
ejemplo, el peso, la altura o todas las variables que indican tiempo.
Son discretas todas las variables que indican “número de ....” (por
ejemplo, “número de hijos de una familia” o “número de artículos
vendidos en un comercio en un día”), pues en estos casos los posibles
resultados son un subconjunto de los números naturales. Ahora bien,
en ocasiones las variables discretas también pueden tener decimales
(por ejemplo, la variable “nota en un examen tipo test con cuatro
preguntas en el que los fallos no descuentan”, tiene cinco posibles
resultados: 0, 2.5, 5, 7.5 y 10; por tanto es discreta). Lo esencial para
que consideremos una variable como discreta es que el conjunto de
posibles resultados sea …nito o in…nito numerable.
INT. ESTAD. (Curso 2022-23) TEMA 1 9 / 58
2. Clasi…cación de variables

EJEMPLO 2.1: Una compañía médica ha realizado una encuesta en


la que se tiene que responder a las siguientes preguntas: sexo, estado
civil, índice de masa corporal (es decir, el peso en kilos dividido por el
cuadrado de la altura en metros), número de veces que se ha acudido
al médico en el último mes y grado de satisfacción con su compañía
médica (posibles respuestas: muy satisfecho/medianamente
satisfecho/nada satisfecho). Las respuestas a las preguntas de esta
encuesta se clasi…can del modo siguiente:
Sexo: Variable categórica nominal.
Estado Civil: Variable categórica nominal.
Índice de masa corporal: Variable numérica continua.
Número de visitas al médico en el último mes: Variable numérica
discreta.
Grado de satisfacción con su compañía médica: Variable
categórica ordinal.

INT. ESTAD. (Curso 2022-23) TEMA 1 10 / 58


2. Clasi…cación de variables

Una variable categórica ordinal puede transformarse en numérica


discreta asignando números a las diferentes categorías. A la variable
numérica obtenida tras la transformación se le podrán aplicar los
procedimientos para variables numéricas que veremos en este tema y
en el siguiente; lógicamente, a la hora de interpretar los resultados
obtenidos con este tipo de variables numéricas es muy importante
tener en cuenta cómo se ha hecho la asignación numérica de las
categorías.
Por ejemplo, una variable “grado de satisfacción” que tenga como
posibles respuestas muy satisfecho/medianamente satisfecho/poco
satisfecho puede transformarse en numérica considerando muy
satisfecho=2, medianamente satisfecho=1 y poco satisfecho=0. Si
tenemos una muestra de esta variable, es posible calcular, entre otras
cosas, la media de la muestra; si ésta tomará el valor 0.35, esto querría
decir que, en promedio, los individuos de la muestra están poco
satisfechos.

INT. ESTAD. (Curso 2022-23) TEMA 1 11 / 58


2. Clasi…cación de variables

Una variable categórica nominal también puede transformarse en


numérica discreta asignando una números a las diferentes categorías
Ahora bien, en este caso, si a la variable numérica obtenida tras la
transformación se le aplican los procedimientos para variables
numéricas que veremos después, seguramente los resultados que
obtengamos no tendrán ningún sentido.
Por ejemplo, la variable "estado civil" ‘puede transformarse en
numérica considerando soltero=1, casado=2, divorciado=3 y viudo=4.
Ahora bien, si tenemos una muestra de esta variable y calculamos la
media la media de la muestra, el resultado que obtengamos en realidad
no servirá para nada.
En el resto de este tema supondremos que tenemos una muestra con
observaciones de una o de dos variables, y veremos qué grá…cos
pueden ayudarnos a visualizar los resultados de la muestra. El tipo de
grá…co más apropiado dependerá de cómo sea la variable o variables
observadas.
INT. ESTAD. (Curso 2022-23) TEMA 1 12 / 58
3. Grá…cos para describir variables categóricas
3.1 Distribución de frecuencias. Tablas
Una distribución de frecuencias es una tabla utilizada para organizar
datos. La columna de la izquierda (llamada clases o grupos) contiene
todas las respuestas posibles sobre la variable estudiada. La columna
de la derecha es una lista de las frecuencias o números de
observaciones correspondientes a cada clase.
Dado un conjunto de observaciones de una variable categórica, se
llama frecuencia (o frecuencia absoluta) de una categoría al número
de observaciones que hay en ella; las frecuencias las representaremos
como n1 , n2 , ...., nk siendo k el número de categorías, lógicamente
n1 + + ni = n siendo n el número total de observaciones.
se llama frecuencia relativa de una categoría a la proporción (o
porcentaje) de todas las observaciones que hay en esa categoría (se
obtiene dividiendo la frecuencia por el número total de observaciones);
las frecuencias relativas las representamos como f1 , f2 , ....fk donde
fi = nni .

INT. ESTAD. (Curso 2022-23) TEMA 1 13 / 58


3. Grá…cos para describir variables categóricas

EJEMPLO 3.1: En una encuesta, se ha preguntado a 112 estudiantes


universitarios en qué medida consideraban saludable su estilo de vida.
Las respuestas posibles eran: muy saludable/bastante saludable/poco
saludable/nada saludable. De los 112 estudiantes, 28 contestaron que
su estilo de vida era muy saludable, 55 que era bastante saludable, 20
que era poco saludable y 9 que no era nada saludable. Estos
resultados se pueden presentar en una tabla de frecuencias:

Estilo de vida Frecuencias Frecuencias Relativas


Muy saludable 28 0.250
Bastante saludable 55 0.491
Poco saludable 20 0.179
Nada saludable 9 0.080

INT. ESTAD. (Curso 2022-23) TEMA 1 14 / 58


3. Grá…cos para describir variables categóricas

Una vez obtenidas las frecuencias, pueden visualizarse todas ellas


conjuntamente utilizando un diagrama de sectores: este no es más
que un círculo en el que se reparten los 360o entre las diferentes
categorías de modo proporcional a su frecuencia, es decir, si la
frecuencia de la categoría iésima es ni , entonces los grados que
correponden al sector circular de esa categoría son:

ni
360
n
Obsérvese que un diagrama de sectores no aporta información nueva;
simplemente se utiliza para poder visualizar rápidamente la
información contenida en las frecuencias observadas.

INT. ESTAD. (Curso 2022-23) TEMA 1 15 / 58


3. Grá…cos para describir variables categóricas

EJEMPLO 3.1 (Cont.): El diagrama de sectores correspondiente


se obtiene repartiendo los 360o de un círculo entre las categorías, de
forma propocional a su frecuencia. Por ejemplo, la frecuencia relativa
de respuestas “nada saludable” es 9/112 = 0, 08, luego a esa
categoría le corresponden 0, 08 360 29o del círculo. El grá…co
siguiente indica también las frecuencias relativas de cada categoría, en
porcentaje.

INT. ESTAD. (Curso 2022-23) TEMA 1 16 / 58


Nada saludable
8%
Muy saludable
25%
Poco saludable
18%

Bastante saludable
49%

INT. ESTAD. (Curso 2022-23) TEMA 1 17 / 58


3. Grá…cos para describir variables categóricas
3.2 Grá…cos de barras y grá…cos circulares o diagramas de sectores
Otro modo de visualizar las frecuencias es utilizando un diagrama de
barras, que no es más que un grá…co con barras verticales, en el que
cada barra representa una categoría, y la altura de cada barra es la
frecuencia de la categoría correspondiente. Al igual que el diagrama
de sectores, el diagrama de barras tampoco aporta información nueva,
sino que simplemente permite visualizar rápidamente la información
contenida en las frecuencias observadas.
Si nuestro objetivo es llamar la atención sobre la frecuencia de cada
categoría, utilizaremos un grá…co de barras.
Si nuestro objetivo es hacer hincapié en la proporción de cada
categoría eligiremos un diagrama de sectores.
Cuando también interesan las componentes de las distintas categorías
puede utilizarse una interesante y útil extensión del grá…co de barras
simple.
INT. ESTAD. (Curso 2022-23) TEMA 1 18 / 58
3. Grá…cos para describir variables categóricas
EJEMPLO 3.1 (Cont.): Estas frecuencias pueden representarse
utilizando un diagrama de barras:
60

50
F
r
e 40
c
u
e 30
n
c
i
20
a

10

0
Muy saludable Bastante saludable Poco saludable Nada saludable

INT. ESTAD. (Curso 2022-23) TEMA 1 19 / 58


3. Grá…cos para describir variables categóricas
EJEMPLO 3.2: Continuando con el ejemplo 3.1. Si se conoce el
sexo de los estudiantes, y nos dicen que son mujeres 14 de los que
respondieron muy saludable, 28 de los que respondieron bastante
saludable, 8 de los que respondieron poco saludable y 3 de los que
respondieron nada saludable. De este modo podemos incorporar esta
información en cada barra del diagrama:

60

50

40 28
Frecuencia

30 Mujeres

14 Hombres
20
8
27
10
14 12 3
6
0
Muy Bastante Poco Nada
saludable saludable saludable saludable

INT. ESTAD. (Curso 2022-23) TEMA 1 20 / 58


3. Grá…cos para describir variables categóricas
EJEMPLO 3.2 (Cont.): También podemos representar esta
información con dos diagramas de barras en un mismo grá…co, un
diagrama con los datos de los hombres y otro con los de las mujeres:

30
27 28

25

20
Frecuencia

14 14
15 Hombres
12
Mujeres
10 8
6
5 3

0
Muy Bastante Poco Nada
saludable saludable saludable saludable

INT. ESTAD. (Curso 2022-23) TEMA 1 21 / 58


3. Grá…cos para describir variables categóricas
3.3 Diagrama de Pareto
En ocasiones, el diagrama de barras se presenta ordenando las
categorías de más frecuente a menos frecuente. Este tipo de
diagrama de barras recibe el nombre de diagrama de Pareto, y se
utilizar para ver si las frecuencias decrecen lentamente o rápidamente.
EJEMPLO 3.3: El servicio de atención al cliente de una compañía
telefónica ha recibido en la última semana 523 quejas. La tabla
siguiente muestra las frecuencias de las causas de las quejas recibidas:

Causa de la queja Frecuencia


Avería en el teléfono 76
Avería en la línea 26
Facturación errónea 394
Petición de cambio de compañía no atendida 14
Otras causas 13

INT. ESTAD. (Curso 2022-23) TEMA 1 22 / 58


3. Grá…cos para describir variables categóricas
EJEMPLO 3.3 (Cont.): En este tipo de situaciones es habitual
utilizar un diagrama de Pareto, es decir, un diagrama de barras en
el que las categorías se ordenan de más frecuente a menos frecuente:

450
394
400
350
300
Frecuencia

250
200
150
100 76

50 26 14 13
0
Facturación Avería teléfono Avería línea Petición no Otras causas
errónea atendida

INT. ESTAD. (Curso 2022-23) TEMA 1 23 / 58


4. Grá…cos para describir datos de series temporales

Supongamos que nuestra variable de interés es una variable numérica,


y que cada una de las observaciones corresponde a un periodo del
tiempo. Para apreciar la evolución temporal de la variable, se utiliza
un grá…co bidimensional en el que se considera el tiempo en el eje
horizontal y la variable observada en el eje vertical.
Cuando se realizan este tipo de grá…cos, es muy importante escoger
adecuadamente las escalas de los ejes para poder apreciar la evolución
de la variable.

INT. ESTAD. (Curso 2022-23) TEMA 1 24 / 58


4. Grá…cos para describir datos de series temporales
EJEMPLO 4.1: La tabla siguiente muestra el tipo de cambio
Euro-Dólar el último día laborable de cada mes en 2010:
Mes Dólares por 1 euro
Enero 1.3966
Febrero 1.3570
Marzo 1.3479
Abril 1.3315
Mayo 1.2307
Junio 1.2271
Julio 1.3028
Agosto 1.2680
Septiembre 1.3648
Octubre 1.3857
Noviembre 1.2998
Diciembre 1.3362

INT. ESTAD. (Curso 2022-23) TEMA 1 25 / 58


4. Grá…cos para describir datos de series temporales
EJEMPLO 4.1 (Cont.): Estos datos corresponden a una variable
numérica continua. Pero además hay una ordenación temporal en
ellos, por lo que pueden representarse utilizando el tiempo en el eje
horizontal:
Tipo de cambio Euro-Dólar en 2010

1,45
1,4
Dólares por 1 euro

1,35
1,3

1,25
1,2

1,15
1,1
1 2 3 4 5 6 7 8 9 10 11 12
Mes

INT. ESTAD. (Curso 2022-23) TEMA 1 26 / 58


5. Grá…cos para describir variables numéricas

Dado un conjunto de n observaciones de una variable numérica,


queremos obtener grá…cos que ayuden a visualizar cómo se
distribuyen esas observaciones. Supondremos que la variable que
queremos analizar es numérica continua; al …nal de este apartado
comentaremos qué ocurre con las variables numéricas discretas.
Cuando observamos una variable numérica continua, siempre habrá
muchos resultados diferentes. En este caso, para realizar grá…cos que
permitan visualizar cómo se distribuyen las observaciones es
necesario comenzar agrupándolas.
Comenzaremos este apartado estudiando cómo agrupar las
observaciones y después veremos los dos tipos de grá…cos más
utilizados: el histograma y el polígono de frecuencias acumuladas
relativas (también llamado ojiva).

INT. ESTAD. (Curso 2022-23) TEMA 1 27 / 58


5.1. Agrupación de datos y tabla de distribución de
frecuencias
Reglas para agrupar las observaciones de una variable continua:
1. Hay que determinar cuántos grupos se van a considerar; al número
de grupos considerados lo representaremos como k. A cada grupo se le
suele llamar “clase” o, cuando el grupo coincide con un intervalo real,
simplemente “intervalo”. No hay un criterio universal para determinar
el número de clases
p k; una regla posible es de…nir k como el entero
más próximo a n, si n es menor o igual que 400, o k = 20 si n es
mayor que 400.
2. Hay que determinar la longitud de cada una de las k clases. Es
importante que todas las clases tengan la misma longitud para que el
histograma (que construiremos después a partir de la agrupación) no
lleve a interpretaciones erróneas. Para asegurar que todas las
observaciones están en alguna clase se considera como longitud l:
max(Xi ) min(Xi )
l=
k
Si se obtienen muchos decimales, se puede redondear hacia arriba.
INT. ESTAD. (Curso 2022-23) TEMA 1 28 / 58
5.1. Agrupación de datos y tabla de distribución de
frecuencias

Reglas para agrupar las observaciones de una variable continua:


3. Una vez determinados k y l, hay que de…nir las clases, teniendo en
cuenta que no pueden solaparse, y que toda observación debe
estar en una y solo una de las clases. Por esta razón, habitualmente
las k clases que se consideran son:

Clase 1: [min(Xi ), min(Xi ) + l ]


Clase 2: (min(Xi ) + l, min(Xi ) + 2l ]

Clase k: (min(Xi ) + (k 1)l, min(Xi ) + kl ]

Obsérvese que en este paso estamos considerando los intervalos


abiertos por la izquierda y cerrados por la derecha, excepto el primero,
que es cerrado por los dos lados. En este curso los consideramos así
porque este es el modo como lo hace Excel; ahora bien, también sería
posible considerarlos al contrario.
INT. ESTAD. (Curso 2022-23) TEMA 1 29 / 58
5.1. Agrupación de datos y tabla de distribución de
frecuencias

Una vez agrupadas las n observaciones se obtiene la llamada “tabla


de distribución de frecuencias”, que tiene cinco columnas:
clase/frecuencia/frecuencia relativa/frecuencia acumulada/frecuencia
acumulada relativa, siendo:
frecuencia=número de observaciones de la clase; se representa ni
frecuencia relativa=proporción de observaciones de la clase; se
representa fi y se obtiene como fi = ni /n
frecuencia acumulada=número de observaciones en esa clase o en las
anteriores; se representa Ni y se obtiene como Ni = n1 + + ni , o
también, de modo recurrente, como N1 = n1 y Ni = ni + Ni 1 para
i = 2, ..., k
frecuencia acumulada relativa=proporción de observaciones en esa
clase o en las anteriores; se representa Fi y se obtiene como Fi = Ni /n
La frecuencia relativa y la frecuencia acumulada relativa en ocasiones
se expresan en porcentajes (multiplicando por 100).
INT. ESTAD. (Curso 2022-23) TEMA 1 30 / 58
5.1. Agrupación de datos y tabla de distribución de
frecuencias
EJEMPLO 5.1: Un supervisor ha observado el tiempo (en segundos)
que tardan 40 empleados en ejecutar una determinada tarea. La tabla
siguiente muestra los 40 tiempos observados:
271 236 294 251 254 263 266 222
259 237 239 282 224 263 267 254
262 278 244 252 264 265 239 225
252 242 248 263 255 274 268 255
263 242 283 252 256 263 269 227
Obsérvese que, aunque se hayan omitido los decimales, esta variable
es continua, pues indica “tiempo”.
Agruparemos las observaciones en 6 clases. Como la observación
menor es 222 y la mayor es 294, la longitud de cada clase será:
294 222
longitud = = 12
6
INT. ESTAD. (Curso 2022-23) TEMA 1 31 / 58
5.1. Agrupación de datos y tabla de distribución de
frecuencias

EJEMPLO 5.1 (Cont.): Como la menor observación es 222 y la


longitud de cada clase es 12, la primera clase es el intervalo [222,234],
la segunda clase es el intervalo (234,246], la tercera clase es el
intervalo (246,258], la cuarta clase es el intervalo (258,270], la quinta
clase es el intervalo (270,282] y la sexta clase es el intervalo (282,294].
Una vez determinadas las clases, calculamos las frecuencias de cada
una de ellas ni , es decir, contamos cuántas observaciones de la
muestra quedan en cada una de las clases. En este caso n1 = 4,
n2 = 7, n3 = 10, n4 = 13, n5 = 4, n6 = 2.
A partir de las frecuencias, obtenemos las frecuencias relativas
ni
fi = 40 , las frecuencias acumuladas N1 = n1 , N2 = n2 + N1 ,
N3 = n3 + N2 , ..., N6 = n6 + N5 , y las frecuencias acumuladas
relativas Fi = N 40 .
i

INT. ESTAD. (Curso 2022-23) TEMA 1 32 / 58


5.1. Agrupación de datos y tabla de distribución de
frecuencias

EJEMPLO 5.1 (Cont.): Los valores obtenidos se representan en la


tabla de distribución de frecuencias siguiente:

Tiempo Frec. Frec. Rela- Frec. Acu- Frec. Acum.


empleado ni tiva fi mulada Ni Relativa Fi
[222, 234] 4 0.100 4 0.100
(234, 246] 7 0.175 11 0.275
(246, 258] 10 0.250 21 0.525
(258, 270] 13 0.325 34 0.850
(270, 282] 4 0.100 38 0.950
(282, 294] 2 0.050 40 1.000

INT. ESTAD. (Curso 2022-23) TEMA 1 33 / 58


5.1. Agrupación de datos y tabla de distribución de
frecuencias

Propiedades de las frecuencias. A partir de las de…niciones dadas


se deduce que siempre se cumple que:
1 n1 + + nk = n, porque cada observación está en una clase y solo en
una.
2 f1 + + fk = 1, porque:
n1 nk n + + nk n
f1 + + fk = + + = 1 = =1
n n n n
3 Fi = f 1 + + fi , porque:
Ni n + + ni n ni
Fi = = 1 = 1+ + = f1 + + fi
n n n n
4 N1 N2 Nk , y también F1 F2 Fk , porque cada
frecuencia se obtiene a partir de la anterior sumando un número no
negativo.
INT. ESTAD. (Curso 2022-23) TEMA 1 34 / 58
5.2. Histograma: obtención e interpretación

Una vez agrupadas las observaciones en clases, el histograma se


obtiene simplemente representando barras verticales sobre los
intervalos considerados como clases, siendo la altura de cada barra la
frecuencia.
El histograma sirve para visualizar cómo se distribuyen las
observaciones en el intervalo de variación de la variable. Este grá…co
permite dar respuesta, de modo intuitivo, a preguntas como “¿hay
mayor proporción de observaciones en la zona central o en los
extremos?”, o “¿se reparten las observaciones de modo simétrico
respecto al centro?”.

INT. ESTAD. (Curso 2022-23) TEMA 1 35 / 58


5.2. Histograma: obtención e interpretación

Al observar la distribución de las observaciones con un histograma,


hay dos casos que reciben un nombre especial:
un histograma aproximadamente horizontal indica que las frecuencias
son todas similares, es decir, que todas las observaciones se reparten
uniformemente entre las diferentes clases; por esta razón, en este caso
se dice que el histograma muestra aproximadamente una “distribución
uniforme”;
el histograma más frecuente es el que muestra una mayor proporción
de observaciones en el centro, y un decrecimiento rápido y simétrico a
derecha e izquierda del centro; en este caso se dice que el histograma
muestra aproximadamente una “distribución normal”.

INT. ESTAD. (Curso 2022-23) TEMA 1 36 / 58


5.2. Histograma: obtención e interpretación
EJEMPLO 5.1 (Cont.): Utilizando las frecuencias antes obtenidas,
se obtiene el histograma:

Histograma

14

12

10
Frecuencia

0
234 246 258 270 282 y mayor...

Límite superior de la clase

INT. ESTAD. (Curso 2022-23) TEMA 1 37 / 58


5.2. Histograma: obtención e interpretación

EJEMPLO 5.1 (Cont.): Examinando el histograma obtenido se


observa que:
1 Hay una mayor proporción de observaciones en el centro que en los
extremos. Esta característica del histograma nos lleva a pensar que
estas observaciones NO tienen una “distribución uniforme”.
2 El decrecimiento a derecha e izquierda del centro no es similar, por lo
que no hay simetría. Esta segunda característica del histograma nos
lleva a pensar que estas observaciones NO tienen una “distribución
normal”.

INT. ESTAD. (Curso 2022-23) TEMA 1 38 / 58


5.2. Histograma: obtención e interpretación

En ocasiones el histograma se realiza utilizando como altura de cada


barra la frecuencia relativa; en ese caso al histograma resultante se le
suele llamar histograma de densidad. Obsérvese que el histograma
de densidad siempre muestra la misma forma que el histograma
construido con frecuencias absolutas; lo único que cambian son los
valores del eje vertical (los del histograma de densidad son los del
histograma divididos por el número total de observaciones n).
Inconveniente del histograma: no hay un método universal para
seleccionar las clases, y el modo como éstas se seleccionan puede
condicionar los resultados obtenidos.

INT. ESTAD. (Curso 2022-23) TEMA 1 39 / 58


5.3. Polígono de frecuencias acumuladas relativas (ojiva)

Otro grá…co que se utiliza para describir cómo se distribuyen las


observaciones de una variable continua, una vez agrupadas en k
clases, es el llamado polígono de frecuencias acumuladas
relativas. Se llama así a la línea poligonal que une los puntos (c0 , 0),
(c1 , F1 ), ..., (ck 1 , Fk 1 ) y (ck , Fk ), siendo c0 el extremo inferior de
la primera clase, c1 , ..., ck los extremos superiores de las clases 1, ...,
k, y F1 , ..., Fk las frecuencias acumuladas relativas de las clases 1,
..., k. Este polígono también recibe el nombre de ojiva.
Teniendo en cuenta la de…nición dada, al representar este polígono
debemos considerar en el eje vertical los valores de 0 a 1 (o de 0 a
100 si se expresa en porcentaje). Obsérvese, además, que este
polígono nunca decrece porque, como antes indicamos, siempre
F 1 F2 Fk .

INT. ESTAD. (Curso 2022-23) TEMA 1 40 / 58


5.3. Polígono de frecuencias acumuladas relativas (ojiva)
EJEMPLO 5.1 (Cont.): Utilizando las frecuencias acumuladas
relativas se obtiene el polígono de frecuencias acumuladas, que
pasa por los puntos (222, 0), (234, 0.1), (246, 0.275), (258, 0.525),
(270, 0.85), (282, 0.95) y (294, 1).

INT. ESTAD. (Curso 2022-23) TEMA 1 41 / 58


5.3. Polígono de frecuencias acumuladas relativas (ojiva)

El polígono de frecuencias acumuladas es útil porque:


1 Nos permite saber, para un x dado, cuál es aproximadamente la
proporción de observaciones de la muestra que son iguales o
inferiores a ese x: basta con mirar cuál es el valor que corresponde en
el eje vertical al valor x del eje horizontal.
2 Nos permite ver dónde hay una mayor proporción de
observaciones: en las zonas en donde los segmentos correspondientes
tengan mayor pendiente (porque ahí es donde hay más crecimiento de
la frecuencia acumulada relativa).
EJEMPLO 5.1 (Cont.): Examinando el polígono de frecuencias
acumuladas relativas que hemos obtenido vemos que al valor del eje
horizontal x = 276 le corresponde en el eje vertical el valor y = 0.9,
es decir, aproximadamente un 90% de los tiempos observados son
iguales o menores que 276. Además, se observa que el polígono tiene
mayor pendiente en la zona central, luego esa es la zona donde hay
mayor proporción de observaciones.
INT. ESTAD. (Curso 2022-23) TEMA 1 42 / 58
5.4. Tablas y grá…cos para variables numéricas discretas

En este apartado hemos descrito cómo obtener tablas de distribución


de frecuencias y grá…cos con observaciones de una variable continua.
Cuando la variable que se quiere analizar es discreta, entonces:
si el número de posibles resultados que puede tomar la variable es muy
elevado (por ejemplo, con variables como “renta anual de una
familia”), lo habitual es tratarla como si fuera continua; por tanto, para
analizarla grá…camente se suele agrupar las observaciones, obtener una
tabla de distribución de frecuencias y después obtener el histograma y
el polígono de frecuencias acumuladas relativas.
si el número de posibles resultados que puede tomar la variable no es
muy elevado (por ejemplo, con variables como “número de hijos de una
familia”), lo habitual es obtener una tabla de distribución de
frecuencias considerando cada posible resultado como una clase (es
decir, sin agrupar las observaciones), y después obtener un diagrama de
barras (con una barra para cada posible resultado, siendo la altura de la
barra igual a la frecuencia de ese resultado).

INT. ESTAD. (Curso 2022-23) TEMA 1 43 / 58


6. Grá…cos para describir relaciones entre variables

En este apartado supondremos que queremos analizar la relación


entre dos variables, y que disponemos de observaciones de estas dos
variables en los mismos elementos (por ejemplo, cada observación
puede ser la altura y el peso de una persona). El tipo de grá…co que
nos permite visualizar la relación depende de cómo sean las variables.
En concreto, veremos:
Grá…co para analizar relación entre dos variables numéricas: diagrama
de puntos.
Grá…co para analizar relación entre dos variables categóricas (o entre
variables numéricas que se dan agrupadas): diagramas de barras
conjuntos.

INT. ESTAD. (Curso 2022-23) TEMA 1 44 / 58


6.1. Diagrama de puntos
Un diagrama de puntos es un grá…co bidimensional en que se
representan las observaciones, poniendo cada variable en un eje. En
este grá…co, viendo cómo se distribuyen los puntos es posible analizar
intuitivamente el tipo de relación que hay entre las variables:
Si los puntos se sitúan aproximadamente alrededor de una recta con
pendiente positiva, entonces el grá…co indica relación lineal directa,
es decir, cuanto mayor es una variable mayor tiende a ser la otra
(también se le llama relación lineal creciente o positiva).
Si los puntos se sitúan aproximadamente alrededor de una recta con
pendiente negativa, entonces el grá…co indica relación lineal inversa,
es decir, cuanto mayor es una variable menor tiende a ser la otra
(también se le llama relación lineal decreciente o negativa).
Si no se observa que los puntos se sitúen alrededor de una recta, o bien
los puntos se sitúan aproximadamente alrededor de una recta
horizontal, entonces el grá…co indica que no hay relación lineal.
Aunque sea menos frecuente, también podría verse otro tipo de
relación (no lineal); por ejemplo, si los puntos se sitúan alrededor de
una parábola, entonces el grá…co indica relación cuadrática.
INT. ESTAD. (Curso 2022-23) TEMA 1 45 / 58
6.1. Diagrama de puntos
EJEMPLO 6.1: La tabla siguiente muestra las cali…caciones medias
en bachillerato y en la prueba de acceso a la universidad de 21
alumnos:
Alumno Nota B. Nota P.A. Alumno Nota B. Nota P.A.
1 7.1 6.3 12 7.1 6.9
2 8.1 7.2 13 6.5 5.1
3 8.0 8.5 14 6.7 6.1
4 8.7 9.1 15 7.2 5.7
5 7.8 9.4 16 7.3 8.2
6 8.4 9.7 17 8.2 8.7
7 6.4 5.5 18 6.8 4.8
8 7.9 7.8 19 7.6 7.8
9 7.1 6.5 20 6.1 4.2
10 7.6 6.7 21 7.8 8.4
11 7.2 7.5

INT. ESTAD. (Curso 2022-23) TEMA 1 46 / 58


6.1. Diagrama de puntos
EJEMPLO 6.1 (Cont.): Podemos representar conjuntamente las dos
variables con un diagrama de puntos, con las notas de bachillerato en el
eje horizontal y las de la prueba de acceso en el vertical:
Diagrama de puntos

10
Nota media en prueba de acceso

4
6 7 8 9
Nota media en bachillerato

Los puntos están aproximadamente alrededor de una recta con pendiente


positiva; por tanto, parece haber relación lineal directa entre las variables:
cuanto mayor es la nota de bachillerato, mayor tiende a ser la nota en la
prueba de acceso.
INT. ESTAD. (Curso 2022-23) TEMA 1 47 / 58
6.1. Diagrama de puntos
Comentarios adicionales sobre los diagramas de puntos:
Cuando una de las dos variables se determina después que la otra, o
cabe esperar que dependa de la otra, lo habitual es que esa variable
se represente en el eje vertical.
Es importante escoger adecuadamente las escalas de los ejes para
percibir la posible relación (en el grá…co, los extremos superior e
inferior de cada eje deben coincidir aproximadamente con las
observaciones máxima y mínima de cada eje).
Un diagrama de puntos también permite analizar si hay alguna
observación en la que alguna de las dos variables tome un valor muy
distinto a lo que vale en el resto de observaciones. Este tipo de
observaciones, si las hay, reciben el nombre de atípicas, y es
importante prestarles atención porque su presencia puede tener
consecuencias importantes en el análisis estadístico.
Un diagrama de puntos permite analizar si hay relación entre variables;
ahora bien, el hecho de que haya relación entre las dos variables no
implica necesariamente que haya relación de causalidad entre ellas
(es decir, que una sea causa de la otra).
INT. ESTAD. (Curso 2022-23) TEMA 1 48 / 58
6.2. Tabla de contingencia y diagramas de barras conjuntos

Supongamos que observamos dos variables categóricas (o dos


variables numéricas que nos dan agrupadas), la primera de ellas con
k1 categorías posibles, y la segunda con k2 categorías posibles. En
este caso, la información relevante sobre los datos para hacer el
análisis estadístico es cuántas observaciones hay en cada uno de los
k1 k2 grupos que se forman al combinar las dos variables. A estos
valores se les llama frecuencias conjuntas.
Las frecuencias conjuntas suelen presentarse en una tabla que recibe
el nombre de tabla de contingencia. Esta tabla se obtiene poniendo
en la primera …la las posibles categorías de una de las dos variables,
en la primera columna las posibles categorías de la otra variable, y
dentro de la tabla cada una de las frecuencias conjuntas en el lugar
que corresponda.

INT. ESTAD. (Curso 2022-23) TEMA 1 49 / 58


6.2. Tabla de contingencia y diagramas de barras conjuntos

EJEMPLO 3 (Cont.): Supongamos que la encuesta sobre el estilo


de vida de los estudiantes universitarios aporta también información
sobre el sexo de los encuestados, y que nos dicen que son mujeres 14
de los estudiantes que respondieron muy saludable, 30 de los que
respondieron bastante saludable, 8 de los que respondieron poco
saludable y 4 de los que respondieron nada saludable. Podemos
entonces presentar los datos en una tabla de contingencia,
distinguiendo entre hombres y mujeres:

Estilo de Vida Hombres Mujeres


Muy saludable 14 14
Bastante saludable 25 30
Poco saludable 12 8
Nada saludable 5 4

INT. ESTAD. (Curso 2022-23) TEMA 1 50 / 58


6.2. Tabla de contingencia y diagramas de barras conjuntos

Una vez que tenemos la tabla de contingencia, es habitual


completarla con una columna adicional en la que se van indicando
las sumas correspondientes a cada …la. Obsérvese que lo que
obtenemos en esta última columna adicional son las frecuencias de la
variable que aparece en la primera columna, sin tener en cuenta la
presencia de la otra variable.
Análogamente, también es habitual completar la tabla con una …la
adicional en la que se van indicando las sumas correspondientes a
cada columna. Lo que obtenemos en esta última …la adicional son
las frecuencias de la variable que aparece en la primera …la, sin tener
en cuenta la presencia de la otra variable.

INT. ESTAD. (Curso 2022-23) TEMA 1 51 / 58


6.2. Tabla de contingencia y diagramas de barras conjuntos
EJEMPLO 3 (Cont.): La tabla de contingencia la completamos con
una columna adicional que muestra los “totales por …la” y con una
…la adicional que muestra los “totales por columna”:
Estilo de Vida Hombres Mujeres TOTAL
Muy saludable 14 14 28
Bastante saludable 25 30 55
Poco saludable 12 8 20
Nada saludable 5 4 9
TOTAL 56 56 112
La última …la nos indica cuáles son las frecuencias de la variable
“sexo” sin tener en cuenta el estilo de vida; observamos que en la
muestra hay el mismo número de hombres que de mujeres. Por su
parte, la última columna nos indica cuáles son las frecuencias de la
variable “estilo de vida” sin tener en cuenta el sexo; estas son las
frecuencias que ya conocíamos.
INT. ESTAD. (Curso 2022-23) TEMA 1 52 / 58
6.2. Tabla de contingencia y diagramas de barras conjuntos

Las frecuencias de una tabla de contingencia pueden representarse


utilizando diagramas de barras conjuntos. Para construir estos
diagramas, lo que se hace es obtener un diagrama con las frecuencias
de cada una de las …las (o de cada una de las columnas) de la tabla, y
luego representar conjuntamente los diagramas de barras obtenidos.
Examinando el grá…co de diagramas de barras conjuntos puede
apreciarse mejor si una de las dos variables se comporta igual o no en
cada una de las categorías posibles de la otra variable.

INT. ESTAD. (Curso 2022-23) TEMA 1 53 / 58


6.2. Tabla de contingencia y diagramas de barras conjuntos
EJEMPLO 3 (Cont.): Si obtenemos el diagramas de barras de
“estilo de vida” para los hombres, también el diagrama de barras de
“estilo de vida” para mujeres, y luego los presentamos
conjuntamente, el grá…co que se obtiene es:

Este grá…co muestra que el estilo de vida de las mujeres encuestadas


es más saludable que el de los hombres encuestados.
INT. ESTAD. (Curso 2022-23) TEMA 1 54 / 58
6.2. Tabla de contingencia y diagramas de barras conjuntos

Cuando las frecuencias de las categorías que queremos comparar son


muy diferentes, es posible que el diagrama de barras conjunto no nos
permita apreciar bien si en todas las categorías de una variable se
comporta de modo similar la otra variable. En este caso, suele ser
más útil realizar los diagramas de barras conjuntos utilizando las
frecuencias relativas de cada categoría de la variable cuyas
categorías se quieren comparar.
Para obtener los diagramas de barras conjuntos con las frecuencias
relativas es necesario modi…car la tabla de contingencia: tendremos
que dividir cada columna (o cada …la) por la suma de la …la
correspondiente (o por la suma de la columna correspondiente). De
este modo, obtendremos una tabla de contingencia con las
frecuencias relativas para cada categoría de una de las dos variables.

INT. ESTAD. (Curso 2022-23) TEMA 1 55 / 58


6.2. Tabla de contingencia y diagramas de barras conjuntos
EJEMPLO 6.2: Se quiere analizar si en una determinada población
el consumo de tabaco es el mismo entre personas con diferentes
niveles de estudios. Para hacer este análisis, se ha seleccionado una
muestra de 500 personas de esta población y se les ha preguntado
cuál es el máximo nivel de estudios que han concluido (con tres
posibles respuestas: estudios básicos/estudios medios/estudios
superiores) y también si son no fumadores, fumadores esporádicos o
fumadores habituales. Las respuestas de las 500 personas encuestadas
se muestran en esta tabla de contingencia:
Tipo de fumador Estudios Estudios Estudios TOTAL
Básicos Medios Superiores
No fumador 140 126 64 330
Fumador esporádico 30 16 4 50
Fumador habitual 70 38 12 120
TOTAL 240 180 80 500

INT. ESTAD. (Curso 2022-23) TEMA 1 56 / 58


6.2. Tabla de contingencia y diagramas de barras conjuntos

EJEMPLO 6.2 (Cont.): Como no hay el mismo número de personas


en cada uno de los tres niveles de estudios considerados, antes de
hacer los diagramas de barras obtendremos las frecuencias relativas
del tipo de fumador para cada nivel de estudios. Como hay 240
personas con estudios básicos, 180 con estudios medios y 80 con
estudios superiores, lo que debemos hacer es dividir las frecuencias de
la columna de estudios básicos por 240, las frecuencias de la columna
de estudios medios por 180 y las frecuencias de la columna de
estudios superiores por 80. Así obtenemos la tabla siguiente:

Tipo de fumador Est. básicos Est. medios Est. super.


(Frec. Relat.) (Frec. Relat.) (Frec. Relat.)
No fumador 0.58 0.70 0.80
Fumador esporádico 0.13 0.09 0.05
Fumador habitual 0.29 0.21 0.15

INT. ESTAD. (Curso 2022-23) TEMA 1 57 / 58


6.2. Tabla de contingencia y diagramas de barras conjuntos
EJEMPLO 6.2 (Cont.): Utilizando esta tabla de frecuencias
relativas, los diagramas de barras conjuntos que se obtienen son:

Este grá…co muestra que cuanto mayor es el nivel de estudios, menor


es la proporción de fumadores.
INT. ESTAD. (Curso 2022-23) TEMA 1 58 / 58

También podría gustarte