Estadistica Descriptiva
Estadistica Descriptiva
Estadistica Descriptiva
La estadística descriptiva o deductiva trata del recuento, ordenación y clasificación de los datos
obtenidos por las observaciones. Se construyen tablas y se representan gráficos que permiten
simplificar en gran medida, la complejidad de todos los datos que intervienen en la distribución.
Asimismo se calculan parámetros estadísticos que caracterizan la distribución. En esta parte de la
estadística no se hace uso del cálculo de probabilidades, y únicamente se limita a realizar deducciones
directamente a partir de los datos y parámetros obtenidos.
La población es el conjunto de todos los elementos, que cumpliendo una condición, deseamos
estudiar (por ejemplo: los habitantes de una ciudad, los alumnos de un colegio, las gallinas de una
granja, etc.).
Una muestra es cualquier subconjunto de la población (por ejemplo: 100 alumnos del colegio, 1.000
habitantes de una ciudad, 300 gallinas de una granja, etc.). El saber seleccionar una muestra
suficientemente representativa de la población a estudiar es fundamental para que los resultados del
estudio sean fiables. Sobre cómo seleccionar una muestra existen todo un tratado llamado “Teoría de
las muestras”, al cual haremos una aproximación más adelante.
Cada una de las propiedades que se pueden estudiar se llama carácter estadístico (por ejemplo:
talla, peso, sexo, estado civil, etc).
Pueden ser cuantitativos si se pueden medir numéricamente (por ejemplo: la talla, el peso, etc) o
cualitativo si no se puede medir numéricamente (por ejemplo: sexo, estado civil, etc).
Al conjunto de valores que toma un carácter se le llama variable estadística que podrá ser cualitativa
o cuantitativa, dependiendo de si el carácter es cualitativo o cuantitativo, respectivamente.
Una variable será discreta si sólo puede tomar determinados valores (ej: número de hermanos,
número de aprobados, etc).
Una variable será continua si puede tomar todos los valores posibles de un intervalo (ej: altura de una
persona, peso, etc).
Tablas de frecuencias: Son tablas donde se reflejan los datos obtenidos y las diferentes frecuencias:
La frecuencia absoluta ( f i ) es el número de veces que se repite un valor (si están agrupados en
intervalos de clase, la frecuencia absoluta del intervalo será el número de veces que aparece un valor
cualquiera de ese intervalo).
Pg. nº 1/26
La frecuencia relativa ( hi ) de un valor es el cociente entre la frecuencia absoluta del valor y el número
fi
total de datos hi
N
1. 0 hi 1
n
2. h
i =1
i 1
2. Ordenación de datos. Una vez recogidos los datos los colocaremos en orden creciente.
3. Agrupación de los datos en clase. En caso de que la variable sea continua o bien discreta pero
con número muy elevado de datos, es necesario agrupar los datos en intervalos, a los cuales
llamaremos intervalos de clases. Respecto a cómo agruparlos y qué número de intervalos
elegir, podemos decir que no existe una contestación tajante y hay varios criterios para dar
respuesta a esta cuestión. Una de las teorías establece que debemos hacer un número de
intervalos aproximadamente igual a la raíz cuadrada del número de datos, pero nosotros
vamos a seguir otros criterios. Intentaremos hacer un número de intervalos comprendido entre
8 y 12. Llamaremos marca de clase al punto medio del cada intervalo. Una vez elegido el
número, es aconsejable escoger los límites de los intervalos, de modo que sean múltiplos,
pares, divisibles, etc., para lograr que la marca de clase no nos dé un número fraccionario o
con muchos decimales. Esto nos facilitará luego el trabajo de cálculo. También tenemos que
lograr que los intervalos sean de la misma amplitud y que el límite superior de uno coincida
con el inferior del siguiente. Y por último adoptaremos el criterio de que los intervalos sean
cerrados por la izquierda y abiertos por la derecha, esto quiere decir que si un valor de la
variable queda justo en el límite de dos intervalos, siempre lo pondremos en el superior.
Pg. nº 2/26
Veamos unos ejemplos de tabulación de datos.
Ejemplo 1: Un profesor tiene anotadas en su cuaderno las notas de 30 alumnos de una clase. Construir
la tabla sabiendo que son las siguientes:
5 3 4 1 2 8 9 8 7 6 6 7 9 8 7
7 1 0 1 5 9 9 8 0 8 8 8 9 5 7
Xi Recuento fi Fi hi Hi pi Pi
Ejemplo 2: Construir la tabla estadística de las edades de las personas que acuden a un logopeda a
lo largo de un mes, sabiendo que son:
3 2 11 13 4 3 2 4 5 6 7 3 4 5 3 2 5 6 27
15 4 21 12 4 3 6 29 13 6 17 6 13 6 5 12 26
Marcas
de
Clases fi Fi hi Hi
clases
xi
[0 5) 2,5 13 13 13/36 13/36
[5 10) 7,5 11 24 11/36 24/36
[10 15) 12,5 6 30 6/36 30/36
[15 20) 17,5 2 32 2/36 32/36
[20 25) 22,5 1 33 1/36 33/36
[25 30) 27,5 3 36 3/36 36/36=1
∑ 36 1
Pg. nº 3/26
2.- DIAGRAMA DE TALLOS Y HOJAS
Una moderna técnica de recogida de datos es la que se conoce como diagrama de tallos y hojas
Las puntuaciones obtenidas por 40 alumnos en un test han sido las siguientes:
41, 53, 72, 62, 81, 93, 81, 74, 56, 62, 45, 47, 62, 58, 88, 76, 77, 63, 43, 56,
76, 63, 78, 73, 65, 66, 91, 82, 61, 72, 36, 50, 91, 32, 60, 80, 51, 68, 61, 71.
Paso 1º Paso 2º
Se observa entre qué valores están las Se va leyendo uno a uno cada dato,
cifras de las decenas de todos los anotando las cifras de las unidades en
datos, y se tiene que van de 3 a 9. la fila correspondientes.
Tallo Tallo
3 3 62
4 4 1573
5 5 368601
6 6 22233561081
7 7 246768321
8 8 11820
9 9 311
Paso 3º
Por último se vuelve a escribir la tabla
ordenando de menor a mayor las
unidades dentro de cada fila.
Tallo
3 26
4 1357
5 013668
6 0112223356 8
7 122346678
8 01128
9 113
Pg. nº 4/26
Los diagramas de tallos y hojas son, en sí mismos, diagramas de frecuencias, pues basta con trazar
una línea poligonal que una los últimos números de cada fila.
Aun cuando las tablas estadísticas contienen toda la información, es conveniente expresarla mediante
gráficos adecuados a la variable, con el fin de resaltar los aspectos más significativos y hacer la
distribución más clara y evidente.
Diagramas de barras
Los diagramas de barras o bastones son especialmente útiles cuando se desea comparar datos
cualitativos o cuantitativos de tipo discreto, no agrupados en intervalos.
Para trazarlos se representan sobre el eje de abscisas los valores de la variable, y sobre el eje de
ordenadas la frecuencia que se vaya a representar; o viceversa. A continuación, se levantan trazos
gruesos de longitud igual a la frecuencia correspondiente a cada valor de la variable.
Ejemplo.
Xi fi Fi
0 2 2
1 3 5
2 1 6
3 1 7
4 1 8
5 3 11
6 2 13
7 5 18
8 7 25
9 5 30
Pg. nº 5/26
Polígonos de frecuencias
Los polígonos de frecuencia son especialmente útiles cuando se desea comparar datos cualitativos o
cuantitativos de tipo discreto, no agrupados en intervalos.
Se forman siguiendo el mismo procedimiento que para los diagramas de barras, pero no se trazan las
barras, sino que se unen los puntos de las frecuencias mediante una línea. Se puede representar
sobre el mismo diagrama de barras o incluso sobre un histograma (como veremos más adelante.
Ejemplo.
Diagrama de Sectores
Los diagramas de sectores representan las distintas modalidades de un carácter mediante sectores
circulares. Cada valor viene representado por un sector circular de amplitud proporcional a su
frecuencia. Normalmente se utilizan tantos por ciento para reflejar las frecuencias y la amplitud se
calcula mediante una simple regla de tres.
Ejemplo.
Pg. nº 6/26
Pictogramas
Los pictogramas son dibujos alusivos a las distribuciones que se pretenden estudiar y que mediante
su forma, tamaño, etc., ofrecen una descripción lo más expresiva posible de la distribución. Son
gráficos poco precisos pero fáciles de interpretar a simple vista.
Ejemplo.
Cartogramas
Se llama cartogramas a los gráficos que se realizan sobre un mapa, señalando sobre determinadas
zonas, con distintos colores o rayados lo que se trate de poner de manifiesto. Se suelen utilizar para
representar renta per cápita, densidad de población, horas de sol, recursos hídricos, etc.
Ejemplo.
Pg. nº 7/26
Histogramas
Ejemplo.
Marcas
de
Clases fi
clases
xi
[0 5) 2,5 13
[5 10) 7,5 11
[10 15) 12,5 6
[15 20) 17,5 2
[20 25) 22,5 1
[25 30) 27,5 3
∑ 36
Los diagramas lineales son muy utilizados para mostrar las fluctuaciones de un determinado carácter
estadístico con el paso del tiempo.
Lo que interesa en el gráfico es la altura de la línea referida a la base del diagrama. Con frecuencia se
aprovecha para representar sobre la misma escala varios diagramas lineales. Como por ejemplo ingresos
y gastos; nacimientos y defunciones; etc.
Pg. nº 8/26
Pirámides de población
Las pirámides de población se utilizan para estudiar conjuntamente la variable edad y el atributo sexo.
El estudio detallado de las pirámides de población aporta datos sobre aspectos sociológicos ligados a
dicha población, cómo por ejemplo, catástrofes, guerras, control de natalidad, desarrollo de la
población. Asimismo se pueden realizar previsiones para el futuro, como es el caso del estudio de las
necesidades de las futuras pensiones.
Pg. nº 9/26
Resumen:
Tablas estadísticas.
Intervalos o clases.
Marcas de clase.
Frecuencias absolutas, fi.
Frecuencia absoluta acumulada, Fi.
Frecuencia relativa, hi.
Frecuencia relativa acumulada, Hi.
Gráficos
Para variables cualitativas o cuantitativas discretas.
Diagramas de barras.
Polígonos de frecuencias.
Diagramas de sectores.
Pictogramas.
Otros
Cartogramas.
Diagramas lineales.
Pirámides de población.
Pg. nº 10/26
Ejercicio.
Se pide:
1. Elaborar la tabla con todas las frecuencias.
2. Representar de todas las formas posibles.
Respuestas
[0 10) [10 20) [20 30) [30 40) [40 50) [50 60) [60 70) [70 80)
correctas
Numero de
40 60 75 90 105 85 80 65
personas
Respuestas Marca de
correctas clase xi fi Fi hi Hi pi Pi
[0 10) 5 40 40 0,06667 0,06667 6,6667 6,6667
[10 20) 15 60 100 0,10000 0,16667 10,0000 16,6667
[20 30) 25 75 175 0,12500 0,29167 12,5000 29,1667
[30 40) 35 90 265 0,15000 0,44167 15,0000 44,1667
[40 50) 45 105 370 0,17500 0,61667 17,5000 61,6667
[50 60) 55 85 455 0,14167 0,75833 14,1667 75,8333
[60 70) 65 80 535 0,13333 0,89167 13,3333 89,1667
[70 80) 75 65 600 0,10833 1,00000 10,8333 100,0000
∑ 600 1,00000 100
Pg. nº 11/26
ESTADÍSTICA DESCRIPTIVA II
1.- DISTRIBUCIONES UNIDIMENSIONALES.
CÁLCULO DE PARÁMETROS
PARÁMETROS DE CENTRALIZACIÓN
MEDIA ARITMÉTICA
Media aritmética de una variable estadística es el cociente que resulta de dividir la suma de todos los
valores por el número total de éstos. Se representa por x .
Su cálculo se realiza, según las expresiones que siguen, atendiendo a la presentación de los datos.
Si la variable toma los N valores x1, x2,...,xn la media aritmética adopta la expresión:
x1 x2 ... xn xi
x
N N
Si la variable toma los valores o marcas de clase x1, x2, xn, siendo f1, f2,.... fn las frecuencias absolutas
correspondientes de la distribución, la media aritmética se calcula con la expresión:
x1 f1 x2 f 2 ... xn f n xi f i xi f i
x
f1 f 2 ... f n i N
f
Pg. nº 12/26
Para datos ponderados
La media ponderada se calcula cuando todos los valores de la variable no tienen el mismo “peso”.
Su fórmula es análoga a la vista con anterioridad, cambiando las frecuencias f i, por los pesos pi,
y, en el denominador, N por la suma de todos los pesos pi, por lo que resulta:
x1 p1 x2 p2 ... xn pn xi pi
x
p1 p2 ... p n pi
MODA
Se denomina moda de una variable estadística al valor de la variable que tiene mayor frecuencia
absoluta. Se representa por Mo.
La moda de una variable discreta es fácil de calcular, basta buscar el valor de la variable que
presenta mayor frecuencia. Puede ocurrir que la moda no sea única, es decir, la distribución
puede tener 2, 3 o más modas, recibiendo el nombre de bimodal, trimodal, etc.
En el caso de que los datos se encuentren agrupados en intervalos, la clase con mayor frecuencia
se denomina clase modal. Puede tomarse como moda la marca de clase de la clase modal.
D
M o Li c
D D
Pg. nº 13/26
Cálculo de la moda por el método gráfico.
Para las distribuciones que se encuentran agrupadas en intervalos existe un método gráfico muy
sencillo que permite obtener la moda con bastante aproximación. Para ello se representa el
histograma de frecuencias absolutas, al ser posible en papel milimetrado, con el fin de poder
obtener mayor precisión. Seguidamente se unen, con líneas los extremos de la clase modal con
las contiguas. La moda viene dada por la abscisa del punto de corte.
Puede ocurrir que existan distribuciones que no tengan moda; eso ocurre cuando las frecuencias
de todos los datos, o casi todos, son iguales.
Puede ser muy útil cuando se trata de variables cualitativas.
En su cálculo no intervienen todos los datos de la distribución.
Aun cuando es una medida de centralización, es relativamente frecuente encontrar modas
situadas en los extremos de la distribución.
MEDIANA
La mediana de una distribución estadística es el valor de la variable, tal que el número de datos
menores que él es igual al número de datos mayores que él. Se representa por Me.
Si la distribución es de una variable discreta y el número de datos es impar, la mediana es el
valor central, y si el número de datos es par, la mediana es la media de los valores centrales.
Si la distribución es de una variable continua, el intervalo que contiene a la mediana se denomina
clase mediana o intervalo mediano. Puede tomarse como mediana, en una primera
aproximación, la marca del intervalo mediano.
Si se desea mayor precisión en el cálculo de la mediana, ésta se obtiene, dentro del intervalo
mediano, mediante la expresión:
N
Fi 1 Variable discreta:
M e Li c 2
N impar Me X( n 1)/ 2
fi
N par Me Xn / 2 Xn / 2 1 / 2
Li= Límite inferior del intervalo.
C= Amplitud del intervalo.
N= Número total de datos
Fi-1= Frecuencia absoluta acumulada de la clase anterior a la clase mediana.
Pg. nº 14/26
fi= Frecuencia absoluta de la clase mediana.
PARÁMETROS DE POSICIÓN
CUANTILES
La mediana de los valores de una variable estadística divide a la distribución en dos partes
iguales. Es decir, la mediana parte la distribución en dos mitades, cada una corresponde al 50%
de los datos. Generalizando la idea anterior, se puede pensar en obtener valores que dividan a
distribución en diversas partes iguales, dando lugar a los cuantiles. Los más importantes y
usados, sobretodos en las ciencias sociales y médicas, son:
CUARTILES
Se llaman cuartiles a tres valores que dividen la distribución en cuatro partes iguales. Se
representan y designan como cuartil primero (Q1), segundo (Q2) y tercero (Q3). Cada parte
agrupa, por tanto, al 25%, al 50% y al 75% de los datos de la distribución.
Es obvio que el segundo cuartil, por definición, coincide con la mediana. El cálculo de los otros
cuartiles sigue las pautas de la mediana y se obtienen a través de las expresiones:
N 3N
Fi 1 Fi 1
Q1 Li c 4
Q3 Li c 4
fi fi
DECILES
kN
Fi 1 K=1, 2, 3,...,9
Dk Li c 10
fi
Pg. nº 15/26
PERCENTILES
De la misma manera, decimos que se llaman percentiles a 99 valores que divide la distribución
en 100 partes iguales Se representa por P1, P2, ..., P99 y se calculan a través de la expresión
xN
Fi 1 X=1, 2, 3,...,99
Px Li c 100
fi
Para calcular gráficamente los cuantiles de una distribución existe un método muy sencillo que
consiste en representar el polígono de frecuencias porcentuales acumuladas (Pi), situando
en el eje abscisa la variable discreta o los intervalos, y en el eje de ordenadas los porcentajes
correspondientes. Convine realizar la representación en papel milimetrado para mayor
precisión.
Ejemplo.
Pg. nº 16/26
PARÁMETROS DE DISPERSIÓN
Las medidas de centralización vistas con anterioridad necesitan de otras que las complementen
en el estudio de las distribuciones de frecuencias de las variables estadísticas. Estas nuevas
medidas, que denominamos parámetros de dispersión, informan de las desviaciones que
sufren los datos respecto de los valores centrales, en especial con relación a la media aritmética.
RECORRIDO
Recorrido o rango de una variable estadística es la diferencia entre el mayor y el menor valor de
los datos observados. Se representa por R. Así, se tiene: R = Xmax - Xmin
VARIANZA
Varianza de una variable estadística es la media aritmética de los cuadrados de las desviaciones
de todos los datos o marcas de clase respecto de la media. Se representa por σ2 ó S2
2
f (x
i i x )2
2 fx 2
i i
x2
N N
Es importante conocer que la varianza es siempre positiva, o nula en caso de que todos los
valores de la variable sean iguales.
DESVIACION TIPICA
Se representa por σ ó S.
f (x i i x )2
fx 2
N i i
x2
N
Pg. nº 17/26
ESTUDIO CONJUNTO DE x y σ
La media aritmética, x , y la desviación típica, σ , son los parámetros estadísticos por antonomasia.
La media es la medida central más utilizada y la desviación típica es la medida de dispersión o
variabilidad por excelencia.
cv 100
x
Como sabemos que las medidas de centralización son más representativas cuanto más
concentrada estén, vamos a establecer las siguientes condiciones:
Mayor de un 45% BAJA concentración, y por lo tanto la media es poco o muy poco
representativa.
El inconveniente que tiene C.V. es que deja de ser útil cuando la media es igual a 0.
Pg. nº 18/26
EJERCICIOS RESUELTOS
1. La estación meteorológica del Roque de los Muchachos registró 88 días de lluvia el pasado año, según
muestra la tabla siguiente:
Litros/m2 [0, 5) [5, 10) [10, 15) [15, 20) [20, 25) [25, 30) [30, 35)
Nº de días 3 7 19 23 18 12 6
Calcula la precipitación media durante los días de lluvia.
Litros/m2
Xi fi Fi
Xifi x
x f i i
; x
1630
18,523
[0, 5) 2,5 3 3 7,5 N 88
[5, 10) 7,5 7 10 52,5
[10, 15) 12,5 19 29 237,5
[15, 20) 17,5 23 52 402,5 Por tanto, el año pasado la precipitación media
durante los días de lluvia fue de 18,523 l/m 2.
[20, 25) 22,5 18 70 405
[25, 30) 27,5 12 82 330
[30, 35) 32,5 6 88 195
Σ 88 1630
2. La calificación media que han obtenido los alumnos de Ingeniería Técnica Agrícola de cierta Universidad, en
la asignatura de Estadística durante los cuatro últimos cursos han sido: 5,8; 6,3; 6,7 y 7,2, respectivamente.
En el primero de estos cursos se examinaron 180 alumnos, en el segundo 200, en el tercero 275 y en el cuarto
220. ¿Cuál es la calificación media de estos cursos en dicha asignatura?
Calcularemos la media aritmética ponderada, en la que el número de alumnos son los pesos
correspondientes a las calificaciones medias de cada año.
x
xfi i 5730,5
x 6,55
f i
;
875
3. Calcula la moda y la mediana correspondiente a la variable litros/m 2 durante los días de lluvia en la estación
meteorológica del Roque de los Muchachos, según la distribución citada en el ejercicio 1.
La moda
El mayor valor de la frecuencia, 23, corresponde al intervalo [15, 20) que recibe el nombre de intervalo modal.
En una primera aproximación se puede tomar la moda como la marca de clase, es decir, Mo=17,5.
La mediana
El intervalo mediano es [15, 20), ya que contiene el dato 88/2=44.
Pg. nº 19/26
N 88
Fi 1 29
M e Li c 2 ; M e 15 5 2 18,26
fi 23
El 50% de los días de lluvia se recogieron más de 18,26 Litros/m 2 y el otro 50% de los días por debajo.
La desviación típica de los pesos de la manada de los toros bravos es superior que la de los perros. Sin embargo, esos 25 kg son poca cosa para
el enorme peso de los toros (es decir, los toros de esa manada son muy parecidos en peso), mientras que 10 kg en relación con el peso del perro
es mucho (imaginamos que en la exposición canina habrá perros muy dispares: caniches, "salchichas", dogos, mastines...
CVtoros=(25/510)100=4,9% CVperros=(10/19)100=52,6%.
Con estos parámetros se ve claramente que el peso de los perros de la exposición canina es mucho más disperso
que el de los toros de la manada.
5. Una empresa debe cubrir un cierto número de puestos de trabajo de dos tipos A, y B. Se somete a los
aspirantes a dos pruebas, ambas puntuables de 0 a 50, diseñadas para valorar sus aptitudes en uno y otro
tipo de trabajo. En la Prueba A, la media de calificaciones ha sido x A 28 , y la desviación típica A 3,4 .
En la B han sido, respectivamente, x B 24 y B 2,1 . Dígase: ¿Qué tipo de puesto de trabajo asignaríamos
a un aspirante que hubiera obtenido 33 puntos en la prueba A y 28 en la B?
En ambos casos se halla por encima de la media. Su puntuación es más alta en la prueba A (33 frente a 28), así
como su desviación respecto de la media (+5 frente a +4). No obstante, valorar igual los puntos obtenidos en ambas
pruebas puede ser un error de apreciación".
En efecto: Las desviaciones típicas indican que los resultados de la prueba B se hallan más agrupados que los de la
A. En esas condiciones, "cuatro puntos sobre la media" en la prueba B puede indicar mayor aptitud para el trabajo B,
frente a los demás aspirantes, de lo que indican "cinco puntos sobre la media" en la prueba para el trabajo A.
Saldremos de dudas calculando e interpretando las puntuaciones típicas del aspirante en ambas pruebas. Son
33 28 28 24
ZA 1,471 ZB 1,905
3,4 2,1
Esto significa que su calificación en la prueba A se halla "1,471 desviaciones" sobre la medía y, en la prueba B,
"1,905 desviaciones” sobre la media.
Por tanto, está más cualificado para ocupar un puesto de trabajo tipo B que un puesto tipo A, si lo comparamos
con el resto de los aspirantes.
Pg. nº 20/26
ESTADÍSTICA DESCRIPTIVA III
Distribuciones Bidimensionales.
1.- Variables Estadísticas Bidimensionales.
Las variables estadísticas bidimensionales se representan por el par (X, Y) donde, X es
una variable unidimensional, e Y es otra variable unidimensional. Y por lo tanto la variable
estadística bidimensional (X, Y) toma los valores (X1,Y1), (X2, Y2), …. (Xn, Yn).
Ejemplo.
Pg. nº 21/26
Tablas de doble entrada en las que se dispone la variable X en fila, en la parte superior, y la
variable Y en columna a la izquierda. Posterior mente se añaden las frecuencias en el cuerpo de
la tabla. Todo ello de la siguiente forma:
X
Y 3 4 5 6 7 8 10
2 4
5 6 12
6 4 4
7 5 2
9 1
10 2
Como se puede observar, las tablas simples se pueden transformar en tablas de doble entrada, y
viceversa. Esto es importante saberlo hacer, porque en los cálculos posteriores necesitaremos
ambas formas de tablas.
X
Y 3 4 5 6 7 8 10 ∑ fy
2 4 4
5 6 12 18
6 4 4 8
7 5 2 7
9 1 1
10 2 2
∑ fx 4 6 12 9 6 1 2 40
X fi Y fi
3 4 2 4
4 6 5 18
5 12 6 8
6 9 7 7
7 6 9 1
8 1 10 2
10 2 40
40
Pg. nº 22/26
Cálculo de parámetros
Tanto con la variable X, como con la variable Y, se pueden realizar todos los cálculos, las
representaciones gráficas y sacar las conclusiones que hemos visto en los dos temas anteriores.
Hay que tener en cuenta, que muchas veces es importante estudiar cada una de las variables de
forma independiente, para conocer su comportamiento individual y luego poder interpretar mejor
el comportamiento conjunto.
El primer parámetro conjunto que vamos a ver es la covarianza, que viene a ser la varianza
conjunta de las variables X e Y. La vamos a definir como la media aritmética de los productos de
las desviaciones de cada una de las variables respecto a sus medias respectivas.
La covarianza viene representada por σxy ó Sxy, y su cálculo lo realizaremos mediante la formula:
xy
xy f i i i
xy
N
Más adelante veremos el significado de la varianza, así como su interpretación según su signo.
Para su cálculo matemático es preciso partir de la tabla simple conjunta, confeccionando todas las
columnas necesarias, como a continuación se muestra:
Sí en el estudio estadístico no se nos exige el cálculo de modas, medianas, percentíles, etc., todos
los datos y los parámetros que necesitamos (medias, varianzas y desviaciones típicas) lo podemos
obtener de la tabla anterior. Pero si no es el caso, debemos calcular las distribuciones marginales
y operar con ellas.
Concepto de correlación
Se llama correlación a la teoría que trata de estudiar “la relación o dependencia” que existe entre
las dos variables que intervienen en una distribución bidimensional.
Pg. nº 23/26
La correlación es lineal o curvilínea según el diagrama de dispersión se concentre en torno a
una línea recta o curva.
La correlación es positiva o directa cuando a medida que crece una variable la otra también
crece, o viceversa.
La correlación es negativa o inversa cuando a medida que crece una variable la otra decrece,
o viceversa.
La correlación es nula cuando no existe ninguna relación entre ambas variables, y se dice que
están incorrelacionadas.
La correlación es de tipo funcional si existe una función que satisface todos los valores de la
distribución.
Pg. nº 24/26
Coeficiente de correlación lineal
Una vez observado, mediante un diagrama de dispersión, que existe una correlación entre las
variables hay que demostrarlo de forma más precisa y objetiva.
Nosotros sólo vamos a estudiar la correlación de tipo lineal. Y el procedimiento más frecuente es
el coeficiente de correlación de Pearson, que se define mediante la siguiente expresión:
xy
r
x · y
El signo de r viene dado por el signo de la covarianza, ya que las desviaciones típicas son siempre
positivas. Así pues, el signo de la covarianza nos indica el comportamiento de la correlación:
Si -1 < r < 0, la correlación es negativa y será tanto más fuerte cuanto más se aproxime
a -1. Se dice entonces que existe una relación de dependencia aleatoria. Nosotros vamos a
considerar que las variables están altamente relacionadas a partir del -0,80.
Si 0 < r < +1, la correlación es positiva y será tanto más fuerte cuanto más se aproxime
a +1. Se dice entonces que existe una relación de dependencia aleatoria. Nosotros vamos
a considerar que las variables están altamente relacionadas a partir del +0,80.
Pg. nº 25/26
Estudio analítico de la regresión lineal
Si entre dos variables existe una fuerte correlación, el diagrama de dispersión se concentrará en
torno a una recta. Entonces el problema consiste en encontrar la ecuación de la recta que mejor
se ajuste a la nube de puntos.
Existen varios métodos, siendo el más utilizado el denominado mínimos cuadrados. Consiste en
hacer mínima la suma de los cuadrados de la diferencia entre los valores observados
experimentalmente y los teóricos que se obtengan de la recta.
xy
y y (x x )
x2
xy
xx (y y)
y2
Una vez obtenidas las rectas de regresión, o solo una de ellas según haga falta para el estudio,
seguiremos operando hasta lograr una expresión del tipo:
y ax b
O
x ay b
Estas rectas nos permiten predecir el comportamiento de las variables y con ello podemos sacar
conclusiones respecto al futuro. Es conveniente representarlas sobre el diagrama de dispersión
para comprobar la bondad del ajuste y que no hemos cometido algún error.
Sólo realizaremos el estudio de regresión si existe una alta relación entre las variables, que
nosotros hemos establecido en a partir del + 0’80.
No se puede extrapolar a lo loco y fuera de los límites estudiados, pues nada nos garantiza que la
serie estadística se siga comportando igual más allá del campo estudiado.
Pg. nº 26/26