Series Estadísticas Bidimensionales
Series Estadísticas Bidimensionales
Series Estadísticas Bidimensionales
REGRESIÓN Y CORRELACIÓN
LINEAL. COEFICIENTE DE CORRELACIÓN. SIGNIFICADO Y APLICACIONES.
1. Inroducción 1
3.5. Regresión 7
4. Aplicaciones 9
4.1. Uso y abuso de la regresión 9
4.2. Predicción 9
6. Conclusión 9
7. Bibliografía 9
TEMA 62: SERIES ESTADÍSTICAS BIDIMENSIONALES. REGRESIÓN Y CORRELACIÓN
Muchos ciudadanos ven la Estadística con gran desconfianza: unos creen que es la ciencia en que
las diferencias individuales quedan ocultas a través de las medias, otros que es la ciencia
mediante la cual con gráficos, tasas de variación y porcentajes, se manipula la opinión desde la
publicidad, la tecnología o la economía. Vivimos en la era de la Estadística y cada aspecto de la
actividad humana es medido e interpretado en términos estadísticos.
El conocimiento de los métodos estadísticos es lo que hará posible participar en la argumentación
pública basada en cifras y datos.
1. Introducción
Históricamente, la estadística comenzó por ser descriptiva, su origen se remonta a los trabajos
demográficos de John Graunt sobre la mortalidad de los habitantes de Londres en el S. XVII.
Tras acumular información, criticarla, ponerla en condiciones, analizarla, sintetizarla, comprobado
analogías, descubierto permanencias estadísticas, reconocido cierto número de distribuciones
tipo, observado algunas formas de dependencias estructurales, la Estadística llegó a ser
explicativa, gracias, en particular a la aportación del Cálculo de Probabilidades. Siendo la
Estadística Descriptiva un auxiliar de éste, las nociones de población estadística y frecuencia
preparan las nociones de suceso aleatorio y probabilidad. La noción de variable aleatoria se
presenta con más claridad conociendo la de variable estadística, la esperanza matemática parece
la prolongación natural de la media estadística. Ambas disciplinas confluyen en el S. XIX.
El modo de hacer de la estadística representa la introducción en matemáticas de esquemas
nuevos que resultan eficaces para la confrontación con un mundo de problemas que los métodos
matemáticos clásicos eran incapaces de manejar. Se trata de encontrar leyes a fin de tomar las
decisiones oportunas en aquellos aspectos que parecen estar dominados por lo aleatorio.
La estadística trata, en primer lugar, de acumular la masa de datos numéricos provenientes de la
observación de multitud de fenómenos. Mediante la teoría de la probabilidad analiza y explora la
estructura matemática subyacente al fenómeno del que estos datos provienen, tratando de sacar
conclusiones y predicciones para aprovechar mejor el fenómeno.
Las teorías de correlación y regresión se deben en sus inicios al médico inglés Sir Francis Galton
(1822-1911), que en 1869 publicó un libro sobre la herencia, y a través del estudio de los
problemas de la herencia, llegó al concepto de correlación, siendo el primero en asignar a un
conjunto de variables un número que permitía obtener una medida del grado de relación existente
entre ellas. Llegó a inferir que las personas excepcionalmente altas solían tener hijos de estatura
menor a la de sus progenitores, mientras que las personas muy bajas solían tener hijos más altos
que sus padres. Lo que le llevó a enunciar su principio de regresión a la mediocridad (que es
totalmente falso y actualmente se le considera como la primera falacia de la teoría de la
regresión), aplicable a las tallas de una generación respecto de las siguientes, que fue el origen
del actual análisis de regresión.
Los trabajos de Galton fueron continuados por Edgeworth, Weldon y Pearson que reelaboraron y
mejoraron sus ideas.
1
2. Estadística descriptiva e inferencial. Variables estadísticas.
Estadística descriptiva o deductiva trata del recuento, ordenación y clasificación de los datos
obtenidos mediante observaciones. Se construyen tablas y se representan gráficos que permiten
simplificar la complejidad de los datos que intervienen en la distribución. Se calculan parámetros
estadísticos que caracterizan la distribución.
Denominamos población al conjunto formado por todos los elementos cuyo conocimiento nos
interesa. A cada uno de los elementos de una población, le llamamos individuo. Muestra es un
subconjunto limitado extraído de una población, con objeto de reducir el número de experiencias.
Estadística inferencial o inductiva plantea y resuelve el problema de establecer previsiones y
conclusiones generales sobre una población a partir de los resultados obtenidos de una muestra.
Utiliza resultados obtenidos mediante la estadística descriptiva y se apoya fuertemente en el
cálculo de probabilidades.
Variable es un símbolo que representa un conjunto de valores. Variable estadística es el símbolo
que representa a un colectivo, o a un conjunto de sucesos.
Dado un conjunto de datos de una variable X, x1,...,xn, la estadística descriptiva estudia
procedimientos para sintetizar la información que contienen.
Tipos de variables:
- Variables cualitativas: no toman valores numéricos y describen cualidades.
- Variables cuantitativas: toman valores numéricos:
- Discretas: toman únicamente valores enteros (en general, valores en un conjunto
discreto).
-Continuas: toman valores en un intervalo, corresponden a medir magnitudes continuas.
Frecuencia absoluta de un dato es el número de veces que éste aparece en el colectivo. La
llamamos fi, la correspondiente a xi.
Frecuencia relativa de un suceso (dato) se define por el cociente entre la frecuencia absoluta y
el número total de datos. hi.
Campo de la variable es el conjunto de valores que ésta toma y recorrido de la variable es la
diferencia entre el mayor y el menor valor de ésta.
Media aritmética es la suma de todos los valores de la variable dividido por el número total de
n
∑x ⋅f i i
datos. Se representa por X . Y su valor se calcula: x = i=1
, siendo N el número total de datos.
N
n
N = ∑ fi
i=1
∑ (xi − x)2 ⋅ fi ∑x i
2
⋅ fi
2
representa por σ . σ =
2 2 i=1
= i=1
−x
N N
Desviación típica es la raíz cuadrada positiva de la varianza. Se representa por σ .
El conjunto de datos se puede presentar acompañados de sus frecuencias con cada dato
individualizado, distribución sin agrupar, o englobados con otros, distribución agrupada en
intervalos.
2
3. Series estadísticas bidimensionales.
Dada una determinada población de N individuos, puede que nos interese el estudio de dos o más
caracteres, dando lugar a las variables estadísticas bidimensionales. Suponemos que hemos
observado dos variables, X e Y, veremos la relación que existe entre ellas.
Estudiaremos en X, n- modalidades: x1, x2, ..., xn. Y en Y, m-modalidades: y1, y2,...,ym.
3.1. Tablas estadísticas
Cada individuo de la población pertenecerá a una modalidad de X y otra de Y.
El recuento lo hacemos en una tabla de doble entrada (llamada de contingencia cuando las
variables son de tipo cualitativo).
Y la distribución conjunta quedaría:
Y
X y1 y2 ..................ym fi .
∑∑ fij = ∑ (fi 1 + fi 2 + ... + fim ) = ∑fi 1 + ∑fi 2 + ... + ∑fim = (f11 + f21 + ... + fn 1 ) + (f12 + f22 + ... + fn 2 ) + ... +
i j
=1 =1 i =1 i =1 i =1 i =1
La frecuencia relativa del par (xi,yj), se define como la proporción de individuos que presentan
fij
ese carácter sobre el total de la población: hij =
N
La suma de las frecuencias relativas extendida a todos los pares de modalidades posibles es igual
n m
a la unidad: ∑∑
i j
=1
hij
=1
=1
3
Quedando las tablas:
X f h n n ⎛ m ⎞ Y f h m m
⎛ n
⎞
x1 f1. h1. ∑ fii = ∑ ⎜⎜ ∑fij ⎟⎟ = N
i =1 ⎝ j =1
y1 f.1 h.1 ∑fi j = ∑ ⎜ ∑fij ⎟ = N
⎝ i =1 ⎠
i =1 ⎠ j =1 j =1
x2 f2. h2. y2 f.2 h.2 fi j
f
. . . hi i = i i . . . hi j =
N N
xi fi. hi. yj f.j h.j fi j N
n n
fi i N m m
. . . ∑ h ii = ∑
i =1 N
=
N
=1 . . . ∑ hi j = ∑ = =1
i =1 j =1 j =1 N N
xn fn. hn. ym f.m h.m
Total N 1 Total N 1
De las distribuciones condicionales distinguimos la de X condicionada por yj del carácter Y:
X/yj f h
x1 f1j h 1j fij n n f fi j
∑ ∑
ij
j Con hi
j
= y h i
j
= = =1
x2 f2j h2 fi j i =1 i =1 fi j fi j
. . .
xi fij hij De la de Y condicionada por xi del carácter X:
. . . Y/xi f h
xn fnj hnj y1 fi1 hj1
f f
hj2
ij ij
Con hji = hi j = → fij = fi j hi j y2 fi2
fi i fi j
Total f.j 1 . . .
yj fij hji
fij fi j hi j . . .
Respecto al par: hïj = = = hi j hi j
N N ym fim hmi
fij fi ihji
Análogamente: hïj = = = hi ihji
N N Total N 1
3.2. Representaciones gráficas
Las distribuciones de dos caracteres se pueden clasificar según su naturaleza, obteniéndose seis
tipos generales:
- Los dos cualitativos. En los que se pueden representar sobre un mismo gráfico la distribución
global y una familia de distribuciones condicionadas, pero no las dos simultáneamente. Se
representa la frecuencia absoluta fij por un rectángulo cuya base es proporcional a la f·j y cuya
altura es proporcional a la frecuencia condicionada hij. El área del rectángulo es proporcional a:
f·jhij=fij. Así se pone en evidencia en el gráfico: las frecuencias absolutas marginales f·j(base de
los rectángulos), las frecuencias absolutas de la tabla de doble entrada fij (área de los
rectángulos) y las frecuencias condicionadas hij (altura de los rectángulos).
100%
80%
Hasta 2000
60%
Hasta 1990
40%
Hasta 1980
20%
0%
realización práctica. 30
25
20 [0,3)
15
[3,6)
10 [6,9)
5 [9,12)
[6,9)
0
[0,3)
[0,2) [2,4)
[4,6)
[6,8)
- Uno cuantitativo discreto y otro continuo. Se representan las frecuencias medias por unidad de
amplitud en x por medio de diversos histogramas, cuyas áreas sean iguales a las frecuencias
absolutas marginales correspondientes a la variable discreta.
En cualquier caso, la gráfica más útil de dos variables sin agrupar es el diagrama de dispersión,
que se obtiene representando cada observación bidimensional (xi, yj) como un punto en plano
cartesiano. Este diagrama es especialmente útil para indicar si existe o no relación entre las
variables.
Ejemplos:
y
y
1
1
1
x 1
x
1 1
x x 5
3.3. Independencia y dependencia funcional.
Decimos que el carácter X es independiente del carácter Y, si las distribuciones condicionadas
son idénticas entre sí: la repartición según el carácter X de los individuos que poseen la
modalidad yj de Y es la misma cualesquiera que sea yj. Tanto las filas como las columnas de una
tabla de doble entrada son proporcionales entre sí. El valor de una variable no influye en el valor
de la otra.
Se dice que el carácter X depende funcionalmente de Y, si a cada modalidad yj de Y corresponde
una única modalidad posible de X:
∀j , la frecuencia absoluta fij es nula, salvo para un valor i = ϕ (j), donde fij es igual a fi j
Así, en cada columna, un término y uno solo es diferente de cero, en cambio, puede haber varios
términos no nulos en una misma fila.
Cuando la correspondencia es biunívoca, o sea, a una modalidad xi de X corresponde únicamente
una modalidad posible de Y: j = ϕ −1 (i ) , se dice que la dependencia funcional es recíproca: en cada
fila y en cada columna de la tabla figura uno y solo un término no nulo. Para que esto ocurra la
tabla ha de ser cuadrada, X e Y han de tener el mismo número de modalidades.
La dependencia funcional será lineal cuando todos los pares de puntos se encuentren sobre una
recta; será curvilínea cuando se encuentren sobre una curva definida por la función.
En el resto de los casos se habla de dependencia estadística, que será más o menos fuerte
dependiendo de que el diagrama de dispersión tienda a acercarse más o menos a la
representación de una función.
3.4. Medidas de dependencia lineal
Dadas dos variables cuantitativas: X con n modalidades e Y con m modalidades, se define la
n m n m
6
Propiedades de r:
-Es adimensional
-Es invariante para transformaciones lineales (cambio de origen y escala) de las variables.
-Sólo toma valores comprendidos entre -1 y 1.
-Cuando toma valores próximos a -1 o 1, se tiene una relación lineal muy fuerte entre las
variables.
-Cuando es 0, no existe relación entre ambas variables. Se dice que son icorreladas.
Hay que tener en cuenta que este coeficiente nos resume la información dada por el diagrama, es
conveniente dibujarlo para tener toda la información, por ejemplo, los diagramas c) y d) tienen un
coeficiente muy próximo a 0 y corresponden a situaciones muy distintas.
3.5. Regresión.
Se trata de ajustar los puntos del diagrama de dispersión de las variables X e Y.
La regresión lineal consiste en encontrar aproximar los valores de una variable a partir de los de
otra, usando una relación funcional de tipo lineal, es lo que vamos a hacer, usando el criterio de
mínimos cuadrados, que es el que comúnmente más se usa, aunque existen otros.
Éste es el que minimiza las distancias cuadráticas de los puntos con la línea en cuestión.
Sea y = ax + b la recta buscada para predecir Y a partir de X, que llamaremos recta de regresión
de Y sobre X
Buscamos un valor de a y otro de b de forma que el valor
n 2
yn Y'
∑ ( yi − y 'i ) sea mínimo.
y'n i=1
i ⎭ i i i ⎭
Dividiendo por n, que es el número de parejas observadas, tendríamos:
y = a x + b ⇒ Nos dice que la recta tiene que pasar por el punto (x, y )
∑i xi yi ∑i xi 2
7
σ xy
A a= se denomina coeficiente de regresión de Y sobre X. En el modelo lineal la bondad del
σ x2
ajuste es r2, por lo que el modelo lineal dará mejores predicciones cuando r esté próximo a -1 ó 1.
La varianza residual es la cantidad que le falta a la varianza de regresión σ y2' (la de la
distribución dada por la recta de regresión) para llegar a la varianza total de Y, σ y2 , o sea la
∑i ( yi − axi − b )
2
forma x = my + n que minimice las distancias: ∑ ( xi − x 'i ) , donde los puntos xi’, son los de la
i =1
recta, con cálculos análogos a los anteriores, obtenemos la recta de regresión de X sobre Y:
σ xy σ xy
x = y − y +x .
σ y2 σ y2
Con lo que se define el error como E= X – X’ y la varianza residual en este caso sería
∑i ( xi − myi − n )
2
8
4.- Aplicaciones.
4.1. Uso y Abuso de la Regresión.
La aplicación de los métodos expuestos de regresión y correlación exige un análisis teórico previo
de las posibles relaciones entre las variables. Puede ocurrir que se seleccionen dos variables
cualesquiera al azar y que dé la casualidad de que, estadísticamente, la correlación sea perfecta
cuando no existe relación posible entre ellas.
Por ejemplo, el hecho de que, casualmente, la correlación lineal entre la tasa de natalidad en
Nueva Zelanda y la producción de cereales en España a lo largo de un determinado periodo fuera
perfecta no nos debería llevar a suponer que existe algún tipo de relación lineal entre estas
variables.
Se deben seleccionar variables entre las que la fundamentación teórica avale algún tipo de
relación, evitando, en lo posible, relaciones a través de otra variable principal. Por ejemplo, el
consumo de bebidas puede variar en la misma dirección que el consumo de gasolina, pero no
porque una variable dependa directamente de la otra, sino porque ambas van en el mismo sentido
que las variaciones de la renta, que será la principal variable explicativa.
4.2. Predicción.
El objetivo último de la regresión es la predicción o pronóstico sobre el comportamiento de una
variable para un valor determinado de la otra. Así, dada la recta de regresión de Y sobre X, para
un valor X = x0 de la variable, obtenemos y0.
Es claro que la fiabilidad de esta predicción será tanto mayor, en principio, cuanto mejor sea la
correlación entre las variables. Por tanto, una medida aproximada de la bondad de la predicción
podría venir dada por r.
5. Relación del tema con el currículo
Aunque a lo largo del currículo se ve la estadística en el bloque de Estadística y Probabilidad, no
es hasta 1º de Bachillerato cuando se estudian las variables bidimensionales, tanto en
Matemáticas I como en las Aplicadas a las CCSS I. También se ven en la asignatura optativa de
2º de Bachillerato: Estadística.
6. Conclusión
El conocimiento de este tema nos puede llevar, siempre que se haga una aplicación teórica en
condiciones, a predicciones sobre comportamientos o características de una población con
respecto a otras. Hay que intentar hacerle ver al alumnado la importancia de hacer el estudio
bien para que los ajustes sean válidos.
7. Bibliografia
Cramer. Métodos matemáticos de Estadística. Aguilar.
Cramer. Teoría de Probabilidades y Aplicaciones.Aguilar.
Sixto Rios. Métodos Estadísticos.
Calot. Curso de Estadística Descriptiva.
Estadística. Mc Graw Hill.