Análisis Bivariado de Datos
Análisis Bivariado de Datos
Análisis Bivariado de Datos
UNIVERSIDAD CENTRAL DE VENEZUELA
February 20, 2012
Autor: Prof. Dimas Sulbarán
ANÁLISIS DE DATOS BIVARIADOS 1
ÍNDICE
1. Análisis Bivariante
ANÁLISIS DE DATOS BIVARIADOS 3
A nivel descriptivo una correlación supone un comportamiento más o menos afín entre
dos variables y por tanto, suponen un conjunto de pares ordenados en los cuales los cambios en
una variable figuran un reflejo en otra. (Kerlinger & Lee, 2002) Esta relación se define en un
espacio bidimensional, donde cada punto o elemento muestral está determinado por su
identificación con dos valores, entiéndase Xi y Yi. en el caso de las matemáticas, una relación
supone una función analítica perfectamente definida entre una variable X y una variable Y y
bastan dos puntos para definir la pendiente de dicha relación, al menos, en el caso de una
relación lineal. En estadística el asunto es un poco más complejo y la identificación de la
relación entre dos variables estocásticas requerirá, en algunos casos más que en otros, un número
mucho mayor de observaciones para reconocer la función estocástica y determinar así la
magnitud y el sentido de la relación estadística entre las variables.
en los valores de la otra variable siempre estará asociado al mismo valor de esta primera
variable. La traducción más simple, los cambios en una variable (X) no se asocian con cambios
en una variable (Y) que permanece constante. El segundo supuesto se presenta a nivel
inferencial, el contraste de hipótesis de correlación supone que la distribución de los datos
bivariados se comporta de manera normal. (Pearson, 1895). Por tratarse de una distribución
bivariada, la inferencia se basará en el uso de la función de distribución de los valores t para
determinar la probabilidad de error al tomar la decisión de aceptar la hipótesis de nulidad de la
relación.
1
Este sistema de referencia se denomina sistema de ejes cartesianos o sistema cartesiano (de Cartesius, nombre
latinalizado de René Descartes, filósofo y matemático francés del siglo XVII).
ANÁLISIS DE DATOS BIVARIADOS 6
3 1 I 5
4
8 7 I 3
-6 6 II
2
1 3, 1
-1 8 II ‐9 ‐8 ‐7 ‐6 ‐5 ‐4 ‐3 -3,
0
‐2 -1‐1 ‐1 0
0, 0
1 2 3 4 5 6 7 8 9
1 -5 III ‐2
‐3
6 -8 III ‐4
-8 -7 IV ‐5
‐6
1, -5
-3 -1 IV -8, -7 ‐7
‐8 6, -8
0 0 O ‐9
Veamos un ejemplo:
10
9 9, 9
X Y Cuadrante 8
-9 -9 I 7
6 6, 6
-6 -6 I 5
4
-3 -3 II 3
2
3, 3
-1 -1 II 1 1, 1
0 0, 0
0 0 III ‐10 ‐9 ‐8 ‐7 ‐6 ‐5 ‐4 ‐3 ‐2 ‐1‐1 -1,
0 -11 2 3 4 5 6 7 8 9 10
‐2
1 1 III -3, -3 ‐3
3 3 IV
‐4
‐5
-6, -6
6 6 IV ‐6
‐7
9 9 O -9, -9
‐8
‐9
‐10
Hemos podido apreciar que, a diferencia del caso anterior, en este se evidencia una
tendencia que puede ser perfectamente definida por una función muy sencilla y hablar así de una
relación entre los valores de x e y. de modo que, y= f(x); donde la f(x)= x.
teoremas de la correlación: a) dada una cantidad de varianza conjunta o afín entre las variables
(X, Y) igual a cero, la covarianza será igual a cero y la correlación cero; b) dada una cantidad de
ANÁLISIS DE DATOS BIVARIADOS 8
varianza conjunta o afín entre las variables con un valor mayor que cero y menor a la varianza
total, la covarianza será un valor mayor que cero y menor que la varianza total, por lo que la
correlación estará definida en un rango entre cero y uno; c) dada una cantidad de varianza
conjunta o afín entre las variables igual a la varianza total, lo cual ocurre cuando el
comportamiento relativo representado por los desvíos de los puntajes en la variable X es idéntico
al que reportan en la variable Y, la covarianza es igual a la varianza total y la correlación es igual
a uno.
Existen diversos coeficientes que miden el grado de correlación entre dos variables. No
obstante, estos han sido adaptaciones a los distintos niveles de medición de la fórmula
fundamental de Karl Pearson. El coeficiente de Pearson (introducido en realidad por Francis
Galton), sintetiza de forma magistral la idea fundamental de la correlación. La misma define una
razón entre la cantidad de covarianza de dos variables y el producto de sus desviaciones estándar.
Existen varias fórmulas para calcular el coeficiente de correlación de pearson (Glass y Stanley,
1984), como podemos ver:
∑ ∑
.∑ ∑ ∑ ∑ .
.
.∑ ∑ . .∑ ∑
Se define la matriz de correlación como una tabla de doble entrada para A B y C, que
muestra una lista multivariable horizontalmente y la misma lista verticalmente con los
correspondientes coeficientes de correlación llamado r para cada par de variables.
Toda combinación lineal de variables se define como una función de x con respecto a Y.
toda función describe la relación entre un conjunto de pares ordenados (x,y). Por su parte, la
correlación permite cuantificar la magnitud y sentido de esta relación.
En muchos casos, los datos nos ofrecen variables que no cumplen con los requerimientos
para el cálculo e interpretación del coeficiente de correlación de Pearson. Principalmente, el
referente al nivel de medición de las variables involucradas, pues no se tienen observaciones de
variables métricas. Los casos pueden incluir sólo una de las variables o ambas, pueden incluir
variables con nivel de medición tan bajo como el nominal. Según el tipo de variables implicadas
en la combinación, se cuentan: a) coeficiente phi, b) coeficiente de correlación tetracórica, c)
coeficiente de asociación C de Cramer, d) coeficiente de correlación biserial y punto biserial, e)
coeficiente eta, f) coeficiente de correlación tau de kendall y g) coeficiente de correlación de
spearman. Los detalles se presentan a continuación.
Todos los coeficientes de correlación que se revisarán en lo sucesivo, con excepción del
tau de Kendall, emplean básicamente, de una u otra forma, la teoría del producto-momento de
Pearson (Glass & Stanley, 1974, pág. 176).
ANÁLISIS DE DATOS BIVARIADOS 11
Donde corresponde al valor obtenido para chí cuadrado y n es el total del número de
observaciones.
Un procedimiento alternativo atiende a la siguiente estructura para la tabla de datos:
y=1 y=0 total
x=1 n11 n10 n1·
x=0 n01 n00 n0·
total n·1 n·0 N
A partir de esta configuración de los datos en la tabla 2x2, se considera que dos variables
binarias están positivamente asociadas si la mayor parte de los datos caen dentro de las celdas
diagonales. Por el contrario, dos variables binarias se consideran negativamente asociadas si la
mayoría de los datos se salen de la diagonal. La fórmula que cuantifica la relación es:
⋅ ⋅ ⋅ ⋅
Se tiene una buena aproximación de los niveles de correlación entre las variables a partir
de la ecuación: cos
Por tratarse del coeficiente de un ángulo sus valores se limitan a un rango entre -1 y 1 y,
dada la naturaleza métrica de los datos, se interpreta de forma análoga al coeficiente de
correlación de Pearson.
De acuerdo con Siegel (1990), el coeficiente C de Cramer es una medida del grado de
asociación entre variables nominales. Con este estadístico se responde a la pregunta con relación
al grado de asociación entre las variables que no era respondida por la aplicación de la prueba de
independencia de Chí cuadrado, tal como ha sido estudiada hasta ahora. Tiene la bondad de que
puede ser aplicada incluso para variables con un nivel de medición tan bajo como el nominal.
Una vez calculado el valor de chí cuadrado para la distribución de las contingencias, el
cálculo del coeficiente Phí resulta muy sencillo. La ecuación a continuación ilustra los elementos
necesarios.
ANÁLISIS DE DATOS BIVARIADOS 13
El coeficiente de correlación punto biserial Rpb permite estudiar la relación entre dos
variables cuando una de ellas es una dicotomía natural y la otra tiene un nivel de medición
superior a intervalo. En el caso de que la dicotomía no responda a una dicotomía natural,
debemos sospechar del uso del coeficiente de correlación punto biserial y preferir el uso de la
correlación biserial. El cálculo de rpb atiende a la fórmula siguiente:
Por su parte, el coeficiente de correlación biserial aplica en los casos en los que una de las
variables obedece a una escala nominal dicotómica, que se distribuye de manera normal y la otra
es una variable de intervalo que también se distribuye de manera normal. Su cálculo se define
por la siguiente ecuación:
∗
nivel de varianza en y que es explicada por los cambios en x, entiéndase: razón de correlación o
coeficiente eta cuadrado, si se determinan los elementos necesarios considerando algunos ajustes
en su cálculo. Algunos de los ajustes que se tomarán en cuenta es que en el caso de las varianzas
de error o intragrupo, se debe determinar una media de los valores de y por cada valor de x en la
función.
Es importante señalar que , y , generalmente serán diferentes, lo cual es contrario a
nuestra experiencia con r caso en el cual , , . Como sucede con , , siempre debe ser
un valor entre 0 y 1. Además, , , . La diferencia entre los dos coeficientes es la medida
del grado de curvilinearidad de la línea que mejor se ajusta a la distribución de los puntos x,y.
Dado el conjunto de pares observados (x1, y1), (x2, y2), …, (xn, yn) para un par de variables
aleatorias respectivamente, tal que todos los valores de xi y yi sean únicos. Se dice que un par de
observaciones (xi, yi) y (xj, yj) se dice que concuerdan si el rango de ambos valores coinciden:
esto es, si xi > xj y yi > yj o si ambos xi < xj y yi < yj. Se dice que son discordantes, si xi > xj y yi <
yj o si xi < xj y yi > yj. Si el caso es xi = xj o yi = yj, no existe concordancia ni discordancia.
∑ ∑
∑
∑
N= número total de pares observados.
Propiedades:
De acuerdo con Siegel (1995), si los sujetos constituyen una muestra aleatoria de alguna
población, se puede probar si el valor observado de rs indica una asociación entre las variables X
y Y en la población. En función del tamaño de la muestra las técnicas son:
Para N desde 4 hasta 50, los valores críticos de rs entre los niveles de significación
unidireccionales 0.25 y 0.0005, están proporcionados en la tabla de valores críticos de
rs. Para una prueba bidireccional sólo se debe duplicar el nivel de significación
observado.
Para N mayor a 50 se debe hacer el ajuste a la normal como referencia.
ANÁLISIS DE DATOS BIVARIADOS 16
2. Regresión Lineal
ANÁLISIS DE DATOS BIVARIADOS 17
ñ
á
…
Tanto en el caso de dos variables (regresión simple) como en el de más de dos variables
(regresión múltiple), el análisis de regresión lineal puede utilizarse para explorar y cuantificar la
relación entre una variable dependiente o criterio (Y) y una o más variables independientes o
predictoras (x1, x2, …, xn), así como para desarrollar una ecuación lineal con fines predictivos.
De esta manera, el análisis de regresión inspira el principio de Max-Min-Con para la
ANÁLISIS DE DATOS BIVARIADOS 18
han permitido acercarse a los ideales del conocimiento científico, a saber: la descripción,
explicación, predicción y control de los fenómenos del comportamiento humano.
Comenzando con el hecho mismo de la descripción, debemos tener presente la
importancia de las técnicas de regresión en la construcción de rigurosos instrumentos de
medición psicométricos, bajo el esquema representacionista. Es de conocimiento general que las
principales estrategias de evaluación de la validez y la confiabilidad de los instrumentos apuntan
hacia la determinación de modelos de regresión que permiten definir la función de
categorización que caracteriza el proceso de “atribución de valores numéricos a los objetos o
eventos de acuerdo con ciertas reglas” (Stevens, 1946).
Más allá, la ciencia y, particularmente, la Psicología avanzan en la medida en que es
capaz de generar teorías que no sólo permiten la descripción de los fenómenos sino que está en
posibilidad de ofrecer una explicación de los fenómenos del comportamiento. En este sentido,
los aportes de las técnicas de regresión estadística para identificar y determinar los modelos que
describen la relación entre las variables en la forma de modelos funcionales que permiten estimar
claramente la influencia de determinadas situaciones, procesos o hechos sobre los fenómenos del
comportamiento.
Determinado el modelo explicativo para algún aspecto del comportamiento humano, el
investigador seguirá apelando al uso de las técnicas de regresión estadística con el interés de
avanzar a la predicción de la conducta. En este sentido, podríamos decir que son infinitos los
casos en los cuales los modelos de regresión contribuyen a la predicción del comportamiento en
los distintos campos y aplicaciones de la psicología, tales como: la clínica, el asesoramiento, el
comportamiento social y organizacional y el educativo.
Finalmente, las técnicas de regresión estadística son un recurso de gran valor cuando se
trata de generar conocimiento en la forma de control. La identificación de las relaciones
funcionales entre las distintas variables estudiadas contribuyen a conocer cuáles y en qué medida
las diferentes variables determinan las variaciones de la conducta. Este recurso le permite al
investigador manipular las condiciones a fin de procurar los valores de la variable predicha en el
sentido de su conveniencia.
Los supuestos de un modelo estadístico se refieren a una serie de condiciones que deben
cumplirse para garantizar la validez del modelo en cuestión. De forma que, al efectuar
aplicaciones prácticas del modelo de regresión, nos veremos en la necesidad de examinar el
ajuste de nuestras observaciones con estos supuestos. Entiéndase: a) linealidad, b) independencia
de los errores, c) homocedasticidad, d) normalidad, e) no colinealidad y f) el número de
observaciones n debe ser mayor que el número de parámetros por estimar. (Gujarati & Porter,
2010). De acuerdo con el teorema de Gauss-Markov, el cumplimiento de estos supuestos, son el
prerrequisito para alcanzar los estimadores MELI (mejores estimadores linealmente insesgados).
Los detalles con relación al concepto y las implicaciones de cada supuesto se exponen a
continuación.
2.3.1. Linealidad
Por linealidad se entiende a las siguientes formas que pueden definir a una ecuación: a)
linealidad en las variables y/o b) linealidad en los parámetros. Como estos términos no son
independientes, las variables pueden cumpir con cualquiera de las combinaciones posibles entre
la presencia y ausencia de linealidad tanto en las variables como en los parámetros, tal como se
resume en el cuadro siguiente:
Este supuesto se resume al principio de que el error (ε) es una variable aleatoria para todo
valor de xi, por tanto la correlación entre estas dos variables debe ser igual a cero. En otras
palabras, se espera que rxe=0.
2.3.3. Homocedasticidad.
Se espera que la varianza del término de error para todos los valores de xi sean
equivalentes. Esta cualidad es necesaria, según el Teorema clásico de Gauss-Márkov, para que
en un modelo los coeficientes estimados sean los mejores o eficientes, lineales e insesgados.
Cuando no se cumple esta situación, se dice que existe heterocedasticidad, que es cuando
la varianza de cada término de perturbación no es un número constante
2.3.4. Normalidad.
Dado que se asume que las perturbaciones del modelo o término de error para cada valor
de xi obedecen a una distribución aleatoria, se espera que esta se distribuya de manera normal.
En otras palabras, los valores de error tienden a distribuirse de la forma: ∼ , , dado que
Ε ∣ 0, entonces la distribución de los errores debe cumplir con ∼ 0, . El
cumplimiento de este supuesto es fundamental para los análisis con fines inferenciales.
2.3.5. No colinealidad.
Este supuesto está relacionado, fundamentalmente, con los casos de los análisis de
regresión múltiple. Atendiendo al principio fundamental de parsimonia, se espera que la
incorporación de cada variable independiente o predictora al modelo se dé porque representa un
valor agregado significativo en la definición del mismo para la explicación del fenómeno de
interés. Para cumplir con este propósito se debe procurar que cada variable independiente sea
efectivamente algo “independiente” a las otras variables explicativas que se agrega a la ecuación.
En este caso, estaremos en presencia de No colinealidad. Cuando no se cumple con este supuesto
se habla de la presencia de colinealidad de que las variables incluidas en el modelo están
correlacionadas entre sí y resultan en un modelo redundante.
ANÁLISIS DE DATOS BIVARIADOS 22
Como elemento clave de la construcción e modelos a partir del análisis de regresión está
la estimación puntual y por intervalos, debemos considerar en este punto la introducción de las
pruebas de hipótesis en el caso del estudio de los parámetros de los MRL.
En términos generales, el lenguaje estadístico ha asumido los términos hipótesis nula e
hipótesis alternativa, derivadas del matrimonio forzado entre la tradición de los trabajos de
Ronald Fisher y Neyman-Pearson. La hipótesis nula hace referencia, fundamentalmente, a la
ausencia de relación entre las variables. Por su parte, la hipótesis alternativa apoya la tésis de
relación entre las variables. Ésta última puede definirse en términos tanto simples como
compuestos, en otras palabras, puede plantear el caso de un contraste puntual del tipo :
1.5 (simples) o del tipo : 1.5 (compuestas).
La teoría de la prueba de hipótesis se refiere al diseño de reglas o procedimientos que
permitan decidir si se rechaza o no la hipótesis nula (Ho). Hay dos métodos mutuamente
complementarios para diseñar tales reglas: el intervalo de confianza y las pruebas de
significación. (Gujarati & Porter, 2010, pág. 113). Ambos enfoques plantean que la variable (el
estadístico o estimador) en consideración sigue alguna distribución de probabilidad y que la
prueba de hipótesis establece afirmaciones sobre el(los) valor(es) del(los) parámetro(s) de la
distribución. La mayoría de las hipótesis estadísticas se fundan en este paradigma, conocido
como el uso de técnicas paramétricas para el contraste de hipótesis.
Al igual que en el resto de las técnicas de contraste de hipótesis estadísticas, la
construcción de hipótesis obedecerá a dos ámbitos discursivos, relativamente independientes,
unidos por la razón del investigador. Estos dos campos son: el campo teórico o sustantivo de las
ANÁLISIS DE DATOS BIVARIADOS 23
variables en estudio y el campo estadístico en el cual la relación teórica entre las variables se
traduce en una función analítica con parámetros estadísticos.
Este apartado atenderá al punto con relación al análisis de regresión en su versión más
simple, es decir la regresión bivariada o función de regresión para dos variables (x,y), en la cual
la variable dependiente, predicha o regresada se relaciona con una sola variable independiente,
predictora, explicativa o regresora. Este caso es particularmente interesante porque permite
desarrollar los fundamentos del análisis de regresión, pues el análisis de regresión múltiple sólo
es una extensión lógica del análisis de regresión simple.
Autores como (Gujarati & Porter, 2010), apoyan la tesis de que los principios del análisis
de regresión simple se definen en su propósito; es decir, la construcción de un estimado para la
función de regresión poblacional. Función que denota el valor esperado de la distribución de Y
dado un valor de Xi, es decir | . A estos valores medios se les llama valores esperados
condicionales, en virtud de que sus variaciones dependen de las variaciones en la variable
condicional X. de este modo se espera que la función o ecuación de regresión poblacional se
defina como: | la cual, típicamente se define a partir de su
estimación con base en la función de regresión muestral o: ̂
ANÁLISIS DE DATOS BIVARIADOS 24
El método de mínimos cuadrados ordinarios (MCO) es uno de los mayores aportes del
astrónomo y matemático Carl Friedrich Gauss, quien a finales del siglo XVIII y principios del
siglo XIX desarrolló la teoría de los mínimos cuadrados para el estudio de los cuerpos celestes.
A partir de los supuestos antes expuestos en concordancia con el clásico teorema de Gauss-
Markov, el método en cuestión ofrece importantes propiedades estadísticas que lo han convertido
en uno de los más eficaces y populares del análisis de regresión.
La aproximación por mínimos cuadrados se basa en la minimización del error cuadrático
medio o, equivalentemente, en la minimización del radicando de dicho error, el llamado error
cuadrático, definido como:
∑ ̂
Para alcanzar este objetivo, se utiliza el hecho que la función f debe poder describirse
como una combinación lineal de una base de funciones. Los coeficientes de la combinación
lineal serán los parámetros que queremos determinar.
Veremos en este punto como se definen los estimadores para los parámetros de la
ecuación de regresión poblacional, desde un discurso práctico. Los detalles con relación a la
derivación analítica y cálculo de los factores de regresión lineal se presentan en el apartado con
relación a la identificación del modelo y derivación de ecuaciones normales.
Dado que la ecuación de regresión lineal simple o bivariada se define como
̂, por lo que se encuentra constituida por los siguientes elementos:
ó .
ó .
ó ó .
.
̂ é ó á .
ANÁLISIS DE DATOS BIVARIADOS 25
.
.
∑
Finalmente, calculamos el término de error ̂ como: 1 , donde:
ó .
Los análisis de regresión bivariados estudiados en el punto anterior, suelen ser útiles para
comprender los principios del análisis de regresión, más suelen ser altamente deficientes en la
práctica. La dinámica de la investigación cotidiana raramente encontrará cubiertas sus
necesidades con el uso de análisis de regresión bivariados, es decir, cuando una variable predicha
es explicada únicamente por la influencia de una variable independiente, más allá del error
típico. Lo común es que la construcción de modelos que se acerquen de forma más fidedigna a la
realidad esté dado por la inclusión de más de dos variables en la explicación de los cambios en la
variable criterio. En estos casos, en los cuales el modelo está conformado por una variable
dependiente a la que llamaremos Y y, por lo menos, dos variables independientes x1, x2, … xn,
más un término de error estamos en presencia de un modelo de regresión múltiple.
Por extensión del modelo de regresión lineal bivariado, se define la ecuación de regresión
múltiple como:
…
Al igual que en el caso de los modelos bivariados, la ecuación está conformada por una
variable dependiente, criterio o predicha (Y), el coeficiente de determinación para el intercepto
, las variables independientes, regresoras o predictoras (X1, X2,… Xn) con sus respectivos
coeficientes de regresión parcial, , … y el término de error o perturbación estocástica ( .
ANÁLISIS DE DATOS BIVARIADOS 26
A partir de los supuestos del modelo de regresión clásico, se cumple que, al tomar la
esperanza condicional de Y en ambos lados de la ecuación, el resultado es:
| , ,…
Como en el caso de los modelos con dos variables, el análisis de regresión múltiple es el
análisis de la regresión condicional sobre los valores fijos de las variables explicativas, y lo que
obtenemos es el valor promedio o la media de Y, a los valores dados a las regresoras X.
Al igual que en el caso de las ecuaciones de regresión bivariados, mostraremos en este
punto como se definen los estimadores para los parámetros de la ecuación de regresión
poblacional múltiple, desde un discurso práctico. Los detalles con relación a la derivación
analítica y cálculo de los factores de regresión lineal se presentan como una extensión natural del
apartado con relación a la identificación del modelo y derivación de ecuaciones normales.
Por consecuencia, como una extensión natural del cálculo del intercepto, la formula se
convierte en la ecuación: ⋯ , despejando el resultado es la
conocida ecuación:
⋯
∑
Finalmente, el error estándar de la ecuación se calcula como: , donde k
representa el número de variables independientes (x1, x2, …, xn) incluidas en el modelo. Los
grados de libertad se definen como n-k porque para calcular el se requiere la estimación de los
valores de , … .
ANÁLISIS DE DATOS BIVARIADOS 27
Así, los que minimizan el error cuadrático medio podrán ser calculados a partir del
uso de derivadas parciales e igualando a cero este último, esto es:
∑
∑ 2 ∑ 0, siendo i=1, 2,…,m
∑ ̂
2 1 2 ̂
∑ ̂
2 2 ̂
∑ ̂
2 0
2
Entiéndase una derivada parcial de una función de diversas variables X1, X2, … Xn, como la identificación de la
pendiente respecto a una o cada una de esas variables, manteniendo las otras como constantes. En el discurso
estadística se traduce en el cálculo de los coeficientes de determinación parcial de orden k, según el número de
variables a controlar.
ANÁLISIS DE DATOS BIVARIADOS 29
Dado que:
Y:
Entonces:
ANÁLISIS DE DATOS BIVARIADOS 30
∑ ∑ ∑
∑ ∑ ∑
Para el caso de las funciones de regresión multivariados (con más de dos variables
independientes), al diferenciar parcialmente por cada una de las incógnitas de la ecuación:
̂ ⋯
se obtiene que:
∑ ̂
2 … 1 0
∑ ̂
2 … 0
∑ ̂
2 … 0
(…)
∑ ̂
2 ⋯ 0
(…)
Nuestra primera tarea vuelve a ser la identificación del intercepto o , al igual que con el
caso de los modelos bivariados se reduce a dividir entre n ambos lados de la ecuación:
∑ ∑ ∑ …
Por consecuencia, como una extensión natural del cálculo del intercepto visto, la formula
se convierte en la ecuación: ⋯ , despejando el resultado es
la conocida ecuación:
⋯
∑ ∑ ∑
∑ 1
Una vez obtenidos los estimadores de MCO de los datos de la muestra, se derivan los
estimadores para los parámetros para la ecuación de regresión lineal. La función de regresión así
obtenida posee las siguientes propiedades:
a) Es una línea que cruza por el punto , .
b) La suma de los residuos mínimo-cuadráticos es igual a cero, esto es: ∑ ̂ 0
c) La suma de los productos cruzados entre la variable explicativa y los residuos es igual
a 0, es decir 0
d) La suma de los productos cruzados entre la variable explicada y los residuos es igual
a 0, es decir 0
Una vez que se ha realizado el ajuste por mínimos cuadrados, conviene disponer de algún
indicador que permita medir el grado de ajuste entre el modelo y los datos. En el caso de que se
hayan estimado varios modelos alternativos podría utilizarse medidas de este tipo, a las que se
denomina medidas de la bondad del ajuste, para seleccionar el modelo más adecuado.
La literatura estadística ofrece numerosas medidas de la bondad del ajuste. La más
conocida es el coeficiente de determinación, al que se designa por r2 o R cuadrado. (Gujarati &
Porter, 2010). Como se verá en otro momento, esta medida tiene algunas limitaciones, aunque es
válida para comparar modelos de regresión lineal simple.
El coeficiente de determinación se basa, fundamentalmente, en la descomposición de la
varianza de la variable dependiente o predicha, a la que denominaremos varianza total, en
términos de varianza explicada y residual. Vamos a ver a continuación como se obtiene esta
descomposición.
Recordemos que ̂
Restando a ambos miembros la media de Y , se tiene que: ̂
ANÁLISIS DE DATOS BIVARIADOS 33
∑ ∑ ∑ ̂
Algebraicamente se puede deducir con una simple sustitución que los valores extremos
del coeficiente de determinación son: 0, cuando la varianza explicada es nula, y 1, cuando la
varianza residual es nula, es decir, cuando el ajuste es perfecto.
ANÁLISIS DE DATOS BIVARIADOS 34
3. Análisis Bivariado
de datos cualitativos
ANÁLISIS DE DATOS BIVARIADOS 35
Fuente: propia.
Tal como se mencionara en el párrafo anterior, en lugar de utilizar sólo dos variables o criterios
de clasificación para generar una tabla de contingencia bidimensional, también se podría haber
utilizado tres o más criterios, lo que llevaría a obtener tablas multidimensionales.
Una vez familiarizados con lo que es una distribución conjunta y el marginal de una
tabla, podemos pasar a emplear una notación para referirnos a cada uno de los elementos que la
conforman. A los valores de la variable puestos en el eje de las filas se le denota como i y a los
puestos en el eje de las columnas como j, por lo que a la frecuencia conjunta se le conoce como
nij . Al máximo de i se le denota como I, y al máximo de j como J, de forma que en este ejemplo
I=2 y J=3. Para referirnos a la dimensión de la tabla, se estila multiplicar el número de filas por
los de columnas del modo I x J, en este caso sería de 2 (filas) x 3 (columnas), por lo que nos
referimos a esta como una tabla 2x3, lo que da un total de 6 casillas de frecuencias conjuntas. La
Tabla 1 permite ilustrar la forma convencional de notación empleada para las tablas de
contingencia. El resultado, es el siguiente:
Variable A
j=1 j=2 j=3 ⋅
⋅ ⋅ ⋅ ⋅ ∙∙
Aclarada la notación para las frecuencias conjuntas, veamos ahora la notación para los
marginales. Como ya vimos, los marginales se calculan sumando en el sentido en el que está la
variable. En nuestro ejemplo, la variable B conforma las columnas, y por tanto corresponde con
la letra j. Si estamos interesados en calcular la cantidad total de elementos en B (que se
corresponde con j=1), en términos de notación debemos sumar n11+n21, es decir, el subíndice i
cambia, pero el subíndice j se mantiene igual (j=1). Para expresar este cambio de la i y esta
constancia de la j diremos que el marginal es n·j, en este caso más en concreto n·1=n11+n21.
ANÁLISIS DE DATOS BIVARIADOS 38
Esto amerita que recordemos que el · significa que estamos sumando las filas (i) en el sentido de
las columna que estamos calculando (j).
Hasta ahora se ha presentado la notación para hacer referencia a la distribución conjunta
de variables, en términos de las frecuencias absolutas de cada casilla (en este caso, el número de
personas). Sin embargo, en algunas ocasiones el investigador puede preferir otras opciones a las
frecuencias absolutas, como es el caso de los porcentajes para poder comparar tanto poblaciones
de distinto tamaño como las casillas de una misma tabla en la que los marginales son distintos.
(Pardo & Ruíz, 2005). Lo habitual en ciencias sociales es que el resultado quede redondeado a un
decimal, a ninguno (menos frecuente en el ámbito académico) o quizá hasta la centésima (en un
prurito inútil de precisión), pero no más.
∗ 100
Donde hace referencia al porcentaje para una determinada casilla ij con base al total
(T), es el número de elementos que se encuentran en la casilla ij y N representa la sumatoria
de todos los elementos presentes en la tabla, para todas las filas y columnas.
Para el caso b cálculo de los porcentajes con base al total de las filas, si deseamos
calcular el porcentaje sobre la base de éste total, lo que habrá que hacer es dividir la frecuencia
de cada casilla (nij) sobre el total de la fila en cuestión ( ⋅ ). La fórmula, por tanto sería:
ANÁLISIS DE DATOS BIVARIADOS 39
∗ 100
⋅
Donde hace referencia al porcentaje para una determinada casilla ij con base al total
de la fila correspondiente ( ⋅ ), es el número de elementos que se encuentran en la casilla ij y
⋅ representa la sumatoria de todos los elementos presentes en la fila i, para todas las columnas.
Para el caso c cálculo de los porcentajes con base al total de las columnas, si deseamos
calcular el porcentaje sobre la base de éste total, lo que habrá que hacer es dividir la frecuencia
de cada casilla (nij) sobre el total de la columna en cuestión ( ⋅ ). La fórmula, por tanto sería:
∗ 100
⋅
Donde hace referencia al porcentaje para una determinada casilla ij con base al total
de la columna correspondiente ( ⋅ ), es el número de elementos que se encuentran en la
casilla ij y ⋅ representa la sumatoria de todos los elementos presentes en la columna j, para
todas las filas.
Como hemos visto hasta ahora, cuando trabajamos con bases de datos cualitativas, la
información que es capaz de proporcionarnos el estadístico estudiado, en los términos expuestos,
hace referencia únicamente a la frecuencia o cantidad de individuos que cumplen con una
determinada característica (simple o conjunta). En ningún caso se nos informa sobre la magnitud
con la cual se presenta el carácter en cuestión. De modo que, un análisis de los datos daría lugar
al tipo de pregunta siguiente: difieren de forma significativas las frecuencias observadas de las
que se esperarían si se cumpliera la hipótesis de nulidad?
Por esta razón se desarrolla la prueba de ji cuadrado también conocida como chi-
cuadrado. Algunos de los casos más emblemáticos para el uso de pruebas χ² son:
La prueba χ² de frecuencias
La prueba χ² de independencia
La prueba χ² de bondad de ajuste
La prueba χ² de Pearson con corrección por continuidad o corrección de Yates
La prueba de Bartlett de homogeneidad de varianzas
ANÁLISIS DE DATOS BIVARIADOS 40
Donde:
= valor estimado de chi cuadrado para los datos observados.
= el número de casos (frecuencia) observados en la i-ésima casilla.
= el número de casos (frecuencia) observados en la i-ésima casilla, cuando la hipótesis
nula es verdadera.
k= el número de categorías.
ANÁLISIS DE DATOS BIVARIADOS 41
La significación estadística de este valor estimado de chi cuadrado puede ser determinada
con el uso de tablas que resumen los valores críticos para distintas distribuciones muestrales que
se presentan como anexos en la mayoría de los textos de estadística inferencial. La distribución
de probabilidad para los valores estimados de chi cuadrado se comporta como una distribución
chi cuadrada con k-1 grados de libertad.
Donde:
= valor estimado de chi cuadrado para los datos observados.
= el número de casos (frecuencia) que cumple con la doble condición observados en la
i-ésima fila y j-ésima columna.
= el número de casos (frecuencia) que cumple con la doble condición observados en la
i-ésima fila y j-ésima columna, cuando la hipótesis nula es verdadera.
r= el número de categorías por filas.
ANÁLISIS DE DATOS BIVARIADOS 42
Dado que se trata de una tabla de doble entrada y bajo el supuesto de independencia para
la hipótesis de nulidad, la frecuencia esperada por celda debería ser proporcional a la distribución
total de filas y columnas. A diferencia del caso para la bondad de ajuste con una muestra, se
calcula la frecuencia esperada en cada celda con la fórmula:
⋅ ⋅
Donde:
Bibliografía
Abelson, R. (1998). La estadística razonada: reglas y principios. Barcelona: Paidós.
American Psychological Association. (01 de Junio de 2010). Ethical Principles of Psychologists
and Code of Conduct. Recuperado el 13 de Marzo de 2013, de
http://www.apa.org/ethics/code/index.aspx#
American Psychological Association. (2010). Manual de Publicaciones de la Amercan
Psychological Assciation (Tercera ed.). (M. Guerra Frias, Trad.) D.F., México: Manual
Moderno.
Anastasi, A., & Urbina, S. (1998). Test Psicológicos. D.F., México: Prentice Hall.
Aparicio M., G. (1985). Teoría subjetiva de la probabilidad: fundamentos, evolución y
determinación de probabildiades. Recuperado el 01 de Marzo de 2013, de
http://eprints.ucm.es/7818/1/01.pdf
Asamblea Nacional Constituyente. (30 de Diciembre de 1999). Constitución de la República
Bolivariana de Venezuela. Gaceta Oficial Nº 36.860. Caracas, Venezuela: Asamblea
Nacional.
Asamblea Nacional de la República Bolivariana de Venezuela. (12 de Diciembre de 2010).
Reforma de Ley Orgánica de Ciencia y Tecnología. Gaceta Oficial Nº 39.575. Caracas,
Venezuela: Asamblea Nacional.
Babbie, E. (1988). Métodos de investigació por encuesta. (J. Utrilla, Trad.) D.F., México: Fondo
de Cultura Económica.
Balluerka, N., & Vergara, A. (2002). Diseños de Investigación Experimental en Psicología.
Madrid, España: Prentice Hall.
Birnbaum, A. (1977). The Neyman-Pearson theory as decision theory, and as inference theory;
with a criticism of the Lindley-Savage argument for Bayesian theory. Synthese, 36(1),
19-49.
Brown, C., & Ghiselli, E. (1969). El método científico en Psicología. (E. Prieto, Trad.) Buenos
Aires, Argentina: Paidós.
ANÁLISIS DE DATOS BIVARIADOS 44
Pagano, R. (2011). Estadística para las ciencias del comportamiento. (M. Torres, Trad.) D.F.,
México: CENGAGE Learning.
Pardo, A., & Ruíz, M. (2005). Análisis de datos con SPSS 13 Base. Madrid, España: Mc Graw
Hill.
Popper, K. (1962). La Lógica de la Investigación Científica. Madrid, España: Tecnos.
Recalde, L. C. (2009). Los axiomas de la cantidad de Hölder y la fundamentación del continuo
lineal. Matemáticas: Enseñanza Universitaria, 101 - 121.
Reichenbach, H. (1949). The Theiry of Probability. Los Angeles, U.S.A.: University of
California Press.
Restrepo, L., & Gonzalez, J. (2003). La Historia de la Probabilidad. Revista Colombiana de
Ciencias Pecuarias, 83 - 87.
Rivadulla, A. (1991). Probabilidad e inferencia científica. Barcelona: Anthropos.
Saavedra, N. (2000). La axiomática de Kolmogorov: fundamentos de la teoría de la probabilidad.
Números, 43, 185-190.
Sáchez Carrion, J. (2001). Estadística, orden natural y orden social. Papers, 33 - 46.
Sáiz Roca, M., de la Casa Rivas, G., Dolores Saíz, L., Ruiz, G., & Sánchez, N. (2009).
Fundación y establecimiento de la Psicología Científica. En M. Sáiz Roca, Historia de la
Psicología (págs. 55 - 150). Barcelona: UOC.
Sáiz, M. (2009). Los tiempos de reacción. La ecuación personal y el impulso nervioso. En M.
Sáiz Roca, Historia de la Psicología (págs. 43 - 46). Barcelona: UOC.
Sáiz, M., & Sáiz, D. (2009). La Psicología Científica Británica. En M. Sáiz Roca, Historia de la
Psicología (págs. 97 - 113). Barcelona: UOC.
Siegel, S., & Castellan, N. (1995). Estadística No Paramétrica (Cuarta ed.). (L. Aragón, & L.
Fierros, Trads.) D.F., México: Trillas.
Sojo, V. (2004). Ética en Investigación Psicológica con Humanos. Manuscrito No publicado,
Universidad Central de Venezuela, Escuela de Psicología, Caracas.
Stahl, S. (2006). The evolution of the normal distribution. Mathematics Magazine, 96 - 113.
Stevens, S. (Abril de 1935). The Operational Basis of Psychology. The American Journal of
Psychology, 47(2), 323-330.
Stevens, S. (1935). The operational definition of psychological concepts. Psychological Review,
42(6), 517-527.
ANÁLISIS DE DATOS BIVARIADOS 48