Tema 4
Tema 4
Tema 4
REGRESIÓN
Representaciones gráficas
Diagrama de barras tridimensional
El
Estereograma
Dependencias
Cuando hablamos del estudio conjunto de dos variables nos podemos preguntar si
existe algún tipo de relación entre las variables, o si se puede explicar el
comportamiento de una de ellas conociendo la otra, o bien los valores de una de las
variables influyen en la distribución de la otra, o si la variación de una de ellas explica
la variación de la otra.
Además analizando el problema nos podemos encontrar varias situaciones entre las
variables:
Dependencia funcional: entre las dos variables podemos encontrar una función
matemática que las una, por ejemplo, si se realiza un estudio de (X = fuerza, Y = peso)
Independencia: las variables no tienen ningún tipo de dependencia
Dependencia Estadística: existe algún tipo de dependencia entre las variables, cuando
no es posible expresar mediante una función matemática la relación existente entre
ambos caracteres.
Dependencia funcional
En el caso de dependencia funcional, se verifica que los valores de una variable van a
determinar exactamente los valores de la otra.
Se dice que Y depende funcionalmente de X si a cada valor de X le corresponde un
único valor de Y.
Independencia
Se dice que X e Y son Independientes si las distribuciones de frecuencias relativas de Y
condicionada a los valores de X coinciden (o viceversa). Los valores de una de las
variables no dan ninguna información sobre los posibles valores de la otra.
Propiedades:
1. La independencia es recíproca.
2. Se dice que dos variables X e Y son independientes cuando la frecuencia relativa
conjunta es igual al producto de las frecuencias relativas marginales en todos los casos,
es decir: fij = fi· × f·j para todo i, j
3. Otra caracterización es comprobar que las filas (columnas) de frecuencias en la tabla
de doble entrada son proporcionales.
Covarianza
Se define la Covarianza de las variables X e Y y se denotará por Sxy, como:
Regresión
Buscar la recta que mejor se adapte a la nube de puntos. El criterio que utiliza para
cuantificar el grado de ajuste es el de mínimos cuadrados.
Dada la variable bidimensional (X, Y), muchas veces es interesante buscar la función
que exprese lo mejor posible la relación existente entre las variables, con vistas a
poder predecir los valores de una de ellas a partir de los valores de la otra. En este
sentido, es necesario buscar cuál es la “mejor” función h(X) que aproxima a Y. El
criterio más usado para encontrar la “mejor” función suele ser el de mínimos
cuadrados, es decir, hallar la función h que haga lo más pequeña posible la cantidad.
Distribución
conjunta
Al igual que ocurría con una variable, una vez que se tienen los datos es muy
importante ordenarlos para poder trabajar de una manera más cómoda. Para ello
definimos el concepto de frecuencias en el caso de distribuciones bivariantes de la
siguiente manera:
La frecuencia (absoluta) conjunta del par (xi, yj), que denotaremos nij, es el número de
veces que aparece dicho par.
La frecuencia relativa conjunta del par (xi, yj), que denotaremos fij, es la proporción de
veces que se observa dicho par, es decir:
Una vez definidas las frecuencias, la tabla estadística que describe la distribución,
recibe el nombre de Tabla de Doble Entrada. Para construirla pondremos en la primera
columna los valores diferentes de la variable X, en la primera fila los de la variable Y y
en las intersección de la fila correspondiente a xi con la columna correspondiente a y j,
situaremos bien la frecuencia absoluta conjunta nij o bien la frecuencia relativa
conjunta fij. En el primer caso, se denomina tabla de frecuencias absolutas y en el
segundo tabla de frecuencias relativa.
Distribuciones Marginales
Las variables unidimensionales X e Y se denominan Distribuciones Marginales. Una vez
que se tenga su tabla de frecuencias, podemos trabajar con ellas de la misma manera
que se ha visto en los capítulos anteriores. Como siempre, para la construcción de la
tabla, primero necesitamos definir las frecuencias.
Frecuencia absoluta marginal de xi, que denotaremos ni., es el número de veces que X
presenta dicho valor, independientemente del valor que tome Y.
Frecuencia relativa marginal de xi, que denotaremos fi., es la proporción de veces que
aparece dicho valor, independientemente de la variable Y.
Frecuencia absoluta marginal de yj, que denotaremos n.j, es el número de veces que Y
presenta dicho valor, independientemente del valor que tome X.
Frecuencia relativa marginal de yj, que denotaremos f.j, es la proporción de veces que
Y presenta dicho valor, independientemente del valor que tome X.
Distribuciones condicionadas
A la distribución de frecuencias de la variable X en este subconjunto, definido por
aquellos individuos con Y = yj, se le denomina distribución de X condicionada a Y = yj.
En esta distribución X toma los valores x1, x2,..., xk con frecuencias absolutas
condicionadas o con frecuencias relativas condicionadas.
Análogamente podemos considerar la distribución de Y condicionada a X = xi, que
toma los valores y1, y2,..., yp con frecuencias absolutas condicionadas y relativas
condicionadas.
Las distribuciones condicionadas son distribuciones de una variable (en un
subconjunto de los datos originales), y por tanto tiene sentido, para cada una de ellas,
calcular las medidas estudiadas en los temas anteriores, como la media y la varianza.
Así, hablaremos de la media condicional de la variable X dado que Y = yj, X|Y =yj, ´o la
mediana condicional de la variable Y dado que X = xi, Mey|X=xi ´o de la varianza
condicional de la variable Y dado que X = xi, S 2 Y |X=xi.