Tema 4

TEMA 4: SERIES ESTADÍSTICAS BIVARIANTES.
REGRESIÓN
Representaciones gráficas
Diagrama de barras tridimensional
Diagrama de dispersión o nube de puntos

Sin considerar las frecuencias conjun.
El
diagrama de Dispersión que se representa a
continuación sería el caso de tener todos

los datos (xi, yj), para variables continuas.
En este caso, se representarían todos los
puntos con frecuencia conjunta 1.
Estereograma
Dependencias
Cuando hablamos del estudio conjunto de dos variables nos podemos preguntar si
existe algún tipo de relación entre las variables, o si se puede explicar el
comportamiento de una de ellas conociendo la otra, o bien los valores de una de las
variables influyen en la distribución de la otra, o si la variación de una de ellas explica
la variación de la otra.
Además analizando el problema nos podemos encontrar varias situaciones entre las
variables:
Dependencia funcional: entre las dos variables podemos encontrar una función
matemática que las una, por ejemplo, si se realiza un estudio de (X = fuerza, Y = peso)
Independencia: las variables no tienen ningún tipo de dependencia
Dependencia Estadística: existe algún tipo de dependencia entre las variables, cuando
no es posible expresar mediante una función matemática la relación existente entre
ambos caracteres.
Dependencia funcional
En el caso de dependencia funcional, se verifica que los valores de una variable van a
determinar exactamente los valores de la otra.
Se dice que Y depende funcionalmente de X si a cada valor de X le corresponde un
único valor de Y.
Independencia
Se dice que X e Y son Independientes si las distribuciones de frecuencias relativas de Y
condicionada a los valores de X coinciden (o viceversa). Los valores de una de las
variables no dan ninguna información sobre los posibles valores de la otra.
Propiedades:
1. La independencia es recíproca.
2. Se dice que dos variables X e Y son independientes cuando la frecuencia relativa
conjunta es igual al producto de las frecuencias relativas marginales en todos los casos,
es decir: fij = fi· × f·j para todo i, j
3. Otra caracterización es comprobar que las filas (columnas) de frecuencias en la tabla
de doble entrada son proporcionales.
Covarianza
Se define la Covarianza de las variables X e Y y se denotará por Sxy, como:
Regresión
Buscar la recta que mejor se adapte a la nube de puntos. El criterio que utiliza para
cuantificar el grado de ajuste es el de mínimos cuadrados.
Dada la variable bidimensional (X, Y), muchas veces es interesante buscar la función
que exprese lo mejor posible la relación existente entre las variables, con vistas a
poder predecir los valores de una de ellas a partir de los valores de la otra. En este
sentido, es necesario buscar cuál es la “mejor” función h(X) que aproxima a Y. El
criterio más usado para encontrar la “mejor” función suele ser el de mínimos
cuadrados, es decir, hallar la función h que haga lo más pequeña posible la cantidad.
Medida del ajuste. Correlación

Hemos visto cómo calcular la recta de regresión de Y sobre X para predecir los valores
de Y en función de la X. Sin embargo, es necesario saber cómo es de bueno el ajuste
hecho por la recta de regresión. Para ello, tenemos que introducir alguna cantidad que
nos mida el grado de ajuste de la recta. Si el ajuste es bueno, entonces las diferencias
entre los valores observados y los valores ajustados,
A ei se le denomina residuo y a S2e varianza residual. Sustituyendo a y b en la expresión
para la varianza residual y operando obtenemos
A la cantidad r se le llama coeficiente de correlación lineal. Obsérvese que la varianza
residual será más pequeña cuanto más cercano esté r a 1 ó a −1. Obsérvese también
que la varianza residual alcanza su valor más grande cuando r = 0, por lo tanto,
podemos medir el grado del ajuste realizado por la recta de regresión mediante el
coeficiente de correlación lineal.
CLPI. Correlación Lineal Perfecta e Inversa. El Modelo Lineal es exacto.
FCLI. Fuerte Correlación Lineal Inversa. Modelo Lineal adecuado. Predicciones Fiables
DCLI. Débil Correlación Lineal Inversa. Modelo Lineal Inadecuado. Incorrelación.
Ausencia Total de Correlación Lineal.
DCLD. Débil Correlación Lineal Directa. Modelo Lineal Inadecuado.
FCLD. Fuerte correlación Lineal Directa. Modelo Lineal adecuado. Predicciones Fiables
(r2= >0,75, esto es lo ideal)
CLPD. Correlación Lineal Perfecta y Directa. El Modelo Lineal es exacto.
Distribución
conjunta
Al igual que ocurría con una variable, una vez que se tienen los datos es muy
importante ordenarlos para poder trabajar de una manera más cómoda. Para ello
definimos el concepto de frecuencias en el caso de distribuciones bivariantes de la
siguiente manera:
La frecuencia (absoluta) conjunta del par (xi, yj), que denotaremos nij, es el número de
veces que aparece dicho par.
La frecuencia relativa conjunta del par (xi, yj), que denotaremos fij, es la proporción de
veces que se observa dicho par, es decir:
Una vez definidas las frecuencias, la tabla estadística que describe la distribución,
recibe el nombre de Tabla de Doble Entrada. Para construirla pondremos en la primera
columna los valores diferentes de la variable X, en la primera fila los de la variable Y y
en las intersección de la fila correspondiente a xi con la columna correspondiente a y j,
situaremos bien la frecuencia absoluta conjunta nij o bien la frecuencia relativa
conjunta fij. En el primer caso, se denomina tabla de frecuencias absolutas y en el
segundo tabla de frecuencias relativa.
Distribuciones Marginales
Las variables unidimensionales X e Y se denominan Distribuciones Marginales. Una vez
que se tenga su tabla de frecuencias, podemos trabajar con ellas de la misma manera
que se ha visto en los capítulos anteriores. Como siempre, para la construcción de la
tabla, primero necesitamos definir las frecuencias.
Frecuencia absoluta marginal de xi, que denotaremos ni., es el número de veces que X
presenta dicho valor, independientemente del valor que tome Y.
Frecuencia relativa marginal de xi, que denotaremos fi., es la proporción de veces que
aparece dicho valor, independientemente de la variable Y.
Frecuencia absoluta marginal de yj, que denotaremos n.j, es el número de veces que Y
presenta dicho valor, independientemente del valor que tome X.
Frecuencia relativa marginal de yj, que denotaremos f.j, es la proporción de veces que
Y presenta dicho valor, independientemente del valor que tome X.
Distribuciones condicionadas
A la distribución de frecuencias de la variable X en este subconjunto, definido por
aquellos individuos con Y = yj, se le denomina distribución de X condicionada a Y = yj.
En esta distribución X toma los valores x1, x2,..., xk con frecuencias absolutas
condicionadas o con frecuencias relativas condicionadas.
Análogamente podemos considerar la distribución de Y condicionada a X = xi, que
toma los valores y1, y2,..., yp con frecuencias absolutas condicionadas y relativas
condicionadas.
Las distribuciones condicionadas son distribuciones de una variable (en un
subconjunto de los datos originales), y por tanto tiene sentido, para cada una de ellas,
calcular las medidas estudiadas en los temas anteriores, como la media y la varianza.
Así, hablaremos de la media condicional de la variable X dado que Y = yj, X|Y =yj, ó la
mediana condicional de la variable Y dado que X = xi, Mey|X=xi ó de la varianza
condicional de la variable Y dado que X = xi, S 2 Y |X=xi.

Tema 4

Cargado por

Copyright:

Formatos disponibles

Tema 4

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema 4

Cargado por

Copyright:

Formatos disponibles

TEMA 4: SERIES ESTADÍSTICAS BIVARIANTES.

Diagrama de dispersión o nube de puntos

diagrama de Dispersión que se representa a

continuación sería el caso de tener todos

Medida del ajuste. Correlación

También podría gustarte