AADD RuizRivas Regresion Multiple 18
AADD RuizRivas Regresion Multiple 18
AADD RuizRivas Regresion Multiple 18
Donde:
Yx1,…xk es la variable aleatoria que representa los valores que
obtendremos cuando las Xs tomen los valores x1,…,x k
b0 + b1x1 + …+ bkxk es el valor esperado (medio) de la Y cuando
las Xs tomen los valores x1 ,…,x k
U representa la variabilidad aleatoria respecto al hiperplano
y = b0 + b1x1 + …+ bkxk
Supondremos que U sigue una distribución N(0, s) igual sea cual sea
el valor de las x’s.
Datos y estimación de los parámetros
4
Realizaremos una muestra aleatoria
con n valores de las k+1 variables:
n > k+1
Geométricamente, la nube
de puntos ahora está en un
espacio de dimensión k+1
¡Difícil de visualizar para k>2!
y = b0 + b1x1 + b2x2
11
Ejemplo 1
Estimación del tamaño de Trilobites
Rechazaremos H0 , al nivel a, si :
Coeficiente de determinación
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,909
Coeficiente de determinación R^2 0,826
R^2 ajustado 0,805
Error típico 8,323
Observaciones 20
Resumen de los contrastes
15
16
Ejemplo 2
Respiración de líquenes
Se estudia la tasa de respiración (en nmoles oxígeno g-1 min-1)
del liquen Parmelia saxatilis en crecimiento bajo puntos de
goteo con un recubrimiento galvanizado.
17 71 388 2414
Datos 53 258 10693
55 292 11682
48 205 12560
69 449 2464
84 331 2607
21 114 16205
68 580 2005
68 622 1825
* *
* *
*
* *
* * *
*
*
Datos *
Regresión de la tasa de respiración (RespRate) sobre el Potasio (K) y el Zinc (Zn).
19
La ecuación de regresión estimada es: RespRate = 101 - 0.0403 K - 0.00387 Zn
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,90
Coeficiente de determinación R^2 0,81
R^2 ajustado 0,79
Error típico 8,40
Observaciones 9
Error típico
Predicción de un nuevo valor de Y dados los
22 valores x10 ,…, xk0 de las variables explicativas
Error típico
23 Ejemplo 3
En un experimento sobre el efecto tóxico de un compuesto químico sobre
las larvas del gusano de seda, se inyectaron distintas dosis del compuesto
químico a 15 larvas de distintos pesos, midiéndose posteriormente su
supervivencia.
25 Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión ,464 2 ,232 59, 178 ,000a
Res idual ,047 12 ,004
Tot al ,511 14
a. Variables predic toras: (Constante), Log10 (peso), Log10 (dos is )
b. Variable dependiente: Log10 (superv iv encia)
Coefi cientesa
Estadíst ic os
Coef icientes
est andarizad
Coef icientes no est andarizados os
Modelo Variables B Error t íp. Beta t Sig.
1 (Constante) 2, 589 ,084 30, 966 ,000
Log10 (dos is ) -, 378 ,066 -, 580 -5,702 ,000
Log10 (pes o) ,875 ,172 ,516 5, 073 ,000
a. Variable dependiente: Log10 (superv iv encia)
26
Gráficos de regresión simple
27
Solución
Estimación de Log10 (Supervivencia) de L2 =
2,589 + 0,875 Log10(2,51) – 0,378Log10(3,16) = 2,75
Despejando
Log10(x) = 0,04 la dosis pedida es 100.04 = 1,10
Ejemplo 4
29 Los siguientes resultados corresponden al análisis realizado sobre los
cerezos negros en el Allegheny National Forest, Pennsylvania. Los datos
corresponden al volumen (en pies cúbicos), la altura (en pies) y el
diámetro (en pulgadas, a 54 pulgadas sobre la base) de 31 cerezos.
Se trata de estimar el volumen de un árbol (y por tanto su cantidad de
madera) dados su altura y su diámetro.
30
¿cuál es la curva
ajustada con el
modelo potencial?
Regresión simple (sólo el diámetro)
33 Residuos no tipificados
Correlaciones
(todos juntos) Estatura Braza Anchura tibia
Estatura 1,000 ,927 ,418
Braza ,927 1,000 ,398
Anchura tibia ,418 ,398 1,000
Coeficientesa
Coeficientes no Coeficientes
Anova
37 estandarizados tipificados p-valor = 0,000…
Modelo 1 (todos) B Error típ. Beta t Sig.
(Constante) 53,413 6,720 7,948 ,000
en los 3 modelos
Braza ,634 ,041 ,773 15,292 ,000 Modelo R R^2
Anchura tibia ,795 ,461 ,063 1,725 ,087
1 ,937a ,878
sexo 3,066 ,822 ,179 3,730 ,000
2 ,824a ,679
a. Variable dependiente: Estatura en cm
Coeficientesa 3 ,883a ,780
Coeficientes no Coeficientes
estandarizados tipificados
Modelo 2 (solo mujeres) B Error típ. Beta t Sig.
Un hombre 180 de braza 9 ancho tibia
(Constante) 61,093 8,999 6,789 ,000 Una mujer 165 de braza 8 ancho tibia
Braza ,615 ,051 ,819 12,008 ,000 Predicción alturas
Anchura tibia ,252 ,521 ,033 ,483 ,630 Para el hombre
a. Variable dependiente: Estatura en cm
Coeficientesa
Modelo 1: 177,7
Coeficientes no Coeficientes Modelo 3: 178,0
estandarizados tipificados
Para la mujer
Modelo 3 (solo hombres) B Error típ. Beta t Sig.
(Constante) 50,354 11,171 4,508 ,000 Modelo 1: 164,4
Braza ,604 ,077 ,747 7,801 ,000 Modelo 2: 164,6
Anchura tibia 2,092 ,986 ,203 2,121 ,041
a. Variable dependiente: Estatura en cm
¿Comentarios?
Modelo de regresión logística binaria
38
Ejemplo introductorio
El 4 de julio de 1999 una tormenta con vientos que excedían las 90 millas
por hora azotó el nordeste de Minnesota causando graves daños en los
bosques de un parque natural de la zona.
Los científicos analizaron los efectos de la tormenta determinando para
mas de 3.600 arboles del parque las siguientes variables:
Su diámetro en cm (variable D)
Una medida de la fuerza de la tormenta relacionada con el
porcentaje inerte de área basal* de cuatro de las especies (variable S)
El registro de si cada árbol había muerto (Y = 1) o si había sobrevivido
(Y = 0)
La especie a la que pertenecía cada árbol (variable SSP).
Tras un primer análisis descriptivo, parece que el diámetro D y la fuerza de
la tormenta S pueden ser útiles para estimar la probabilidad de
supervivencia de un árbol (Y)
*El área de un terreno ocupada por la sección de los troncos de los arboles en la base.
El modelo de regresión logística que veremos se utiliza
39
para investigar la relación entre una variable respuesta
cualitativa que toma dos posibles valores (en el ejemplo, la
variable Y: supervivencia si o no) y un conjunto de
variables regresoras continuas (en el ejemplo, las variables
D y S)
Es decir:
La probabilidad de éxito dependerá de los valores de las x’s
La fórmula (modelo) para esta probabilidad viene dada por la
función logística:
Diametro (D) Fuerza (S) Supervivencia Especie (SPP)
(Y)
41 Datos (ejemplo) 9,00 0,024 0 BF
7,00 0,028 0 BA
7,00 0,102 0 BS
Di es el diámetro del árbol i, 13,00 0,102 0 C
15,00 0,210 0 C
9,00 0,210 0 PB
Si mide la fuerza local de la 20,00 0,306 0 C
tormenta en la posición del 16,00 0,307 0 BS
árbol i 13,00 0,426 1 JP
7,00 0,429 0 BF
La supervivencia es: 18,00 0,509 1 PB
37,00 0,511 0 A
Yi = 1 si el árbol i no sobrevivió
16,00 0,626 1 JP
a la tormenta 15,00 0,628 1 BS
Yi = 0 en caso contrario. 9,00 0,716 1 BF
15,00 0,717 1 BS
n = 3.666 17,00 0,847 1 BS
14,00 0,847 0 RM
30,00 0,974 1 RP
8,00 0,983 1 BF
Predicho por
el modelo
vive muere % aciertos
Observado
vive 1562 420 79%
en la
muestra muere 526 1158 69%
Ejemplo
46
Se dispone de medidas en cm de la longitud y anchura del pétalo
y el sépalo de 100 lirios correspondientes a dos especies
diferentes: iris versicolor (y = 0) e iris virginica (y = 1).
Se ha ajustado un modelo de regresión logística a los datos con
el fin de estudiar la probabilidad de que un lirio pertenezca a
cada una de las dos especies en función de las cuatro medidas.