Presentación Clase 5 Regresión Múltiple

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 20

Miguel Antonio Sándigo García

 La principal ventaja de la regresión múltiple


es que nos permite utilizar una parte mayor
de la información de que disponemos para
estimar la variable dependiente.
 En ocasiones la correlación entre 2 variables
puede ser insuficiente para determinar una
adecuada ecuación de estimación. Sin
embargo, si agregamos los datos de más
variables independientes, podremos obtener
una ecuación de estimación que describa la
relación con mayor precisión.
La regresión simple y el análisis de
correlación son un proceso de 3 pasos como
el que usamos en la regresión simple:
 definir la ecuación de regresión múltiple
 examinar el error estándar de estimación
para la regresión múltiple
 aplicar el análisis de correlación múltiple
para averiguar con qué eficacia describe la
ecuación de regresión los datos observados
 La regresión múltiple nos permitirá ajustar
curvas, lo mismo que líneas. Aplicando las
técnicas de las variables ficticias hasta
podemos incluir factores cualitativos, como el
sexo, en nuestra regresión múltiple.
 Las variables ficticias y las curvas de ajuste
no son más que 2 de las técnicas de
modelado que pueden aplicarse en la
regresión múltiple.
 Ejemplo: El Internal Revenue Service (IRS)
intenta estimar el importe mensual de los
impuestos no pagados descubiertos por su
departamento de auditoría. Esta oficina lo
estimaba basándose en el número esperado
de horas de trabajo en auditoría de campo.
Sin embargo, en años recientes esas horas se
han convertido en un pronosticador errático
de los verdaderos impuestos no pagados. Y
por ello el IRS busca otro factor con el cual
pueda mejorar la ecuación de estimación.
 El departamento de auditoría lleva un registro
del número de horas que sus computadoras
tardan en detectar los impuestos no pagados.
¿Podríamos combinar esta información con
los datos de las horas de trabajo en auditoría
de campo y llegar a obtener una ecuación de
estimación más precisa para los impuestos
no pagados descubiertos al mes?
 En la tabla siguiente presenta estos datos
para los últimos 10 meses.
 La fórmula que podemos aplicar cuando
tengamos 2 variables independientes es:

Ŷ = a + b 1 x1 + b 2 x2
El problema consiste en decidir cuál de los
planos posibles que podríamos trazar será el de
mejor ajuste. Para hacer esto, volveremos a
aplicar el criterio de mínimos cuadrados y
encontraremos así el plano que minimice la suma
de los cuadrados de los errores; esto es las
distancias entre los puntos alrededor del plano y
los puntos correspondientes sobre él. Para esto
recurriremos a las siguientes tres ecuaciones:
 ΣY = na + b1Σx1 + b2Σx2

 Σx1y = aΣx1 + b1Σx12 + b2Σx1x2

 Σx2y = aΣx2 + b1Σx1x2 + b2Σx22

 Usando la información de la tabla en las


ecuaciones, obtenemos 3 ecuaciones para las
tres constantes desconocidas (a,b1 y b2), las
que denotamos a continuación como
ecuación 1,2 y 3 respectivamente.
 272 = 10a + 441b1 + 147b2 ecuación 1
 12,005 = 441a +19,461b1 + 6,485b2 ecuación2
 4,013 = 147a + 6,485b1 + 2,173b2 ecuación 3

 PASOS:
 1.Se multiplica la ec.1 por -441. se multiplica la
ec.2 por 10. se suma ec.1 y 2. Este proceso elimina
la constante a y genera la ecuación 4.
 2. Se multiplica la ec.1 por -147 y la ec.3 por 10.
Se suma ec.1 y 3. Este proceso elimina la constante
a y genera la ecuación 5.
 3. Se multiplica la ecuación 4 por -23 y la ecuación 5
por 129. Se suma ec.4 y 5 para eliminar b1. Este
procedimiento genera la ecuación 6, que puede
resolverse para hallar b2.
 4. Se encuentra el valor de b1, sustituyendo el valor
para b2 en la ecuación 4.
 5. Se sustituyen los valores de b1 y b2, en la ecuación
1 para determinar el valor de a.
 6. Se sustituyen los valores de a, b1 y b2 en la
ecuación general de regresión de dos variables. La
ecuación resultante describe la relación entre el
número de horas de trabajo en auditoría de campo, el
número de horas de computadora y los impuestos no
pagados descubiertos por el departamento de auditor
Ŷ = -13.828 + 0.564X1 + 1.099X2

El departamento de auditoría puede emplear


está ecuación mensualmente para estimar la
cantidad de impuestos no pagados que
descubrirá.
Se = √ 𝞢( Y – Ŷ)2 / n – k - 1

Y = valores muestrales de la variable dependiente


Ŷ = valores estimados correspondientes de la
ecuación de regresión
n = número de puntos de datos en la muestra
k = número de variables independientes
 El denominador de esta ecuación indica que,
en la regresión múltiple con k variables
independientes, el error estándar tiene n-k-1
grados de libertad.

 Debido a la manera en que se calcula, en


ocasiones Se recibe el nombre de raiz del
error cuadrático medio.
Ŷ +/- t (Se)
 Como el caso de la regresión simple, podemos usar
el error estándar de estimación y la distribución t
para crear un intervalo de confianza aproximado
alrededor de nuestro valor estimado de Ŷ.

 Ejemplo: si queremos construir un intervalo de


confianza del 95% alrededor de cualquier
estimación, se busca en la tabla bajo la columna
del 2.5% hasta encontrar el reglón de n-k-1.
 Es la fracción que representa la proporción de
la variación total de Y que es “explicada” por
el plano de regresión.
 De manera similar a la correlación simple, en
la correlación múltiple mediremos la
consistencia de la relación entre tres variables
empleando el coeficiente de determinación
múltiple, R2, o su raíz cuadrada, R (el
coeficiente de correlación múltiple).
Construcción de Modelos de
Regresión Multivariantes
 Se conoce como análisis de regresión
multivariante al método estadístico que
permite establecer una relación matemática
entre un conjunto de variables X1, X2 .. Xk
(covariantes o factores) y una variable
dependiente Y. Se utiliza fundamentalmente
en estudios en los que no se puede controlar
por diseño los valores de las variables
independientes, como suele ocurrir en los
estudios epidemiológicos y observacionales.
Objetivos de un modelo de
regresión
 Los objetivos de un modelo de regresión puede
ser dos:
 Obtener una ecuación que nos permita "predecir"
el valor de Y una vez conocidos los valores de X1,
X2 .. Xk. Se conocen como modelos predictivos.
 Cuantificar la relación entre X1, X2 .. Xk y la
variable Y con el fin de conocer o explicar mejor
los mecanismos de esa relación. Se trata de
modelos explicativos, muy utilizados cuando se
busca encontrar qué variables afectan a los
valores de un parámetro fisiológico, o cuáles son
los posibles factores de riesgo que pueden influir
en la probabilidad de que se desarrolle una
patología.
Problema de construir un modelo
multivariante
 Un problema fundamental que se plantea a la
hora de construir un modelo multivariante es qué
factores X1, X2 .. Xk incluir en la ecuación, de tal
manera que estimemos el mejor modelo posible
a partir de los datos de nuestro estudio. Para ello
lo primero que habría que definir es qué
entendemos por "mejor modelo".
Si buscamos un modelo predictivo será aquél
que nos proporcione predicciones más fiables,
más acertadas; mientras que si nuestro objetivo
es construir un modelo explicativo, buscaremos
que las estimaciones de los coeficientes de la
ecuación sean precisas, ya que a partir de ellas
vamos a efectuar nuestras deducciones.
Cumplidos esos objetivos es claro que otra
característica deseable de nuestro modelo es
que sea lo más sencillo posible.

También podría gustarte