Proyecto Final Estadistica
Proyecto Final Estadistica
Proyecto Final Estadistica
Se utiliza para describir ciertos tipos de procesos, entre los que se encuentran la
distribución de llamadas telefónicas que llegan a un conmutador, las solicitudes de
pacientes que requieren servicio en una institución de salud, las llegadas de camiones
y automóviles a una caseta de cobro, y el número de accidentes registrados en cierta
intersección. Estos procesos tienen en común un elemento: pueden ser descritos
mediante una variable aleatoria discreta que toma valores enteros (0, 1, 2, 3, 4, 5, …,
etc).
Formula de la Distribución de Poisson
x factorial
Ejemplo: 𝜆𝑥 ⋅ ⅇ −𝜆
𝑃 𝑥 =
𝑥!
Suponga que estamos investigando la seguridad de una peligrosa
intersección. Los registros policiacos indican una media de cinco accidentes
mensuales en esta intersección. El número de accidentes está distribuido de
acuerdo con una distribución de Poisson, y el Departamento de Seguridad de
Tránsito desea que calculemos la probabilidad de que en cualquier mes ocurran
exactamente 0, 1, 2, 3 o 4 accidentes.
𝑥=𝟎 Ocurrencias
𝑃 0 = 0.00674 = 0.67%
Datos: Número medio de
𝜆=5 presentaciones por
intervalos de tiempo
𝑥=𝟏 Ocurrencias
𝑃 1 = 0.0337 = 3.37%
Datos: Número medio de
𝜆=5 presentaciones por
intervalos de tiempo
𝑥=𝟐 Ocurrencias
𝑃 2 = 0.08422 = 8.42%
Datos: Número medio de
𝜆=5 presentaciones por
intervalos de tiempo
𝑥=3 Ocurrencias
𝑃 3 = 0.1404 = 14.04%
Datos: Número medio de
𝜆=5 presentaciones por
intervalos de tiempo
𝑥=𝟒 Ocurrencias
𝑃 4 = 0.1755 = 17.55%
Distribución Normal
Es un modelo teórico capaz de aproximar satisfactoriamente el valor de una
variable aleatoria a una situación ideal. En esta distribución se ven casos en que la
variable aleatoria puede tomar cualquier valor que esté en un intervalo de valores
dado, y para los cuales la distribución de probabilidad es continua.
Existen dos razones fundamentales por las cuales la distribución normal ocupa un
lugar tan prominente en la estadística. Primero, tiene algunas propiedades que la
hacen aplicable a un gran número de situaciones en las que es necesario hacer
inferencias mediante la toma de muestras. Segundo, la distribución normal casi se
ajusta a las distribuciones de frecuencias reales observadas en muchos fenómenos,
incluyendo características humanas (peso, altura, coeficiente intelectual), resultados
de procesos físicos (dimensiones y rendimientos), y muchas otras medidas de interés
para los administradores, tanto en el sector público como en el privado
Características de la distribución normal de probabilidad
1. La curva tiene un solo pico; por tanto, es unimodal. Tiene la forma de campana
que mencionamos anteriormente.
2. La media de una población distribuida normalmente cae en el centro de su curva
normal.
3. Debido a la simetría de la distribución normal de probabilidad, la mediana y la
moda de la distribución se encuentran también en el centro; en consecuencia,
para una curva normal, la media, la mediana y la moda tienen el mismo valor
4. Las dos colas de la distribución normal de probabilidad se extienden
indefinidamente y nunca tocan el eje horizontal (desde luego, esto es imposible de
mostrar de manera gráfica).
100%
50% 50%
Limite Limite
Inferior Superior
∗ ∗𝜇
Fórmula: z = Área Bajo la curva
𝑧 =𝑥−𝜇 𝜎 (Sigma)=Desviación estándar
𝜎 𝜇 = Media de Población
Tabla #1
Ejemplo:
■ 5-46 Glenn Howell, vicepresidente de personal de la Standard Insurance, ha
desarrollado un nuevo programa de capacitación completamente adaptable al
ritmo de los usuarios. Los nuevos empleados trabajan en varias etapas a su propio
ritmo de trabajo; el término del entrenamiento se da cuando el material es
aprendido. El programa de Howell ha resultado especialmente efectivo en acelerar
el proceso de capacitación, ya que el salario de un empleado durante el
entrenamiento es de sólo 67% del que ganaría al completar el programa. En los
últimos años, el promedio de término del programa ha sido de 44 días, con una
desviación estándar de 12 días.
Fórmula:
𝑧 = 33 − 44
= 0.9166 = 0.92
12
Según tabla #1
𝑧 =0.3212
𝑥 = 42
𝑧 = 42 − 44
= 0.1666 = 0.17
12
Según tabla #1
𝑧 =0.0675
50% 50%
0.3212
0.0675
Limite
Inferior
Limite
33 42
∗
44
Superior
Fórmula: Datos: 𝑥 = 30
𝑧 =𝑥−𝜇 𝜇 = 44
𝜎 = 12
𝑃(𝑥 =30) 𝜎
𝑧 = 30 − 44
= 1.1666 = 1.17
12
Según tabla #1
𝑧 =0.3790
0.50
0.3790
Limite
Inferior
Limite
30
∗
44
Superior
Fórmula: Datos: 𝑥 = 25
𝑧 =𝑥−𝜇 𝑥 =60
𝜇 = 44
𝑃(𝑥 = 25) 𝜎 𝜎 = 12
𝑧 = 25 − 44
= 1.5833 = 1.58
12
Según tabla #1
𝑧 =0.4429
𝑃(𝑥 = 60)
𝑧 = 60 − 44
= 1.3333 = 1.33
12
Según tabla #1
𝑧 =0.4082
𝑃 𝑥 > 60 = 0.50-0.4429 = 0.0571 = 5.71%
𝑃 𝑥 < 25 = 0.50-0.4082 = 0.0918 = 9.18%
𝑃 𝑥 < 25 ó > 60 = 9.18% ó 5.71%
50% 50%
Limite
Inferior
Limite
25
∗
44
Superior
60
Introducción al muestreo
Es común que los compradores prueben una porción pequeña de queso antes de
comprar alguno; a partir del trocito, determinan el sabor de queso completo. Lo
mismo hace un químico cuando toma una muestra de whisky de una barrica,
determina que es de grado 90 e infiere que todo el whisky de esa barrica es de ese
grado. Si el químico examinara todo el whisky o los compradores probaran todo el
queso, no quedaría nada para vender. Probar todo el producto es innecesario y a
menudo, destructivo. Para determinar las características del todo, tenemos que
muestrear sólo una porción. El tiempo también es un factor importante cuando los
administradores requieren obtener información rápidamente para ajustar una
operación o modificar una política.
Algunas veces es posible y práctico examinar a cada persona o elemento de la
población que deseamos describir. Esta acción se conoce como enumeración
completa o censo. Se recurre al muestreo cuando no es posible contar o medir
todos los elementos de la población
Los especialistas en estadística usan la palabra población para referirse no sólo a
personas sino a todos los elementos que han sido escogidos para su estudio y la
palabra muestra para describir una porción escogida de la población.
Matemáticamente, podemos describir muestras y poblaciones al emplear
mediciones como la media, la mediana, la moda y la desviación estándar. Cuando
estos términos describen las características de una muestra, se denominan
estadísticas. Cuando describen las características de una población, se llaman
parámetros.
Símbolos Estándar
Población Muestra
Parámetros Estradísticas
N= Tamaño de la Población n=Tamaño de la Muestra
𝜇 =Media de la Poblacion 𝑥=
ҧ Media de la Muestra
𝜎=Desviación estándar de la Población s=Desviación estándar de la Muestra
Existen dos métodos para seleccionar muestras de poblaciones:
Ejemplo:
El Congreso se encuentra en el debate sobre algunas leyes de control de
armas. Se pide que se lleve a cabo una encuesta de opinión. Debido a que los
cazadores son los más afectados por las leyes de control de armas, se va a una
hostería de cazadores para hacer las entrevistas. Después se informa que en
una encuesta realizada, cerca del 97% de quienes respondieron estaba a favor
de derogar todas las leyes de control de armas.
Una semana después el Congreso estudia otro proyecto de ley: “¿Debe
darse a las mujeres embarazadas trabajadoras una incapacidad por
maternidad de un año con salario completo para cuidar a sus bebés?” Como
este asunto afecta más a las mujeres, esta vez se decide ir a los complejos de
oficinas de la ciudad y entrevistar a empleadas en edad de tener hijos. De
nuevo se informa que en un sondeo realizado, alrededor del 93% de quienes
respondieron estaba a favor de la incapacidad de un año por maternidad con
pago completo.
En ambas situaciones se seleccionó una muestra sesgada al elegir a personas que
tienen un fuerte interés en el asunto. ¿Cómo se puede estar seguro de que los
entrevistadores que proporcionan la información no cometen el mismo error? La
respuesta es que no se puede, a menos que tengan una excelente reputación respecto
a la realización de sondeos estadísticamente exactos. Sin embargo, es posible tomar en
cuenta los riesgos derivados de no pedir más información o investigar más la
competencia de las compañías encuestadoras.
Ejemplo:
Supongamos que tenemos una población de cuatro estudiantes en un
seminario y queremos muestras de dos estudiantes cada vez para entrevistarlos. En
la siguiente tabla ilustramos todas las combinaciones posibles de muestras de dos
estudiantes en una población de cuatro, la probabilidad de cada muestra de ser
seleccionada y la de que cada estudiante esté en una muestra
En este ejemplo se utiliza una población finita de cuatro estudiantes. Por finito
nos referimos a que la población tiene un tamaño establecido o limitado, es decir,
existe un número entero (N) que indica cuántos elementos hay en la población.
Ciertamente, si muestreamos sin “reemplazar” al estudiante, pronto agotaremos
nuestro pequeño grupo de población. Observe también que si muestreamos con
reemplazo (es decir, si sustituimos al estudiante muestreado inmediatamente
después de haber sido escogido y antes de elegir al segundo estudiante), la misma
persona podría aparecer dos veces en la muestra.
Ejemplo:
Si una investigación de mercado tiene la intención de determinar por
muestreo el número promedio de televisores por casa en una ciudad grande,
podrían usar un mapa de la ciudad para dividir el territorio en manzanas y luego
escoger un cierto número de éstas (racimos) para entrevistar a sus habitantes.
Cada casa perteneciente a cada una de estas manzanas sería considerada para
entrevistar a sus habitantes.
Un procedimiento de muestreo de racimo bien diseñado puede producir una
muestra más precisa a un costo considerablemente menor que el de un
muestreo aleatorio simple
3. Muestreo Sistemático
En este método los elementos son seleccionados de la población dentro de un
intervalo uniforme que se mide con respecto al tiempo, al orden o al espacio.
Ejemplo:
Si tuviera que entrevistar a cada vigésimo estudiante de una universidad,
escogería un punto de inicio aleatorio entre los primeros 20 nombres del directorio
estudiantil y luego seleccionaría cada veintavo nombre de ahí en adelante.
El muestreo sistemático difiere del muestreo aleatorio simple en que cada elemento
tiene igual oportunidad de ser seleccionado, pero cada muestra no tiene una
posibilidad igual de ser seleccionada.
Pero el muestreo sistemático también tiene ventajas. Aun cuando este tipo de
muestreo puede ser inapropiado cuando los elementos entran en un patrón
secuencial, este método puede requerir menos tiempo y, algunas veces, tiene como
resultado un costo menor que el método de muestreo aleatorio simple
4. Muestreo Estratificado. (Dos formas de tomar muestras
estratificadas).
Ejemplo:
Supongamos que los pacientes de un médico están divididos en cuatro grupos de
acuerdo con su edad. El médico desea averiguar cuántas horas duermen sus pacientes.
Para obtener una estimación de esta característica de la población, podría tomar una
muestra aleatoria de cada uno de los cuatro grupos de edades y ponderar las muestras
de acuerdo con el porcentaje de pacientes en ese grupo.
La ventaja de las muestras estratificadas es que, cuando se diseñan adecuadamente,
reflejan de manera más precisa las características de la población de la cual fueron
elegidas, en comparación con otro tipo de muestras.
Es una técnica estadística sistemática cuyo objetivo es realizar una serie de
pruebas en las que se introducen cambios deliberados para averiguar si
determinados factores influyen en la variable de interés o estudio y si existe
influencia de algún factor en el proceso o producto y cuantificarla.
Conceptos:
Evento: Uno o mas resultados posibles de hacer algo.
Experimento: Actividad que tendría como resultado tales eventos.
Ejemplo:
Se afirma que una batería Crankmaster pondrá en marcha mejor el motor
de su automóvil que una batería X. Crankmaster puede diseñar su experimento de la
siguiente manera:
Objetivo Éste es nuestro punto de inicio. Crankmaster desea probar su batería frente a
su principal competidor. Aunque es posible diseñar un experimento que pruebe las dos
baterías con respecto a varias características (tiempo de vida, tamaño, poder de
arranque, peso y costo, para nombrar sólo unas cuantas), Crankmaster ha decidido
limitar este experimento a su poder de arranque.
Análisis de los datos Los datos obtenidos sobre las pruebas de las 20 baterías
individuales están sujetos a la prueba de hipótesis.
Una distribución de probabilidad de todas las medias posibles de las muestras es una
distribución de las medias de las muestras. Los especialistas en estadística la conocen
como distribución de muestreo de la media.
Ejemplo:
Supongamos que deseamos saber algo sobre la estatura de los alumnos de
nuevo ingreso de una gran universidad estatal. Podríamos tomar una serie de
muestras y calcular la estatura media de cada muestra. Es altamente improbable que
todas estas medias de muestra fueran iguales; es de esperar alguna variabilidad en
las medias observadas. Esta variabilidad en las estadísticas de muestras proviene de
un error de muestreo debido al azar; es decir; hay diferencias entre cada muestra y la
población, y entre las diversas muestras, debido únicamente a los elementos que
decidimos escoger para las muestras.
La desviación estándar de la distribución de las medias de las muestras mide el grado
hasta el cual es de esperar que varíen las medias de las diferentes muestras, debido a
este error cometido en el proceso de muestreo. Por tanto, la desviación estándar de la
distribución de una estadística de muestra se conoce como error estándar de la
estadística.
El error estándar indica no sólo el tamaño del error al azar que se ha cometido, sino
también la probable precisión que puede obtenerse al utilizar una estadística de muestra
para estimar un parámetro de población. Una distribución de medias de muestra que
está menos extendida (y que tiene un error estándar pequeño) constituye una mejor
estimación de la media de la población que una distribución de medias de muestra que
está ampliamente dispersa y que tiene un error estándar más grande.
La estimación en estadística es un conjunto de técnicas que permite dar un valor
aproximado de un parámetro de una población a partir de los datos proporcionados
por una muestra. Hay dos tipos de de estimaciones:
Cálculo de estimaciones
Todo el mundo hace estimaciones. Cuando está por cruzar una calle, hace una
estimación de la velocidad del automóvil que se acerca, de la distancia que hay entre
usted y el auto y de su propia velocidad. Habiendo hecho rápidamente todas estas
estimaciones, usted decide si espera, camina o corre. Los administradores también
deben hacer estimaciones rápidas. El resultado de estas estimaciones puede afectar
sus organizaciones de manera tan seria como el resultado de su decisión de cruzar la
calle.
50% 50%
19 𝑥ҧ = 25 21
FORMULAS
Primer paso:
Datos
n = 40 nivel de confianza (nc)=90%
𝑥ҧ = 1416
𝜎 = 30
Formula
Error estándar Población Infinita
Segundo paso:
Definir que tipo de población (N) es: en este caso es población Infinita 𝜎
𝜎𝑥ҧ =
𝑛
Tercer paso: Sustituir valores:
30 30
𝜎𝑥ҧ = = = 𝟒. 𝟕𝟒𝟑𝟒 Error estándar de la media
40 6.3245
Cuarto paso: Dibujar la Grafica de distribución normal
Limite Limite
Inferior Superior
∗
1408.22 𝑥ҧ = 1416 ∗1423.78
redondeado
Media de la proporción 𝑝ҧ = 0.8778
(proporción de éxito)
Aquellas personas que piensan que las corbatas de cachemira están de moda
(0.8778)(0.1222)
𝜎𝑝ҧ = = 0.034523286 = 0.0345
90
Lim. Sup 𝑝ҧ + 𝑧𝜎𝑝ҧ
Intervalos 0.8778+(2.33)(0.0345) = 0.8778 + 0.0804 = 0.95185 = 0.9582
De
Confianza
Lim. Inf. 𝑝ҧ − 𝑧𝜎𝑝ҧ
0.8778 - 2.33 0.0345 = 0.8778 − 0.0804 = 0.7974
Limite Limite
Inferior Superior
∗
0.7974 𝑝ҧ ∗
= 0.8778 0.9582
Nos mostrarán cómo determinar tanto la naturaleza como la fuerza de una relación
entre dos variables. El término regresión fue utilizado por primera vez como un
concepto estadístico en 1877 por sir Francis Galton. Más tarde, los estadísticos acuñaron
el término regresión múltiple para describir el proceso mediante el cual se utilizan varias
variables para predecir otra.
Tipos de relaciones
Los análisis de regresión y de correlación se basan en la relación, o asociación,
entre dos (o más) variables. La variable (o variables) conocida(s) se llaman
variable(s) independiente(s); la que tratamos de predecir es la variable
dependiente.
A menudo encontramos una relación causal entre variables, esto es, la variable
independiente “causa” cambios en la variable dependiente.
Por esta razón, es importante considerar que las relaciones encontradas por la
regresión son relaciones de asociación, pero no necesariamente de causa y efecto.
A menos que tenga razones específicas para creer que los valores de la variable
dependiente se originan por los valores de las variables independientes, no infiera
causalidad en las relaciones encontradas por la regresión.
Diagramas de dispersión
El primer paso para determinar si existe una relación entre dos variables es
examinar la gráfica de los datos observados (o conocidos). Esta gráfica o dibujo se
llama diagrama de dispersión.
Diagrama de dispersión
de las calificaciones de
estudiantes en
exámenes de admisión
graficadas contra el
promedio general
acumulado
Diagrama de
dispersión en donde la
línea recta representa
la relación entre X y Y
“ajustada”
En este caso, la línea trazada a través de los puntos representa una relación directa,
porque Y se incrementa al aumentar X. Como los puntos están relativamente cerca
de esta línea, podemos decir que existe un alto grado de asociación entre las
calificaciones de exámenes y el promedio de calificaciones acumulativo. Relación
Lineal
La figura ilustra la La dirección de la
relación curvilínea del curva puede indicar
fenómeno de “curva si la relación
de aprendizaje”. curvilínea es directa
Relación curvilínea o inversa. La curva
entre el tiempo de de la figura
construcción de un describe una
nuevo avión y el relación inversa
número de unidades porque Y disminuye
producidas al aumentar X.
La relación entre las variables X y Y también puede tomar la forma de una curva. Los
especialistas en estadística la llaman relación curvilínea. Los empleados de muchas
industrias, por ejemplo, experimentan lo que se denomina “curva de aprendizaje”,
es decir, al fabricar un nuevo producto, el tiempo requerido para producir una
unidad se reduce en alguna proporción fija al duplicarse el número total de
unidades. Una industria de este tipo es la aviación. El tiempo de fabricación por
unidad de una nueva aeronave tiende a disminuir 20% cada vez que se duplica el
número de nuevos aviones terminados.
Relaciones posibles entre X y Y en diagramas de dispersión
Las gráficas (a) y (b) muestran relaciones lineales directas e inversas. Las gráficas (c) y (d)
son ejemplos de relaciones curvilíneas que indican asociaciones directas e inversas entre
variables, respectivamente. La gráfica (e) ilustra una relación lineal inversa con un patrón de
puntos ampliamente disperso. Esta mayor dispersión indica que existe menor grado de
asociación entre las variables independiente y dependiente que el existente en la gráfica
(b). El patrón de puntos en la gráfica (f) parece indicar que no existe relación entre las dos
variables; por tanto, conocer el pasado referente a una variable no nos permitirá
pronosticar ocurrencias futuras
Estimación mediante la recta de regresión
𝑌 = 𝑎 + 𝑏𝑋
Ordenada Y
Pendiente de la recta
Línea recta con
pendiente
positiva, con la
ordenada Y y dos
puntos en la línea
designada
Podemos encontrar a
visualmente (la ordenada Y)
localizando el punto donde la
recta cruza el eje Y. En la figura
esto sucede cuando a = 3.
𝑌2 − 𝑌1
𝑏=
𝑋2 − 𝑋1
𝑌 = 𝑎 + 𝑏𝑥
Donde:
𝑌 es el valor estimado para Y para distintos X
𝑎 es la intersección o el valor estimado de Y cuando X=0
𝑏 es la pendiente de la línea o el cambio promedio de 𝑌 para cada
cambio en una unidad de X
Dos líneas de estimación diferentes ajustadas a los mismos tres puntos observados; se
muestran errores en ambos casos
Los estadísticos han desarrollado dos ecuaciones que podemos utilizar para encontrar la
pendiente y la ordenada Y de la recta de regresión de mejor ajuste.
La primera fórmula calcula la pendiente:
Donde:
𝑎 = 𝑌ത − 𝑏𝑋ത regresión de
mínimos
cuadrados
Donde:
•a ordenada Y
•b pendiente de la ecuación
• 𝑌ത media de los valores de la variable dependiente
•𝑋ത media de los valores de la variable independiente
Con estas dos ecuaciones, podemos encontrar la recta de regresión de mejor ajuste
para cualquier conjunto de puntos para dos variables.
El error estándar de la estimación
Para medir la confiabilidad de la ecuación de estimación, los especialistas en
estadística han desarrollado el error estándar de la estimación. Este error
estándar se simboliza por "Se".
2
𝑌 − 𝑌
𝑠ⅇ =
𝑛−2
Donde:
σ 𝑌 2 − 𝑎 σ 𝑌 − 𝑏 σ 𝑋𝑌
𝑠ⅇ =
𝑛−2
donde:
•X valores de la variable independiente
•Y valores de la variable dependiente
•a ordenada Y de la ecuación
•b pendiente de la ecuación de estimación de la ecuación
•n número de puntos
Análisis de Correlación
El análisis de correlación es la herramienta estadística que podemos usar para describir
el grado en el que una variable está linealmente relacionada con otra.
Los estadísticos han desarrollado dos medidas para describir la correlación entre dos
variables: el coeficiente de determinación y el coeficiente de correlación.
El coeficiente de determinación
2
𝑌 − 𝑌
𝑟2 = 1 −
𝑌 − 𝑌ത 2
𝑌 = 4X
Interpretación de los valores 𝑟 2
Un punto que debemos resaltar es que 𝑟 2 mide sólo la fuerza de una relación lineal
entre dos variables. Por ejemplo, si tuviéramos muchos puntos X y Y, y todos
cayeran en la circunferencia de un círculo, aunque dispersos aleatoriamente,
claramente habría una relación entre estos puntos (todos están en el mismo
círculo). Pero en este caso, si calculáramos 𝑟 2 , resultaría estar cerca de cero, porque
los puntos no tienen una relación lineal entre ellos
Método abreviado para obtener
el coeficiente de determinación de la muestra
𝑎𝛴𝑌+𝑏 σ 𝑋𝑌−𝑛 ത
𝑌 2
𝑟2=
𝑌 2 −𝑛𝑌ത 2
donde:
• 𝑟2 coeficiente de determinación de la muestra
•a ordenada Y
•b pendiente de la línea de estimación de mejor ajuste
•n número de puntos de datos
•X valores de la variable independiente
•Y valores de la variable dependiente
• 𝑌ത media de los valores observados de la variable dependiente
Desviación total,
desviación explicada y
desviación no
explicada para un valor
observado de Y
El coeficiente de correlación
El coeficiente de correlación es la segunda medida que podemos usar para describir
qué tan bien explica una variable a otra. Cuando tratamos con muestras, el
coeficiente de correlación de la muestra se denota por r y es la raíz cuadrada del
coeficiente de determinación de muestra:
𝑟= 𝑟2
Cuando la pendiente de la ecuación de estimación es positiva, r es la raíz cuadrada
positiva, pero si b es negativa, r es la raíz cuadrada negativa. Entonces, el signo de r
indica la dirección de la relación entre las dos variables X y Y. Si existe una relación
inversa —esto es, si Y disminuye al aumentar X—, entonces r caerá entre 0 y 1. De
manera similar, si existe una relación directa (si Y aumenta al aumentar X), entonces r
será un valor en el intervalo de 0 a 1
Varias
características de r,
el coeficiente de
correlación de la
muestra
Ejemplo:
Nivel de ruido 4 3 1 2 6 7 2 3
Grado de ansiedad 39 38 16 18 41 45 25 38
4 39 40
3 38 35
30
1 16 25
2 18 20
6 41 15
7 45 10
5
2 25 0
3 38 0 1 2 3 4 5 6 7 8
𝑎 = 𝑌ത − 𝑏𝑋ത
𝑎 = 32.5 − 4.57 3.5 = 32.5 − 16 = 16.50
𝑌 = 𝑎 + 𝑏𝑥
50
40
30
20
10
0
0 1 2 3 4 5 6 7 8
𝑌 = 𝑎 + 𝑏𝑋
2
𝑌 − 𝑌
𝑟2 = 1 −
𝑌 − 𝑌ത 2
244.11
𝑟2 =1− = 1 − 0.280586 = 1 − 0.28 = 0.72
870
𝑟= 𝑟2
La principal ventaja de la regresión múltiple es que nos permite utilizar más información
disponible para estimar la variable dependiente. En algunas ocasiones, la correlación
entre dos variables puede resultar insuficiente para determinar una ecuación de
estimación confiable; sin embargo, si agregamos los datos de más variables
independientes, podemos determinar una ecuación de estimación que describa la
relación con mayor precisión. La regresión múltiple y el análisis de correlación implican
un proceso de tres pasos como el que usamos en la regresión simple. En este proceso:
■ 13-12 Una estudiante graduada que quiere comprar un auto Neptune usado
investigó los precios. Piensa que el año del modelo y el número de millas recorridas
influyen en el precio de compra. Los datos siguientes corresponden a 10 autos con
precio (Y) en miles de dólares, año (X1) y millas recorridas (X2) en miles.
𝛴𝑦 = 𝑛𝑎 + 𝑏1 𝛴𝑥1 + 𝑏2 𝛴𝑥2 → 𝐸𝑐 1
𝛴 𝑥1 𝑦 = 𝑎𝛴𝑥1 + 𝑏1 𝛴(𝑥1 )2 + 𝑏2 𝛴𝑥1 𝑥2 → 𝐸𝑐 2
𝛴 𝑥2 𝑦 = 𝑎𝛴𝑥2 + 𝑏1 𝛴𝑥1 𝑥2 + 𝑏2 𝑥2 2 → 𝐸𝑐 3
𝑦ො = 𝑎 + 𝑏1 𝑥1 + 𝑏2 𝑥2 → 𝐸𝑐𝑢𝑎𝑐𝑖ó𝑛 𝑀𝑖𝑛𝑖𝑚𝑜𝑠 𝐶𝑢𝑎𝑑𝑟𝑎𝑑𝑟𝑜𝑠
(Y) Precio
X2
(Miles de X1 Año (X1)(Y ) (X2)(Y ) (X1)(X2) (X1)2 (X2)2 (Y)2
Millas(miles
Dolares)
2.99 1987 55.6 5941.13 166.244 110477.2 3948169 3091.36 8.9401
6.02 1992 18.4 11991.84 110.768 36652.8 3968064 338.56 36.2404
8.87 1993 21.3 17677.91 188.931 42450.9 3972049 453.69 78.6769
3.92 1988 46.9 7792.96 183.848 93237.2 3952144 2199.61 15.3664
9.55 1994 11.8 19042.7 112.69 23529.2 3976036 139.24 91.2025
9.05 1991 36.4 18018.55 329.42 72472.4 3964081 1324.96 81.9025
9.37 1992 28.2 18665.04 264.234 56174.4 3968064 795.24 87.7969
2.2 1988 44.2 4373.6 97.24 87869.6 3952144 1953.64 4.84
4.8 1989 34.9 9547.2 167.52 69416.1 3956121 1218.01 23.04
5.74 1991 26.4 11428.34 151.536 52562.4 3964081 696.96 32.9476
ƩY 62.51 Ʃx1 19905 Ʃx2 324.1 Ʃ(X1)(Y ) 124479.27 Ʃ(X2)(Y ) 1772.431 Ʃ(X1)(X2) 644842.2 Ʃ(X1)2 39620953 Ʃ(X2)2 12211.27 Ʃ(Y)2 461
𝛴𝑦 = 𝑛𝑎 + 𝑏1 𝛴𝑥1 + 𝑏2 𝛴𝑥2 → 𝐸𝑐 1
62.51= 10𝑎 + 19905𝑏1 + 324.1𝑏2 → 𝐸𝑐 1
𝛴 𝑥1 𝑦 = 𝑎𝛴𝑥1 + 𝑏1 𝛴(𝑥1 )2 + 𝑏2 𝛴𝑥1 𝑥2 → 𝐸𝑐 2
124479.27= 19905𝑎 + 39620953𝑏1 + 644842.2𝑏2 → 𝐸𝑐 2
𝛴 𝑥2 𝑦 = 𝑎𝛴𝑥2 + 𝑏1 𝛴𝑥1 𝑥2 + 𝑏2 𝑥2 2 → 𝐸𝑐 3
1772.43= 324.10𝑎 + 644842.2𝑏1 + 12211.27𝑏2 → 𝐸𝑐 3
Ecuaciones simultaneas
De la Ecuación 1 y la Ecuación 2 Obtenemos La Ecuación 4
(-19905) 62.51 = 10𝑎 + 19905𝑏1 + 324.1𝑏2 → 𝐸𝑐 1
(10) 124479.27 = 19905𝑎 + 39620953𝑏1 + 644842.2𝑏2 → 𝐸𝑐 2
-1244262 = −199050𝑎 − 396209025𝑏1 − 6451210.5𝑏2 → 𝐸𝑐 1
1244792.70 = 199050𝑎 + 396209530𝑏1 + 6448422𝑏2 → 𝐸𝑐 2
531.15= 505𝑏1 − 2788.5 𝑏2 → 𝐸𝑐 4
De la Ecuación 1 y la Ecuación 3 Obtenemos La Ecuación 5
(-324.10) 62.51 = 10𝑎 + 19905𝑏1 + 324.1𝑏2 → 𝐸𝑐 1
(10) 1772.43= 324.10𝑎 + 644842.2𝑏1 + 12211.27𝑏2 → 𝐸𝑐 3
--20259.49 = −3241𝑎 − 6451210.5𝑏1 − 105040.81𝑏2 → 𝐸𝑐 1
17724.30 = 3241𝑎 + 64484.22𝑏1 + 122112.7𝑏2 → 𝐸𝑐 3
-2535.19= −2788.5𝑏1 − 17071.89 𝑏2 → 𝐸𝑐 5