Analisis de Datos: ACTIVIDAD 2: Ejercicios Fecha de Entrega: 20 de Noviembre Del 2022

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 11

ANALISIS DE DATOS

ACTIVIDAD 2: Ejercicios
FECHA DE ENTREGA: 20 DE NOVIEMBRE DEL 2022

EQUIPO:
EDGAR EDUARDO LUA QUINTERO
JAEL NAHOMI TERRON NAVARRETE
LAURA BEATRIZ PULIDO MEJIA
MARIA DE LOS ANGELES PEDROZA ESCOBEDO
1.-Planteamiento general

Como se sabe, le modelo de regresión múltiple se utiliza para predecir el


comportamiento de una determinada variable –variable dependiente o criterio- en
función de otras variables – independientes o explicativas (también regresores o
predictores)
Trabajaremos aquí con otro fichero de datos, notas.sav tal como se ilustra a
continuación:

Las variables consideradas son:

Supongamos que deseamos conocer la incidencia del conjunto de variables


(Inteligencia, Horas de estudio y Nivel Social) sobre las calificaciones obtenidas:

El modelo explica un 90.2%, que una vez corregido por el efecto de la muestra y de las
variables independientes resulta ser 88.4%. Por otro lado, el error típico de la estimación (raíz
cuadrada de la varianza no explicada) resulta ser de 0.589.
La prueba de análisis de la varianza, que nos muestra si la varianza explicada por la
regresión es significativamente distinta ( y superior) a la varianza no explicada es:

El valor de F obtenido es 49.1, cuya probabilidad asociada según las expectativas de la


Hipótesis nula es menor del 0.0001, lo que nos lleva a rechazar tal hipótesis y suponer que
existe un efecto real de dichas variables sobre la calificación académica.
Por otro lado, el modelo de regresión será:

De aquí se deduce que la ecuación de regresión en directas es:


𝑌􀷠=−6.938+0.07𝑋1+0.196𝑋2+0.29𝑋3
Siendo:
Y: Calificación académica
X1: Inteligencia
X2: Horas de estudio
X3: Nivel Social

Tal como está expresada la ecuación anterior parecería que la Inteligencia tiene poca
importancia. Se debe a que la magnitud de su escala es mucho más alta que las
restantes variables y su peso específico por unida es menor. No obstante, la ecuación
de regresión en estandarizadas nos mostrará todas las variables en la misma
dimensión. Así
𝑍̂=0.597𝑍1+0.580𝑍2+0.200𝑍
Se observa que aquí el peso específico de la Inteligencia es superior a los restantes.
Si nos atenemos al valor de t que nos indica la significación estadística de los distintos
coeficientes observaremos un valor máximo para la Horas de estudio (t = 7.272),
seguido de la Inteligencia (t = 5.35), y por ultimo le nivel social (t = 1.787).
Deseamos conocer la incidencia del conjunto de variables (Inteligencia, Horas de estudio y
Nivel Social) sobre las calificaciones obtenidas. Variables:
Para analizar este problema nos basaremos en los siguientes datos:
Paso 1 descargaremos los datos

Para analizar las relaciones entre estos valores, procederemos a utilizar el modelo de regresión
múltiple. Para hacer esto, explicaré paso a paso como se hace en el software antes mencionado.
Para comprobar que esto se cumple, usaré los datos de la primera línea para efectos prácticos.

Vemos como el valor es bastante acercado, por lo que podemos decir que la ecuación de
regresión es correcta con un minúsculo margen de error. Esta ecuación, nos sirve para
determinar cualquier factor dentro de estos datos, si se modifica, la ecuación sigue
funcionando igual y nos da el dato más acercado a la realidad para predecir la calificación.
A continuación pasemos con los Coeficientes que nos calcula.
El primero término es la Constante, este es un valor constante, es decir, que no se va a modificar
dentro de nuestro análisis y sirve para la ecuación de regresión, en la columna “Coef” son los
valores que multiplican a nuestras variables dentro del análisis, ahora, la columna “SE-Coef” nos
dice el error estándar para medir la precisión de los coeficientes estimados. El error más pequeño,
nos da más precisión. La columna “T-Value”, Minitab lo utiliza para calcular la columna “P-Value” y
el valor de “P”, es el coeficiente de significancia diferente de 0. nos determina la prueba de
hipótesis. Si este es mayor que 0.05, entonces la hipótesis nula es correcta y por lo tanto se
descartan esos valores, sin embargo, si la hipótesis nula se rechaza, la correlación no es 0,
entonces si existe relación entre las variables. Dicho esto, de la tabla de coeficientes y de esta
siguiente tabla (Análisis de Varianza):

Este es el ANOVA, que hace las pruebas de hipótesis de las medias de 2 o más poblaciones que son
iguales. De lo siguiente podemos observar que el Nivel social y el Sexo no tiene nada que ver,
respecto a las calificaciones obtenidas, por lo tanto, quedan descartadas., ya que la hipótesis nula
se acepta para estos casos, lo cual nos indica que no existe relación entre las variables, las
variables que nos quedan son las de Inteligencia y Horas de estudio.
La R2 que nos da en este análisis nos dara un alto nivel de compatibilidad entre la relación de
datos y que el modelo es el correcto para en análisis, sin embargo, el R2 no es del todo confiable,
por lo cual, solo nos da un cierto panorama acerca de lo que estamos analizando. Una vez
analizado todo esto, procederemos a analizar las gráficas generadas por estos resultados, estas
gráficas, nos dan información adicional y de comportamiento que, al analizarlas, nos puede dar
aún más información y comprender de mejor manera nuestros datos adquiridos.

Esta nos muestra la magnitud de importancia de los efectos, es decir que, la inteligencia y las
horas de estudio son los más relevantes dentro del estudio.
observamos que todos los puntos están normalmente distribuidos ya que todos están pegados a la
recta mostrada. En el Histograma, vemos que no hay una distribución normal como tal, sin
embargo, podríamos decir

que es una distribución normal sesgada a la izquierda con valores anormales a dicho lado. En la
gráfica de ajustes, vemos que hay una varianza constante, hay valores arriba y abajo y por último
en la gráfica de los datos ordenados, vemos la correlación de los datos.
Conclusiones

Sin duda que Minitab como herramienta de investigación y de análisis de información es


de gran ayuda para poder predecir y dar una información mas precisa de esta forma
podemos analizar situaciones que nos ayuden a mejorar las situaciones laborales o de
investigación.

Como en este ejercicio, calcular la regresión de estos, conociendo su ecuación y su


correlación entre los datos para saber usar o descartar las variables que no nos ayuden en
el análisis o los datos que influyen de una manera insignificante. Podemos ver que, si hay
mayores horas de estudio o encontramos la manera de incrementar la inteligencia de los
estudiantes, estos obtendrán mejores calificaciones, bajo estos valores utilizados y que el
nivel social y el sexo son factores que no influyen a que los estudiantes sean mejores, es
decir, con su desempeño en sus calificaciones.

Referencias:

Walpole, R., Myers, R., y Myers, S. (2012). Probabilidad y Estadística para Ingeniería y Ciencias
(9ª Edic.) [Archivo PDF]. Recuperado de
https://vereniciafunez94hotmail.files.wordpress.com/2014/08/8va-probabilidad-y-estadistica-
para-ingenier-walpole_8.pdf

• Mendenhall, B. (2010). Introducción a la Probabilidad y Estadística (13ª Edic.) [Archivo


PDF]. Recuperado de
https://www.fcfm.buap.mx/jzacarias/cursos/estad2/libros/book5e2.pdf

• ASCEH. (2002). Construcción de modelos de regresión multivariantes [Archivo PDF].


Recuperado de https://www.alceingenieria.net/bioestadistica/regresion1.pdf

También podría gustarte