Tarea 4-Analisis de Correlacion y Regresion

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 19

Tarea 4

Análisis De Correlación y Regresión

Presentado Por:

Luisa Fernanda González Cód.:


Carolina Yasno Ángel Cód.: 52534176
Oscar David Puentes Cód.: 1105681104
Maira Alejandra Escamilla Cód.:
Carlos Andrés Cruz Cód.: 1110569124

Grupo:203018_9

Tutora:
Jessica Almeida Braga

Universidad Nacional Abierta y a Distancia - Unad


Especialización En Biotecnología Agraria
Biometría Y Diseño Experimental
Noviembre, 2020
1. Desarrollar el siguiente cuestionario, con sus respectivas citaciones en
formato APA.

a) ¿Cuál es el propósito del análisis de regresión y correlación?


El análisis de regresión consiste en emplear métodos que permitan determinar la
mejor relación funcional entre dos o más variables concomitantes (o
relacionadas). El análisis de correlación estudia el grado de asociación de dos o
más variables (Universidad De Granada, 2014).
Análisis de Regresión
Una relación funcional matemáticamente hablando, está dada por:
Y = f (x1,..., xn; θ1,...,θm)
donde:
Y: Variable respuesta (o dependiente)
xi: La i-ésima variable independiente (i=1,..,n)
θj : El j-ésimo parámetro en la función (j=1,..,m)
f: La función

b) ¿Por qué se requiere la regresión lineal y múltiple? ¿En qué casos


se presenta?

Regresión lineal simple

La regresión lineal simple supone que los valores de la variable dependiente, a


los que llamaremos yi, pueden escribirse en función de los valores de una única
variable independiente, los cuales notaremos por xi, según el siguiente modelo
lineal

yi=β0+β1xi
Modelo lineal simple

donde β0 y β1, son los parámetros desconocidos que vamos a estimar


(Universidad De Granada, 2014).
Regresión múltiple

El modelo de regresión múltiple es la extensión a k variables explicativas del


modelo de regresión simple. En general, una variable de interés y depende de
varias variables x1, x2, …, xk  y no sólo de una única variable de predicción x. Por
ejemplo, para estudiar la contaminación atmosférica, parece razonable
considerar más de una variable explicativa, como pueden la temperatura media
anual, el número de fábricas, el número de habitantes, etc. Además de las
variables observables, la variable de interés puede depender de otras
desconocidas para el investigador. Un modelo de regresión representa el efecto
de estas variables en lo que se conoce como error aleatorio o perturbación
(Universidad De Granada, 2014).

Un modelo de regresión teórico en el que las variables se pueden relacionar


mediante una función de tipo lineal, podemos expresarlo de la siguiente forma:

y=β0+β1x1+β2x2+…+βkxk+ϵ
Expresión del modelo de regresión múltiple

donde

 y es la variable de interés que vamos a predecir, también llamada variable


respuesta o variable dependiente
 x1,x2,….,xk  son  variables independientes, explicativas o de predicción
  β1,β2,…,βk son los parámetros desconocidos que vamos a estimar
  ϵ es el error aleatorio o perturbación, que representa el efecto de todas
las variables que pueden afectar a la variable dependiente y no están incluidas
en el modelo de regresión.

Ejemplos de modelos de regresión múltiple:

 El consumo de combustible de un vehículo, cuya variación puede ser


explicada por la velocidad media del mismo y por el tipo de carretera. Podemos
incluir en el término de error, variables como el efecto del conductor, las
condiciones meteorológicas, etc (Sanchez, 2014).
 El presupuesto de una universidad, cuya variación puede ser explicada
por el número de alumnos. También podríamos considerar en el modelo
variables como el número de profesores, el número de laboratorios, la superficie
disponible de instalaciones, personal de administración, etc (Sanchez, 2014).
c) ¿Qué tipos de correlación existe, cite un ejemplo para cada uno de
los casos? Use ejemplos relacionados con el área de las Ciencias
Agropecuarias.

Hay tres tipos de correlación: positiva, negativa y nula (sin correlación).


 Correlación positiva: ocurre cuando una variable aumenta y la otra
también. Por ejemplo, la altura de una planta y el tamaño de sus hojas;
mientras aumenta la altura, igual el tamaño de sus hojas también
(Sanchez, 2014).

 Correlación negativa: es cuando una variable aumenta y la otra


disminuye. El cultivo realizado en una zona y los nutrientes con los que
cuenta esta zona, tienen una correlación negativa, ya que cuando más
constante se cultive en esta zona, menos nutrientes tendrá la tierra
(Sanchez, 2014).
 Sin correlación: no hay una relación aparente entre las variables. Las
personas realizado inspección y la altura de las platas, no parece tener
ninguna correlación; mientras una aumenta, la otra no tiene ningún efecto
(Sanchez, 2014).

d) ¿Qué es coeficiente de correlación y cuál es su interpretación?

Según Sanchez (2014), es una medida de la asociación lineal que existe entre
las variables x e y. Se define por

A continuación, se interpretan algunos valores extremos de este coeficiente.


Aunque estos valores son poco habituales en la práctica, ilustran cómo
interpretar este coeficiente.
e) ¿Qué es coeficiente de determinación y cuál es su interpretación?

Para construir una medida descriptiva del ajuste global de un modelo de


regresión se emplea el coeficiente de determinación, dado por

R2 representa la proporción de variación de y explicada por el modelo de


regresión. Por construcción, es evidente que 0 ≤ R 2 ≤ 1.

 Si R2 =1 entonces SCReg=SCT, por lo que toda la variación de y es


explicada por el modelo de regresión.
 Si R2 = 0 entonces SCT=SCE, por lo que toda la variación de y queda sin
explicar.

En general, cuanto más próximo esté a 1, mayor es la variación de y explicada


por el modelo de regresión (Sánchez, 2014).
Sin embargo, en regresión múltiple, el coeficiente de determinación presenta el
inconveniente de que su valor aumenta al añadir nuevas variables al modelo de
regresión, independientemente de que éstas contribuyan de forma significativa a
la explicación de la variable respuesta. Para evitar un aumento injustificado de
este coeficiente, se introduce el coeficiente de determinación corregido, que
notamos por y que se obtiene a partir de R2 en la forma.

Este coeficiente no aumenta su valor cuando se añaden nuevas variables, sino


que en caso de añadir variables superfluas al modelo, el valor de disminuye
considerablemente respecto al valor del coeficiente R 2 (Sanchez, 2014).
2. Realizar los siguientes estudios de caso.

a) ¿Cuál es la variable dependiente (y) respuesta y cuál es la variable


independiente (x) o predictora en este caso?

Variable dependiente (y) respuesta: PAI 2


Variable independiente (x) o predictora en este caso: Peso

b) Realice el diagrama de dispersión asignando la variable respuesta e


independiente según corresponda. ¿Qué sugiere la gráfica con
respecto al modelo?
Hay en correlación positiva de las variables considerando que ambas variables
van en ascenso.

350
300
250
200
PAI 2

150 PAI 2
100 Linear (PAI 2)
50
0
500 1000 1500 2000 2500 3000 3500 4000
Peso

c) Identifique el modelo

El modelo es regresión lineal simple, la influencia de una variable explicativa X


en los valores que toma otra variable denominada dependiente (Y).

d) Estime los parámetros del modelo e interprételos

Ordenada al origen (intercepto) -72,12209655, esto quiere decir que se presenta


un valor negativo con relación al inhibidor tipo 2 en los gatos recién nacidos
Pendiente 0,095250958, nos indica que por cada gramo de peso de los gatos
recién nacidos hay un incremento de 0,095250958 inhibidor tipo 2.

e) Redacte las hipótesis que interesa contrastar en el análisis de


varianza
H0= 0, la variable Y no es ajustada por el módulo de regresión.
H1ǂ0, la variable independiente contribuye significativamente al modelo

f) Especifique matemáticamente el modelo y especifique cada término

y=a+bx, donde "y" sería la variable dependiente, es decir, aquella que viene
definida a partir de la otra variable "x" (variable independiente).
El parámetro "a" es el valor que toma la variable dependiente "y", cuando la
variable independiente "x" vale 0, y es el punto donde la recta cruza el eje
vertical
El parámetro "b" determina la pendiente de la recta, su grado de inclinación.

g) Verifique los supuestos para realizar en ANOVA y determine las


hipótesis

Normalidad la cantidad del inhibidor tipo 2 es igual para cada uno de los gatos
recién nacidos
Homocedasticidad la varianza en la cantidad del inhibidor tipo 2 es igual para
cada uno de los gatos recién nacidos
Linealidad de la cantidad del inhibidor tipo 2 es igual para cada uno de los gatos
recién nacidos

Hipótesis
H0= ordenada de origen media poblacional de la variable resultante Y (peso de
gatos al nacer) cuando la variable X (PAI 2) toma el valor de cero (0)
H1= pendiente cambio en la media poblacional de la variable resultante Y (peso
de gatos al nacer) cuando la variable regresiva X (PAI 2) aumenta.

h) ¿Es significativo el modelo?


Si es significativo al 54,4%
i) Realice la regresión con fórmulas en archivo Excel y con la
herramienta “regresión de análisis de datos” de Excel.
Resumen
Estadísticas de la regresión
Coeficiente de
correlación 0,7379802
múltiple 6
Coeficiente de
determinación 0,5446148
R^2 7
0,5256404
R^2 ajustado 8
65,354866
Error típico 7
Observaciones 26

ANÁLISIS DE
VARIANZA
Promedio
Grados de Suma de de los Valor
  libertad cuadrados cuadrados F crítico de F
122596,40 1,6856E-
Regresión 1 122596,409 9 28,7026426 05
Residuos 24 102510,206 4271,2586
Total 25 225106,615      

Coeficiente Estadístico Probabilida Inferior Superior


  s Error típico t d 95% 95%
- - -
72,122096 1,8363682 153,18028 8,9360958
Intercepción 5 39,2743102 5 0,07872157 9 5
0,0952509 5,3574847 0,0585568
Peso 6 0,01777904 3 1,6856E-05 1 0,1319451
j) Son significativos los coeficientes de regresión

No, no son significativos debido a que la probabilidad es superior a


0,05<0,078721

k) Determine el valor de p para la prueba.

0,078721569
l) Construya el intervalo de confianza de 95% para p

El intervalo de confianza 95% para β0. Podemos estar interesados en decir si el


modelo debe o no incluir el intercepto β0, que se puede plantear como un
contraste de hipótesis con H0:β0=0. Una forma rápida de hacerlo es notar que el
0 no está incluido en el intervalo de confianza 95%, esto nos sirve para rechazar
H0 con una significancia 0.05.

m) Como se cuantifica si el modelo explica una parte significativa de la


variación de la variable respuesta

El coeficiente de correlación lineal puede interpretarse como una medida de la


bondad del ajuste del modelo lineal, concretamente, un valor del coeficiente
igual a 1 o -1 indica dependencia lineal exacta, en cuyo caso el ajuste es
perfecto. No obstante, para cuantificar la bondad del ajuste de un modelo, lineal
o no, se utiliza una medida que se denomina coeficiente de determinación lineal
R2, que es la proporción de variabilidad de la variable Y que queda explicada
por el modelo de entre toda la presente

n) Redactar como si fuese para la sección de material y método y


resultados de un artículo científico.

El experimento se desarrolló en el laboratorio de producción animal con una


muestra de 26 gatos recién nacidos, a los que se le tomo el peso (gr), para
determinar los niveles del inhibidor tipo 2 del activador del plásminógeno (PAI-
2), el cual fue medido en ng/ml.

Se acuerdo a análisis de correlación simple hay un interrelación alta de un 54%,


que indica que a mayor peso mayor es el nivel de PAI 2.

2.2 La siguiente tabla presenta los resultados obtenidos en una


investigación de suelos. Se deseaba conocer el efecto residual de fósforo
en suelos donde previamente se cultivó maíz. Para esto se midió la
concentración de fósforo inorgánico (X1) y orgánico (X2) en varios suelos
calcáreos. Se midió el contenido de fósforo del maíz sembrado en esos
suelos y se estimó el fósforo aprovechable por la planta (ppm) en suelos a
una temperatura de 20 °C (Y). Datos adaptados de Martínez (1997).
a) ¿Cuál es la variable dependiente (y) respuesta y cuál es (son) la (s)
variable (s) independiente (s)(x) o predictora (s) en este caso?

La variable dependiente (y) para este caso es el contenido de fosforo en el


maíz sembrado y las variables independientes (x) son la concentración de
fosforo inorgánico y la concentración de fosforo orgánico en el suelo.

b) Realice el diagrama de dispersión asignando la variable respuesta e


independiente según corresponda. ¿Qué sugiere la gráfica con
respecto al modelo?
El grafico anterior de dispersión nos muestra claramente que las variables X 1 y
X2 que corresponde a la concentración de fosforo inorgánico y orgánico en el
suelo respectivamente explica que aproximadamente en un 31% la respuesta en
el contendió de fosforo en el maíz, está influenciada o relacionada a estas
variables independiente, hay que tener en cuenta que al hacer el análisis de
regresión con las variables individualmente el coeficiente de determinación R^2
de la variable X1 concentración de fosforo inorgánico en el suelo, representa
aproximadamente el 50% de la respuesta a la variable Y contendió de fosforo en
el maíz, esto nos indica que la variable X 1 representa una mayor relación con
respecto a la variable X2 concentración de fosforo orgánico en el suelo que
corresponde individualmente a un 13% de influencia en el contendió de fosforo
en el maíz.

c) Identifique el modelo.
El modelo de regresión lineal múltiple es el siguiente:

y = a0 + a1 . x1 + a2 . x2 + a3 . x3 + … + ak . xk + u

d). Estime los parámetros del modelo e interprételos.

Contenido de = ordenada al Concentración Coeficiente.


fosforo en el origen + de fosforo concentración de
maíz coeficiente. inorgánico + fosforo orgánico

Donde:
Contenido de fosforo en el maíz = variable dependiente
a0 = la ordenada al origen
a1 = coeficiente
X1 Concentración de fosforo inorgánico = variable independiente
a2 = coeficiente
X2 Concentración de fosforo orgánico = variable independiente

e) Redacte las hipótesis que interesa contrastar en el análisis de varianza

H0 Hipótesis nula: El contenido de fosforo en el maíz sembrado en esos suelos


es igual para las dos fuentes de fosforo (inorgánico y orgánico) en los diversos
suelos estudiados.
H1 Hipótesis alternativa: El contenido de fosforo en el maíz sembrado en esos
suelos es diferente con respecto a la fuente de fosforo inorgánico fosforo
orgánico.

f) Especifique matemáticamente el modelo y especifique cada término


y = a0 + a1 . x1 + a2 . x2 + a3 . x3 + … + ak . xk + u
Donde:
Contenido de fosforo en el maíz = variable dependiente
a0 = la ordenada al origen
a1 = coeficiente
X1 Concentración de fosforo inorgánico = variable independiente
a2 = coeficiente
X2 Concentración de fosforo orgánico = variable independiente.

g) Verifique los supuestos para realizar en ANAVA y determine las


hipótesis
Análisis de varianza de un
factor

RESUMEN
Grupos Cuenta Suma Promedio Varianza
11,944444 103,11555
X1 18 215 4 6
42,111111 185,63398
X2 18 758 1 7
ANÁLISIS DE VARIANZA
Grados Promedio
Origen de las Suma de Probabilid
de de los F
variaciones cuadrados ad
libertad cuadrados
56,729094 9,5821E-
Entre grupos 8190,25 1 8190,25 2 09
Dentro de los 4908,7422 144,37477
grupos 2 34 1

13098,992
Total 2 35      

h) ¿Es significativo el modelo?

Si es menor que 0.05 se rechaza a la hipótesis nula, es decir, el factor tiene un


efecto significativo en el experimento.

se rechaza la hipótesis nula se acepta la hipótesis alternativa dado que el f es


mayor a 0,05
i) Realice la regresión con fórmulas en archivo Excel y con la herramienta
“regresión de análisis de datos”

Resumen
Estadísticas de la regresión
Coeficiente de correlación 0,4615667
múltiple 5
Coeficiente de 0,2130438
determinación R^2 7
0,1638591
R^2 ajustado 1
12,458578
Error típico 1
Observaciones 18

j) Son significativos los coeficientes de regresión

Según los resultados obtenidos en el análisis de regresión, podemos observar


que el valor p para el coeficiente de la variable X1 corresponde a 0,005 siendo
este valor menor que el nivel de significancia de 0,05, y el valor de probabilidad
para el coeficiente de la variable X2 es de 0,8373, por lo tanto podemos decir que
la variable X1 que en este caso es la concentración de fosforo inorgánico en el
suelo, presenta diferencias estadísticamente significativas ya que su valor p es
mucho menor que el nivel de significancia. Análisis contrario a lo que se observa
para la variable X2 que es la concentración de fosforo orgánico en el suelo, el cual
no presenta diferencias estadísticas significativas ya que el valor p para su
coeficiente es mucho mayor que el nivel de significancia siendo este de 0,05.

k) Como se cuantifica si el modelo explica una parte significativa de la


variación de la variable respuesta

Para cuantificar si el modelo es confiable o no se debe observar el coeficiente de


determinación R^2, si este valor es cercano a cero se considera que el modelo
no es confiable para realizar pronósticos, y si este valor se acerca a 1 significa
que el modelo es confiable para realizar pronósticos usando las variables
independientes consideradas en el estudio.

l) Redactar como si fuese para la sección de material y método y


resultados de un artículo científico.
1. A continuación, se presentan el análisis químico de una planta de leche
que realizo a 23 fincas lecheras, donde se valoró los contenidos de
proteína bruta (PB) y caseína (CA) en leche:
No. PB CA No. PB CA
Finca Finca
1 2.74 1.87 13 2.95 2.04
2 3.19 2.26 14 3.08 2.16
3 2.96 2.07 15 3.14 2.16
4 2.91 2.09 16 3.22 2.22
5 3.23 2.28 17 3.14 2.22
6 3.04 2.04 18 3.15 2.24
7 3.08 2.18 19 3.2 2.22
8 3.23 2.3 20 2.95 2.07
9 3.11 2.17 21 3.19 2.25
10 3.11 2.15 22 3.12 2.23
11 3.1 2.16 23 2.99 2.16
12 3.25 2.33
a) Hallar el coeficiente de correlación utilizando la herramienta de Excel
  PB CA
PB 1
0,9344117
CA 5 1

b) Plantee las hipótesis


Hipótesis alternativa (H1): Existe una correlación lineal estadísticamente
significativa entre los porcentajes de proteína bruta y caseína en la leche.
Hipótesis nula (H0): No existe una correlación lineal estadísticamente
significativa entre los porcentajes de proteína bruta y caseína en la leche.

c)Aplique la t de Student con la fórmula en Excel y determine si la


correlación es significativa o no
Prueba t para dos muestras suponiendo varianzas iguales
  PB CA
3,0904347
Media 8 2,16826087
0,0158134
Varianza 4 0,0107332
Observaciones 23 23
0,0132733
Varianza agrupada 2
Diferencia hipotética de las
medias 0
Grados de libertad 44
27,143882
Estadístico t 6
P(T<=t) una cola 2,0368E-29
1,6802299
Valor crítico de t (una cola) 8
P(T<=t) dos colas 4,0736E-29
2,0153675
Valor crítico de t (dos colas) 7  

La correlación es significativa

d)Interprete el resultado

El p-Valor es inferior al nivel de significancia (α = 5% = 0,05), o sea que hay


diferencia, por lo que se rechaza la hipótesis de correlación nula, y se concluye
entonces que Existe una correlación lineal estadísticamente significativa entre
los porcentajes de proteína bruta y caseína en la leche.

2.3 Las siguientes mediciones se obtuvieron de 12 hombres con edades


entre 12 y 18 años (todas mediciones están en centímetros).

Longitud del radio


Estatura (X1) Longitud del femur (X2)
149 21 42,5
152 21,79 43,7
155,7 22,4 44,75
159 23 46
163,3 23,7 47
166 24,3 47,9
169 24,92 48,95
172 25,5 49,9
174,5 25,8 50,3
176,1 26,01 50,9
176,5 26,15 50,85
179 26,3 51,1

a) Hallar el coeficiente de correlación múltiple utilizando la herramienta de


Excel

Estadísticas de la regresión    
Coeficiente de correlación múltiple 0,997619785 99,86%
Coeficiente de determinación R^2 0,995245236 99,52%
R^2 ajustado 0,994188622  
Error típico 0,778062584  
Observaciones 12  

b) Plantee las hipótesis

Hipótesis alternativa (H1): Existe una correlación multiple significativa entre los
valores de Estatura y Longitud Del Radio y Longitud Del Femur.
Hipótesis nula (H0): No Existe una correlación multiple significativa entre los
valores de Estatura y Longitud Del Radio y Longitud Del Femur.
c) Pruebe la hipótesis nula siguiente: py.12=0.

Si existe una correlación multiple significativa entre los valores de Estatura y


Longitud Del Radio y Longitud Del Femur.

Se rechaza la hipótesis nula y se acepta la hipótesis alternativa.

d) Calcule los coeficientes de correlación parcial y pruebe la significación


de todos los coeficientes. Sea a=0.05 para todas las pruebas.
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,997602215
Coeficiente de determinación R^2 0,995210179
R^2 ajustado 0,994731196
Error típico 0,740851166
Observaciones 12

Estadísticas de la regresión
Coeficiente de correlación múltiple 0,996790632
Coeficiente de determinación R^2 0,993591563
R^2 ajustado 0,99295072
Error típico 0,856933963
Observaciones 12

e) Aplique la t de Student con la fórmula en Excel y determine si la


correlación es significativa o no.

Prueba t para dos muestras suponiendo varianzas


iguales

Longitud del femur


  Estatura (X2)
166,008333
Media 3 47,82083333
104,171742
Varianza 4 9,079299242
Observaciones 12 12
56,6255208
Varianza agrupada 3
Diferencia hipotética de las 0
medias
Grados de libertad 22
38,4716724
Estadístico t 6
P(T<=t) una cola 5,63326E-22
1,71714437
Valor crítico de t (una cola) 4
P(T<=t) dos colas 1,12665E-21
2,07387306
Valor crítico de t (dos colas) 8  

La correlación es significativa

Prueba t para dos muestras suponiendo varianzas iguales

Longitud del radio


  Estatura (X1)
166,008333
Media 3 24,23916667
104,171742
Varianza 4 3,384244697
Observaciones 12 12
53,7779935
Varianza agrupada 6
Diferencia hipotética de las medias 0
Grados de libertad 22
Estadístico t 47,3538304
P(T<=t) una cola 6,15041E-24
1,71714437
Valor crítico de t (una cola) 4
P(T<=t) dos colas 1,23008E-23
2,07387306
Valor crítico de t (dos colas) 8  

La correlación es significativa
Referencias Bibliográficas

Herrera, V. (2013). Métodos estadísticos alternativos de análisis con variables


discretas y categóricas en investigaciones agropecuarias. Habana, CUBA:
Editorial Universitaria. Recuperado de http://eduniv.reduniv.edu.cu/index.php?
page=13&id=707&db=1

Carreño González, N. (2014). Diseño experimental Conceptos básicos.


Colombia: Recuperado de http://hdl.handle.net/10596/11404

OVI Almeida, J. (2017). Diseño de Bloques al azar. Recuperado


de http://hdl.handle.net/10596/11293
Henry Mendoza Rivera. (2016). Unidad 1: ASPECTOS GENERALES DEL
DISEÑO EXPERIMENTAL. Investigación Experimental. Recuperado de:
http://red.unal.edu.co/cursos/ciencias/2000352/html/casos/cont_05.html

Mendoza, H, Bautista, G. (2002). Diseño Experimental. Universidad Nacional de


Colombia, http://www.virtual.unal.edu.co/cursos/ciencias/2000352/. Licencia:
Creative Commons BY-NC-ND.

Sanchez, I. (2014). Metodos Estadisticos Por Ordenador. Recuperado de


http://wpd.ugr.es/~bioestad/wp-content/uploads/Metodos-de-regresion.pdf
Universidad De Granada. (2014). Regresión y correlación. Estadística.
Recuperado de: https://wpd.ugr.es/~bioestad/guia-de-r/practica-3/#4

También podría gustarte