Ajuste de Curvas-2

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 36

Cátedra de Teoría de Sistemas y Modelación Ambiental

Semestre de Primavera 2024

Ajuste de curvas

Profesora: Ing. Agr. Mg. Sc. Ag. Claudia Navarro Espinosa


OBJETIVOS

Interpretar los aspectos relevantes de un análisis de varianza


asociados a una regresión.

Aplicar criterios bioestadísticos para selecionar y juzgar la


significancia de un modelo de regresión.
Bajo el enfoque de sistemas, muchas veces se diseñan experimentos cuyo
propósito específico es obtener datos que permitan obtener una o varias
ecuaciones matemáticas que representan una o varias de las hipótesis, en las
cuales se basa un modelo.
Una regresión es una técnica estadística que se utiliza para analizar y modelar la
relación entre una variable dependiente y una (o más) variables
independientes.

El objetivo principal de una regresión es predecir el valor de la variable


dependiente basándose en los valores de las variables independientes.
Ejemplo: Para cuantificar cómo es la variación en una variable dependiente (una
tasa de flujo o una variable auxiliar) en función de una o varias variables
independientes (un nivel u otras variables auxiliares). Esto es:

𝑌 = 𝐹(𝑁1 , 𝑁2 , … 𝑁𝑛 , 𝑥1 , 𝑥2 … 𝑥𝑛 )

Donde Nn son variables de estado del Sistema y Xn son tasas de flujos y/o variables auxiliares.
REGRESIÓN LINEAL
El modelo matemático más sencillo, del cual disponemos para representar un
fenómeno biológico unidimensional, está representado por una ecuación de tipo
lineal:

𝑌 =𝑎+𝛽 ∙𝑋+𝜀

Donde Y es la variable dependiente (respuesta), X es la variable independiente, a es el intercepto


de la recta, β es la pendiente, y ε es el error del modelo.

𝜀 = 𝑁𝑜𝑟𝑚𝑎𝑙 (0, 𝑒𝑒)


El error tiene una distribución Normal, con media 0 y un error estándar (ee).
REGRESIÓN LINEAL
Todos los métodos de ajuste se dirigen a encontrar los mejores estimadores de a
y β.

El método más general para encontrar estos valores está basado en el estudio de
las diferencias que se producen entre valores observados y valores estimados.

El principio que se aplica es hacer mínima estas diferencias.


• REGRESIÓN LINEAL

Para encontrar los mejores estimadores del intercepto y de la pendiente se debe


resolver un sistema de ecuaciones:

σ 𝑥𝑦 − 𝑛𝑥ҧ 𝑦ത
𝛽=
σ 𝑥 2 − 𝑛𝑥ҧ 2

𝑎 = 𝑦ത − 𝛽 ∙ 𝑥ҧ
REGRESIÓN LINEAL

Un parámetro útil para medir el grado de ajuste de la función construida con los
datos experimentales, es el coeficiente de correlación (r):

𝐶𝑜𝑣(𝑋1 , 𝑋2 )
𝑟=
𝑆𝑋1 ∙ 𝑆𝑋2

Su valor está comprendido en el interval (-1,+1), mostrando un mejor ajuste en la


medida que su valor se aproxima a los extremos.

También se suele usar el coeficiente de determinación R2 que expresa en


porcentaje la parte de variación explicada por el modelo.

𝑠𝑠𝑅𝐸𝑆
𝑅2 =1−
𝑆𝑆𝑇𝑂𝑇
Estas relaciones lineales Muchas veces, al extrapolar
Desafortunadamente, las raramente ocurren en la valores de la variable
relaciones lineales son naturaleza, y generalmente independiente, se producen
frecuentemente no proporcionan mucha respuestas de la variable
inadecuadas para la información acerca de los dependiente, que observan
descripción de fenómenos mecanismos que regulan el valores “extraños” que se
de naturaleza biológica o fenómeno escapan fuera de los rangos
biofísica esperados

Sin embargo, lo anterior no


invalida su utilización, pero
ello debe efectuarse con
cuidado y dentro de límites
bien establecidos

Tarea opcional: Encuentre una relación lineal (con buen grado de ajuste) de un
fenómeno biológico o biofísico
REGRESIÓN NO LINEAL
Se utiliza cuando la relación entre las variables no es lineal. Puede implicar
funciones cuadráticas, exponenciales, logarítmicas, u otros tipos de relaciones
más complejas.

Muchas de ellas pueden ser linealizadas, por lo cual pueden ser tratadas como
ecuaciones lineales.

Otras, sin embargo, otras no son factibles de linealizar y deben ser obtenidas
mediante métodos estadístico-matemáticos más complejos.
FUNCIONES LINEALIZABLES
No existen principios generales para determinar a priori, cuándo es posible
realizar la linealización o cuándo no.
Pero sí existen algunas formas de ecuaciones típicas que se sabe que son
linealizables:

Funciones exponencial y potencial

Función logística simétrica

Función de Mitscherlich

Funciones hiperbólica rectangular e invertida


FUNCIÓN EXPONENCIAL
Tiene la siguiente forma:

𝑦= 𝑎𝑒 𝑘𝑥

Donde a es una constante que


define el valor de y cuando x es
cero, y k es el coeficiente angular
que puede tener valores positivos o
negativos.
FUNCIÓN EXPONENCIAL
Si linealizamos una función exponencial, el resultado es el siguiente:

𝐿 𝑦 = 𝐿 𝑎 + 𝑘𝑥

𝑌 =𝑎+𝛽∙𝑋
Con el mismo método en que se calcula a y β, también se calculan los valores de
L(a) y k.

Luego se aplica antilogaritmo (e) para conocer el valor de a.


¿CÓMO DETERMINAR QUE EL AJUSTE ES BUENO?
Se interpreta el Análisis de Varianza de la regresión.
Esto se hace analizando la significancia de la ecuación calculada para un cierto
nivel de confianza estadística (siempre utilizaremos 95%).

Una herramienta útil para ello, es observar el valor del estadígrafo F.

Cuando la probabilidad asociada a dicho estadígrafo (valor p / p-value) es


pequeña (< 0,05 ó 5% para un 95% de confianza), podríamos concluir que la
ecuación de regresión utilizada es significativa desde el punto de vista
estadístico.
¿QUÉ INDICA EL ESTADÍGRAFO F?
El estadígrafo F es un valor que se obtiene al hacer un ANOVA o análisis de una
regresión que indica si un grupo de variables son significativas en conjunto.

𝐶𝑀𝑅
𝐹 𝑣𝑎𝑙𝑢𝑒 =
𝐶𝑀𝐸
Donde: CMR es el Cuadrado Medio de la Regresión (modelo), y CME es el Cuadrado Medio del
Error.

En el análisis de una regresión, el CMR representa la variación promedio que es


explicada por el modelo
El CME representa la variación promedio de los residuos o errores (diferencia
entre valores observados y predichos).

El estadígrafo F se utiliza decidir si aceptar o rechazar la hipótesis nula.


¿QUÉ INDICA EL ESTADÍGRAFO F?
Cuando hacemos un análisis de regresión, tendremos dos resultados: un valor F
calculado y un valor F crítico.

El valor F calculado se obtiene desde los datos analizados.

El valor F crítico es un valor específico con el cual se compara el valor F. También


le llamaremos F de tabla.

En general, si el valor F calculado es mayor que el F de tabla, entonces se


rechaza la hipótesis nula.

Sin embargo, este estadígrafo es sólo una medida de significancia en la prueba F,


por lo que también debemos considerar el p-valor, ya que éste es determinado
por el estadígrafo F, e indica la probabilidad de que los resultados hayan sido
obtenidos por casualidad.
¿CUÁLES SON LAS HIPÓTESIS QUE SE CONTRASTAN?
Hipótesis nula (H0):
El modelo no explica la variación en la variable dependiente (es decir, la variable
independiente no puede predecir el comportamiento de la variable dependiente):

𝐻0 : 𝛽1 = 𝛽2 … 𝛽𝑖 = 0
Hipótesis alternativa (Ha):
Al menos una de las variables independientes explica significativamente la
variación en el comportamiento de la variable dependiente:

𝐻𝑎 : 𝐴𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛 𝛽𝑖 ≠ 0
¿CUÁLES SON LAS HIPÓTESIS QUE SE CONTRASTAN?

𝐻0 : 𝛽1 = 𝛽2 … 𝛽𝑖 = 0
𝐻𝑎 : 𝐴𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛 𝛽𝑖 ≠ 0
Si se rechaza la H0, entonces el estadígrafo F significativamente mayor que 1, por
lo que al menos una de las variables independientes contribuye a la explicación
de la variación en la respuesta de la variable dependiente.

Si se acepta la H0, entonces el estadígrafo F será cercano a 1, se entiende que


ninguna de las variables independientes contribuye significativamente a la
explicación de la variación en la respuesta de la variable dependiente.
BONDAD DE AJUSTE

La bondad de ajuste de un determinado modelo matemático a un conjunto de


datos se evalúa a través del Coeficiente de determinación (R2), el cual nos dice
qué porcentaje de la variación observada es explicada por el modelo utilizado.

Ojo: Este criterio debe tomarse con precaución, ya que, si se utiliza como única
forma de seleccionar un modelo, puede inducir a errores.

Lo anterior, generalmente debe ser complementado con un análisis de residuales


(los errores deben tener distribución normal).
SIGNIFICANCIA DE LOS COEFICIENTES

Los coeficientes deben ser estadísticamente significativos.


Lo anterior se evalúa mediante el valor del estadígrafo t asociado a cada
coeficiente de la regresión y su respectiva probabilidad (p-valor).
Además, cada coeficiente debe tener, en lo posible, una significancia biológica y
biofísica, que ayude a comprender la naturaleza del fenómeno que se intenta
describir cuantitativamente.
ESTADÍSTICO t

Para cada coeficiente se realiza el siguiente contraste de hipótesis:

𝐻0 : 𝛽𝑖 = 0
𝐻𝑎 : 𝛽𝑖 ≠ 0
Si el coeficiente contrastado con su correspondiente hipótesis tiene un valor
estadísticamente distinto de 0, entonces sí tiene un efecto sobre la respuesta de
la variable dependiente.
EJEMPLO
Supongamos que se tiene la siguiente información experimental que indica que la tasa de crecimiento de
algas acuáticas de una laguna (NPP) es función de la temperatura del agua (T):

T NPP
(°C) (g kg-1 día-1)
10 0,2158

15 0,4384

20 0,8120

25 1,1978

30 1,6060

35 2,0038
EJEMPLO

2.5
𝑁𝑃𝑃 = 𝑎 + 𝑏 ∙ 𝑇
2
NPP (g kg-1 día-1)
1.5

1
b
0.5

0
0 5 10 15 20 25 30 35 40
T (°C)
a
Relación entre la temperatura media del agua y la producción primaria neta de algas
acuáticas (NPP g kg-1 día-1), utilizando un modelo lineal.
EJEMPLO
Análisis de Varianza

df SS MS F Significance F
Regression 1 2.351043 2.351043 582.4267 1.75E-05
Residual 4 0.016147 0.004037
Total 5 2.367189

Standard
Coefficients Error t Stat P-value Lower 95% Upper 95%
Intercept -0.60376 0.073101 -8.25925 0.001172 -0.80672 -0.4008
T 0.073306 0.003038 24.13352 1.75E-05 0.064873 0.08174
**Cuando el t calculado es negativo, se toma su valor absoluto
EJEMPLO

Regression Statistics
Multiple R 0.996584
R Square 0.993179
Adjusted R Square 0.991474
Standard Error 0.063535
Observations 6
Los grados de libertad serán igual a el número de datos – 2 (ó n-2)
EJEMPLO
La regresión calculada es altamente significativo (alto valor
del estadígrafo F y baja probabilidad del valor crítico del
mismo).

También presenta un alto coeficiente de determinación (R2 =


99,32%)
Además, sus coeficientes son significativos (lo que se
deduce por los valores del estadígrafo t y la probabilidad
asociada a cada uno de ellos).
EJEMPLO
El cuadrado medio o promedio de los cuadrados del error
(residuos) es la estimación de la varianza de la regresión.

La raíz cuadrada de este último valor corresponde a la


desviación estándar o error estándar (o típico) de la
regresión (Eest):

𝐸𝑒𝑠𝑡 = 0,00403663 = 0,063534501


RECORDAR

La varianza de una regresión se refiere


a la medida de dispersion o
variabilidad de los valores observados
con respecto a los valores predichos
por el modelo de la regresión.

Se evalúa cuánto se desvían los


puntos de datos reales del valor
predicho por la ecuación de regresión.
VOLVIENDO AL EJEMPLO

La ecuación de regresión calculada puede ser tratada como una


variable aleatoria, cuyo error (ε) se distribuye normalmente, con
media cero y desviación estándar equivalente al error estándar de la
regresión (Eest).

𝑁𝑃𝑃 = −0,6037581 + 0,07330629 ∙ 𝑇 + 𝜀

𝜀 = 𝑁𝑜𝑟𝑚𝑎𝑙 (0, 𝐸𝑒𝑠𝑡 )


SIGNIFICANCIA BIOLÓGICA DE LA REGRESIÓN

2.5

2
NPP (g kg-1 día-1)
1.5

0.5

0
0 5 10 15 20 25 30 35 40
T (°C)
SIGNIFICANCIA BIOLÓGICA DE LA REGRESIÓN

La ecuación lineal, es válida dentro de ciertos rangos:

Con temperaturas del agua menores a un cierto valor (8,2 °C), la ecuación genera
valores negativos en las tasas de crecimiento.

Probablemente con temperaturas muy altas, las tasas de crecimiento támbién


serían muy altas.

Al utilizarla en un programa de simulación, como Stella, será necesario acotarla


empleando las sentencias correspondientes.
SIGNIFICANCIA BIOLÓGICA DE LA REGRESIÓN

Por ejemplo, si sabemos que NPP varía entre 0 y 2,25 g kg-1 día-1

𝑁𝑃𝑃 = 𝑀𝐼𝑁( −0,604 + 0,0733 ∙ 𝑇 ; 2,25)

𝑁𝑃𝑃 = 𝑀𝐴𝑋(𝑀𝐼𝑁 −0,604 + 0,0733 ∙ 𝑇 ; 2,25 ; 0)


Cátedra de Teoría de Sistemas y Modelación Ambiental
Semestre de Primavera 2024

Ajuste de curvas

Profesora: Ing. Agr. Mg. Sc. Ag. Claudia Navarro Espinosa

También podría gustarte