Modelos Lineales Generalizados - UFLA - UNALM

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 71

Modelos lineales generalizados aplicados

a la ecología utilizando software R

Marcela Pyles:
Doctorado em Ecologia Aplicada-UFLA
Vladimir Camel:
Doctorando en Ciencias e Ingenieria Biologica-UNALM
Modelos lineales generalizados aplicados
a la ecología utilizando software R
Primer día:
• Teoría sobre muestreo y conceptos estadísticos
importantes.Introducción al lenguaje R
Según día:
• Practica en R : Explotación de datos y análisis estadísticos
a menudo utilizados en los estudios ecológicos
Tercer día:
• Presentación de modelos lineales generalizados y
practicas sobre selección de variables
“Lo bueno es que la estadística es cada
vez más fácil y accesible, lo malo es que
ella esta más fácil y accesible”
• Los errores de delineamiento comprometen todos los
análisis de datos siendo imposible reparar tales errores
después del cierre del experimento (Gotelli & Ellison
2011).

• Delineamiento de investigación: Se refiere a la planificación


de la investigación de una forma más amplia, involucrando
tanto el muestreo, previsión de análisis e interpretación de
datos.
Un buen delineamiento sólo se hace si la pregunta,
hipótesis y objetivo de su proyecto están bien elaborado!

Hipótesis y objetivos;

Delineamiento experimental;

Recolección de datos

Análisis estadísticos

Interpretación

HURLBERT (1984)
Lógica de delineamiento de investigación

Observación

La muestra,
variables, escala... Preguntas

Predicciones..
.
Hipótesis biológicas

Hipótesis nulas
y alternativas Hipótesis estadísticos

Análisis P, R², anova,


estadísticos AIC, t....
Delineamiento de investigación
El muestreo
Universo de muestreo
Delineamiento de investigación

Muestreo
Delineamiento de investigación

Unidad de muestreo
Delineamiento de investigación

• Repetición: Control de errores aleatorios y aumenta la


capacidad general de la prueba
Cuanto más, mejor!!
X

Y
….Independencia de la muestra

• Elimina una posible fuente de error (bias)


• Elimina variables molestas posiblemente
desconocidas
• Es una suposición de prácticamente todas
las técnicas estadísticas
Delineamiento de investigación

Y si no las tenemos?
Pseudo-repetición: no hay independencia entre las muestras
....Dinero
….Logística

¿Qué tipo de datos pueden carecer de


independencia?
- Las muestras de un mismo individuo /
parcela / cuenca / etc…
- Muestras ordenadas en tiempo y espacio
(gradientes)
- Especie
Delineamiento de investigación
Delineamiento de investigación

¿La muestra es representativa del todo


que estoy estudiando?
Delineamiento de investigación

¿La muestra es suficiente para mostrar lo que realmente existe?

-Curva de esfuerzo de muestro


-Curva de acumulación de especies
Delineamiento de investigación

Variable: característica de interés a medir en cada unidad de


la muestra
Cualitativa o Cuantitativa o
categórica numérica
Dicotómica o
binaria Discreta

Politómica Continúa

Nominal Ordinal
Delineamiento de investigación

Ejemplos de variables cualitativas:

Cualitativa nominal: tipo de suelo, género, especie,


región de ocurrencia, etc...

Cualitativa ordinal: Clases de tamaño, grado de


preferencia de un hábitat, etc...
Delineamiento de investigación

Una variable es cuantitativa cuando sus posibles valores son


numéricos y estos números tienen significado como tal.

Discreta Continúa
Delineamiento de investigación

• Variable independiente (predictora): Es la medida que no


depende de ninguna otra variable medida. En general es
representada en el eje X.

• Variable dependiente (respuesta): Es una medida que


dependerá / responderá al valor de otra variable medida. En
general representada en el eje Y.
Análisis estadísticos

La combinación entre los tipos de variables indica qué


prueba estadística usar!

Predictora Respuesta

Cuantitativa Cuantitativa

Regresiones
Análisis estadísticos

La combinación entre los tipos de variables indica qué


prueba estadística usar!

Predictora Respuesta

Cualitativa Cuantitativa

Anova,
test t ...
Análisis estadísticos

La combinación entre los tipos de variables indica qué


prueba estadística usar!

Predictora Respuesta

Cualitativa Cualitativa

Chi- cuadrado
Análisis estadísticos

P - valor

• El valor de p está relacionado con la confianza que podemos tener


en las conclusiones obtenidas a través de las pruebas estadísticas.
• Además, representa la probabilidad o la probabilidad del efecto
observado entre los tratamientos o categorías, debidos al azar y
no a los factores que fueron probados.

p-valor > 0.05 = mayor chance de que


los resultados sean al azar.
Nivel de 0,05 (o 5%)
significancia p-valor < 0.05 = menor chance de que
los resultados sean al azar
Análisis estadísticos

P - valor

• El valor de p está relacionado con la confianza que podemos tener


en las conclusiones obtenidas a través de las pruebas estadísticas.
• Además, representa la probabilidad o la probabilidad del efecto
observado entre los tratamientos o categorías, debidos al azar y
no a los factores que fueron probados.
Ejemplo:
p-valor < 0.05
A cada 100 pruebas, es posible que en 0,12
la diferencia entre los promedios sean
debido al azar y no por los tratamientos

Puedo entonces concluir y discutir que mis


diferencias son por los tratamientos
Análisis estadísticos

P - valor

• El valor de p está relacionado con la confianza que podemos tener


en las conclusiones obtenidas a través de las pruebas estadísticas.
• Además, representa la probabilidad o la probabilidad del efecto
observado entre los tratamientos o categorías, debidos al azar y
no a los factores que fueron probados.
Ejemplo: P-valor >> 0.05

A cada 100 pruebas, es posible que en 60 la


diferencia entre los promedios sean debido
al azar y no por los tratamientos

No puedo concluir y discutir que mis


diferencias son por los tratamientos, pues la
probabilidad de que sean al azar es grande
Análisis estadísticos

También, hay que saber el comportamiento de los datos!!


Variable dependiente (respuesta)

Comportamiento o distribución : La frecuencia con que los valores aparecen


La probabilidad de ocurrencia de tal variable

Variable Variable
discreta continúa
Análisis estadísticos

También, hay que saber el comportamiento de los datos!!


Variable dependiente (respuesta)

Comportamiento o distribución : Prever el error acerca de las pruebas


Residuos

Variable Variable
discreta continúa
Análisis estadísticos

También, hay que saber el comportamiento de los datos!!


Anova, regressiones, test T…

GLMs
Introducción al lenguaje R
Introducción al lenguaje
“Uno de los objetivos del análisis estadístico es destilar
un conjunto largo y complicado de datos en un pequeño
número de estadísticas descriptivas significativas”
Introducción al lenguaje
“Uno de los objetivos del análisis estadístico es destilar
un conjunto largo y complicado de datos en un pequeño
número de estadísticas descriptivas significativas”

R, por otro lado, no le dice nada a menos que lo solicite explícitamente

La pregunta correcta sobre un análisis en


R no es sobre si es posible hacerlo, sino
como hacerlo.

Lenguaje y entorno de
programación
Introducción al lenguaje
Introducción al lenguaje

Todo es entrenamiento!!!

• Mucha cosa ya está lista.


• Hay una gran comunidad trabajando para
mejorar el programa (todos los años se crean
nuevas versiones).
• Busque ayuda en Internet - foros, listas de
discusión, folletos, tutoriales, etc…
• Insistir! Trate de usar con frecuencia para no
olvidar.
• Y practicando constantemente, ustedes estarán
programando pequeñas funciones.
Introducción al lenguaje
• R-Studio -> la apariencia es mejor
Introducción al lenguaje
• R-Studio -> la apariencia es mejor
Paso a paso en R: Funciones de instalación, importación y lectura de datos

R es un entorno de software libre de análisis estadísticos y edición de gráficos, capaz de


compilar y ejecutar en una amplia variedad de plataformas UNIX, Windows y MacOS.

Instalación de RGui y Rstudio


Paso 2.1: Acceder a la página del proyecto R en https://www.r-project.org/
Passo 2.2: Acessar a página do projeto RStudio: https://www.rstudio.com;

R: Información previa
El software R es sensible a cualquier error tipográfico.
R sólo reconocerá las variables cuando el término coincide exactamente con los
términos de los datos de entrada (R es case sensitive)
-El prompt de comando en R Console : ">" (mayor) en rojo: simboliza que el R está listo para
iniciar.
-Cuando aparece un "+" es que falta algo en su comando.
Paso a paso en R: Funciones de instalación, importación y lectura de datos

# attach (): Hace que el R vea los nombres de las variables


# header=T : nombre en las columnas y 'row.names=1': cada linea como una muestra
Paso a paso en R: Funciones de instalación, importación y lectura de datos

Creación de datos

• El R no reconoce espacios en los nombres de las columnas. Utilice underline (_) o


nombres cortos.
• Se recomienda el uso de plantillas guardadas como .csv (separadas por coma)
(También se puede introducir datos .txt)
• !! Cuidado con los separadores decimales. Se recomienda cambiar la
configuración de su ordenador a punto como separador decimal!
Análisis exploratorio de datos

"Un enfoque de análisis de datos con el objetivo de resumir


las principales características de un conjunto de datos,
comúnmente usando gráficos"

"Análisis exploratorio, es mirar los datos y ver lo que dicen"

"Análisis exploratorio de datos nunca puede ser la historia


completa, pero nada más sirve como el primer paso."
Análisis exploratorio de datos
Control de calidad de los datos

Descubrir patrones y formular hipótesis (para estudios futuros)


Análisis exploratorio de datos
Evaluar las premisas de las pruebas estadísticas planificadas.
Eventualmente, podemos
Hay normalidad? cambiar el tipo de algunas
variables, redefiniendo sus
valores.

Probar diferentes transformaciones


de datos.
Análisis exploratorio de datos
Evaluar correlaciones entre los datos

Grados de libertad

Condicional para modelos


Análisis exploratorio de datos
Análisis estadísticos en ecología
Modelos lineales
Modelos donde las variables presentan relación lineal

…esto es posible analizar en los gráficos de dispersión

Presupuestos:
• Homogeneidad de la varianza
• Normalidad de los residuos
Análisis estadísticos en ecología
Modelos lineales
Regresiones lineales

Modelar la relación entre variables cuantitativas

La regresión se utiliza para las pruebas


de "causa -efecto" ɛi
Yi = α + β*Xi + εi
Y
}
Basado en la distribución  Coeficiente
normal de los datos angular

Análisis estadísticos en ecología
Modelos lineales
Regresiones lineales

R²= 0.67

R²: mide la variación en Y


(variable respuesta) que es
de facto explicada por la
variable predictora.

0<R²<1
Análisis estadísticos en ecología
Modelos lineales
Análisis de varianza (ANOVA)
La varianza es una medida de dispersión estadística, que indica "cuán lejos"
en general los valores estimados se encuentran del valor esperado
Objetivo del ANOVA: comparación de la varianza entre grupos que fueron
muestreados aleatoriamente;
Variable cualitativa
p-value = 0.002 * (categórica)
Análisis estadísticos en ecología
p-value = 0.002 *
Hay diferencia!! Pero donde?

Prueba de Tukey para comparar promedios


Análisis estadísticos en ecología

Modelos lineales generalizados (GLM)

GLM son modelos estadísticos que asumen errores de otras familias


de distribución, o sea, se utilizan cuando la varianza no es constante
o el error del modelo no tiene una distribución gaussiana (normal)
Análisis estadísticos en ecología
¿Por qué utilizar GLM en lugar de regresión y ANOVA en ecología?

• Raramente nuestros datos tienen todos los supuestos de ANOVA o


Regresión;
• Nos permiten probar los efectos de variables continuas y categóricas
en el mismo modelo;
• Nos permiten minimizar los efectos de pseudo-repeticiones
espaciales y temporales de las muestras;
• Los datos de abundancia (conteo), generalmente presentan ceros
inflados.
Análisis estadísticos en ecología
¿Cuáles son las ventajas del GLM?
• Resuelven los problemas de los supuestos de las pruebas estadísticas clásicas;
• Se presentan más eficaces para modelos más robustos en relaciones específicas
entre la variable dependiente con la independiente;
• Son más dinámicos en su concepción para el ajuste de hipótesis.

¿Cuáles son las desventajas del GLM en análisis de datos en ecología?


• Son muy desafiantes (complicados) para principiantes;
• Lidian con una amplia gama de parámetros dentro de los modelos;
• La forma en que se obtienen los grados de libertad son a veces poco conocidas
(explicadas).
Análisis estadísticos en ecología
Los modelos GLM consisten en tres componentes importantes:
1) Una familia exponencial (Distribución de errores), que especifica la
distribución condicional de la variable respuesta, Yi (para el i de n
muestreados independientemente), dado los valores de las variables
explicativas del modelo.
Familia exponencial: Normal, Binomial, Bernoulli, Poisson, Exponencial,
Gama, Binomial Negativa…

Normal: datos continuos


Poisson y binomial negativa: datos de conteo (valores enteros iguales o
superiores a ceros)
Binomial: datos binarios o proporciones
Gamma: datos que muestran un coeficiente constante de variación a la
derecha de la distribución;
Análisis estadísticos en ecología
Los modelos GLM consisten en tres componentes importantes:
2) Un predictor lineal tal como en la regresión o ANOVA:

Y = α + (β1*Xi1) + (β2*Xi2) +· · ·+ (βk*Xik)

3) Una función link (linearización) descrita como g (μi), que transforma


la expectativa de la variable respuesta, μi = E (Yi), para un predictor
lineal.
Análisis estadísticos en ecología
Ejemplo de GLM
Variable respuesta

> m1<-lm( carbon.trees~vento + sizelog+ umid +temp , data=dados1)

Variables predictoras (explicativas)

y=a+(b1*x1)+(b2*x2)+(b3*x3)……
y=152.9256+(-0.7522*vento)+(-1.7792*sizelog)+(0.6091*umid)+(-1.6449*temp)
Análisis estadísticos en ecología
Ejemplo de GLM
Variable respuesta (0/1)

> m1<-glm(Incana~Diametro+HT+nramas+LRML+altitude, family= binomial, data=MarcoAzi)

Variables predictoras (explicativas)


Análisis estadísticos en ecología
Selección de modelos (variables)

Se busca el modelo más parsimonioso, es decir, el modelo que implica el mínimo de parámetros
posibles a ser estimados y que explique bien el comportamiento de la variable respuesta.
> m1<-lm(carbon.trees~vento + sizelog+ umid +temp , data=dados1)

m1<-lm(carbon.trees~vento+sizelog+temp+umid data=dados1)
m2<-lm(carbon.trees~umid,data=dados1)
m3<-lm(carbon.trees~vento+sizelog,data=dados1)
m4<-lm(carbon.trees~vento+temp,data=dados1)
m5<-lm(carbon.trees~temp, data=dados1)
m6<-lm(carbon.trees~vento, data=dados1)
m7<-lm(carbon.trees~sizelog, data=dados1)
m8<-lm(carbon.trees~vento+sizelog+temp, data=dados1)
m9<-lm(carbon.trees~umid+temp,data=dados1)

Modelos candidatos = todos los posibles modelos


Análisis estadísticos en ecología
Selección de modelos (variables)

Se busca el modelo más parsimonioso, es decir, el modelo que implica el mínimo de parámetros
posibles a ser estimados y que explique bien el comportamiento de la variable respuesta
> m1<-lm( carbon.trees~vento + sizelog+ umid +temp , data=dados1)

Modelos candidatos = todos los posibles modelos

Rankeamiento de los modelos -> del mejor para el peor

Criterio de Información de Akaike (AIC)

Medida de incertidumbre,
cuanto mas alto el valor, mas
incierto es la importancia de
las variables
Análisis estadísticos en ecología
Selección de modelos (variables)
> m1<-lm( carbon.trees~vento + sizelog+ umid +temp , data=dados1)

Burnham, K. P. and Anderson, D. R (2002) :


Modelos con ∆AIC ≤ 2 son igualmente soportados (o 4 o 6 o 10, cuando los valores de peso
son muy bajos)
Análisis estadísticos en ecología
Selección de modelos (variables)
> m1<-lm( carbon.trees~vento + sizelog+ umid +temp , data=dados1)

Hace un promedio de los coeficientes!


Multi-model inference

y=a+(b1*x1)+(b2*x2)+(b3*x3)……
y=145.2662+(-1.7969*temp)+(0.6524*umid)+(-0.9436*vento)
Análisis estadísticos en ecología

Modelos Lineales Generalizados Mixtos (GLMM)


Los Modelos Lineales Generalizados Mixtos (GLMM) combinan las propiedades de
dos cuadros estadísticos que son ampliamente utilizados en ecología, siendo:

• Incorporan efectos de variables aleatorias (random effects)

• Y las ecuaciones lineales generalizadas (que tratan con datos no normales


usando funciones de enlace y familia exponencial como Gaussian, Poisson o
binomial).

Llamamos un efecto aleatorio una variable que agrupa los datos y que su
efecto sobre la variable respuesta no nos interesa directamente.
Análisis estadísticos en ecología
En la ecología, ¿de dónde viene ese efecto?
• Pseudo-repeticiones y bloques

Nutrientes en la hoja~ pluviosidad + temperatura + vientos

Taza de crecimiento de sp1 ~ pluviosidad + temperatura + vientos

Mismo individuo al
longo del tiempo
Análisis estadísticos en ecología
Ejemplo:

Almacenamiento de carbono~ tamaño del fragmento de foresta + pluviosidad + temperatura +


viento + diversidad funcional+ diversidad taxonómica
6 fragmentos forestales muestreados (GL bajo)

50x6 =300 muestras (GL alto)

Hay dependencia entre mis muestras

Almacenamiento de carbono~ tamaño del fragmento de foresta + pluviosidad +


temperatura + viento + diversidad funcional+ diversidad taxonómica + (1|Fragmento)
Análisis estadísticos en ecología
¿El tamaño de las serpientes tiene efecto en su masa corporal?
Hipótesis: Las serpientes más grandes presentan mayor masa.

-10 serpientes en cada punto


-6 poblaciones de serpientes

Por que viven en condiciones distintas, es esperado que


cada población tenga una tendencia distinta

No es nuestra pregunta

Tamaño ~masa+ (1|Población)


Análisis estadísticos en ecología
Sobredispersión (overdispersion)

La varianza observada en los datos es mayor que la varianza especificada por el


modelo adoptado, este fenómeno es conocido como sobredispersión .
 …..En el (summary) de glm sale el tamaño del
parámetro de dispersión que se debe respetar
para cada distribución.

El residual deviance debe ser


aproximadamente igual al número
de grados de libertad

• Este parámetro muestra cuantas veces la


varianza esta del promedio estimado
Análisis estadísticos en ecología
Sobredispersión (overdispersion)

La varianza observada en los datos es mayor que la varianza especificada por el


modelo adoptado, este fenómeno es conocido como sobredispersión .
 …..En el (summary) de glm sale el tamaño del
parámetro de dispersión que se debe respetar
para cada distribución.
El residual deviance / degree of freedon

El residual deviance debe ser


aproximadamente igual al número
de grados de libertad -> poisson

Residual deviance: 46.4 on 40 degrees of freedom

No hay overdispersion
Residual deviance: 1641.7 on 40 degrees of freedom
Hay overdispersion
Análisis estadísticos en ecología
Sobredispersión (overdispersion)

Sobredispersion es cuando la varianza observada en los datos es mayor que la


varianza especificada por el modelo adoptado.

Aunque las estimaciones puntuales de los


parámetros siguen siendo consistentes, los
errores estándar son incorrectos y
subestimados (por no incorporar la dispersión
extra)

Datos de conteo o proporciones


Poisson y binomial
Análisis estadísticos en ecología
Sobredispersión (overdispersion)

1) Incluir un parámetro para la varianza, una corrección en el


modelo - eso sustituyendo “family = poisson” por “family
= quasipoisson” o “family =binomial por
family=quasibinomial”
 La desventaja es que no tiene AIC asociado y no
se aplica cuando se utilizan modelos mixtos.

2) Utilizar la familia binomial negativa

También podría gustarte