Modelos Lineales Generalizados - UFLA - UNALM

Modelos lineales generalizados aplicados
a la ecología utilizando software R
Marcela Pyles:
Doctorado em Ecologia Aplicada-UFLA
Vladimir Camel:
Doctorando en Ciencias e Ingenieria Biologica-UNALM
Modelos lineales generalizados aplicados
a la ecología utilizando software R
Primer día:
• Teoría sobre muestreo y conceptos estadísticos
importantes.Introducción al lenguaje R
Según día:
• Practica en R : Explotación de datos y análisis estadísticos
a menudo utilizados en los estudios ecológicos
Tercer día:
• Presentación de modelos lineales generalizados y
practicas sobre selección de variables
“Lo bueno es que la estadística es cada
vez más fácil y accesible, lo malo es que
ella esta más fácil y accesible”
• Los errores de delineamiento comprometen todos los
análisis de datos siendo imposible reparar tales errores
después del cierre del experimento (Gotelli & Ellison
2011).
• Delineamiento de investigación: Se refiere a la planificación

de la investigación de una forma más amplia, involucrando
tanto el muestreo, previsión de análisis e interpretación de
datos.
Un buen delineamiento sólo se hace si la pregunta,
hipótesis y objetivo de su proyecto están bien elaborado!
Hipótesis y objetivos;
Delineamiento experimental;
Recolección de datos
Análisis estadísticos
Interpretación
HURLBERT (1984)
Lógica de delineamiento de investigación
Observación
La muestra,
variables, escala... Preguntas
Predicciones..
.
Hipótesis biológicas
Hipótesis nulas
y alternativas Hipótesis estadísticos
Análisis P, R², anova,

estadísticos AIC, t....
Delineamiento de investigación
El muestreo
Universo de muestreo
Muestreo
Unidad de muestreo
• Repetición: Control de errores aleatorios y aumenta la

capacidad general de la prueba
Cuanto más, mejor!!
X
Y
….Independencia de la muestra
• Elimina una posible fuente de error (bias)

• Elimina variables molestas posiblemente
desconocidas
• Es una suposición de prácticamente todas
las técnicas estadísticas
Y si no las tenemos?
Pseudo-repetición: no hay independencia entre las muestras
....Dinero
….Logística
¿Qué tipo de datos pueden carecer de

independencia?
- Las muestras de un mismo individuo /
parcela / cuenca / etc…
- Muestras ordenadas en tiempo y espacio
(gradientes)
- Especie
¿La muestra es representativa del todo

que estoy estudiando?
¿La muestra es suficiente para mostrar lo que realmente existe?
-Curva de esfuerzo de muestro

-Curva de acumulación de especies
Variable: característica de interés a medir en cada unidad de

la muestra
Cualitativa o Cuantitativa o
categórica numérica
Dicotómica o
binaria Discreta
Politómica Continúa
Nominal Ordinal
Ejemplos de variables cualitativas:
Cualitativa nominal: tipo de suelo, género, especie,

región de ocurrencia, etc...
Cualitativa ordinal: Clases de tamaño, grado de

preferencia de un hábitat, etc...
Una variable es cuantitativa cuando sus posibles valores son

numéricos y estos números tienen significado como tal.
Discreta Continúa
• Variable independiente (predictora): Es la medida que no

depende de ninguna otra variable medida. En general es
representada en el eje X.
• Variable dependiente (respuesta): Es una medida que

dependerá / responderá al valor de otra variable medida. En
general representada en el eje Y.
La combinación entre los tipos de variables indica qué

prueba estadística usar!
Predictora Respuesta
Cuantitativa Cuantitativa
Regresiones

Cualitativa Cuantitativa
Anova,
test t ...

Cualitativa Cualitativa
Chi- cuadrado
P - valor
• El valor de p está relacionado con la confianza que podemos tener

en las conclusiones obtenidas a través de las pruebas estadísticas.
• Además, representa la probabilidad o la probabilidad del efecto
observado entre los tratamientos o categorías, debidos al azar y
no a los factores que fueron probados.
p-valor > 0.05 = mayor chance de que

los resultados sean al azar.
Nivel de 0,05 (o 5%)
significancia p-valor < 0.05 = menor chance de que
los resultados sean al azar
P - valor

Ejemplo:
p-valor < 0.05
A cada 100 pruebas, es posible que en 0,12
la diferencia entre los promedios sean
debido al azar y no por los tratamientos
Puedo entonces concluir y discutir que mis

diferencias son por los tratamientos
P - valor

Ejemplo: P-valor >> 0.05
A cada 100 pruebas, es posible que en 60 la

diferencia entre los promedios sean debido
al azar y no por los tratamientos
No puedo concluir y discutir que mis

diferencias son por los tratamientos, pues la
probabilidad de que sean al azar es grande
También, hay que saber el comportamiento de los datos!!

Variable dependiente (respuesta)
Comportamiento o distribución : La frecuencia con que los valores aparecen

La probabilidad de ocurrencia de tal variable
Variable Variable
discreta continúa

Variable dependiente (respuesta)
Comportamiento o distribución : Prever el error acerca de las pruebas

Residuos
Variable Variable
discreta continúa

Anova, regressiones, test T…
GLMs
Introducción al lenguaje R
Introducción al lenguaje
“Uno de los objetivos del análisis estadístico es destilar
un conjunto largo y complicado de datos en un pequeño
número de estadísticas descriptivas significativas”
“Uno de los objetivos del análisis estadístico es destilar
un conjunto largo y complicado de datos en un pequeño
número de estadísticas descriptivas significativas”
R, por otro lado, no le dice nada a menos que lo solicite explícitamente
La pregunta correcta sobre un análisis en

R no es sobre si es posible hacerlo, sino
como hacerlo.
Lenguaje y entorno de
programación
Todo es entrenamiento!!!
• Mucha cosa ya está lista.

• Hay una gran comunidad trabajando para
mejorar el programa (todos los años se crean
nuevas versiones).
• Busque ayuda en Internet - foros, listas de
discusión, folletos, tutoriales, etc…
• Insistir! Trate de usar con frecuencia para no
olvidar.
• Y practicando constantemente, ustedes estarán
programando pequeñas funciones.
• R-Studio -> la apariencia es mejor
• R-Studio -> la apariencia es mejor
Paso a paso en R: Funciones de instalación, importación y lectura de datos
R es un entorno de software libre de análisis estadísticos y edición de gráficos, capaz de

compilar y ejecutar en una amplia variedad de plataformas UNIX, Windows y MacOS.
Instalación de RGui y Rstudio

Paso 2.1: Acceder a la página del proyecto R en https://www.r-project.org/
Passo 2.2: Acessar a página do projeto RStudio: https://www.rstudio.com;
R: Información previa
El software R es sensible a cualquier error tipográfico.
R sólo reconocerá las variables cuando el término coincide exactamente con los
términos de los datos de entrada (R es case sensitive)
-El prompt de comando en R Console : ">" (mayor) en rojo: simboliza que el R está listo para
iniciar.
-Cuando aparece un "+" es que falta algo en su comando.
# attach (): Hace que el R vea los nombres de las variables

# header=T : nombre en las columnas y 'row.names=1': cada linea como una muestra
Creación de datos
• El R no reconoce espacios en los nombres de las columnas. Utilice underline (_) o

nombres cortos.
• Se recomienda el uso de plantillas guardadas como .csv (separadas por coma)
(También se puede introducir datos .txt)
• !! Cuidado con los separadores decimales. Se recomienda cambiar la
configuración de su ordenador a punto como separador decimal!
Análisis exploratorio de datos
"Un enfoque de análisis de datos con el objetivo de resumir

las principales características de un conjunto de datos,
comúnmente usando gráficos"
"Análisis exploratorio, es mirar los datos y ver lo que dicen"
"Análisis exploratorio de datos nunca puede ser la historia

completa, pero nada más sirve como el primer paso."
Control de calidad de los datos
Descubrir patrones y formular hipótesis (para estudios futuros)

Evaluar las premisas de las pruebas estadísticas planificadas.
Eventualmente, podemos
Hay normalidad? cambiar el tipo de algunas
variables, redefiniendo sus
valores.
Probar diferentes transformaciones

de datos.
Evaluar correlaciones entre los datos
Grados de libertad
Condicional para modelos

Análisis estadísticos en ecología
Modelos lineales
Modelos donde las variables presentan relación lineal
…esto es posible analizar en los gráficos de dispersión
Presupuestos:
• Homogeneidad de la varianza
• Normalidad de los residuos
Modelos lineales
Regresiones lineales
Modelar la relación entre variables cuantitativas
La regresión se utiliza para las pruebas

de "causa -efecto" ɛi
Yi = α + β*Xi + εi
Y
}
Basado en la distribución  Coeficiente
normal de los datos angular

Modelos lineales
Regresiones lineales
R²= 0.67
R²: mide la variación en Y

(variable respuesta) que es
de facto explicada por la
variable predictora.
0<R²<1
Modelos lineales
Análisis de varianza (ANOVA)
La varianza es una medida de dispersión estadística, que indica "cuán lejos"
en general los valores estimados se encuentran del valor esperado
Objetivo del ANOVA: comparación de la varianza entre grupos que fueron
muestreados aleatoriamente;
Variable cualitativa
p-value = 0.002 * (categórica)
p-value = 0.002 *
Hay diferencia!! Pero donde?
Prueba de Tukey para comparar promedios

Modelos lineales generalizados (GLM)
GLM son modelos estadísticos que asumen errores de otras familias

de distribución, o sea, se utilizan cuando la varianza no es constante
o el error del modelo no tiene una distribución gaussiana (normal)
¿Por qué utilizar GLM en lugar de regresión y ANOVA en ecología?
• Raramente nuestros datos tienen todos los supuestos de ANOVA o

Regresión;
• Nos permiten probar los efectos de variables continuas y categóricas
en el mismo modelo;
• Nos permiten minimizar los efectos de pseudo-repeticiones
espaciales y temporales de las muestras;
• Los datos de abundancia (conteo), generalmente presentan ceros
inflados.
¿Cuáles son las ventajas del GLM?
• Resuelven los problemas de los supuestos de las pruebas estadísticas clásicas;
• Se presentan más eficaces para modelos más robustos en relaciones específicas
entre la variable dependiente con la independiente;
• Son más dinámicos en su concepción para el ajuste de hipótesis.
¿Cuáles son las desventajas del GLM en análisis de datos en ecología?

• Son muy desafiantes (complicados) para principiantes;
• Lidian con una amplia gama de parámetros dentro de los modelos;
• La forma en que se obtienen los grados de libertad son a veces poco conocidas
(explicadas).
Los modelos GLM consisten en tres componentes importantes:
1) Una familia exponencial (Distribución de errores), que especifica la
distribución condicional de la variable respuesta, Yi (para el i de n
muestreados independientemente), dado los valores de las variables
explicativas del modelo.
Familia exponencial: Normal, Binomial, Bernoulli, Poisson, Exponencial,
Gama, Binomial Negativa…
Normal: datos continuos

Poisson y binomial negativa: datos de conteo (valores enteros iguales o
superiores a ceros)
Binomial: datos binarios o proporciones
Gamma: datos que muestran un coeficiente constante de variación a la
derecha de la distribución;
Los modelos GLM consisten en tres componentes importantes:
2) Un predictor lineal tal como en la regresión o ANOVA:
Y = α + (β1*Xi1) + (β2*Xi2) +· · ·+ (βk*Xik)
3) Una función link (linearización) descrita como g (μi), que transforma

la expectativa de la variable respuesta, μi = E (Yi), para un predictor
lineal.
Ejemplo de GLM
Variable respuesta
> m1<-lm( carbon.trees~vento + sizelog+ umid +temp , data=dados1)
Variables predictoras (explicativas)
y=a+(b1*x1)+(b2*x2)+(b3*x3)……
y=152.9256+(-0.7522*vento)+(-1.7792*sizelog)+(0.6091*umid)+(-1.6449*temp)
Ejemplo de GLM
Variable respuesta (0/1)
> m1<-glm(Incana~Diametro+HT+nramas+LRML+altitude, family= binomial, data=MarcoAzi)
Variables predictoras (explicativas)

Selección de modelos (variables)
Se busca el modelo más parsimonioso, es decir, el modelo que implica el mínimo de parámetros
posibles a ser estimados y que explique bien el comportamiento de la variable respuesta.
> m1<-lm(carbon.trees~vento + sizelog+ umid +temp , data=dados1)
m1<-lm(carbon.trees~vento+sizelog+temp+umid data=dados1)
m2<-lm(carbon.trees~umid,data=dados1)
m3<-lm(carbon.trees~vento+sizelog,data=dados1)
m4<-lm(carbon.trees~vento+temp,data=dados1)
m5<-lm(carbon.trees~temp, data=dados1)
m6<-lm(carbon.trees~vento, data=dados1)
m7<-lm(carbon.trees~sizelog, data=dados1)
m8<-lm(carbon.trees~vento+sizelog+temp, data=dados1)
m9<-lm(carbon.trees~umid+temp,data=dados1)
Modelos candidatos = todos los posibles modelos

Se busca el modelo más parsimonioso, es decir, el modelo que implica el mínimo de parámetros
posibles a ser estimados y que explique bien el comportamiento de la variable respuesta
Modelos candidatos = todos los posibles modelos
Rankeamiento de los modelos -> del mejor para el peor
Criterio de Información de Akaike (AIC)
Medida de incertidumbre,
cuanto mas alto el valor, mas
incierto es la importancia de
las variables
Burnham, K. P. and Anderson, D. R (2002) :

Modelos con ∆AIC ≤ 2 son igualmente soportados (o 4 o 6 o 10, cuando los valores de peso
son muy bajos)
Hace un promedio de los coeficientes!

Multi-model inference
y=a+(b1*x1)+(b2*x2)+(b3*x3)……
y=145.2662+(-1.7969*temp)+(0.6524*umid)+(-0.9436*vento)
Modelos Lineales Generalizados Mixtos (GLMM)

Los Modelos Lineales Generalizados Mixtos (GLMM) combinan las propiedades de
dos cuadros estadísticos que son ampliamente utilizados en ecología, siendo:
• Incorporan efectos de variables aleatorias (random effects)
• Y las ecuaciones lineales generalizadas (que tratan con datos no normales

usando funciones de enlace y familia exponencial como Gaussian, Poisson o
binomial).
Llamamos un efecto aleatorio una variable que agrupa los datos y que su
efecto sobre la variable respuesta no nos interesa directamente.
En la ecología, ¿de dónde viene ese efecto?
• Pseudo-repeticiones y bloques
Nutrientes en la hoja~ pluviosidad + temperatura + vientos
Taza de crecimiento de sp1 ~ pluviosidad + temperatura + vientos
Mismo individuo al
longo del tiempo
Ejemplo:
Almacenamiento de carbono~ tamaño del fragmento de foresta + pluviosidad + temperatura +

viento + diversidad funcional+ diversidad taxonómica
6 fragmentos forestales muestreados (GL bajo)
50x6 =300 muestras (GL alto)
Hay dependencia entre mis muestras
Almacenamiento de carbono~ tamaño del fragmento de foresta + pluviosidad +

temperatura + viento + diversidad funcional+ diversidad taxonómica + (1|Fragmento)
¿El tamaño de las serpientes tiene efecto en su masa corporal?
Hipótesis: Las serpientes más grandes presentan mayor masa.
-10 serpientes en cada punto

-6 poblaciones de serpientes
Por que viven en condiciones distintas, es esperado que

cada población tenga una tendencia distinta
No es nuestra pregunta
Tamaño ~masa+ (1|Población)

Sobredispersión (overdispersion)
La varianza observada en los datos es mayor que la varianza especificada por el

modelo adoptado, este fenómeno es conocido como sobredispersión .
 …..En el (summary) de glm sale el tamaño del
parámetro de dispersión que se debe respetar
para cada distribución.
El residual deviance debe ser

aproximadamente igual al número
de grados de libertad
• Este parámetro muestra cuantas veces la

varianza esta del promedio estimado
La varianza observada en los datos es mayor que la varianza especificada por el

modelo adoptado, este fenómeno es conocido como sobredispersión .
 …..En el (summary) de glm sale el tamaño del
parámetro de dispersión que se debe respetar
para cada distribución.
El residual deviance / degree of freedon
El residual deviance debe ser

aproximadamente igual al número
de grados de libertad -> poisson
Residual deviance: 46.4 on 40 degrees of freedom
No hay overdispersion
Residual deviance: 1641.7 on 40 degrees of freedom
Hay overdispersion
Sobredispersion es cuando la varianza observada en los datos es mayor que la

varianza especificada por el modelo adoptado.
Aunque las estimaciones puntuales de los

parámetros siguen siendo consistentes, los
errores estándar son incorrectos y
subestimados (por no incorporar la dispersión
extra)
Datos de conteo o proporciones

Poisson y binomial
1) Incluir un parámetro para la varianza, una corrección en el

modelo - eso sustituyendo “family = poisson” por “family
= quasipoisson” o “family =binomial por
family=quasibinomial”
 La desventaja es que no tiene AIC asociado y no
se aplica cuando se utilizan modelos mixtos.
2) Utilizar la familia binomial negativa

Modelos Lineales Generalizados - UFLA - UNALM

Cargado por

Copyright:

Formatos disponibles

Modelos Lineales Generalizados - UFLA - UNALM

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Modelos Lineales Generalizados - UFLA - UNALM

Cargado por

Copyright:

Formatos disponibles

Modelos lineales generalizados aplicados

a la ecología utilizando software R

• Delineamiento de investigación: Se refiere a la planificación

Análisis P, R², anova,

• Repetición: Control de errores aleatorios y aumenta la

• Elimina una posible fuente de error (bias)

¿Qué tipo de datos pueden carecer de

¿La muestra es representativa del todo

¿La muestra es suficiente para mostrar lo que realmente existe?

-Curva de esfuerzo de muestro

Variable: característica de interés a medir en cada unidad de

Ejemplos de variables cualitativas:

Cualitativa nominal: tipo de suelo, género, especie,

Cualitativa ordinal: Clases de tamaño, grado de

Una variable es cuantitativa cuando sus posibles valores son

• Variable independiente (predictora): Es la medida que no

• Variable dependiente (respuesta): Es una medida que

La combinación entre los tipos de variables indica qué

La combinación entre los tipos de variables indica qué

La combinación entre los tipos de variables indica qué

• El valor de p está relacionado con la confianza que podemos tener

p-valor > 0.05 = mayor chance de que

• El valor de p está relacionado con la confianza que podemos tener

Puedo entonces concluir y discutir que mis

• El valor de p está relacionado con la confianza que podemos tener

A cada 100 pruebas, es posible que en 60 la

No puedo concluir y discutir que mis

También, hay que saber el comportamiento de los datos!!

Comportamiento o distribución : La frecuencia con que los valores aparecen

También, hay que saber el comportamiento de los datos!!

Comportamiento o distribución : Prever el error acerca de las pruebas

También, hay que saber el comportamiento de los datos!!

R, por otro lado, no le dice nada a menos que lo solicite explícitamente

La pregunta correcta sobre un análisis en

• Mucha cosa ya está lista.

R es un entorno de software libre de análisis estadísticos y edición de gráficos, capaz de

Instalación de RGui y Rstudio

# attach (): Hace que el R vea los nombres de las variables

• El R no reconoce espacios en los nombres de las columnas. Utilice underline (_) o

"Un enfoque de análisis de datos con el objetivo de resumir

"Análisis exploratorio, es mirar los datos y ver lo que dicen"

"Análisis exploratorio de datos nunca puede ser la historia

Descubrir patrones y formular hipótesis (para estudios futuros)

Probar diferentes transformaciones

Condicional para modelos

…esto es posible analizar en los gráficos de dispersión

Modelar la relación entre variables cuantitativas

La regresión se utiliza para las pruebas

R²: mide la variación en Y

Prueba de Tukey para comparar promedios

Modelos lineales generalizados (GLM)

GLM son modelos estadísticos que asumen errores de otras familias

• Raramente nuestros datos tienen todos los supuestos de ANOVA o

¿Cuáles son las desventajas del GLM en análisis de datos en ecología?

Normal: datos continuos

Y = α + (β1*Xi1) + (β2*Xi2) +· · ·+ (βk*Xik)

3) Una función link (linearización) descrita como g (μi), que transforma

> m1<-lm( carbon.trees~vento + sizelog+ umid +temp , data=dados1)

Variables predictoras (explicativas)

Y = α + (β1Xi1) + (β2Xi2) +· · ·+ (βk*Xik)