Estadistica y Biometria Balzarini
Estadistica y Biometria Balzarini
Estadistica y Biometria Balzarini
Autores
Mónica Balzarini
Julio Di Rienzo
Margot Tablada
Laura Gonzalez
Cecilia Bruno
Mariano Córdoba
Walter Robledo
Fernando Casanoves
by Balzarini Mónica; Di Rienzo Julio; Tablada Margot; Gonzalez, Laura;
Bruno Cecilia; Córdoba Mariano; Robledo Walter; Casanoves Fernando.
Editorial Brujas
1º Edición
Primera Impresión
Impreso en Argentina
ISBN:
Queda hecho el depósito que prevé la ley 11,723
Organigrama
I ORGANIGRAMA
III PRÓLOGO
V ¿QUÉ ES LA BIOESTADÍSTICA?
VII ÍNDICE DE CONTENIDOS
1 CAPÍTULO 1
ANÁLISIS EXPLORATORIO DE DATOS
CAPÍTULO 2
59 VARIABLES ALEATORIAS Y PROBABILIDADES
CAPÍTULO 3
83 MODELOS PROBABILÍSTICOS
CAPÍTULO 4
113 DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES
CAPÍTULO 5
137 ESTIMACIÓN DE PARÁMETROS Y CONTRASTE DE HIPÓTESIS
CAPÍTULO 6
173 COMPARACIÓN DE DOS POBLACIONES
CAPÍTULO 7
195 ANÁLISIS DE REGRESIÓN
CAPÍTULO 8
229 ESTUDIOS DE CORRELACIÓN Y ASOCIACIÓN
CAPÍTULO 9
257 DISEÑO Y ANÁLISIS DE EXPERIMENTOS A UN CRITERIO DE CLASIFICACIÓN
CAPÍTULO 10
293 ANÁLISIS DE EXPERIMENTOS CON VARIOS CRITERIOS DE CLASIFICACIÓN
CAPÍTULO 11
325 ENSAYOS MULTIAMBIENTALES COMPARATIVOS DE RENDIMIENTOS
Biometría|I
337 REFERENCIAS
339 TABLAS ESTADÍSTICAS
351 SOLUCIONES DE EJERCICIOS
377 ÍNDICE DE PALABRAS CLAVE
Pró lógó
Este libro tiene un doble propósito: presentar principios y conceptos básicos de la
Bioestadística que consideramos necesarios para comprender trabajos de investigación
y desarrollo en Agronomía y, por otro lado, ilustrar cómo pueden usarse herramientas
Prólogo
estadísticas clásicas para efectuar análisis de datos en problemas de investigación en
Ciencias Agropecuarias. Los análisis se realizan con soporte computacional usando el
software estadístico InfoStat desarrollado por nosotros en la Facultad de Ciencias
Agropecuarias de la Universidad Nacional de Córdoba (Di Rienzo et al., 2008). InfoStat
permite realizar una amplia gama de análisis estadísticos y la versión estudiantil y su
Manual de Usuario (Balzarini et al., 2008) pueden obtenerse gratuitamente
(www.infostat.com.ar). No obstante, el objetivo de la obra no está focalizado en el
“manejo” del software sino en la presentación comentada, más que formal, de
conceptos teóricos (que subyacen los procedimientos de análisis de datos). Se ilustran
estrategias de análisis e interpretación de resultados obtenidos con distintas
aplicaciones de herramientas bioestadísticas en problemas de la Agronomía.
La obra, se organiza en capítulos en función de núcleos temáticos comunes en los
programas introductorios de Estadística en carreras de Agronomía. Los autores de los
capítulos son, en su mayoría, docentes investigadores de la Cátedra de Estadística y
Biometría de la Facultad de Ciencias Agropecuarias de la Universidad Nacional de
Córdoba. Esperamos que el libro sea de utilidad para quienes se introducen en el
mundo del análisis de datos y sus aplicaciones.
Los autores
Biometría|III
¿Qué és la Bióéstadí stica?
En el ámbito de la Estadística, la Biometría ó Bioestadística, hace referencia a métodos
estadísticos y matemáticos que se aplican al análisis de datos provenientes de las
ciencias biológicas, como lo es la Agronomía. Debido a que las cuestiones a investigar,
¿Qué es?
cuando se trabaja con personas, animales, plantas u otros organismos vivos, son de
naturaleza muy variada, la Biometría es una disciplina en constante desarrollo. Incluye
no sólo herramientas para el análisis estadístico descriptivo de datos biológicos sino
también el uso de numerosos procedimientos y algoritmos de cálculo y computación
para el análisis inferencial, el reconocimiento de patrones en los datos y la construcción
de modelos que permiten describir y analizar procesos aleatorios.
Se dice que un fenómeno es de naturaleza aleatoria cuando los resultados del mismo no
se pueden predecir con exactitud. Es decir, cuando la respuesta observada puede tener
una componente de azar de manera tal que los datos colectados, para una
carcaterística de interés sobre distintos casos individuales o unidades de análisis, varían.
Por ejemplo, el rendimiento de plantas de olivos para una determinada región y sistema
de manejo puede tener un valor esperado de 30 kg/planta; no obstante plantas de un
mismo lote, aún siendo de la misma variedad y recibiendo idéntico manejo, no rendirán
exactamente lo mismo. Una desviación en más o menos 2 kg/planta puede ser común.
El valor de tal desviación en una planta particular es imposible de predecir antes de que
se realice su producción, es decir, antes que se coseche. Luego, predecir un volumen de
cosecha es un problema de naturaleza aleatoria y por tanto la respuesta deberá ser
estadística, deberá contemplar ésta y posiblemente otras componentes de error
asoaciadas a la variabilidad propia del fenómeno. Numerosos problemas de importancia
agronómica se estudian a través de modelos que incorporan componentes aleatorias o
medidas de incertidumbre.
La palabra Biometría hace alusión a que el centro de atención está puesto en la
medición de aspectos biológicos. El nombre proviene de las palabras griegas "bios" de
vida y "metron" de medida. Comprende también el desarrollo y aplicación de métodos y
de técnicas de análisis de datos (cuanti y cualitativos) para extraer información desde
conjuntos de datos que pueden ser obtenidos desde estudios experimentales u
observacionales.
Las herramientas bioestadísticas son claves en la generación de nuevos conocimientos
Biometría|V
VI
Í ndicé dé cónténidós
Índice
ANÁLISIS EXPLORATORIO DE DATOS .............................................................................. 3
MOTIVACIÓN ...................................................................................................................................... 3
CONCEPTOS TEÓRICOS Y PROCEDIMIENTOS ........................................................................................ 4
Población y muestra..............................................................................................7
Técnicas de muestreo ...........................................................................................9
Muestreo aleatorio simple (MAS) ................................................................................ 10
Muestreo aleatorio estratificado .................................................................................. 10
Muestreo por conglomerados ..................................................................................... 10
Muestreo sistemático.................................................................................................. 11
Estadística descriptiva ........................................................................................11
Frecuencias y distribuciones de frecuencias ............................................................... 12
Tablas de distribuciones de frecuencias ..................................................................... 12
Gráficos de distribuciones de frecuencias ................................................................... 18
Gráficos para dos variables ........................................................................................ 23
Gráficos multivariados ................................................................................................ 24
Medidas resumen ....................................................................................................... 30
Media, mediana y moda .............................................................................................. 30
Cuantiles y percentiles ................................................................................................ 33
Varianza y desviación estándar .................................................................................. 35
Coeficiente de variación.............................................................................................. 37
Covarianza y coeficiente de correlación ...................................................................... 38
COMENTARIOS .........................................................................................................................................39
NOTACIÓN........................................................................................................................................ 40
DEFINICIONES ..........................................................................................................................................40
APLICACIÓN ..............................................................................................................................................42
Análisis exploratorio de datos de agricultura de precisión ...................................42
EJERCICIOS ..............................................................................................................................................52
VARIABLES ALEATORIAS Y PROBABILIDADES ............................................................. 63
Biometría|vii
MOTIVACIÓN .................................................................................................................................... 63
CONCEPTOS TEÓRICOS Y PROCEDIMIENTOS ......................................................................................64
El azar .................................................................................................................64
Espacio muestral y variables aleatorias ..............................................................65
Probabilidad ........................................................................................................67
Distribuciones de variables aleatorias .................................................................69
COMENTARIOS .........................................................................................................................................76
NOTACIÓN........................................................................................................................................ 76
DEFINICIONES ..........................................................................................................................................76
APLICACIÓN ..............................................................................................................................................78
Análisis de datos de velocidad del viento ............................................................78
EJERCICIOS ..............................................................................................................................................81
MODELOS PROBABILÍSTICOS.......................................................................................... 87
MOTIVACIÓN .................................................................................................................................... 87
CONCEPTOS TEÓRICOS Y PROCEDIMIENTOS ......................................................................................87
Variables aleatorias continuas ............................................................................88
Aplicación ...........................................................................................................98
Manejo de plantaciones .............................................................................................. 98
Variables aleatorias discretas .......................................................................... 100
Distribución Binomial ................................................................................................ 100
Aplicación ........................................................................................................ 103
Plagas cuarentenarias .............................................................................................. 103
Distribución Poisson ................................................................................................. 104
Aplicación ........................................................................................................ 107
Manejo de acoplados de cosecha ............................................................................. 107
DEFINICIONES ....................................................................................................................................... 108
EJERCICIOS ........................................................................................................................................... 109
DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES ................................................ 117
MOTIVACIÓN ................................................................................................................................. 117
CONCEPTOS TEÓRICOS Y PROCEDIMIENTOS ................................................................................... 118
Distribución de estadísticos ............................................................................. 118
Distribución de la media muestral ............................................................................. 119
Distribución de una función de la varianza muestral .................................................. 130
Comentarios .................................................................................................... 133
NOTACIÓN..................................................................................................................................... 134
DEFINICIONES ....................................................................................................................................... 134
EJERCICIOS ........................................................................................................................................... 135
ESTIMACIÓN DE PARÁMETROS Y CONTRASTE DE HIPÓTESIS .................................. 141
MOTIVACIÓN ................................................................................................................................. 141
CONCEPTOS TEÓRICOS Y PROCEDIMIENTOS ................................................................................... 141
Modelo estadístico ........................................................................................... 144
Estimación puntual........................................................................................... 147
Consistencia ............................................................................................................. 147
Insesgamiento .......................................................................................................... 148
Eficiencia .................................................................................................................. 148
Cerramiento ............................................................................................................. 148
Confiabilidad de una estimación ...................................................................... 148
Error estándar........................................................................................................... 148
Intervalo de confianza ............................................................................................... 149
Aplicación ........................................................................................................ 151
Residuos de insecticida en apio ................................................................................ 151
VIII
Contraste de hipótesis ............................................................................................. 152
Nivel de significación ................................................................................................ 153
Contrastes bilateral y unilateral ................................................................................. 156
Valor p ...................................................................................................................... 157
Intervalo de confianza y contraste de hipótesis ......................................................... 158
Potencia ................................................................................................................... 159
DEFINICIONES ....................................................................................................................................... 164
EJERCICIOS ........................................................................................................................................... 167
COMPARACIÓN DE DOS POBLACIONES ............................................................... 177
MOTIVACIÓN ................................................................................................................................. 177
CONCEPTOS TEÓRICOS Y PROCEDIMIENTOS ................................................................................... 177
Distribución en el muestreo para la diferencia entre dos medias ....................... 177
Contraste de hipótesis para la diferencia entre dos medias .............................. 178
Muestras independientes y varianzas conocidas ...................................................... 180
Muestras independientes y varianzas poblacionales desconocidas e iguales ............. 182
Muestras independientes y varianzas poblacionales desconocidas y diferentes ......... 184
Muestras dependientes ............................................................................................ 186
Aplicación ........................................................................................................ 188
Rendimiento según época de cosecha ..................................................................... 188
Calidad de semilla bajo dos sistemas de polinización ................................................ 189
EJERCICIOS ........................................................................................................................................... 191
ANÁLISIS DE REGRESIÓN............................................................................................... 199
MOTIVACIÓN ................................................................................................................................. 199
CONCEPTOS TEÓRICOS Y PROCEDIMIENTOS ................................................................................... 199
Regresión lineal simple .................................................................................... 200
Aplicación ........................................................................................................ 202
Lámina de agua en los perfiles del suelo de un cultivo ............................................... 202
Regresión lineal múltiple .................................................................................. 212
Regresión polinómica ...................................................................................... 212
Aplicación ........................................................................................................ 213
Respuesta del cultivo a la fertilización nitrogenada ................................................... 213
Regresión con múltiples regresoras ................................................................. 218
Aplicación ........................................................................................................ 218
Condiciones óptimas de cultivo de bacteria............................................................... 218
EJERCICIOS ........................................................................................................................................... 227
ESTUDIOS DE CORRELACIÓN Y ASOCIACIÓN ............................................................. 233
MOTIVACIÓN ................................................................................................................................. 233
CONCEPTOS TEÓRICOS Y PROCEDIMIENTOS ................................................................................... 233
Coeficiente de correlación de Pearson ............................................................. 233
Aplicación ........................................................................................................ 234
Ácidos grasos en semillas......................................................................................... 234
IX
Coeficiente de correlación de Spearman .................................................................. 237
Aplicación ........................................................................................................ 239
Ácidos grasos en girasol ........................................................................................... 239
Coeficiente de concordancia ............................................................................ 240
Aplicación ........................................................................................................ 240
Condición corporal de animales ................................................................................ 240
Análisis de tablas de contingencia ................................................................... 241
Aplicación ........................................................................................................ 246
Condición corporal y éxito de inseminación............................................................... 246
Pruebas de bondad de ajuste........................................................................... 250
Aplicación ........................................................................................................ 253
Color de las flores, espinas y porte de un arbusto ...................................................... 253
EJERCICIOS ........................................................................................................................................... 257
DISEÑO Y ANÁLISIS DE EXPERIMENTOS A UN CRITERIO DE CLASIFICACIÓN ........... 261
MOTIVACIÓN ................................................................................................................................. 261
CONCEPTOS TEÓRICOS Y PROCEDIMIENTOS ................................................................................... 262
Criterios de clasificación e hipótesis del ANAVA .............................................. 264
El proceso generador de datos ........................................................................ 265
Conceptos del diseño de experimentos ........................................................... 267
Análisis de la varianza de un DCA .................................................................... 270
Aplicación ........................................................................................................ 273
Ensayo comparativo de rendimiento ......................................................................... 273
Pruebas ‘a Posteriori’: Comparaciones múltiples de medias ............................ 276
Prueba de Fisher .............................................................................................. 277
Prueba de Tukey .............................................................................................. 277
Prueba de Di Rienzo, Guzmán y Casanoves (DGC)............................................... 278
Aplicación ........................................................................................................ 279
Comparación de redimientos promedios................................................................... 279
Verificación de supuestos del ANAVA .............................................................. 282
Normalidad ............................................................................................................... 283
Homogeneidad de varianzas .................................................................................... 284
Independencia .......................................................................................................... 286
EJERCICIOS ........................................................................................................................................... 289
ANÁLISIS DE EXPERIMENTOS CON VARIOS CRITERIOS DE CLASIFICACIÓN ............ 297
MOTIVACIÓN ................................................................................................................................. 297
CONCEPTOS TEÓRICOS Y PROCEDIMIENTOS ................................................................................... 297
Más de un criterio de clasificación .................................................................... 297
Estructuras en los datos ................................................................................... 299
X
Diseño en Bloques Completos al Azar ...................................................................... 301
Aplicación ........................................................................................................ 306
DBCA en ensayo comparativo de variedades de trigo ............................................... 306
Diseño con estructura factorial de tratamientos (Bifactorial) ............................. 308
Aplicación ........................................................................................................ 309
Diseño bifactorial sin repeticiones ............................................................................. 309
Aplicación ........................................................................................................ 312
DCA con estructura bifactorial de tratamientos y repeticiones .................................. 312
Aplicación ........................................................................................................ 315
Ensayo para comparar calidad de embalaje.............................................................. 315
Otros caminos por recorrer en la modelación estadística ................................. 318
EJERCICIOS ........................................................................................................................................... 323
ENSAYOS MULTIAMBIENTALES COMPARATIVOS DE RENDIMIENTOS .............. 329
MOTIVACIÓN ................................................................................................................................. 329
CONTEXTO DEL PROBLEMA ................................................................................................................. 330
ANAVA A DOS CRITERIOS DE CLASIFICACIÓN Y BIPLOT ......................................................... 331
APLICACIÓN ........................................................................................................................................... 333
Red de ensayos de Trigo ................................................................................. 333
REFERENCIAS ........................................................................................................... 339
TABLAS ESTADÍSTICAS .................................................................................................. 341
SOLUCIONES DE EJERCICIOS........................................................................................ 353
ÍNDICE DE PALABRAS CLAVE ........................................................................................ 379
XI
Descriptiva
Capítuló 1
Biometría|1
Ana lisis éxplóratórió
dé datós
Motivación
Experimentar la Agronomía desde la búsqueda de información nos permite comprender
desarrollos científicos y tecnológicos en su lenguaje. Leer y comunicar artículos sobre
Ciencias Agropecuarias involucra saberes relacionados a entender y crear distintos tipos
de representación de información. Las herramientas bioestadísticas que conforman el
núcleo conceptual denominado Estadística Descriptiva o Análisis Exploratorio de Datos,
constituyen preciados instrumentos para organizar, representar y analizar información
naturalmente variable como la proveniente de estudios biológicos. A través de medidas
de resumen y gráficos conformados por la combinación de puntos, líneas, símbolos,
palabras y colores en sistemas coordenados, se muestran de manera sintética las
cantidades relevadas en diversos tipos de estudios (poblacionales/muestrales,
experimentales/observacionales). Los estadísticos descriptivos bien seleccionados para
cada estudio particular representan la vía más simple, y a la vez potente, de analizar y
comunicar información en ciencia y tecnología. El saber usar correctamente
herramientas de la Estadística no sólo es útil para la generación de información
científica, sino también para evaluar resultados de estudios que se publican en diversos
medios, para detectar estadísticas que consciente o inconscientemente son engañosas y
para identificar conjuntos de datos que no resultan buenos para tomar decisiones.
Este capítulo provee conceptos para comprender medidas resumen y gráficos,
principales herramientas del análisis estadístico exploratorio, y enseñar, desde la
práctica con software y casos reales, aspectos relevantes a la representación tabular y
visual de información estadística. Se presentan los principios para ver y crear gráficos
estadísticos simples para una variable, hasta gráficos multivariados útiles para
representar casos de estudio sobre los que se han registrados múltiples variables.
3
Análisis exploratorio de datos
4
Análisis exploratorio de datos
Las variables respuestas pueden ser obtenidas desde unidades de análisis que se
encuentran bajo condiciones a las que fueron expuestas intencionalmente (esto sucede
en estudios experimentales) o bajo condiciones en las que no hubo ningún tipo de
intervención por parte del investigador y por tanto se registran u observan los valores
de la variable tal cual se dan en la realidad (estudios observacionales). En los primeros,
el investigador modifica las condiciones y decide bajo qué valores de éstas desea
registrar la respuesta. Así es posible estudiar relaciones causales; es decir identificar
bajo qué condición o valor de un factor experimental se registran determinadas
respuestas. En los estudios experimentales el concepto de aleatorización juega un rol
importante. Usualmente, el azar (por algún procedimiento de aleatorización) se utiliza
para decidir qué unidades de análisis se expondrán bajo cada una de las condiciones de
interés (o tratamientos). Así, la aleatorización ayuda a evitar el confundimiento de
efectos de factores que podrían modificar el valor de la variable de análisis. La
importancia de los estudios experimentales aleatorizados y repetidos radica en que, al
obtener las respuestas, es posible pensar que éstas se deben a la condición asignada y
no a otro factor.
5
Análisis exploratorio de datos
Cada unidad de análisis que forma parte de un estudio, manifestará una respuesta a la
condición bajo la que se encuentra y esta respuesta será registrada como un valor de la
variable de estudio. Así, la variable asumirá un valor, dentro de sus valores posibles,
para cada unidad de análisis.
En las variables de naturaleza cuantitativa cada valor será un número que puede ser
interpretado como tal, mientras que en variables de naturaleza cualitativa el valor será
una categoría o cualidad. Si los valores posibles de una variable cuantitativa son
números enteros y provienen de un proceso de conteo, la variable se dice de tipo
discreta. Por ejemplo: cantidad de frutos por planta, número de yemas por estaca,
cantidad de insectos por trampa o número de crías por parto. Si los valores que puede
asumir la variable cuantitativa corresponden potencialmente a cualquier número real,
por supuesto en el rango de variación de la misma, la variable se dice continua. Las
variables continuas surgen a partir de procesos de medición como pueden ser pesadas o
determinaciones de longitudes, tiempos, áreas y volúmenes. Por ejemplo: rendimiento
del cultivo en qq/ha, longitud de espigas de trigo en centímetros, aumento de peso en
kilogramos, diámetro de granos de maíz en milímetros, temperatura máxima diaria en
grados centígrados.
Cuando la variable es cualitativa, los valores posibles son categorías o clases en las que
pueden clasificarse las unidades de análisis de manera excluyente; es decir cada unidad
pertenece a una y sólo una de las clases o categorías de la variable. Para este tipo de
variables, es importante también que las clases sean exhaustivas es decir que cubran
todas las clases posibles en las que puede asignarse una unidad de análisis. Por ejemplo,
si la variable cualitativa es “máximo nivel de estudio alcanzado por el encargado del
establecimiento”, los valores de la variable deberían ser ninguno, primario, secundario,
terciario, universitario y posgrado. Si cuando se operacionaliza la variable, es decir
cuando se decide cuantas categorías tendrá para el estudio de interés, se establecen las
categorías primario, secundario y universitario, no se sabrá qué valor asignar a la
6
Análisis exploratorio de datos
Población y muestra
En la obtención de datos hay varios aspectos a considerar por lo que el investigador
debe planificar su estudio de manera tal que con los datos que obtenga, y un adecuado
7
Análisis exploratorio de datos
análisis, logre información relevante para sus objetivos. Relevante se refiere a aquella
información que permite elaborar conclusiones, que aporta conocimiento, que
responde una pregunta de investigación y que resuelve un problema de interés.
Usualmente las preguntas están referidas a una o más variables de un conjunto de
unidades de estudio que se denomina población. Para que la pregunta quede mejor
definida, la población deberá estar acotada en el tiempo y el espacio.
La proposición anterior pone de manifiesto que, por ejemplo, los rendimientos
obtenidos en la última campaña agrícola por todos los productores de maíz de la
provincia de Córdoba, conforman una población. A su vez, podemos pensar que
podríamos estar interesados en todos los rendimientos obtenidos en la última campaña
por todos los productores de maíz del país, vale decir, en una nueva población: la
producción de maíz a nivel nacional. En la práctica, las poblaciones suelen ser
demasiado grandes y por tanto no se pueden obtener todos los datos de la población,
por lo que se realizan muestreos.
La muestra es una parte del todo, es la parte que será analizada unidad por
unidad para finalmente inferir o especular el comportamiento de la variable de
interés en la población. Por lo tanto, es importante conseguir una buena
muestra.
8
Análisis exploratorio de datos
El diseño del muestreo, es decir el planificar cómo se tomará una muestra, usualmente
se relaciona con preguntas tales como: ¿cuántas unidades conformarán una muestra?,
¿cómo se seleccionarán estas unidades desde la población? Como el objetivo es concluir
sobre la población a través de lo observado en una parte de ella, todas estas preguntas
persiguen un mismo fin: obtener muestras representativas de la población. Esto implica
que la muestra seleccionada para llevar a cabo el estudio, nos permitirá conocer
acertadamente características de la población de la que ha sido extraída.
El tamaño de la muestra es una característica a considerar para lograr buena
representatividad. Los procedimientos de selección de muestra o de muestreos
basados en el azar (procedimientos aleatorios) son preferibles a los procedimientos de
muestreos basado en el juicio del investigador sobre cuáles elementos considerar en la
muestra y cuáles no. Los muestreos aleatorios son muestreos probabilísticos ya que es
posible conocer la probabilidad que tiene cada muestra de ser seleccionada. En el
muestreo aleatorio simple, uno de los más utilizados, todas las unidades tienen la
misma posibilidad de formar parte de la muestra. Si bien existen fórmulas para calcular
los tamaños muestrales necesarios para una situación particular de análisis, fracciones
de muestreo de un 10% de la población, proveen usualmente de buena cantidad de
datos como para estimar lo que sucede en la población. Sin embargo, siempre es más
recomendable usar un método estadístico para determinar el tamaño de la muestra
más conveniente en cada estudio.
Muchacha en la ventana
(Salvador Dalí, 1925)
Técnicas de muestreo
Hay numerosos métodos de muestreo probabilístico y la elección del mismo depende
de características de la población a muestrear. Entre los más usados se encuentran el
muestreo aleatorio simple, el muestreo estratificado, el muestreo sistemático y el
muestreo por conglomerados.
9
Análisis exploratorio de datos
10
Análisis exploratorio de datos
familias u hogares en las que viven. Conviene seleccionar una muestra aleatoria de
hogares y registrar la edad de sus integrantes, más que seleccionar una muestra de
personas individuales, en vez de hogares, para así evitar un exceso de niños o adultos
mayores en la muestra.
Muestreo sistemático
En este muestreo se establece una regla para la forma en que se eligen las unidades de
análisis. La regla hace referencia a la cantidad de unidades que no serán elegidas pero
que se presentan entre dos unidades que serán seleccionadas. El muestreo comienza
eligiendo al azar una unidad de análisis y a partir de dicha elección habrá k unidades
disponibles que no se seleccionarán. De este modo, las unidades que conforman la
muestra son elegidas cada k unidades. El procedimiento suele ser usado para el
monitoreo de plagas en un cultivo. Si la unidad de muestreo es un metro lineal de surco
un muestreo sistemático de k pasos igual a 80 permitirá, por ejemplo, identificar las
unidades de muestreo sobre las que se harán las mediciones. Se comienza desde un
punto elegido al azar dentro del lote y cada 80 pasos se registran las observaciones en
un metro lineal de surco.
Estadística descriptiva
Generalmente, y sobre todo cuando se cuenta con importante cantidad de datos, es
necesario comenzar el análisis estadístico con un proceso de exploración o minería de
datos. En la etapa exploratoria se utilizan métodos para estudiar la distribución de los
valores de cada variable y las posibles relaciones entre variables, cuando existen dos o
más variables relevadas. La idea es poder visualizar el comportamiento de las variables
a través del uso de tablas, gráficos y medidas de resumen. Éstas son las principales
herramientas de la Estadística Descriptiva y se aplican casi indistintamente según se
tengan los datos de toda la población o de una muestra. Aunque, como se dijera
anteriormente, lo más usual en Bioestadística es analizar una muestra ya que la mayoría
de las poblaciones de interés son de tamaño prácticamente infinito.
La adecuada obtención y organización de los datos, son el punto de partida de cualquier
análisis estadístico. Por eso es importante contar con registros adecuados, datos de
calidad o con poco error de medición, y bien sistematizados en bases de datos que se
puedan procesar fácilmente.
11
Análisis exploratorio de datos
12
Análisis exploratorio de datos
En el Cuadro 1.2 se encuentran las frecuencias para 707 datos de la variable continua
“pesos de cabezas de ajo blanco”.
A diferencia de una tabla de frecuencias para una variable discreta, los valores
registrados para la variable peso (que teóricamente pueden ser muchos y todos
distintos por ser continua) han sido agrupados en intervalos de clase cuyos límites se
indican con LI=límite inferior y LS=límite superior. En cada intervalo de clase se han
contabilizado o agrupado, para el cálculo de frecuencias, aquellos datos comprendidos
entre los límites de dicho intervalo.
Se puede observar que el límite superior de una clase tiene el mismo valor que el límite
inferior de la clase siguiente, sin embargo un dato coincidente con dicho valor será
incluido en uno de los dos intervalos según se definan los límites de cada intervalo
como cerrados o abiertos; en este ejemplo, los límites superiores son cerrados y los
inferiores abiertos, por tanto un valor exactamente igual a un LS será incluido en el
primero de los dos intervalos que tengan este valor como límite.
13
Análisis exploratorio de datos
14
Análisis exploratorio de datos
Cuadro 1.3. Frecuencias de las categorías de la variable migración en una zona rural
Sentido de la migración FA FR
No migró 33 0,17
Temporal rural-urbana 14 0,07
Definitiva rural-rural 58 0,30
Definitiva rural-urbana 89 0,46
Total 194 1,00
15
Análisis exploratorio de datos
Estado sanitario
Tratamiento Sanos Enfermos Total
No vacunados 29 71 100
Vacunados 144 56 200
Total 173 127 300
El Cuadro 1.4 contiene en las filas a las clases (no vacunados y vacunados) de una
variable cualitativa nominal y en las columnas a las clases (sano o enfermo) de otra
variable cualitativa nominal. En las celdas aparecen las frecuencias absolutas, o cantidad
de unidades de análisis, bajo cada condición.
16
Análisis exploratorio de datos
Cuadro 1.5. Frecuencias relativas al total de unidades de análisis (animales) según el tipo de
tratamiento que recibe y su estado sanitario
Estado sanitario
Tratamiento Sanos Enfermos Total
No vacunados 0,10 0,24 0,33
Vacunados 0,48 0,19 0,67
Total 0,58 0,42 1,00
En nuestro ejemplo sería de interés presentar las frecuencias relativas por fila. Esto es,
la proporción de animales sanos y la proporción de animales enfermos en relación al
total de animales no vacunados (total de la fila 1) y en relación al total de animales
vacunados (total de la fila 2). Estas proporciones obtenidas en relación a los totales de
las filas se denominan perfiles filas y permiten conocer la distribución de las categorías
de la variable columna (variable respuesta) en cada categoría de la variable fila (variable
de clasificación). Los perfiles filas en los animales no vacunados y en los vacunados, se
muestran en el Cuadro 1.6.
Cuadro 1.6. Frecuencias relativas de animales sanos o enfermos según hayan sido o no
vacunados
Estado sanitario
Tratamiento Sanos Enfermos Total
No vacunados 0,29 0,71 1,00
Vacunados 0,72 0,28 1,00
Total 0,58 0,42 1,00
17
Análisis exploratorio de datos
10 0,25
8 0,20
Frecuencia absoluta
Frecuencia relativa
6 0,15
4 0,10
2 0,05
0 0,00
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
Número de flores Número de flores
Figura 1.1. Frecuencias absolutas y frecuencias relativas del número de flores por planta
18
Análisis exploratorio de datos
En estos gráficos puede leerse la misma información que observamos en las columnas
FA y FR de una tabla de frecuencias. Observemos que la distribución de los datos es la
misma en ambos gráficos, solo que se encuentra representada en diferentes escalas.
Otro gráfico que podría utilizarse para observar frecuencias absolutas de una variable es
el gráfico de densidad de puntos o dispersograma.
10
8
Número de flores/planta
Figura 1.2. Gráfico de densidad de puntos de la variable número de flores por planta.
19
Análisis exploratorio de datos
240 720
210 630
180 540
150 450
120 360
90 270
60 180
30 90
0 0
8 22 36 50 64 77 91 105 119 8 22 36 50 64 77 91 105 119
Peso (g) Peso (g)
(a) (b)
0,4 1,00
frec. rel. acumulada
0,3 0,75
frecuencia relativa
0,2 0,50
0,1 0,25
0,0 0,00
8 22 36 50 64 77 91 105 119 8 22 36 50 64 77 91 105 119
Peso (g) Peso (g)
(c) (d)
Figura 1.3. Histograma y polígono de frecuencias absolutas (a), frecuencias absolutas acumuladas
(b), frecuencias relativas (c) y frecuencias relativas acumuladas (d) de pesos (en g) de cabezas de
ajo blanco.
20
Análisis exploratorio de datos
1.0
0.8
Distribución empírica
0.6
0.4
0.2
0.0
8 22 36 50 64 77 91 105 119
Valores observ ados
Figura 1.4. Gráfico de distribución empírica de la variable pesos (en g) de cabezas de ajo blanco.
21
Análisis exploratorio de datos
Tanto en el caso del gráfico de sectores como en el de barras apiladas, la idea es tomar
una figura cuya área representa al total de casos y dentro de tal área ubicar sectores o
porciones que permiten visualizar la proporción de casos en cada categoría de la
variable. La Figura 1.4 y la Figura 1.5 muestran estos tipos de gráficos para los perfiles
filas presentados en el Cuadro 1.6.
1,00
0,29 0,72
Enfermos
0,75 Sanos
0,71
Proporción
0,50
0,25 0,28
0,00
No vacunados (n=100) Vacunados (n=200)
Tratamiento
Figura 1.6. Gráfico de barras apiladas para las frecuencias relativas de animales sanos y enfermos
según el tratamiento aplicado.
22
Análisis exploratorio de datos
75% (15/20) de los individuos se droga con marihuana, sin decir que de 100 fueron 20
los casos de consumo de drogas, podría ser muy engañoso.
Los ejes de un gráfico deben siempre tener nombres (aunque consideremos que es
obvia la información que el eje contiene). Las unidades de medida deben estar
explicitadas; los mínimos y máximos de los ejes deben ser seleccionadas
criteriosamente para no magnificar ni minimizar diferencias y para que el valor inicial y
final del eje sea un número entero de rápida lectura. Por ejemplo, aunque igualmente
se puedan representar rendimientos en una escala que va desde 8,3 a 28,35 qq/ha,
resulta más fácil de visualizar la gráfica si éstos se muestran en un eje cuyo mínimo es 0
y máximo 30 qq/ha. El uso de decimales de más (o de menos) puede dificultar la lectura
de la gráfica. La cantidad de “ticks” o marcas sobre cada eje no debe ser demasiada
pero tampoco escasa y debe estar asociada a la variación en la serie de valores que se
grafica. Los tamaños, los colores y la simbología usada para representar la información
deben permitir diferenciar datos que son distintos. Cuando existen más de una serie
gráfica es importante incorporar leyendas claras.
23
Análisis exploratorio de datos
24
20
Perímetro (cm)
16
12
8
5 35 65 95 125
Peso (g)
Figura 1.7. Gráfico de dispersión entre perímetro (cm) y peso (g) de cabezas de ajo blanco.
2.5
2.0
Rendimiento (t/ha)
1.5
1.0
0.5
0.0
Bajo Loma Media Loma Alta
Zona
Figura 1.8. Gráfico de barras entre rendimiento de soja (t/ha) y zona productiva de un
lote en producción.
Gráficos multivariados
Los gráficos presentados hasta este momento son gráficos uni o bivariados ya que
permiten visualizar la distribución de una variable o de dos variables. En el caso de dos
variables, puede resultar de interés analizar la distribución conjunta de las dos o la
distribución de una de las dos condicionada a niveles fijados para la otra variable, es
decir para determinados valores de la segunda variable. En este último caso como en
los análisis univariados se dice que la respuesta es unidimensional.
24
Análisis exploratorio de datos
Matriz de diagramas de dispersión: es útil para casos donde se miden más de una
variable pero no tantas como para impedir visualizar todas las relaciones de a pares. El
siguiente gráfico (Figura 1.9) fue construido con datos del archivo [Salinidad] Las
variables, sobre un conjunto de 45 macetas fueron biomasa de la planta que crece en
cada maceta, pH, zinc, potasio y salinidad del suelo usado como sustrato. Al observar las
principales correlaciones, pareciera que la biomasa se correlaciona positivamente con el
pH (es decir a medida que aumenta el pH, aumenta la biomasa) y negativamente con el
zinc (es decir a medida que aumenta el zinc, disminuye la biomasa).
Biomasa
pH
Salinidad
Zinc
Potasio
Figura 1.9. Matriz de diagramas de dispersión para las variables biomasa, pH, salinidad, zinc y
potasio.
25
Análisis exploratorio de datos
Gráfico de estrellas: se utiliza para situaciones donde se miden muchas variables y hay
pocas unidades de análisis o el interés es representar grupo de unidades. Se construye
una estrella para cada unidad o para cada grupo de unidades. Los rayos de las estrellas
representan las variables. Las estrellas muestran las variables con mayor valor (rayos
más largos) y con menor valor (rayos más cortos) en cada caso. La comparación gráfica
de las formas de las estrellas permite visualizar las principales diferencias entre
unidades.
M.O(%)
M.O(%)
P-disp (ppm)
Escurrimiento (%)
Pérdida (t/ha)
NO3 (ppm)
C (mg/ha)
M.O(%)
M.O(%)
C (mg/ha)
LC SD
Figura 1.10. Gráfico de estrellas para las variables materia orgánica (MO), C, nitrato (NO3),
fósforo disponible (P-dis), escurrimiento y pérdida de suelo evaluados en sistemas de siembra
directa (SD) y labranza convencional (LC).
El gráfico de la Figura 1.10 fue construido con datos del archivo [Estrellas]. Las variables
analizadas fueron medidas durante 10 años y corresponden a los contenidos promedio
de materia orgánica (MO), carbono (C), fósforo disponible (P-disp.), nitratos (NO3),
pérdida de suelo y escurrimiento de un lote dividido en dos partes, una bajo un
sistemas de siembra directa (SD) y la otra utilizando labranza convencional (LC). Se
observa que el contenido de MO, C, P-disp, NO3 es más alto en SD, mientras las
pérdidas de suelo y escurrimiento son mayores con LC.
Para obtener este gráfico la especificación de las variables en el selector de variables es
similar a la realizada con la matriz de diagramas de dispersión.
26
Análisis exploratorio de datos
27
Análisis exploratorio de datos
mientras que Irlanda, Dinamarca y Alemania O., tienen mayores consumos de huevos,
leche y carnes. A partir del índice CP2 (que representa un 18,2% de la variabilidad total),
se observa que Portugal y España se diferencian del resto de los países; las variables de
mejor representación sobre ese eje son el consumo de pescado, frutas y vegetales y
embutidos. Consecuentemente, se infiere que en Portugal y España los consumos de
proteínas vía estas fuentes alimenticias son mayores que en los otros países.
Usualmente, los gráficos biplot del ACP representan bien la estructura de la tabla de
datos cuando la suma de los porcentajes de variabilidad explicados por cada eje es
mayor al 60 o 70%.
5,00
Pescado
Portugal
Portugal
Frutas yVegetales
Embutidos
Embutidos España
España
2,50
Grecia
Noruega
Noruega FrutosSecos
Francia
Francia Polonia
CP 2 (18,2%)
Dinamarca
Dinamarca AlemaniaE
AlemaniaE
Huevos
Huevos Bélgica
Bélgica Italia
Italia
0,00 AlemaniaO
AlemaniaO Suecia Rusia
Rusia
CarneVacunaP.Bajos Inglaterra
Inglaterra
P.Bajos Hungría
Rumania Yugoslavia
Irlanda Finlandia Checosl
Suiza Checosl
Austria Bulgaria
Bulgaria
Leche Albania
CarneCerdo Cereal
-2,50
-5,00
-5,00 -2,50 0,00 2,50 5,00
CP 1 (44,5%)
Figura 1.11. Biplot obtenido mediante un análisis de componentes principales usando el consumo
de nueve fuentes de proteínas de 25 países de Europa (en la década del 60). Archivo Proteínas.
28
Análisis exploratorio de datos
categoría de cada una de las variables categorizadas se le asigna un peso (o inercia) para
cada uno de dos nuevos ejes o variables sintéticas que se usarán para la representar el
total de asociaciones. Modalidades con pesos grandes (alejados del cero) y cercanas en
un eje, se encuentran asociadas; es decir aparecen juntas con alta frecuencia (en la
tabla de contingencia entre las dos variables, la frecuencia para la celda referida a la
presentación simultánea de las dos modalidades, es alta o también cuando es baja. Los
Biplot de ACM también se leen primero sobre el Eje 1 u horizontal (eje que explica
mayor porcentaje de variación) y luego sobre el Eje 2 o vertical.
El siguiente Biplot de ACM (Figura 1.12) se realizó con el archivo [Autos]. Los datos
corresponden a una encuesta realizada en un negocio de ventas de autos en USA,
donde se le pregunta a cada cliente cuál es el origen del auto que actualmente tiene
(Europeo/Japonés/Americano), cual es su estado civil (soltero/casado/casado con hijo),
el tipo de propiedad de la vivienda (dueño/alquila), el tipo de auto
(sport/familiar/trabajo), género (hombre/mujer), tamaño del auto (Chico/Grande) y
cantidad de ingresos en el hogar (ingreso 1/ingreso 2). La distribución de las
modalidades indica que la modalidad soltero (para la variable estado civil) se asoció
frecuentemente con las modalidades: alquila, tiene un solo ingreso en la casa, auto
chico, sport, de origen japonés y, hombre. Mientras que se opone a este perfil de
unidad de análisis (cliente) el de las personas casada-hijo, con auto grande, con dos
ingresos en el hogar, que son mujeres y usan autos familiares y de origen americano. Así
el grafico permite, de manera muy rápida identificar los principales tipos de cliente que
tiene la empresa para orientar mejor sus estrategias de venta.
1,8
Grande
1,1 Soltero-hijo
American
Ingreso1
Eje 2
Casado-hijo
Casado-hijo Familiar
Familiar Alquila
0,4
Trabajo Soltero
Medio
Medio Hombre
Dueño
Mujer
-0,3 Japones
Ingreso2
Chico
Sport
Europeo
Casado
-1,0
-1,0 -0,3 0,4 1,1 1,8
Eje 1
Figura 1.12. Biplot obtenido a partir del análisis de correspondecias múltiples. Archivo Autos.
29
Análisis exploratorio de datos
Medidas resumen.
Para resumir la distribución de un conjunto de datos de naturaleza cuantitativa, aparte
de gráficoss, se calculan medidas de posición, de variación y de forma de la distribución
asociada. La obtención de estas medidas permite complementar y acompañar a la
información contenida en una tabla de frecuencias o a la distribución mostrada en un
gráfico.
8
Frecuencia absoluta
0
0 1 2 3 4 5 6 7 8 9 10
Número de flores
Figura 1.13. Gráfico de barras para la variable número de flores por planta.
30
Análisis exploratorio de datos
Notemos que la moda, la mediana y la media son valores de la variable que en la serie
ordenada de datos ocupan una posición, por lo cual se les llama medidas de posición. A
su vez, son valores de tendencia central. En cambio el rango no ocupa una posición sino
que describe la variación de los datos, ésta es una medida de dispersión.
En las distribuciones que son simétricas unimodales los valores de la moda, la mediana
y la media son iguales. Si la media es mayor que la mediana, la distribución es
asimétrica derecha. Si la media es menor que la mediana la distribución es asimétrica
izquierda (Figura 1.14). Existen coeficientes que miden la simetría y también otro que
piden “la picudez” o kurtosis de la distribución. Ambos son considerados medidas de la
forma de la distribución.
31
Análisis exploratorio de datos
El número de flores por planta presenta una distribución con leve asimetría a la
izquierda
Veamos ahora la distribución de la variable continua peso de las cabezas de ajo blanco.
0,4
0,3
frecuencia relativa
0,2
0,1
0,0
8 22 36 50 64 77 91 105 119
Peso (g)
Figura 1.15. Histograma y polígono de frecuencias relativas de pesos (en g) de cabezas de ajo
blanco
Observemos que en este caso no es tan directo ubicar en el gráfico los valores de las
medidas resumen como lo fue para la variable discreta. Esto se debe al agrupamiento
de los datos en intervalos de clase.
Los valores mínimo y máximo (7,70 g y 119,40 g, respectivamente), no se leen
exactamente en el gráfico debido a que se ha modificado la escala a los fines de
lograr una mejor presentación sobre el eje X. Sin embargo la escala utilizada
muestra claramente el intervalo de valores de la muestra analizada.
Como los datos son agrupados en intervalos de clase, para reportar la moda se
hará referencia al intervalo que la contiene. En este caso fueron más frecuentes
las cabezas de ajo con pesos entre 22 g y 36 g.
32
Análisis exploratorio de datos
Para observar la mediana es más sencillo trabajar con el polígono de las FRA. En el eje Y
debe ubicarse el valor 0,50 y se trazará una línea recta, paralela al eje X, hasta llegar al
polígono; luego se leerá en el eje X el valor correspondiente al punto del polígono.
Dicho valor de X es la mediana. El procedimiento se muestra a continuación.
1,00
0,75
frec. rel. acumulada
0,50
0,25
0,00
8 22 36 50 64 77 91 105 119
Peso (g)
Figura 1.16. Aproximación del valor de la mediana del peso (en g) de cabezas de ajo blanco
utilizando el polígono de frecuencias relativas acumuladas
Cuantiles y percentiles
En la distribución de los valores de una variable, los cuantiles son medidas de posición.
Un cuantil es un valor de la variable cuya ubicación en la distribución, deja por debajo
una proporción del total de los datos. El nombre del cuantil hace referencia a dicha
proporción. De otro modo, en la distribución de una variable hay una proporción de
valores, en relación al total de datos, menores o iguales a un valor determinado. Por
ejemplo, en el caso del peso de las cabezas de ajo vimos que una proporción de 0,50
son valores de peso menores o iguales que 37,6 g; entonces, el valor 37,6 es el cuantil
0,50. Este ejemplo, ilustra que para la proporción 0,50 la palabra cuantil es sinónimo de
mediana. No obstante, podemos estar interesados en otros cuantiles, digamos el cuantil
0,05 o el cuantil 0,75, por ejemplo.
33
Análisis exploratorio de datos
0,9
0,8
frec. rel. acumulada
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0,0
8 18 28 38 48 58 69 79 89 99 109 119
Peso (g)
Figura 1.17. Aproximación de los cuantiles 0,30 y 0,70 de la distribución del peso (g) de cabezas de
ajo blanco utilizando el polígono de frecuencias relativas acumuladas
En el polígono de FRA de los pesos de las cabezas de ajo (Figura 1.17), se muestra la
aproximación para los cuantiles 0,30 y 0,70. El cuantil 0,30 es 29 g y el cuantil 0,70 es 49
g. Estos valores indican que en la muestra de datos, una proporción de 0,30 son cabezas
con peso menor o igual a 29 g. De forma similar, una proporción de 0,70 corresponden a
cabezas con pesos de hasta 49 g.
El nombre percentil se usa si en el eje de las FRA la escala se expresa en porcentaje. Así,
el cuantil 0,30 se corresponde con el percentil 30 y el cuantil 0,70 es sinónimo de
percentil 70. Se puede decir que un 30% de cabezas de ajo tienen pesos menores o
iguales a 29 g y un 70%, pesan hasta 49 g o que un 30% pesan más que 49 g.
En capítulos posteriores veremos que los cuantiles 0,05 y 0,95 son de amplio
uso en la construcción de intervalos de confianza y en el contraste de hipótesis.
34
Análisis exploratorio de datos
125
Medidas resumen
Resumen peso
n 707,00 100
Media 40,77
Mín 7,70
75
Peso (g)
Máx 119,40
Mediana 37,60
50
P(05) 17,20
P(25) 27,90
P(50) 37,60 25
P(75) 52,50
P(95) 72,60 0
Figura 1.18. Distribución del peso (en g) de cabezas de ajo blanco utilizando un gráfico box-plot.
Se acompaña con las medidas resumen que se pueden ubicar en el gráfico
35
Análisis exploratorio de datos
3000 3250 3500 3750 4000 4250 4500 4750 5000 3000 3250 3500 3750 4000 4250 4500 4750 5000
Rendimiento (kg/ha)
Rendimiento (kg/ha)
Distribución 1 Distribución 2
Distribución 3
Figura 1.19.Distribuciones de rendimientos de tres cultivares de trigo (kg/ha) con diferente
dispersión
36
Análisis exploratorio de datos
1170
1040
910
780
650
Pergamino Cordoba Oliveros Balcarc
Localidad
Coeficiente de variación
Esta es una medida que también permite estudiar la dispersión de los datos. Si bien la
desviación estándar es muy útil para comparar la dispersión de dos o más
distribuciones, el problema se presenta cuando se desea comparar distribuciones de
variables medidas en diferentes magnitudes. Por ejemplo, podemos estar interesados
en determinar si el peso de las cabezas de ajo es más variable que el perímetro. El peso
expresado en (g) y el perímetro expresado en (cm) no admiten comparación.
El coeficiente de variación (CV) es el cociente entre el desvío estándar y la media, por lo
que es una medida adimensional de la dispersión relativa a la media. Se suele expresar
37
Análisis exploratorio de datos
Y1
X X1
Figura 1.21. Gráficos de dispersión indicando relación directa entre las variables (izquierda) y
relación inversa (derecha)
38
Análisis exploratorio de datos
Comentarios
En este capítulo hemos presentado conceptos y métodos estadísticos para investigar el
comportamiento de diferentes tipos de variables a través del estudio de un conjunto de
datos que pueden ser poblacionales o muestrales y provenir de distintos tipos de
estudio (experimentales u observacionales). Se pone de manifiesto que el tipo de
herramienta estadística a usar es altamente dependiente del tipo de variable que se
estudie y de cómo se ha decidido registrar sus valores.
Si bien ahora hemos trabajando con estadística descriptiva, es conveniente resaltar que
los estudios que involucran datos, comúnmente, deben transitar por las siguientes
etapas:
Diseño del estudio incluyendo muestreo y definición de variables
Depuración de bases de datos para el control
– Control de tipo de variables
– Identificación de valores extremos
– Construcción de nuevas variables
Caracterización estadística o análisis exploratorio de datos (Estadística
descriptiva)
Inferencia Estadística sobre parámetros (poblacionales) a partir de estadísticos
(muestrales)
– Estimación de parámetros (esperanza y varianza) y del modelo teórico de
distribución de las variables de interés
– Intervalos de confianza y pruebas de hipótesis sobre los parámetros de una
o más distribuciones
– Exploración de causas de variación
– Relaciones entre variables respuesta y variables explicativas
– Relaciones entre variables sin necesidad de especificar causalidad
– Ajustes de modelos explicativos y finalmente puesta a punto de modelos o
herramientas predictivas
39
Análisis exploratorio de datos
Notación
Variables
Medidas resumen
Definiciones
Definición 1.1: Población
Una población es un conjunto de elementos acotados en un tiempo y en un espacio
determinado, con alguna característica común observable o medible.
Definición 1.2: Tamaño poblacional
Si la población es finita o contable, diremos que el tamaño poblacional es el número de
elementos de la misma o número de unidades potenciales de análisis y lo denotaremos
con N.
Definición 1.3: Muestra
Se entiende por muestra a todo subconjunto de elementos de la población.
Definición1.4: Elemento muestral
Un elemento muestral es la entidad de la muestra ( unidad de análisis).
Definición 1.5: Tamaño muestral
Tamaño muestral es el número de elementos de la población que conforman la
muestra y se denota con n.
40
Análisis exploratorio de datos
Y n .
yi
muestral o promedio en la muestra se define como:
i 1
1 n 2
Var(Y ) S 2 yi Y .
n 1 i 1
La desviación estándar muestral se define como: DE S
S 2.
41
Análisis exploratorio de datos
Así una vez que se conocen 5 de los 6 valores, el sexto no es necesario ya que puede ser
determinado porque conocemos que la suma debe ser 156.
Definición 1.5: Coeficiente de variación muestral
Dada una muestra aleatoria y1, y2,....., yn con media Y y desviación estándar S, el
S
coeficiente de variación muestral se define como: CV 100 .
Y
Definición 1.6: Covarianza
Si x1, x2,....., xn conforman una muestra aleatoria de una variable X e y1, y2,....., yn
conforman una muestra aleatoria de una variable Y, la covarianza muestral entre X e Y
es una función de los desvíos, de cada xi respecto a la media muestral X , y de los
desvíos de cada yi respecto a la media muestral:
1 n
Cov ( X ,Y ) (xi X ) ( yi Y ) .
n 1 i 1
Definición 1.7: Coeficiente de correlación muestral
El coeficiente de correlación lineal entre las variables aleatorias X e Y es:
Cov ( X ,Y ) .
r
Var ( X )Var (Y )
Aplicación
Análisis exploratorio de datos de agricultura de precisión
La producción de los cultivos varía espacialmente dentro de los lotes como
consecuencia de la variación de una diversidad de factores biológicos, edáficos,
meteorológicos y de las intervenciones del hombre. Conocer dicha variabilidad permite
definir factores limitantes, formas adecuadas para la aplicación de fertilizantes y otros
42
Análisis exploratorio de datos
43
Análisis exploratorio de datos
Cuadro 1.7. Salida de InfoStat. Medidas Resumen para los datos del archivo CE
A partir de las medidas resumen, se puede observar que la CEa no cambia mucho entre
los 30 y 90 cm de profundidad; que la altimetría es una variable con poca variación
relativa como pone en evidencia el bajo CV; que la variable rendimiento de soja, a pesar
de tener un menor desvío estándar que la variable rendimiento de trigo muestra mayor
variación relativa, pudiendo concluir que los rendimientos de trigo son levemente más
uniformes entre sitio y sito del lote, que los de soja. Para todas las variables medidas, la
similitud encontrada entre media y mediana sugiere que las distribuciones de
frecuencias podrían considerarse como simétricas. Si bien se observaron rendimientos
de trigo entre 1,91 t/ha y 5,68, la mayoría de éstos (el 75%) se encontró entre 3,26 y
4,14 t/ha, con un 25% de los valores de rendimiento menores a 3,26 (Q1 o P(25)) y un
25% mayores a 4,14 (Q3 o P(75)).
44
Análisis exploratorio de datos
Cuadro 1.8. Salida de InfoStat. Tablas de Frecuencias para la variable rendimiento de soja
(Rto_Sj) del archivo CE
Cuadro 1.9. Salida de InfoStat. Tablas de Frecuencias para la variable conductividad eléctrica
aparente (CEa) del archivo CE
45
Análisis exploratorio de datos
valor que aproxima la tendencia central de la distribución. Este valor puede ser bien
aproximado desde el gráfico de la distribución empírica. También podríamos decir que
solo en 90 sitios, es decir menos de un 2% de los datos, se registraron rendimientos
entre 2,79 y 2,98 t/ha mientras que un alto porcentaje de sitios tienen rendimientos de
soja entre 1,432 y 2,014 t/ha.
Para la variable CEa 30 un 47,3% de los datos son menores a 28,9 mS/m. Valores de CEa
30 entre 19,5 y 38,3 mS/m son más frecuentes mientras que valores menores a 19,5
mS/m o mayores a 38,3 mS/m son menos frecuentes de encontrar dentro del lote. El
número total de observaciones es de n=7577.
46
Análisis exploratorio de datos
47
Análisis exploratorio de datos
0,30 70
frecuencia relativa
0,24 60
CEa 90 (mS/m)
0,18 50
0,12 40
0,06 30
0,00 20
12
17
21
26
30
35
39
44
48
52
57
61
8
10
CEa 90 (mS/m)
0,30 148
frecuencia relativa
0,24 146
0,18 144
Altimetría (m)
142
0,12
140
0,06 138
0,00 136
133,3
134,6
135,8
137,1
138,3
139,6
140,8
142,1
143,3
144,6
145,8
147,1
148,3
134
132
Altimetría (m)
0.30 3.5
frecuencia relativa
0.24 3.0
0.18
Rto_Sj (t/ha)
2.5
0.12 2.0
0.06 1.5
0.00 1.0
0.9
1.0
1.2
1.4
1.5
1.7
1.9
2.0
2.2
2.3
2.5
2.7
2.8
3.0
3.1
0.5
Rto_Sj (t/ha)
0.30
7
frecuencia relativa
0.24
6
0.18
Rto_Tg (t/ha)
5
0.12
4
0.06 3
0.00 2
1.5
1.9
2.3
2.7
3.0
3.4
3.8
4.2
4.5
4.9
5.3
5.7
6.1
1
Rto_Tg (t/ha)
70
0,30
60
frecuencia relativa
0,24
CEa 30 (mS/m)
50
0,18
0,12 40
0,06 30
0,00 20
10
15
20
24
29
34
38
43
48
52
57
62
67
CEa 30 (mS/m) 10
Figura 1.22. Histograma de frecuencias relativas (izquierda) y gráfico de cajas (derecha) para las
variables CEa 30, CEa 90, Altimetría, Rto_Sj y Rto_Tg. Archivo CE.
48
Análisis exploratorio de datos
Gráfico de distribución empírica: este gráfico presenta en el eje X los valores observados
de la variable y en el eje Y la función de distribución empírica evaluada en cada uno de
los puntos observados.
El procedimiento para confeccionar este gráfico es similar al de los anteriores gráficos:
menú Gráficos, submenú Gráficos de la distribución empírica y dentro de esta ventana
seleccionamos las variables a graficar (CEa 30, CEa 90, Altimetría, Rto_Sj y Rto_Tg).
Accionamos Aceptar y aparecerá la ventana Gráficos y junto a ella la ventana
Herramientas gráficas, en la ventana Gráficos activamos Mostrar-Ocultar grilla. A
continuación se presentan cuatro gráficos de la función de distribución empírica; las
variables CEa 30 y CEa 90 se grafican en forma conjunta. Los gráficos de la función de
distribución empírica no evidencian en ningún caso, una fuerte anomalía, con respecto
a una curva sigmoidea perfecta, que como veremos más adelante corresponde a la
función de distribución normal (Figura 1.23).
1,00 1,00
Distribución empírica
Distribución empírica
0,75 0,75
0,50 0,50
1.00 1.00
Distribución empírica
Distribución empírica
0.75 0.75
0.50 0.50
0.25 0.25
Rto_Tg (t/ha)
Rto_Tg (t/ha)
Rto_Sj (t/ha)
Rto_Sj (t/ha)
0.00 0.00
1.0 1.5 2.0 2.5 3.0 1.5 2.5 3.5 4.5 5.5
Valores observados Valores observados
Figura 1.23. Gráficos de la distribución empírica para las variables CEa 30, CEa 90, Altimetría,
Rto_Sj y Rto_Tg. Archivo CE.
49
Análisis exploratorio de datos
Figura 1.24. Matriz de diagramas de dispersión para las variables CEa 30, CEa 90, Altimetría,
Rto_Sj y Rto_Tg. Archivo CE.
50
Análisis exploratorio de datos
CEa 90
9,00
4,50 Rto_Tg
CEa 30
Altimetría
CP 2 (23,3%)
Rto_Sj
0,00
-4,50
-9,00
-9,00 -4,50 0,00 4,50 9,00
CP 1 (34,0%)
Figura 1.25. Biplot obtenido por análisis de componentes principales. Archivo CE.
Conclusión
Las medidas resumen y los gráficos permitieron observar los valores relevados de las 5
variables cuantitativas de manera más fácil que la que se lograría observando
directamente el archivo de datos. Por ahora, hemos podido explorar la base de datos,
analizar las distribuciones de las variables, visualizar algunas interesantes correlaciones,
detectando que el rendimiento de soja, y el de trigo, se correlacionan con la CEa medida
a los 30 cm de profundidad, más que con la altimetría. Por tanto, se podría presuponer
que los rendimientos de futuros cultivos en ese lote podrían “copiar” o mapearse según
los patrones de variación espacial de Cea 30.
51
Análisis exploratorio de datos
Ejercicios
Ejercicio 1.1: En el cultivo de la papa (Solanum tuberosum L.), el hongo Phytophtora infestans
(Mont) de Bary, produce la enfermedad Tizón Tardío. Ésta afecta no solo al rendimiento sino
también a la calidad de los tubérculos, ya que produce manchas oscuras en la piel y en el
interior de los mismos. Una de las estrategias de control consiste en aplicar fungicida.
En una zona con condiciones ambientales favorables para la presentación del patógeno, se
plantea hacer un ensayo trabajando con la variedad de papa Spunta, susceptible a la
enfermedad, para comparar el efecto de dos fungicidas (F1 y F2) y, posiblemente,
recomendar el uso de alguno de ellos.
Se sembraron tubérculos-semilla de alta sanidad, bajo las condiciones de manejo habituales,
en parcelas experimentales de 4 surcos y 5 m de largo cada uno. Para la aplicación de cada
fungicida se pulverizó con mochila usando una dosis de 2 kg/ha de producto activo, a
intervalos de una semana a partir de los 45 días después de la siembra. De un total de 9
parcelas se seleccionaron al azar un tercio que no fueron pulverizadas, otro tercio en el que
se aplicó el F1 y en el tercio restante se usó el F2.
La severidad de la enfermedad se evaluó en base a síntomas en el follaje de una planta
tomada al azar de cada parcela, en una escala donde 0= sin síntomas, 1=infección leve, 2=
infección moderada, 3= infección severa, 4= infección máxima, al final del periodo de
observación.
Después de la cosecha se obtuvo el rendimiento por parcela (kg/ha) de tubérculos y todos
ellos fueron clasificados según su destino en: comerciales (con peso igual o mayor a 60 g) y
tubérculos que se usarán como semilla (peso menor a 60 g).
Las determinaciones de rendimiento se hicieron sobre los surcos centrales de las parcelas
para evitar efectos de bordura y arrastre del fungicida.
De acuerdo a la situación planteada, responda:
a) ¿El estudio es de tipo experimental u observacional?
b) Mencione dos variables podrían ser consideradas como variable respuesta.
Clasifíquelas según su naturaleza o tipo.
c) Mencione variables que podrían ser variables de clasificación (o factores). Enumere
los valores o niveles de estos factores.
d) ¿Cuáles son las poblaciones sobre las que se desea concluir con el ensayo de
fungicida?
e) ¿Cuál es el tamaño de las muestras que serán analizadas en cada población estudiada:
n=4 o n=3?
f) ¿Podría estudiarse alguna asociación entre variables?, ¿Cuáles?
g) Al elaborar un análisis estadístico descriptivo: ¿Qué herramientas usaría?
52
Análisis exploratorio de datos
Ejercicio 1.2: Los técnicos de una región de productores de cabras desean identificar las
condiciones de manejo que más afectan a la producción de leche. Para ello, cuentan con
planillas de 400 productores que contienen datos de los diferentes establecimientos. Como
punto de partida del análisis, deciden estudiar la asociación entre el manejo nutricional y la
producción de leche. Resuelven considerar a las variables en la siguiente forma:
Manejo nutricional: usa verdeos, usa suplementos, usa verdeos y suplementos, no usa
verdeos ni suplementos.
Producción promedio de leche: alta (más de 1,5 kg/día), media (de 1 a 1,5 kg/día) y baja
(menor a 1 kg/día).
De acuerdo a la situación planteada:
a) Proponga dos alternativas para realizar este estudio.
b) Suponga n=100 y construya una tabla de contingencia que podría obtenerse,
proponiendo frecuencias absolutas razonables.
Ejercicio 1.3: Clasificar las siguientes variables según su naturaleza:
a) Cantidad de vacas en ordeñe por tambo en una cuenca lechera en el año 2011.
b) Estado (preñada o vacía) de una vaquillona (al tacto).
c) Período de tiempo en días transcurridos desde el almacenamiento y hasta que se
produce el deterioro del 50% de los frutos almacenados en una cámara.
d) Milímetros de precipitación registrados, por año, en una localidad.
e) Porcentaje de semillas en dormición en cajas de 50 semillas.
f) Concentración de proteínas (baja, media, alta), en muestras de leche de cabra.
g) Cociente entre el largo y el ancho de vainas de soja.
Ejercicio 1.4: Al realizar un inventario forestal en un bosque nativo de la zona chaqueña, se
tabularon, entre otros, los datos de la cantidad de especies presentes en el área de
muestreo. Represente con un gráfico de sectores la abundancia de las diferentes especies en
la muestra, en base al porcentaje de árboles de cada especie respecto del total de árboles
presentes.
Especies Cantidad de árboles
Quebracho blanco 449
Quebracho colorado 401
Guayaibí 224
Itín 176
Palo Santo 112
Otros 241
Ayuda: cargue los datos en InfoStat, en el menú Gráficos seleccione el submenú Gráficos de sectores,
opción Categorías en filas. Luego seleccionar la variable Especies en la ventana Clase y Cantidad de
árboles en la ventana Frecuencia. Finalmente accione Aceptar.
53
Análisis exploratorio de datos
Ejercicio 1.5: A partir de la observación de los siguientes gráficos, ¿Cuál de ellos se asocia con
cada una de las siguientes descripciones?
a) Distribución de la población argentina en 2012 según la edad (en años). El rango es
de 0 a 90, el tamaño de la clase o amplitud del intervalo es 10.
b) Distribución del número de plantas muertas con relación a la severidad de una
enfermedad. La severidad se mide de acuerdo a una escala categórica de 0 a 5 en
orden creciente de ataque.
c) Distribución de altura de plantas (en cm) en un cultivo de trigo. Rango de 0 a 50,
tamaño de clase 5.
d) Distribución de personas según la distancia (en km) que transitan desde su hogar al
trabajo. El rango va de 0 a 50, el tamaño de clase es 5.
1º 2º
3º 4º
54
Análisis exploratorio de datos
4 2 2 3 3 2 3 3 2 2
3 3 2 1 2 2 2 2 4 2
4 2 3 3 1
704 890 986 806 798 995 876 705 706 915
801 720 807 960 858 606 798 708 893 906
660 780 615 895 969 880 700 697 804 918
825 809 758 705 800 910 896 708 690 830
a) Obtenga las siguientes medidas resumen: media, mediana, mínimo, máximo, rango,
varianza (n-1), desviación estándar y coeficiente de variación en la muestra de los
datos.
b) Utilizando el gráfico de la distribución de la variable en la muestra, que se muestra a
continuación, asignar el valor de Verdadero (V) o Falso (F) a cada una de las
consignas del cuadro.
55
Análisis exploratorio de datos
1.0
0.9
0.8
frec. rel. acumulada
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
600
640
720
760
840
880
920
960
680
800
1000
Ganancia de peso (g/día)
56
Análisis exploratorio de datos
57
Análisis exploratorio de datos
1.0
0.9
0.8
frec. rel. acumulada
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
110 114 118 122 126 130 134 138 142 146 150 154 158
Rendimineto (qq/ha)
Hibrido
Hibrido A
A Hibrido
Hibrido B
58
Análisis exploratorio de datos
59
Probabilidades
Capítuló 2
Variablés aléatórias y
próbabilidadés
Mónica Balzarini
Cecilia Bruno
Biometría|59
Variables aleatorias y probabilidades
Variablés aléatórias y
próbabilidadés
Motivación
Hemos usado el término variable para referirnos a una característica de interés en un
estudio donde se realizan mediciones. Las mediciones de la característica varían de
unidad a unidad y el valor asumido en cada una de ellas no puede ser predicho con
certeza. Si bien la medición de la característica tiene un “valor esperado”, existe una
componente de azar que hace a estas mediciones no determinísticas. Tales variables
son conocidas como variables aleatorias e interpretadas como una función que
relaciona un resultado del estudio con un valor numérico. Las variables aleatorias, por
definición están íntimamente asociadas al concepto de probabilidad, término que
intuitivamente mencionamos a diario y que es posible calcular. Se puede decir que el
descubrimiento de métodos rigurosos para calcular probabilidades ha tenido un
profundo efecto en la sociedad moderna. La probabilidad es una medida del grado de
incertidumbre sobre el valor que puede asumir una variable aleatoria. A través de
probabilidades se puede cuantificar el grado de ignorancia, o certeza, sobre el resultado
de un experimento aleatorio. En un universo determinista, donde se conocen todas las
condiciones que determinan un evento, no hay probabilidades. En el universo de
problemas biológicos, por el contrario, el conocimiento nunca es completo, siendo las
probabilidades fundamentales para poder asignar medidas de confiabilidad a las
conclusiones. Los conceptos de azar, variable aleatoria y probabilidad están
omnipresentes en cualquier aplicación Bioestadística. En este Capítulo presentaremos
algunas ideas de su significado sin pretender definirlas formalmente porque, para ello,
es necesario recurrir a conceptos matemáticos avanzados de la teoría de la medida.
63
Variables aleatorias y probabilidades
No obstante el núcleo conceptual que sustenta la disciplina formal, el cual está basado
en el azar y las probabilidades, se fue moldeando desde muchos años antes; primero
por la necesidad de un mundo numérico más fácil de manipular y luego por la necesidad
de encontrar o describir patrones estables en observaciones sociales y naturales. Las
leyes del azar hicieron que el comportamiento social y la naturaleza se vean como
menos caprichosos o caóticos.
En 1800 se decía que la palabra azar no significaba nada, o bien que designaba una idea
del vulgo que señalaba la suerte o “la falta de ley”, de manera que debía quedar
excluida del pensamiento de la gente ilustrada (Hacking, 1991). La principal creencia del
“determinismo” o pensamiento determinístico era que todo suceso derivaba de una
serie anterior de condiciones.
En oposición, se encontraba la lógica del azar que fue fuertemente influenciada por
filósofos franceses e ingleses. Entre la Revolución Industrial y la Revolución Francesa las
leyes estadísticas desplazaron el determinismo. En el otro extremo del determinismo, se
destaca Peirce (1839-1914) quien creía en el azar absoluto y en un universo en el que
las leyes de la naturaleza, en el mejor de los casos son aproximadas y evolucionan según
procesos fortuitos.
64
Variables aleatorias y probabilidades
“El azar es de todas las cosas la mas entremetida” (Hacking, 1991); el azar
siempre está presente y es una componente más a considerar en cualquier
problema que involucre variables aleatorias.
Así, el azar ya no era la esencia de la falta de ley sino que estaba en el centro de todas
las leyes de la naturaleza y de toda inferencia inductiva racional. Reducir el mundo a
una cuestión de probabilidades, es sin duda, una posición extrema, tanto como pensar
que todo está dado y determinado. No obstante la domesticación del azar abrió
caminos para que las probabilidades y las leyes estadísticas entraran a nuestro mundo.
65
Variables aleatorias y probabilidades
Por esta idea, de que algunos eventos son más probables que otros,
es que cuando jugamos al “poker” la “escalera real” otorga más
puntos que un “par simple”. Esto se debe al hecho de que es más
probable obtener un “par simple” . No todas las jugadas de 5 cartas
son equiprobables (o igualmente probables)!!
Definiremos a una variable aleatoria como una función que asocia a cada elemento del
espacio muestral un número real y luego a cada uno de estos valores le asignaremos
probabilidades de ocurrencia. El tipo de espacio muestral determina el tipo de variable
aleatoria.
El espacio muestral asociado a una variable aleatoria de tipo continua es no contable,
queriendo significar que entre dos valores de la variable, pueden realizarse un número
infinito de otros valores.
Ejemplo de variables aleatorias con espacios muestrales con estas características son los
rendimientos, las ganancias de peso, las precipitaciones, entre otras.
Por el contrario, el espacio muestral asociado a una variable de tipo discreta es siempre
contable, es decir puede ser teóricamente enumerado, aún si éste es infinitamente
grande o no está acotado. Por ejemplo, el número de nematodos por hectárea
registrado a partir de una muestra aleatoria de hectáreas en producción de papas,
podría no tener un valor límite.
Entre las variables discretas es importante distinguir al menos dos subtipos muy
comunes en estudios biológicos: las proporciones que provienen de conteos que no
pueden superar el número de elementos evaluados y los conteos no acotados o sin
denominador natural. Ejemplo de una variable discreta expresada como proporción es
el número de semillas germinadas en cajas de Petri con 25 semillas cada caja; los
resultados se expresan como proporciones porque existe un denominador natural: la
66
Variables aleatorias y probabilidades
cantidad de semillas por caja. Ejemplo de variable discreta obtenida por un conteo (no
acotado) es el número de pústulas de roya por m2 de cultivo.
Probabilidad
El concepto de probabilidad puede definirse de distintas formas y con distintos niveles
de abstracción. Las definiciones clásica, frecuencial y de Kolmogorov son las más
conocidas.
Cuando es finito (el número de puntos muestrales es contable) se puede dar una
definición de probabilidad que se basa en la observación de los elementos del espacio
muestral. Ésta se desarrolló originariamente estudiando los juegos de azar. y se conoce
como el concepto o enfoque clásico de probabilidad:
Si A es un subconjunto de puntos muestrales de , entonces la probabilidad de
ocurrencia del evento A, denotada por P(A) es:
Número de puntos muestrales favorables
P( A)
Número total de puntos muestrales en el espacio muestral
67
Variables aleatorias y probabilidades
68
Variables aleatorias y probabilidades
69
Variables aleatorias y probabilidades
Una vez que se tiene un modelo teórico para la distribución de valores de la variable de
interés, es fácil calcular probabilidades.
Hemos visto a una variable aleatoria como un descriptor de eventos aleatorios que
tiene asociada una función para asignar probabilidades a esos eventos. La función de
distribución de probabilidad de una variable aleatoria discreta y la función de densidad
de una variable aleatoria continua denotada como f(.) contienen exhaustivamente toda
la información sobre la variable. La distribución de una variable aleatoria,
independientemente del tipo de variable, puede representarse también por su función
de distribución, denotada como F(y). Esta función asigna a cada valor de la variable un
valor entre 0 y 1 que indica la probabilidad de que la variable, observada para un caso
particular, asuma un valor menor o igual al valor en que se está evaluando la función.
Por ejemplo, si F(30)=0,60 diremos que 0,60 es la probabilidad de que la variable se
realice en un caso de análisis particular, con el valor 30 o con un valor menor a 30.
Para ejemplificar los conceptos distribucionales de probabilidad y función de
distribución supongamos un experimento aleatorio donde se tiran dos dados, cada uno
de los resultados posibles de la tirada son representados por el par de números que
salen:
Ω={(1,1), (1,2), (1,3), (1,4), (1,5), (1,6), (2,1), (2,2), (2,3), (2,4), (2,5), (2,6), (3,1), (3,2),
(3,3), (3,4), (3,5), (3,6), (4,1), (4,2), (4,3), (4,4), (4,5), (4,6), (5,1), (5,2), (5,3), (5,4),
(5,5), (5,6), (6,1), (6,2), (6,3), (6,4), (6,5), (6,6)}
Este espacio muestral es finito y discreto y por ello se pueden calcular probabilidades
desde el concepto clásico, para cualquier variable aleatoria definida sobre el espacio.
Por ejemplo, si se quiere estudiar la variable aleatoria Y=suma de los puntos en los dos
dados, el espacio muestral de esta variable tendrá como elementos las sumas posibles
(es decir todos los valores posibles para Y).
Ω(y)={2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}
Para una variable aleatoria discreta la función de distribución de probabilidades f(.), es
aquella que designa una probabilidad de ocurrencia a cada valor de la variable (Tabla
2.1). A diferencia de la función de probabilidad, se tiene la distribución acumulada F(.),
que designa una probabilidad de ocurrencia para valores menores o iguales a un valor
de la variable. En la Tabla 2.1. En la primera columna, se detallan los posibles valores de
la variable Y, en la segunda los valores de f(y) y en la tercera los de F(y).
70
Variables aleatorias y probabilidades
71
Variables aleatorias y probabilidades
A diferencia de las variables discretas, para las variable continuas pensaremos que los
datos son observaciones de una variable aleatoria con función de densidad f(.) más que
con función de probabilidad. La función de densidad permite asignar probabilidades a
eventos definidos en términos de intervalos. Así, en las variables continuas se podrá
conocer la probabilidad de que la variable asuma un valor entre “tanto” y “tanto”,
mayor a “tanto” o menor a “tanto”, pero no exactamente igual a un valor determinado
(esta última probabilidad por definición es cero).
Por ejemplo, para la variable rendimiento de soja en qq/ha, esta función podría darnos
la probabilidad de que el rendimiento de un lote particular, tomado al azar de una
población de lotes donde se ha registrado el rendimiento, asuma un valor entre 30 y 35
qq/ha.
El histograma de la distribución de frecuencias relativas de la variable provee una
estimación (aproximación) de f(IC), es decir la probabilidad de que Y asuma un valor en
el intervalo de clase IC. Si el número de datos es grande el histograma representa una
aproximación buena de la función de densidad teórica ya que las frecuencias relativas
pueden interpretarse como probabilidades.
Para una variable continua la función de distribución acumulada, se puede visualizar
utilizando un gráfico de dispersión con posibles IC de valores de Y en el eje de las
abscisas y la probabilidad acumulada correspondiente a cada IC en el eje de las
ordenadas.
72
Variables aleatorias y probabilidades
0.30
0.25
frecuencia relativa
0.20
0.15
0.10
0.05
0.00
0 2000 4000 6000 8000 10000 12000 14000 16000 18000 20000
producción de leche/lactancia (l)
1,0
0,9
0,8
Distribución empírica
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0,0
0 2000 4000 6000 8000 10000 12000 14000 16000 18000 20000
producción de leche/lactancia(l)
73
Variables aleatorias y probabilidades
74
Variables aleatorias y probabilidades
75
Variables aleatorias y probabilidades
Comentarios
En este Capítulo hemos presentado el concepto de variable aleatoria y el de distribución
de los valores de una variable aleatoria. La necesidad de definir matemáticamente las
funciones que describen la distribución de probabilidad de variables aleatorias proviene
del hecho de centrar nuestro interés en fenómenos que no se pueden predecir con
exactitud, fenómenos de naturaleza variables donde la componente de azar está
siempre presente. Podemos decir que al cuantificar fenómenos aleatorios, hay un valor
esperado o un conjunto de valores que con mayor frecuencia se espera que ocurran; no
obstante la variable también puede asumir valores alejados del valor esperado. La
varianza es una medida de la incertidumbre asociada a la dispersión de los valores de la
variable en torno a su valor esperado.
Notación
P(A) probabilidad del evento A
La esperanza o media de datos poblacionales (distribución) es representada por la letra
griega µ, mientras que el estadístico media muestral por la letra que representa la
variable con una raya encima de la letra ( Y ).
La letra griega se usa para representar el parámetro desviación estándar (DE), es
decir la desviación estándar calculada con datos de la población o la desviación estándar
de la distribución de la variable, mientras que la letra S o la expresión DE se usa para el
estadístico desvío estándar muestral.
Definiciones
Definición 2.1: Espacio muestral
Se llama espacio muestral al conjunto de todos los resultados posibles de un estudio
aleatorio experimental u observacional. Será denotado con la letra griega omega (Ω).
Definición 2.2: Punto muestral o evento elemental
Se llama punto muestral o evento elemental a cada uno de los elementos del conjunto
Ω y será denotado genéricamente como.
Definición 2.3: Evento
Dado un espacio muestral Ω se llama evento a cualquier subconjunto de Ω.
Definición 2.4: Eventos mutuamente excluyentes
Se dice que dos eventos A y B de un espacio muestral Ω son mutuamente excluyentes si
no contienen elementos en común, o sea si la intersección de A y B es el conjunto vacío
( A B ).
76
Variables aleatorias y probabilidades
P( [ y1 X y2 ]) f ( y)dy , y , y .
y1
1 2
77
Variables aleatorias y probabilidades
E(Y ) y f ( y) dy
-
yi C
-
Aplicación
Análisis de datos de velocidad del viento
En un establecimiento agrícola se desea usar la energía eólica como una energía
alternativa para bombeo de agua subterránea. El viento, al estar constantemente en
movimiento produce energía. Se estima que la energía contenida en los vientos es
aproximadamente el 2% del total de la energía solar que alcanza la tierra. El contenido
energético del viento depende de su velocidad. Cerca del suelo, la velocidad es baja,
aumentando rápidamente con la altura. Cuanto más accidentada sea la superficie del
terreno, más frenará ésta al viento. Es por ello que sopla con menos velocidad en las
depresiones terrestres y más sobre las colinas. Además, el viento sopla con más fuerza
sobre el mar que en la tierra. El instrumento que mide la velocidad del viento es el
anemómetro, que generalmente está formado por un molinete de tres brazos,
separados por ángulos de 120° que se mueve alrededor de un eje vertical. Los brazos
giran con el viento y accionan un contador que indica en base al número de
revoluciones, la velocidad del viento incidente. La velocidad del viento se mide en
nudos, generalmente en náutica, y mediante la escala Beaufort, ideada en el siglo XIX
por el Almirante Beaufort; esta es una escala numérica utilizada en meteorología que
78
Variables aleatorias y probabilidades
describe la velocidad del viento en km/h o m/hora. Esta asigna números que van del 0
(calma) a 12 (huracán).
Estrategias de Análisis
Se compararán datos de viento en dos lugares de un establecimiento. Para ello se
realizaron tres mil lecturas con anemómetro, en la zona Norte y en la Zona Sur. Para
analizar la distribución del viento en cada sitio, se construyeron las distribuciones
empíricas de la variable velocidad del viento y se analizaron parámetros de posición y
de dispersión de estas distribuciones.
1,0 1,0
0,9 0,9
0,8 0,8
Distribución empírica
Distribución empírica
0,7 0,7
0,6 0,6
0,5 0,5
0,4 0,4
0,3 0,3
0,2 0,2
0,1 0,1
0,0 0,0
16 18 20 22 24 26 28 30 36 38 40 42 44 46 48 50 52 54 56
Velocidad del viento (km/h) Velocidad del viento (km/h)
Figura 2.3: Gráfico de la distribución empírica de la velocidad del viento (km/h) en dos zonas de
un establecimiento agrícola, denominadas zona sur (izquierda) y zona norte (derecha)
79
Variables aleatorias y probabilidades
80
Variables aleatorias y probabilidades
Ejercicios
Ejercicio 2.1: Supongamos que se toma una muestra aleatoria con reposición de tamaño n=2
a partir del conjunto {1,2,3} y se produce el siguiente espacio muestral con 9 puntos
muestrales:
Ω={(1,1),(1,2),(1,3),(2,1),(2,2),(2,3),(3,1),(3,2),(3,3)}
Supongamos además que definimos la variable aleatoria Y=suma de los dos números, que
conforma un nuevo espacio probabilístico y que estamos interesados en los siguientes
eventos:
El evento A conformado por los puntos muestrales cuya suma sea un número par, es decir,
A={(1,1),(1,3),(2,2),(3,1),(3,3)} y P(A)= 5/9.
El evento B conformado por los puntos muestrales cuya suma sea un número impar, siendo
B={(1,2),(2,1),(2,3),(3,2)} y P(B)=4/9.
El evento C conformado por los elementos cuya suma es 5.
Preguntas:
a) ¿Qué tipo de concepto de probabilidad aplicaría para calcular probabilidades?
b) Los eventos A y B, ¿son independientes?
c) ¿Cuál es la probabilidad de que ocurra A o B?
d) ¿Cuál es la probabilidad de que ocurra B o C?
e) Representar tabularmente a F(Y).
Ejercicio 2.2: Los siguientes datos corresponden a clasificaciones de 320 lotes en producción
de tres grupos o consorcios de productores. Las clasificaciones se realizaron según el nivel de
la producción
81
Variables aleatorias y probabilidades
82
Variables aleatorias y probabilidades
Preguntas:
a) ¿Cuál es la probabilidad de que un empleado, seleccionado al azar de los registrados
en la zona, acredite al menos el nivel secundario de estudio?
b) ¿Cuál es la probabilidad de que una persona que se selecciona al azar desde las
registradas, sea menor de 25 años?
c) Los eventos: ser menor de 25 años y ser mayor de 40 años, ¿son mutuamente
excluyentes? Son estos eventos independientes?
d) Cuál es la probabilidad que teniendo más de 40 años, tenga nivel terciario completo o
tenga universitario completo?
Ejercicio 2.6: El gráfico muestra la estructura de productores de una región según la
superficie trabajada por cada productor. De un total de 2385 productores, el 21% fue
caracterizado como productor grande (G), el 67% como mediano productor (M) y el 12%
como pequeño productor (P).
P (12% )
G (21% )
M (67% )
Pregunta:
a) Si se selecciona un productor al azar, ¿Cuál es la probabilidad que sea un pequeño
productor o un productor mediano? ¿Cómo son estos eventos?
Ejercicio 2.7: Se conoce que los niveles de infestación de un cultivo (medido como chinches
por metro lineal de surco) en una región se distribuyen según la siguiente función:
Cantidad de chinches por Probabilidad
metro lineal de surco
0 0,35
1 0,25
2 0,10
3 0,20
4 0,05
5 o más 0,05
83
Variables aleatorias y probabilidades
Preguntas:
a) Graficar la función de probabilidad y la distribución acumulada de la variable.
b) Para un metro lineal elegido al azar, cuál es la probabilidad de encontrar más de 2
chinches?
c) Cuál es el valor esperado del número de chinches por metro? Como se interpreta este
valor?
d) Cuál es la varianza de la variable?
Ejercicio 2.8: Se cuenta con datos históricos de rendimiento de lotes de girasol de dos zonas
pertenecientes a la región girasolera argentina. Los datos pertenecen a una campaña y están
expresados en qq/ha. Una zona es el Sur Oeste de la provincia de Buenos Aires (SO) y la otra
zona el Centro de la provincia de Buenos Aires (CBA). En la figura se muestra la función de
distribución empírica de la producción de girasol en cada una de las zonas. Usaremos las FRA
para aproximar probabilidades. Estas han sido calculadas con más de 1000 datos por zona.
a) ¿Cuál es la producción de girasol sólo superada por el 10% de los rendimientos en la
zona CBA?
b) ¿Con que probabilidad se supera un rendimiento de 30 qq/ha en SO?
c) ¿En qué zona hay mayor probabilidad de obtener rendimientos altos?
d) ¿Cuál es la zona con mayor varianza en sus rendimientos?
1,0
SO
0,9 CBA
CBA
0,8
Frecuencia relativa acumulada
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0,0
0 5 10 15 20 25 30 35 40 45 50
Rendimiento (qq/ha)
84
Distribuciones
Capítuló 3
Módélós próbabilísticós
Fernando Casanoves
Biometría|83
Módélós
próbabilísticós
Motivación
Cuando estudiamos una variable aleatoria, es de interés calcular probabilidades sobre la
ocurrencia de ciertos valores (eventos). Por ejemplo, podríamos estimar la probabilidad
de obtener un rendimiento de maíz superior a 100 qq/ha, de tomar 100 semillas y que
no germinen más de 90, o de tomar una muestra de insectos con golpes de red y
capturar menos de 20 insectos. Los cálculos de probabilidad pueden hacerse luego de
enumerar todo el espacio muestral, cuando esto es posible, usando información sobre
las frecuencias con que ocurren los distintos eventos o bien usando un modelo de
distribución teórico que ajuste relativamente bien a la distribuón empírica de la
variable. Para la elección del modelo de probabilidad teórico, es importante considerar
características de la variable tales como la forma en que se cuantifica (medición,
proporción, conteo, etc.). La naturaleza de la variable, es decir si es discreta o continua,
las condiciones en que se realiza el experimento y el registro de los valores son
determinantes para la selección de un modelo probabilístico.
87
Modelos probabilísticos
función exacta que caracteriza a la variable aleatoria que está estudiando puede, por
conocimiento empírico, proponer alguna de las funciones, del conjunto de funciones
antes indicado, para describir el comportamiento de su variable. De la habilidad para
escoger una distribución adecuada, depende la calidad de los modelos y las
predicciones que se construyan.
0,30
0,40
Frecuencia relativa
Frecuencia relativa
0,25
0,30
0,20
0,15
0,20
0,10
0,10
0,05
0,00 0,00
0,50 0,20
Frecuencia relativa
Frecuencia relativa
0,40 0,15
0,30
0,10
0,20
0,05
0,10
0,00 0,00
88
Modelos probabilísticos
En esta sección se darán ejemplos del modelo de probabilidad Normal o Gaussiano. Esta
distribución es, podríamos afirmar, la más usada en las ciencias biológicas, agronómicas
y forestales ya que usualmente ajusta bien histogramas de frecuencias de variables
como el peso y la altura de seres vivos así como otras mediciones morfométricas
además del rendimiento. Estas características, particularmente interesantes en
agronomía, son producidas por el resultado de la acción conjunta de muchos factores y
por tanto asumen muchos valores distintos (en un continuo de valores posibles) entre
las unidades de análisis. No obstante, algún valor o intervalo de valores se repite con
mayor frecuencia, mientras que otros muy alejados de estos valores centrales (por ser
mucho mayores o mucho menores) aparecen con menor frecuencia.
La distribución normal se usa para el cálculo de probabilidades de variables continuas,
cuyos histogramas tienen forma “acampanada”, por eso y porque su expresión
matemática fue estudiada por Gauss, también se conoce como modelo Gaussiano. El
siguiente histograma corresponde a la variable aleatoria perímetro que fue medido
sobre numerosas cabezas de ajo, para el cual el modelo Normal con media 17,2 y
varianza 10,7 pareciera proveer un buen ajuste (Figura 3.2 ).
Ajuste: Normal(17,193;10,742)
0,25
0,20
Frecuencia relativa
0,15
0,10
0,05
0,00
6 8 10 12 14 16 18 20 22 24 26 28
Perímetro
Figura 3.2. Histograma de frecuencias relativas para la variable perímetro de cabezas de ajo
(Archivo Ajoblanc).
89
Modelos probabilísticos
90
Modelos probabilísticos
Podemos tener distribuciones normales con iguales valores de varianza pero diferentes
valores de esperanza.Supongamos que la producción de leche diaria de las vacas de un
tambo se distribuye como el modelo normal, con esperanza 25 l y varianza 9 l2. Si a las
vacas se les da una nueva ración que aumenta en 5 l la producción diaria, pero no
modifica las varianzas, la función de densidad de la producción de leche diaria de los
animales con la nueva ración tendrá un valor esperado de 30 l (Figura 3.3).
Para hacer una gráfica que represente las densidades en estudio se usó el software
InfoStat accionando el menú APLICACIONES DIDÁCTICAS GRÁFICOS DE
FUNCIONES DE DENSIDAD CONTINUAS, se especificaron los parámetros como se
muestra en la Figura 3.4 y posteriormente, en la ventana de Herramientas gráficas,
solapa Series, primero se presiona el botón Clonar, y luego, a una de las series se le
cambió la media a 30 (Figura 3.5).
0,14
0,12
0,10
Densidad
0,08
0,06
0,04
0,02
0,00
10 15 20 25 30 35 40
Producción de leche (l/día)
Figura 3.3. Funciones de densidad normal con la misma varianza pero distintas medias
(µ1 = 25 y µ2 = 30)
91
Modelos probabilísticos
Figura 3.4. InfoStat. Ventana de diálogo para graficar funciones de densidad continua.
Figura 3.5. InfoStat. Ventana Herramientas gráficas con las especificaciones para
obtener las densidades normales de la Figura 3.3.
En un tambo con producciones diarias distribuidas normal con media 25 l y varianza 9 l2,
el productor puede decidir darles más ración a las vacas con menor producción y menos
ración a las vacas de mayor producción, ocasionando un cambio en la varianza, pero no
necesariamente sobre la media. Se espera que con raciones diferenciales, la varianza
disminuya, ya que las vacas que producían poco, al tener más ración se acercarán al
promedio de las producciones, y las vacas con mayor producción, al tener una quita se
acercarán también al promedio de las producciones, así, la amplitud de las
producciones será menor. Si la nueva técnica reduce la varianza a 2, la gráfica que
compara las dos condiciones experimentales podría ser como la de la Figura 3.6.
92
Modelos probabilísticos
0,30
0,25
0,20
Densidad
0,15
0,10
0,05
0,00
20 22 24 26 28 30 32 34 36 38 40
Producción de leche (l/día)
Figura 3.6. Funciones de densidad normal con la misma media pero distintas varianzas
( = 9 y = 2)
2 2
1 2
93
Modelos probabilísticos
Función de densidad
Normal(60;49): p(evento)=0,6859
0,06
Densidad 0,05
0,03
0,02
0,01
0,00
30 40 50 60 70 80 90
Rendimiento (q/ha)
Figura 3.7. Función de densidad normal para el rendimiento de un híbrido de maíz con la
probabilidad del evento [50 Y 65] representado por el área sombreada.
Las tablas y software son usados para calcular probabilidades sin necesidad de resolver
integrales como el de la función de densidad normal. Para el caso de la distribución
normal, las tablas existentes (ver Tablas Estadísticas) tienen las áreas (integrales)
correspondientes a valores menores o iguales a un valor particular. Estas áreas son
interpretadas como probabilidades acumuladas. No obstante, ellas no están disponibles
para cualquier valor de cualquier variable normal ya que existen infinitas distribuciones
normales.
La tabla de distribución normal presenta las áreas correspondientes a valores posibles
de una normal de media 0 y varianza 1. Esta densidad normal particular, recibe el
nombre de normal estándar.
Para usar las tablas, debemos expresar nuestra variable como una normal estándar.
Para ello usamos una transformación llamada estandarización que nos permite llevar
94
Modelos probabilísticos
Función de densidad
Normal(0;1): p(evento)=0,6859
0,40
0,30
Densidad
0,20
0,10
0,00
-3,5 -2,5 -1,5 -0,5 0,5 1,5 2,5 3,5
Z
Figura 3.8. Función de densidad normal estándar con la probabilidad del evento
[-1,4286 Z 0,7143] representada por el área sombreada.
95
Modelos probabilísticos
0,30 0,30
Densidad
Densidad
0,20 0,20
0,10 0,10
0,00 0,00
-3,5 -2,5 -1,5 -0,5 0,5 1,5 2,5 3,5 -3,5 -2,5 -1,5 -0,5 0,5 1,5 2,5 3,5
Z Z
Figura 3.9. Funciones de densidad normal estándar con la probabilidad del evento
[Z -1,4286] (izquierda) y [Z 0,7143] (derecha) representadas por el área sombreada.
0,30
Densidad
0,20
0,10
0,00
-3,5 -2,5 -1,5 -0,5 0,5 1,5 2,5 3,5
Z
Figura 3.10. Función de densidad normal estándar con la probabilidad del evento
[Z -0,7143] representada por el área sombreada.
96
Modelos probabilísticos
0,30 0,30
Densidad
Densidad
0,20 0,20
0,10 0,10
0,00 0,00
-3,5 -2,5 -1,5 -0,5 0,5 1,5 2,5 3,5 -3,5 -2,5 -1,5 -0,5 0,5 1,5 2,5 3,5
Z Z
Función de densidad
Normal(0;1): p(evento)=0,2375
0,40
0,30
Densidad
0,20
0,10
0,00
-3,5 -2,5 -1,5 -0,5 0,5 1,5 2,5 3,5
Z
Figura 3.11. Funciones de densidad normal estándar con la probabilidad del evento
[- Z ] (izquierda), [Z 0,7143] (derecha) y [Z ≥ 0,7143] (abajo) representados por el área
sombreada.
En síntesis, podemos decir que si Y se distribuye normal con media y varianza 2,
luego la variable Z (la estandarización de Y ), se distribuye normal con media 0 y
varianza 1, esto es:
Y
Y ~ N(,2) ==> Z = ~ N (0,1)
2
Se ha reducido el problema de tener muchas distribuciones, a tener una sola. Pero para
hallar la probabilidad de que Y tome un valor entre dos valores determinados se deberá
97
Modelos probabilísticos
Aplicación
Manejo de plantaciones
Una de las estrategias para determinar el manejo de bosques naturales se basa en la
reducción de un porcentaje de los árboles presentes (raleo). Los árboles que se cortan
son los de mayor diámetro. Si la distribución de los diámetros de los árboles sigue una
distribución normal, con media 60 cm y varianza 144 cm2.
a) ¿qué porcentaje de árboles se removerá si se talan todos los árboles con más
de 70 cm de diámetro?
b) Si se quiere remover el 30% de los árboles, ¿cuál será el diámetro mínimo para
cortar el árbol?
98
Modelos probabilísticos
Estrategia de análisis
Graficaremos una distribución normal y demarcamos el área de interés. Usando el
menú APLICACIONES DIDÁCTICAS GRÁFICOS DE FUNCIONES DE DENSIDAD
CONTINUAS de InfoStat se obtiene la siguiente ventana de diálogo, donde se deben
colocar los parámetros de la distribución (60; 144) (Figura 3.12).
Figura 3.12. InfoStat. Ventana de diálogo para graficar una función de densidad normal con
media 60 y varianza 144 y el área correspondiente con valores mayores a 70.
0,025
Densidad
0,020
0,015
0,010
0,005
0,000
0 20 40 60 80 100 120
Z
Figura 3.13. Función de densidad normal para los diámetros de árboles con la probabilidad del
evento [Y 70] representado por el área sombreada.
Para calcular esta probabilidad usando tablas, primero hay que estandarizar:
70 60
Z 0,8333
144
99
Modelos probabilísticos
Según los cálculos si se ralean árboles con diámetros mayores a 70 cm, se talará un 20%
de los árboles presentes en el bosque. Para responder a la segunda pregunta, cuál será
el diámetro mínimo para cortar el árbol si se quiere remover el 30% de los árboles,
debemos encontrar el valor de la variable por encima del cual se encuentra el 30% de
los diámetros, es decir debemos hallar el percentil 70 o cuantil 0,70 de la distribución de
los diámetros. Podemos hacer esto con el calculador de cuantiles y probabilidades de
InfoStat del menú ESTADÍSTICAS PROBABILIDADES Y CUANTILES. Aparecerá una
ventana de diálogo donde se deben ingresar los valores de los parámetros de la
distribución y el cuantil que se desea calcular, en nuestro caso, C0,70. Al presionar el
botón Calcular tendremos la estimación del cuantil, en este caso X=66,29.
Figura 3.14. InfoStat. Ventana de diálogo para calcular probabilidades y cuantiles de una función
de densidad normal para obtener el cuantil 0,70 de una distribución normal con media 60 y
varianza 144. Resultado: 66,29
100
Modelos probabilísticos
Por ejemplo, al tirar una moneda y observar el resultado este puede ser cara o cruz.
Luego, la tirada de la moneda es un ensayo Bernoulli ya que los resultados posibles son
dos, uno con probabilidad p y otro con probabilidad q=1-p. Si se considera éxito a la
cara, la probabilidad de éxito es p=0,5. Si tiramos la misma moneda 20 veces y podemos
pensar que cada tirada es un ensayo Bernouilli independiente, podríamos calcular
probabilidades en relación a los valores de la variable aleatoria Y= número de caras en
las 20 tiradas. Este tipo de variable, Y, donde se contabilizan los éxitos en una serie de
ensayos Bernouilli independientes, cada uno con probabilidad de éxito p, tienen una
distribución de probabilidades que ajusta al modelo Binomial. En este caso particular, al
model binomial con parámetros n = 20 y P= 0,5.
La función de probabilidad de una variable aleatoria Y que se distribuye como una
Binomial puede expresarse como:
n y
P (1- P) si y 0 ,1,..., n
n- y
f ( y; n, P) y
0 en caso contrario
donde P es la probabilidad de éxito y por lo tanto pertenece al intervalo [0;1] y n es el
número de ensayos Bernouille independientes.
Nota: representa el número de combinaciones posibles de armar en base a n
n
y
101
Modelos probabilísticos
Las probabilidades pueden calcularse con la función o bien con software que incluyen la
función Binomial o con tablas de la distribución (ver Tablas Estadísticas). Para ilustrar el
uso de la función presentamos el siguiente ejemplo. Supóngase que se toman 10
semillas de Panicum sp y se registra el evento “germinó” o “no germinó” después de 5
días desde su implantación. En este experimento las semillas están suficientemente
aisladas como para asegurar respuestas independientes. Si la probabilidad de
germinación es (para todas las semillas) igual a 0.25 calculemos:
a) Probabilidad que germinen 7 de las 10 semillas,
b) Probabilidad que germinen al menos 3 de las 10 semillas,
c) Probabilidad que germinen a lo sumo 5 semillas.
d) La esperanza de esta variable aleatoria.
e) La varianza.
a)
P(Y= 7) = 10 7
7 0.25 (1-0.25)
(10 -7) =
7
10 0.257 (1 0.25)107 10!
7!(10 - 7)!
0.257 0.753
0.0185
6
0.0031
Para citar otro ejemplo (que resolveremos con software), supongamos que un criadero
de semillas afirma que el poder germinativo de las semillas de un nuevo híbrido es del
98%. Un técnico decide poner a prueba esta afirmación, y para esto toma 100 semillas
del hibrido en forma aleatoria y las coloca en bandejas de germinación lo
suficientemente distanciadas como para pensar que cada semilla germina o no
independientemente de las semillas vecinas. El técnico realiza la prueba siguiendo los
protocolos de ensayos de germinación (cada uno se considera un ensayo Bernouilli) y
encuentra que la cantidad de semillas germinadas es de 94.
¿Cuál es la probabilidad de la condición de verdad de la afirmación de la
empresa vendedora?
Para el cálculo de la probabilidad es necesario definir los parámetros de la distribución
Binomial, que en este caso son n=100 (considerando que las semillas germinan
102
Modelos probabilísticos
Aplicación
Plagas cuarentenarias
Los mercados internacionales de productos agropecuarios para exportación tienen
exigencia estrictas sobre la presencia de plagas cuarentenarias. Una plaga cuarentenaria
es un plaga que no está presente en el país que importa productos, y por este motivo se
establecen barreras de control y protección en los puertos de entrada. Así es el caso de
la exportación de plantas ornamentales, donde un lote completo es rechazado si se
encuentra solo una plaga cuarentenaria. Para el control de plagas los organismos de
inspección toman muestras de plantas de cada uno de los contenedores que se intentan
importar y examinan cuidadosamente cada planta de la muestra.
Se sabe que la probabilidad de éxito (encontrar la presencia de una plaga) en estas
especie en nuestro país es P=0,01. Si se examinan 50 plantas, ¿cuál es la probabilidad de
encontrar al menos una con la presencia de la plaga? ¿Cuál es la probabilidad de
encontrar exactamente 2 plantas de las 50 con la plaga? ¿Cuál es la probabilidad de
detectar al menos una planta con la plaga si la probabilidad de éxito del evento de
interés cambiase a P=0,1?
Estrategia de análisis
Se observa que el número de plantas con plaga en este experimento está acotado,
tienen un máximo. Ya que se realizan 50 observaciones, el máximo valor de la variable
de interés es 50 (todas las plantas infectadas) y el mínimo 0 (ninguna infectada).
Considerando que las extracciones y observaciones de cada una de las 50 plantas son
independientes, es decir, la presencia de una plaga en una planta no depende de lo que
sucede en las otras plantas muestreadas, se decide modelar a la variable Y=número de
plantas con plaga con la distribución binomial, con parámetros n=50 y p=0,01.
Se desea calcular la probabilidad de encontrar al menos una planta con la presencia de
la plaga, es decir, P [Y ≥ 1]. Este cálculo se podría realizar sumando P [Y= 1] + P [Y = 2]
+…+ P [Y= 50]. Pero es más fácil si se saca por diferencia:
P[Y≥1]=1-P[Y<1]=1–P[Y=0]
Usando el calculador de probabilidades y cuantiles de InfoStat, menú ESTADÍSTICAS
PROBABILIDADES Y CUANTILES, en la ventana de diálogo se establecen los parámetros
de una binomial (50; 0,01) y el valor de Y=0.
103
Modelos probabilísticos
Distribución Poisson
La distribución de Poisson también sirve como modelo probabilístico para variables
discretas de tipo conteo. A diferencia de la Binomial, donde el conteo se realizaba sobre
n experimentos independientes, en el caso de la Poisson, los conteos se refieren al
número de veces que un evento ocurre en una unidad de tiempo o espacio dada (hora,
kilo, m2, m3, planta, etc.) y por tanto los valores de la variable no están acotados. Es
104
Modelos probabilísticos
decir, mientras los valores de Y en una Binomial podían pertenecer a los naturales entre
0 y n inclusive, en el caso de una Poisson pueden pertenecer a los naturales entre 0 e
infinito.
En Agronomía, la distribución Poisson suele usarse para modelar el número de insectos
sobre una planta, o en un golpe de red, el número de manchas defectuosas en un
mosaico, o en un metro cuadrado de piso, el número de colémbolos en 100 g de suelo,
o en 1000 cm3 de suelo o el número de coliformes en 1 ml de agua, entre otros conteos
de interés.
La función de probabilidad de una variable aleatoria Y que se distribuye como una
variable Poisson puede expresarse como:
y e-
f ( y, ) y! si y 0,1, 2,...
0 en caso contrario
Como puede observarse desde la función, el único parámetro de la distribución Poisson
es . Si una variable aleatoria Y se distribuye como Poissson lo denotamos como: Y~
Poisson(). Esta distribución tiene un único parámetro, que representa la esperanza y
también a la varianza, es decir que cuando Y~ Poisson(), se cumple:
= E(Y) =
2= V(Y) =
La propiedad de esperanza igual a varianza de la distribución Poisson implica
que al aumentar el promedio de los conteos, aumenta también su varianza. La
varianza de una Poisson es función de la media.
105
Modelos probabilísticos
106
Modelos probabilísticos
Aplicación
Manejo de acoplados de cosecha
Se conoce a través de registros históricos, que en un establecimiento que produce
granos, durante la época de cosecha salen del establecimiento hacia la acopiadora, en
promedio, cuatro acoplados con grano por hora. Para organizar el traslado de una
nueva cosecha es necesario calcular:
¿Cuál es la probabilidad que salgan más de dos acoplados en media hora?
¿Cuál es la probabilidad que salgan como máximo seis acoplados en una hora?
¿Cuál es la cantidad de acoplados por hora que sólo podría ser superada por el 1% de
las horas en observación?
Estrategia de análisis
Para responder a la primera pregunta debemos calcular la P(Y>2) usando una
distribución Poisson con parámetro = 2, ya que la unidad de tiempo en la pregunta es
la mitad de la unidad de tiempo en la que se expresó el parámetro lambda.
Para esto podemos valernos del calculador de probabilidades y cuantiles de InfoStat.
Usando el menú ESTADÍSTICAS PROBABILIDADES Y CUANTILES, aparecerá una
ventana de diálogo donde se debe ingresar el valor del parámetro lambda ( = 2) luego
de seleccionar la distribución Poisson y el valor 2 como valor de la variable (que en
InfoStat se denota como valor de X). El resultado que se muestra indica que
P(Y>2)=0,3233.
Para responder a la pregunta ¿Cuál es la probabilidad que salgan como máximo seis
acoplados en una hora? Usaremos también el calculador de probabilidades y cuantiles
de InfoStat pero con = 4 ya que la pregunta esta referida a una hora. Así, se observa
que la (Y≤6)=0.8893.
Por último, la tercera consulta hace referencia a la identificación de un cuantil de la
distribución y no al cálculo de una probabilidad; se desea conocer el cuantil 0.99 o
percentil 99, es decir el valor de la variable tal que el 99% de los valores son menores o
iguales a éste y por tanto sólo el 1% de valores de la variable superarán a éste que
llamamos percentil 99. En el calculador de probabilidades y cuantiles de InfoStat, se
debe ingresar el valor del parámetro ( = 4) luego de seleccionar la distribución Poisson.
No podemos ingresar el valor de la variable, porque justamente éste es nuestra
incógnita, entonces ingresaremos información en las casillas para las cuales tengamos el
107
Modelos probabilísticos
dato. Podemos ingresar 0,99 en el espacio reservado para Prob(X<=x) o bien el valor
0,01 en la casilla reservada para ingresar la proporción de valores mayores que la
incognita. El resultado que se obtiene indica que 9 acoplados es el percentil 99 de la
distribución, es decir sólo en un 1% de las horas de observación se espera que pasen
más de 9 acoplados.
Definiciones
Definición 3.1: Variable aleatoria normal
Una variable aleatoria Y se define como normalmente distribuida si su función de
densidad está dada por:
1 y
2
f ( y) 1
e
2 2
donde: los parámetros y satisfacen - y >0
e = base de los logaritmos naturales (aprox: 2.7182818), = constante matemática
aproximada por 3.14159 y y (-, ).
Definición 3.2: Estandarización
Se llamará estandarización a la siguiente transformación:
y
Z
2
donde :Z: es la variable aleatoria obtenida de la transformación
Y: la variable aleatoria original
y 2 son respectivamente, la esperanza y la varianza de la distribución de Y.
Definición 3.3: Distribución Binomial.
Una variable aleatoria Y tiene distribución Binomial si y sólo si su función de densidad,
con 0<P<1, es:
n y
P (1- P) si y 0 ,1,..., n
n- y
f ( y; n, P) y
0 caso contrario
Definición 3.4: Distribución Poisson.
Una variable aleatoria Y tiene distribución Poisson si y sólo si su función de densidad es:
y e- si y 0,1, 2,...
f ( y, ) y!
0 caso contrario
108
Modelos probabilísticos
Ejercicios
Ejercicio 3.1: Uso de la tabla de cuantiles de la Distribución Normal Estándar
Esta tabla presenta 2 columnas: La primera columna se refiere a la distancia desde un valor a
la media medida en número de desviaciones típicas (valores de la variable Z). Por ejemplo el
valor 1 indica 1 DE por encima de la media y el valor -1.7 corresponde a 1.7 DE por debajo
de la media. La segunda columna contiene el área bajo la curva normal entre - y el valor
correspondiente a la primer columna, es decir el valor de la función de distribución normal
acumulada. Por ejemplo para el valor 1 de z, el área asociada es 0.8413. Así se puede
concluir que la probabilidad de que una variable distribuida normalmente con = 0 y 2 = 1
tome valores iguales o menores que 1, es igual a 0.8413 y también se puede decir que el
valor 1 es el cuantil 0.8413 de la distribución normal estándar.
Usando la tabla de cuantiles de la Distribución Normal Estándar obtener las siguientes
probabilidades:
a) P (Z 1.3) b) P (Z 4) c) P (Z 1.3)
d) P (-1 Z 1) e) P (0.5 Z 1) f) P (Z = 1)
Ejercicio 3.2: Si X es una variable aleatoria distribuida normalmente con = 10 y 2 = 4.
a) ¿Cuál es la probabilidad de que X tome valores menores que 9?.
b) ¿Cuál es la probabilidad de que X tome valores entre 9 y 11?.
Ejercicio 3.3: La variable altura de plántulas para una población dada se distribuye
normalmente con media = 170 mm y = 5 mm. Encontrar la probabilidad de los siguientes
eventos:
a) Plantas con alturas de al menos 160 mm.
b) Plantas con alturas entre 165 y 175 mm.
Ejercicio 3.4: Si la variable espesor de un sedimento en un sustrato de suelo, se distribuye
normalmente con media = 15 micrones y desviación estándar = 3 micrones.
a) ¿Cuál es el cuantil 0.75 de la distribución de la variable?.
b) ¿Cómo se interpreta este valor?.
Ejercicio 3.5: El caudal de un canal de riego medido en m3/seg es una variable aleatoria con
distribución aproximadamente normal con media 3 m3/seg. y desviación estándar 0.8
m3/seg. A partir de estas referencias calcular la probabilidad de los siguientes eventos:
a) Evento A: que el caudal en un instante dado sea a lo sumo de 2.4 m3/seg.
b) Evento B: que el caudal en un instante dado esté entre 2.8 y 3.4 m3/seg.
109
Modelos probabilísticos
110
Modelos probabilísticos
111
Modelos probabilísticos
Preguntas:
a) ¿Cuál es su valor esperado y su varianza?
b) ¿Cuál es la P(X <4)?
c) ¿Cuál es el valor de P(2 <X< 5)?
Ejercicio 3.13: La proporción de productores hortícolas orgánicos en una región es de 0,30. Si
un técnico desea realizar una encuesta sobre técnicas de producción orgánica:
a) ¿Qué probabilidad tiene de encontrar al menos 5 productores orgánicos luego de
entrevistar a 15?
b) ¿Cuántos campos deberá visitar si desea realizar al menos 10 encuestas a productors
hortícolas orgánicos?
Ejercicio 3.14: Un dosificador de producto fitosanitario libera producto a un promedio de 10
gotas por minuto
Preguntas:
a) ¿Cuál es la probabilidad que se liberen menos de 6 gotas en un minuto?
b) ¿Cuál es la probabilidad de que se liberen como máximo 3 gotas en un minuto?
c) ¿Cuál es la probabilidad de que se liberen las 10 gotas en medio minuto?
d) ¿Cuál es la probabilidad que no salga ninguna gota en un periodo de 15 segundos?
Ejercicio 3.15: La transferencia embrionaria en vacas puede ser exitosa con probabilidad 0.70
o no exitosa. Si se selecciona un lote de 10 animales al azar entre aquellos lotes que
recibieron transferencia embrionaria,
Preguntas:
a) ¿Qué modelo de distribución de probabilidades puede usarse para calcular
probabilidades?
b) ¿Cuantas vacas del lote se espera hayan tenido una transferencia exitosa?
c) ¿Cuál es la probabilidad de lograr una transferencia exitosa en los 10 animales del
lote?
Ejercicio 3.16: Un Ingeniero Agrónomo del Servicio de Alerta contra Fitóftora de una región
viñatera afirma que 2 de cada 10 lotes afectados por la enfermedad se deben al mal manejo
de los mismos. Cuál es la probabilidad de que:
a) en 100 lotes, a lo sumo 10, sean afectados por la enfermedad, por problemas de mal
manejo
b) de 100 lotes, ninguno presente la enfermedad por problemas de mal manejo
Ejercicio 3.17: Se quiere encontrar plantas de trigo con propiedades resistentes a los
pulgones. Un síntoma de resistencia es la ausencia de pulgones en la planta. Se calcula que
la frecuencia de plantas sin pulgones en un cultivo es de alrededor de 1/200 pero solo 1 de
cada 10 de estas plantas presentan genes de resistencia.
a) ¿cuántas plantas de trigo deberán revisarse para tener una probabilidad de al menos
0.95 de encontrar una con los genes de resistencia?
112
Modelos probabilísticos
113
Muestreo
Capítuló 4
Distribució n dé
éstadísticós muéstralés
Margot Tablada
Biometría|113
Distribució n dé
éstadí sticós
muéstralés
Motivación
En numerosas situaciones deseamos utilizar los resultados del análisis de datos
muestrales para elaborar conclusiones que puedan ser extendidas a la población de la
que proviene la muestra. A este proceso inductivo se lo denomina Inferencia
Estadística.
Si la muestra es una ventana a través de la cual observamos a la población podemos
asegurar que aquello que vemos en la muestra está presente en la población; pero no
podemos decir que aquello que no vemos, no está presente. Esto sugiere que si toda
muestra contiene una parte de la población, dos muestras de una misma población
podrían “mostrar” cosas diferentes e inclusive puede que la diferencia sea muy grande.
¿Cómo decidir en qué muestra confiaremos? ¿Podemos otorgar una medida de
confiabilidad al cálculo obtenido en una muestra, para así establecer una medida del
error potencial que podríamos tener al concluir sobre la población, de la mano de la
muestra?
Vemos que inferir acerca de una población en base a lo observado en solo una de las
posibles muestras, implica riesgo: el riesgo de concluir erróneamente por haber
seleccionado una muestra que no represente adecuadamente a la población, ya que
existe la posibilidad de que la estimación no sea buena por errores aleatorios debidos al
muestreo. En este sentido, se hace necesario conocer el comportamiento de los
estadísticos obtenidos en las posibles muestras; es decir, conocer su distribución en el
muestreo.
En este capítulo abordaremos las distribuciones de los estadísticos media muestral y
varianza muestral y el Teorema Central del Límite, que da sustento a las conclusiones
que se obtienen en los estudios que se realizan con muestras.
117
Distribución de estadísticos muestrales
Distribución de estadísticos
Hemos señalado que el estudio de una muestra se realiza con el fin de concluir sobre la
población de la cual ésta proviene. A los fines de presentar conceptos teóricos de
distribución en el muestreo, haremos un muestreo cuyos resultados podamos visualizar
fácilmente. Para ello, supongamos que contamos con una población finita de valores
que puede asumir una variable aleatoria y, por razones de simplicidad para el
desarrollo y presentación de resultados, supongamos que los valores en la población
son: 1; 3; 5; 7 y 9, de modo que N=5. Caractericemos la distribución de la variable y
veamos si al trabajar con muestras, podemos aproximarnos a esa distribución.
Aproximarnos a la distribución implica poder conocer o estimar los parámetros de la
distribución de la variable. La idea es utilizar información de la muestra, que pueda
representar a los parámetros.
Para caracterizar a la distribución de la variable Y , podemos realizar un gráfico y
calcular el valor de la esperanza ( ) y de la varianza ( 2 ) de la variable aleatoria
(Figura 4.1).
1.0
Frecuencia relativa
0.8
0.6
0.4
0.2
0.0
1 3 5 7 9
Valores de la variable aleatoria Y
118
Distribución de estadísticos muestrales
Tabla 4.1: Valores que conforman las muestras y medias muestrales, de 10 muestras de
tamaño n=2 obtenidas en un muestreo con reposición desde una población finita
Muestra Valores en la Media Muestra Valores en la Media
muestra muestra
1 9; 1 5 6 5; 7 6
2 3; 5 4 7 1; 3 2
3 7; 1 4 8 3; 1 2
4 7;1 4 9 3; 5 4
5 9;9 9 10 5;9 7
El valor de la media muestral varía entre aquellas muestras que están conformadas por
diferentes valores de la variable. Podemos pensar, entonces, que la media muestral es
una variable. A su vez, vemos que hay muestras cuyas medias son valores más próximos
a la media poblacional ( 5 ) que los obtenidos en otras muestras. Además, las 10
muestras presentadas no son todas las posibles muestras de tamaño 2 que se podrían
obtener desde la población propuesta. Estas consideraciones nos hacen notar que usar
la media de una muestra de tamaño n para aproximarnos al valor de , involucra la
necesidad de conocer el comportamiento de las medias que se obtendrían con las
muestras de tamaño n, es decir, conocer la distribución del estadístico (variable
aleatoria) media muestral.
Para estudiar la distribución de la variable aleatoria media muestral, consideremos
todas las muestras posibles de tamaño n=2, que se podrían obtener desde la población
propuesta haciendo un muestreo con reposición. Hay 25 muestras posibles.
A continuación se listan los valores que conforman cada muestra de tamaño n=2,
indicando la media de cada muestra ( y ).
119
Distribución de estadísticos muestrales
1 1/25= 0,04
0,20
2 2/25= 0,08
3 3/25= 0,12 0,15
f(x)
4 4/25= 0,16
0,10
5 5/25= 0,20
6 4/25= 0,16
0,05
7 3/25= 0,12
8 2/25= 0,08 0,00
123456789
9 1/25= 0,04
Y
Figura 4.2: Distribución de la variable aleatoria media muestral en muestras de tamaño n=2 con
reemplazo
La distribución señala que son más probables (más frecuentes) los valores de media
muestral cercanos a 5. Calculemos la esperanza ( y ) y la varianza ( y2 ) de la
distribución:
y = 5= y 2y = 4
Vemos que:
a) el promedio de la media muestral tiene igual valor que la media de la población
de la que se extrajeron las muestras.
120
Distribución de estadísticos muestrales
n
desde poblaciones finitas en las que se hace muestreo con reemplazo.
Para el muestreo sin reemplazo en poblaciones finitas al calcular y2 se debe usar un
2 2 N n
factor de corrección, de modo que y , con N=tamaño de la población.
n N 1
121
Distribución de estadísticos muestrales
Dado que la media muestral varía de muestra de muestra, sería importante poder
identificar un modelo de probabilidad que represente a la distribución de la variable
media muestral, ya que con ello podríamos calcular errores en los que se podría incurrir
cuando se usan las medias muestrales para realizar inferencia estadística.
Para poder visualizar el ajuste de un modelo de distribución a un conjunto de medias
muestrales y las implicancias del tamaño muestral en la distribución de las medias
muestrales, supongamos una población de pesos de pollos a la faena, con datos
suficientes como para obtener una cantidad importante de muestras, ya que
utilizaremos un muestreo sin reemplazo. Los datos, para seguir esta ilustración, se
encuentran en el archivo [faena].
En primera instancia, visualicemos la distribución de los valores poblacionales y
obtengamos medidas resumen (Figura 4.3).
Medidas resumen
Resumen peso
n 1000,00
Media 3135,68
D.E. 148,30
Var(n) 21970,02
CV 4,73
Mín 2652,25
Máx 3562,90
Observemos que los valores de peso se encuentran entre 2652,25 g y 3562,9 g. Por
redondeo a un valor entero, la esperanza de la distribución es = 3136 g y la varianza es
2=21970 g2; el coeficiente de variación corresponde a un 5%.
La forma de la distribución sugiere que el modelo de distribución Normal sería una
buena aproximación. El modelo de la distribución Normal establece que el 95% de los
valores de la variable se concentran alrededor de a una distancia de 1,96 veces el
desvío estándar. Suponiendo este modelo, un 95 % de los pesos concentrados alrededor
de se encontrarían, por redondeo, entre 2845 g y 3427 g como lo muestra la Figura
4.4.
122
Distribución de estadísticos muestrales
Normal(3135.7,21970): p(evento)=0.9500
Los valores 2845 g y 3426 g han sido obtenidos considerando la desviación estándar de
la población (148,22 g), de modo que a una distancia de 290,51 g (esto es, 1,96 ×
148,22g) hacia ambos lados de la media (o sea, entre 3136 g - 290,51 g=2845 g y 3136
g + 290,51 g= 3426 g), encontramos un 95% de las realizaciones de esta variable
aleatoria. Esto indica que valores de peso menores a 2845 g o superiores a 3426 g son
poco probables, ya que ocurrirían solo en un 5% del total de pollos.
Vemos que considerando la desviación estándar podemos establecer un intervalo de
valores entre los cuales se encuentra el promedio poblacional. De acuerdo a cuántas
unidades de DE consideremos, abarcaremos un determinado porcentaje de valores de
la variable, que están próximos a . De modo similar al planteado, podríamos obtener el
conjunto de pesos que se concentran en un 99% alrededor de , en cuyo caso los
valores se encontrarían a 2,576 veces la DE.
Siguiendo un análisis similar al que hemos presentado para los datos de la población de
pollos, y dado que no alimentaríamos a todos los pollos con el suplemento sino a una
muestra de ellos, a través de lo que obtengamos en una muestra elegida al azar:
¿cómo podemos aproximarnos al valor de utilizando la media muestral?, ¿lo
que observamos en la muestra elegida ocurrirá en cualquiera de las posibles
muestras?
dado que el error estándar (EE) indica la variabilidad de la media muestral y
que su valor depende del tamaño de la muestra ¿por qué decimos que es una
medida de confiabilidad?
Visualicemos la distribución en el muestreo y respondamos estos interrogantes. Para
ello, realicemos sucesivos muestreos tomando 100 muestras de tamaños n=5, n=10,
n=15 y n=30. En el programa InfoStat, seleccionamos en el menú Aplicaciones, la opción
Didácticas y, luego, la opción Remuestreo (Figura 4.5).
123
Distribución de estadísticos muestrales
Figura 4.5. Ventana de diálogo con el archivo faena y el acceso a la aplicación Remuestreo
Figura 4.6. Ventana de diálogo de la opción Remuestreo. Se ejemplifica la obtención de las medias
de 100 muestras de tamaño n=5, a partir de una población con N=1000
Como resultado del muestreo se generará una tabla que contendrá la identificación, el
tamaño y la media, de cada muestra (Figura 4.7).
124
Distribución de estadísticos muestrales
Figura 4.7. Tabla generada con las medias de 100 muestras de tamaño n=5
Para hacer los muestreos con los diferentes tamaños de muestra debemos repetir el
procedimiento tantas veces como tamaños muestrales vayamos a utilizar. Obtendremos
tantas tablas nuevas, como diferentes tamaños muestrales usemos.
Con los datos de cada muestreo, podemos graficar las diferentes distribuciones
empíricas mediante histogramas. Al construir un histograma tenemos disponible una
opción que permite ajustar la distribución a distintos modelos de probabilidad.
Obtenido un histograma, pediremos un ajuste Normal (Figura 4.8).
125
Distribución de estadísticos muestrales
3000 3050 3100 3150 3200 3250 3300 3000 3050 3100 3150 3200 3250
Media Media
3050 3100 3150 3200 3250 3050 3100 3150 3200 3250
Media Media
126
Distribución de estadísticos muestrales
127
Distribución de estadísticos muestrales
medias muestrales se encontrarán a 53,7 g (esto es, 1,96 × 27,4 g), tanto por debajo
como por encima del valor de , o sea entre 3083 g y 3191 g. Valores fuera de este
rango pueden ocurrir pero ello es poco probable (solo en un 5% de las muestras). La
Figura 4.10 muestra este comportamiento y el que fuera obtenido para la distribución
original de la que se extrajeron las muestras.
Normal(3135.7,21970): p(evento)=0.9500 Normal(3137,751.9): p(evento)=0.9500
2395 2580 2765 2950 3136 3321 3506 3692 3877 3030 3057 3084 3111 3138 3164 3191 3218 3245
Variable Variable
Figura 4.10: Distribución de la variable peso a faena (izquierda) y peso promedio a faena en
muestras con n=30(derecha). El área sombreada en cada distribución corresponde a valores (en
gramos) entre los cuantiles 0,05 y 0,95
128
Distribución de estadísticos muestrales
Nos queda pendiente un interrogante: ¿por qué decimos que el error estándar es una
medida de confiabilidad?
La desviación estándar es una medida del error del muestreo (de la variación en la
muestra); el error estándar (EE) es una medida de la variación del estimador (en este
caso, la media muestral) que permite cuantificar el error de estimación (variación entre
las estimaciones).
El EE permite obtener una medida de confiabilidad de la estimación o aproximación
al verdadero valor de . Por ejemplo, si estimamos a con una muestra de 30
pollos, con el 95% de las muestras tendríamos un error de estimación de a lo sumo
1,96 × 27,4 g = 53,7 g (por defecto o por exceso) ya que la estimación (es decir la
media de la muestra) será un valor entre 3083 g y 3191 g. Dicho de otra manera, si
deseamos estimar al verdadero valor de eligiendo una muestra de pollos cuyo
peso promedio esté a lo sumo a una distancia de 53,7 g de la media verdadera, y
sabemos que en la población el peso tiene una desviación estándar de 148,22 g,
deberíamos extraer una muestra de 30 pollos. Esto es:
148,22
error de estimación= 53, 7 1, 96 * EE 1, 96 *
n
1,96 148,22
2
53,7
El EE puede ser disminuido eligiendo un tamaño muestral lo suficientemente grande
como para que la media de la muestra elegida pertenezca al rango de medias
muestrales que se encuentran a una distancia deseada de .
129
Distribución de estadísticos muestrales
S2 f( S2 )
0.3
0 5/25= 0,20
Frecuencia relativa
2 8/25= 0,32
0.2
8 6/25= 0,24
18 4/25= 0,16
32 2/25= 0,08 0.1
0.0
0 2 8 18 32
Varianzas muestrales
Figura 4.12. Distribución de la variable aleatoria varianza de muestras de tamaño n=2 con
reemplazo
130
Distribución de estadísticos muestrales
Este resultado indica que la varianza muestral puede utilizarse para estimar la varianza
poblacional.
Repitiendo, en forma análoga a lo presentado con las medias muestrales, veamos qué
ocurre con las varianzas de los pesos de pollos a la faena cuando se toman muestras de
tamaño 5; 10; 15 y 30. Usaremos la opción Remuestreo de las Aplicaciones Didácticas
de InfoStat, pero ahora obtendremos las varianzas muestrales. Al igual que en el caso
de las medias muestrales, la idea es visualizar la distribución de las varianzas muestrales
y poder identificar un modelo de probabilidad que ajuste la distribución.
En el caso de las varianzas muestrales el ajuste a un modelo no se realiza sobre la
(n 1)S
2
obtenidas las varianzas para cada tamaño de muestra, es necesario calcular los valores
de este estadístico. Esto puede realizarse utilizando la opción Fórmulas del menú Datos,
del programa InfoStat, cuando se conoce un valor para 2.
La Figura 4.13 muestra las distribuciones de los valores de S2 y del estadístico
(n 1)S
2
131
Distribución de estadísticos muestrales
0,38
0,38
frecuencia relativa
frecuencia relativa
0,25
0,25
0,13 0,13
0,00 0,00
1000 12500 24000 35500 47000 58500 70000 0 2 4 6 8 10 12 14
Varianza Estadístico Chi-cuadrado
0,38
0,38
frecuencia relativa
frecuencia relativa
0,25
0,25
0,13 0,13
0,00 0,00
2000 14000 26000 38000 50000 62000 0 5 10 15 20 25 30
Varianza Estadístico Chi-cuadrado
0,38
0,38
frecuencia relativa
frecuencia relativa
0,25
0,25
0,13 0,13
0,00 0,00
4000 15200 26400 37600 48800 60000 0 5 10 15 20 25 30 35 40
Varianza Estadístico Chi-cuadrado
0,38
0,38
frecuencia relativa
frecuencia relativa
0,25
0,25
0,13 0,13
0,00 0,00
9000 14200 19400 24600 29800 35000 10 15 20 25 30 35 40 45 50
Varianza Estadístico Chi-cuadrado
Figura 4.13. Histogramas de la distribución del estadístico S2 (izquierda) y del estadístico χ2, con el
correspondiente ajuste (derecha).
132
Distribución de estadísticos muestrales
Comentarios
En este Capítulo hemos experimentado dos ideas centrales: la media muestral y la
varianza muestral son variables aleatorias, vale decir no podemos predecir con
exactitud su valor y este varía de muestra a muestra. La media muestral es un estimador
insesgado de la esperanza de la distribución de la que se extraen las muestras y la
varianza muestral lo es de la varianza de dicha distribución poblacional. Las medias de
muestras de tamaño n siguen una distribución que se aproxima al modelo Normal al
aumentar el tamaño muestral, aun cuando los datos originales provienen de
poblaciones no normales.
El error estándar de la media muestral es una medida de confiabilidad las medias
muestrales de tamaño n y permite conocer el máximo error que podría tener una
estimación basada en la media muestral. Se puede calcular el tamaño muestral
necesario para estimar a con una precisión deseada. Es decir, determinando un valor
de distancia entre la estimación y el verdadero valor del parámetro. Una función de las
varianzas muestrales, de muestras de tamaño n, tiene una distribución teórica
denominada Chi-cuadrado con n-1 grados de libertad y puede ser usada para calcular
probabilidades relativas a varianzas muestrales
133
Distribución de estadísticos muestrales
Notación
Media de la distribución de las medias de muestras de tamaño n: y
Varianza de la distribución de las medias de muestras de tamaño
y
n: 2
Error estándar de la distribución de las medias de muestras de tamaño n: EE y
Distribución de la variable aleatoria media muestral Y , para muestras aleatorias de
tamaño n extraídas de una población con esperanza y varianza 2 : Y N ;
2
(n 1)S 2
n
Estadístico Chi-cuadrado: 2
22 2
Distribución del estadístico : n1
2
Definiciones
Definición 4.1: Error Estándar
La desviación estándar (raíz cuadrada de la varianza) de la variable aleatoria media
muestral de muestras de tamaño n, recibe el nombre de Error Estándar y es expresado
como: EE Y Y2 2 n n
134
Distribución de estadísticos muestrales
Ejercicios
Ejercicio 4.1: Para estudiar empíricamente la distribución de la medias muestrales, utilice un
procedimiento de simulación. Suponga que los datos de la variable Y (archivo Ejercicio-
1CapituloDEM), representan a una población con =27.96 y 2=27.77. La simulación consiste
en generar un número grande de experimentos (200) en los cuales se obtengan muestras con
n=3, n=10 y n=25, a partir de un muestreo sin reposición.
Para obtener los resultados de la simulación siga los siguientes pasos:
a) En el programa InfoStat, abra el archivo que contiene los datos poblacionales y
seleccione Aplicaciones Didácticas Remuestreo, como se muestra en la
siguiente ventana.
135
Distribución de estadísticos muestrales
d) Al aceptar esta configuración del remuestreo, se generará una nueva tabla con los 200
valores generados.
e) Con los resultados construya un histograma de frecuencias relativas que incluya el
ajuste de un modelo normal.
f) Repita el procedimiento del remuestreo usando los tamaños muestrales n=10 y n=25.
Recuerde utilizar la tabla de datos con la variable Y. Construya los correspondientes
histogramas. En todos los gráficos mantenga la misma escala (mínimos y máximos)
en el eje X y en el Eje Y, así como también la cantidad de clases.
g) ¿Cuál es el promedio de las medias muestrales para los tres escenarios? ¿Cómo es
este promedio respecto del promedio de la población?
h) ¿Cómo es la varianza de las medias obtenidas en cada muestreo respecto de la
varianza de la población? Justifique.
i) Comparando los resultados, si Ud. tuviera que estimar a la media de la población:
¿qué estrategia utilizaría? Justifique.
Ejercicio 4.2: En una población de plantas de una especie ornamental la variable aleatoria
altura se distribuye en forma aproximada a una normal con media 30 cm y desviación
estándar 6 cm.
De acuerdo al enunciado, en cada afirmación indique si es verdadera o falsa. Justifique sus
respuestas.
a) Para que las medias de muestras extraídas de la población tengan distribución normal
el tamaño muestral deberá ser superior a 100.
b) En la distribución de 200 medias muestrales obtenidas en muestras de tamaño n=10
los valores se concentrarán más alrededor de que en una distribución en base a las
medias de 100 muestras de tamaño n=20.
c) El error estándar es una estimación de la variabilidad de la altura promedio de
muestras de n plantas tomadas de la población.
136
Distribución de estadísticos muestrales
137
Inferencia
Capítuló 5
Estimació n dé para
métrós y cóntrasté dé
hipó tésis
Julio A. Di Rienzo
Biometría|137
Estimació n dé
para métrós y
cóntrasté dé hipó tésis
Motivación
La toma de decisiones basada en criterios estadísticos se fundamenta en el
conocimiento de la forma en que se distribuyen las variables aleatorias. Por ejemplo,
para establecer la aptitud de una localidad-región para un cultivo se consideran, entre
otras cosas, el régimen de lluvias y de temperaturas. Estas consideraciones contemplan
explícita o implícitamente el cálculo de probabilidad de la ocurrencia de eventos que, ya
sea por exceso y/o por defecto, hacen fracasar una cosecha. Cuando esta probabilidad
es grande se concluye que, para las demandas del cultivo en cuestión, la localidad-
región no es apta o lo es marginalmente. El cálculo de esas probabilidades implica
conocer la función de distribución de la variable (aleatoria) objeto de estudio. Esta
función está caracterizada por parámetros que en la práctica son desconocidos. El
propósito de este capítulo es discutir la problemática de la estimación de parámetros
relativos a éstas distribuciones, su confiabilidad y contrastar hipótesis sobre ellos.
141
Estimación de parámetros y contraste de hipótesis
Esta función se puede visualizar utilizando un gráfico de dispersión con los valores de
milimetraje en el eje X y la probabilidad acumulada correspondiente en el eje Y (Figura
5.1). En esta figura puede leerse la probabilidad antes mencionada. También se lee que
por debajo de 1200 mm ocurrirán casi todas las precipitaciones que puedan registrarse
anualmente y por lo tanto será muy poco probable la ocurrencia de precipitaciones
mayores a 1200 mm.
En la mayoría de las aplicaciones prácticas no se cuenta con estas funciones de
distribución. Sin embargo, podemos tener datos para construirlas. Por ejemplo, si
tuviéramos 150 registros de precipitación anual para la localidad en cuestión podríamos
obtener los que se llama la función de distribución empírica cuya gráfica, para un
ejemplo particular hipotético, se muestra en la Figura 5.2.
1,00
0,90
0,80
Probabilidad acumulada
0,70
0,60
0,50
0,40
0,30
0,20
0,10
0,00
300
600
700
800
900
400
500
1000
1100
1200
1300
1400
Esta función aproxima bastante bien al modelo teórico y puede ser adecuada para
muchas aplicaciones prácticas. Sin embargo, uno de sus problemas es que la lectura de
las probabilidades de eventos muy extremos es difícil de realizar, ya sea porque no hay
datos para esos eventos o porque la información es muy incompleta. Esta situación se
agrava cuando la disponibilidad de datos es más reducida. Por ejemplo, si se tuviera una
serie de 30 registros de precipitaciones anuales para nuestra localidad hipotética,
podríamos encontrar la distribución empírica que se ilustra en la Figura 5.3.
142
Estimación de parámetros y contraste de hipótesis
1,00
0,90
Distribución empírica 0,80
0,70
0,60
0,50
0,40
0,30
0,20
0,10
0,00
300
800
900
400
500
600
700
1000
1100
1200
1300
1400
precipitación anual (mm)
Figura 5.2: Función de distribución empírica de la variable precipitación anual (mm) obtenida a
partir de 150 observaciones.
143
Estimación de parámetros y contraste de hipótesis
1,00
0,90
0,80
Distribución empírica
0,70
0,60
0,50
0,40
0,30
0,20
0,10
0,00
300
800
400
500
600
700
900
1000
1100
1200
1300
1400
Valores observados
Figura 5.3: Función de distribución empírica de la variable precipitación anual (mm) obtenida a
partir de 30 observaciones.
Modelo estadístico
Parece oportuno introducir aquí el concepto de modelo estadístico. Este concepto
permite vincular la función de distribución de una variable aleatoria con la práctica
común de la experimentación, que consiste en la comparación del comportamiento de
una variable (aleatoria) bajo diferentes escenarios o condiciones experimentales.
Los estadísticos tratan a las observaciones de un experimento (o muestreo) como las
realizaciones de un conjunto de variables aleatorias. Aún en presencia de variabilidad
aleatoria es posible encontrar patrones en los datos y la identificación, y caracterización
de los mismos es el propósito del análisis estadístico. Para ello las observaciones se
idealizan mediante un modelo estadístico. Vamos a restringir nuestra discusión al caso
de los modelos lineales que constituyen la base de la estadística aplicada a la
experimentación agropecuaria.
Un modelo estadístico incluye una parte fija y otra aleatoria. La parte aleatoria nos
recuerda el carácter variable de las observaciones, mientras que la fija describe la
tendencia, lo repetible, lo esperable en promedio. Las partes fija y aleatoria caracterizan
a los parámetros de posición y dispersión de la variable en estudio, respectivamente.
Por ejemplo, un modelo para las precipitaciones anuales en tres localidades podría ser
el siguiente:
Yij i ij
144
Estimación de parámetros y contraste de hipótesis
Este modelo dice que Yij , que podría denotar el valor observado de precipitación en la
j-ésima localidad y en el i-ésimo año es la resultante de sumar el nivel medio de
precipitaciones anuales , común a todas las localidades, más i , el efecto de la i-
ésima localidad sobre el promedio de las precipitaciones anuales. La discrepancia entre
la suma i y el valor observado en la i-ésima localidad, j-ésimo año, está
representada por ij . Este último término se considera aleatorio y se conoce como el
término del error. Si 800 y los efectos de las localidades sobre la media son
1 180 , 2 120 y 3 60 y, además, suponemos que la función de distribución
de los errores es normal con media 0 y varianza 30000, el gráfico de las funciones de
distribución se puede visualizar en la Figura 5.4. El número 30000 se propuso sólo a los
efectos de la ejemplificación.
En la Figura 5.4 puede leerse que precipitaciones anuales menores a 700 mm ocurren
frecuentemente en la Localidad 1 y son algo menos frecuentes en la Localidad 2 (la
probabilidad aproximada de este evento es 0,50 y 0,30 para las localidades 1 y 2
respectivamente). Mientras tanto, para la Localidad 3 esa probabilidad es pequeña:
cercana a 0,10.
1,00
0,90
0,80
probabilidad acumulada
0,70
0,60
0,50
0,40
0,30
0,20
0,10
0,00
200
300
400
500
600
700
800
900
1000
1100
1200
1300
1400
Figura 5.4: Funciones de distribución para el modelo Yij i ij con 800 ,
1 100 , 2 20 y 3 120 y ij ~N(0;30000).
La Figura 5.5 muestra un caso similar al anterior excepto que las tres localidades tienen
efecto nulo sobre el valor medio de precipitaciones anuales. En este caso las funciones
de distribución de las precipitaciones anuales de las tres localidades son indistinguibles
por sus parámetros de posición. Supondremos, en cambio, diferencias en sus
145
Estimación de parámetros y contraste de hipótesis
0,70
0,60
0,50
0,40
0,30
0,20
0,10
0,00
200
300
400
500
600
700
800
900
1000
1100
1200
1300
1400
precipitación anual (mm)
Figura 5.5: Funciones de distribución para el modelo Yij i ij con 800 ,
1 2 3 0 , y i1 ~N(0;30000), i 2 ~N(0;10000), i 3 ~N(0;80000).
146
Estimación de parámetros y contraste de hipótesis
Estimación puntual
Cuando se aproxima el parámetro de una distribución a través de un valor calculado a
partir de una muestra decimos que se está haciendo una estimación puntual del
parámetro. Supongamos que tenemos una muestra aleatoria {y1,y2,...,yn} de la variable
Y, cuya función de distribución acumulada es F(y;). En esta notación estamos indicando
que F depende del parámetro . Por otra parte, es desconocido y no podremos utilizar
F(.) a menos que asignemos un valor a . Para estimar este parámetro usaremos los
valores observados en la muestra. Con este objetivo propondremos una función ˆ.
que, partiendo de la muestra disponible, produce un valor razonable para el parámetro
objeto de estimación. Hemos escogido como símbolo de la función el mismo símbolo
del parámetro, y para distinguirlos, marcamos a este último con un acento circunflejo.
No daremos, en lo que sigue, definiciones matemáticas. Aunque ello implica una
pérdida de precisión en las definiciones, esperamos, sin embargo, que esto ayude al
lector no especializado a lograr la conceptualización deseada.
Toda función basada en una muestra se conoce como estadístico muestral. Los
estimadores son estadísticos muestrales y en consecuencia son variables aleatorias, ya
que son funciones de variables aleatorias. Para que un estadístico muestral sirva como
estimador, debemos evaluar algunas propiedades que caracterizan a los estimadores.
La elección de un buen estimador, entre un conjunto de posibles estimadores, se realiza
teniendo en cuenta 4 propiedades:
Consistencia
Insesgamiento
Eficiencia
Cerramiento
Consistencia
Diremos que un estimador es consistente si éste se “aproxima” al parámetro cuanto
mayor es el tamaño muestral. Un ejemplo clásico de estimador consistente es la media
muestral Y . La consistencia es la propiedad más importante de un estimador e implica
que la estimación mejora (en términos de proximidad entre la estimación y el
parámetro estimado) con el incremento en el número de observaciones disponibles. Si
un estimador no es consistente, no sirve.
147
Estimación de parámetros y contraste de hipótesis
Insesgamiento
Esta propiedad pide a un estimador que, para cualquier tamaño muestra, su valor
esperado sea el valor de parámetro. En términos prácticos, esta propiedad implica que
si se tomaran muchas muestras de tamaño n y se calcula con cada una de ellas el
estimador insesgado, entonces el promedio de todas estas estimaciones será el valor
del parámetro. Cuando esta propiedad no se cumple se dice que el estimador es
sesgado. El sesgo puede ser positivo o negativo. Esta propiedad no es contradictoria de
la propiedad de consistencia, pero si un estimador es consistente pero sesgado esto
implica que el sesgo se achica con el incremento del tamaño muestral. Se puede probar
que la media muestral (promedio) es un estimador insesgado de la media poblacional.
Eficiencia
Cuando un estimador es eficiente no existe otro, dentro de su categoría, que tenga
menor varianza. Esta propiedad es deseable porque implica mayor estabilidad de las
estimaciones (estabilidad en el sentido de que si se tomara otra muestra la estimación
resultaría “parecida”). La media y la mediana muestrales son, ambos, estimadores
consistentes e insesgados de la media de una variable aleatoria. Si la variable cuya
media se quiere estimar tuviera distribución normal, la media muestral es el estimador
de mínima varianza dentro de los estimadores insesgados, y por lo tanto: el estimador
eficiente. Cuando la distribución admite valores extremos, propios de las distribuciones
asimétricas, como puede ser la distribución exponencial, esta propiedad la tiene la
mediana.
Cerramiento
Esta propiedad indica que el estimador siempre produce valores admisibles para el
parámetro. Por ejemplo, la varianza es una medida de variabilidad y su cota inferior es
0. Si un estimador de la varianza produce, eventualmente, resultados negativos,
entonces no cumple con la propiedad de cerramiento.
Error estándar
El error estándar de un estimador es la raíz cuadrada de su varianza y la expresión para
calcularlo es propia de cada estimador. Por ejemplo, el error estándar de la media
muestral se calcula como la desviación estándar dividida por la raíz cuadrada del
tamaño muestral. Su fórmula es:
EEY S n
148
Estimación de parámetros y contraste de hipótesis
Intervalo de confianza
Otra forma de reportar la incertidumbre de una estimación es dando un intervalo de
confianza para el parámetro que se quiere estimar. Estos intervalos tienen una
probabilidad diseñada de contener al verdadero valor del parámetro. Esta probabilidad
se fija usualmente en 0,95 o superior. Intervalos de menor confianza, como por ejemplo
0,90 o 0,80 son admisibles, aunque en estos casos es conveniente dar alguna
explicación que justifique su utilización. La probabilidad de un intervalo de confianza
corresponde a la probabilidad de que el intervalo contenga al verdadero valor del
parámetro. Sin embargo, para una muestra particular, una vez que los límites se han
calculado, asignar una probabilidad al intervalo obtenido no es más aplicable (ya que no
es más un intervalo de límites aleatorios) y por ello se dice que el intervalo tiene una
confianza del p%, donde p es la probabilidad diseñada.
Un ejemplo típico es la construcción del intervalo de confianza para la media de una
población. Este intervalo se calcula partiendo del hecho que:
Y
~ Tn1
S n
149
Estimación de parámetros y contraste de hipótesis
150
Estimación de parámetros y contraste de hipótesis
Aplicación
Residuos de insecticida en apio
Los siguientes datos corresponden a los residuos de un insecticida (en ppm) en plantas
de un lote de apio:
0,40 0,77 0,28 0,41 0,74 0,74 0,34 0,22 0,33 0,34
0,42 0,17 0,22 0,23 0,35 0,48 0,42 0,59 0,21 0,48
0,67 0,66 0,34 0,37 0,34 0,52 0,32 0,33 0,27 0,32
151
Estimación de parámetros y contraste de hipótesis
Contraste de hipótesis
Como se indicó anteriormente los modelos estadísticos tienen una parte fija y otra
aleatoria que caracterizan, respectivamente, los parámetros de posición y dispersión de
la variable aleatoria bajo estudio. Vamos a centrar nuestra discusión sobre el contraste
de hipótesis en el contexto de los modelos lineales. Estos modelos son la base teórica y
conceptual del análisis de la varianza y del análisis de regresión (que se discutirán más
adelante) y que constituyen el cuerpo principal de métodos estadísticos aplicados a la
experimentación agropecuaria.
152
Estimación de parámetros y contraste de hipótesis
nula. Para decidir cuándo dejamos de “creer” en la hipótesis nula se fija un umbral. Si el
valor p está por debajo del umbral decimos que la hipótesis nula no es consistente con
los datos observados (la hipótesis nula se rechaza) y se acepta la hipótesis alternativa.
El umbral utilizado para decidir cuándo rechazamos la hipótesis nula se conoce como
nivel de significación de la prueba y se simboliza con . Cuando la hipótesis nula se
rechaza se dice que la prueba fue significativa. En caso contrario diremos que no hay
evidencia suficiente para rechazar la hipótesis nula (o que la prueba no fue significativa).
Un nivel de significación estándar es 0,05, pero niveles de significación como 0,01 y
0,001 son también convencionales.
Nivel de significación
¿Cuál es la racionalidad detrás del nivel de significación? Cuando una hipótesis nula se
somete a prueba es posible concluir que ésta es falsa aun cuando sea verdadera. Este
error se conoce como error de tipo I. Puede ocurrir debido a que los datos disponibles
sean, por azar, muy desfavorables para la hipótesis nula. Está claro que si la hipótesis
nula fuera cierta la frecuencia con que aparecerán “datos desfavorables” será pequeña.
El nivel de significación es la probabilidad máxima y admisible de cometer el error de
tipo I. Luego el nivel de significación es el instrumento que tiene el investigador para
controlar la tasa con que puede ocurrir este tipo de error. Obviamente que todos
quisiéramos que la tasa de error de tipo I fuera cero o muy pequeña, el problema es que
cuando disminuimos la tasa de error de tipo I aumenta la probabilidad de ocurrencia de
otro tipo de error: el error de tipo II. Este error corresponde a la aceptación de la
hipótesis nula cuando es falsa. Su probabilidad de ocurrencia se simboliza con β.
Para ejemplificar el contraste de hipótesis, consideremos un caso simple donde
tenemos una muestra de 20 observaciones (n=20): {Y1,Y2,...,Yn} que corresponden al
peso seco de plantines de Melillotus recolectados a los 30 días desde la germinación.
Melillotus es un género de leguminosas forrajeras que se asocian a bacterias para fijar
simbióticamente nitrógeno. La eficiencia de fijación de nitrógeno depende, entre otras
cosas, de la cepa bacteriana con la que interactúa la planta. En el experimento que
examinamos los datos se obtuvieron utilizando una cepa experimental de Rhizobium
(género de bacterias fijadoras de nitrógeno) como inoculante. Se quiere establecer si
esa cepa es mejor que la utilizada en un inoculante comercial (tradicional).
Supongamos que existe suficiente experiencia con el inoculante tradicional para saber
que el promedio del peso seco de los plantines a los 30 días de edad es 0 . Además,
supondremos que el investigador tiene gran control de las condiciones bajo las cuales se
realiza el experimento, de manera tal que cualquier diferencia en el promedio de peso
seco debe atribuirse a la nueva cepa.
153
Estimación de parámetros y contraste de hipótesis
Este modelo sugiere que todas las observaciones comparten la media 0 y que toda la
variación observada se debe a variaciones aleatorias atribuibles a variabilidad biológica
y errores de medición.
El modelo alternativo, a continuación, es una extensión del modelo nulo al que se le
agrega el parámetro .
Yi 0 i
Los términos de los dos modelos anteriores se interpretan de la siguiente manera:
Yi : simboliza una observación (el índice “i” indica que se trata de la i-ésima
observación, i varía de 1 a 20)
0 : es una constante conocida que representa el peso promedio de plantines cuando
se utiliza el inoculante comercial.
: corresponde al efecto del nuevo inoculante. Se espera que este parámetro sea
positivo. En tal caso el nuevo inoculante será mejor que el comercial.
i : es la diferencia entre la i-ésima observación y su valor esperado. En el caso del
modelo nulo el valor esperado es 0 y en el caso del modelo alternativo es 0 .
Este término es la discrepancia de cada observación respecto a su valor esperado y
se supone que es una variable aleatoria normal con media cero y varianza 2 .
Supondremos además que los errores son mutuamente independientes. Esta
última suposición es necesaria para derivar la distribución del estadístico utilizado
para contrastar los modelos nulo y alternativo.
La hipótesis nula se puede enunciar como: H0 : 0 mientras que la hipótesis
alternativa postula que H1 : 0 ; 0 o, equivalentemente: H0 : 0 vs
H1 : 0 .
Para establecer si la hipótesis nula es aceptada o no, debemos construir un estadístico
cuya distribución sea conocida cuando la hipótesis nula es cierta, y que cambie de
manera previsible cuando la hipótesis nula falla. Consideremos el siguiente estadístico:
154
Estimación de parámetros y contraste de hipótesis
Y 0
Z ~ N (0,1)
2
n
En el numerador del estadístico Z encontramos la diferencia entre la media del peso de
los plantines estimada con la muestra y el valor esperado de la media bajo la hipótesis
nula (modelo nulo). En el denominador encontramos el error estándar de la media de
peso de los plantines (obsérvese que en el denominador aparece , la varianza del
2
0,30
0,30
Densidad
Densidad
0,20
0,20
0,10 0,10
0,00 0,00
-5,00 -2,50 0,00 2,50 5,00 -5,00 -2,50 0,00 2,50 5,00
Z Z
Figura 5.7: Función de densidad de una Normal estándar (gráfico de la izquierda). Función de
densidad donde se ha marcado la probabilidad de la región de rechazo bajo H0 en una prueba
bilateral (gráfico de la derecha).
En la imagen de la derecha de la Figura 5.7 se han marcado dos áreas, por debajo de la
curva, cuya superficie total (suma), es 0,05. Por tratarse de un área bajo la curva de
densidad, el valor 0,05 es una probabilidad que corresponde a la probabilidad de
obtener una realización de una Normal estándar fuera de la región delimitada por dos
puntos que corresponden a: - 1,96 y 1,96. La región delimitada por estos puntos se
conoce como región de aceptación de la hipótesis nula y fuera de esta región está la
región de rechazo. Si el estadístico Z, calculado a partir de la muestra, “cae” en la región
de aceptación la hipótesis nula se acepta, sino se rechaza. Por lo tanto 0,05 es la
probabilidad de que Z se realice en la región de rechazo cuando la hipótesis nula es
cierta. Esta es otra forma de conceptualizar el nivel de significación: probabilidad de
que el estadístico utilizado para contrastar las hipótesis se realice en la región de
rechazo cuando la hipótesis nula es cierta. Por lo tanto, el contraste tiene un nivel de
significación del 5%.
155
Estimación de parámetros y contraste de hipótesis
156
Estimación de parámetros y contraste de hipótesis
Normal(0,1): p(evento)=0,0500
0,40
0,30
Densidad
0,20
0,10
0,00
-5,00 -2,50 0,00 2,50 5,00
Z
Figura 5.8: Función de densidad de una Normal estándar donde se ha marcado la probabilidad de
la región de rechazo bajo H0 en una prueba unilateral derecha.
Valor p
Supongamos que el estadístico de la prueba se llama E y que E se distribuye, cuando
la hipótesis nula es cierta, con una distribución que podemos llamar D . Además
supongamos que el valor del estadístico obtenido con la muestra dada es Eˆ . Entonces
el valor p se calcula como P E abs(Ê) | H 0 o 2P E abs(Ê) | H 0 según que
la prueba sea unilateral o bilateral, respectivamente. P(.) hace referencia a la
probabilidad de un evento formado por aquellos valores de E que en valor absoluto
sean mayores al valor de Eˆ observado en la muestra. Si el valor p es menor que el
nivel de significación esto implica que el estadístico de la prueba se realizó en la región
de rechazo. De allí que en la práctica moderna sólo se examina el valor p como criterio
para decidir si la hipótesis nula es aceptada o no.
157
Estimación de parámetros y contraste de hipótesis
(a) (b)
Normal(0,1): p(evento)=0,0500 Normal(0,1): p(evento)=0,0228
0,40 0,40
0,30 0,30
Densidad
Densidad
0,20 0,20
0,10 0,10
0,00 0,00
-5,00 -2,50 0,00 2,50 5,00 -5,00 -2,50 0,00 2,50 5,00
Z Z
(c)
Normal(0,1): p(evento)=0,2743
0,40 Figura 5.9: Función de densidad de una normal
estándar donde se ha marcado: a) la
0,30
probabilidad de la región de rechazo bajo H0 en
una prueba unilateral derecha (α=0,05). b) el
valor p (0,0228) para la prueba unilateral en el
Densidad
0,00
-5,00 -2,50 0,00 2,50 5,00
Z
158
Estimación de parámetros y contraste de hipótesis
Potencia
Las pruebas estadísticas para el contraste de hipótesis están afectadas por el ruido o
nivel de incertidumbre en el experimento. La incertidumbre es modelada y cuantificada
por los parámetros de dispersión del modelo. Éstos capturan la variabilidad de los
componentes aleatorios. Llamaremos a la incertidumbre de un modelo, en un sentido
amplio: error experimental. Un modelo con mayor error experimental es un modelo
con mayor incertidumbre y por lo tanto con menor precisión en sus estimaciones.
Cuando la hipótesis nula no se rechaza puede deberse a dos causas: la hipótesis nula es
cierta o el experimento no tuvo la potencia suficiente para detectar que la hipótesis
nula es falsa. Esto último ocurre cuando el modelo verdadero es diferente del modelo
nulo (y por lo tanto la hipótesis nula es falsa), pero la discrepancia entre ambos es
pequeña y/o el tamaño del experimento es insuficiente para detectarla dada la
magnitud del error experimental. La probabilidad de que un experimento de tamaño y
error experimental determinados pueda detectar una discrepancia específica entre
modelos se conoce como potencia. Esta probabilidad se representa usualmente con la
letra griega π. Luego, un aspecto importante del diseño de un experimento debe
contemplar el número de repeticiones necesarias para que, dado un nivel de error
experimental, la prueba estadística tenga una potencia razonable para detectar una
discrepancia dada (por ejemplo una potencia igual o mayor que 0,80).
Para ejemplificar, volvamos al experimento con la nueva cepa de Rhyzobium.
Recordaremos que las hipótesis eran H 0 : 0 vs H1 : 0 ; >0 . Con estas
hipótesis asumimos que la nueva cepa, sólo puede ser igual o mejor que la cepa
tradicional. Si 2 mg, entonces H0 es falsa. ¿Podríamos detectar que esta hipótesis es
falsa si nuestro tamaño muestral fuera de 20 plantas y la varianza del error
experimental fuera de 10 mg2? Para poder responder a esta pregunta tenemos que
calcular la probabilidad de que el estadístico del contraste “se realice” en la región de
rechazo, cuando 2 mg. Éste es el cálculo de la potencia.
159
Estimación de parámetros y contraste de hipótesis
Observar que no sólo decimos que la hipótesis nula es falsa, sino que
estamos explicitado cuánto es el efecto de la nueva cepa del inoculante
sobre la media del peso seco de los plantines. Si no realizamos esta
explicitación no podemos calcular la potencia.
Hasta ahora sabemos que el estadístico de la prueba con la que estamos haciendo la
ejemplificación se distribuye como una Normal estándar, cuando la hipótesis nula es
cierta. Eso se explicita incluyendo un H 0 sobre el símbolo ~.
H0
Y 0
Z ~ N (0,1)
2
n
Cuando la hipótesis nula falla, Z no sigue más una distribución Normal estándar sino una
distribución Normal, también con varianza 1, pero desplazada en el sentido que
indicado por el signo del valor esperado del numerador. Si la esperanza del numerador
es positiva entonces Z es una Normal desplazada hacia la derecha (con media mayor
que cero), sino estará desplazada a la izquierda (con media negativa). Para generalizar,
Y 0 0
podemos decir que: Z ~N ,1
2 2
n n
La expresión anterior indica que Z tiene distribución Normal con media igual a la
diferencia estandarizada de la verdadera media de Y respecto de su media
hipotética bajo hipótesis nula o y con varianza que sigue siendo 1.
160
Estimación de parámetros y contraste de hipótesis
2
P Z 1, 645 | Z ~ N ,1
10 20
La probabilidad que tenemos que calcular se basa entonces en una N(2,83;1). Esta
probabilidad se muestra gráficamente en la Figura 5.10. En esta figura se observan dos
curvas de densidad Normal. A la izquierda: una normal estándar. A la derecha: una
N(2,83;1) correspondiente a la distribución de Z cuando =2 mg. El área sombreada
corresponde a la probabilidad de que Z se realice en la zona de rechazo cuando
Z~N(2,83;1). Esta probabilidad es la potencia de rechazar la hipótesis nula. En el ejemplo
la potencia vale 0,8820. Para todo fin práctico esta es una potencia razonable.
La mayor parte de la veces no es posible anticipar el valor de y entonces no puede
calcularse la potencia. Sin embargo, podemos proponer un conjunto plausible de
valores para y calcular la potencia para cada uno de ellos. Luego podemos hacer un
gráfico de dispersión con los valores posibles de en el eje X y las potencias calculadas
en el eje Y. Este gráfico se conoce como curva de potencia y es muy útil para que el
investigador pueda evaluar, bajo sus condiciones experimentales, qué sensibilidad
tendrá su experimento.
Normal(2,83,1): p(evento)=0,8820
0,40
0,30
Densidad
0,20
0,10
0,00
-6,00 -3,00 0,00 3,00 6,00
Z
Figura 5.10: Dos curvas de densidad Normal. La que se encuentra a la izquierda del gráfico
corresponde a una normal estándar. La que se encuentra a la derecha es una N(2,83;1)
correspondiente a la distribución de Z cuando=2 mg. El área sombreada corresponde a la
probabilidad de que Z se realice en la zona de rechazo cuando la distribución de Z es una
N(2,83;1). Esta probabilidad es la potencia de rechazar la hipótesis nula. En el ejemplo la potencia
vale 0,8820. Para todo fin práctico esta es una potencia razonable.
161
Estimación de parámetros y contraste de hipótesis
0,75
Potencia
0,50
0,25
0,00
0,00 0,50 1,00 1,50 2,00 2,50 3,00
Thau
Figura 5.11: Curva de potencia en función de para un experimento con 20 plantas y una
variabilidad experimental cuantificada por una varianza de 10 mg2.
162
Estimación de parámetros y contraste de hipótesis
La curva indica que se requerirían 60 plantas para poder detectar con una probabilidad
de 0,80 un 1mg o mayor. Si logísticamente no es posible este tamaño en un único
experimento, entonces podríamos realizar varios experimentos más pequeños hasta
completar el número requerido.
163
Estimación de parámetros y contraste de hipótesis
1,00
0,85
potencia
0,70
0,55
0,40
20 40 60 80 100 120
n
Definiciones
Definición 5.1: Estimador puntual
Estadístico muestral que asigna un valor al parámetro que está estimando.
Definición 5.2: Consistencia
Propiedad de un estimador que cuando se cumple implica que la varianza y el sesgo de
un estimador tienden a cero para n que tiende a infinito. Esta propiedad es una de las
propiedades más importantes e implica que a mayor esfuerzo muestral, mejor es
nuestra estimación.
Definición 5.3: Insesgamiento
Es una propiedad de los estimadores que, cuando se cumple, implica que dado un
tamaño muestral “n” el promedio sobre todas las muestras posibles de tamaño “n” es
igual al valor del parámetro estimado.
Definición 5.4: Intervalo de confianza
Región que contiene con una confianza dada al verdadero valor del parámetro
estimado. La confianza se expresa en una escala porcentual y usualmente es mayor que
90%. Sus valores usuales son 95% y 99%.
Definición 5.5: Contraste de hipótesis
Comparación de una hipótesis llamada nula vs. una llamada alternativa.
164
Estimación de parámetros y contraste de hipótesis
165
Estimación de parámetros y contraste de hipótesis
Ejercicios
Ejercicio 5.1: Supongamos que se conoce que la distribución del perímetro de cabezas de ajo
blanco cosechados en un establecimiento hortícola en la última campaña, sigue una
distribución aproximada a una Normal con media de 18 cm y varianza de 10 cm2 y se ha
obtenido una muestra de 25 cabezas en la cual la media del perímetro es de 19 cm:
a) Si con el valor de la media muestral se desea estimar el verdadero valor del perímetro
promedio de la población de ajos cosechados ¿Qué valores de la distribución de las
medias de muestras de tamaño 25 conforman los límites de un intervalo de confianza
al 95%?
b) Si con la muestra obtenida se desea realizar un contraste bilateral para la
H 0 : 18 cm con un nivel de significación del 5% ¿Qué valores de la distribución
de las medias de muestras de tamaño 25 conforman los límites de la zona de
aceptación de la hipótesis nula?
c) ¿Qué concluiría con los resultados obtenidos, aumentó o no la media del perímetro de
ajo?
Ejercicio 5.2: Considerar la variable rendimiento de maíz, cuya distribución es normal con
media µ y desviación estándar . Para estimar el rendimiento promedio del maíz bajo el
efecto de un herbicida, se toma una muestra de tamaño 40 y se obtiene un promedio de 60
qq/ha. Se sabe por experiencias anteriores que la varianza poblacional 2 es 25 (qq/ha)2.
a) Construir los intervalos de confianza del 95% y 99% para .
b) ¿Cómo cambia el intervalo anterior (95%) si el tamaño de la muestra fuese 100 y se
obtiene el mismo promedio?
c) ¿Cómo se modifica el intervalo del 95% calculado en a) si la desviación estándar
fuese de 7 qq/ha?
Ejercicio 5.3: Una empresa dedicada a la comercialización de semillas desea estimar la altura
promedio de un sorgo forrajero que ha desarrollado. Para ello toma una muestra de 50
plantas y se calcula la media de la altura, la que resulta ser 130 cm. Se sabe por experiencias
anteriores que la desviación estándar es 22 cm.
a) Construir los intervalos de confianza para con una confianza del 95% y 99%
respectivamente. Comparar la amplitud de ambos intervalos y concluir el efecto del
nivel de confianza sobre la amplitud.
167
Estimación de parámetros y contraste de hipótesis
La tabla de la distribución T de Student del anexo contiene los cuantiles tp, para algunos
valores de p, con p [0.55, 0.995] (encabezamiento de la tabla) y gl: , con =1,
2,...,50. Suponga que se quiere calcular la P(T 4.3) donde T es una variable aleatoria
que tiene distribución T de Student con 2 gl.
Se busca en el cuerpo de la tabla el valor 4.3 dentro de la fila que corresponde a =2, y en el
encabezamiento de la columna se lee 0.975 que es la probabilidad buscada. El valor 4.3 es el
cuantil 0.975 de la distribución T de Student con 2 gl.
Si por el contrario la probabilidad requerida hubiera sido P(T-4.3) entonces se procede de
igual manera que en el párrafo anterior, pero la lectura de la probabilidad se hace en el pie
de la columna. Luego P(T -4.3) = 0.025.
Obtener las siguientes probabilidades:
a) n=50, P (T 2)
b) n=50, P(T > 2)
c) n=5, P(T -1.5)
d) ¿Cuál es el valor del cuantil 0.975 para una distribución T de Student con 5 gl? ¿Qué
significa este valor?
e) ¿Cuál es el cuantil 0.30 para una distribución T de Student con 42 gl? ¿Qué significa
este valor?
Ejercicio 5.5: Se desea establecer el contenido vitamínico de un alimento balanceado para
pollos. Se toma una muestra de 49 bolsas y se encuentra que el contenido promedio de
vitaminas por cada 100 g es X =12 mg. y que la desviación estándar S =2 mg.
a) Encontrar el intervalo de confianza del 95%, para el verdadero promedio del
contenido de vitaminas.
Ejercicio 5.6: El espárrago es una planta perenne cuyo cultivo comercial puede tener una
duración de 15 años y su implantación es costosa. Dada la extensión del sistema radicular, la
profundidad del suelo es fundamental, considerándose indispensable contar con un
promedio mínimo de 80 centímetros de sustrato permeable. Se realizan 14 determinaciones
de la profundidad del sustrato permeable (en cm) en puntos tomados al azar en dos campos
(A y B). Los valores registrados fueron los siguientes:
A: 72 78 86 78 90 104 76 70 83 75 90 81 85 72
B: 86 90 76 76 82 89 93 81 83 97 108 98 90 83
168
Estimación de parámetros y contraste de hipótesis
a) A partir de los intervalos de confianza al 95% determinar si estos campos son aptos
para el cultivo.
b) ¿Hay diferencias en la profundidad del sustrato permeable entre ambos campos?
Ayuda: observar si los valores de LI y LS de ambos intervalos, se superponen.
Ejercicio 5.7: Un productor decide probar el funcionamiento de su máquina y para ello, luego
de cosechar una parcela, cuenta en 10 unidades de 1 m2 la cantidad de semillas que quedan
en el suelo. Las normas técnicas indican que la media del número de semillas caídas por m 2
no debería ser superior a 80. Los resultados, en semillas/m2, fueron:
77 73 82 82 79 81 78 76 76 75
unidades para el intervalo de confianza al 95%? Ayuda: n 1- 2 , donde (LS-
(LS-LI)
LI) es la amplitud del intervalo de confianza bilateral.
b) ¿Qué sucede si la confianza cambia al 99%?
Ejercicio 5.9: Para estimar el rendimiento promedio del trigo en un departamento del sur
cordobés se relevan los campos de distintos productores mediante un esquema de muestreo
aleatorio simple. Se conoce por experiencias anteriores que es igual a 0.7 qq/ha y que el
promedio histórico es 26 qq/ha.
a) ¿Qué número de campos se deben evaluar para estimar la media de rendimiento con
una confianza del 95% si la amplitud del intervalo no debe ser mayor que el 2.5% del
promedio histórico?
b) Si la varianza de la distribución aumenta (proponga =1.4), ¿aumenta o disminuye el
tamaño muestral necesario para mantener la misma amplitud? Justificar la respuesta.
Ejercicio 5.10: Una variable aleatoria sigue una distribución N(, 144) con µ desconocido.
a) ¿Se descartaría la hipótesis µ=15 en favor de la alternativa µ15, para =0.05, si de
una muestra aleatoria de n=64 observaciones se obtiene una media igual a 20?
b) Construir un intervalo de confianza del 95% para µ.
169
Estimación de parámetros y contraste de hipótesis
c) Considerando la misma hipótesis del punto a), ¿qué sucedería con un nivel de
significación del 1%?
d) Construir un intervalo de confianza del 99% para µ.
e) Probar H0: µ=15 versus H1: µ>15 para =0.05 y =0.01. Comparar con los resultados
obtenidos en los puntos a) y c).
Ejercicio 5.11: Los siguientes datos corresponden a rendimientos de maíz (en kg/ha) bajo
distintas densidades de siembra: baja= 50.000 plantas/ha, media= 70.000 plantas/ha y alta=
90.00 plantas/ha en dos ambientes: alta y baja productividad.
Ambiente Baja Media Alta
Alto 12818 12490 11780
Alto 11869 12506 10881
Alto 12819 12502 11774
Alto 12189 12419 10578
Alto 13275 14197 13037
Alto 9405 10363 11046
Alto 10687 10144 10940
Bajo 8063 8284 7625
Bajo 8832 9703 9938
Bajo 10302 10489 10779
Bajo 9239 9525 9122
Bajo 8672 9180 9135
Bajo 10149 10442 9786
Bajo 7605 7426 7399
a) Construir intervalos de confianza bilaterales al 95% para la media poblacional de
rendimientos para cada una de las densidades de siembra en los ambientes de alto y
bajo rendimiento.
b) Realizar una representación gráfica de los intervalos de confianza obtenidos.
Ejercicio 5.12: Los siguientes son datos de incidencias relativas de Esclerotinia (podredumbre
del capítulo). Cada dato es el cociente entre la incidencia de una línea comercial respecto de
una nueva línea que se espera sea resistente. Los datos se recolectaron en 20 localidades que
cubren un amplio número de condiciones ambientales. En cada localidad se obtuvieron datos
de incidencia de ambas líneas comparadas.
1,91 1,60 0,83 1,44 1,78
1,75 0,68 2,24 0,81 1,50
0,94 1,45 1,14 0,13 0,53
1,44 1,60 1,58 0,92 0,73
170
Estimación de parámetros y contraste de hipótesis
a) ¿Es la nueva línea mejor? Observe que: bajo la hipótesis nula de igualdad de medias
de incidencia, el valor esperado de la incidencia relativa es 1, pero si la línea
experimental es mejor, el cociente debería aumentar (por la forma en que se propuso
el índice, la nueva línea está en el denominador).
Por otra parte no contamos con un conocimiento previo de la varianza de error
experimental. De este modo tendremos que estimarla a partir de los datos disponibles.
En tal caso la prueba Z es aproximada. La prueba correcta es la prueba T para un
parámetro. Su estadístico se muestra a continuación y la región crítica para un nivel
de significación del 5% en una prueba unilateral derecha es el cuantil 0,95 de una T
con 19 grados de libertad. Este cuantil, que se puede obtener de la calculadora de
probabilidades y cuantiles de InfoStat es: 1,729.
H0
Y 0
T ~ T(n1)
S2
n
b) Construya el intervalo de confianza (unilateral ¿izquierdo?) al 95%
c) Verifique que llegaría a la misma conclusión usando un intervalo de confianza o
realizando un contraste de hipótesis.
Ejercicio 5.13:Se acepta que después de 3 años de almacenamiento el vigor de un arbusto
forrajero medido como peso seco alcanzado a los 20 días de la germinación es de 45
miligramos promedio. Se propone un nuevo método de almacenamiento para aumentar el
vigor. Se evalúan para ello 20 lotes de 10 semillas cada uno y al cabo de 3 años se las hace
germinar, obteniéndose los siguientes resultados de peso seco promedio a los 20 días:
49 43 56 57 59 65 52 51 50 55
60 65 53 57 67 56 53 37 45 42
65 62 64 68 65 64 60 62 69 67 62 71
171
Estimación de parámetros y contraste de hipótesis
a) ¿Hay razón para creer que la dieta produce una variación significativa en la cantidad
de peso ganado? Trabajar con =0.05.
Ejercicio 5.15: Un experimentador avícola considera que al suministrar una ración especial a
pollitos de la raza Cornich, ha de lograr un peso medio superior a 700 gr. por animal luego de
cuatro semanas de alimentación. Para verificarlo alimenta con la ración a un lote de 50
pollitos y a los 28 días obtiene un peso promedio de 730 gr. con una desviación estándar de
40.21 gr.
a) Establecer las hipótesis nula y alternativa y realizar el contraste correspondiente
utilizando =0.05.
b) Construir un intervalo de confianza para .
Ejercicio 5.16: Los siguientes resultados se obtuvieron al analizar los registros de las
precipitaciones ocurridas en dos zonas: A y B. Para conocer la precipitación promedio de
cada zona se construyeron los correspondientes intervalos de confianza al 95%.
172
Estimación de parámetros y contraste de hipótesis
173
Contrastes
Capítuló 6
Cómparació n
dé dós póblaciónés
Laura A. Gonzalez
Biometría|173
Cómparació n
dé dós póblaciónés
Motivación
En muchas situaciones de toma de decisiones, se necesita determinar si los parámetros
de dos poblaciones son iguales o diferentes. Una empresa, por ejemplo, puede querer
probar si sus empleadas reciben un salario menor que sus empleados por realizar el
mismo trabajo. Un laboratorio puede necesitar indagar el efecto de una droga en un
determinado grupo de animales frente a otro grupo. También para comparar el efecto
de dos virus sobre plantas de tabaco, el aumento de peso en animales alimentados con
dos pasturas diferentes. En cada uno caso se busca, más que el valor real de los
parámetros, la relación entre sus valores, es decir, cuáles son las diferencias. ¿Las
empleadas ganan, en promedio, menos que los empleados por hacer el mismo trabajo?
¿Un grupo de animales reacciona, en promedio, de manera diferente que otro grupo
frente a un tratamiento? ¿Hay diferencias en el aumento de peso promedio de novillos
alimentados con diferentes pasturas? ¿El efecto de un fungicida es mayor que otro? En
este capítulo presentamos métodos estadísticos para responder preguntas referidas a la
comparación (a nivel de medias) de dos poblaciones.
177
Comparación de dos poblaciones
2 2
Y Y 1 2
n1 n2
1 2
dónde:
12 es la varianza de la población 1
n1 es el tamaño de la muestra de la población 1
22 es la varianza de la población 2
n2 es el tamaño de la muestra de la población 2
178
Comparación de dos poblaciones
o no iguales, se puede utilizar una prueba de dos colas o bilateral. En este caso las
hipótesis serían:
H : versus H :
0 1 2 1 1 2
Si existe conocimiento sobre la relación de las medias y se quiere saber, por ejemplo, si
alguna de las medias es menor o mayor que la otra, entonces se puede recurrir a
pruebas de una cola o unilaterales.
Si se quiere saber si 1 2 , el contraste será unilateral izquierdo y las hipótesis:
H : versus H :
0 1 2 1 1 2
Lo que el investigador está interesado en probar va en la hipótesis
alternativa, mientras que la igualdad de medias poblacionales va en la
hipótesis nula.
Varianzas
poblacionales
conocidas (prueba Z)
Muestras Varianzas iguales
independientes (prueba T)
Varianzas
poblacionales
desconocidas
Varianzas diferentes
(prueba T corregida)
Muestras (prueba T muestras
dependientes apareadas)
179
Comparación de dos poblaciones
Y Y
1 2 1 2
Z ~ N (0,1)
2
22
1
n1 n2
Los límites del intervalo de confianza bilateral, con confianza 1-, para la diferencia de
medias están dados por:
2
2
Y Y z
1 2 (1 / 2)
1 2
n1 n2
Por ejemplo, se montó un ensayo para comparar dos especies forrajeras en función de
la producción de materia seca. El ensayo consistió en tomar 12 lotes de semillas de cada
especie y hacerlas germinar, obteniéndose los siguientes valores de peso seco promedio
a los 20 días (mg), archivo [EspecieAyB]:
Especie A 60 65 63 67 56 53 77 55 52 61 61 59
Especie B 49 45 56 57 59 65 52 51 50 62 45 48
Supongamos que se sabe que la desviación estándar poblacional es, para ambas
especies, de 5 mg. La pregunta de interés es: ¿hay diferencias entre las forrajeras, a
nivel del peso seco promedio? Trabajaremos con = 0,10.
La hipótesis a plantear serían:
180
Comparación de dos poblaciones
H0 : A B = 0 versus H1 : A B 0
Para tener una primera descripción de los datos se obtienen los siguientes resultados,
usando InfoStat:
Cuadro 6.1. Medidas resumen.
Como puede verse, a partir de los datos se puede calcular la desviación estándar de la
variable peso seco para cada especie, sin embargo como tenemos la información de su
valor poblacional, lo usamos. El estadístico para este problema se calcula de la siguiente
manera:
Y A YB A B 60, 75 53, 25 0
Z 3, 67
A2 B2 25 25
n n
A B 12 12
0.90
0.05 0.05
-1.645 1.645
Figura 6.1: Zonas de aceptación y rechazo de la hipótesis nula, para el ejemplo de la comparación
de dos forrajeras.
La región de aceptación para un nivel de significación del 10% está delimitada por los
valores -1,645 y 1,645, correspondientes a los cuantiles /2 y 1-/2 respectivamente,
de una distribución Normal Estándar. Como Z= 3,67 es mayor que el punto crítico Z2 *=
1,645, se rechaza la hipótesis nula de igualdad de medias poblacionales, o sea que la
diferencia entre los pesos secos de las forrajeras en estudio es diferente de cero.
181
Comparación de dos poblaciones
nula.
2
2
Y Y z
1 2 (1 / 2)
1 2
7,5 1, 6452, 0412 4,14;10,85
n1 n2
Vemos que el valor 10 mg está incluido en el intervalo de confianza, con lo cual se
puede afirmar que la diferencia en producción de materia seca, entre ambas forrajeras,
no es superior a 10 mg. Entonces se concluirá que, si bien a los 20 días de germinación
de las semillas hay diferencias en la producción de materia seca entre las especies, la
diferencia no es superior a 10 mg, con lo cual la producción de semillas esperada al final
de la cosecha, no será diferente.
Si con la prueba anterior se concluye que las varianzas son iguales, para la inferencia de
las medias usaremos el siguiente estadístico:
182
Comparación de dos poblaciones
T
Y
1 Y2 1 2
~ Tn1 n2 2
1 1
S
2
p
n1 n2
(n 1)S 2 (n 1)S 2
donde: S 1 n 1 n 22
p
2 2
1 2
Los límites del intervalo de confianza bilateral, con confianza 1-, para la diferencia de
medias están dados por:
1 1
Y Y t (1 /2);n1 n2 2 s 2p
1 2
n 1
n2
Por ejemplo, tenemos el caso donde se busca comparar dos formulaciones de un mismo
insecticida sobre el porcentaje de mortalidad de chinche verde evaluada como número
de insectos muertos de un total de 100 iniciales. El ensayo se realizó tomando 20 lotes
de 100 insectos cada uno y asignando al azar 10 lotes para la formulación A y el resto
para la formulación B. Los valores obtenidos fueron los siguientes y se encuentran en el
archivo [FormulaciónAyB]:
Formulación A 85 86 92 87 92 90 95 90 92 91
Formulación B 87 86 84 80 89 85 92 89 86 90
183
Comparación de dos poblaciones
0,05). El estadístico T= 2,18 que figura en la salida fue calculado con la expresión
llamada T y los grados de libertad (gl) fueron calculados como: n1+n2-2.
Para la prueba de medias el valor p (en la salida se encuentra como valor p), es igual a
0,0426 resulta menor que = 0,05 indica el rechazo de la hipótesis de igualdad de
medias. Es decir, hay diferencias estadísticamente significativas entre ambas
formulaciones considerando la mortalidad de los insectos.
¿Cuál es la diferencia promedio en mortalidad entre las dos formulaciones? Para
responder a esta pregunta se utiliza el intervalo de confianza para la diferencia de
medias: LI(95)= 0,12 y LS(95)= 6,28.
Observemos que los límites de intervalo de confianza para la diferencia son positivos,
esto indicaría que una diferencia positiva entre ambas formulaciones, es decir, la
formulación A presenta mayor mortalidad promedio. Analicemos ahora el intervalo de
confianza para la mortalidad de formulación A (menú Estadísticas > Inferencia basada
en una muestra > Intervalos de confianza).
n1 1 n2 1
Los límites del intervalo de confianza bilateral, con confianza 1-, para la diferencia de
medias están dados por:
184
Comparación de dos poblaciones
Y Y t s1 2 2 s 2
1 2 (1 / 2);
n1 n2
Por ejemplo, un laboratorio está interesado en estudiar la disminución de la actividad
enzimática (medida en unidades internacionales) de una reacción con calor respecto a
la misma reacción en frío. La actividad enzimática se observa en 10 tubos con calor y 10
con frío. Los datos se encuentran en el archivo [FríoCalor]. Los resultados fueron:
Temp. Activ.Enz. Temp. Activ.Enz. Temp. Activ.Enz. Temp. Activ.Enz.
Calor 7,61 Calor 7,51 Frío 7,00 Frío 6,80
Calor 7,64 Calor 7,66 Frío 7,16 Frío 7,19
Calor 7,57 Calor 7,54 Frío 6,99 Frío 6,98
Calor 7,60 Calor 7,46 Frío 6,87 Frío 7,27
Calor 7,76 Calor 7,66 Frío 7,61 Frío 6,87
¿Existen diferencias estadísticamente significativas entre ambas condiciones de
temperatura analizando la actividad enzimática? (= 0,05).
Las hipótesis que plantearemos son:
H0 : 1 2 versus H1 : 1 2
Realizando una prueba T para observaciones independientes con InfoStat (menú
Estadísticas > Inferencia basada en dos muestras > Prueba T), obtenemos:
Cuadro 6.4. Prueba T para muestras Independientes
(varianzas diferentes).
185
Comparación de dos poblaciones
Observemos entonces que si la reacción es llevada a cabo con calor, los valores de
reacción estarán entre 7,54 y 7,66 unidades internacionales.
Muestras dependientes
En este caso, los datos se obtienen de muestras que están relacionadas, es decir, los
resultados del primer grupo no son independientes de los del segundo. Dadas las
muestras m1 y m2 consideremos una muestra de las diferencias entre los datos de cada
muestra:
md= {Y11- Y12, Y21 - Y22 ,…,Yn1- Yn2}= {D1, D2 ,…,Dn} (observemos que n1= n2= n)
La prueba T para muestras apareadas es aplicable en el caso que las observaciones de
m1 y m2 se obtengan de a pares, como por ejemplo mediciones de monóxido a la
mañana y tarde de un mismo día. También cuando se mide la presión arterial en cada
uno de los individuos de un grupo experimental antes y después de la administración de
una droga. Estas observaciones no son independientes ya que la presión arterial
posterior a la administración de la droga depende de la presión arterial inicial.
La inferencia se basa en un estadístico que se conoce como prueba T para muestras
apareadas y que depende de la media y la varianza de las diferencias y del valor
hipotetizado para el promedio poblacional de las diferencias (). Las hipótesis que
podríamos plantear son:
H0 : 1 2 = 0 versus H1 : 1 2 0
o bien:
H0 : = 0 versus H1 : 0
donde se refiere al promedio poblacional de las diferencias entre los valores de la
variable de ambos grupos, bajo la hipótesis nula. El estadístico usado es:
186
Comparación de dos poblaciones
D
T ~ t n1
SD2
n
donde D es la media muestral de las diferencias y S D2 la varianza muestral de las
diferencias.
Los límites del intervalo de confianza bilateral, con confianza 1-, para la diferencia de
medias están dados por:
DS 2
(1 / 2); n1 n
D t
Por ejemplo, para evaluar el crecimiento (medido en peso seco) de plantines de repollo
sometidos a dos condiciones hídricas, una con riego no restringido (a capacidad de
campo) y la otra con riego restringido (una vez cada 15 días), ocho equipos de trabajo
obtuvieron datos para ambas condiciones. Cada dato, aportado por un equipo de
trabajo corresponde al peso seco promedio de 50 plantas. Archivo [RepolloRiegoRyNR].
Se muestra a continuación los datos y las diferencias de peso seco entre los valores de
Riego NR y Riego R, para cada equipo.
Equipo 1 2 3 4 5 6 7 8
Riego NR 0,487 0,408 0,360 0,431 0,576 0,660 0,400 0,540
Riego R 0,387 0,820 0,788 0,889 0,578 0,680 0,410 0,550
Diferencias 0,1 -0,412 -0,428 -0,458 -0,002 -0,02 -0,01 -0,01
187
Comparación de dos poblaciones
-0,04 y LS(95%)= 0,35, como el intervalo incluye el cero concluimos que no existe
diferencia entre ambas condiciones.
Aplicación
Rendimiento según época de cosecha
En un estudio para analizar la evolución de tubérculos almacenados, se deseaba
comparar dos épocas de cosecha: abril y agosto, las que determinan diferentes periodos
de almacenamiento. La variable en estudio fue la pérdida de peso por deshidratación
(en gramos). El archivo [Epoca] contiene las observaciones del estudio.
Estrategia de análisis
Lo primero que se debe decidir es el tipo de observaciones que se tienen, para este
problema la naturaleza del estudio indica que son datos independientes dado que hay
dos épocas de almacenamiento de los tubérculos. Las hipótesis podrían ser:
H0 : 1 2 = 0 versus H1 : 1 2 0
Con InfoStat (menú Estadísticas > Inferencia basada en dos muestras > Prueba T),
obtenemos los siguientes resultados:
Cuadro 6.7. Prueba T para muestras Independientes
188
Comparación de dos poblaciones
Polinizado 0,79 0,77 0,44 0,61 0,47 0,56 0,93 0,87 0,58 0,69
No polinizado 0,22 0,13 0,33 0,26 0,14 0,16 0,28 0,31 0,21 0,15
189
Comparación de dos poblaciones
Estrategia de análisis
Este problema registra observaciones apareadas ya que se pesaron semillas de la parte
sin polinizar y polinizadas en cada planta.
Las hipótesis que podemos plantear son:
H0 : 1 2 = 0 versus H1 : 1 2 0
Con InfoStat (menú Estadísticas > Inferencia basada en dos muestras > Prueba T
apareada), obtenemos:
Cuadro 6.10. Prueba T (muestras apareadas)
Para la prueba de medias el valor p< 0,0001 es menor que = 0,05, lo que indica el
rechazo de la igualdad de medias. Es decir, hay diferencias estadísticamente
significativas entre ambas condiciones de polinización.
El intervalo de confianza para la diferencia de medias: LI(95%)= 0,33 y LS(95%)= 0,57
indica que la diferencia entre ambas condiciones con una confianza del 95%. Como los
límites de intervalo de confianza para la diferencia son positivos se puede afirmar que
las plantas polinizadas producen un mayor peso promedio de semillas.
Para hallar el intervalo sólo para las plantas polinizadas, se recurre a InfoStat (menú
Estadísticas > Inferencia basada en una muestra > Intervalos de confianza). El resultado
es:
Cuadro 6.11. Intervalos de confianza
Conclusión
Para el lúpulo es recomendable usar la técnica de polinización ya que la misma produce
mayor cantidad de semillas. Los pesos promedios esperados de las semillas estarán
entre 0,55 y 0,79 gramos.
190
Comparación de dos poblaciones
Ejercicios
Ejercicio 6.1: Para probar la eficacia de un tratamiento de poda en un bosque de Raulí, un
investigador decide comparar el incremento del diámetro de los fustes de los árboles
podados, con el incremento en árboles sin poda. Para ello se localizan 20 lotes de los cuales a
10 se los poda y al resto no. Al cabo de 3 años se obtienen los incrementos promedio para
cada lote siendo los resultados los siguientes (en cm):
Con poda 0.290 0.305 0.280 0.320 0.350 0.297 0.300 0.298 0.315 0.324
Sin poda 0.300 0.303 0.270 0.300 0.320 0.310 0.280 0.302 0.298 0.301
Balanceado A 329 363 298 243 391 333 369 432 440 397 409 350
Balanceado B 353 405 372 345 377 409 428 421 357 372 409 367
191
Comparación de dos poblaciones
herbicida y en las restantes un herbicida tradicional como control. Los resultados del ensayo,
expresados en quintales por hectárea, son los siguientes:
Nuevo herbicida 66.02 70.62 64.37 65.17 64.58 61.33 62.11 62.75 58.41 69.63
Tradicional 62.34 67.18 67.10 55.74 59.00 57.78 64.25 60.31 63.05 60.07
a) Para hacer el contraste ¿utilizaría una prueba T para muestras independientes o una
prueba T apareada?
b) ¿Qué supuestos se deben cumplir para que la prueba sea válida?
c) ¿Qué se puede decir del desempeño del nuevo herbicida en relación al control,
trabajando con un nivel de significación = 0.10?
d) Construir un intervalo de confianza para la diferencia de medias poblacionales.
e) Si después de analizar los datos, encuentra que el estadístico usado pertenece a la
región de no rechazo de la hipótesis nula, ¿cuál de las siguientes opciones representa
mejor el resultado obtenido? Justificar la respuesta.
a) Ambos herbicidas producen el mismo efecto sobre el rendimiento.
b) Los herbicidas producen distinto efecto sobre el rendimiento.
c) Los herbicidas no producen efectos sobre el rendimiento.
d) Ninguna de las anteriores.
f) ¿Cuál sería la potencia que se alcanzaría con 10 repeticiones por tratamiento y si se
busca detectar una diferencia entre herbicidas de 5 qq/ha?
Ejercicio 6.5: Un grupo de conejos fue sometido a una serie de situaciones de tensión que
producían una respuesta de temor. Después de un período de tiempo bajo estas condiciones,
los conejos fueron comparados con los de un grupo control, que no había sido sometido a
tensión. La variable de respuesta fue el peso (en mg) de la glándula suprarrenal. Los
resultados fueron:
Experimental 3.8 6.8 8.0 3.6 3.9 5.9 6.0 5.7 5.6 4.5 3.9 4.5
Control 4.2 4.8 2.3 6.5 4.9 3.6 2.4 3.2 4.9 4.8
192
Comparación de dos poblaciones
Sin lecitina 13.0 14.5 16.0 15.0 14.5 15.2 14.1 13.3
Con lecitina 17.0 16.5 18.0 17.3 18.1 16.7 19.0 18.3 18.5
Sean SL la media de producción diaria de leche para animales de la raza Holando Argentino
alimentados normalmente y CL la media de producción de los animales alimentados con una
dieta rica en lecitina.
a) En base a los datos experimentales verificar la hipótesis: H0: CL=SL vs. H1:
CL>SL (utilizar = 0.05).
Ejercicio 6.8: Un investigador supone que el estrés que se produce en vacas fistuladas puede
disminuir los niveles de fósforo en sangre. Para probar su hipótesis selecciona 8 vacas y a
cada una de ellas le extrae una muestra de sangre antes de la fistulación y otra muestra
después. Los resultados son:
Vaca 1 2 3 4 5 6 7 8
Antes de la fistulación. 8.69 7.13 7.79 7.93 7.59 7.86 9.06 9.59
Después de la fistulación 7.24 7.10 7.80 7.95 7.50 7.79 9.00 9.48
193
Comparación de dos poblaciones
Sector 1 2 3 4 5 6 7 8 9 10
Híbrido 1 123 121 119 115 111 105 106 114 120 127
Híbrido 2 127 130 118 117 114 110 115 120 125 133
a) Concluir acerca del comportamiento de los híbridos bajo riego. Utilizar = 0.05.
Ejercicio 6.10: En un experimento se estudió el efecto de dos métodos (A y B) de
escarificación del tegumento, sobre la viabilidad de las semillas. De un conjunto de 100
semillas se eligieron al azar 50 que fueron tratadas con uno de los métodos y las restantes se
trataron con el otro método. En cada tratamiento se determinó el porcentaje de semillas no
viables. Se reportan los resultados obtenidos con Infostat, para un =0.10. En función de
éstos asignar el valor de Verdadero (V) o Falso (F) a cada una de las consignas del cuadro.
194
Comparación de dos poblaciones
195
Relaciones
Capítuló 7
Biometría|195
Ana lisis dé régrésió n
Motivación
Muchas veces estamos interesados en describir cómo cambia una variable (que
llamaremos dependiente) en función de una (o varias) llamada/s independiente/s. Por
ejemplo: ¿cómo afecta al rendimiento del maíz la densidad de siembra en distintos
ambientes?, ¿qué dosis de insecticida es requerido para eliminar el 50 de una población
de insectos?, ¿cómo responden los rendimientos del trigo a diversas dosis de
fertilización nitrogenada?, ¿cuánto más fertilización es siempre mejor?, ¿el efecto de la
fertilización es el mismo en cualquier ambiente?, ¿bajo qué condiciones se produce el
máximo número de bacterias por cm3 de cultivo de bacterias? Para responder estas
preguntas los investigadores ajustan modelos de regresión a experimentos diseñados o
a estudios observacionales. Primeramente abordaremos el modelo de regresión lineal
simple, luego introduciremos el modelo de regresión lineal múltiple.
199
Análisis de regresión
200
Análisis de regresión
30
25
Y(g)
20
15
10
0 1 2 3 4
Días
Figura 7.1: Recta que ilustra un modelo de regresión lineal simple donde la ordena
al origen vale 10 g y la pendiente 5 g
Estimación
Llamaremos estimación del modelo de regresión a la asignación de valores a 0 y 1 . A
las estimaciones las simbolizaremos con ˆ y ˆ respectivamente. Para estimar el
0 1
modelo hacen falta pares de datos (Y,X). Las estimaciones van a depender de estos
datos y cambiarán si utilizamos un conjunto de datos diferentes, aún, cuando los
nuevos datos se obtuvieran bajo las mismas condiciones experimentales. Esto implica
que si repitiéramos un experimento y analizáramos sus resultados mediante análisis de
regresión, las rectas ajustadas no serían exactamente las mismas. Esta situación parece
paradójica ya que sugiere que el fenómeno que queremos modelar no puede ser
modelado. El origen de estas variaciones está en lo que conocemos como error
experimental. El error experimental se conceptualiza como una variable aleatoria que
introduce perturbaciones sobre los valores que deberíamos observar de la variable
dependiente. Además se asume que los errores son perturbaciones no sistemáticas y
que por lo tanto su promedio es cero. Esto quiere decir que si tomáramos medidas
repetidas de Y para un mismo valor de la regresora, en promedio, los errores se
cancelarían. Luego la magnitud de la diferencia entre estimaciones obtenidas con
conjuntos diferentes de datos depende de la magnitud del error experimental y del
número de pares de datos (Y,x) utilizados. La magnitud del error experimental se ha
representado por 2 en las suposiciones del modelo de regresión y el número de
pares por n.
201
Análisis de regresión
Aplicación
Lámina de agua en los perfiles del suelo de un cultivo
El archivo [Agua] contiene datos de disponibilidad de agua en un cultivo de soja en los
distintos perfiles del suelo hasta una profundidad de 60 cm, obtenidos a los 100 días
desde la emergencia. La disponibilidad de agua se expresa en milímetro de lámina de
agua. Los valores de profundidad corresponden a 10, 20, 30, 40, 50 y 60 cm, pero el
contenido de agua corresponde a los perfiles que van de [0-10) cm, [10-20) cm, etc. El
propósito de este estudio es cuantificar cómo cambia la disponibilidad de agua con la
profundidad del perfil analizado en un cultivo de soja. Los datos son parte de un estudio
es más ambicioso que pretende comparar el efecto de distintos cultivares sobre el
perfil de agua en el suelo. En esta aplicación sólo consideramos un cultivar. Para cada
perfil hay tres repeticiones correspondientes a tres puntos de muestreo dentro de la
parcela experimental.
Estrategia de análisis
El diagrama de dispersión del agua disponible vs la profundidad del perfil muestra un
decaimiento sostenido de la disponibilidad y que este decaimiento parece seguir una
relación lineal (Figura 7.2).
202
Análisis de regresión
34
30
26
Agua (mm)
22
18
14
10
10 20 30 40 50 60
Profundidad (cm)
Para continuar, accione el botón Aceptar. Esta acción abrirá la siguiente pantalla (Figura
7.4 -izquierda). Por el momento, no modificaremos nada en esta pantalla. Sólo
accionaremos el botón Aceptar. Esta acción generará dos salidas. Una gráfica con el
diagrama de dispersión y la superposición de la recta ajustada y otra correspondiente al
modelo estimado (Cuadro 7.1).
203
Análisis de regresión
34
30
26
Agua (mm)
22
18
14
10
10 20 30 40 50 60
Profundidad (cm)
Figura 7.4: Diálogo de opciones del análisis de regresión lineal en InfoStat y salida gráfica del
modelo de regresión lineal simple.
204
Análisis de regresión
Cuadro 7.1: Análisis de regresión lineal aplicada a los datos del archivo [Agua].
recta ajustada. La pendiente estimada ˆ1 aparece en la línea correspondiente a la
variable regresora (Profundidad (cm)). Su valor es -0,31. Es un punto importante del
análisis de regresión establecer si la pendiente verdadera 1 es distinta o no de cero.
La hipótesis nula es H0 : 1 0 . Si 1ˆ fuera cero entonces diríamos que no importa
cuál sea la profundidad del perfil analizado el contenido de agua permanece constante.
En la columna de valores p, el valor p correspondiente a la pendiente es <0,0001. Esto
se interpreta diciendo que la probabilidad de obtener una estimación de 0,31 unidades
o más en cualquier sentido (+ o -) es, para los datos examinados, menor que 1 en 10000
si el verdadero valor de la pendiente fuera cero. Esto implica, bajo los criterios clásicos
de la inferencia estadística, que la pendiente de -0,31 es estadísticamente distinta de
cero y por lo tanto a mayor profundidad en el suelo el contenido de agua decae
205
Análisis de regresión
representan un error relativo del 3% y 10% aproximadamente para cada uno de sus
respectivos parámetros. No existen reglas escritas sobre la valoración de estos errores
relativos pero en general un error relativo de hasta un 10% es aceptable y hasta un 20%
admisible, aunque esto necesariamente depende de las aplicaciones. El error estándar
de una estimación está directamente vinculado con la construcción de los intervalos de
confianza. Cuanto mayor sea el error estándar mayor será el intervalos de confianza y
por lo tanto mayor la incertidumbre de la estimación. Por ejemplo para la pendiente del
modelo estimado, el intervalo [-0,37;-0,26] contiene a la verdadera pendiente con una
confianza del 95%. De igual manera el intervalo [30,72; 34,93] hace lo propio con la
ordenada al origen. Una forma de ver simultáneamente el efecto que introduce la
incertidumbre de las estimaciones ˆ0 y ˆ 1 sobre el modelo estimado es obteniendo la
banda de confianza para los promedios de contenido de agua en función de la
profundidad del perfil. Para ello invocaremos nuevamente el análisis de regresión lineal
y en la ventana de diálogo de opciones, solapa Diagnóstico marcaremos Graficar >
Bandas de Confianza como se ilustra a continuación Figura 7.5. El gráfico resultante se
muestra en la Figura 7.6.
206
Análisis de regresión
No debe sorprendernos que haya puntos del diagrama de dispersión que caen fuera de
la banda de confianza ya que se trata de una banda de confianza para la media no para
los datos. Si quisiéramos construir una banda de predicción para los valores
observables de Y entonces deberíamos tildar la opción correspondiente (tarea para el
lector). En tal caso la banda de predicción estará por fuera de la de confianza.
34,0 34,0
28,8 28,8
Agua (mm)
Agua (mm)
23,6 23,6
18,4 18,4
13,2 13,2
8,0 8,0
10 20 30 40 50 60 10 20 30 40 50 60
Profundidad (cm) Profundidad (cm)
34,0 34,0
28,8 28,8
Agua (mm)
Agua (mm)
23,6 23,6
18,4 18,4
13,2 13,2
8,0 8,0
10 20 30 40 50 60 10 20 30 40 50 60
Profundidad (cm) Profundidad (cm)
Figura 7.7. Gráfico mostrando la recta ajustada y las bandas de confianza (izquierda) y bandas de
predicción (derecha) para el contenido de agua en los distintos perfiles del suelo.
La tercera parte de la salida del análisis de regresión corresponde a una tabla de análisis
de la varianza para el modelo de regresión. De ella se desprenden dos cantidades que
hemos nombrado anteriormente. El coeficiente de determinación y el coeficiente de
determinación ajustado. El primero es el cociente entre la suma de cuadrados (sc)
correspondiente a la pendiente (fila rotulada con el nombre de la variable
207
Análisis de regresión
Yˆ 32,83-0,31P
Esta ecuación sugiere que la lámina de agua decae a 0,31 mm por cada centímetro de
profundidad.
Residuos vs. Predichos
Una herramienta diagnóstico esencial para revisar la adecuación del modelo ajustado es
revisar el gráfico de residuos vs los valores predichos. Los residuos de un modelo se
obtienen restando a cada valor observado de la variable dependiente su valor predicho.
Los residuos estudentizados son un tipo especial de residuos obtenidos al dividir los
residuos por sus errores estándares. La ventaja de utilizar residuos estudentizados es
que el analista puede rápidamente saber cuando un residuo es grande (ya sea positivo
o negativo).
208
Análisis de regresión
el valor observado es muy grande en relación a lo que predice el modelo. Por lo tanto la
presencia de residuos estudentizados muy grandes o muy pequeños implica que hay
datos que están siendo mal modelados. Esto puedo querer decir dos cosas: los datos
son errados (mal transcriptos, mal medidos, la unidad experimental sobre la que se
tomó el dato es aberrante – animal o planta enferma por ejemplo) y por lo tanto es
mejor eliminarlos de la base de datos, o el modelo que estamos tratando de ajustar a
los datos es inapropiado. No se puede dar un consejo general en este caso, el
investigador tendrá que evaluar la situación y decidir el curso de acción.
Si observáramos que los datos con valores predichos bajos tienen residuos
estudentizados negativos y viceversa, los que tienen valores predichos altos tuvieran
residuos positivos, entonces estaríamos ante una anomalía. Igualmente si pudiéramos
identificar con colores las observaciones que realizaron distintos colaboradores un
experimento y las observaciones de los distintos colaboradores aparecieran
sistemáticamente con residuos estudentizados positivos o negativos, esto debería
llamarnos la atención. Igualmente si la variabilidad (rango de variación vertical de los
puntos) es mayor para predichos altos que para predichos bajos, entonces estaremos
frente a un problema de falta de homogeneidad de varianzas. La interpretación de
gráficos de residuos es una destreza que se adquiere mirando estos gráficos.
209
Análisis de regresión
2.20
0.00
-1.10
-2.20
13.39 17.67 21.94 26.22 30.49
Predichos
Figura 7.8. Residuos estudentizados vs predichos.
El gráfico mostrado en la Figura 7.9 se insinúa una curvatura que pudiera sugerir la
necesidad de ajustar un modelo polinómico de segundo grado. No obstante esta
insinuación, la evidencia no es fuerte en este sentido. Afortunadamente para este caso,
disponemos de varias observaciones de Y para los distintos valores de X y podemos
hacer un contraste formal de hipótesis para la falta de ajuste.
2,20
Res. estudentizados_Agua (mm)
1,10
0,00
-1,10
-2,20
10 15 20 25 30
Predichos
Figura 7.9. Residuos estudentizados vs predichos.
Falta de ajuste
Cuando se dispone de repeticiones de lecturas de Y para todos o al menos algún valor
de la regresora es posible hacer una prueba estadística que se conoce como prueba de
falta de ajuste. En el ejemplo que estamos examinando hay tres repeticiones para cada
valor de x, así que el procedimiento puede ser aplicado. La hipótesis nula de esta
prueba es que el modelo ajusta y la alternativa es que hay falta de ajuste (lack of fit). Si
el valor p de la prueba es menor que el nivel de significación la hipótesis nula se rechaza
y en consecuencia el modelo lineal no es enteramente apropiado para modelar los
datos observados. Para aplicar esta prueba a los datos del ejemplo del agua
210
Análisis de regresión
Figura 7.10. Ventana de opciones mostrando la selección Error puro. Con esta opción tildada se
obtiene la prueba de falta de ajuste para el modelo lineal planteado (lack of fit test).
211
Análisis de regresión
Cuadro 7.2: Análisis de regresión lineal de los datos del archivo [Agua] con prueba de bondad
de ajuste
Regresión polinómica
La regresión polinómica puede basarse en una o más variables regresoras. Abordaremos
su presentación con el caso de una regresora. El modelo de regresión polinómica
requiere la especificación del grado del polinomio que se quiere ajustar. Así, si el
212
Análisis de regresión
Aunque no pude tomarse como regla, lo usual es no superar el grado 3 ya que de otra
forma el modelo resultante no estará capturando lo esencial de la relación entre
variable dependiente y regresora sino también el error experimental. Luego un modelo
sobre ajustado a los datos de un experimento particular carece de la generalidad y
aplicabilidad que el investigador trata de encontrar.
Aplicación
Respuesta del cultivo a la fertilización nitrogenada
En este ejemplo se estudia el rendimiento de trigo en el oeste de la provincia de Buenos
Aires, según el nivel de fertilización nitrogenada. El propósito es encontrar una dosis
óptima [datos: fertilización en trigo]. Los datos contienen dos columnas: la dosis de
nitrógeno en kg de nitrógeno por ha y el rendimiento en kg/ha.
Estrategia de análisis
Lo primero es mirar la relación empírica que hay entre el rendimiento y el aporte de
nitrógeno al suelo. Para ello realizaremos un diagrama de dispersión entre rendimiento
(eje Y) y aporte de nitrógeno (eje X) como se muestra en la Figura 7.11. En ella podemos
ver que a mayor aporte de nitrógeno mayor es el rendimiento. Sin embargo, parece que
el crecimiento del rendimiento empezara a decaer con las dosis mayores. El ajuste de
una regresión lineal simple y sus residuos estudentizados se muestran en la Figura 7.12.
El gráfico de residuos estudentizados pone claramente de relieve que el ajuste de una
213
Análisis de regresión
recta es insuficiente para estos datos. Cuando los residuos estudentizados muestra una
curvatura, como la que se observa en el ejemplo, es un buen indicio de la necesidad de
incorporar al modelo un término cuadrático de la regresora: en este caso el nitrógeno.
4000
3600
Rendimiento
3200
2800
2400
0 50 100 150 200
N
4000 2,5
2,0
Res. estudentizados_Rendimiento
1,5
3600
1,0
Rendimiento
0,5
3200 0,0
-0,5
-1,0
2800
-1,5
-2,0
2400 -2,5
0 50 100 150 200 2600 2950 3300 3650 4000
N N
214
Análisis de regresión
4000 2,20
Res. estudentizados_Rendimiento
3600 1,10
Rendimiento
3200 0,00
2800 -1,10
2400 -2,20
0 50 100 150 200 2500 2875 3250 3625 4000
N Predichos
Figura 7.14. Polinomio de orden 2 ajustado a la relación entre rendimiento de trigo (kg/ha) y
aporte de nitrógeno al suelo (kg/ha) (izquierda) y residuos estudentizados vs predicho (derecha).
Los resultados presentados en el Cuadro 7.3 se agrupan en tablas. La primera indica que
el número total de datos analizados fue 48 y que la determinación del modelo fue 0,97
(muy alta). Los estadísticos ECMP, AIC y BIC son discutidos en cursos de estadística más
avanzados. La segunda tabla, la más importante, contiene las estimaciones de los
parámetros del modelo, sus errores estándares, los intervalos de confianza y las
pruebas T para la hipótesis nula de que dice que el valor poblacional del parámetro es
cero. El valor p para esta hipótesis se calculó de acuerdo a un contraste bilateral. El
estadístico Cp-Mallows es un indicador de la importancia relativa de las variables
215
Análisis de regresión
en 10,143kg y la pendiente de la componente cuadrática ˆ2 se estimó en -0,021kg.
Estos coeficientes no pueden interpretarse independientemente ya que están asociados
a la misma regresora y actúan de manera simultánea sobre la variable de respuesta.
La función ajustada para el valor esperado de rendimientos será entonces la que se
presenta a continuación, donde Yˆ representa el rendimiento promedio esperado de
acuerdo al aporte de nitrógeno (N).
216
Análisis de regresión
Cuadro 7.3: Análisis de regresión lineal aplicada a los datos del archivo [Agua].
Conclusión
Si el modelo ajustado fuera una recta con pendiente positiva, la mejor dosis sería la
máxima. Pero en un modelo cuadrático la dosis que maximiza (o minimiza) la respuesta
se calcula derivando la función e igualando la derivada a cero. Si ˆ2 es negativo
entonces en ese punto se alcanza un máximo (sino un mínimo). Luego la dosis que
maximiza los rendimientos en nuestro ejemplo será.
ˆ1 10,143
241,5
ˆ
2 2 2(0, 021)
El rendimiento predicho de máximo rendimiento en función del nitrógeno será:
217
Análisis de regresión
Aplicación
Condiciones óptimas de cultivo de bacteria
Se quiere poner a punto el cultivo de una cepa de la bacteria Rhizobium que es usada en
inoculaciones de semillas para favorecer la fijación de nitrógeno. Para ello se prueban 2
tiempos de cultivo (24 y 48 hs), 3 temperaturas (27, 35 ,43) y 5 concentraciones de
nutrientes expresadas como proporciones (0,6, 0,8, 1,0, 1,2, 1,4) respecto de una
solución testigo. Para cada combinación de los factores: tiempo, temperatura y
concentración de nutrientes se obtuvo el número de bacterias por cm3 que representa
218
Análisis de regresión
la variable dependiente (Y). El archivo que contiene los resultados de este ensayo es
[Rhizobium].
Estrategia de análisis
A diferencia de lo que ocurre en el modelo de regresión lineal simple, la visualización de
la variable dependiente en función de cada una de las regresoras suele no ser
informativa. La forma equivalente de hacer esto es graficando lo que se llaman residuos
parciales. Esta técnica la discutiremos más adelante. El ajuste de modelo lineal múltiple
se muestra en el Cuadro 7.4.
Como se puede observar en la tabla de Coeficientes de regresión y estadísticos
asociados (Cuadro 7.4) todos los coeficientes tienen un valor p pequeño, menor que el
nivel usual de significación de 0,05, y por lo tanto diremos que los coeficientes que
están siendo estimados son estadísticamente distintos de cero (esta es la hipótesis nula
que este procedimiento pone a prueba). Que los coeficientes de regresión parcial sean
estadísticamente distintos de cero implica que cuando se producen cambios en las
regresoras, estos cambios se traducen en modificaciones en el número medio de
bacterias por cm3. ¿Cómo deben interpretarse esos coeficientes? Vamos a dejar para
después una discusión sobre la ordenada al origen. Como el tiempo está medido en
horas, por cada hora adicional de cultivo, y manteniendo las otras regresoras fijas en
algún valor, dentro del rango en que se ajustó el modelo, se ganan en promedio 2,79
bacterias por cm3. Es decir, si mantenemos un cultivo a temperatura de 30 grados y a
una concentración de nutrientes 0,9, entonces el incremento promedio en el número
de bacterias por cm3 que se observará entre las 24 y 25 horas de cultivo o entre 28 y 29
horas, será 2,79. Los valores 30 y 0,9 fueron escogidos arbitrariamente y la
interpretación sigue siendo válida con cualquier combinación de ellos siempre y cuando
sus valores se encuentren dentro del rango de variación de los mismos en el
experimento. Por ejemplo no sería válido suponer que el cambio en el número
promedio de bacterias por cada hora de cultivo es 2,79 cuando fijamos la concentración
en 3.
Los otros coeficientes también son positivos así que en cada caso valdrá una
interpretación equivalente, caso contrario, si los coeficientes de regresión parcial fueran
negativos, lo único que cambia es que a cambios positivos en las regresoras se
observarán decrecimientos en la variable dependiente. La tabla de Análisis de la
Varianza en la salida, no nos ofrece información adicional, excepto que el coeficiente de
determinación R2 se obtiene dividiendo la suma de cuadrados atribuible al modelo
(78113,27) por la suma de cuadrados total (141432,24).
219
Análisis de regresión
Cuadro 7.4. Modelo de regresión múltiple para el número de bacterias por cm3 en función
del tiempo de cultivo, la temperatura de cultivo y la concentración de nutrientes expresados
en términos relativos a una solución estándar.
220
Análisis de regresión
juzga por distintos criterios diagnósticos, casi todos ellos basados en la observación de
los residuos. Los residuos son las diferencias entre los valores observados y los valores
predichos, pero hay muchas formas de residuos dependiendo de cómo calculemos el
valor predicho y si el residuo es transformado por algún factor de estala (dividiendo por
su error estándar, por ejemplo). La discusión sobre métodos y medidas de diagnóstico
puede ser muy extensa, para aquellos que quieran tener una introducción más
detallada de este tópico consultar el libro de Daper & Smith (1988). En este material
sólo abordaremos algunos métodos de diagnóstico que, a juicio del autor, son los más
efectivos para identificar anomalías en el ajuste de un modelo de regresión lineal. A
continuación revisaremos las herramientas de diagnóstico y su aplicación al ejemplo
que estamos tratando.
Residuos parciales
El análisis de los residuos parciales es una técnica destinada a observar cómo se
comporta la variable dependiente en relación a una regresora cuando las otras están
fijadas. Estos gráficos permiten visualizar la forma de la relación entre la variable
dependiente y una regresora particular, una vez que el efecto de las otras regresoras ha
sido removido. La Figura 7.15 muestra la manera de pedir los residuos parciales en
InfoStat.
La Figura 7.16 muestra los residuos parciales obtenidos para tiempo, temperatura
(Temp) y Nutrientes (Nut). Hay dos casos que merecen atención: los residuos parciales
en función de la temperatura y los residuos parciales en función de la concentración de
nutrientes. No es posible encontrar patrones llamativos en el caso de los residuos
parciales con el tiempo ya que este factor sólo se evaluó para dos valores diferentes. Sin
embargo, queda claro que a mayor tiempo mayor el número de células por cm3.
221
Análisis de regresión
222
Análisis de regresión
150,44 97,45
80,38 44,99
RPAR_Y_Tiempo
RPAR_Y_Temp
10,32 -7,47
-59,74 -59,93
-129,80 -112,39
22,80 29,40 36,00 42,60 49,20 26,20 30,60 35,00 39,40 43,80
Tiempo Temp
134,25
79,84
RPAR_Y_Nut
25,44
-28,97
-83,37
0,56 0,78 1,00 1,22 1,44
Nut
Figura 7.16. Ventana de diálogo indicando la forma de pedir la obtención de gráficos de residuos
parciales.
223
Análisis de regresión
Cuadro 7.5. Modelo de regresión múltiple para el número de bacterias por cm3 en función
del tiempo de cultivo, la temperatura de cultivo y la concentración de nutrientes.
En la nueva salida (Cuadro 7.6) se observa nuevamente que Nut tiene un efecto
altamente significativo. Vemos además que el R² es ahora de 0,67, lo que implica que
hemos mejorado la capacidad predictiva del modelo, siempre y cuando el modelo sea
correcto.
224
Análisis de regresión
Cuadro 7.6. Modelo de regresión múltiple para el número de bacterias por cm3 en función
del tiempo de cultivo, la temperatura de cultivo y la concentración de nutrientes con
términos cuadráticos solo para la temperatura.
1,8
Res. estudentizados_Y
0,0
-1,8
-3,5
2,19 62,22 122,25 182,28 242,31
Predichos
Figura 7.17. Residuos estudentizados vs predichos para el modelo ajustado en el Cuadro 7.6.
225
Análisis de regresión
0,30
DCook_Y
0,20
0,10
0,00
0 7 14 21 28 35
Caso
Figura 7.18. Distancias de Cook vs número de caso para el modelo ajustado en el Cuadro 7.6.
Conclusión
El modelo finalmente ajustado para el número de bacterias por cm3 es el siguiente:
Yˆ 1087, 2 2,89Tiempo
56,93Temperatura 0, 77Temperatura2
96, 68Nutrientes
El máximo número de bacterias se obtendrá a las 48 horas (máximo tiempo de cultivo
evaluado) con una concentración relativa de nutrientes de 1,4 (máximo evaluado) y a
una temperatura de 36,97 grados, que se obtiene derivando la ecuación con respecto a
la temperatura e igualando a cero.
226
Análisis de regresión
Ejercicios
Ejercicio 7.1: En este capítulo se introdujo un conjunto de términos que se listan a
continuación. ¿Puede recordar su significado?
227
Anlaisis de regresión
Ejercicio 7.3: ¿A qué temperatura hace ebullición el agua en la cima del Aconcagua? El
archivo [Ebullición del agua] contiene datos observados de temperatura de ebullición del
agua a distintas altitudes.
a) Estime que temperatura hace ebullición el agua en la cima del Aconcagua, Mendoza
(6962 msnm).
b) De un intervalo de predicción para la temperatura de ebullición calculada en el punto
anterior.
c) ¿Cómo cambia la temperatura de ebullición cuando se asciende de 0 a 500 m? De
acuerdo al modelo propuesto para describir la relación entre estas magnitudes, ¿es
este cambio constante, no importado de qué altitud se parta?
Ejercicio 7.4: En un experimento para evaluar la efectividad de un insecticida sobre la
sobrevida de dos especies de insectos (A y B) se obtiene que, en ambos casos, es posible
ajustar un modelo lineal para la sobrevida (Y) versus la concentración (en ppm) del
insecticida utilizado (X), siendo los modelos ajustados los siguientes:
Especie A: Y = 80 - 15 X; Especie B: Y = 60 - 15 X.
De acuerdo a estos resultados:
a) ¿Es el insecticida igualmente efectivo en ambas especies?
b) ¿Qué interpretación se puede hacer de cada una de estas ecuaciones?
c) ¿Cómo se modifica la sobrevida por cada incremento unitario en la concentración del
insecticida agregado?
d) Si se quisiera que ambas especies tengan una sobrevida de a lo sumo 20, ¿cuántas
ppm se debería agregar del insecticida?
Ejercicio 7.5: En un ensayo de resistencia a la sequía, dos especies de leguminosas (A y B)
fueron comparadas. El experimento consistió en registrar el peso seco total de 10 plantas al
cabo de 30 días desde la siembra. Las condiciones comparadas fueron las siguientes: medio
de cultivo estándar (MCE), MCE+10 g/l de ClNa, MCE+20 g/l de ClNa, MCE+30 g/l de ClNa,
MCE+40 g/l de ClNa. Los tres gráficos que se presentan después de las consignas, muestran
tres resultados posibles para esta experiencia. Los gráficos representan las rectas que
modelan la esperanza del peso seco en relación al agregado de ClNa en cada caso.
228
Análisis de regresión
A A
B B
0 10 20 30 40 0 10 20 30 40
ClNa agregado al MCE ClNa agregado al M CE
peso seco
Caso III
A
0 10 20 30 40
ClNa agregado al M CE
Ejercicio 7.6: Se desea probar la efectividad de un nuevo fungicida para el control de roya en
trigo. Se probaron distintas dosis en gramos de principio activo por ha (gr.p.a./ha) en 10
parcelas de 100 plantas cada una. A los 15 días de la aplicación se realizó una evaluación del
daño, como el tamaño promedio de las machas en hoja bandera. Los datos son los
siguientes:
Dosis(X) 100 125 200 250 275 300 325 350 375 400
Daño (Y) 50 48 39 35 30 25 20 12 10 5
229
Anlaisis de regresión
Ejercicio 7.7: Para estudiar el efecto de la temperatura sobre el vigor durante la germinación,
se dispusieron semillas de alfalfa en germinadores a distintas temperaturas. A los 6 días se
midió la longitud de las plántulas, obteniéndose los siguientes datos:
a) ¿Qué diferencia hay en los datos de este ejercicio con respecto a los anteriores?
b) Construir el diagrama de dispersión entre longitud de plántula y temperatura y
verificar si existe una tendencia lineal.
c) Realizar un análisis de regresión lineal ¿En cuanto se incrementa la longitud de
plantas por cada incremento de un grado en la temperatura?
d) ¿Cuál es el intervalo de confianza para la tasa de cambio de la longitud de plantas?
e) De acuerdo al modelo ajustado, ¿qué temperatura permite obtener mayor vigor?
Ejercicio 7.8: En el archivo [intercepcionderadiacionenmaiz] se encuentran datos de
intercepción solar desde los 15 a los 65 días desde la emergencia en un cultivo de maíz de un
hibrido comercial. Los datos fueron obtenidos para dos densidades del cultivo Alta (140
kplantas/ha) y Baja (80 kplantas/ha) que se obtuvieron variando la distancia entre líneas. La
barra de intercepción de radiación fotosintética activa (RAFA) fue medida cada 10 días. Para
cada momento de medición se realizaron determinaciones en 8 puntos del cultivo elegidos al
azar. En cada punto se realizaron 4 determinaciones de la RAFA y lo que se reporta en el
archivo de datos es el promedio de estas 4 determinaciones. Por lo tanto el archivo de datos
tiene 6 determinaciones x 8 puntos de muestreo x 2 densidades de siembra=96 registros y
tres columnas: Densidad (Alta, Baja), Días (días desde la emergencia, 15, 25, …) y RAFA. El
propósito del estudio es establecer que densidad de siembra es más efectiva para la
intercepción de la radiación solar. Como una forma de medir esta eficiencia se quiere
calcular el tiempo necesario desde la emergencia para captar el 50% de la RAFA en ambas
densidades.
230
Asociaciones
Capítuló 8
Estudiós dé córrélació n y
asóciació n
Julio A. Di Rienzo
Biometría|229
Estudiós dé
córrélació n y
asóciació n
Motivación
Es común en las Ciencias Biológicas buscar relaciones entre variables y cuantificar la
magnitud de estas asociaciones. Cuando las variables que queremos relacionar son
cuantitativas el método estadístico más usado es el análisis de correlación. Cuando las
variables son cualitativas o categorizadas, el análisis de tablas de contingencia y las
pruebas de bondad de ajuste son estrategias usuales a seguir. En este Capítulo se
desarrollan estas estrategias de análisis.
233
Estudios de correlación y asociación
cov( X ,Y )
Var( X )Var(Y )
En la expresión del coeficiente, el término cov(X,Y) se refiere a la covarianza entre X e Y,
y Var(X) y Var(Y) son las varianzas de X e Y respectivamente. La covarianza es una
medida que va entre –infinito y +infinito y cuanto más grande en valor absoluto es esta
cantidad más asociación hay entre las variables. Al dividir la covarianza por la raíz
cuadrada del producto de las varianzas, se confina el valor del cociente al intervalo [-
1,1]. Entonces, este cociente permite tener una escala acotada para medir la
covariación. Es estimador de , que se simboliza usualmente con la letra latina
equivalente “r”, se calcula según la expresión (1). El número “n” en esta expresión se
refiere al número de pares (X,Y).
n n
n X i Yi
X iYi i 1 i 1
r i 1 n (1)
2
n n 2
n X i n Y i
X i2 i 1 Y i2 i 1
i 1 n i 1 n
Un caso especial ocurre cuando = 0. En tal caso no hay asociación entre X e Y y
diremos que X e Y no están correlacionadas. Cuando X e Y siguen una distribución
normal bivariada, es posible construir un contraste de hipótesis para H0: = 0 vs. H1:
0. El estadístico utilizado para realizar este contraste es:
H0
n 2
Tr ~ Tn2
1 r2
Este estadístico sigue una distribución T de Student con n-2 grados de libertad cuando la
hipótesis nula es cierta.
Aplicación
Ácidos grasos en semillas
El ácido oleico es un ácido graso mono insaturado de la serie omega 9, típico de los
aceites vegetales como el aceite de oliva, del aguacate (palta), etc. El ácido linoleico es
un ácido graso poli insaturado esencial para el organismo humano (el organismo no
puede sintetizarlo) y tiene que ser ingerido con los alimentos. Al ácido linoleico y a sus
derivados se les conoce como ácidos grasos omega 6. El ácido linolénico es también un
ácido graso esencial de la familia omega-3. Los datos en el archivo [Aceites] tienen
determinaciones de los tres ácidos grasos y contenido de proteínas en diversas
234
Estudios de correlación y asociación
La imagen de la matriz de diagramas de dispersión para los datos del archivo [Aceite] se
muestra en la Figura 8.1.
Olei
Linol
Linolen
Proteína
Es fácil ver que los ácidos: oleico y linoleico están fuertemente correlacionados y que
esta correlación es negativa. La cuantificación de estas relaciones se observan en el
Cuadro 8.1. En este cuadro se presenta una matriz que contiene los coeficientes de
correlación de Pearson (triangular inferior) y sus pruebas de hipótesis respectivas
(triangular superior). Para obtener la matriz del Cuadro 8.1, en el software InfoStat
seleccione el menú Estadísticas >>Análisis de correlación. A continuación aparecerá el
diálogo de selección de variables que debe llenarse como se muestra en la Figura 8.2
(izquierda) y a continuación el diálogo que permite especificar qué medida de
correlación utilizar Figura 8.2 (derecha). Seleccionar la opción Pearson. En la diagonal
principal se observan las correlaciones de cada variable con sí misma. Este coeficiente
es siempre 1 y no tiene ningún valor interpretativo. Por debajo de la diagonal principal
235
Estudios de correlación y asociación
236
Estudios de correlación y asociación
Conclusión
Se halló una fuerte correlación negativa entre el contenido de ácido oleico y linoleico.
Ambos ácidos grasos se correlacionan positiva y negativamente con el contenido de
proteínas respectivamente, aunque estas correlaciones son débiles. El ácido linolénico
no se correlaciona con el contenido de proteínas y se correlaciona negativamente con
el ácido oleico y positivamente con el linolénico, aunque estas correlaciones son
también débiles.
237
Estudios de correlación y asociación
Si X ir e Yi r son los valores transformados del par X i ,Yi a partir de los rangos de X
y de Y , R(X) y R(Y), definimos d i X ir Y ir entonces el coeficiente de correlación de
Spearman se calcula como:
n
6d i2
rs 1 i 12
n n 1
n 2
t rs
1 rs2
Mientras que el coeficiente de correlación de Pearson mide el grado de
proporcionalidad de las cambios entre los pares (X,Y), el coeficiente de Spearman mide
monotonía de cambio sin importar la proporcionalidad. En este sentido es un
coeficiente que mide una forma más genérica de asociación. Esto tiene sus ventajas y
desventajas. La ventaja es que se puede tener una alta asociación aún cuando se X e Y
238
Estudios de correlación y asociación
se midan en escalas no lineales. Por esta misma razón, tener una alta correlación de
Spearman implica que los valores de una de las variables sean predecibles por los
valores de la otra. Esto podría ser indeseable cuando se trata de utilizar una variable
fácil de medir como subrogante (substituta) de otra difícil de medir. Para este caso nos
interesaría que la correlación midiera proporcionalidad de los cambios. Debe decirse
por otra parte que cuando el coeficiente de correlación de Pearson es alto (en valor
absoluto), el coeficiente de Spearman también lo es.
Aplicación
Ácidos grasos en girasol
Aplicaremos el cálculo del coeficiente de correlación de Spearman a los mismos datos
que se utilizaron en la sección anterior para ejemplificar el cálculo del coeficiente de
correlación de Pearson: archivo [Aceites].
Estrategia de análisis
La estrategia de análisis es similar a la planteada para el caso del coeficiente de Pearson.
Para invocar el cálculo del coeficiente de Spearman se debe proceder de manera similar
a lo hecho anteriormente, eligiendo el menú Estadísticas> Análisis de correlación y
completando las ventanas como se muestra en la Figura 8.3. Obsérvese que en el
diálogo derecho de la imagen se seleccionó Spearman.
Figura 8.3. InfoStat. Ventanas de diálogo para el cálculo del coeficiente de correlación de
Spearman.
239
Estudios de correlación y asociación
Conclusión
Se concluye de idéntica manera que para el caso del coeficiente de correlación de
Pearson.
Coeficiente de concordancia
Es una medida de la concordancia de dos variables aleatorias. Va más allá de medir
proporcionalidad como lo hace Pearson, este coeficiente mide el grado de igualdad de
mediciones. Tiene la siguiente expresión.
2 x y
c 2 2 ( )2
x y x y
Aplicación
Condición corporal de animales
Una herramienta de gran utilidad para el manejo nutricional del rodeo, es la
determinación de la "condición corporal" de los vientres. Una de las escalas va del 1 al
240
Estudios de correlación y asociación
Siguiendo el mismo procedimiento que con los otros dos coeficientes pero eligiendo la
opción Concordancia en la ventana de diálogo correspondiente se obtienen los
resultados que se presentan en el Cuadro 8.3. Se observa que las concordancias son
todas positivas, cercanas a 0,85.
Cuadro 8.3. Coeficiente de Concordancia. En la diagonal principal el coeficiente es siempre 1.
Por debajo de la diagonal principal están los coeficientes de concordancia. Por encima de la
diagonal principal se observa el código “sd” (sin dato) ya que no existe una prueba para la
hipótesis de coeficiente H0: = 0 vs. H1: 0 implementada en InfoStat.
Concordancia: Coeficientes\probabilidades
T1 T2 T3 T4
T1 1,00 sd sd sd
T2 0,84 1,00 sd sd
T3 0,84 0,86 1,00 sd
T4 0,87 0,88 0,85 1,00
Conclusión
Técnicos bien entrenados pueden reproducir índice de condición corporal con una
correspondencia promedio no inferior al 80%.
241
Estudios de correlación y asociación
Figura 8.4. Esquema general de una tabla de contingencia para dos variables A y B, la primera
con 3 modalidades: A1, A2 y A3 y la segunda con 2: B1 y B2.
242
Estudios de correlación y asociación
La clave para probar si la hipótesis es sustentada por los datos es calcular las
frecuencias esperadas (E) (suponiendo cierta la hipótesis de independencia) y
compararlas con las frecuencias observadas (O). La Tabla 8.3 contiene tales frecuencias
esperadas. Estas frecuencias se comparan con las observadas mediante el estadístico
chi-cuadrado cuya expresión es la siguiente:
c O E
2
f
2 ij E ij
i1 j 1 ij
En la expresión anterior Oij hace referencia a la frecuencia observada en la i-ésima fila,
j-ésima columna de la tabla de contingencia, Eij a la correspondiente frecuencia
esperada y los argumentos f y c , de los términos de sumatoria, al número de filas y
columnas de la tabla de contingencia respectivamente. En el ejemplo O21 123 y
E21 186,9 , mientras que f 2 y c 2 . Por la forma en que se calculan, las
243
Estudios de correlación y asociación
244
Estudios de correlación y asociación
Luego los número que aparecen en la columna “no germinó” se obtienen por diferencia
(181,1 es lo que le falta a 1253,9 para sumar 1435).Como regla práctica las frecuencias
esperadas se calculan según la expresión y los grados de liberta como ( f 1c 1 .
como riesgo relativo. Este estadístico es útil para comparar probabilidades, es simple de
interpretar y mide cuantas veces un evento es más probable en una condición que en
otra. Sin embargo bajo cierto plantes de muestro el riesgo relativo no puede calcularse.
Una forma diferente de comparar probabilidades es utilizar el cociente de chances
(odds ratio en inglés).
Si un suceso A tiene probabilidad A , su chance se define como:
chance( A) A 1 A . Esta es una forma diferente de representar una probabilidad
y su resultado se interpreta como las veces que ocurre un éxito por cada ocurrencia de
un fracaso. Por ejemplo, si A 0,50 la chance 1 e indica que por cada fracaso
ocurre un éxito. Éste es el ejemplo de la tirada de una moneda donde se dice que 1 de
cada 2 tiradas sale cara (o cruz). Si A 0,95 la chance 19 y su resultado se
interpreta diciendo que 19 de cada 20 veces son éxitos.
Este cociente mide cuanto mayor (o menor) es la chance de que ocurra un éxito bajo
una condición respecto de la otra. Cuando la probabilidad de éxito es pequeña en
ambas condiciones (inferiores a 0,20), el cociente de chances se aproxima bastante
al riesgo relativo y se considera una buena aproximación de éste.
Para el ejemplo del fungicida, la probabilidad estimada de que una semilla germine
cuando pertenece al grupo Control es 1190/1435=0,8292683. La probabilidad de esto
ocurra en el grupo al que se le aplica fungicida es 1358/1481=0,916948. La chance en el
control es 0,8292683/(1-0,8292683)=4,857143 y la chance en el grupo con fungicida es
0,916948/(1-0,916948)= 11,04065. Así que, en el control, la relación éxitos-fracasos es
5 a 1 (por cada 5 éxitos ocurre un fracaso – 5 de cada 6 semillas germinan) mientras que
esta relación es 11 a 1 en las semillas tratadas. La razón de chances de que una semilla
germine bajo el tratamiento con fungicida respecto del control es
11,04065/4,857143=2,27 y diremos que la chance de que una semilla germine en el
grupo tratado con fungicida es aproximadamente 2 veces la chance de que eso ocurra
en el grupo control. Es útil mirar el intervalo de confianza para la razón de chances. El
intervalo bilateral se obtiene según la expresión dada abajo, donde OR representa la
245
Estudios de correlación y asociación
razón de chances estimada, nij son las frecuencias observadas en cada celda de la tabla
2x2 y z1 es el cuantil 1 / 2 de una distribución Normal estándar:
exp ln OR z1 1 1 1 1
n11 n12 n21 n22
Aplicación
Condición corporal y éxito de inseminación
En un establecimiento ganadero se quiere establecer si la condición corporal de las
vacas (medida en la escala del 1 al 5) afecta y de qué manera el éxito de la
inseminación.
Estrategia de análisis
Para evaluar la relación entre CC y éxito de la inseminación, 160 vacas fueron
inseminadas y se registró su CC. Sólo se consideraron vacas con CC 2, 3 y 4.
Posteriormente se estableció si las vacas habían quedado preñadas o no. Los datos
generados por este ensayo se muestran en la Tabla 8.4.
Tabla 8.4: Tabla es frecuencias observadas de vacas preñadas y no preñadas inseminadas
artificialmente y clasificadas según su condición corporal.
CC Preñadas No Total
preñadas
2 23 7 30
3 76 4 80
4 46 4 50
Total 147 13 160
Si asumimos como hipótesis nula que la condición corporal no se vincula con el éxito de
la inseminación, los valores esperados pueden calcularse. Utilizaremos InfoStat para
calcular las frecuencias esperadas y calcular el estadístico chi-cuadrado. Para ello
debemos reorganizar los datos en una tabla conteniendo tres columnas como se
muestra a en la Tabla 8.5. Estos datos se encuentran cargados en el archivo
[PreñezyCCorporal]. Una vez abierto el archivo debe invocarse el análisis de una tabla
de contingencia. Para ello selecciones el menú Estadísticas, ítem Datos categorizados,
sub-ítem Tablas de contingencias.
246
Estudios de correlación y asociación
Tabla 8.5: Tabla que muestra la forma en que deben organizarse los
datos para ser procesados por InfoStat
CC Preñada Conteo
2 SI 23
3 SI 76
4 SI 46
2 NO 7
3 NO 4
4 NO 4
Una vez que se acepta este diálogo aparece la ventana de selección de variables. En ella
la condición corporal (CC) y la Preñez deben asignarse a la lista de Criterios de
clasificación. La variable conteniendo los conteos debe asignarse a la lista de
Frecuencias. La Figura 8.5 ilustra estas asignaciones.
Figura 8.5. InfoStat. Ventana de diálogo que muestra InfoStat para la selección de variables del
análisis de tablas de contingencias.
Una vez que se aceptan las especificaciones del diálogo de selección de variables,
aparecerá la ventana de opciones del análisis de tablas de contingencia. Esta ventana
tiene dos solapas: Selección de filas y columnas y Opciones. El contenido de ambas
solapas se muestra en la Figura 8.6. Obsérvese que la columna que tiene la información
sobre el éxito de la inseminación (Preñada) e ubicó en la lista “Columnas” y la que
contiene la información sobre la CC en la lista “Filas”. Esta forma de asignación
reproduce el arreglo de datos de la Tabla 8.4. La ubicación de Preñada y CC como
columnas o filas es indiferente a los fines de probar la independencia de estos criterios
de clasificación pero la elección de su posición en filas o columnas puede facilitar la
presentación e interpretación de los resultados. En la solapa Opciones se han tildado
tres opciones que no se encuentran tildadas por defecto: Frecuencias relativas por filas,
Frecuencias esperadas bajo independencia, Desviaciones de lo esperado bajo indep.,
247
Estudios de correlación y asociación
Figura 8.6. InfoStat. Ventana de diálogo para la selección de filas y columnas y opciones de
resultados en el análisis de tablas de contingencia con InfoStat.
El Cuadro 8.4 presenta el resultado del análisis de los resultados mostrados en la Tabla
8.4. En esta salida se muestra la tabla de frecuencias absolutas (los datos observados),
la tabla de frecuencias relativas por filas, expresadas como porcentajes, la tabla de
frecuencias esperadas bajo la hipótesis de independencia y la tabla de desviaciones
estandarizadas respecto de lo esperado bajo la hipótesis de independencia.
El estadístico chi-cuadrado de para la tabla examinada fue 8,79. Para una chi-cuadrado
con 2 grados de libertad, su valor p es 0,0123. Con un nivel de significación del 5% este
valor p indica que la hipótesis nula debe rechazarse o como usualmente se dice el
resultado del a prueba chi-cuadrado fue significativo. A veces es útil saber porqué la
hipótesis nula falla. La tabla de desvíos estandarizados respecto de lo esperado permite
individualizar las partes de la tabla de frecuencias que más contribuyen al chi-cuadrado.
Si se eleva al cuadrado cada una de las entradas de esta tabla, su suma reproduce el
estadístico chi-cuadrado (8,79). Por lo tanto cuanto mayor en valor absoluto es una
entrada mayor es su contribución al chi-cuadrado. Como regla práctica, si una entrada
tiene valor absoluto mayor que 2 esto es indicativo que está haciendo una contribución
significativa al chi-cuadrado. En el ejemplo sólo la celda correspondiente a la condición
corporal 2, columna “No preñada” tiene un desvió estandarizado mayor que 2 (2,81),
indicando que, cuando la condición corporal es 2, hay más fracasos de la inseminación
de lo esperado si la condición corporal no estuviera relacionada con el éxito de esta
técnica de manejo reproductivo.
248
Estudios de correlación y asociación
Cuadro 8.4. Tabla de contingencias en el que se presenta una tabla de frecuencias absolutas
(los datos observados), una tabla de frecuencias relativas por filas, expresadas como
porcentajes, la tabla de frecuencias esperadas bajo la hipótesis de independencia y una tabla
de desviaciones estandarizadas respecto de lo esperado bajo la hipótesis de independencia.
Tablas de contingencia
Frecuencias: Conteo
Frecuencias absolutas
En columnas:Preñada
CC NO SI Total
2 7 23 30
3 4 76 80
4 4 46 50
Total 15 145 160
Estadístico Valor gl p
Chi Cuadrado Pearson 8,79 2 0,0123
Chi Cuadrado MV-G2 7,33 2 0,0257
Coef.Conting.Cramer 0,17
Coef.Conting.Pearson 0,23
249
Estudios de correlación y asociación
Conclusión
En el rodeo evaluado, la condición corporal afecta significativamente el éxito de la
inseminación y el análisis sugiere que la condición corporal 2 está relacionada con una
mayor frecuencia de fracasos. No hay evidencia que sugiera diferencias en los
resultados de la inseminación entre las condiciones 3 y 4.
El monje investigador imaginó que tanto el color como la textura del tegumento se
debían a la contribución que hacían los padres, mediante sus “alelos”, a la composición
de una partícula que regulaba la expresión del carácter: “el gen”. En los organismos
diploides como las arvejas de Mendel o los humanos, los cromosomas se encuentran
apareados, proviniendo un miembro del par de parte del padre y el otro de la madre.
Los alelos paterno y materno de un gen se encuentran en los respectivos cromosomas.
Mendel idealizaba que si un progenitor era puro, en el sentido de que portaba, por
ejemplo, los dos alelos que producían semillas de color amarillo (homocigota para color
amarillo) y el otro progenitor era también homocigota pero para el color verde, su
cruza (F1) produciría semilla de color amarillo o verde según cuál de los colores fuera el
carácter dominante. El esquema siguiente asume que los padres (P) son homocigotas y
que el color amarillo es el color dominante. Los individuos portadores de ambos alelos
dominantes son identificados como AA y los individuos portadores de los alelos para el
verde con aa. El carácter verde es, en este ejemplo, el carácter recesivo.
250
Estudios de correlación y asociación
Figura 8.9. Esquema de segregación de dos parentales heterocigotas para el color y textura de
tegumento de semillas de arvejas. El tegumento liso y amarillo son las expresiones dominantes.
251
Estudios de correlación y asociación
La Tabla 8.6 muestra el resultado del experimento realizado por Mendel en 1866 sobre
este cruzamiento. Las frecuencias presentadas corresponden a la clasificación de 539
semillas de arvejas, según color y textura del tegumento.
La pregunta es sobre la independencia del carácter textura y el carácter color. Éstos se
heredan independientemente? Como en el ejemplo anterior tendremos que encontrar
las frecuencias esperadas y compararlas con las observadas. La comparación también lo
haremos mediante el estadístico chi-cuadrado. A diferencia del ejemplo del fungicida,
las frecuencias esperadas se deducen del modelo teórico ilustrado en Figura 8.9 y no
son necesarios datos experimentales observados para estimarlas, excepto conocer el
total de semillas observadas. También tendremos que encontrar una forma general
para el cálculo de los grados de libertad. El estudio de frecuencias observadas respecto
de esperadas por un modelo cuyos parámetros no dependen de los datos observados,
es lo que se conoce como un análisis de bondad de ajuste.
Tabla 8.6: Tabla es frecuencias de semillas clasificadas según el color (Amarillo o Verde) y
textura del tegumento (Lisas, Rugosas) obtenidas del cruzamiento de parentales
heterocigotas para ambos caracteres.
Tegumento
L R Total
Color
A 301 96 397
V 112 30 132
Total 403 126 539
La Tabla 8.7 presenta las frecuencias esperadas para el número de semillas derivadas
del modelo de segregación independiente de dos caracteres mendelianos: color y
textura del tegumento.
2 1,856731
303, 2 101,1 101,1 33,7
Tabla 8.7: Tabla es frecuencias esperadas según el color (Amarillo o Verde) y textura del
tegumento (Lisas, Rugosas) deducidas de un modelo de segregación independiente de dos
caracteres mendelianos (color y textura)
Tegumento
L R
Color
Lo que debemos establecer son los grados de libertad de la distribución del estadístico
chi-cuadrado cuando la hipótesis nula es cierta. La forma general de calcularlo es por la
252
Estudios de correlación y asociación
Aplicación
Color de las flores, espinas y porte de un arbusto
Una planta ornamental puede tener flores Rojas o Blancas, tener porte Arbustivo o
rastrero y tener o no Espinas. Cada uno de estos caracteres está regulado por un gen,
siendo los caracteres dominantes: flores rojas, porte arbustivo y con espinas (RAE). Se
cruzaron parentales homocigotos dominantes (RRAAEE) con parentales homocigotas
recesivos (rraaee) para obtener la F1 y luego se cruzaron F1xF1. La siguiente tabla
contiene los resultados de este último cruzamiento, del que se dispone de 200 plantas.
Se quiere saber si los tres caracteres se heredan independientemente.
Tabla 8.8: Tabla es frecuencias fenotípicas observadas según el color de las flores, porte de la
planta y presencia de espinas en plantas obtenidas del cruzamiento de heterocitas para los
tres caracteres de una planta ornamental.
Flores Porte Espinas Frecuencias fenotípicas
observadas en 200 plantas
Rojas Arbustivo Si 86
Rojas Arbustivo No 28
Rojas Rastrero Si 30
Rojas Rastrero No 7
Blancas Arbustivo Si 26
Blancas Arbustivo No 9
Blancas Rastrero Si 11
Blancas Rastrero No 3
253
Estudios de correlación y asociación
Estrategia de análisis
Para analizar estos datos debemos establecer las frecuencias esperadas bajo la hipótesis
de herencia independiente. Una tabla de clasificación con todas las combinaciones
genotípicas ayudará a este fin. La primera columna y la primera fila de la siguiente tabla
contienen los posibles genotipos de los progenitores. El cuerpo de la tabla contiene una
codificación de los fenotipos resultantes.
Tabla 8.9: Tabla es cruzamientos posibles: La primera columna y la primera fila de la
siguiente tabla contienen los posibles genotipos de los progenitores. El cuerpo de la tabla
contiene una codificación de los fenotipos resultantes.
RAE RAe RaE Rae rAE rAe raE rae
RAE RAE RAE RAE RAE RAE RAE RAE RAE
RAe RAE RAe RAE RAe RAE Rae RAE RAe
RaE RAE RAE RaE RaE RAE RAE RaE RaE
Rae RAE RAe RaE Rae RAE Rae RaE Rae
rAE RAE RAE RAE RAE rAE rAE rAE rAE
rAe RAE RAe RAE RAe rAE rAe rAE rAe
raE RAE RAE RaE RaE rAE rAE raE raE
rae RAE RAe RaE Rae rAE rAe raE rae
De las 64 celdas de la tabla muchas contribuirán a un único fenotipo. Por ejemplo la fila
1 produce plantas de flores arbustivas con espinas y flores rojas. Si se resumen las
frecuencias fenotípicas obtenemos la siguiente tabla de frecuencias relativas esperadas.
Éstas resultan de dividir las frecuencias fenotípicas por 64 que es el número total de
genotipos posibles.
Tabla 8.10: Tabla es frecuencias fenotípicas observadas y esperadas según el color de las
flores, porte de la planta y presencia de espinas en plantas obtenidas del cruzamiento de
heterocigotas para los tres caracteres de una planta ornamental.
Flores Porte Espinas Frecuencias Frec. Frec. Frec.
fenotípicas relativas esperadas observadas
teóricas esperadas en 200 pts en 200 pts
Rojas Arbustivo Si 27 27/64 84,38 86
Rojas Arbustivo No 9 9/64 28,12 24
Rojas Rastrero Si 9 9/64 28,12 30
Rojas Rastrero No 3 3/64 9,38 4
Blancas Arbustivo Si 9 9/64 28,12 26
Blancas Arbustivo No 3 3/64 9,38 9
Blancas Rastrero Si 3 3/64 9,38 14
Blancas Rastrero No 1 1/64 3,12 0
254
Estudios de correlación y asociación
Una vez que se dispone de las frecuencias esperadas podemos compararlas con las
frecuencias observadas mediante el estadístico chi-cuadrado. Los grados de libertad de
esta prueba son 7-0=7.
Para realizar esta prueba con InfoStat, seleccionaremos del menú Estadísticas, el ítem
Inferencia basada en una muestra, sub-ítem Prueba de bondad de ajuste (multinomial),
como se muestra en la Figura 8.10. Al invocar este procedimiento se abre una ventana
específica para la carga de las frecuencias observadas y ya sean las proporciones o las
frecuencias esperadas como se muestra en la Figura 8.11. En esta ventana al accionar el
botón aceptar, aparece el valor del estadístico chi-cuadrado, sus grados de libertad y el
valor p. Como podrá observarse, existe un dispositivo para cuando hay que corregir los
grados de libertad. Por defecto la corrección es cero.
Figura 8.10. InfoStat. Secuencia de ítems de menú para realizar un contraste de hipótesis para
bondad de ajuste.
Figura 8.11. InfoStat. Ventana de diálogo para la carga de frecuencias observas y frecuencias o
proporciones esperadas.
Conclusión
No se puede rechazar la hipótesis que sostiene que los caracteres color de flor,
presencia de espinas y porte son caracteres que “segregan” independientemente.
255
Estudios de correlación y asociación
Ejercicios
Ejercicio 8.1: Para establecer que sistema de monitoreo de insectos es más efectivo se realizó
un estudio donde el número total de un insecto plaga fue estimado en 20 parcelas de ¼ de
hectárea que cubrían desde bajas al bajas a altas densidades poblacionales. Las parcelas
estaba sembradas 60000 plantas por hectárea. Se tomó una muestra sistemática de 300
pantas por parcela y se contó el número total de los insectos de interés. El número total de
plantas evaluadas fue de 6000 plantas. Este es un esfuerzo de muestreo impráctico para
monitoreo rutinario. Al mismo tiempo se utilizaron 2 métodos de monitoreo: a) Recorrer la
parcela en forma de W. El recorrido total es de 103 m aproximadamente y tomando una
planta por cada 4 metros produce una muestra de aproximadamente 25 plantas. b) Usar 10
trampas para captura de insectos por parcela ubicadas equidistantemente dentro de la
parcela. Los resultados se encuentran en el archivo [Densidadesdeinsectos]. El archivo
contiene 3 columnas: Sistemático 300p, Muestreo W y Trampas. Los datos que se consignan
es esta tabla son el promedio de insectos por planta en los dos primeros casos y el promedio
de insectos por trampa en el tercero.
Perímetro (cm) 12.39 12.39 12.71 9.8 12.3 10.12 11.8111.41 9.4 11.49
Peso (grs.) 32.2729.39 30.8 15.6 29.8 16.87 28.1123.29 14.11 25.37
257
Estudios de correlación y asociación
258
ANAVA
Capítuló 9
Biometría|257
Disén ó y ana lisis dé
éxpériméntós a un
critérió dé
clasificació n
Motivación
En las Ciencias Agronómicas es frecuente conducir ensayos con fines de evaluar
comparativamente dos o más poblaciones, identificadas por algún criterio que las
distinga o separe como es la aplicación de distintos tratamientos (criterio de
clasificación). Para analizar estos experimentos es común recurrir a la técnica del
Análisis de la Varianza (ANAVA). Más formalmente, el ANAVA es un método estadístico
cuya finalidad es contrastar hipótesis referidas a las medias dos o más poblaciones,
generalmente definidas por la asignación de dos o más tratamientos a un conjunto de
unidades experimentales. En este capítulo se introducen dos temáticas relacionadas: (a)
la generación de datos experimentales, siguiendo conceptos básicos del diseño de
experimentos y (b) técnicas de análisis de datos en experimentos comparativos
utilizando la técnica estadística del ANAVA.
261
Análisis de experimentos a un criterio de clasificación
262
Análisis de experimentos a un criterio de clasificación
Realidad
Problema
Científico-
Tecnológico
+
Modelo Estadístico Diseño del
Experimento
Datos
Análisis
Conclusiones
263
Análisis de experimentos a un criterio de clasificación
264
Análisis de experimentos a un criterio de clasificación
donde:
265
Análisis de experimentos a un criterio de clasificación
Este modelo lineal nos ayuda a explicar que cada magnitud que registramos como dato
en nuestro estudio proviene la suma de la acción de varios componentes: una cantidad
fija desconocida, denotada por , más una componente i, también desconocida, y que
es usada para explicar cómo cambia la observación Yij debido al hecho de pertenecer a
la población o tratamiento i, más un término aleatorio ij (componente aleatoria sobre
la cual el investigador no tiene control) que ayuda a explicar la variabilidad “natural o
propia” que existe entre dato y dato dentro de una misma población o tratamiento. Si
dos unidades de análisis son tratadas de igual manera, es decir pertenecen a la misma
población, sería de esperar que su respuesta (el dato recolectado desde la unidad) sea
el mismo. No obstante, en la práctica se observan diferencias entre las respuestas de
unidades experimentales tratadas de igual manera. La variabilidad de las respuestas de
unidades experimentales tratadas con el mismo tratamiento o pertenecientes a la
misma población es la cantidad que en el modelo se denota por 2 y se conoce como
variabilidad residual.
Una representación gráfica del modelo lineal presentado es la siguiente:
µ1 µ2 µ µa
a
Figura 9.1: Representación del modelo lineal del ANAVA
266
Análisis de experimentos a un criterio de clasificación
¿para qué nos sirve un modelo en el que cada uno de los tres términos que lo
componen son todos desconocidos? Es posible calcular “aproximaciones” a
los verdaderos valores de las componentes no aleatorias y a la varianza de
la componente aleatoria?
Obtenida las aproximaciones, es decir habiendo estimado los parámetros del modelo,
podremos obtener un valor predicho por el modelo para cada una de las unidades de
análisis. La diferencia entre el valor observado de la variable en una unidad de análisis y
el valor predicho por el modelo para esa misma unidad se denomina residuo y es un
predictor del término de error aleatorio.
267
Análisis de experimentos a un criterio de clasificación
268
Análisis de experimentos a un criterio de clasificación
Las repeticiones juegan un rol importante ya que permiten evaluar la variabilidad de los
datos registrados dentro de cada tratamiento. Esta variabilidad se estima por medio de
la varianza muestral de las repeticiones. A la varianza muestral como medida de
dispersión la denotamos como S 2 . Ahora, como tenemos varias poblaciones a la
notación de la varianza muestral le agregamos como subíndice la letra i , según lo
hemos introducido en el modelo lineal, para distinguir las varianzas muestrales de las
muestras correspondientes a distintas poblaciones o tratamientos que estamos
interesados en evaluar, esto esi S 2 .
Bajo el supuesto de que los a n términos de error aleatorio del modelo lineal tienen
todos la misma varianza 2 (supuesto de varianza constante u homogeniedad de
varianzas), cada una de las a varianzas muestrales Si2 nos ofrecen buenos estimadores
del parámetro poblacional 2 . Este supuesto de varianzas homogéneas nos habilita a
promediar las Si2 para obtener un estimador de 2 . El promedio de las a varianzas
muestrales Si2 es un nuevo estadístico que recibe el nombre de cuadrado medio
dentro o cuadrado medio del error experimental (CME).
269
Análisis de experimentos a un criterio de clasificación
270
Análisis de experimentos a un criterio de clasificación
El cuadrado medio, como toda varianza, puede ser escrito también como el
cociente de una suma de cuadrados y sus grados de libertad, que en este
diseño con a tratamientos es a-1.
Bajo la hipótesis nula, es decir cuando no hay diferencias significativas entre las medias
de los tratamientos, S X2 tenderá a ser baja, ya que las medias muestrales de los a
tratamientos serán muy parecidas.
En el caso que la hipótesis nula de igualdad de medias poblacionales no fuera
verdadera, ocurrirá que S X2 tenderá a crecer a medida que las a medias poblacionales
sean cada vez más distintas.
Si denotamos como E 2 y D2 a las varianzas estimadas respectivamente por el CME y
el CMD, luego bajo la hipótesis nula de igualdad de medias poblacionales o de
tratamiento, ocurrirá que 2 = 2 , en caso contrario (hipótesis nula falsa) ocurrirá que
E D
2 > 2 , por lo que podemos reescribir las hipótesis clásicas del ANAVA (referidas a
E D
medias poblacionales o esperanzas) como la siguiente hipótesis unilaterial que
compara dos varianzas poblacionales:
H0 : 2 = 2 vs H1 : 2 > 2
E D E D
La prueba del ANAVA consiste en calcular el estadístico F utilizando los estimadores de
2 y 2 (es decir los cuadrados medios) de la siguiente forma:
E D
CME
F
CMD
Este estadístico tiene, bajo H0, una distribución F(a-1),(N-a)) con N igual al número total de
unidades experimentales.
Luego, para un nivel de significación , si F es mayor que el cuantil (1-) de la
distribución F(a-1),(N-a) se rechaza H0, implicando que H1 es verdadera. El rechazo de H0
implica que las medias poblacionales (expresadas como a media poblacional más un
efecto de tratamiento o población) no son iguales y por lo tanto, que algún i 0; así se
concluye que no todas las medias de tratamiento son iguales.
271
Análisis de experimentos a un criterio de clasificación
Luego, a pesar de que la hipótesis de interés del ANAVA se refiera a la igualdad de las
esperanzas de dos o más distribuciones, la técnica del ANAVA se basa en la
comparación de varianzas para inferir acerca de la igualdad de las esperanzas.
El análisis de la varianza se suele resumir en una tabla conocida como Tabla de Análisis
de la Varianza en la que se resumen los estadísticos y cálculos básicos para obtener el
CME y el CMD, estadísticos claves para la prueba de hipótesis. En la columna titulada
"Fuentes de Variación" se destacan tres celdas con sus correspondientes títulos. En
ellas se indican los contenidos de las celdas dentro de la fila respectiva. En la fila titulada
"Entre Tratamientos" existen cuatro celdas, en las que se presentan las siguientes
cantidades: Suma de Cuadrados Entre Tratamientos (SCE), Grados de Libertad de la
suma de cuadrados entre tratamientos (gle), Cuadrados Medios Entre Tratamientos
(CME) y el estadístico F correspondiente al cociente del CME/CMD. La fila titulada
"Dentro (Error Experimental)" se completa con las siguientes cantidades: Suma de
Cuadrados Dentro de Tratamientos (SCD), Grados de Libertad de la suma de cuadrados
dentro de tratamientos (gld) y Cuadrado Medio Dentro de Tratamientos(CMD). En la
titulada "Total" se completa con la Suma de Cuadrados Total (SCT) y Grados de Libertad
Total (glt).
272
Análisis de experimentos a un criterio de clasificación
modelo lineal completo que se propone. El cociente entre la Suma de Cuadrados del
Modelo y la Suma de Cuadrados Total, se denomina coeficiente de determinación o R2
. Este coeficiente, al ser una proporción, verifica que 0 R2 1 , siendo deseable
valores superiores, digamos que en la práctica, a 0.60 y mientras mayores, mejor. El
coeficiente de determinación suele expresarse en porcentaje y se interpreta como el
porcentaje de la variabilidad total en Y que es explicada o contabilizada en el modelo de
ANAVA propuesto. El complemento a 100% es una medida de la variabilidad no
explicada por el modelo.
Aplicación
Ensayo comparativo de rendimiento
Para comparar los rendimientos medios de 4 cultivares híbridos de un cultivo
(tratamientos) en un ambiente, se realiza un experimento bajo un diseño a campo con
10 repeticiones o parcelas por tratamiento. Cada parcela tiene una superficie total de 5
surcos por 25 metros de largo cada uno. No obstante, la parcela útil es de 3 surcos por
15 metros cada uno. El resto es considerado bordura y no se registran los pesos de
cosecha en esa porción de la parcela. Los resultados se encuentran en el archivo
[Híbridos]. Los datos de rendimientos parcelarios se registran en qq/ha a humedad
constante (14% de humedad).
Estrategia de análisis
En primer lugar, planteamos la hipótesis estadística a contrastar:
H0 : 1 4
H1 : Al menos uno de las 4 cultivares tiene
media poblacional distinta a las demás
273
Análisis de experimentos a un criterio de clasificación
donde:
i=1,...,a 4 variedades,
j =1,..,n 10 repeticiones
Para continuar, accione el botón Aceptar. Esta acción abrirá la siguiente pantalla Figura
9.3. Por el momento, no modificaremos nada en esta pantalla. Sólo accionaremos el
botón Aceptar. Esta acción generará la salida correspondiente al modelo estimado.
274
Análisis de experimentos a un criterio de clasificación
Cuadro 9.1: Análisis de la varianza aplicado a los datos del archivo [Híbridos].
Análisis de la varianza
Variable N R² R² Aj CV
Rend. 40 0,32 0,26 23,73
CMError 588, 75
CV = 100 100 23, 73
Media general 102, 27
275
Análisis de experimentos a un criterio de clasificación
la columna titulada como CM podemos leer el valor del Cuadrado Medio Dentro, y en la
línea identificada como Cultivar el valor del Cuadrado Medio Entre Tratamientos (es
importante destacar que en un modelo lineal a un criterio de clasificación, el Cuadrado
Medio Entre es igual al Cuadrado Medio de Modelo). Así, en la columna titulada como F,
se puede leer el cociente CME/CMD que es igual a 5,68, con un valor-p igual a 0,0027, lo
que sugiere el rechazo de la hipótesis nula de igualdad de medias de tratamientos si se
trabaja con un nivel de significación del 5% o α= 0,05.
Conclusión
276
Análisis de experimentos a un criterio de clasificación
Existe una gama muy amplia de alternativas para llevar adelante este tipo de pruebas,
las que por su naturaleza, pueden clasificarse en pruebas tradicionales y pruebas
basadas en conglomerados.
Los procedimientos tradicionales generalmente presentan una menor tasa de error tipo
I que los procedimientos basados en conglomerados cuando se trabaja en experimentos
que no tienen un buen control de los niveles de precisión usados para la comparación
de medias. No obstante, con un número alto de medias de tratamiento, los
procedimientos tradicionales pueden producir salidas de difícil interpretación ya que
una misma media puede pertenecer a más de un grupo de medias. Por el contrario, los
métodos jerárquicos para comparaciones de medias producen agrupamientos
mutuamente excluyentes (partición del conjunto de medias de tratamientos) y por
tanto cada media solo clasificará en un grupo de la partición.
Se presentarán aquí solo dos pruebas tradicionales: las pruebas de Fisher y de Tukey y,
de los procedimientos que no generan superposiciones entre grupos de medias
estadísticamente indistinguibles, solo se presentará la prueba de Di Rienzo, Guzman y
Casanoves (DGC), sugiriéndose al lector que revise la presentación más amplia hecha
en esta temática en el Manual de InfoStat.
Prueba de Fisher
La prueba de Fisher es similar a la prueba de Tukey, en el sentido de comparar todos los
pares de media muestrales con un estadístico y decidir en función de tal comparación si
las medias poblaciones correspondientes son estadísticamente diferentes o no. No
obstante, el estadístico de la prueba es diferente. En vez de usar los cuantiles de la
distribución de rangos estudentizados utiliza los cuantiles de una de una distribución t
de Student con los grados de libertad del cuadrado medio dentro de tratamientos y es
particular para cada comparación de medias ya que depende del número de
repeticiones por tratamiento. Luego, la diferencia mínima significativa entre el
tratamiento i-ésimo y el tratamiento j-ésimo, DMSf, está dada por:
ni n j
DMSfij tgld ;(1- / 2) CMD
ni n j
Con la prueba de Fisher es más fácil rechazar la hipótesis de igualdad de medias que con
la prueba de Tukey, por esta razón se dice que este último es más conservador y el
primero más potente.
Prueba de Tukey
El prueba de Tukey, al igual que cualquier procedimiento tradicional para la
comparación de medias, examina con un mismo estadístico todas las diferencias de
277
Análisis de experimentos a un criterio de clasificación
a a!
medias muestrales en estudio. Si hay a medias, luego habrá = (a-2)! 2! diferencias
2
de medias posibles.
Se concluirá en consecuencia que las esperanzas asociadas a esa diferencia son distintas
con un nivel de significación .
Cabe destacar que cuando los tamaños muestrales son muy diferentes, esta prueba de
Tukey puede dejar de ser confiable, caso en el cual podría utilizarse algún
procedimiento de contraste múltiple que considere tal situación, como el de Scheffé
(1953).
278
Análisis de experimentos a un criterio de clasificación
Aplicación
Comparación de redimientos promedios
En InfoStat para realizar una Prueba ‘a posteriori’, cualquiera sea ella, debe invocarse el
Menú Estadísticas seleccione el submenú Análisis de la Varianza. Aparecerá la pantalla
que ya hemos presentado anteriormente. Tras seleccionar Cultivar en el panel izquierdo
de la ventana y agregarlo al panel Variables de clasificación y seleccionar Rend para
luego agregarlo al panel Variables dependiente, al pulsar el botón Aceptar, aparecerá
una nueva ventana, como la que presentáramos en la Figura 9.3. Al activar la solapa
“Comparaciones” de esta ventana, se presentará un nuevo diálogo como el que se
presenta a continuación:
279
Análisis de experimentos a un criterio de clasificación
Cuadro 9.2: Análisis de la varianza y el test ‘a posteriori’ de Tukey aplicado a los datos del
archivo [Híbridos].
Análisis de la varianza
Variable N R² R² Aj CV
Rend. 40 0,32 0,26 23,73
280
Análisis de experimentos a un criterio de clasificación
Cuadro 9.3: Análisis de la varianza y el test ‘a posteriori’ LSD de Fisher aplicado a los datos
del archivo Híbridos
Análisis de la varianza
Variable N R² R² Aj CV
Rend. 40 0,32 0,26 23,73
Conclusión
Las medias muestrales, ordenadas en forma ascendente, muestran que el cultivar 2
tiene el menor de los rendimientos (76,68 qq/ha), le sigue el cultivar 4 (105,44 qq/ha),
el cultivar 1 (106,90 qq/ha) y el cultivar 3 es el de mayor rendimiento de los cultivares
comparados (120,06 qq/ha).
Las tres pruebas presentadas (Tukey y LSD de Fisher), nos muestran idénticos
resultados, asignando la letra A al cultivar 2 y la letra B a los cultivares 4, 1, 3.
Tratamientos que comparten una misma letra no se pueden declarar como
estadísticamente diferentes, es decir las diferencias muestrales observadas pueden
haberse dado por azar y por tanto no ser repetibles. Por ello, los investigadores sólo
concluyen sobre diferencias que resultan estadísticamente significativas. Así los
resultados del experimento particular pueden extenderse a la población ya que se
espera estabilidad de las relaciones halladas.
Los resultados de las pruebas a posteriori en el ejemplo nos permite concluir que:
(1) El cultivar 2 posee una media significativamente diferente (y menor) a las
medias poblacionales de los otros tres cultivares; y
(2) Las medias poblacionales no difieren significativamente entre los cultivares 4, 1
y 3.
Es probable plantearse porque no es significativa la diferencia entre el cultivar 4 y 3, ya
que sus medias muestrales difieren en 120,06-105,44=14.52 qq/ha, diferencia que
281
Análisis de experimentos a un criterio de clasificación
Para calcular todos los residuos con InfoStat, es necesario entrar al submenú Análisis de
la Varianza y especificar la variable de clasificación y la respuesta, tal cual lo hemos
aprendido a hacer para conducir el ANAVA propiamente dicho. Cuando se llega a la
ventana de opciones del ANAVA deben tildarse las celdas de Guardar Residuos,
Predichos, Residuales Estudentizados (Res.Estud.) y Absolutos de los Residuos
(Abs(residuos)) como se muestra en la siguiente Figura, para que se agreguen las
columnas respectivas en la tabla de datos con que estemos trabajando.
282
Análisis de experimentos a un criterio de clasificación
Figura 9.5: InfoStat. Diálogo de opciones del ANAVA, para la generación de residuos,
predichos y otros estadísticos necesarios para la verificación de supuestos, en InfoStat
Una vez generadas estas columnas con los residuos, los predichos, los residuos
estudentizados (una forma de residuos que estandariza de manera tal que la variación
de los mismos quede comprendida entre -4 y 4 y así se puedan identificar fácilmente
residuos “altos” o “bajos”) y los valores absolutos de los residuos, procederemos a
verificar el cumplimiento de los supuestos de normalidad, independencia y
homogeneidad de varianzas de los ij, mediante las siguientes pruebas de hipótesis e
interpretaciones gráficas.
Normalidad
Tomando los residuos como dato de análisis, una de las técnicas más usadas es
construir un Q-Q plot normal. Mediante esta técnica se obtiene un diagrama de
dispersión en el que, si los residuales son normales y no hay otros defectos del modelo,
los residuos observados se alinean sobre una recta a 45° como se muestra en la
siguiente figura ya que correlacionan bien con los residuos esperados bajo el supuesto
que la muestra de datos realmente sigue una distribución normal. El gráfico compara
los cuantiles observados con los cuantiles esperados bajo normalidad.
La presencia de ligeras violaciones de este supuesto no es muy grave para el ANAVA, no
afectándose de forma importante la probabilidad de cometer Error de Tipo I. La Figura
9.7 ilustra el Q-Q plot de residuos del problema de los Híbridos que venimos estudiando
a lo largo de este Capítulo. En las siguientes figuras se presentan los diálogos de InfoStat
para generar el Q-Q Plot mostrado.
Para acceder a la ventana de diálogo que permite seleccionar la variable para hacer el
QQ-Plot de interés, acceder al Menú Gráficos, submenú Q-Q Plot. Tras elegir la variable
283
Análisis de experimentos a un criterio de clasificación
Figura 9.6: InfoStat. Diálogos para generar un Q-Q plot para prueba de distribución normal.
31.88
4.50
-22.89
-50.27
-50.27 -22.89 4.50 31.88 59.26
Cuantiles de una Normal(-1.2434E-015,543.46)
Homogeneidad de varianzas
Cuando los términos de error tienen varianzas homogéneas y el modelo explica bien a
los datos (es decir no queda ninguna fuente de variación sistemática que aún se pueda
remover), el gráfico de dispersión de residuos vs. predichos presentará una nube de
puntos sin patrón alguno. Por ello, los investigadores usan los gráficos de dispersión de
284
Análisis de experimentos a un criterio de clasificación
residuos con patrones aleatorios como indicador de un buen ajuste del modelo a sus
datos.
Un patrón en este tipo de gráficos que indica falta de homogeneidad en las varianzas se
muestra en la Figura 9.8. La heterogeneidad de varianzas de pone de manifiesto ya que
a medida que crecen los valores predichos por el modelo, aumentan las dispersiones de
los residuos; así los tratamientos con mayores valores predichos tienen más variabilidad
entre sus repeticiones que los tratamientos con menor valor predicho. Este tipo de
patrón es indeseable ya que puede llevarnos a cometer errores en las conclusiones;
frecuentemente se asocia con una mayor probabilidad de cometer Error Tipo II, es decir
no detectar diferencias entre tratamientos cuando éstas realmente existen.
69.50
39.25
Residuos
9.00
-21.25
-51.50
141.41 184.52 227.62 270.73 313.84
Predichos
Figura 9.8: Gráfico de Residuos en función de Predichos en un ejemplo con falta de homogeneidad
de varianzas.
En el ejemplo de aplicación, para generar esta gráfica, se debe entrar al menú Gráficos
submenú Diagrama de Dispersión y asociar RE-Rend al Eje Y y PRED-Rend al Eje X. Se
obtendrá así el diagrama a la derecha del diálogo del Diagrama de dispersión de la
siguiente Figura, que sugiere que la variabilidad de los rendimientos en el híbrido de
menor rinde pareciera diferente a la variabilidad del rendimiento en los otros híbridos.
Para estas situaciones donde se observan diferencias o algún patrón particular, existen
pruebas formales para detectar la significancia de las mismas como es la Prueba de
Levene que se construye como un ANAVA del valor absoluto de los residuos. Si ese
ANAVA presenta un valor p pequeño se concluye que la heterogeneidad de varianzas es
importante y, como podría afectar la potencia de nuestras conclusiones, se recurre otro
tipo de ANAVA donde no es necesario suponer varianzas homogéneas como es el caso
del ANAVA bajo un modelo lineal mixto.
285
Análisis de experimentos a un criterio de clasificación
2.79
1.61
RE_Rend.
0.44
-0.73
-1.90
74.51 86.44 98.37 110.30 122.23
PRED_Rend.
Independencia
Una ayuda valiosa para estudiar la posible falta de independencia entre los errores es
realizar un gráfico de los residuos según la secuencia en el tiempo o espacio físico en
que han sido colectados los datos; por supuesto que para tal prueba debe conocerse
cómo ha sido el mecanismo de recolección de datos. Si los residuos aparecen en
secuencias de varios valores positivos seguidos de varios valores negativos puede ser un
indicio claro de la falta de independencia. Otro posible patrón indicativo de falta de
independencia es una sucesión alternante de residuales positivos y negativos. Siempre
que se detecte cualquier patrón distinto al aleatorio (falta de patrón), se debe
sospechar del incumplimiento del supuesto de independencia.
286
Análisis de experimentos a un criterio de clasificación
de menor rendimiento). Por lo que podría asumirse que los términos de error verifican
los supuestos y tomar como válidas las conclusiones realizadas tanto para el ANAVA
como para las pruebas ‘a posteriori’ conducidas. Cuando los supuestos de Normalidad y
Homocedasticidad (homogeneidad de varianzas) no se cumplen, algunos investigadores
recurren a la transformación de los datos a otras escalas, como la logarítmica, raíz
cuadrada o arco seno, donde los supuestos puede ser que se cumplan. Por ende las
comparaciones de realizan en la escala donde el ANAVA es válido.
287
Análisis de experimentos a un criterio de clasificación
Ejercicios
Ejercicio 9.1: En la Provincia de Córdoba se produce aproximadamente el 95% del maní tipo
confitería destinado a exportación. En el año 2006 se realizó un estudio en el que se
indagaron estrategias tecnológicas productivas y características socio-económicas de los
productores de maní de la Provincia de Córdoba. A partir de este estudio, se pudo clasificar a
los productores como pequeños a medianos productores independientes (Tipo de Productor
I), grandes productores (Tipo de Productor II) y pequeños a medianos productores no
independientes asociados a grandes productores (Tipo de Productor III). Luego, otros
investigadores estudiaron si los rendimientos medios logrados por esta tipología de
productores diferían entre sí, con la hipótesis científica de que los Productores Tipo II y III
lograban rendimientos medios superiores a lo alcanzados por los Tipo I. En el archivo [Mani]
(disponible por gentileza de la Lic. Mara LLop) se encuentran los rendimientos de 27
productores entrevistados (9 de cada Tipo) a los que se les solicitó información veraz (cartas
de porte del grano entregados para su venta) sobre los volúmenes cosechados, los que
permitieron calcular rendimientos promedios por hectárea logrado por cada productor.
Se solicita:
a) Plantear las hipótesis estadísticas que se podrían contrastar en este problema y
reflexionar sobre la naturaleza del estudio (observacional vs experimental)
b) Realizar el Análisis de la Varianza ( = 0.05)
c) Valide los supuestos de homogeneidad de varianzas y de normalidad de los términos
de error aleatorio
d) Si corresponde, realizar la prueba LSD de Fisher.
e) Redactar conclusiones.
Ejercicio 9.2: Una empresa agrícola necesita establecer si le conviene, desde el punto de vista
económico, fertilizar sus cultivos de soja. Para este propósito se realizó un ensayo en un lote
de 20 has, dividido en parcelas de una hectárea cada una, en el que se evaluaron cuatro
estrategias de fertilización: (a) No fertilizar, (b) usar el Fertilizante A, (c) usar el Fertilizante B
y (d) usar el Fertilizante C, asignando los tratamientos en forma aleatoria. Cada parcela fue
laboreada culturalmente con la misma tecnología de siembra directa en cuanto al manejo de
plagas, malezas, densidades de siembra, variedades, fecha de siembra y control de humedad
en el suelo. La única diferencia entre ellas fue el fertilizante utilizado.
Considere ahora que el precio de la tonelada de soja es de $1200, los costos de producción
de cada parcela son del orden de los 15 qq/ha (sin incluir el costo del Fertilizante), el costo
por hectárea de usar el Fertilizante A es de 5 qq/ha, del utilizar el Fertilizante B de 3,5 qq/ha,
de usar el Fertilizante C de 2 qq/ha, y que los rendimientos obtenidos (qq/ha) fueron:
289
Análisis de experimentos a un criterio de clasificación
Ejercicio 9.3: Se desea evaluar la calidad de plantas de olivos producidas por esqueje o
estaca, cuando éstas son sometidas a un tratamiento promotor del enraizamiento (lavado
durante 48 horas antes de ser plantadas en el almázigo). Para ello, se toman 10 estacas de
una cierta Variedad (Arbequina) y se las planta directamente (Tratamiento A) en macetitas
de enraizamiento, dándosele luego el manejo convencional para que enraícen (humedad
ambiente, temperatura, fertiriego, fungicidas, bactericidas) y a otras 10 estacas de la misma
Variedad se las somete previamente al lavado con agua corriente durante 48 horas
(Tratamiento B), para luego seguir con el manejo convencional para que enraícen. Se
presenta a continuación la altura de las plantas (cms) lograda a partir de esos esquejes, al
cabo de 90 días de haber sido plantadas:
Sin lavar 8 12 15 16 9 16 14 15 11 14
Con lavado 9 9 8 12 10 11 13 14 9 10
a) Realizar la prueba del test F del análisis de varianza, previa verificación de los
supuestos de normalidad y homogeneidad de varianzas, usando un nivel de
significación del 5%.
b) Comprobar que el valor del estadístico T para comparar dos poblaciones con
varianzas homogéneas, cuando es elevado al cuadrado, reproduce el valor del
estadístico F del ANAVA.
c) ¿Qué se concluye sobre las diferencias en altura de las plantas logradas al cabo de 90
días de haber sido plantadas?
290
Análisis de experimentos a un criterio de clasificación
Ejercicio 9.4. Se desea conocer el efecto de las cepas de inoculantes de Rhizobium, fijadoras
de nitrógeno atmosférico, sobre el contenido de nitrógeno de plantas de trébol rojo. Para
ello se dispone de 30 macetas de trébol rojo en un invernadero. Se asignan al azar 5 macetas
para cada una de las cepas y se procede a inocularlas. Los resultados son los siguientes (en
mg. de nitrógeno/Kg de Materia Seca):
Media
carga 2 2.6 1.9 3.1 2.8 2.2 2.0 2.7 2.47
carga 4 3.3 3.6 3.0 3.5 3.2 3.9 3.4 3.41
carga 6 3.1 2.0 2.5 3.1 2.3 3.0 2.2 2.60
carga 8 2.5 2.3 2.8 1.8 2.7 2.6 2.0 2.39
291
Análisis de experimentos a un criterio de clasificación
Ejercicio 9.6 Una empresa de agroquímicos ha producido un nuevo inoculante para soja, que
saldrá a la venta si con su aplicación se obtienen mayores rendimientos que sin su utilización.
Para evaluar al inoculante se realiza un experimento inoculando 14 lotes de semillas. La
mitad de los 14 lotes se inoculan con una dosis baja (Dosis 1) y la otra mitad con una dosis
más alta (Dosis 2). Además se incluyen en el ensayo 6 lotes de semillas sin inocular (testigo o
control). El experimento se realiza en un mismo ambiente y se implementa usando la
variedad y la forma de manejo de cultivo más difundida para ese ambiente. Cada lote de
semillas se asigna al azar a una de las parcelas del ensayo que se consideran homogéneas
desde un punto de vista práctico. Se midió el rinde en gr/m2 por cada parcela y luego se lo
llevó a qq/ha. Se trabajó con un nivel de significación del 0.05, usando el siguiente modelo:
y i 1,...,a j 1,...,n ~ N(0, 2 )
i i ij ij
292
Análisis de experimentos a un criterio de clasificación
De acuerdo con estos resultados asignar la condición de Verdadero (V) o Falso (F) a cada una
de las siguientes afirmaciones:
293
Factoriales
Capítuló 10
Biomtría|293
Ana lisis dé
éxpériméntós cón
variós critériós dé
clasificació n
Motivación
Hemos presentado el ANAVA como un método estadístico cuya finalidad es contrastar
hipótesis referidas a la comparación de medias de dos o más poblaciones. Supusimos
que esas poblaciones están conformadas por unidades de análisis expuestas a distintas
condiciones, que hemos llamado “tratamientos”. Así, el factor tratamiento es
entendido como un criterio de clasificación, ya que luego de su aplicación a las unidades
experimentales, éstas quedan clasificadas según los distintos niveles de tratamiento. No
obstante, existen situaciones donde los criterios de clasificación de las unidades son
muchos y el modelo lineal de ANAVA debe extenderse para contemplarlos en el análisis.
297
Análisis de experimentos con varios criterios de clasificación
298
Análisis de experimentos con varios criterios de clasificación
299
Análisis de experimentos con varios criterios de clasificación
300
Análisis de experimentos con varios criterios de clasificación
Estructura de UE Estructura de
Estructura de tratamiento
Factores cruzados
Factores anidados
301
Análisis de experimentos con varios criterios de clasificación
terreno que ocasiona la cortina forestal; el criterio de bloqueo será entonces el nivel
de sombra que recibe la parcela y los bloques se dispondrán de manera tal que las
parcelas en un mismo bloque sean “homogéneas” respecto al criterio de bloqueo,
es decir tengan un nivel de sombreo similar. Cada bloque en el esquema siguiente
es un conjunto de tres parcelas con niveles de sombreo similar. Así si se quieren
comparar tres tratamientos, estos se asignarán a las parcelas de un mismo bloque
de manera aleatoria. En cada bloque se repetirá el proceso de aleatorización.
Figura 10.2: Esquema de localización de parcelas en un diseño en bloques con tres repeticiones,
ubicadas de iquierda a derecha en el terreno experimental
Los criterios de bloqueo pueden deberse no sólo a las características relacionadas con
las unidades experimentales sino también, en algunas circunstancias, a aspectos ligados
con la colecta de información o la realización de los tratamientos. A las características
relacionadas con las UE se las denomina naturales mientras que al resto se las llama
inducidas. Por ejemplo, si tenemos un conjunto de UE homogéneas pero algunos
subgrupos de este conjunto son manejados por distintos operarios, o a distintos
tiempos, el factor operario y el factor tiempo pueden introducir una fuente de variación
en la respuesta (inducida). En este caso sería apropiado que cada operario trabaje con
todos los tratamientos a comparar, o que si el experimento se lleva a cabo en varios
días o momentos de tiempo, que en cada día se releve el dato de una repetición por
tratamiento. Entonces, si contamos con 5 días para evaluar un ensayo donde hay 15
302
Análisis de experimentos con varios criterios de clasificación
parcelas que han sido tratadas con 3 fertilizantes foliares, sería más recomendable en
cada día evaluar tres parcelas, una para de cada tratamiento de fertilización, que
evaluar repeticiones de un mismo tratamiento en un día y repeticiones de otro en otro
día. Si hacemos esto último, y hay algún efecto del día de medición (supongamos un día
de mucha más temperatura que otro), el efecto día quedará confundido con el efecto
tratamiento. El bloqueo de UE pretende disminuir el confundimiento de factores.
303
Análisis de experimentos con varios criterios de clasificación
Figura 10.3: Esquema de localización de parcelas en dos diseños en bloques con tres repeticiones
o bloques (B1, B2 y B3)
304
Análisis de experimentos con varios criterios de clasificación
Las hipótesis que se somete a prueba en un ANAVA para un DBCA, como en el DCA a
una vía de clasificación, y está establecida sobre la medias de las poblaciones
relacionadas a cada tratamiento ( i i con i = 1, ... ,a):
H0 : 1= 2= , ... , =a
H1 : Al menos un par de medias poblacionales difiere
Algebraicamente, en el contexto del ANAVA, existe una forma conveniente de expresar
la magnitud de la variabilidad debida a los bloques en el contexto de las otras fuentes
de variación intervinientes:
SCTotal = SCtratamiento + SCbloque + SCerror
Es decir que la suma de los desvíos cuadrados de cada observación con respecto a la
media general puede ser particionada en tres sumas de cuadrados, una indicadora de
las diferencias entre tratamientos: Suma de Cuadrados de Tratamientos
(SCtratamiento), otra de la diferencia entre bloques: Suma de Cuadrados de Bloques
(SCbloque) y otra que expresa la variación aleatoria de unidades experimentales que
recibieron el mismo tratamiento después de descontar las variaciones debidas a las
diferencias entre bloques, es decir el error experimental: Suma de Cuadrados del Error
(SCerror). Si las diferencias entre unidades experimentales debidas al factor de bloqueo
no son considerada, es decir si omitimos el efecto bloque en el modelo, la Suma de
Cuadrados de Bloques se adiciona a la Suma de Cuadrados del Error. Así, el error
experimental aumenta y como consecuencia se pierde eficiencia en la prueba de la
hipótesis de interés. Los resultados del ANAVA también se presentan en una tabla igual
al DCA, excepto que debido al bloqueo de las UE habrá una fila de la tabla indicando la
variabilidad de la respuesta entre bloques.
La comparación entre las medias de bloques, en general, no es de interés:
1- porque por construcción se espera que sean diferentes
2- porque en general no se asocian con cuestiones de interés, sólo responden a un
factor que se debe controlar, es decir a una estrategia para evaluar los tratamientos
en forma más precisa. Pero el principal interés recae siempre en la comparación de
tratamientos.
3- porque la aleatorización fue realizada solo dentro de los bloques. Tal restricción de
aleatorización hace que el estadístico construido entre CMBloque y CMError no siga
una distribución F teórica. No obstante, el cociente puede ser usado para realizar
sugerencias sobre la necesidad de bloqueo en experiencias futuras similares a la
realizada.
Como se presentó para el modelo de ANAVA correspondiente a un DCA, los valores
ajustados o predichos por el modelo permiten calcular los residuos que se usarán para
evaluar el cumplimiento de los supuestos que sustentan al ANAVA clásico.
305
Análisis de experimentos con varios criterios de clasificación
Aplicación
DBCA en ensayo comparativo de variedades de trigo
Para evaluar la adpatación y potenciales de rendimientos de un conjunto de variedades
bajo las condiciones de clima y suelo de una región, es común que se implementen
ensayos comparativos de rendimiento. En el ensayo usado en esta ilustración se
compararon 10 variedades de trigo en un DBCA con 3 repeticiones, una de las
variedades es la variedad comercial (testigo) de mayor difusión en la región y las otras 9
son variedades que se pretenden introducir comercialmente porque se supone superan
a la variedad testigo. Los datos se encuentran en el archivo [trigo].
A continuación se presentan los resultados obtenidos luego de seleccionar a la variable
“Rendimiento” como dependiente, al factor bloque (factor de control) y al factor
variedad (factor tratamiento) como criterios de clasificación en el Menú de ANAVA de
InfoStat.
306
Análisis de experimentos con varios criterios de clasificación
Cuadro 10.1: ANAVA para un DBCA donde el factor “Bloque” representa el factor de control
experimental y el factor “Variedad” el tratamiento
Análisis de la varianza
Variable N R² R² Aj CV
Rendimiento 30 0.92 0.87 5.33
Se observa que los criterios de ajuste del modelo son buenos, que existe poca
variabilidad residual, que el modelo explica alto porcentaje de la variabilidad en los
datos de rendimiento (92%). Al menos una variedad muestra diferencias
estadísticamente significativas (P<0,0001) respecto a las otras en lo que se refiere al
promedio de sus rendimientos. La prueba LSD muestra que l rendimiento logrado con
las variedades V2 y V6, fueron estadísticamente inferior al obtenido con el testigo
comercial, que la variedad V1 no se diferenció estadísticamente del testigo y que las
restantes variedades sí superan estadísticamente el rendimiento del testigo comercial
bajo las condiciones ambientales del ensayo. El valor p en la fila en la que se encuentra
el efecto de bloque sugiere que fue oportuna la decisión de usar un DBCA ya que las
diferencias de rendimientos de distintos bloques no fueron menor.
307
Análisis de experimentos con varios criterios de clasificación
Los modelos factoriales se conocen como modelos de efectos aditivos si los términos
que modelan la interacción están ausentes y como modelo con efectos multiplicativos
de interacción si además de los efectos principales de cada uno de los dos factores se
adiciona un término que se refiere al efecto que surge del producto de los dos
(interacción).
donde Yij representa la respuesta al i-ésimo nivel del factor A y j-ésimo nivel de factor
B, representa una media general, i el efecto que produce el i-ésimo nivel del factor
A (con a niveles), j corresponde al efecto del j-ésimo nivel del factor B (con b niveles)
y ij es el término de error aleatorio asociado a la observación ij-ésima que como
siempre se supone es una variable aleatoria normal, con esperanza cero y varianza 2.
308
Análisis de experimentos con varios criterios de clasificación
La tabla del ANAVA para un bifactorial tiene dos filas en lugar de una (como en el DCA a
un criterio de clasificación) para evaluar los tratamientos. Cada fila se asocia a un factor
tratamiento. Si el modelo es aditivo, la interacción no está presente. No obstante lo más
frecuente es que también haya un termino en el modelo (y por tanto una fila en la tabla
de ANAVA) para el factor interacción.
Aplicación
Diseño bifactorial sin repeticiones
Para ejemplificar una situación donde hay dos factores de interés y no existen
repeticiones para cada tratamiento definido por la combinación de éstos se presenta un
experimento factorial en el que es de interés estudiar los factores cepa usada en la
inoculación de alfalfa con tres niveles y el factor cultivar de alfalfa con cinco niveles en
la producción de forraje.
Supongamos que los 3×5=15 tratamientos resultantes se asignan a las UE (parcelas)
según un diseño completamente aleatorizado. Se conoce por experiencias previas (o se
supone) que no hay interacción entre los efectos de cepa y cultivar y por tanto el efecto
de interacción no se incluirá en el modelo de análisis. Los factores se han designado
como C (cepa) y CV (cultivar). Los 15 tratamientos de interés surgen del cruzamiento de
ambos factores, es decir cada nivel de un factor se asocia con cada uno de los niveles
del otro. En este experimento, cada uno de los tratamientos se evaluó una sola vez, es
decir los tratamientos combinatoriales no están repetidos. No obstante esto, existen
repeticiones para cada nivel de un factor si éste se observa a través de los niveles del
otro. La variable observada es el rendimiento. Los datos están en el archivo [Alfalfa]. Se
presenta a continuación los resultados obtenidos mediante el ANAVA de InfoStat, luego
de haber seleccionado al Rendimiento como variable respuesta o dependiente, y a los
factores “Cepa” y “Cultivar” como criterios de clasificación.
309
Análisis de experimentos con varios criterios de clasificación
Cuadro 10.2: ANAVA de un experimento con DCA y dos factores sin interacción.
Análisis de la varianza
Variable N R² R² Aj CV
Rendimiento 18 0.90 0.83 3.77
Se concluye que hay efecto de cepa solo marginalmente (p=0,06); este efecto es
significativo si se trabaja con un alfa del 10% pero no si se trabaja con un alfa del 5%.
Por el contrario, si existen claras evidencias de efecto de cultivar o genotipo (p=0,0001).
En el caso del factor cepa, al no ser significativo para el nivel de significancia que fijamos
a priori, no se realizan pruebas de comparaciones múltiples. Para el factor cultivar, por
tener cinco niveles y un valor p que sugiere que al menos un cultivar difiere
estadísticamente de los otros, se necesita indagar más. Esto se puede realizar haciendo
comparación múltiples de medias a posteriori del ANAVA. Se solicitó una prueba LSD de
Fisher para conocer cuál o cuáles de las medias de cultivar son diferentes. En el
siguiente gráfico se visualiza la diferencia promedio entre CV, como así también la
posible interacción entre los efectos de cepa y cultivar. No obstante, por la falta de
repeticiones en el ensayo, este efecto de interacción no puede evaluarse
estadísticamente, es decir no podemos decir si la interacción que se observa en la figura
es azarosa o se puede atribuí a un patrón real de diferencias entre cepas que cambian
con los cultivares.
310
Análisis de experimentos con varios criterios de clasificación
Figura 10.4. Rendimiento según tratamientos definidos por la combinación del cultivar usado y la
cepara de la inoculación recibida.
311
Análisis de experimentos con varios criterios de clasificación
donde Yijk representa la respuesta en la k-ésima repetición del i-ésimo nivel del factor
A y j-ésimo nivel de factor B, representa la media general, i el efecto que produce el
i-ésimo nivel del factor A, j corresponde al efecto del j-ésimo nivel del factor B y los
términos ij representan los efectos adicionales (interacciones) de las combinaciones de
los niveles de los factores. Los términos de error ijk asociados a cada observación se
suponen como es usual, normal e independientemente distribuidos con esperanza cero
y varianza común 2. La tabla de ANAVA tendrá una fila extra, para evaluar la
significancia de la interacción. En general, si esta resulta significativa se estudia la
interacción y no los efectos principales de los factores. Mientras que si la interacción no
es significativa se analiza el efectos de cada factor separadamente y en término de las
medias de sus niveles.
Aplicación
DCA con estructura bifactorial de tratamientos y repeticiones
Las investigaciones en agricultura deben orientarse al desarrollo y aplicación de
tecnologías que incrementen las fuentes primarias de alimento pero de manera social,
económica y ambientalmente sustentable. La alimentación de la población mundial
requiere cada vez más de un sistema de agricultura sostenible que pueda mantener el
ritmo de crecimiento de la población. Los pronosticados aumentos de temperaturas y
de lluvia hacen pensar que, en Argentina, seguirá avanzando la frontera agrícola,
incrementándose la necesidad de cambios tecnológicos rápidos para no perder
sostenibilidad. Las mayores escalas de producción agrícola, así como el incremento en el
costo de la tierra y la necesidad de bajar el nivel de insumos destinados a la producción
plantean fuertes motivaciones para la adaptación a la innovación tecnológica. La
agricultura de precisión que habilita el manejo sitio específico de los lotes constituye un
enfoque prometedor para favorecer una agricultura sostenible.
312
Análisis de experimentos con varios criterios de clasificación
313
Análisis de experimentos con varios criterios de clasificación
Cuadro 10.3: ANAVA de un experimento con DCA y dos factores con interacción
Análisis de la varianza
Variable N R² R² Aj CV
Rendimiento 18 0.98 0.96 0.91
314
Análisis de experimentos con varios criterios de clasificación
Aplicación
Ensayo para comparar calidad de embalaje
En un establecimiento agropecuario que embala productos perecederos es de particular
importancia la resistencia de los embalajes. El material de embalaje es plástico
termocontraible y los productos envasados deben pasar por un horno a cierta
temperatura para lograr que el envoltorio plástico se contraiga. La empresa ha estado
embalando los productos con un método tradicional que no le ha dado los resultados
esperados.
Decide entonces evaluar nuevos materiales de embalaje. En el mercado le ofrecen 2
nuevos materiales (N1 y N2) que, a diferencia del tradicional, requieren circulación de
aire al entrar al horno. La velocidad de circulación del aire depende del tamaño de los
productos a embalar, por lo que se decide probar 3 velocidades distintas para el
ventilador (1000, 2000 y 3000 rpm). De la combinación de los factores: material, con 2
niveles, y velocidad del ventilador, con 3 niveles, surge una estructura factorial con 6
tratamientos.
Se decide hacer 3 repeticiones para la experiencia, pero como no se puede realizar todo
el ensayo en un solo turno de trabajo, se hace una corrida del experimento en cada uno
de tres turnos, mañana, tarde y noche (M, T y N respectivamente). Si bien no interesa
evaluar el factor turno, este se modela para descontar las posibles diferencias en la
respuesta para cada uno de ellos, es decir se lo usa como factor de bloqueo. La variable
que se mide para evaluar los tratamientos es la resistencia del embalaje, medida en una
escala de 0 a 100. Los datos están en el archivo [Embalaje].
Estrategia de análisis
Se ajustará un ANAVA para un DBCA con estructura factorial de tratamientos, es decir
una combinación de los modelos discutidos en este Capítulo. El modelo de análisis es:
Yijk= + Materiali + Velocidad + Material*Velocidadij + Turnok +ijk
La forma de solicitar este modelo en InfoStat es seleccionando “resistencia” como
Variable dependiente, Velocidad, Material y Bloque como Variables de clasificación y
presionando Aceptar. En la ventana de diálogo del modelo, especificar la ecuación del
modelo de la siguiente manera:
315
Análisis de experimentos con varios criterios de clasificación
Luego del ajuste, una vez corrobarando el cumplimiento de los supuestos estadísticos
del modelo a través del análisis de los residuos, se procederá a comparar las medias de
los factores, es decir estudiar los efectos principales si no hay interacción significativa. Si
la interacción Material*Velocidad resultase significativa se abrirá la interacción
limitando las comparaciones de los efectos de un factor dentro de cada uno de los
niveles del otro factor.
Cuadro 10.4: Resultados de un ANAVA para un diseño bifactorial en BCA Análisis de la
varianza.
Análisis de la varianza
Variable N R² R² Aj CV
Resistencia 18 0,96 0,93 13,60
316
Análisis de experimentos con varios criterios de clasificación
1.42
0.48
RE_Resistencia -0.45
-1.38
-2.31
10 20 30 40 50 60 70 80 90 100
PRED_Resistencia
317
Análisis de experimentos con varios criterios de clasificación
75
Resistencia (%)
50
25
0
N1 N2
Material
Conclusión
Si bien la hipótesis sobre efecto turno no es de interés y por las restricciones a la
aleatorización que implica el hecho de que los tratamientos se asignaron al azar dentro
de cada turno la prueba F para turno no es válida. Se recomienda el uso del material N1
con la velocidad 2000 ya que esta velocidad (con este material) permite obtener la
mejor de las resistencias, siendo este valor no diferente al obtenido con más rpm y por
tanto más trabajo.
318
Análisis de experimentos con varios criterios de clasificación
características que los datos relevados. Si esto sucediera, las inferencias basadas en un
modelo alejado de los datos no resultarán confiables.
La idea es construir modelos a partir de una clase de modelos que representen
apropiadamente el proceso generador de datos y la naturaleza de los datos disponibles.
Debido a la complejidad de los fenómenos aleatorios de origen biológico, la
Bioestadística se expande continuamente en lo que se refiere a tipos o clases de
modelos que se podrían ajustar a un conjunto de datos biológicos. También crece la
disciplina a nivel de métodos de estimación de los parámetros del modelo para tales
clases.
Por ejemplo, hemos aprendido que en los modelos de efectos fijos existe una única
componente aleatoria, que denominamos el término de error, que permite ajustar las
diferencias entre los valores observados y aquellos predichos por el modelo. Para esa
componente aleatoria es necesario especificar las características de la distribución de
probabilidad asociada. Los efectos de los parámetros son constantes fijas y atribuibles
a un conjunto finito de niveles de un factor, que ocurren en los datos y sobre los cuales
se desea hacer inferencia. Bajo los supuestos del modelo de muestreo ideal, las tablas
de ANAVA basadas en mínimos cuadrados ordinarios proveen el método natural para
las estimaciones de interés en el marco de los modelos de efectos fijos como los
presentados.
Pero, este tipo de modelos ¿es suficiente para atender una adecuada representación de
la realidad en todo momento? ¿Porqué siempre considerar a los efectos de los factores
como constantes fijas?
La respuesta a ambas preguntas es: los modelos que hemos aprendido en este curso
introductorio son sólo algunos de los que conforman el cuerpo conceptual de la
Bioestadística actual.
Por ejemplo, a veces es necesario o conveniente considerar a un factor como aleatorio.
Supongamos que 15 operarios que están trabajando en una plantación frutal son
seleccionados al azar desde cada una de tres lotes de un establecimiento agropecuario
los cuales pueden ser diferentes en cuanto a la dureza del suelo. Se registra la variable
profundidad del hollado que realizan para la plantación sobre 5 hoyos producidos por la
misma persona. Uno de los objetivos del estudio es comparar los tres lotes de
plantación en estudio, vale decir se desea estimar y comparar los efectos de estos lotes.
El factor lote se incorporará al modelo como un factor de efectos fijos. Sin embargo,
también existe interés en conocer cuál es la variación de la profundidad del hoyado
debida al operario que interviene en la producción del mismo. No se desea estimar y
comparar los efectos de las personas que casualmente intervinieron en esta muestra.
Sino que, suponiendo que ellos podrían proveer una estimación de la variabilidad
debida al factor mano de obra, se desea estimar la magnitud de dicha fuente de
variación. El factor operario se incorporará al modelo como un factor de efectos
aleatorios.
Si se trabaja con un modelo de ANAVA con ambos tipos de efectos en el modelo,
efectos fijos y aleatorios, entonces el modelo se llama Modelo Mixto. Asumiendo los
efectos de operario como aleatorios, el interés del análisis también recaerá en la
319
Análisis de experimentos con varios criterios de clasificación
estimación de la varianza de esos efectos. Luego, para modelar los datos de este
ejemplo, consideramos que existen 2 criterios de clasificación, uno fijo y otro aleatorio y
que por tanto el modelo contiene 2 fuentes aleatorias de variación: varianza entre
operarios y varianza residual. Ambas explican la variación en la respuesta y por ello se
conocen como componentes de varianza.
Bajo el Modelo Lineal Mixto (MLM), la varianza de la variable en estudio es la suma de
estas las distintas componentes de varianza. En los MLM sólo es necesario sostener el
supuesto de normalidad, pudiendo lograr estimaciones en casos de datos que no son
independientes y/o en casos donde las varianzas no son homogéneas. La mayor
flexibilidad del modelo mixto de ANAVA ha expandido, de manera importante, la
selección de ésta técnica con respecto al ANAVA del modelo lineal general.
320
Análisis de experimentos con varios criterios de clasificación
321
Análisis de experimentos con varios criterios de clasificación
Ejercicios
Ejercicio 10.1: Los datos siguientes corresponden a un experimento realizado por Charles
Darwin en 1876. En cada maceta se plantan dos brotes de maíz, uno producido por
fertilización cruzada, y el otro por auto-fertilización. El objetivo era mostrar las ventajas de la
fertilización cruzada. Los datos son las alturas finales de las plantas después de un período
de tiempo, se encuentran en el archivo [Cruzamientos].
a) ¿Alguno de los dos tipos de maíz es demostrablemente mejor?
b) Si es así, ¿cómo se puede describir la diferencia?
Ejercicio 110.2: Se dan los tiempos de sobrevida (en unidades de 10 horas) de animales,
sometidos a 3 tipos de veneno, y 4 tratamientos antitóxicos. Los datos se encuentran en el
archivo [Veneno].
a) Describir la influencia de los dos factores en la sobrevida, analizando primero la
existencia o no de interacción entre ambos.
Ejercicio 10.3: El siguiente conjunto de datos corresponde a proteína bruta en leche obtenida
con dos suplementos (A y B) en dos dosis (1 y 2). Cada observación corresponde al contenido
de proteína bruta en leche de una muestra compuesta obtenida por tambo.
Tambo Control A1 A2 B1 B2
323
Análisis de experimentos con varios criterios de clasificación
Hembras Machos
Temp. (C) Rep 1 Rep 2 Rep 3 Rep 4 Rep 1 Rep 2 Rep 3 Rep 4
16 29.2 32.5 34.6 32.6 27.2 24.7 27.3 26.2
21 30.1 30.4 31.4 35.8 26.7 26.5 27.2 27.2
25 31.6 30.2 29.5 30.0 26.2 26.3 28.2 26.2
28 29.6 28.4 28.4 28.1 24.8 25.4 25.6 26.2
a) Identificar el modelo lineal para este experimento.
b) Representar gráficamente los valores medios según sexo y temperatura.
c) Construir la tabla de análisis de la varianza correspondiente.
d) Concluir sobre el efecto de la temperatura y el sexo sobre la expresión del largo de la
cola y relacione sus conclusiones con la representación gráfica obtenida en ´b´.
Ejercicio 10.5: Considere el Ejercicio 10.4 suponga que debido al tamaño del experimento las
repeticiones se realizaron en laboratorios diferentes. Considere que las repeticiones como
bloques.
a) Identificar el modelo lineal para las observaciones de este experimento.
b) Construir una tabla de análisis de la varianza.
c) Concluir sobre la acción del sexo, la temperatura y su eventual interacción.
Ejercicio 10.6: Se realizó un experimento para estudiar el efecto de la cepa y del sustrato en
la producción de un hongo comestible conocido como Gírgola (Pleorotus ostratus). Para la
realización del ensayo se utilizaron bolsas del mismo material y en cada bolsa se colocó un
tipo de sustrato en el que se sembró un tipo de cepa. Se evaluaron 3 cepas colocando cada
una de ellas en cada tipo de sustrato. Los sustratos fueron: Paja de trigo + aserrín de álamo
(PT-A), Paja de alfalfa + aserrín de álamo (PA-A) y Paja de trigo (PT). Se emplearon 4 bolsas
por tratamiento evaluándose, al final del periodo de cultivo, el rendimiento en kg por bolsa.
A continuación se presentan los resultados obtenidos con el análisis de la varianza y un
gráfico construido para el problema:
324
Análisis de experimentos con varios criterios de clasificación
Análisis de la varianza
Variable N R² R² Aj CV
Rend 36 0.72 0.64 11.16
2.23
1.97
Rendimiento
1.70
1.43
1.17
PT-A PA-A PT
sustrato
325
Análisis de experimentos con varios criterios de clasificación
Asignar a cada una de las siguientes afirmaciones una V o una F según sea Verdadera o Falsa
Según el ANAVA se usó un modelo para un diseño completamente aleatorizado con
arreglo factorial de tratamientos
El gráfico indica una interacción significativa entre sustrato y cepa
Los resultados muestran que no habría efecto del factor cepa
Los resultados del ANAVA indican una interacción estadísticamente significativa
entre los dos factores
Con el sustrato paja de alfalfa + aserrín de álamo, se obtuvo el menor rendimiento
promedio
Para comparar los resultados de los distintos sustratos es necesario hacerlo dentro
de cada cepa
El efecto de cepa no se puede evaluar por presencia de interacción
La cepa 2 produce un decrecimiento estadísticamente significativo del rendimiento
respecto de al menos alguna de las otras cepas, independientemente del sustrato
326
Redes
Capítuló 11
Ensayós multiambiéntalés
cómparativós dé
réndimiéntós
Mónica Balzarini
Biometría|325
Ensayós
multiambiéntalés
cómparativós dé
réndimiéntós
Motivación
Los datos provenientes de redes de ensayos comparativos, conducidos a campo en
numerosos ambientes (ensayos multiambientales) son importantes en agricultura
porque proveen conocimientos específicos del material vegetal disponible para cultivo y
sus relaciones con los ambientes donde pueden producirse dentro de una región de
interés. El término genotipo se refiere a un cultivar o a un híbrido. El término ambiente
se relaciona al conjunto de climas, suelos, factores bióticos (plagas y enfermedades) y
condiciones de manejo de un ensayo individual en una localidad determinada en un
año. La exploración de patrones de interacción Genotipo*Ambiente, ofrece
posibilidades, especialmente en la selección y adopción de genotipos que muestren
interacción positiva con algunas localidades y sus condiciones ambientales
prevalecientes (exploración de adaptación específica) o de genotipos con baja
frecuencia de rendimientos pobres o fracaso del cultivo (exploración de estabilidad de
rendimientos, adaptación en sentido amplio).
En este Capítulo se ejemplifica el análisis de una red de ensayos a partir de técnicas y
métodos estadísticos que hemos aprendido en este curso. El objetivo de este Capítulo
es ilustrar cómo se integra el uso de herramientas de análisis estadístico en un
problema particular. Se ha seleccionado el análisis de redes de ensayos porque incluye
conceptos de diseño de experimentos, particularmente diseño en bloques completos al
azar y diseño factorial e ilustra el uso de gráficos presentados en el Capítulo 1, como
los biplots y los diagramas de dispersión, a modo de herramientas complementarias. El
problema agronómico que se aborda tiene que ver con la respuesta de una pregunta
329
Redes de ensayos comparativos
339
Red de ensayos comparativos
331
Redes de ensayos comparativos
Componentes Principales y por ello los resultados pueden viasualizarse en gráficos del
tipo Biplot.
Estos modelos con efectos de Genotipo, Ambiente e interacción modelada vía ACP,
suelen denominarse modelos lineales-bilineales. El nombre se debe a que el modelo
para la respuesta del genotipo i en el ambiente j comprende una parte sistemática que
involucra los efectos aditivos principales de genotipo y ambiente (componentes
lineales) como así también uno o más términos multiplicativos para explicar patrones en
el término de interacción Genotipo*Ambiente (componentes bilineales).
Comúnmente la parte aleatoria del modelo involucra al término de error y a la varianza
residual del término de interacción, i.e. la parte de la interacción GE no explicada por el
modelo multiplicativo. Proceduralmente, la estimación de los parámetros de interacción
Genotipo*Ambiente en un modelo lineal-bilineal y para tablas de datos balanceadas (es
decir cuando se tienen todos los Genotipos en todos los Ambientes) se hace por medio
del Análisis de Componentes Principales de una matriz Z que contiene los residuos del
modelo de ANAVA bifactorial aditivo, es decir luego de ajustar por el modelo de efectos
principales. El análisis de esta matriz de residuos provee los scores de genotipos y
ambientes respectivamente. Generalmente los dos primeros términos multiplicativos o
componentes principales (CP1 y CP2) son suficientes para explicar los principales
patrones de interacción; la variabilidad remanente en la matriz de efectos de
interacción se interpreta como ruido o variabilidad no asociada a patrones significativos
y por tanto repetibles de interacción.
Los primeros modelos lineales-bilineales usados en redes de ensayos agrícolas
multiambientales fueron llamados modelos de efectos aditivos e interacción
multiplicativa o modelos AMMI (del inglés, Additive Maineffects and Multiplicative
Interaction) por Gauch (1988). Realizado el análisis de componentes principales, el
biplot de la CP1 y CP2 es usado para identificar asociaciones entre genotipos y
ambientes. Marcadores de genotipo con valores altos de CP1 sugieren que los
rendimientos de estos genotipos se correlacionan positivamente con los ambientes que
también tienen scores altos de CP1. Vale decir, el genotipo muestra alguna ventaja,
relativa a los otros genotipos y a lo sucedido en otros ambientes, en ese ambiente. Los
genotipos con valores altos de CP1 se correlacionan negativamente con ambientes con
valores bajos de CP1.
Genotipos con valores cercanos a cero en la CP1 son interpretados como adaptados a
los ambientes de prueba o de menor contribución en la interacción
Genptipo*Ambiente, es decir más estables. Mientras más alta es la CP1, más
interacción. Por ello, es común que luego del Biplot, también se presente una gráfica
relacionando producción (medias de rendimiento por genotipo) y estabilidad (valores
de CP1 promedio para cada Genotipo). Generalmente esta medida de estabilidad se
expresa en escala estandarizada y al cuadrado, así es posible asignar valores umbrales
para decidier si la interacción, medida a través de esta función de la CP1, sugiere que la
inestabilidad es significativa o no.
332
Red de ensayos comparativos
Aplicación
Red de ensayos de Trigo
Se analizarán a modo ilustrativo ensayos que fueron conducidos en 5 ambientes
correspondientes a distintas localidades del área de cultivo de trigo en el Sur de la
Región Triguera. En cada ambiente se usaron dos repeticiones para cada una de 7
variedades de trigo usando un diseño de parcelas de bloques completos al azar para
controlar el efecto de diferencias de altitud (“loma” y “bajo”) que se observaron en cada
sitio. Cada unidad experimental (parcela) tenía 6 metros de ancho y 200 mts de largo.
Por las dimensiones de las unidades experimentales, se suele usar el nombre de
macroparcelas. Este tipo de parcelas se usa comúnmente en ensayos a campo donde se
evalúan materiales precomerciales con materiales comerciales usados como testigos y
se desa cultivar a los genotipos en las condiciones habituales de trabajo del productor
ya que el objetivo principal del ensayo es la recomendación de cultivares para el
productor en su ambiente específico.
En el ejemplo que se presenta, se sembraron variedades de trigo de ciclo intermedio a
largo. Las fechas de siembra y las prácticas culturales fueron las recomendadas en cada
ambiente. Todos los lotes usados en esta red de ensayo habían sido cultivados con soja
de primera como antecesor. De esta manera hay menos posibilidad de que el efecto del
cultivo antecesor se confunda con efectos de cultivar. Todos los ensayos contaron con
buena cantidad de agua útil para el cultivar al momento de la siembra. La
macroparcelas se cosecharon con la maquinaria que usa el productor y se pesaron en
monotolbas con balanza. Los datos de rendimiento de las distintas parcelas se
corrigieron re-expresándolos a todos a un mismo valor de humedad (14 % = humedad
comercial). Los datos se encuentran en el archivo [Red].
Estrategia de análisis
Primero se realizaron gráficos de barras indicando el comportamiento promedio (a
través de las repeticiones) de cada material en cada ambiente. Luego se realizó un
ANAVA bajo un modelo que incluyó los efectos de Genotipo, Ambiente,
Genotipo*Ambiente y el efecto de Bloque anidado dentro de cada ambiente. Este
último término se indica en InfoStat con la sintaxis Ambiente>Bloque.
Posteriormente se ajustó un ANAVA sin interacción (modelo aditivo) y se guardaron los
residuos. Se suponen que estos residuos miden no sólo el error experimental como en
cualquier otro modelo estadístico sino también la interacción ya que ésta no se
consideró al ajustar el modelo. Los residuos fueron primero promediados para tener
sólo un valor por combinación de Genotipo y Ambiente y luego dispuestos en una
matriz Z de tantas filas como genotipos y tantas columnas como ambientes. La matriz Z
fue sometida a un ACP y se construyó un gráfico Biplot para visualizar los resultados del
análisis de la interacción.
333
Redes de ensayos comparativos
Finalmente, con la CP1 generada a partir del ACP de la matriz de residuos del modelo
aditivo y las medias de Genotipos se realizó un gráfico de dispersión para analizar
simultánamente estabilidad y producción de cada material evaluado. A este gráfico se
le trazaron dos líneas de referencia: (1) a nivel de las ordenadas para indicar el
rendimiento promedio y (2) a nivel de las abscisas para indicar la significancia
estadística de la estabilidad o inestabilidad. Esta última se juzgó según el valor de una
variable aleatoria Chi-cuadrado con 1 grado de libertad ya que los valores del eje
corresponden al valor de la CP1 al cuadrado que teóricamente se distribuye como una
Chi-Cuadrado con un grado de libertad (Chi-cuadrado=3,84). Valores superiores
sugieren inestabilidad y valores menores estabilidad del genotipo a través de los
ambientes. Por ende, si se buscan genotipos de altos rendimientos y baja inestabilidad
ambiental, hay que observar cuáles son los genotipos situados más arriba y más hacia
la izquierda de la gráfica.
Resultados y discusión
Las gráficas descriptivas anteriores muestran que se registraron diferencias entre
cultivares en todos los ambientes, pero que estas diferencias cambian con los
ambientes. Por ejemplo, la variedad IV con un desempeño relativamente bueno en los
ambientes A, B, C y D resultó una variedad de pobre rendimiento en los ambientes E y F,
que además fueron los ambientes en promedio mas pobres o de menor rendimiento. El
ANAVA para el análisis conjunto de los ensayos de la red sugiere que la interacción
Genotipo*Ambiente es estadísticamente distinta de cero (P=0,0002). Por tanto el
análisis de los efectos principales de genotipo debiera postergarse hasta comprender
mejor el fenómeno de interacción.
334
Red de ensayos comparativos
Localidad= A Localidad= B
5500 5500
5000 5000
Rendimiento (Kg/ha)
Rendimiento (Kg/ha)
4500 4500
4000 4000
3500 3500
3000 3000
I II III IV V VI VII I II III IV V VI VII
Variedad Variedad
Localidad= C Localidad= D
5500 5500
5000 5000
Rendimiento (Kg/ha)
Rendimiento (Kg/ha)
4500 4500
4000 4000
3500 3500
3000 3000
I II III IV V VI VII I II III IV V VI VII
Variedad Variedad
Localidad= E Localidad= F
5500 5500
5000 5000
Rendimiento (Kg/ha)
Rendimiento (Kg/ha)
4500 4500
4000 4000
3500 3500
3000 3000
I II III IV V VI VII I II III IV V VI VII
Variedad Variedad
Figura 11.1. Medias de rendimiento (más E.E.) de 7 genotipos ( Variedades I,II,III,IV,V,VI y VII) en 6
ambientes de la región de cultivo (A,B,C,D,E y F).
335
Redes de ensayos comparativos
Cuadro 11.1. ANAVA para una red de ensayos comparativos de variedades de trigo
conducidos bajo un DBCA en cada ambiente
Análisis de la varianza
Variable N R² R² Aj CV
Rendimiento 84 0.91 0.80 6.05
336
Red de ensayos comparativos
1374 C
687
V
CP 2 (4.4%)
III
VI
0 VII
II D D F EE
IV I
A
-687
B
-1374
-1374 -687 0 687 1374
CP 1 (93.4%)
Figura 11.2. Biplot del ACP de los efectos de interacción entre 7 genotipos (I,II,III,IV,V,VI y VII) y 6
ambientes (A,B,C,D,E y F).
4400
VII
Rendimiento (Kg/ha)
4300
V
4200
4100
III
III
VI
4000
3900
0 1 2 3 4 5 6 7 8 9 10 11 12
Inestabilidad
337
Referencias
Référéncias
Biometría|339
Tabla de Números Aleatorios
81 4 37 23 59 51 32 71 89 37 66 28 38 49 59 49 33 77 42
82 24 34 34 71 62 74 66 32 26 75 20 47 68 86 92 81 19 9
73 34 62 51 22 38 24 28 45 44 25 68 74 68 26 64 44 79 94
76 27 21 30 62 52 44 30 84 6 44 60 31 31 39 4 18 33 59
4 48 54 8 86 7 43 52 86 63 84 74 72 91 29 96 73 5 60
18 10 75 64 40 44 2 66 24 45 58 44 73 79 66 95 25 49 80
34 100 36 14 79 51 49 35 93 97 28 4 78 2 34 58 40 9 48
53 46 39 11 61 33 12 8 70 28 2 7 87 58 7 59 2 68 48
79 25 52 36 53 64 29 57 84 26 56 11 15 69 52 42 20 12 99
66 10 24 92 19 74 100 85 39 5 39 39 58 8 49 34 41 77 70
99 84 99 91 41 88 9 33 24 99 96 98 18 89 44 93 12 17 92
50 28 33 52 84 40 21 5 49 92 21 31 2 62 53 13 96 69 85
76 55 77 53 13 39 64 43 58 64 31 78 56 95 49 57 2 64 56
93 35 75 28 48 100 98 48 27 12 94 27 84 43 32 18 19 13 77
7 17 21 49 100 15 59 83 10 67 99 4 26 88 33 27 80 63 73
72 38 80 72 69 22 19 17 65 68 66 84 83 97 86 8 55 74 93
7 5 58 68 42 70 2 16 23 35 60 45 35 60 43 62 69 7 58
19 34 58 54 20 91 95 72 16 37 46 57 93 31 97 2 96 81 6
40 72 65 99 49 40 10 68 88 14 11 84 22 91 55 44 79 85 84
99 37 83 34 31 43 86 58 30 67 21 2 54 27 46 11 32 43 10
2 16 91 60 88 6 26 5 58 44 97 90 90 28 12 78 67 45 5
80 7 47 41 67 64 96 49 84 42 87 33 15 28 58 64 42 49 74
53 20 35 44 18 26 47 6 1 55 6 74 62 56 23 51 78 15 19
73 88 60 42 74 2 31 32 85 40 21 42 68 35 51 58 87 5 10
32 13 59 78 14 50 89 18 41 63 35 49 67 72 31 66 79 22 14
67 51 56 9 52 98 83 41 16 43 50 27 94 48 66 6 20 43 23
95 52 3 87 98 43 17 72 50 58 31 27 92 46 31 69 72 67 27
45 67 22 41 55 27 32 44 80 34 57 10 37 30 5 65 59 27 99
82 63 70 7 59 37 61 58 99 31 33 69 10 79 32 50 56 48 78
97 50 13 19 83 27 23 55 88 57 67 8 58 76 56 62 15 76 56
46 37 31 68 62 89 98 57 60 70 24 76 44 57 86 62 83 26 59
76 22 34 79 33 45 32 43 76 7 45 12 61 24 29 20 24 45 65
44 94 14 84 72 5 19 19 61 47 18 21 41 96 17 45 63 5 6
20 65 87 43 77 46 73 38 74 18 73 62 25 18 24 68 27 64 51
34 14 3 89 68 56 33 33 67 14 9 38 58 95 32 14 54 34 65
13 80 93 61 53 61 95 63 35 52 80 83 84 61 25 76 20 13 73
35 98 76 30 2 7 1 88 19 9 39 44 39 38 40 42 60 15 10
81 33 39 20 88 46 73 62 41 93 49 53 48 40 17 40 83 12 53
19 26 69 65 72 64 9 28 14 75 57 35 25 90 49 23 83 71 30
63 36 77 14 9 94 59 3 16 100 89 93 93 97 4 69 90 97 40
53 44 47 62 82 41 77 18 59 65 31 86 41 39 78 77 24 65 79
15 63 14 64 93 89 55 27 46 27 67 38 38 26 94 24 82 86 63
85 13 32 99 4 4 46 40 95 10 33 30 98 3 53 17 86 63 93
5 83 68 8 51 95 7 37 42 38 57 99 58 74 53 42 67 1 68
49 19 61 29 69 26 39 58 4 42 22 11 99 2 53 17 13 76 5
83 76 63 26 32 66 42 55 85 15 72 78 27 51 25 82 71 38 13
58 24 35 54 45 36 69 36 41 92 85 16 59 99 99 12 58 19 51
29 45 5 17 94 51 56 13 55 79 39 18 62 58 9 59 36 46 45
87 4 54 61 45 75 31 68 92 96 51 76 20 41 28 80 69 88 84
95 4 25 62 86 89 90 88 21 66 33 32 6 59 82 3 67 41 44
4 44 99 80 20 29 89 21 44 33 85 77 25 26 40 50 25 47 77
34 78 11 64 83 68 5 56 53 34 32 14 90 31 57 47 82 84 31
33 23 22 97 13 28 2 91 85 67 49 41 81 74 94 28 49 82 25
56 14 92 52 25 15 60 46 29 5 54 91 58 19 88 15 29 86 36
43 77 74 77 84 66 49 38 72 84 86 77 9 4 26 69 38 65 31
343
Probabilidades bioniales
Tamaño de muestra (N), número de eventos (n) y probabilidad de ocurrencia del vento (p)
N n p=0.01 p=0.05 p=0.1 p=0.2 p=0.3 p=0.4 p=0.5 p=0.6 p=0.7 p=0.8 p=0.9 p=0.95 p=0.99
2 0 0.9801 0.9025 0.8100 0.6400 0.4900 0.3600 0.2500 0.1600 0.0900 0.0400 0.0100 0.0025 0.0001
1 0.0198 0.0950 0.1800 0.3200 0.4200 0.4800 0.5000 0.4800 0.4200 0.3200 0.1800 0.0950 0.0198
2 0.0001 0.0025 0.0100 0.0400 0.0900 0.1600 0.2500 0.3600 0.4900 0.6400 0.8100 0.9025 0.9801
3 0 0.9703 0.8574 0.7290 0.5120 0.3430 0.2160 0.1250 0.0640 0.0270 0.0080 0.0010 0.0001 0.0000
1 0.0294 0.1354 0.2430 0.3840 0.4410 0.4320 0.3750 0.2880 0.1890 0.0960 0.0270 0.0071 0.0003
2 0.0003 0.0071 0.0270 0.0960 0.1890 0.2880 0.3750 0.4320 0.4410 0.3840 0.2430 0.1354 0.0294
3 0.0000 0.0001 0.0010 0.0080 0.0270 0.0640 0.1250 0.2160 0.3430 0.5120 0.7290 0.8574 0.9703
4 0 0.9606 0.8145 0.6561 0.4096 0.2401 0.1296 0.0625 0.0256 0.0081 0.0016 0.0001 0.0000 0.0000
1 0.0388 0.1715 0.2916 0.4096 0.4116 0.3456 0.2500 0.1536 0.0756 0.0256 0.0036 0.0005 0.0000
2 0.0006 0.0135 0.0486 0.1536 0.2646 0.3456 0.3750 0.3456 0.2646 0.1536 0.0486 0.0135 0.0006
3 0.0000 0.0005 0.0036 0.0256 0.0756 0.1536 0.2500 0.3456 0.4116 0.4096 0.2916 0.1715 0.0388
4 0.0000 0.0000 0.0001 0.0016 0.0081 0.0256 0.0625 0.1296 0.2401 0.4096 0.6561 0.8145 0.9606
5 0 0.9510 0.7738 0.5905 0.3277 0.1681 0.0778 0.0312 0.0102 0.0024 0.0003 0.0000 0.0000 0.0000
1 0.0480 0.2036 0.3280 0.4096 0.3602 0.2592 0.1562 0.0768 0.0284 0.0064 0.0004 0.0000 0.0000
2 0.0010 0.0214 0.0729 0.2048 0.3087 0.3456 0.3125 0.2304 0.1323 0.0512 0.0081 0.0011 0.0000
3 0.0000 0.0011 0.0081 0.0512 0.1323 0.2304 0.3125 0.3456 0.3087 0.2048 0.0729 0.0214 0.0010
4 0.0000 0.0000 0.0005 0.0064 0.0284 0.0768 0.1562 0.2592 0.3602 0.4096 0.3280 0.2036 0.0480
5 0.0000 0.0000 0.0000 0.0003 0.0024 0.0102 0.0312 0.0778 0.1681 0.3277 0.5905 0.7738 0.9510
6 0 0.9415 0.7351 0.5314 0.2621 0.1176 0.0467 0.0156 0.0041 0.0007 0.0001 0.0000 0.0000 0.0000
1 0.0571 0.2321 0.3543 0.3932 0.3025 0.1866 0.0937 0.0369 0.0102 0.0015 0.0001 0.0000 0.0000
2 0.0014 0.0305 0.0984 0.2458 0.3241 0.3110 0.2344 0.1382 0.0595 0.0154 0.0012 0.0001 0.0000
3 0.0000 0.0021 0.0146 0.0819 0.1852 0.2765 0.3125 0.2765 0.1852 0.0819 0.0146 0.0021 0.0000
4 0.0000 0.0001 0.0012 0.0154 0.0595 0.1382 0.2344 0.3110 0.3241 0.2458 0.0984 0.0305 0.0014
5 0.0000 0.0000 0.0001 0.0015 0.0102 0.0369 0.0938 0.1866 0.3025 0.3932 0.3543 0.2321 0.0571
6 0.0000 0.0000 0.0000 0.0001 0.0007 0.0041 0.0156 0.0467 0.1176 0.2621 0.5314 0.7351 0.9415
7 0 0.9321 0.6983 0.4783 0.2097 0.0824 0.0280 0.0078 0.0016 0.0002 0.0000 0.0000 0.0000 0.0000
1 0.0659 0.2573 0.3720 0.3670 0.2471 0.1306 0.0547 0.0172 0.0036 0.0004 0.0000 0.0000 0.0000
2 0.0020 0.0406 0.1240 0.2753 0.3177 0.2613 0.1641 0.0774 0.0250 0.0043 0.0002 0.0000 0.0000
3 0.0000 0.0036 0.0230 0.1147 0.2269 0.2903 0.2734 0.1935 0.0972 0.0287 0.0026 0.0002 0.0000
4 0.0000 0.0002 0.0026 0.0287 0.0972 0.1935 0.2734 0.2903 0.2269 0.1147 0.0230 0.0036 0.0000
5 0.0000 0.0000 0.0002 0.0043 0.0250 0.0774 0.1641 0.2613 0.3177 0.2753 0.1240 0.0406 0.0020
6 0.0000 0.0000 0.0000 0.0004 0.0036 0.0172 0.0547 0.1306 0.2471 0.3670 0.3720 0.2573 0.0659
7 0.0000 0.0000 0.0000 0.0000 0.0002 0.0016 0.0078 0.0280 0.0824 0.2097 0.4783 0.6983 0.9321
8 0 0.9227 0.6634 0.4305 0.1678 0.0576 0.0168 0.0039 0.0007 0.0001 0.0000 0.0000 0.0000 0.0000
1 0.0746 0.2793 0.3826 0.3355 0.1977 0.0896 0.0313 0.0079 0.0012 0.0001 0.0000 0.0000 0.0000
2 0.0026 0.0515 0.1488 0.2936 0.2965 0.2090 0.1094 0.0413 0.0100 0.0011 0.0000 0.0000 0.0000
3 0.0001 0.0054 0.0331 0.1468 0.2541 0.2787 0.2187 0.1239 0.0467 0.0092 0.0004 0.0000 0.0000
4 0.0000 0.0004 0.0046 0.0459 0.1361 0.2322 0.2734 0.2322 0.1361 0.0459 0.0046 0.0004 0.0000
5 0.0000 0.0000 0.0004 0.0092 0.0467 0.1239 0.2187 0.2787 0.2541 0.1468 0.0331 0.0054 0.0001
6 0.0000 0.0000 0.0000 0.0011 0.0100 0.0413 0.1094 0.2090 0.2965 0.2936 0.1488 0.0515 0.0026
7 0.0000 0.0000 0.0000 0.0001 0.0012 0.0079 0.0313 0.0896 0.1977 0.3355 0.3826 0.2793 0.0746
8 0.0000 0.0000 0.0000 0.0000 0.0001 0.0007 0.0039 0.0168 0.0576 0.1678 0.4305 0.6634 0.9227
9 0 0.9135 0.6302 0.3874 0.1342 0.0404 0.0101 0.0020 0.0003 0.0000 0.0000 0.0000 0.0000 0.0000
1 0.0830 0.2985 0.3874 0.3020 0.1556 0.0605 0.0176 0.0035 0.0004 0.0000 0.0000 0.0000 0.0000
2 0.0034 0.0629 0.1722 0.3020 0.2668 0.1612 0.0703 0.0212 0.0039 0.0003 0.0000 0.0000 0.0000
3 0.0001 0.0077 0.0446 0.1762 0.2668 0.2508 0.1641 0.0743 0.0210 0.0028 0.0001 0.0000 0.0000
4 0.0000 0.0006 0.0074 0.0661 0.1715 0.2508 0.2461 0.1672 0.0735 0.0165 0.0008 0.0000 0.0000
5 0.0000 0.0000 0.0008 0.0165 0.0735 0.1672 0.2461 0.2508 0.1715 0.0661 0.0074 0.0006 0.0000
6 0.0000 0.0000 0.0001 0.0028 0.0210 0.0743 0.1641 0.2508 0.2668 0.1762 0.0446 0.0077 0.0001
7 0.0000 0.0000 0.0000 0.0003 0.0039 0.0212 0.0703 0.1612 0.2668 0.3020 0.1722 0.0629 0.0034
8 0.0000 0.0000 0.0000 0.0000 0.0004 0.0035 0.0176 0.0605 0.1556 0.3020 0.3874 0.2985 0.0830
9 0.0000 0.0000 0.0000 0.0000 0.0000 0.0003 0.0020 0.0101 0.0404 0.1342 0.3874 0.6302 0.9135
10 0 0.9044 0.5987 0.3487 0.1074 0.0282 0.0060 0.0010 0.0001 0.0000 0.0000 0.0000 0.0000 0.0000
1 0.0914 0.3151 0.3874 0.2684 0.1211 0.0403 0.0098 0.0016 0.0001 0.0000 0.0000 0.0000 0.0000
2 0.0042 0.0746 0.1937 0.3020 0.2335 0.1209 0.0439 0.0106 0.0014 0.0001 0.0000 0.0000 0.0000
3 0.0001 0.0105 0.0574 0.2013 0.2668 0.2150 0.1172 0.0425 0.0090 0.0008 0.0000 0.0000 0.0000
4 0.0000 0.0010 0.0112 0.0881 0.2001 0.2508 0.2051 0.1115 0.0368 0.0055 0.0001 0.0000 0.0000
5 0.0000 0.0001 0.0015 0.0264 0.1029 0.2007 0.2461 0.2007 0.1029 0.0264 0.0015 0.0001 0.0000
6 0.0000 0.0000 0.0001 0.0055 0.0368 0.1115 0.2051 0.2508 0.2001 0.0881 0.0112 0.0010 0.0000
7 0.0000 0.0000 0.0000 0.0008 0.0090 0.0425 0.1172 0.2150 0.2668 0.2013 0.0574 0.0105 0.0001
8 0.0000 0.0000 0.0000 0.0001 0.0014 0.0106 0.0439 0.1209 0.2335 0.3020 0.1937 0.0746 0.0042
9 0.0000 0.0000 0.0000 0.0000 0.0001 0.0016 0.0098 0.0403 0.1211 0.2684 0.3874 0.3151 0.0914
10 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0010 0.0060 0.0282 0.1074 0.3487 0.5987 0.9044
344
Probabilidades bioniales
Tamaño de muestra (N), número de eventos (n) y probabilidad de ocurrencia del vento (p)
N n p=0.01 p=0.05 p=0.1 p=0.2 p=0.3 p=0.4 p=0.5 p=0.6 p=0.7 p=0.8 p=0.9 p=0.95 p=0.99
11 0 0.8953 0.5688 0.3138 0.0859 0.0198 0.0036 0.0005 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
1 0.0995 0.3293 0.3835 0.2362 0.0932 0.0266 0.0054 0.0007 0.0000 0.0000 0.0000 0.0000 0.0000
2 0.0050 0.0867 0.2131 0.2953 0.1998 0.0887 0.0269 0.0052 0.0005 0.0000 0.0000 0.0000 0.0000
3 0.0002 0.0137 0.0710 0.2215 0.2568 0.1774 0.0806 0.0234 0.0037 0.0002 0.0000 0.0000 0.0000
4 0.0000 0.0014 0.0158 0.1107 0.2201 0.2365 0.1611 0.0701 0.0173 0.0017 0.0000 0.0000 0.0000
5 0.0000 0.0001 0.0025 0.0388 0.1321 0.2207 0.2256 0.1471 0.0566 0.0097 0.0003 0.0000 0.0000
6 0.0000 0.0000 0.0003 0.0097 0.0566 0.1471 0.2256 0.2207 0.1321 0.0388 0.0025 0.0001 0.0000
7 0.0000 0.0000 0.0000 0.0017 0.0173 0.0701 0.1611 0.2365 0.2201 0.1107 0.0158 0.0014 0.0000
8 0.0000 0.0000 0.0000 0.0002 0.0037 0.0234 0.0806 0.1774 0.2568 0.2215 0.0710 0.0137 0.0002
9 0.0000 0.0000 0.0000 0.0000 0.0005 0.0052 0.0269 0.0887 0.1998 0.2953 0.2131 0.0867 0.0050
10 0.0000 0.0000 0.0000 0.0000 0.0000 0.0007 0.0054 0.0266 0.0932 0.2362 0.3835 0.3293 0.0995
11 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0005 0.0036 0.0198 0.0859 0.3138 0.5688 0.8953
12 0 0.8864 0.5404 0.2824 0.0687 0.0138 0.0022 0.0002 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
1 0.1074 0.3413 0.3766 0.2062 0.0712 0.0174 0.0029 0.0003 0.0000 0.0000 0.0000 0.0000 0.0000
2 0.0060 0.0988 0.2301 0.2835 0.1678 0.0639 0.0161 0.0025 0.0002 0.0000 0.0000 0.0000 0.0000
3 0.0002 0.0173 0.0852 0.2362 0.2397 0.1419 0.0537 0.0125 0.0015 0.0001 0.0000 0.0000 0.0000
4 0.0000 0.0021 0.0213 0.1329 0.2311 0.2128 0.1208 0.0420 0.0078 0.0005 0.0000 0.0000 0.0000
5 0.0000 0.0002 0.0038 0.0532 0.1585 0.2270 0.1934 0.1009 0.0291 0.0033 0.0000 0.0000 0.0000
6 0.0000 0.0000 0.0005 0.0155 0.0792 0.1766 0.2256 0.1766 0.0792 0.0155 0.0005 0.0000 0.0000
7 0.0000 0.0000 0.0000 0.0033 0.0291 0.1009 0.1934 0.2270 0.1585 0.0532 0.0038 0.0002 0.0000
8 0.0000 0.0000 0.0000 0.0005 0.0078 0.0420 0.1208 0.2128 0.2311 0.1329 0.0213 0.0021 0.0000
9 0.0000 0.0000 0.0000 0.0001 0.0015 0.0125 0.0537 0.1419 0.2397 0.2362 0.0852 0.0173 0.0002
10 0.0000 0.0000 0.0000 0.0000 0.0002 0.0025 0.0161 0.0639 0.1678 0.2835 0.2301 0.0988 0.0060
11 0.0000 0.0000 0.0000 0.0000 0.0000 0.0003 0.0029 0.0174 0.0712 0.2062 0.3766 0.3413 0.1074
12 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0022 0.0138 0.0687 0.2824 0.5404 0.8864
13 0 0.8775 0.5133 0.2542 0.0550 0.0097 0.0013 0.0001 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
1 0.1152 0.3512 0.3672 0.1787 0.0540 0.0113 0.0016 0.0001 0.0000 0.0000 0.0000 0.0000 0.0000
2 0.0070 0.1109 0.2448 0.2680 0.1388 0.0453 0.0095 0.0012 0.0001 0.0000 0.0000 0.0000 0.0000
3 0.0003 0.0214 0.0997 0.2457 0.2181 0.1107 0.0349 0.0065 0.0006 0.0000 0.0000 0.0000 0.0000
4 0.0000 0.0028 0.0277 0.1535 0.2337 0.1845 0.0873 0.0243 0.0034 0.0001 0.0000 0.0000 0.0000
5 0.0000 0.0003 0.0055 0.0691 0.1803 0.2214 0.1571 0.0656 0.0142 0.0011 0.0000 0.0000 0.0000
6 0.0000 0.0000 0.0008 0.0230 0.1030 0.1968 0.2095 0.1312 0.0442 0.0058 0.0001 0.0000 0.0000
7 0.0000 0.0000 0.0001 0.0058 0.0442 0.1312 0.2095 0.1968 0.1030 0.0230 0.0008 0.0000 0.0000
8 0.0000 0.0000 0.0000 0.0011 0.0142 0.0656 0.1571 0.2214 0.1803 0.0691 0.0055 0.0003 0.0000
9 0.0000 0.0000 0.0000 0.0001 0.0034 0.0243 0.0873 0.1845 0.2337 0.1535 0.0277 0.0028 0.0000
10 0.0000 0.0000 0.0000 0.0000 0.0006 0.0065 0.0349 0.1107 0.2181 0.2457 0.0997 0.0214 0.0003
11 0.0000 0.0000 0.0000 0.0000 0.0001 0.0012 0.0095 0.0453 0.1388 0.2680 0.2448 0.1109 0.0070
12 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0016 0.0113 0.0540 0.1787 0.3672 0.3512 0.1152
13 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0013 0.0097 0.0550 0.2542 0.5133 0.8775
14 0 0.8687 0.4877 0.2288 0.0440 0.0068 0.0008 0.0001 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
1 0.1229 0.3593 0.3559 0.1539 0.0407 0.0073 0.0009 0.0001 0.0000 0.0000 0.0000 0.0000 0.0000
2 0.0081 0.1229 0.2570 0.2501 0.1134 0.0317 0.0056 0.0005 0.0000 0.0000 0.0000 0.0000 0.0000
3 0.0003 0.0259 0.1142 0.2501 0.1943 0.0845 0.0222 0.0033 0.0002 0.0000 0.0000 0.0000 0.0000
4 0.0000 0.0037 0.0349 0.1720 0.2290 0.1549 0.0611 0.0136 0.0014 0.0000 0.0000 0.0000 0.0000
5 0.0000 0.0004 0.0078 0.0860 0.1963 0.2066 0.1222 0.0408 0.0066 0.0003 0.0000 0.0000 0.0000
6 0.0000 0.0000 0.0013 0.0322 0.1262 0.2066 0.1833 0.0918 0.0232 0.0020 0.0000 0.0000 0.0000
7 0.0000 0.0000 0.0002 0.0092 0.0618 0.1574 0.2095 0.1574 0.0618 0.0092 0.0002 0.0000 0.0000
8 0.0000 0.0000 0.0000 0.0020 0.0232 0.0918 0.1833 0.2066 0.1262 0.0322 0.0013 0.0000 0.0000
9 0.0000 0.0000 0.0000 0.0003 0.0066 0.0408 0.1222 0.2066 0.1963 0.0860 0.0078 0.0004 0.0000
10 0.0000 0.0000 0.0000 0.0000 0.0014 0.0136 0.0611 0.1549 0.2290 0.1720 0.0349 0.0037 0.0000
11 0.0000 0.0000 0.0000 0.0000 0.0002 0.0033 0.0222 0.0845 0.1943 0.2501 0.1142 0.0259 0.0003
12 0.0000 0.0000 0.0000 0.0000 0.0000 0.0005 0.0056 0.0317 0.1134 0.2501 0.2570 0.1229 0.0081
13 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0009 0.0073 0.0407 0.1539 0.3559 0.3593 0.1229
14 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0008 0.0068 0.0440 0.2288 0.4877 0.8687
15 0 0.8601 0.4633 0.2059 0.0352 0.0047 0.0005 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
1 0.1303 0.3658 0.3432 0.1319 0.0305 0.0047 0.0005 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
2 0.0092 0.1348 0.2669 0.2309 0.0916 0.0219 0.0032 0.0003 0.0000 0.0000 0.0000 0.0000 0.0000
3 0.0004 0.0307 0.1285 0.2501 0.1700 0.0634 0.0139 0.0016 0.0001 0.0000 0.0000 0.0000 0.0000
4 0.0000 0.0049 0.0428 0.1876 0.2186 0.1268 0.0417 0.0074 0.0006 0.0000 0.0000 0.0000 0.0000
5 0.0000 0.0006 0.0105 0.1032 0.2061 0.1859 0.0916 0.0245 0.0030 0.0001 0.0000 0.0000 0.0000
6 0.0000 0.0000 0.0019 0.0430 0.1472 0.2066 0.1527 0.0612 0.0116 0.0007 0.0000 0.0000 0.0000
7 0.0000 0.0000 0.0003 0.0138 0.0811 0.1771 0.1964 0.1181 0.0348 0.0035 0.0000 0.0000 0.0000
8 0.0000 0.0000 0.0000 0.0035 0.0348 0.1181 0.1964 0.1771 0.0811 0.0138 0.0003 0.0000 0.0000
9 0.0000 0.0000 0.0000 0.0007 0.0116 0.0612 0.1527 0.2066 0.1472 0.0430 0.0019 0.0000 0.0000
10 0.0000 0.0000 0.0000 0.0001 0.0030 0.0245 0.0916 0.1859 0.2061 0.1032 0.0105 0.0006 0.0000
11 0.0000 0.0000 0.0000 0.0000 0.0006 0.0074 0.0417 0.1268 0.2186 0.1876 0.0428 0.0049 0.0000
12 0.0000 0.0000 0.0000 0.0000 0.0001 0.0016 0.0139 0.0634 0.1700 0.2501 0.1285 0.0307 0.0004
13 0.0000 0.0000 0.0000 0.0000 0.0000 0.0003 0.0032 0.0219 0.0916 0.2309 0.2669 0.1348 0.0092
14 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0005 0.0047 0.0305 0.1319 0.3432 0.3658 0.1303
15 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0005 0.0047 0.0352 0.2059 0.4633 0.8601
345
Probabilidades bioniales
Tamaño de muestra (N), número de eventos (n) y probabilidad de ocurrencia del vento (p)
N n p=0.01 p=0.05 p=0.1 p=0.2 p=0.3 p=0.4 p=0.5 p=0.6 p=0.7 p=0.8 p=0.9 p=0.95 p=0.99
16 0 0.8515 0.4401 0.1853 0.0281 0.0033 0.0003 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
1 0.1376 0.3706 0.3294 0.1126 0.0228 0.0030 0.0002 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
2 0.0104 0.1463 0.2745 0.2111 0.0732 0.0150 0.0018 0.0001 0.0000 0.0000 0.0000 0.0000 0.0000
3 0.0005 0.0359 0.1423 0.2463 0.1465 0.0468 0.0085 0.0008 0.0000 0.0000 0.0000 0.0000 0.0000
4 0.0000 0.0061 0.0514 0.2001 0.2040 0.1014 0.0278 0.0040 0.0002 0.0000 0.0000 0.0000 0.0000
5 0.0000 0.0008 0.0137 0.1201 0.2099 0.1623 0.0667 0.0142 0.0013 0.0000 0.0000 0.0000 0.0000
6 0.0000 0.0001 0.0028 0.0550 0.1649 0.1983 0.1222 0.0392 0.0056 0.0002 0.0000 0.0000 0.0000
7 0.0000 0.0000 0.0004 0.0197 0.1010 0.1889 0.1746 0.0840 0.0185 0.0012 0.0000 0.0000 0.0000
8 0.0000 0.0000 0.0001 0.0055 0.0487 0.1417 0.1964 0.1417 0.0487 0.0055 0.0001 0.0000 0.0000
9 0.0000 0.0000 0.0000 0.0012 0.0185 0.0840 0.1746 0.1889 0.1010 0.0197 0.0004 0.0000 0.0000
10 0.0000 0.0000 0.0000 0.0002 0.0056 0.0392 0.1222 0.1983 0.1649 0.0550 0.0028 0.0001 0.0000
11 0.0000 0.0000 0.0000 0.0000 0.0013 0.0142 0.0667 0.1623 0.2099 0.1201 0.0137 0.0008 0.0000
12 0.0000 0.0000 0.0000 0.0000 0.0002 0.0040 0.0278 0.1014 0.2040 0.2001 0.0514 0.0061 0.0000
13 0.0000 0.0000 0.0000 0.0000 0.0000 0.0008 0.0085 0.0468 0.1465 0.2463 0.1423 0.0359 0.0005
14 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0018 0.0150 0.0732 0.2111 0.2745 0.1463 0.0104
15 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0030 0.0228 0.1126 0.3294 0.3706 0.1376
16 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0003 0.0033 0.0281 0.1853 0.4401 0.8515
17 0 0.8429 0.4181 0.1668 0.0225 0.0023 0.0002 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
1 0.1447 0.3741 0.3150 0.0957 0.0169 0.0019 0.0001 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
2 0.0117 0.1575 0.2800 0.1914 0.0581 0.0102 0.0010 0.0001 0.0000 0.0000 0.0000 0.0000 0.0000
3 0.0006 0.0415 0.1556 0.2393 0.1245 0.0341 0.0052 0.0004 0.0000 0.0000 0.0000 0.0000 0.0000
4 0.0000 0.0076 0.0605 0.2093 0.1868 0.0796 0.0182 0.0021 0.0001 0.0000 0.0000 0.0000 0.0000
5 0.0000 0.0010 0.0175 0.1361 0.2081 0.1379 0.0472 0.0081 0.0006 0.0000 0.0000 0.0000 0.0000
6 0.0000 0.0001 0.0039 0.0680 0.1784 0.1839 0.0944 0.0242 0.0026 0.0001 0.0000 0.0000 0.0000
7 0.0000 0.0000 0.0007 0.0267 0.1201 0.1927 0.1484 0.0571 0.0095 0.0004 0.0000 0.0000 0.0000
8 0.0000 0.0000 0.0001 0.0084 0.0644 0.1606 0.1855 0.1070 0.0276 0.0021 0.0000 0.0000 0.0000
9 0.0000 0.0000 0.0000 0.0021 0.0276 0.1070 0.1855 0.1606 0.0644 0.0084 0.0001 0.0000 0.0000
10 0.0000 0.0000 0.0000 0.0004 0.0095 0.0571 0.1484 0.1927 0.1201 0.0267 0.0007 0.0000 0.0000
11 0.0000 0.0000 0.0000 0.0001 0.0026 0.0242 0.0944 0.1839 0.1784 0.0680 0.0039 0.0001 0.0000
12 0.0000 0.0000 0.0000 0.0000 0.0006 0.0081 0.0472 0.1379 0.2081 0.1361 0.0175 0.0010 0.0000
13 0.0000 0.0000 0.0000 0.0000 0.0001 0.0021 0.0182 0.0796 0.1868 0.2093 0.0605 0.0076 0.0000
14 0.0000 0.0000 0.0000 0.0000 0.0000 0.0004 0.0052 0.0341 0.1245 0.2393 0.1556 0.0415 0.0006
15 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0010 0.0102 0.0581 0.1914 0.2800 0.1575 0.0117
16 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0019 0.0169 0.0957 0.3150 0.3741 0.1447
17 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0023 0.0225 0.1668 0.4181 0.8429
18 0 0.8345 0.3972 0.1501 0.0180 0.0016 0.0001 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
1 0.1517 0.3763 0.3002 0.0811 0.0126 0.0012 0.0001 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
2 0.0130 0.1683 0.2835 0.1723 0.0458 0.0069 0.0006 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
3 0.0007 0.0473 0.1680 0.2297 0.1046 0.0246 0.0031 0.0002 0.0000 0.0000 0.0000 0.0000 0.0000
4 0.0000 0.0093 0.0700 0.2153 0.1681 0.0614 0.0117 0.0011 0.0000 0.0000 0.0000 0.0000 0.0000
5 0.0000 0.0014 0.0218 0.1507 0.2017 0.1146 0.0327 0.0045 0.0002 0.0000 0.0000 0.0000 0.0000
6 0.0000 0.0002 0.0052 0.0816 0.1873 0.1655 0.0708 0.0145 0.0012 0.0000 0.0000 0.0000 0.0000
7 0.0000 0.0000 0.0010 0.0350 0.1376 0.1892 0.1214 0.0374 0.0046 0.0001 0.0000 0.0000 0.0000
8 0.0000 0.0000 0.0002 0.0120 0.0811 0.1734 0.1669 0.0771 0.0149 0.0008 0.0000 0.0000 0.0000
9 0.0000 0.0000 0.0000 0.0033 0.0386 0.1284 0.1855 0.1284 0.0386 0.0033 0.0000 0.0000 0.0000
10 0.0000 0.0000 0.0000 0.0008 0.0149 0.0771 0.1669 0.1734 0.0811 0.0120 0.0002 0.0000 0.0000
11 0.0000 0.0000 0.0000 0.0001 0.0046 0.0374 0.1214 0.1892 0.1376 0.0350 0.0010 0.0000 0.0000
12 0.0000 0.0000 0.0000 0.0000 0.0012 0.0145 0.0708 0.1655 0.1873 0.0816 0.0052 0.0002 0.0000
13 0.0000 0.0000 0.0000 0.0000 0.0002 0.0045 0.0327 0.1146 0.2017 0.1507 0.0218 0.0014 0.0000
14 0.0000 0.0000 0.0000 0.0000 0.0000 0.0011 0.0117 0.0614 0.1681 0.2153 0.0700 0.0093 0.0000
15 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0031 0.0246 0.1046 0.2297 0.1680 0.0473 0.0007
16 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0006 0.0069 0.0458 0.1723 0.2835 0.1683 0.0130
17 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0012 0.0126 0.0811 0.3002 0.3763 0.1517
18 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0016 0.0180 0.1501 0.3972 0.8345
346
Probabilidades bioniales
Tamaño de muestra (N), número de eventos (n) y probabilidad de ocurrencia del vento (p)
N n p=0.01 p=0.05 p=0.1 p=0.2 p=0.3 p=0.4 p=0.5 p=0.6 p=0.7 p=0.8 p=0.9 p=0.95 p=0.99
19 0 0.8262 0.3774 0.1351 0.0144 0.0011 0.0001 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
1 0.1586 0.3774 0.2852 0.0685 0.0093 0.0008 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
2 0.0144 0.1787 0.2852 0.1540 0.0358 0.0046 0.0003 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
3 0.0008 0.0533 0.1796 0.2182 0.0869 0.0175 0.0018 0.0001 0.0000 0.0000 0.0000 0.0000 0.0000
4 0.0000 0.0112 0.0798 0.2182 0.1491 0.0467 0.0074 0.0005 0.0000 0.0000 0.0000 0.0000 0.0000
5 0.0000 0.0018 0.0266 0.1636 0.1916 0.0933 0.0222 0.0024 0.0001 0.0000 0.0000 0.0000 0.0000
6 0.0000 0.0002 0.0069 0.0955 0.1916 0.1451 0.0518 0.0085 0.0005 0.0000 0.0000 0.0000 0.0000
7 0.0000 0.0000 0.0014 0.0443 0.1525 0.1797 0.0961 0.0237 0.0022 0.0000 0.0000 0.0000 0.0000
8 0.0000 0.0000 0.0002 0.0166 0.0981 0.1797 0.1442 0.0532 0.0077 0.0003 0.0000 0.0000 0.0000
9 0.0000 0.0000 0.0000 0.0051 0.0514 0.1464 0.1762 0.0976 0.0220 0.0013 0.0000 0.0000 0.0000
10 0.0000 0.0000 0.0000 0.0013 0.0220 0.0976 0.1762 0.1464 0.0514 0.0051 0.0000 0.0000 0.0000
11 0.0000 0.0000 0.0000 0.0003 0.0077 0.0532 0.1442 0.1797 0.0981 0.0166 0.0002 0.0000 0.0000
12 0.0000 0.0000 0.0000 0.0000 0.0022 0.0237 0.0961 0.1797 0.1525 0.0443 0.0014 0.0000 0.0000
13 0.0000 0.0000 0.0000 0.0000 0.0005 0.0085 0.0518 0.1451 0.1916 0.0955 0.0069 0.0002 0.0000
14 0.0000 0.0000 0.0000 0.0000 0.0001 0.0024 0.0222 0.0933 0.1916 0.1636 0.0266 0.0018 0.0000
15 0.0000 0.0000 0.0000 0.0000 0.0000 0.0005 0.0074 0.0467 0.1491 0.2182 0.0798 0.0112 0.0000
16 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0018 0.0175 0.0869 0.2182 0.1796 0.0533 0.0008
17 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0003 0.0046 0.0358 0.1540 0.2852 0.1787 0.0144
18 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0008 0.0093 0.0685 0.2852 0.3774 0.1586
19 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0011 0.0144 0.1351 0.3774 0.8262
20 0 0.8179 0.3585 0.1216 0.0115 0.0008 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
1 0.1652 0.3774 0.2702 0.0576 0.0068 0.0005 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
2 0.0159 0.1887 0.2852 0.1369 0.0278 0.0031 0.0002 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
3 0.0010 0.0596 0.1901 0.2054 0.0716 0.0123 0.0011 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
4 0.0000 0.0133 0.0898 0.2182 0.1304 0.0350 0.0046 0.0003 0.0000 0.0000 0.0000 0.0000 0.0000
5 0.0000 0.0022 0.0319 0.1746 0.1789 0.0746 0.0148 0.0013 0.0000 0.0000 0.0000 0.0000 0.0000
6 0.0000 0.0003 0.0089 0.1091 0.1916 0.1244 0.0370 0.0049 0.0002 0.0000 0.0000 0.0000 0.0000
7 0.0000 0.0000 0.0020 0.0545 0.1643 0.1659 0.0739 0.0146 0.0010 0.0000 0.0000 0.0000 0.0000
8 0.0000 0.0000 0.0004 0.0222 0.1144 0.1797 0.1201 0.0355 0.0039 0.0001 0.0000 0.0000 0.0000
9 0.0000 0.0000 0.0001 0.0074 0.0654 0.1597 0.1602 0.0710 0.0120 0.0005 0.0000 0.0000 0.0000
10 0.0000 0.0000 0.0000 0.0020 0.0308 0.1171 0.1762 0.1171 0.0308 0.0020 0.0000 0.0000 0.0000
11 0.0000 0.0000 0.0000 0.0005 0.0120 0.0710 0.1602 0.1597 0.0654 0.0074 0.0001 0.0000 0.0000
12 0.0000 0.0000 0.0000 0.0001 0.0039 0.0355 0.1201 0.1797 0.1144 0.0222 0.0004 0.0000 0.0000
13 0.0000 0.0000 0.0000 0.0000 0.0010 0.0146 0.0739 0.1659 0.1643 0.0545 0.0020 0.0000 0.0000
14 0.0000 0.0000 0.0000 0.0000 0.0002 0.0049 0.0370 0.1244 0.1916 0.1091 0.0089 0.0003 0.0000
15 0.0000 0.0000 0.0000 0.0000 0.0000 0.0013 0.0148 0.0746 0.1789 0.1746 0.0319 0.0022 0.0000
16 0.0000 0.0000 0.0000 0.0000 0.0000 0.0003 0.0046 0.0350 0.1304 0.2182 0.0898 0.0133 0.0000
17 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0011 0.0123 0.0716 0.2054 0.1901 0.0596 0.0010
18 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0031 0.0278 0.1369 0.2852 0.1887 0.0159
19 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0005 0.0068 0.0576 0.2702 0.3774 0.1652
20 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0008 0.0115 0.1216 0.3585 0.8179
347
Probabilidades Poisson
Número de eventos en filas, parámetro lambda en columnas
n l=0.1 l=0.2 l=0.4 l=0.8 l=2 l=5 l=10 l=20 l=30 l=40 l=50
0 0.9048 0.8187 0.6703 0.4493 0.1353 0.0067 0.0000 0.0000 0.0000 0.0000 0.0000
1 0.0905 0.1637 0.2681 0.3595 0.2707 0.0337 0.0005 0.0000 0.0000 0.0000 0.0000
2 0.0045 0.0164 0.0536 0.1438 0.2707 0.0842 0.0023 0.0000 0.0000 0.0000 0.0000
3 0.0002 0.0011 0.0072 0.0383 0.1804 0.1404 0.0076 0.0000 0.0000 0.0000 0.0000
4 0.0000 0.0001 0.0007 0.0077 0.0902 0.1755 0.0189 0.0000 0.0000 0.0000 0.0000
5 0.0000 0.0000 0.0001 0.0012 0.0361 0.1755 0.0378 0.0001 0.0000 0.0000 0.0000
6 0.0000 0.0000 0.0000 0.0002 0.0120 0.1462 0.0631 0.0002 0.0000 0.0000 0.0000
7 0.0000 0.0000 0.0000 0.0000 0.0034 0.1044 0.0901 0.0005 0.0000 0.0000 0.0000
8 0.0000 0.0000 0.0000 0.0000 0.0009 0.0653 0.1126 0.0013 0.0000 0.0000 0.0000
9 0.0000 0.0000 0.0000 0.0000 0.0002 0.0363 0.1251 0.0029 0.0000 0.0000 0.0000
10 0.0000 0.0000 0.0000 0.0000 0.0000 0.0181 0.1251 0.0058 0.0000 0.0000 0.0000
11 0.0000 0.0000 0.0000 0.0000 0.0000 0.0082 0.1137 0.0106 0.0000 0.0000 0.0000
12 0.0000 0.0000 0.0000 0.0000 0.0000 0.0034 0.0948 0.0176 0.0001 0.0000 0.0000
13 0.0000 0.0000 0.0000 0.0000 0.0000 0.0013 0.0729 0.0271 0.0002 0.0000 0.0000
14 0.0000 0.0000 0.0000 0.0000 0.0000 0.0005 0.0521 0.0387 0.0005 0.0000 0.0000
15 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0347 0.0516 0.0010 0.0000 0.0000
16 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0217 0.0646 0.0019 0.0000 0.0000
17 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0128 0.0760 0.0034 0.0000 0.0000
18 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0071 0.0844 0.0057 0.0000 0.0000
19 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0037 0.0888 0.0089 0.0001 0.0000
20 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0019 0.0888 0.0134 0.0002 0.0000
21 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0009 0.0846 0.0192 0.0004 0.0000
22 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0004 0.0769 0.0261 0.0007 0.0000
23 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0669 0.0341 0.0012 0.0000
24 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0557 0.0426 0.0019 0.0000
25 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0446 0.0511 0.0031 0.0000
26 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0343 0.0590 0.0047 0.0001
27 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0254 0.0655 0.0070 0.0001
28 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0181 0.0702 0.0100 0.0002
29 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0125 0.0726 0.0138 0.0004
30 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0083 0.0726 0.0185 0.0007
31 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0054 0.0703 0.0238 0.0011
32 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0034 0.0659 0.0298 0.0017
33 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0020 0.0599 0.0361 0.0026
34 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0012 0.0529 0.0425 0.0038
35 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0007 0.0453 0.0485 0.0054
36 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0004 0.0378 0.0539 0.0075
37 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0306 0.0583 0.0102
38 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0242 0.0614 0.0134
39 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0186 0.0629 0.0172
40 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0139 0.0629 0.0215
41 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0102 0.0614 0.0262
42 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0073 0.0585 0.0312
43 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0051 0.0544 0.0363
44 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0035 0.0495 0.0412
45 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0023 0.0440 0.0458
46 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0015 0.0382 0.0498
47 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0010 0.0325 0.0530
48 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0006 0.0271 0.0552
49 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0004 0.0221 0.0563
50 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0177 0.0563
51 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0139 0.0552
52 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0107 0.0531
53 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0081 0.0501
54 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0060 0.0464
55 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0043 0.0422
56 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0031 0.0376
57 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0022 0.0330
58 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0015 0.0285
59 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0010 0.0241
60 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0007 0.0201
348
Tabla de Cuantiles de la una distribución normal estándar
z P(Z z) z P(Z z) z P(Z z) quantil z
-3.25 0.00058 -1.00 0.15866 1.25 0.89435 0.00001 -4.265
-3.20 0.00069 -0.95 0.17106 1.30 0.90320 0.0001 -3.719
-3.15 0.00082 -0.90 0.18406 1.35 0.91149 0.001 -3.090
-3.10 0.00097 -0.85 0.19766 1.40 0.91924 0.005 -2.576
-3.05 0.00114 -0.80 0.21186 1.45 0.92647 0.01 -2.326
-3.00 0.00135 -0.75 0.22663 1.50 0.93319 0.02 -2.054
-2.95 0.00159 -0.70 0.24196 1.55 0.93943 0.025 -1.960
-2.90 0.00187 -0.65 0.25785 1.60 0.94520 0.03 -1.881
-2.85 0.00219 -0.60 0.27425 1.65 0.95053 0.04 -1.751
-2.80 0.00256 -0.55 0.29116 1.70 0.95543 0.05 -1.645
-2.75 0.00298 -0.50 0.30854 1.75 0.95994 0.06 -1.555
-2.70 0.00347 -0.45 0.32636 1.80 0.96407 0.07 -1.476
-2.65 0.00402 -0.40 0.34458 1.85 0.96784 0.08 -1.405
-2.60 0.00466 -0.35 0.36317 1.90 0.97128 0.09 -1.341
-2.55 0.00539 -0.30 0.38209 1.95 0.97441 0.10 -1.282
-2.50 0.00621 -0.25 0.40129 2.00 0.97725 0.15 -1.036
-2.45 0.00714 -0.20 0.42074 2.05 0.97982 0.20 -0.842
-2.40 0.00820 -0.15 0.44038 2.10 0.98214 0.25 -0.674
-2.35 0.00939 -0.10 0.46017 2.15 0.98422 0.30 -0.524
-2.30 0.01072 -0.05 0.48006 2.20 0.98610 0.35 -0.385
-2.25 0.01222 0.00 0.50000 2.25 0.98778 0.40 -0.253
-2.20 0.01390 0.05 0.51994 2.30 0.98928 0.45 -0.126
-2.15 0.01578 0.10 0.53983 2.35 0.99061 0.50 0.000
-2.10 0.01786 0.15 0.55962 2.40 0.99180 0.55 0.126
-2.05 0.02018 0.20 0.57926 2.45 0.99286 0.60 0.253
-2.00 0.02275 0.25 0.59871 2.50 0.99379 0.65 0.385
-1.95 0.02559 0.30 0.61791 2.55 0.99461 0.70 0.524
-1.90 0.02872 0.35 0.63683 2.60 0.99534 0.75 0.674
-1.85 0.03216 0.40 0.65542 2.65 0.99598 0.80 0.842
-1.80 0.03593 0.45 0.67364 2.70 0.99653 0.85 1.036
-1.75 0.04006 0.50 0.69146 2.75 0.99702 0.90 1.282
-1.70 0.04457 0.55 0.70884 2.80 0.99744 0.91 1.341
-1.65 0.04947 0.60 0.72575 2.85 0.99781 0.92 1.405
-1.60 0.05480 0.65 0.74215 2.90 0.99813 0.93 1.476
-1.55 0.06057 0.70 0.75804 2.95 0.99841 0.94 1.555
-1.50 0.06681 0.75 0.77337 3.00 0.99865 0.95 1.645
-1.45 0.07353 0.80 0.78814 3.05 0.99886 0.96 1.751
-1.40 0.08076 0.85 0.80234 3.10 0.99903 0.97 1.881
-1.35 0.08851 0.90 0.81594 3.15 0.99918 0.975 1.960
-1.30 0.09680 0.95 0.82894 3.20 0.99931 0.98 2.054
-1.25 0.10565 1.00 0.84134 3.25 0.99942 0.99 2.326
-1.20 0.11507 1.05 0.85314 3.30 0.99952 0.995 2.576
-1.15 0.12507 1.10 0.86433 3.35 0.99960 0.999 3.090
-1.10 0.13567 1.15 0.87493 3.40 0.99966 0.9999 3.719
-1.05 0.14686 1.20 0.88493 3.45 0.99972 0.99999 4.265
349
Tabla de Cuantiles de la Distribución T de Student
En el margen superior se leen los cuatiles y en el margen izquierdo los grados de libertad (). Esta tabla tabula valores
P(Tt) para t>0. Si se buscan valores de t<0 los cuantiles se leen en el margen inferior.
0.7000.725 0.750 0.775 0.800 0.825 0.850 0.875 0.900 0.925 0.950 0.975 0.990 0.995
1 0.727 0.854 1.000 1.171 1.376 1.632 1.963 2.414 3.078 4.165 6.314 12.71 31.82 63.66
2 0.617 0.713 0.816 0.931 1.061 1.210 1.386 1.604 1.886 2.282 2.920 4.303 6.965 9.925
3 0.584 0.671 0.765 0.866 0.978 1.105 1.250 1.423 1.638 1.924 2.353 3.182 4.541 5.841
4 0.569 0.652 0.741 0.836 0.941 1.057 1.190 1.344 1.533 1.778 2.132 2.776 3.747 4.604
5 0.559 0.641 0.727 0.819 0.920 1.031 1.156 1.301 1.476 1.699 2.015 2.571 3.365 4.032
6 0.553 0.633 0.718 0.808 0.906 1.013 1.134 1.273 1.440 1.650 1.943 2.447 3.143 3.707
7 0.549 0.628 0.711 0.800 0.896 1.001 1.119 1.254 1.415 1.617 1.895 2.365 2.998 3.499
8 0.546 0.624 0.706 0.794 0.889 0.993 1.108 1.240 1.397 1.592 1.860 2.306 2.896 3.355
9 0.543 0.621 0.703 0.790 0.883 0.986 1.100 1.230 1.383 1.574 1.833 2.262 2.821 3.250
10 0.542 0.619 0.700 0.786 0.879 0.980 1.093 1.221 1.372 1.559 1.812 2.228 2.764 3.169
11 0.540 0.617 0.697 0.783 0.876 0.976 1.088 1.214 1.363 1.548 1.796 2.201 2.718 3.106
12 0.539 0.615 0.695 0.781 0.873 0.972 1.083 1.209 1.356 1.538 1.782 2.179 2.681 3.055
13 0.538 0.614 0.694 0.779 0.870 0.969 1.079 1.204 1.350 1.530 1.771 2.160 2.650 3.012
14 0.537 0.613 0.692 0.777 0.868 0.967 1.076 1.200 1.345 1.523 1.761 2.145 2.624 2.977
15 0.536 0.612 0.691 0.776 0.866 0.965 1.074 1.197 1.341 1.517 1.753 2.131 2.602 2.947
16 0.535 0.611 0.690 0.774 0.865 0.963 1.071 1.194 1.337 1.512 1.746 2.120 2.583 2.921
17 0.534 0.610 0.689 0.773 0.863 0.961 1.069 1.191 1.333 1.508 1.740 2.110 2.567 2.898
18 0.534 0.609 0.688 0.772 0.862 0.960 1.067 1.189 1.330 1.504 1.734 2.101 2.552 2.878
19 0.533 0.609 0.688 0.771 0.861 0.958 1.066 1.187 1.328 1.500 1.729 2.093 2.539 2.861
20 0.533 0.608 0.687 0.771 0.860 0.957 1.064 1.185 1.325 1.497 1.725 2.086 2.528 2.845
21 0.532 0.608 0.686 0.770 0.859 0.956 1.063 1.183 1.323 1.494 1.721 2.080 2.518 2.831
22 0.532 0.607 0.686 0.769 0.858 0.955 1.061 1.182 1.321 1.492 1.717 2.074 2.508 2.819
23 0.532 0.607 0.685 0.769 0.858 0.954 1.060 1.180 1.319 1.489 1.714 2.069 2.500 2.807
24 0.531 0.606 0.685 0.768 0.857 0.953 1.059 1.179 1.318 1.487 1.711 2.064 2.492 2.797
25 0.531 0.606 0.684 0.767 0.856 0.952 1.058 1.178 1.316 1.485 1.708 2.060 2.485 2.787
26 0.531 0.606 0.684 0.767 0.856 0.952 1.058 1.177 1.315 1.483 1.706 2.056 2.479 2.779
27 0.531 0.605 0.684 0.767 0.855 0.951 1.057 1.176 1.314 1.482 1.703 2.052 2.473 2.771
28 0.530 0.605 0.683 0.766 0.855 0.950 1.056 1.175 1.313 1.480 1.701 2.048 2.467 2.763
29 0.530 0.605 0.683 0.766 0.854 0.950 1.055 1.174 1.311 1.479 1.699 2.045 2.462 2.756
30 0.530 0.605 0.683 0.765 0.854 0.949 1.055 1.173 1.310 1.477 1.697 2.042 2.457 2.750
31 0.530 0.604 0.682 0.765 0.853 0.949 1.054 1.172 1.309 1.476 1.696 2.040 2.453 2.744
32 0.530 0.604 0.682 0.765 0.853 0.948 1.054 1.172 1.309 1.475 1.694 2.037 2.449 2.738
33 0.530 0.604 0.682 0.765 0.853 0.948 1.053 1.171 1.308 1.474 1.692 2.035 2.445 2.733
34 0.529 0.604 0.682 0.764 0.852 0.948 1.052 1.170 1.307 1.473 1.691 2.032 2.441 2.728
35 0.529 0.604 0.682 0.764 0.852 0.947 1.052 1.170 1.306 1.472 1.690 2.030 2.438 2.724
36 0.529 0.603 0.681 0.764 0.852 0.947 1.052 1.169 1.306 1.471 1.688 2.028 2.434 2.719
37 0.529 0.603 0.681 0.764 0.851 0.947 1.051 1.169 1.305 1.470 1.687 2.026 2.431 2.715
38 0.529 0.603 0.681 0.763 0.851 0.946 1.051 1.168 1.304 1.469 1.686 2.024 2.429 2.712
39 0.529 0.603 0.681 0.763 0.851 0.946 1.050 1.168 1.304 1.468 1.685 2.023 2.426 2.708
40 0.529 0.603 0.681 0.763 0.851 0.946 1.050 1.167 1.303 1.468 1.684 2.021 2.423 2.704
41 0.529 0.603 0.681 0.763 0.850 0.945 1.050 1.167 1.303 1.467 1.683 2.020 2.421 2.701
42 0.528 0.603 0.680 0.763 0.850 0.945 1.049 1.166 1.302 1.466 1.682 2.018 2.418 2.698
43 0.528 0.603 0.680 0.762 0.850 0.945 1.049 1.166 1.302 1.466 1.681 2.017 2.416 2.695
44 0.528 0.602 0.680 0.762 0.850 0.945 1.049 1.166 1.301 1.465 1.680 2.015 2.414 2.692
45 0.528 0.602 0.680 0.762 0.850 0.944 1.049 1.165 1.301 1.465 1.679 2.014 2.412 2.690
46 0.528 0.602 0.680 0.762 0.850 0.944 1.048 1.165 1.300 1.464 1.679 2.013 2.410 2.687
47 0.528 0.602 0.680 0.762 0.849 0.944 1.048 1.165 1.300 1.463 1.678 2.012 2.408 2.685
48 0.528 0.602 0.680 0.762 0.849 0.944 1.048 1.164 1.299 1.463 1.677 2.011 2.407 2.682
49 0.528 0.602 0.680 0.762 0.849 0.944 1.048 1.164 1.299 1.462 1.677 2.010 2.405 2.680
50 0.5280.602 0.679 0.761 0.849 0.943 1.047 1.164 1.299 1.462 1.676 2.009 2.403 2.678
0.3000.275 0.250 0.225 0.200 0.175 0.150 0.125 0.100 0.075 0.050 0.025 0.010 0.005
350
Tabla de Cuantiles de la Distribución Chi-Cuadrado
En el margen superior se lee P(2 x) para los valores de x que figuran en el cuerpo de la tabla y en el margen izquierdo
los grados de libertad ().
0.010 0.025 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50
1 0.0002 0.0010 0.0039 0.0158 0.0358 0.0642 0.1015 0.1485 0.2059 0.2750 0.3573 0.4549
2 0.0201 0.0506 0.1026 0.2107 0.3250 0.4463 0.5754 0.7133 0.8616 1.0217 1.1957 1.3863
3 0.1148 0.2158 0.3518 0.5844 0.7978 1.0052 1.2125 1.4237 1.6416 1.8692 2.1095 2.3660
4 0.2971 0.4844 0.7107 1.0636 1.3665 1.6488 1.9226 2.1947 2.4701 2.7528 3.0469 3.3567
5 0.5543 0.8312 1.1455 1.6103 1.9938 2.3425 2.6746 2.9999 3.3251 3.6555 3.9959 4.3515
6 0.8721 1.2373 1.6354 2.2041 2.6613 3.0701 3.4546 3.8276 4.1973 4.5702 4.9519 5.3481
7 1.2390 1.6899 2.1674 2.8331 3.3583 3.8223 4.2549 4.6713 5.0816 5.4932 5.9125 6.3458
8 1.6465 2.1797 2.7326 3.4895 4.0782 4.5936 5.0706 5.5274 5.9753 6.4226 6.8766 7.3441
9 2.0879 2.7004 3.3251 4.1682 4.8165 5.3801 5.8988 6.3933 6.8763 7.3570 7.8434 8.3428
10 2.5582 3.2470 3.9403 4.8652 5.5701 6.1791 6.7372 7.2672 7.7832 8.2955 8.8123 9.3418
11 3.0535 3.8157 4.5748 5.5778 6.3364 6.9887 7.5841 8.1479 8.6952 9.2373 9.7831 10.3410
12 3.5706 4.4038 5.2260 6.3038 7.1138 7.8073 8.4384 9.0343 9.6115 10.1820 10.7553 11.3403
13 4.1069 5.0088 5.8919 7.0415 7.9008 8.6339 9.2991 9.9257 10.5315 11.1291 11.7288 12.3398
14 4.6604 5.6287 6.5706 7.7895 8.6963 9.4673 10.1653 10.8215 11.4548 12.0785 12.7034 13.3393
15 5.2294 6.2621 7.2610 8.5468 9.4993 10.3070 11.0365 11.7212 12.3809 13.0297 13.6790 14.3389
16 5.8122 6.9076 7.9616 9.3122 10.3090 11.1521 11.9122 12.6244 13.3096 13.9827 14.6555 15.3385
17 6.4078 7.5642 8.6718 10.0852 11.1249 12.0023 12.7919 13.5307 14.2406 14.9373 15.6328 16.3382
18 7.0149 8.2307 9.3905 10.8649 11.9462 12.8570 13.6753 14.4399 15.1738 15.8932 16.6108 17.3379
19 7.6327 8.9065 10.1170 11.6509 12.7727 13.7158 14.5620 15.3517 16.1089 16.8504 17.5894 18.3377
20 8.2604 9.5908 10.8508 12.4426 13.6039 14.5784 15.4518 16.2659 17.0458 17.8088 18.5687 19.3374
21 8.8972 10.2829 11.5913 13.2396 14.4393 15.4446 16.3444 17.1823 17.9843 18.7683 19.5485 20.3372
22 9.5425 10.9823 12.3380 14.0415 15.2788 16.3140 17.2396 18.1007 18.9243 19.7288 20.5288 21.3370
23 10.1957 11.6885 13.0905 14.8480 16.1219 17.1865 18.1373 19.0211 19.8657 20.6902 21.5095 22.3369
24 10.8564 12.4011 13.8484 15.6587 16.9686 18.0618 19.0373 19.9432 20.8084 21.6525 22.4908 23.3367
25 11.5240 13.1197 14.6114 16.4734 17.8184 18.9398 19.9393 20.8670 21.7524 22.6156 23.4724 24.3366
26 12.1981 13.8439 15.3792 17.2919 18.6714 19.8202 20.8434 21.7924 22.6975 23.5794 24.4544 25.3365
27 12.8785 14.5734 16.1514 18.1139 19.5272 20.7030 21.7494 22.7192 23.6437 24.5440 25.4367 26.3363
28 13.5647 15.3079 16.9279 18.9392 20.3857 21.5880 22.6572 23.6475 24.5909 25.5093 26.4195 27.3362
29 14.2564 16.0471 17.7084 19.7677 21.2468 22.4751 23.5666 24.5770 25.5391 26.4751 27.4025 28.3361
30 14.9534 16.7908 18.4926 20.5992 22.1103 23.3641 24.4776 25.5078 26.4881 27.4416 28.3858 29.3360
31 15.6555 17.5387 19.2806 21.4336 22.9762 24.2551 25.3901 26.4397 27.4381 28.4087 29.3694 30.3359
32 16.3622 18.2907 20.0719 22.2706 23.8442 25.1478 26.3041 27.3728 28.3889 29.3763 30.3533 31.3359
33 17.0735 19.0466 20.8665 23.1102 24.7143 26.0422 27.2194 28.3069 29.3405 30.3444 31.3375 32.3358
34 17.7891 19.8062 21.6643 23.9523 25.5864 26.9383 28.1361 29.2421 30.2928 31.3130 32.3219 33.3357
35 18.5089 20.5694 22.4650 24.7966 26.4604 27.8359 29.0540 30.1782 31.2458 32.2821 33.3065 34.3356
36 19.2327 21.3359 23.2686 25.6433 27.3362 28.7350 29.9730 31.1152 32.1995 33.2517 34.2913 35.3356
37 19.9603 22.1056 24.0749 26.4921 28.2138 29.6355 30.8933 32.0532 33.1539 34.2216 35.2764 36.3355
38 20.6914 22.8785 24.8839 27.3429 29.0931 30.5373 31.8146 32.9919 34.1089 35.1920 36.2617 37.3354
39 21.4262 23.6544 25.6954 28.1958 29.9739 31.4405 32.7369 33.9316 35.0645 36.1628 37.2472 38.3354
40 22.1643 24.4330 26.5093 29.0505 30.8563 32.3450 33.6603 34.8719 36.0207 37.1340 38.2328 39.3353
41 22.9056 25.2145 27.3256 29.9071 31.7402 33.2506 34.5846 35.8131 36.9774 38.1055 39.2187 40.3353
42 23.6501 25.9987 28.1441 30.7654 32.6255 34.1574 35.5099 36.7550 37.9347 39.0774 40.2047 41.3352
43 24.3976 26.7853 28.9647 31.6255 33.5122 35.0653 36.4361 37.6975 38.8924 40.0496 41.1909 42.3352
44 25.1480 27.5746 29.7875 32.4871 34.4002 35.9744 37.3631 38.6408 39.8507 41.0222 42.1773 43.3352
45 25.9012 28.3661 30.6122 33.3504 35.2896 36.8844 38.2910 39.5847 40.8095 41.9950 43.1638 44.3351
46 26.6572 29.1601 31.4390 34.2152 36.1801 37.7955 39.2197 40.5292 41.7687 42.9682 44.1505 45.3351
47 27.4158 29.9562 32.2676 35.0814 37.0718 38.7075 40.1492 41.4744 42.7284 43.9417 45.1373 46.3350
48 28.1770 30.7545 33.0981 35.9491 37.9648 39.6205 41.0794 42.4201 43.6885 44.9154 46.1243 47.3350
49 28.9407 31.5549 33.9303 36.8182 38.8588 40.5344 42.0104 43.3664 44.6491 45.8895 47.1114 48.3350
351
Tabla de Cuantiles de la Distribución Chi-Cuadrado
En el margen superior se lee P(2 x) para los valores de x que figuran en el cuerpo de la tabla y en el margen izquierdo
los grados de libertad ().
0.55 0.60 0.65 0.70 0.75 0.80 0.85 0.90 0.95 0.975 0.99 0.999
1 0.5707 0.7083 0.8735 1.0742 1.3233 1.6424 2.0723 2.7055 3.8415 5.0239 6.6349 10.8278
2 1.5970 1.8326 2.0996 2.4079 2.7726 3.2189 3.7942 4.6052 5.9915 7.3777 9.2103 13.8150
3 2.6430 2.9462 3.2831 3.6649 4.1083 4.6416 5.3171 6.2514 7.8147 9.3484 11.3448 16.2667
4 3.6871 4.0446 4.4377 4.8784 5.3853 5.9886 6.7449 7.7794 9.4877 11.1433 13.2767 18.4670
5 4.7278 5.1319 5.5731 6.0644 6.6257 7.2893 8.1152 9.2364 11.0705 12.8325 15.0863 20.5147
6 5.7652 6.2108 6.6948 7.2311 7.8408 8.5581 9.4461 10.6446 12.5916 14.4494 16.8118 22.4577
7 6.8000 7.2832 7.8061 8.3834 9.0371 9.8033 10.7479 12.0170 14.0672 16.0128 18.4753 24.3215
8 7.8325 8.3505 8.9094 9.5245 10.2189 11.0301 12.0271 13.3616 15.5073 17.5345 20.0902 26.1248
9 8.8632 9.4136 10.0060 10.6564 11.3887 12.2421 13.2880 14.6837 16.9190 19.0228 21.6661 27.8768
10 9.8922 10.4732 11.0971 11.7807 12.5489 13.4420 14.5339 15.9872 18.3070 20.4832 23.2093 29.5881
11 10.9199 11.5298 12.1836 12.8987 13.7007 14.6314 15.7671 17.2750 19.6751 21.9201 24.7250 31.2645
12 11.9463 12.5838 13.2661 14.0111 14.8454 15.8120 16.9893 18.5493 21.0261 23.3367 26.2170 32.9094
13 12.9717 13.6356 14.3451 15.1187 15.9839 16.9848 18.2020 19.8119 22.3620 24.7356 27.6882 34.5288
14 13.9961 14.6853 15.4209 16.2221 17.1169 18.1508 19.4062 21.0642 23.6848 26.1189 29.1412 36.1237
15 15.0197 15.7332 16.4940 17.3217 18.2451 19.3107 20.6030 22.3071 24.9958 27.4884 30.5779 37.6976
16 16.0425 16.7795 17.5646 18.4179 19.3689 20.4651 21.7931 23.5418 26.2962 28.8454 32.0000 39.2529
17 17.0646 17.8244 18.6330 19.5110 20.4887 21.6146 22.9770 24.7690 27.5871 30.1910 33.4086 40.7896
18 18.0860 18.8679 19.6993 20.6014 21.6049 22.7595 24.1555 25.9894 28.8693 31.5264 34.8053 42.3123
19 19.1069 19.9102 20.7638 21.6891 22.7178 23.9004 25.3288 27.2036 30.1435 32.8523 36.1909 43.8211
20 20.1272 20.9514 21.8265 22.7745 23.8277 25.0375 26.4976 28.4120 31.4105 34.1696 37.5662 45.3147
21 21.1470 21.9915 22.8876 23.8578 24.9348 26.1711 27.6620 29.6151 32.6706 35.4789 38.9322 46.7966
22 22.1663 23.0307 23.9473 24.9390 26.0393 27.3014 28.8225 30.8133 33.9244 36.7807 40.2893 48.2681
23 23.1852 24.0689 25.0055 26.0184 27.1413 28.4288 29.9792 32.0069 35.1725 38.0757 41.6384 49.7280
24 24.2037 25.1063 26.0625 27.0960 28.2412 29.5533 31.1325 33.1962 36.4150 39.3641 42.9798 51.1785
25 25.2218 26.1430 27.1183 28.1719 29.3388 30.6752 32.2825 34.3816 37.6525 40.6465 44.3141 52.6197
26 26.2395 27.1789 28.1730 29.2463 30.4346 31.7946 33.4295 35.5632 38.8851 41.9232 45.6418 54.0516
27 27.2569 28.2141 29.2266 30.3193 31.5284 32.9117 34.5736 36.7412 40.1133 43.1945 46.9630 55.4766
28 28.2740 29.2486 30.2791 31.3909 32.6205 34.0266 35.7150 37.9159 41.3371 44.4608 48.2783 56.8922
29 29.2908 30.2825 31.3308 32.4612 33.7109 35.1394 36.8538 39.0875 42.5570 45.7223 49.5880 58.3008
30 30.3073 31.3159 32.3815 33.5302 34.7997 36.2502 37.9902 40.2560 43.7730 46.9793 50.8921 59.7024
31 31.3235 32.3486 33.4314 34.5981 35.8871 37.3591 39.1244 41.4217 44.9854 48.2319 52.1913 61.0983
32 32.3394 33.3809 34.4804 35.6649 36.9730 38.4663 40.2563 42.5848 46.1943 49.4804 53.4859 62.4871
33 33.3551 34.4126 35.5287 36.7307 38.0575 39.5718 41.3861 43.7452 47.3999 50.7251 54.7754 63.8701
34 34.3706 35.4438 36.5763 37.7954 39.1408 40.6757 42.5140 44.9032 48.6024 51.9660 56.0610 65.2461
35 35.3858 36.4746 37.6231 38.8591 40.2228 41.7780 43.6399 46.0588 49.8018 53.2034 57.3421 66.6198
36 36.4008 37.5049 38.6693 39.9220 41.3036 42.8788 44.7641 47.2122 50.9985 54.4373 58.6192 67.9842
37 37.4156 38.5349 39.7148 40.9839 42.3833 43.9782 45.8864 48.3634 52.1923 55.6680 59.8925 69.3463
38 38.4302 39.5643 40.7597 42.0450 43.4619 45.0763 47.0072 49.5126 53.3836 56.8955 61.1620 70.7037
39 39.4446 40.5935 41.8040 43.1054 44.5395 46.1730 48.1263 50.6598 54.5722 58.1201 62.4280 72.0541
40 40.4589 41.6222 42.8477 44.1649 45.6160 47.2685 49.2439 51.8051 55.7585 59.3417 63.6908 73.4022
41 41.4729 42.6506 43.8909 45.2236 46.6916 48.3628 50.3599 52.9485 56.9424 60.5606 64.9501 74.7456
42 42.4868 43.6786 44.9335 46.2817 47.7662 49.4560 51.4746 54.0902 58.1241 61.7768 66.2063 76.0844
43 43.5005 44.7063 45.9757 47.3390 48.8400 50.5480 52.5879 55.2302 59.3035 62.9904 67.4595 77.4185
44 44.5141 45.7336 47.0173 48.3957 49.9129 51.6389 53.6998 56.3686 60.4809 64.2014 68.7095 78.7503
45 45.5274 46.7607 48.0584 49.4517 50.9849 52.7288 54.8105 57.5053 61.6562 65.4101 69.9569 80.0774
46 46.5407 47.7874 49.0991 50.5071 52.0562 53.8177 55.9199 58.6405 62.8296 66.6165 71.2014 81.3999
47 47.5538 48.8139 50.1394 51.5619 53.1267 54.9056 57.0281 59.7743 64.0011 67.8207 72.4432 82.7201
48 48.5668 49.8401 51.1792 52.6161 54.1964 55.9926 58.1352 60.9066 65.1708 69.0226 73.6827 84.0379
49 49.5796 50.8659 52.2186 53.6697 55.2653 57.0786 59.2411 62.0375 66.338670.2224 74.9194 85.3511
352
Sóluciónés dé
éjérciciós
Capítulo 1
Ejercicio 1
Soluciones
a) Experimental.
b) Severidad (cualitativa ordinal). Rendimiento (cuantitativa continua).
c) Tratamiento (Variable cualitativa nominal), con tres niveles: Sin pulverizar, F1 y F2.
Destino (variable cualitativa dicotómica o binaria), con dos niveles: comercial y
semilla.
d) Población de tubérculos-semillas que no fueron pulverizados, población de tubérculos
semillas al que se les aplicó el fungicida 1 (F1) y población de tubérculos semillas al
que se les aplicó el fungicida 2 (F2).
e) n=3.
f) La asociación entre severidad y rendimiento.
g) Medidas resumen, tablas y gráficos.
Ejercicio 2
a) Uno de los técnicos (Técnico 1) propone seleccionar al azar 100 productores y
clasificarlos según lo especificado para cada variable. Otro técnico (Técnico 2) piensa
que primero deberían separar las planillas según el tipo de manejo y luego elegir al
azar 25 productores de cada tipo de manejo clasificándolos según la producción de
leche, teniendo también un total de 100 productores.Observacional.
Tabla de contingencia
Producción promedio
Tratamiento Alta Media Baja Total
Verdeo 7 11 8 26
Suplemento 14 10 7 31
Verdeo y Suplemento 12 8 5 25
Ninguno 4 6 8 18
Total 37 35 28 100
Biometría|351
Soluciones de ejercicios
Ejercicio 3
a) Cuantitativa discreta.
b) Cualitativa nominal o binaria.
c) Cuantitativa discreta.
d) Cuantitativa continua.
e) Cuantitativa continua.
f) Cualitativa ordinal.
g) Cuantitativa continua.
Ejercicio 4
Abundancia de especies
Itín (11%)
Ejercicio 5
a) 4º. b) 1º. c) 3º. d) 2º.
Ejercicio 6
Producción (t/ha) FA FR FAA FRA
354
Soluciones de ejercicios
Ejercicio 7
a) Distribución de frecuencias de la variable número de dientes por hoja
b)
Distribución del número de dientes por hoja en bulbos de ajo
13
12
11
Frecuencia absoluta
10
9
8
7
6
5
4
3
2
1
0
1 2 3 4
Número de dientes
c) 8%
d) 44%.
Ejercicio 8
a) Medidas resumen
Media 807,2
Mediana 805
Max. 995
Min. 606
Rango 389
Varianza (n-1) 10595.3
D.E. 102,9
CV 12,7
b)
I. F
II. F
III. V
IV. V
V. F
VI. V
VII. F
VIII. F
355
Soluciones de ejercicios
Ejercicio 9
a)
0.32 1.00
0.28
0.24 0.75
Distribución empírica
frecuencia relativa
0.20
0.16 0.50
0.12
0.08 0.25
0.04
0.00 0.00
114 124 133 143 152 162 171 181
119.0 128.5 138.0 147.5 157.0 166.5 176.0
Perimetro basal (cm)
Valores observados
180
172
164
Perimetro basal (cm)
156
148
140
132
124
116
Histograma de frecuencias relativas con polígono de frecuencias (arriba izquierda), grafico de
distribución empírica (arriba derecha) y grafico de cajas (Box-Plot) (Abajo).
356
Soluciones de ejercicios
Ejercicio 10
a) Se recomendaría el híbrido B.
b) Se recomendaría el híbrido B.
c)
I. V
II. F
III. V
IV. F
V. V
VI. F
VII. V
VIII. V
IX. V
X. F
Capítulo 2
Ejercicio 1
a) Clásico o basado en el espacio probabilístico.
b) No.
c)1
d) 4/9
e)
y F(y)
2 1/9
3 3/9
4 6/9
5 8/9
6 1
Ejercicio 2
a) Evento A= “obtener un nivel de producción alto”
b) Frecuencial
c) P(A)=80/320=0,25
d) Evento B=”obtener un nivel bajo de producción y ser productor del grupoA”. P(B)=75/320=
0,234375
e) Evento C=”obtener un nivel bajo de producción dado que el productor pertenece al grupo A”.
P(C)=75/120=0,625. Probabilidad condicional.
Ejercicio 3
a) X=Cantidad de tractores vendidos por día
b) La variable tiene 5 posibles resultados. La variable es de tipo discreta
c) P(A)=110/260
d) P(A)=P(x=3)+P(x=4 o más)=25/260+10/260=35/260= 0,1346
e) P(A=vender 3 tractores mañana y vender 3 tractores pasado
mañana)=(25/260)×(24/260)
357
Soluciones de ejercicios
Ejercicio 4
a) Si son mutuamente excluyentes
b) Si son estadísticamente dependientes
Ejercicio 5
a) P(S)+P(T)+P(U)+P(PG)= 210 + 35 36 5 =
286
=0,1792
+ +
1596 1596 1596 1596 1596
b) P(menor de 25 años)=271/1596= 0.1698
c) Si, son mutuamente excluyentes. No son independientes
d) 5 10 15
P(T)+P(U)= + = =0.021
715 715 715
Ejercicio 6
La probabilidad de que un productor sea pequeño o mediano es 0,79. Son eventos mutuamente
excluyentes.
Ejercicio 7
a) Función de probabilidad y distribución acumulada de la variable.
1.0 1.0
P(cantidad de chinches/metro lineal de surco)
0.9 0.9
0.8 0.8
0.7 0.7
0.6 0.6
0.5 0.5
0.4 0.4
0.3 0.3
0.2 0.2
0.1 0.1
0.0 0.0
0 1 2 3 4 5 o más 0 1 2 3 4 5 o más
Cantidad de chinches/metro lineal de surco Cantidad de chinches/metro lineal de surco
Ejercicio 8
a) 35 qq/ha
b) 0.05
c) CBA
d) CBA
Capítulo 3
Ejercicio 1
a) 0.9032; b) 1; c) 0.0968 ; d) 0.68268 ; e) 0.14988, f) 0
Ejercicio 2
a) 0.3085 ; b) 0.383
Ejercicio 3
a) 1-0.0227=0.97724; b) 0.6827
Ejercicio 4
a) x=17.022 micrones; b) el 75% de la distribución de la variable diámetro de un
358
Soluciones de ejercicios
359
Soluciones de ejercicios
Capítulo 4
Ejercicio 11
0.30 0.24
frecuencia relativa
frecuencia relativa
0.20 0.16
0.10 0.08
0.00 0.00
15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45
Ajuste: Normal(27.964,1.237)
0.32
0.24
frecuencia relativa
0.16
0.08
0.00
15 19 23 26 30 34 38 41 45
Media (con n=25)
En los tres muestreos el promedio de las medias muestrales es similar al valor de de la media de la
población a partir de la cual se obtienen las muestras y la aproximación es mayor cuando se usan
muestras de mayor tamaño.
La varianza de las medias muestrales siempre resultó menor que la varianza poblacional. Esto ocurre
porque en la distribución de las medias muestrales la varianza es afectada por el tamaño muestral,
siendo cada vez menor a medida que crece el tamaño de la muestra.
Para estimar a la media poblacional de la variable Y es conveniente usar el mayor de los tamaños
muestrales. El mayor tamaño muestral conduce a mayor confiabilidad porque produce que en la
distribución de las medias, obtenidas con muestras de dicho tamaño, los valores se encuentren más
cercanos al valor de su media poblacional el cual coincide con la media de la población de la que se
extrajeron las muestras.
Ejercicio 12
a)Falsa; b)Falsa;c)Verdadera;d)Falsa;e)Verdadera;f)Falsa; g)Verdadera
Ejercicio 13
7500 7000
a) P Z 1 P Z 1,3975 1 0,91924 0,0876
800
5
360
Soluciones de ejercicios
b)
y 7000 y 7000
P Z 0,05 P Z 0,95 z 1,645
800
800 5
5
y 7000 800
1, 645 y 1, 645. 7000 7588, 53
800 5
5
Utilizando InfoStat: Menú EstadísticasProbabilidades y Cuantiles
361
Soluciones de ejercicios
Ejercicio 14
a) 0,85
b)0,65
Ejercicio 15
S 2 (n 1) 232 (50 1) S 2 (n 1)
a) P 20 2
P 64,8 0, 95
2 2
S (n 1) S (30 1)
2 2
S 2 (30 1)
b) P
0, 99 49, 5880 ; S 2 683, 97 S 26,15
2 2 2
20 20
El 99% de los valores posibles para la desviación estándar en muestras de 30 parcelas son
rendimientos menores o iguales a 26,15 kg/ha.
Capítulo 5 .
Ejercicio 2
a) Si =0.05, [58.45 ; 61.55], amplitud=3.1.
Si =0.01, [57.96; 62.04] amplitud=4.08;
b) Si =0.05 y n=100 [59.02 ; 60.98] amplitud=1.96;
c) Si = 7, [57.83 ; 62.17], amplitud=4.34.
Ejercicio 5
Con q1= T(48;0.025)= -2.011 y q2= T(48;0.975= 2.011, el intervalo será: [11.43 ; 12.57].
Ejercicio 9
a) n18
b) n71. El tamaño muestral aumenta porque se requiere un n mayor para mantener la misma
amplitud de intervalo de confianza.
Ejercicio 10
a) Descartar H0, Z=3.33;
b) LI=17.06; LS=22.94;
c) Se rechaza H0
d) LI=16.14, LS=23.86;
e) Se rechaza H0. La media es mayor que 15.
Ejercicio 13
a) H0: = 45 H1: >45.
b) T= 4.86. Valor de tabla T(19;0.99) = 2.539. Se rechaza H0.
Ejercicio 15
Prueba T para un parámetro
Valor del parámetro probado: 80
Variable n Media DE LS(90%) T p(Unilateral I)
sem/m2 10 77.90 3.07 79.24 -2.16 0.0294
a) Para H0: 80 versus H1: <80, p=0.0294 es menor que =0.10 se rechaza la hipótesis nula. La
pérdida está dentro de los límites admisibles.
b) La pérdida es como máximo 79.24 sem/m2 con una confianza del 90%.
362
Soluciones de ejercicios
Ejercicio 17
H0: =500 vs. H0: 500
Zona n Media DE LI(95%) LS(95%)
A 39 547.29 154.07 497.35 597.24
B 45 614.35 113.96 598.61 630.09
a) Los intervalos para la zona A contienen el valor =500, por lo que se aceptaría la hipótesis nula.
No sucede lo mismo en la zona B.
b) Los intervalos no se superponen, con lo cual si se esperaría encontrar diferencias
estadísticamente significativas entre las medias de las precipitaciones observadas en cada zona.
Capítulo 6
Ejercicio 1
Prueba F para igualdad de varianzas
Variable Grupo(1) Grupo(2) n(1) n(2) Var(1) Var(2) F p prueba
Día {A} {B} 12 12 1.97 0.20 9.63 0.0004 Unilateral
Ejecicio 2
Prueba T para muestras Independientes
Variable:Peso (g) - Clasific: Balanceado - prueba:Bilateral
Grupo 1 Grupo 2
A B
n 12 12
Media 362.83 384.58
Media(1)-Media(2) -21.75
LI(95) -60.47
LS(95) 16.97
pHomVar 0.0292
T -1.19
p-valor 0.2523
Ejercicio 3
a) Prueba T para muestras apareadas.
b) Normalidad e independencia.
c) y d)
Prueba T (muestras apareadas)
Obs(1) Obs(2) N media(dif) DE(dif) LI(99%)) LS(99%)) T Bilateral
Var A Var B 6 -1.50 0.84 -2.88 -0.12 -4.39 0.0071
Ejercicio 4
a) Prueba T para muestras independientes.
b) Normalidad, homogeneidad de varianzas, independencia.
363
Soluciones de ejercicios
c) y d)
Prueba T para muestras Independientes
Variable:Rend (qq/ha) - Clasific:Herbicida - prueba:Bilateral
Grupo 1 Grupo 2
Nuevo Tradicional
n 10 10
Media 64.50 61.68
Varianza 13.60 13.60
Media(1)-Media(2) 2.82
LI(95) -0.71
LS(95) 6.34
pHomVar 0.9227
T 1.68
p-valor 0.1104
e) Opción 1.
f)
Ejercicio 5
Prueba T para muestras Independientes
Variable:Peso - Clasific:Grupo - prueba:Bilateral
Grupo 1 Grupo 2
Control Experimental
n 10 12
Media 4.16 5.18
Media(1)-Media(2) -1.02
LI(95) -2.22
LS(95) 0.17
pHomVar 0.8773
T -1.78
p-valor 0.0900
364
Soluciones de ejercicios
Ejercicio 6
Prueba T para muestras Independientes
Variable:Increm. - Clasific:Tratamiento - prueba:Bilateral
Grupo 1 Grupo 2
con poda sin poda
n 10 10
Media 0.31 0.30
Media(1)-Media(2) 0.01
LI(95) -0.01
LS(95) 0.03
pHomVar 0.3108
T 1.23
p-valor 0.2361
Ejercicio 7
Prueba T para muestras Independientes
Variable:Prod.Leche - Clasific:Lecitina - prueba:Unilateral
Grupo 1 Grupo 2
con sin
n 9 8
Media 17.71 14.45
Media(1)-Media(2) 3.26
pHomVar 0.7215
T 7.25
p-valor <0.0001
Ejercicio 8
Prueba T (muestras apareadas)
Obs(1) Obs(2) N media(dif) DE(dif) T Bilateral
Antes fist. Despues fist. 8 0.22 0.50 1.26 0.2469
Ejercicio 9
Prueba T (muestras apareadas)
Obs(1) Obs(2) N media(dif) DE(dif) T Bilateral
H1 H2 10 -4.80 3.05 -4.98 0.0008
Ejercicio 10
I. F
II. V
III. V
IV. V
V. F
VI. V
VII. V
VIII. F
IX. F
X. V
Capítulo 7
Ejercicio 6
a) El diagrama de dispersión sugiere que existe una tendencia lineal de pendiente negativa que modela
el tamaño de las manchas en función de la dosis de fungicida usada en el experimento (mayor dosis,
menor tamaño de mancha). Los estimadores de los parámetros (coeficientes) del modelo son a=68,49
(estimador de , ordenada al origen) y b=-0,15 (estimador de β, pendiente). Desde el cuadro de
365
Soluciones de ejercicios
ANAVA se desprende que el Modelo explica una parte significativa de la variación en el tamaño de las
manchas (P<0,0001). En la siguiente figura, se presenta el ajuste (recta central), las bandas de
confianza (alrededor de la recta de ajuste) y las bandas de predicción (bandas exteriores).
70
60
50
Tamaño manchas
40
30
20
10
0
100 125 150 175 200 225 250 275 300 325 350 375 400
Dosis
b) Desde la recta ajustada se predice que el tamaño de la mancha para 260 gr.p.a/ha seria Y=68,49-
0,15*260=29,49.
Análisis de regresión lineal
Variable N R² Daño
10 0,97
Ejercicio 7
a) En el experimento del ejemplo anterior se registra un solo valor de Y para cada X, en este ejemplo se
tomaron varios valores de Y (longitud plántula) para cada valor de X (temperatura). Luego este
conjunto de datos también podría analizarse con ANAVA para un modelo de efectos de tratamientos
(temperatura)
b) El diagrama de dispersión sugiere que existe una tendencia lineal de la longitud de plántulas en el
rango de temperaturas usadas en el experimento.
366
Soluciones de ejercicios
35
30
25
LP (mm)
20
15
10
10 15 20 25
Temp (C°)
c) El modelo lineal es: LPij =+βTemperaturai+ij con el supuesto de que los términos de error ij son
variables aleatorias independientes con distribución normal de media cero y varianza 2. Los
estimadores de los parámetros (coeficientes) del modelo son a=8,69 (estimador de , ordenada al
origen) y b=0,72 (estimador de β, pendiente).
Análisis de regresión lineal
Variable N R²
LP (mm) 19 0,60
d) Desde el cuadro de ANAVA se desprende que el Modelo explica una parte significativa de la
variación en los datos, dado que el valor-p asociado a la hipótesis nula que postula que las variaciones
en LP no son explicadas por la relación lineal con la temperatura, es menor que el nivel de significación
propuesto. La recta ajustada expresa el valor esperado de LP para cada temperatura. Como tiene
pendiente positiva, a mayor temperatura se debe esperar mayor longitud, i.e. a 25C deberíamos
esperar que las plantas germinadas muestren mayor vigor.
Capítulo 9
Ejercicio 1
a) H0: μ1 = μ 2 = μ 3 versus
H1: Al menos un tipo de productor se diferencia de los otros en los
rendimientos medios logrados,
donde μ1 representa el rendimiento medio logrado por los productores independientes (Tipo
de Productor I), μ2 representa el rendimiento medio logrado por los productores grandes
367
Soluciones de ejercicios
(Tipo de Productor II) y μ3 representa el rendimiento medio logrado por los productores
asociados a grandes productores (Tipo de Productor III).
b) Análisis de la varianza
Variable N R² R² Aj CV
Rendimiento 27 0,05 0,00 25,78
Fijando el nivel de significación en 0,05, como el valor p asociado a la hipótesis de nula acerca de la
igualdad de media lograda por los distintos tipos de productores es mayor a 0.05 no se rechaza la
hipótesis nula y se concluye que no existen diferencias significativas entre los distintos tipos de
productores en cuanto a los rendimientos medios que logran alcanzar en el cultivo del maní.
c) Debemos generar los residuos, residuos estudentizados, valores absolutos de los residuos y los
valores predichos –en primer lugar, para poder validar los supuestos solicitados en este punto. Para
ello debe reconducirse el ANAVA del punto b) y en la solapa del Modelo en InfoStat tildar las celdas
habilitadas a estos fines.
Para validar el supuesto de homogeneidad de varianzas se realiza la insepección visual del siguiente
gráfico: el de los residuos estudentizados (RE_Rendimiento) vs. los valores predichos del modelo
PRED_Rendimiento):
2,15
0,99
RE_Rendimiento
-0,17
-1,33
-2,50
19,74 20,54 21,34 22,14 22,94
PRED_Rendimiento
368
Soluciones de ejercicios
Análisis de la varianza
Variable N R² R² Aj CV
RABS_Rendimiento 27 0,03 0,00 72,87
En segundo lugar, para evaluar normalidad, se realiza el gráfico QQ-plot de normalidad de los residuos
(RDUO_Rendimiento), que se presenta a continuación:
10,59 n= 27 r= 0,983 (RDUO_Rendimiento)
Cuantiles observados(RDUO_Rendimiento)
4,97
-0,65
-6,27
-11,89
-11,89 -6,27 -0,65 4,97 10,59
Cuantiles de una Normal(-9,2107E-016,28,129)
La gráfica muestra que los residuos observados se alinean sobre una recta a 45°, mostrando que se
correlacionan bien con los residuos esperados bajo el supuesto que los residuos tienen distribución
Normal.
a) Debido a que no se rechaza la hipótesis nula de igualdad de medias del ANAVA en el punto b) es
que no tiene sentido realizar ninguna de las pruebas de comparaciones múltiples conocidas,
como la de Fisher sugerida.
b) EL modelo lineal adoptado para probar la hipótesis planteada en a) permite concluir que los
distintos tipos de productores no logran producir rendimientos medios que sea
significativamente diferentes entres sí. El modelo acredita términos de error aleatorios
homogéneos en sus varianzas (p>0,05) y con distribución probablemente normal, lo que permite
afirmar que la conclusión a la que se arriba es altamente probable que no sea equivocada.
Ejercicio 2
a) En base a la información presentada en este ejercicio, se construyó una tabla InfoStat, la que se
presenta a continuación:
369
Soluciones de ejercicios
3442,50
BeneficioEcon
3030,00
2617,50
2205,00
Fert A Fert B Fert C Sin fertilizar
Tratamiento
1,19 212,22
RE_BeneficioEcon
0,23 16,43
-0,73 -179,35
-1,69 -375,14
2469,00 2749,50 3030,00 3310,50 3591,00 -375,14 -179,35 16,43 212,22 408,00
PRED_BeneficioEcon Cuantiles de una Normal(0,40320)
370
Soluciones de ejercicios
Análisis de la varianza
Variable N R² R² Aj CV
BeneficioEcon 20 0,79 0,75 7,21
b) En base a los gráficos se puede concluir que los supuestos de homogeneidad de varianzas y
normalidad de los términos de error no se violarían, lo que permite interpretar el valor p del
ANAVA sin mayores riesgos a cometer equívocos a la hora de concluir.
Atento a que el valor p del test F de Tratamiento en la tabla del ANAVA es <0,0001, se puede
concluir que existen diferencias significativas (p<0.05) en los beneficios económicos medios
logrados bajo los distintos tratamientos, rechazando así la hipótesis nula del ANAVA.
Por último, el test d Fisher permite concluir que el Tratamiento con el Fertilizante B genera
los beneficios económicos medios más altos respecto de los otros tratamients, con una
media de $/ha de 3,540,=. Le sigue el Tratamiento con el Fertilizante A con una media de
$/ha de 3192,=, el Fertilizante C con $/ha de 2,.880,=. Finalmente no convendría no fertilizar,
ya que muestra lograr beneficios económicos significativamente menores, con una media de
$/ha de 2.520,=
Ejercicio 3
a) Una posible representación gráfica de interés estadístico es el Box-Plot de la Variable Altura de
Plantas, en el que se puede observar que no existirían diferencias significativas entre las medias, ya
que las variabilidades presentadas por cada tratamiento harían que los intervalos de confianza al 95%
se superpongan. Se probara esta afirmación directamente con la Prueba F del ANAVA:
371
Soluciones de ejercicios
16,40
14,20
AlturaPlantas
12,00
9,80
7,60
Con Lavado Sin Lavar
Tratamiento
c)
1) Verificación de Homogeneridad de Varianzas 2) Verificación de Normalidad de los términos de
error
1,70 4,46 n= 20 r= 0,984 (RDUO_AlturaPlantas)
Cuantiles observados(RDUO_AlturaPlantas)
0,69 2,10
RE_AlturaPlantas
-0,32 -0,27
-1,33 -2,63
-2,34 -5,00
10,38 11,06 11,75 12,44 13,13 -5,00 -2,63 -0,27 2,10 4,46
PRED_AlturaPlantas Cuantiles de una Normal(0,5,7105)
Análisis de la varianza
Variable N R² R² Aj CV
AlturaPlantas 20 0,22 0,18 20,89
372
Soluciones de ejercicios
b)
Prueba T para muestras Independientes
Con InfoStat se generó esta tabla trabajando con cuatro decimales, de la que tomando el valor T=-
2,2769 al cuadrado se verifica que coincide con el valor F=5,18 de la tabla del ANAVA.
c) En base a los gráficos se puede concluir que los supuestos de homogeneidad de varianzas y
normalidad de los términos de error no se violarían, lo que permite interpretar el valor p del ANAVA
sin mayores riesgos a cometer equívocos a la hora de concluir.
Atento a que el valor p del test F de Tratamiento en la tabla del ANAVA es 0,0352, se puede concluir
que existen diferencias significativas (p<0,05) en las alturas de plantas logradas por los dos
tratamientos, rechazando así la hipótesis nula del ANAVA. Por último, el test d Fisher permite concluir
que el lavado de las estacas genera plantas significativamente más bajas en promedio que el
tratamiento sin lavar.
Ejercicio 4
a) Las macetas constituyen la Unidades Experimentales. Hay cinco macetas por Cepa, por lo
que hay cinco repeticiones por Tratamiento (esto es, Cepa!).
b) H0: μ1 = μ 2 = …=μ 5 versus
H1: Al menos una cepa se diferencia de las otras cepas en la cantidad media de
Nitrógeno fijado,
373
Soluciones de ejercicios
c)
1) Verificación de Homogeneidad de Varianzas: 2) Verificación de Normalidad de los términos de
error:
1,66 2,90 n= 30 r= 0,955 (RDUO_Nitrogeno)
Cuantiles observados(RDUO_Nitrogeno)
0,81 1,45
RE_Nitrogeno
-0,04 0,00
-0,89 -1,45
-1,74
-2,90
12,36 17,30 22,24 27,18 32,12 -2,90 -1,45 0,00 1,45 2,90
PRED_Nitrogeno Cuantiles de una Normal(-4,4409E-017,2,0223)
Este gráfico permite suponer que el Este gráfico muestra que el supuesto de
supuesto de homogeneidad de varianzas de normalidad podría no cumplirse ya que los
los términos de error no se violaría. residuos observados no se alinean sobre una
recta a 45°, mostrando que se correlacionarían
muy bien con los residuos esperados bajo el
supuesto que los términos de error tienen
distribución Normal. Esta situación podría alterar
la calidad de la estimación del valor p en el test F
del ANAVA.
Análisis de la varianza
Variable N R² R² Aj CV
Nitrogeno 30 0,95 0,94 7,40
374
Soluciones de ejercicios
V; que la que más fija es la Cepa I y en segundo lugar la Cepa II; en tanto no se puede concluir entre las
Cepa III, VI y IV, ya que comparten letras, destacando que presentan medias significativamente
distintas de la media de la Cepa V y de la Cepa II.
Ejercicio 5
a) Yij = + i + ij donde:
Yij = es la j-ésima observación de materia seca bajo la i-ésima carga animal, i=2, 4, 6, 8 (esto
es, cuatro tratamientos) y j=1,…,7 (n=7)
= media general de materia seca.
i = efecto de la i-ésima carga animal,
ij = variable aleatoria normal, independientemente distribuida con esperanza cero y varianza
2 i j.
b) ij están normal e independientemente distribuidos con esperanza cero y varianza 2. Para
estudiar el cumplimiento de estos supuestos se recurre a métodos gráficos (QQ-plot para
normalidad, Residuos vs predichos para homocedasticidad)
Cuantiles observados(RDUO_Mat.seca)
0.76 0.69
n= 28 r= 0.982 (RDUO_Mat.seca)
RDUO_Mat.seca
0.38 0.35
0.00 0.01
-0.38 -0.32
-0.76 -0.66
-0.76 -0.38 0.00 0.38 0.76 2.33 2.62 2.90 3.18 3.47
Cuantiles de una Normal PRED_Mat.seca
El análisis de las figuras precedentes pemitiría asumir que los supuestos normalidad y homogeneidad
de varianzas se cumplen.
c) Cuadro de Análisis de la Varianza (SC tipo III)
F.V. SC gl CM F p-valor
Modelo 4.69 3 1.56 9.84 0.0002
Tratamiento 4.69 3 1.56 9.84 0.0002
Error 3.81 24 0.16
Total 8.50 27
Como p=0.0002 es menor que =0,05 se rechaza la hipótesis de efectos de tratamientos nulos, es
decir al menos un tratamiento (carga animal) produce un efecto diferente. Se realiza la prueba “a
posteriori” de Fisher:
375
Soluciones de ejercicios
Capítulo 10
Ejercicio 3
a)
tratamiento n Media E.E. CV Mín Máx
A1 6 3.16 0.05 3.74 3.03 3.30
A2 6 3.15 0.06 4.71 2.93 3.33
B1 6 3.34 0.04 2.80 3.22 3.45
B2 6 3.38 0.05 3.41 3.20 3.54
control 6 3.24 0.05 4.06 3.10 3.48
b) Y Proteinasij= + Tratamientoi + Tamboj +ij
ij i j ij
c)
Análisis de la varianza
Variable N R² R² Aj CV
prot 30 0.86 0.80 2.05
376
Soluciones de ejercicios
b)
35
Hembras
33 Machos
Largo de cola
31
29
27
25
16 21 25 28
Temperatura (°C)
c)
Análisis de la varianza
Variable N R² R² Aj CV
largocola 32 0.80 0.74 4.97
377
Soluciones de ejercicios
c)
El efecto de la temperatura es independiente del sexo para el largo de la cola (No hay
interacción sexo*temperatura). Hay un efecto de sexo en la longitud de la cola (las hembras
tiene mayor longitud de la cola que los machos) y hay un efecto de la temperatura. No hubo
efecto de laboratorios (bloques).
Ejercicio 6
a)
I. V
II. F
III. V
IV. F
V. V
VI. F
VII. F
VIII. F
378
Palabras Clave
Í ndicé dé palabras
clavé
380
Índice
L Operacionalizar variables............................. 6
Ordenada al origen .................................. 199
Límite inferior ..........................................13
Límite superior ........................................13
P
M Parámetros .............................................. 317
Parámetros de dispersión ........................ 142
Marca de clase........................................ 12, 14 Parámetros de posición ............................ 142
Matriz de diagramas de dispersión ............. 25 Parte aleatoria de un modelo .................. 142
Media aritmética ......................................31 Parte fija de un modelo ........................... 142
Media muestral o promedio ......................41 Pendiente ............................................. 199
Media podada .........................................31 Perfiles filas .............................................17
Mediana ..................................................31 Población ..........................................8, 40, 162
Mediana muestral ....................................41 Población infinita ...................................... 8
Medidas de posición .................................. 31 Potencia ..............................................157, 163
Medidas de tendencia central ..................... 31 Precisión..............................................157, 300
Medidas resumen ...................................... 30 Probabilidad de cometer el error de tipo I..151
Minería de datos ......................................11 Prueba de falta de ajuste (lack of fit test) ...208
Moda ......................................................30 Prueba de Fisher ...................................... 275
Moda muestral ........................................41 Prueba de Tukey ...................................... 275
Modelo alternativo................................. 150 Prueba estadística ................................... 150
Modelo con efectos multiplicativos de Prueba F ............................................... 268
interacción........................................ 306 Pruebas basadas en conglomerados ........... 275
Modelo estadístico ................................... 297 Pruebas de bondad de ajuste .............231, 248
Modelo Lineal Mixto ............................... 318 Pruebas de comparaciones múltiples de
Modelo Mixto ........................................ 317 medias ............................................. 274
Modelo nulo .......................................... 150 Pruebas tradicionales .............................. 275
Modelos de efectos aditivos ..................... 306
Modelos Lineales Generalizados ................. 318
Modo ......................................................30
Q
Muestra .................................................... 8, 40 Q-Q plot normal ..................................... 281
Muestras dependientes............................ 184
Muestras representativas ............................. 9
Muestreo aleatorio estratificado ................. 10
R
Muestreo aleatorio simple ....................... 9, 10 Rango
Muestreo con reposición ............................ 10 Valor máximo ......................................30
Muestreo por conglomerados ..................... 10 Valor mínimo ......................................30
Muestreo probabilístico ................................ 9 Rango muestral ......................................... 41
Muestreo sin reposición ............................. 10 Rango o recorrido
Muestreo sistemático ................................. 11 Rango ................................................... 30
Muestreos aleatorio .................................. 9 Razón de chances .................................... 243
Región de aceptación ............................... 153
N Región de rechazo ................................... 153
Regresión ................................................ 316
Nivel de significación .......................... 151, 163 Regresión con múltiples regresoras .......... 215
Regresión lineal múltiple .......................... 210
O Regresión lineal simple ............................ 198
Regresión polinómica .............................. 210
Observaciones apareadas ................... 178 Repetición ............................................... 267
Odds ratio ............................................ 243 Residuo ...............................................265, 280
381
Índice
382
Esta obra se terminó de imprimir en el mes de
Marzo de 2012 en Editorial Brujas.
Córdoba-Argentina