La Tesis Imprimir PDF
La Tesis Imprimir PDF
La Tesis Imprimir PDF
Santa Clara
2006
Hago constar que el presente trabajo fue realizado en la Universidad Central Marta Abreu de
Las Villas como parte de la culminación de los estudios de la especialidad de Licenciatura
en Matemáticas, autorizando a que el mismo sea utilizado por la institución, para los fines
que estime conveniente, tanto de forma parcial como total y que además no podrá ser
presentado en eventos ni publicado sin la autorización de la Universidad.
_____________________
Firma del autor
Los abajo firmantes, certificamos que el presente trabajo ha sido realizado según acuerdos
de la dirección de nuestro centro y el mismo cumple con los requisitos que debe tener un
trabajo de esta envergadura referido a la temática señalada.
________________ _________________________
Firma del tutor Firma del jefe del Seminario
Dedicatoria.
Con este trabajo culmina una etapa importante de nuestra vida, y el momento insta a la
reflexión y en nuestra memoria se dibujan las imágenes de todos aquellos que
contribuyeron de una u otra forma a la culminación exitosa del mismo, a alcanzar una
meta tan deseada como esta. No quisiera mencionar sus nombres, pues cometería la grave
injusticia de olvidar algunos y eso sería imperdonable. Así damos las gracias a esa
inmensidad, a los que nos enseñaron poniendo en nosotros su esperanza, a aquel que un
día nos dio una hoja o nos prestó un lápiz, a aquel que en un momento amargo nos hizo
sonreír, al que nos escuchó, al que se mostró espontáneo, a todos aquellos que confiaron
en nosotros.
También es el momento para pedir excusas por aquellas interrupciones, o por alguna
tardanza o quizás porque algún día fui inoportuno.
Especiales.
Para la Dr. Gladys Cardoso Romero y Lic. Juan M. Navarro Céspedes, por sus valiosos
y oportunos conocimientos, los cuales me sirvieron de gran ayuda en el desarrollo del
trabajo.
Resumen.
En este trabajo se presenta un material bibliográfico que tendrá como fin el apoyo de la
docencia para las carreras de Licenciatura en Matemáticas y Licenciatura en Química
específicamente para la asignatura Diseño de Experimentos.
In this work we present a bibliographical material that has specifically as the end the
support of the teaching for the careers of Degree in the Mathematics and Degree in the
Chemistry for the subject Designs of Experiments.
In him, we offer a series of definitions and the preliminary concepts, what facilitates to
prepare the reader for the study of the volume has to be developed. A theoretical summary
of several Statistical Designs contained by chapters according to their characteristics. The
material also has a collection of resolved exercises and proposed exercises.
Índice.
Introducción................................................................................................................ 1
Capítulo 1. Principios básicos, conceptos y definiciones. ... 4
1.1 Principios básicos del diseño de experimentos.............................................................. 5
1.2 Etapas de un diseño de experimentos ............................................................................ 8
1.3 Ventajas y Desventajas de los experimentos diseñados estadísticamente ................... 11
1.4 Modelos de Diseño de Experimentos .......................................................................... 11
1.5 Tipos de variabilidad.................................................................................................... 13
1.6 Planificación de un experimento.................................................................................. 14
1.7 Elegir una regla de asignación de las unidades experimentales a las condiciones de
estudio (“tratamientos”) ..................................................................................................... 19
1.8 Especificar las medidas que se realizarán (la “respuesta”), el procedimiento
experimental y anticiparse a las posibles dificultades ....................................................... 19
1.9 Ejecutar un experimento piloto.................................................................................... 20
1.10 Especificar el modelo................................................................................................. 20
1.11 Esquematizar los pasos del análisis estadístico ......................................................... 21
1.11.1 Determinar el tamaño muestral........................................................................... 21
1.11.2 Revisar las decisiones anteriores. Modificar si es necesario .............................. 21
1.12 Resumen de los principales conceptos....................................................................... 22
1.13 Algunos diseños experimentales clásicos .................................................................. 23
Capítulo 2 Diseños unifactoriales, bifactoriales y trifactoriales.
................................................................................................................................................ 24
2.1 Diseño Completamente al Azar ................................................................................... 24
2.1.1 Ventajas, desventajas y usos del DCA.................................................................. 24
2.1.2 Aleatorización y Croquis Experimental................................................................ 25
2.1.3 Presentación de los datos ...................................................................................... 26
2.1.4 Modelo matemático del diseño lineal ................................................................... 27
2.1.5 Supuestos del Modelo Estadístico ........................................................................ 28
2.1.6 ¿Cómo obtener los residuales?.............................................................................. 28
2.1.7 Estimación de los efectos...................................................................................... 31
2.1.8 Obtener la tabla ANOVA. Análisis de varianza de clasificación simple. ............ 32
2.1.9 Prueba de Duncan ................................................................................................. 35
2.1.10 Prueba de Duncan cuando las observaciones por tratamiento difieren............... 37
2.1.11 Coeficiente de Variación..................................................................................... 37
2.1.12 Pruebas de Comparación de Medias de Tratamientos ........................................ 39
2.1.13 Prueba de Tukey ................................................................................................. 40
2.1.14 Prueba de Sheffé ................................................................................................. 42
2.1.15 Prueba de Dunnet................................................................................................ 43
2.1.16 Diseño Completamente al Azar Desbalanceado ................................................. 43
2.1.17 Submuestreo de un diseño completamente al azar ............................................. 44
2.1.18 Ejercicios resueltos y propuestos ........................................................................ 47
2.2 Diseño de Bloques Completamente al Azar ................................................................ 51
2.2.1 Ventajas y desventajas del DBCA ....................................................................... 52
2.2.2 Aleatorización y Croquis Experimental............................................................... 53
2.2.3 Modelo Aditivo Lineal.......................................................................................... 53
2.2.4 Supuestos del modelo estadístico.......................................................................... 54
2.2.5 Estimación de los efectos...................................................................................... 54
2.2.6 Análisis de Varianza ............................................................................................. 55
2.2.7 Construcción de la tabla ANOVA ........................................................................ 56
2.2.8 Prueba de Sheffé ................................................................................................... 60
2.2.9 Bloques al Azar (BA) con datos perdidos............................................................. 60
2.2.10 Ejercicios propuestos .......................................................................................... 61
2.3 Diseño Cuadrado Latino .............................................................................................. 64
2.3.1 Ventajas y Desventajas del DCL .......................................................................... 65
2.3.2 Aleatorización y Croquis Experimental................................................................ 65
2.3.3 Modelo Aditivo Lineal.......................................................................................... 66
2.3.4 Supuestos del Modelo Estadístico ........................................................................ 67
2.3.5 Estimación de los Efectos ..................................................................................... 67
2.3.6 Análisis de Varianza ............................................................................................. 69
2.3.7 Pruebas de Comparación de Medias de Tratamientos .......................................... 73
2.3.8 Ejercicios............................................................................................................... 74
2.4 Diseño de Bloques Incompletos................................................................................... 75
2.4.1 Análisis estadístico................................................................................................ 76
2.4.2 Modelo estadístico ................................................................................................ 77
2.4.3 Conformando la tabla ANOVA ............................................................................ 77
2.4.4 Calculo de los efectos ........................................................................................... 81
Capítulo 3 Diseños factoriales. ................................................................ 83
3.1 Diseños factoriales ....................................................................................................... 83
3.1.1 Ventajas, Desventajas y Usos ............................................................................... 83
3.1.2 Notación y Definiciones ....................................................................................... 84
3.1.3 Presentación de los datos ...................................................................................... 85
3.1.4 Experimentos Factorial pxq .................................................................................. 87
3.1.5 Análisis de Varianza ............................................................................................. 90
3.1.6 Análisis de Efectos Simples.................................................................................. 94
3.1.7 Pruebas de comparación de Medias...................................................................... 96
3.1.8 Ejercicios............................................................................................................... 96
3.2 Diseños 2k .................................................................................................................... 99
3.2.1 Diseño bifactorial sin replicas............................................................................... 99
3.2.2 Diseño bifactorial con replicas............................................................................ 102
3.2.3 Modelo bifactorial mixto .................................................................................... 111
3.2.4 El diseño 22 ......................................................................................................... 113
3.2.5 El diseño 23 ......................................................................................................... 116
3.2.6 Supuestos del Modelo Estadístico ...................................................................... 119
3.2.7 Representación de los factores y niveles ............................................................ 120
3.2.8 Ejercicios............................................................................................................. 120
Capítulo 4 Diseño de Parcelas Divididas y jerárquicos. .. 122
4.1 Diseño de Parcelas Divididas..................................................................................... 122
4.1.1 Modelo Aditivo Lineal........................................................................................ 124
4.1.2 Análisis de Varianza ........................................................................................... 126
4.1.3 Pruebas de comparación de medias .................................................................... 130
4.1.4 Pruebas de comparación de medias de efectos simples ...................................... 131
4.1.5 Ejercicios............................................................................................................. 132
4.2 Diseños Jerárquicos .................................................................................................. 134
4.2.1 Representación de los datos ............................................................................... 135
4.2.2 Modelos de ANOVA ......................................................................................... 136
4.2.3 Modelo Aditivo Lineal........................................................................................ 136
4.2.4 Calculo de la ANOVA ........................................................................................ 137
4.2.5 Ejemplo para el procedimiento estadístico y conclusiones................................. 138
4.2.6 Ejercicio .............................................................................................................. 142
Capítulo 5 Regresión Lineal y Covarianza. ................................ 144
5.1 Regresión lineal simple y múltiple ............................................................................ 144
5.1.1 Regresión Lineal Simple..................................................................................... 144
5.1.2 Modelo Estadístico.............................................................................................. 147
5.1.3 Análisis de Varianza ........................................................................................... 150
5.1.4 Coeficiente de Correlación y de Determinación................................................. 152
5.1.5 Predicción ........................................................................................................... 153
5.1.6 Ejercicios............................................................................................................. 155
5.1.7 Regresión lineal múltiple .................................................................................... 157
5.2 Análisis de Covarianza .............................................................................................. 159
5.2.1 Modelo Aditivo Lineal........................................................................................ 160
5.2.4 Suposiciones del Modelo Estadístico.................................................................. 163
5.2.5 Análisis de Covarianza ....................................................................................... 163
5.2.6 Pruebas de Comparación de Medias de Tratamientos ........................................ 168
5.2.7 Ejercicios............................................................................................................. 170
Recomendaciones. ............................................................................................... 173
Bibliografía. ............................................................................................................. 174
Introducción.
La experimentación como una de las principales vías para adquirir conocimientos de una
determinada disciplina ha sido objeto de atención de numerosos científicos. Para mejorar la
eficiencia del trabajo experimental se han desarrollado durante el siglo XX un conjunto de
técnicas y procedimientos con fundamentos estadísticos. En este contexto es que surge el
Diseño de Experimentos que tiene como principal precursor a Ronald A. Fisher. Aunque
biólogo de profesión, sus investigaciones en la agricultura y en ramas de la genética lo
obligaron a desarrollar toda una teoría estadística para poder darle respuesta a problemas
que surgieron producto de las investigaciones desarrolladas él.
Sin embargo también es importante que el diseño sea tan simple como sea posible.
Además la investigación debe llevarse a cabo de la forma más eficiente posible. Esto es,
debe hacerse todo el esfuerzo posible para ahorrar tiempo, dinero, personal y material
experimental. Generalmente la mayoría de los diseños estadísticos no sólo son fáciles de
analizar sino también son eficientes en ambos sentidos, el económico y el estadístico.
1
¾ Desarrollar los aspectos teóricos relativos a los diseños siguientes:
¾ Crear un folleto que conste de un gran número de ejercicios propuestos para que le
permiten el trabajo independiente de los estudiantes.
Para ello el presente trabajo consta de 5 Capítulos, los cuales presentan los siguiente
subtemas:
Capítulo 1.
Capítulo 2.
Capítulo 3.
− Diseños factoriales.
− Diseños 2k.
Capítulo 4.
Capítulo 5.
2
3
Capítulo 1. Principios básicos, conceptos y definiciones.
En este capítulo analizaremos una serie de definiciones y conceptos que nos serán útiles a
lo largo del estudio de los Diseños Estadísticos de Experimentos.
4
1.1 Principios básicos del diseño de experimentos
Al planificar un experimento hay cuatro principios básicos que se deben tener siempre
en cuenta:
— Reproducción.
— El principio de aleatorización.
— El control local o bloqueo.
— La factorización del diseño.
Los dos principios (aleatorizar y bloquear) son estrategias eficientes para asignar los
tratamientos a las unidades experimentales sin preocuparse de qué tratamientos
considerar. Por el contrario, la factorización del diseño define una estrategia eficiente
para elegir los tratamientos sin considerar en absoluto como asignarlos después a las
unidades experimentales.
Unidad Experimental
Unidad a la cual se le aplica un solo tratamiento (que puede ser una combinación de
muchos factores) en una reproducción del experimento.
Error Experimental
• Errores de experimentación
• Errores de observación
• Errores de medición
• Variación del material experimental (esto es, entre unidades experimentales)
• Efectos combinados de factores extraños que pudieran influir las características
en estudio, pero respecto a los cuales no se ha llamado la atención en la
investigación.
5
El error experimental puede reducirse:
Confusión
Aleatorización.
Control local.
Agrupamiento.
6
Bloqueo.
Balanceo.
Factor.
7
Ejemplo.
¿Qué consideraciones se deben tener en cuenta al utilizar estas dos estrategias? ¿Qué
estrategia es mejor?
“Un diseño factorial es una estrategia experimental que consiste en cruzar los niveles
de todos los factores tratamiento en todas las combinaciones posibles”.
8
• Aplicación de las técnicas estadísticas a los resultados experimentales.
• Extracción de conclusiones con medidas de la confiabilidad de las estimaciones
generadas. Deberá darse cuidadosa consideración a la validez de las conclusiones
para la población de objetos o eventos a la cual se van a aplicar.
• Valoración de la investigación completa y contrastación con otras
investigaciones del mismo problema o similares.
9
11. Revise el diseño con todo lo concerniente.
10
1.3 Ventajas y Desventajas de los experimentos diseñados estadísticamente
Ventajas
Desventajas
11
• Se quiere estudiar la influencia del tipo de pila eléctrica y de la marca en la
duración de las pilas.
• Una compañía telefónica está interesada en conocer la influencia de varios
factores en la variable de interés “la duración de una llamada telefónica”. Los
factores que se consideran son los siguientes: hora a la que se produce la
llamada; día de la semana en que se realiza la llamada; zona de la ciudad desde la
que se hace la llamada; sexo del que realiza la llamada; tipo de teléfono (público
o privado) desde el que se realiza la llamada.
• Una compañía de software está interesada en estudiar la variable “porcentaje que
se comprime un fichero al utilizar un programa que comprime ficheros” teniendo
en cuenta el tipo de programa utilizado y el tipo de fichero que se comprime.
• Se quiere estudiar el rendimiento de los alumnos en una asignatura y, para ello,
se desean controlar diferentes factores: profesor que imparte la asignatura;
método de enseñanza; sexo del alumno.
12
La utilización de los modelos de diseño de experimentos se basa en la experimentación
y en el análisis de los resultados que se obtienen en un experimento bien planificado. En
muy pocas ocasiones es posible utilizar estos métodos a partir de datos disponibles o
datos históricos, aunque también se puede aprender de los estudios realizados a partir de
datos recogidos por observación, de forma aleatoria y no planificada. En el análisis
estadístico de datos históricos se pueden cometer diferentes errores, los más comunes
son los siguientes:
13
¾ Variabilidad sistemática y planificada. Esta variabilidad viene originada por
la posible dispersión de los resultados debida a diferencias sistemáticas entre
las distintas condiciones experimentales impuestas en el diseño por expreso
deseo del experimentador. Es el tipo de variabilidad que se intenta identificar
con el diseño estadístico.
Cuando este tipo de variabilidad está presente y tiene un tamaño importante,
se espera que las respuestas tiendan a agruparse formando grupos (clusters).
Es deseable que exista esta variabilidad y que sea identificada y cuantificada
por el modelo.
14
influyen realmente y estimar esta influencia. Para conseguir esto es necesario
experimentar, variar las condiciones que afectan a las unidades experimentales y
observar la variable respuesta. Del análisis y estudio de la información recogida se
obtienen las conclusiones.
La forma tradicional que se utilizaba en la experimentación, para el estudio de estos
problemas, se basaba en estudiar los factores uno a uno, esto es, variar los niveles de un
factor permaneciendo fijos los demás. Esta metodología presenta grandes
inconvenientes:
15
A continuación se hace una breve descripción de las decisiones que hay que tomar en
cada uno de los pasos enumerados. Sólo después de haber tomado estas decisiones se
procederá a realizar el experimento.
Se debe hacer una lista completa de las preguntas concretas a las que debe dar
respuesta el experimento. Es importante indicar solamente cuestiones fundamentales
ya que tratar de abordar problemas colaterales puede complicar innecesariamente el
experimento.
Una vez elaborada la lista de objetivos, puede ser útil esquematizar el tipo de
conclusiones que se espera obtener en el posterior análisis de datos.
Normalmente la lista de objetivos es refinada a medida que se van ejecutando las
etapas del diseño de experimentos.
Los niveles de un factor tratamiento son los tipos o grados específicos del factor
que se tendrán en cuenta en la realización del experimento.
Los factores tratamiento pueden ser cualitativos o cuantitativos.
16
• Tipo de procesador (los procesadores de los que se quiere comparar su
velocidad de ejecución).
• Un aditivo químico (diferentes tipos de aditivos químicos).
• El sexo (hombre y mujer).
• Un método de enseñanza (un número determinado de métodos de
enseñanza cuyos resultados se quieren comparar).
2) Unidades experimentales
17
Es muy importante que las unidades experimentales sean representativas de la
población sobre la que se han fijado los objetivos del estudio. Por ejemplo, si se
utilizan los estudiantes universitarios de un país como unidades experimentales,
las conclusiones del experimento no son extrapolables a toda la población adulta
del país.
Factor bloque. En algunos casos el factor nuisance puede ser fijado en distintos
niveles, de modo que es posible controlar su efecto a esos niveles. Entonces la
forma de actuar es mantener constante el nivel del factor para un grupo de
unidades experimentales, se cambia a otro nivel para otro grupo y así
sucesivamente. Estos factores se denominan factores de bloqueo (factores-
bloque) y las unidades experimentales evaluadas en un mismo nivel del bloqueo
se dice que pertenecen al mismo bloque. Incluso cuando el factor nuisance no es
medible, a veces es posible agrupar las unidades experimentales en bloques de
unidades similares: parcelas de tierra contiguas o períodos de tiempo próximos
probablemente conduzcan a unidades experimentales más parecidas que parcelas
o períodos distantes.
18
Fuente Tipo
Debida a las condiciones de Planificada y sistemática
interés (Factores tratamiento)
Debida al resto de condiciones Planificada y sistemática
controladas (Factores “nuisance”)
Debida a condiciones no No planificada, pero
controladas (error de medida, ¿sistemática?
material experimental,...)
19
1.9 Ejecutar un experimento piloto
El modelo matemático especificado debe indicar la relación que se supone que existe
entre la variable respuesta y las principales fuentes de variación identificadas en el (paso
2). Es fundamental que el modelo elegido se ajuste a la realidad con la mayor precisión
posible.
Los modelos de diseño de experimentos, según sean los factores incluidos en el
mismo, se pueden clasificar en: modelo de efectos fijos, modelo de efectos aleatorios y
modelos mixtos. A continuación se precisan estas definiciones.
Factor de efectos fijos: Es un factor en el que los niveles han sido seleccionados por el
experimentador. Es apropiado cuando el interés se centra en comparar el efecto sobre la
respuesta de esos niveles específicos.
Ejemplo: Un empresario está interesado en comparar el rendimiento de tres máquinas
del mismo tipo que tiene en su empresa.
Factor de efectos aleatorios: Es un factor del que sólo se incluyen en el experimento una
muestra aleatoria simple de todos los posibles niveles del mismo. Evidentemente se
utilizan estos factores cuando tienen un número muy grande de niveles y no es razonable
o posible trabajar con todos ellos. En este caso se está interesado en examinar la
variabilidad de la respuesta debida a la población entera de niveles del factor.
Ejemplo: Una cadena de hipermercados que tiene en plantilla 300 trabajadores de caja
está interesada en estudiar la influencia del factor trabajador en la variable “tiempo en el
cobro a un cliente”.
Modelo de efectos fijos: Es un modelo en el que todos los factores son factores de
efectos fijos.
20
Modelo de efectos aleatorios: Es un modelo en el que todos los factores son factores de
efectos aleatorios.
Se deben esquematizar los pasos del análisis a realizar que deben incluir:
De todas las etapas enumeradas, el proceso de recogida de datos suele ser la tarea
que mayor tiempo consume, pero es importante realizar una planificación previa,
detallando los pasos anteriores, lo que garantizará que los datos sean utilizados de la
forma más eficiente posible.
Es fundamental tener en cuenta que:
21
“Ningún método de análisis estadístico, por sofisticado que sea, permite extraer
conclusiones correctas en un diseño de experimentos mal planificado”.
Recíprocamente, debe quedar claro que el análisis estadístico es una etapa más que
está completamente integrado en el proceso de planificación.
Pero no sólo los objetivos están presentes al inicio del análisis sino también la
técnica experimental empleada. Una regla de oro en la experimentación y que debe
utilizarse es la siguiente:
Finalmente indicar que todas las personas que trabajan en el experimento se deben
implicar en el mismo, esto es:
Unidad experimental: Son los objetos, individuos, intervalos de espacio o tiempo sobre
los que se experimenta.
22
Niveles: Cada uno de los resultados de un factor. Según sean elegidos por el
experimentador o elegidos al azar de una amplia población se denominan factores de
efectos fijos o factores de efectos aleatorios.
23
Capítulo 2 Diseños unifactoriales, bifactoriales y trifactoriales.
♦ Diseño Completamente al Azar.
♦ Diseño de Bloques Completamente al Azar.
♦ Diseño Cuadrado Latino.
♦ Diseño de Bloques Incompletos.
Se verán los casos paramétrico y no paramétrico del DCA, el análisis de la varianza y las
pruebas de comparación de medias de tratamientos.
Ventajas
24
Desventajas
Usos
Explicación:
Suponga que se tienen N= 16 unidades experimentales (u.e) homogéneas, para un
experimento bajo un DCA con t= 4 tratamientos y r= 4 réplicas. Inicialmente asigne los
dígitos 01, 02, . . ., 16 a las u.e, ubique la punta de su lápiz aleatoriamente en cualquier
lugar de la tabla de números aleatorios, por decir en la fila 26 columna 4 donde aparece
el número 24878, a partir de lo dos primeros dígitos (24) empiece a recorrer en cualquier
sentido, suponga que se hace hacia abajo de la columna donde está el número 24,
registre los números de dos cifras (o de tres cifras cuando los rótulos de las u.e tengan
tres cifras) que estén entre 1 y 16 inclusive. En este caso son: 04, 02, 01, 14, continuando
desde la parte inferior de la columna (6) hacia arriba se obtiene: 06, 13, 10, 11 siga a la
parte superior de la columna (7): 15, 09, 16, 07, continuando se asignan las otras cuatro:
03, 08, 05, 12. Por lo que al tratamiento 1 se le siguientes cuatro: 04, 02, 01, 14 al
tratamiento 2 las siguientes cuatro: 06, 13, 10, 11 las restantes al: 15, 09, 16, 07 y al
tratamiento 3 las restantes 03, 08, 05, 12.
25
2) Modelo de urnas.
Explicación:
Explicación:
Mediante la opción Ram#, la cual genera números aleatorios entre 0 y 1. Si usted tiene
16 unidades experimentales y 4 tratamientos de 4 réplicas cada uno, se enumeran las
unidades experimentales de 01 a 16, luego active la función con Shift, Ran# que produce
por ejemplo el número 0.3047432316, usted debe seleccionar los dos primeros dígitos,
en este caso es 30 pero no existe una u.e rotulada con este número por tanto debemos
generar otro número aleatorio activando nuevamente Shift, Ran# suponga que se obtiene
0.0800937965, así la primera u.e del primer grupo será la rotulada con el número 08.
Continué este proceso hasta obtener las cinco primeras u.e del primer grupo y así
sucesivamente hasta obtener las u.e de los demás grupos. Asigne las primeras 4 u.e al
tratamiento 1 y así para los demás tratamientos.
26
Tratamientos
T1 T2 …. Tk
Y11 Y21 …. Yk
Réplicas 1
Y12 Y22 …. Yk
2
…. …. …. ….
Y1n1 Y2n2 …. Yknk
Ti · T1 · T2 · …. Tk · T· ·
27
Este experimento fue conducido bajo los lineamientos de un DCA, por lo que el
modelo aditivo es el siguiente:
donde:
Yij es la ganancia de peso obtenida en el j-ésimo cerdo alimentado con el i-ésimo
compuesto vitamínico.
µ es el efecto de la media general de peso.
α i es el efecto del i-ésimo compuesto vitamínico.
ε ij es el efecto del error experimental con el j-ésimo cerdo alimentado con el i-ésimo
complejo vitamínico.
k = 4 (Número de tratamientos)
n1 = 6, n 2 = 6, n3 = 5, n 4 = 5 (número de repeticiones por tratamiento).
Para que el análisis a realizar sea válido es necesario determinar si los datos
experimentales obtenidos evidencian el cumplimiento de los supuestos del modelo,
para lo cual se debe obtener todos los residuales y con estos realizar las pruebas de
normalidad con media cero, independencia y homogeneidad de varianza.
28
El residual de cada respuesta Yij es denotado por ε ij y se pueden obtener
calculando la diferencia entre el valor real y el valor estimado por el modelo; es
decir,
ε ij = yij − yˆ ij
ε ij = respuesta observada − respuesta teórica estimada
(1)
E ( µ + α i + ε ij ) = E ( µ ) + E (α i ) + E (ε ij )
a) Escribir la Suma de Cuadrados del error (SCerror). En este caso es dada por:
29
SC error = (ε 11 ) 2 + (ε 11 ) 2 + ....(ε 1nk ) 2
+ (ε 21 ) 2 + ......... + (ε 2nk ) 2
+ (ε 31 ) 2 + ......... + (ε 3nk ) 2
+ (ε k 1 ) 2 + ......... + (εk nk ) 2
k n
= ∑∑ (ε ij ) 2
i =1 j =1
y como ε ij = y ij − yˆ ij entonces
Para determinar los valores de los parámetros µ y αi (i= 1, 2, …, k), se debe derivar
la suma de cuadrados del error con respecto a cada parámetro e igualar a cero y
luego resolver el sistema de k+ 1 ecuaciones. Haciendo lo anterior se llega a que los
estimadores de los parámetros son:
µˆ = Y ••
(i= 1,2, … , k)
αˆ i = Y 1• − Y ••
y así el valor estimado según el modelo para cada observación ŷ ij es dado por
yˆ ij = µˆ + αˆ i = Y •• + (Y i• − Y •• )
= Y i•
30
Es decir cada respuesta observada se puede modelar como el valor de la media del
tratamiento donde se encuentra la observación.
Los efectos del modelo son estimados por el método de Mínimos Cuadrados. Este
método permite obtener los valores de µ y αi que minimizan la suma de los errores al
cuadrado, es decir, que minimizan la siguiente expresión:
k n
Q = ∑∑ ε ij2 =∑∑ (Yij − µ − α i ) 2
i =1 j =i
Para calcular los valores de µ y αi que minimizan la suma de los errores al cuadrado,
se debe solucionar el sistema de ecuaciones obtenido al igual las derivadas parciales de
Q con respecto a µ y cada uno de los αi a cero, y la siguiente restricción adicional:
∑rα i =0
µˆ = Y..
αˆ = y i , − y ..
εˆ = y ji , − y i.
Ejemplo 1 (Cont.): Con los datos del ejemplo anterior, la media estimada es:
µˆ = 10.582
31
ε 42 = Y42 − Y 4• = 9.8 − 9.840 = −0.04
k
Ti •2
SCTrat =∑ − FC
i =1 ni
32
k n
Ti •2 k
SC error = ∑ ∑ y − FC − (∑
2
ij − FC )
i =1 j =1 i =1 ni
T•2•
FC =
n
donde:
k
n = ∑ ni
i =1
f) Calcular el valor de F.
CM Trat
F= ~ Fα [(k − 1); (n − k )]
CM error
33
Ejemplo 1 (Cont.): A continuación se presenta el análisis de varianza y la prueba de
hipótesis correspondiente para el ejemplo tratado en esta sección:
k n
SC total = ∑∑ y ij2 − FC
i =1 j =1
232.8 2
= (11.1 + 10.9 + .... + 10.4 ) −
2 2 2
= 7.1527
22
k
Ti•2
SCTrat = ∑ − FC =
i =1 ni
Cuadro ANOVA
Fuente de Gl SC CM F
variación
Tratamientos 3 4.2657 1.4219 8.87
Error 18 2.8870 0.1604
Exptal.
Total 21 7.1527
Ho: µ1 = µ2 = … =µ4
H1: µi ≠ µ para algún i
o literalmente;
Ho: Todos los compuestos vitamínicos tienen el mismo defecto en la ganancia de peso
de los cerdos.
H1: Con al menos uno de los compuestos vitamínicos se obtiene una ganancia de peso
diferente.
34
El estadístico de prueba es F = 8.87. El valor de la tabla para un nivel de significación
del 5% es F( 0.95,3.18) = 3.19 . Dado que el estadístico de prueba resulta mayor que el valor
de la tabla se rechaza Ho. En conclusión, existe suficiente evidencia estadística para
aceptar que con al menos uno de los compuestos vitamínicos se obtienen ganancias de
peso diferentes en los cerdos.
P 1 2 … k
n1 n2 nk
Yj ∑y
j =1
1j ∑y
j =1
2j … ∑y
j =1
ij
n1 n2 nk
35
Nota: En esta no se toma el primer tratamiento, sino que se empieza desde el
segundo.
Tabla de Duncan:
Valor P 2 3 … k
VT VT1 VT2 VTk
Rp R2 R3 … Rk
Donde:
Los valores VTi están en tablas.
R p = VT * S x
P 2 3 … K
Rp R2 R3 … Rk
Y Ya Yb … Yk
y1 Y a − y1 Y b − y1 … Y k − y1
y2 Y a − y2 Y b − y2 … Y k − y2
… … … … …
y k −1 Y a − y k −1 Y b − y k −1 … Y k − y k −1
Los valores dentro de la tabla representan las diferencias entre las medias
( Y i − y j ). Los valores de Y i comienzan por el segundo elemento y están
ordenados de mayor a menor; y los valores y j comienzan desde el primer
elemento y no toma el último, además están ordenados de menor a mayor.
36
2.1.10 Prueba de Duncan cuando las observaciones por tratamiento difieren
Llamaremos S a:
S = CM error
Si
(Y i − y j )
〉 Rp
1 1 1
( + )
2 ni n j
Nota: Un aspecto que debe puntualizarse es que es posible que el ANOVA rechace H0
y sin embargo al aplicar Duncan no se detectan diferencias entre las medias, esta
situación no es común pero refleja que el ANOVA es una prueba más potente que el de
Duncan. En este caso lo que sucede es que los errores de tipo II en la prueba de Duncan
son más frecuentes y mayores que el del ANOVA.
CME
cv =
Y ••
0.1604
cv = = 3.78%
10.58
37
Ejemplo 2: Se desarrolló un experimento para evaluar 4 tratamientos para la
preparación del terreno:
La variable respuesta fue el tamaño de los plantones en cm. a los 30 días. Los
resultados del experimento se dan a continuación:
Tratamiento
Repetición T1 T2 T3 T4
1 25 15 12 4
2 18 22 7 6
3 29 17 8 5
4 24 17 13 9
Este experimento fue conducido bajo los lineamientos de un DCA, por lo que el
modelo aditivo lineal es el siguiente:
donde:
Yij es el tamaño de los plantones a los 30 días obtenido con el i-ésimo método de
preparación del terreno y en la j-ésima repetición.
µ es el efecto de la media general de los tamaños de los plantones.
α i es el efecto del i-ésimo método de preparación del terreno.
ε ij es el efecto del error experimental con el i-ésimo método de preparación del
terreno en la j-ésima repetición.
k = 4 (Número de tratamientos)
n = 6 (Número de repeticiones por tratamiento).
Cuadro ANOVA:
Fuente de Gl SC CM F
Variación
Tratamientos 3 773.2 257.7 24.02
Error 12 128.8 10.7
Total 15 901.9
38
Ho: µ1 = µ i = 1,....,4
H1: µi ≠ µ para algún i
Como F = 24.02 > F[ 0.95,3,12 ] = 3.49 , entonces se rechaza H0 y se concluye que existe
suficiente evidencia estadística con un nivel de significación del 5% para aceptar que
con al menos uno de los tratamientos para la preparación del terreno se obtienen
resultados diferentes en el tamaño de los plantones. El coeficiente de variación en este
problema es:
10.73
cv = = 22.68%
14.44
Note que la conclusión obtenida tras un análisis de varianza significativo es que con al
menos uno de los tratamientos se obtienen resultados diferentes. Si bien esta conclusión
ya resulta valiosa, definitivamente no es suficiente. Un investigador, querrá ir más allá
en el análisis y responder preguntas tales como: ¿Con qué tratamiento se obtienen los
mejores resultados?, ¿es este tratamiento significativamente superior a los demás?, ¿es el
tratamiento A mejor que el B?. Para responder a este tipo de preguntas será necesario
realizar pruebas adicionales que permitan comparar a los distintos tratamientos, en forma
individual o por grupos, unos con otros.
39
significativas va a ser menor a 5% y en el segundo caso mayor. Por esta razón, algunas
de las pruebas que se verán más adelante deben ser planteadas con anterioridad a la
ejecución del experimento y no sugeridas por los resultados obtenidos.
• Varianzas homogéneas.
• Las muestras son extraídas al azar.
Hipótesis:
Ho: µi = µj ∀ i ≠ j
H1: µi ≠ µj
ALS(T)= AES(T) Sd
donde:
- AES(T) es la amplitud estandarizada significativa de Tukey, obtenida desde la
tabla de Tukey con α= nivel de significación, p= número de tratamientos del
experimento y los grados de libertad del error experimental.
40
CME
- Sd = es la desviación estándar de la diferencia de las medias maestrales
n
de dos tratamientos para la prueba de Tukey cuando los tratamientos tienen el
mismo número de repeticiones.
CME ⎛⎜ 1 1 ⎞
Sd = + ⎟
2 ⎜⎝ ni n j ⎟⎠
Sin embargo, esta aproximación hace que la prueba sea ligeramente conservada (esto
es, disminuye la probabilidad de detectar diferencias significativas) ya que el nivel de
significación real es ligeramente menor que el establecido en la prueba.
Regla de Decisión:
Ejemplo 1 (Cont.):
Aplique la prueba de Tukey para evaluar la significación de las diferencias entre los
tratamientos.
H0 : µA = µB H 0 : µ A = µC H0 : µ A = µD
H1 : µ A ≠ µ B H1 : µ A ≠ µC H1 : µ A ≠ µ D
H 0 : µ B = µC H0 : µB = µD H 0 : µC = µ D
H1 : µ B ≠ µC H1 : µ B ≠ µ D H1 : µC ≠ µ D
41
Tratamientos Número de
comparados repeticiones Sd ALS(T) Y i• − Y j• Sig.
Hipótesis:
H0: µi= µj ∀ i, j
H1: µi≠ µj para al menos alguno distinto
1 1
D = CM Error ( + )(k − 1) Fα [(k − 1); (b − k )]
bi bj
42
2.1.15 Prueba de Dunnet
Hipótesis:
H0: µi= µj ∀ i, j
H1: µi≠ µj para al menos alguno distinto
2CME
Dunnet Sd =
t
Algunas veces es posible que el número de réplicas de cada tratamiento sea diferente y
así cada tratamiento tendrá ri réplicas (i = 1, 2, 3,…, t). Estos diseños se pueden
presentar en el caso que se esté comparando un control contra otros tratamientos ya que
queremos obtener buena información acerca del control, por ello este tendrá más
replicaciones que los otros tratamientos (¿Cuántas?, Ver Montgomery). Otro caso en el
que suele presentarse es cuando entre los t tratamientos algunos son más importantes que
otros. Otra razón es cuando la observación de alguna unidad experimental por algún
motivo se pierde. El modelo sobre el cual se basa el análisis está dado por:
∑
t
Error i =1 i
r −t SCerror CMError
∑
t
Total i =1 i
r −1
43
donde:
SC Tratamient os = ∑i =1 ∑ j1=1 ( y i • − y •• ) 2 = ∑i =1 ri ( y i • − y •• ) 2
t r t
SC Error = ∑i =1 ∑ j1=1 ( y ij − y i • ) 2
t r
SC Total = ∑i =1 ∑ j1=1 ( y ij − y •• ) 2
t r
44
Algunos ejemplos de submuestreo son:
Modelo para desigual número de observaciones por UE y diferentes réplicas por UO.
⎧i = 1,2,..., t
⎪
Yijk = µ + τ i + ε ij + η ijk ⎨ j = 1,2,..., ri
⎪k = 1,2,..., r
⎩ ij
Modelo para igual número de observaciones por UE e igual réplica por UO.
⎧i = 1,2,..., t
⎪
Yijk = µ + τ i + ε ij + η ijk ⎨ j = 1,2,..., r
⎪k = 1,2,..., n
⎩
t ri rij t ri rij
SCTTOS = ∑ ∑ ∑ ( y i•• − y ••• ) SC EE = ∑ ∑ ∑ ( y ij • − y i•• )
i =1 j =1 k =1 i =1 j =1 k =1
t ri rij t ri rij
45
La tabla de análisis de varianza para un modelo de efectos fijos desbalanceado es
dada por:
Error Experimental
∑ ∑
t t
(r − 1)
i =1 i
SCEE SCEE i =1
(ri − 1)
Error t r
SCEM
de Muestreo ∑ ∑ (r ij − 1) SC EM
∑∑
t ri
i =1 j =1
i=1 j=1
(rij −1)
Total N −1
SC T
Para un experimento de efectos fijos bajo un DCA con submuestreo, igual número
de réplicas y de observaciones por UE presentaremos la tabla de análisis de varianza
a continuación.
Antes presentaremos las sumas de cuadrados:
t r
SC EE = n∑∑ ( y ij − y i•• ) 2
2
SCTTOS = rn∑i =1 ( y1•• − y••• )
t
i =1 j =1
t r n t r n
SC EO = ∑∑∑ (Yijk − y ij• ) 2
SCT = ∑∑∑ (Yijk − y ••• ) 2
i =1 j =1 k =1 i =1 j =1 k =1
Tabla ANOVA:
SCT
Total trn − 1
46
2.1.18 Ejercicios resueltos y propuestos
Cada laboratorio mide los pesos de los revestimientos de estaño de 12 discos y los
resultados son los siguientes:
47
Fuente de Grados
Suma de Cuadrado
Variación de F
cuadrados medio
Libertad
Laboratorios 3 0.0130 0.0043 2.87
-
Error 44 0.0679 0.0015
- -
Total 47 0.0809
Como el valor obtenido para F excede a 2.82 que corresponde al valor de F0.05 con
3 y 44 grados de libertad, la hipótesis nula puede rechazarse con nivel de significación
de 0.05. Se concluye que los laboratorios no están logrando resultados consistentes.
T1. = 139 T2.= 145 T3. = 153 T4.= 128 T..= 565
∑∑ y 2
ij = 26867 FC = (565) 2 12 = 26602
48
Fuente de
Varianza Grados de Suma de Cuadrado
F
libertad cuadrados medio
Detergentes 3 111 37.0 11.6
Lavadoras 2 135 67.5 21.1
Error 6 19 3.2 -
Total 11 265 - -
Dado que Ftr = 11.6 sobrepasa 9.78 que es el valor de F0.01 con 3 y 6 grados de
libertad, concluye que existen diferencias en la eficiencia de los cuatro
detergentes.
También, puesto que Fbl = 21.1 excede a 10.9, el valor de F0.01 con 2 y 6 grados
de libertad, se llega a que existen diferencias significativas entre los resultados de
las 3 lavadoras.
Se rechaza H0 esto quiere decir que al menos una de ellas tiene un rendimiento
significativamente distinto al de los demás.
Por lo que los efectos de los detergentes y las lavadoras son significativos.
Dosis de insecticida
3 l/ha 5 l/ha 7 l/ha 9 l/ha
4.29 8.50 10.75 5.63
4.24 8.03 11.52 2.96
4.53 7.94 11.49 5.47
4.26 6.75 11.52 6.01
4.62 7.16 10.81 6.09
49
4) Se desea comparar los resultados obtenidos en el examen parcial de Métodos
Estadísticos para la investigación I por las clases de 4 profesores. A continuación
se presentan los resultados de una muestra aleatoria de 8 alumnos de cada clase.
a) ¿Presentan los datos suficiente evidencia para aceptar que las notas en el
examen parcial son diferentes entre los grupos?
Dieta
A B C D
62 63 68 56
60 67 66 62
63 71 71 60
59 64 67 61
65 68 63
64
50
Fármaco
Sin droga Innovar Droperidol Fentayl
5.9 16.1 10.3 7.2
8.0 11.2 6.8 10.5
11.5 9.0 5.3 8.5
6.0 8.8 3.2 4.2
9.2 10.2 6.5 6.5
7.0 6.6
7.5 9.1
Programa Rangos
A 4 6 7 2 10
B 1 8 12 3 11
C 20 19 19 14 5
D 18 15 17 13 9
51
ser controladas por el experimentador. Esto puede ocurrir por ejemplo en experimentos en
el terreno, en donde se sabe que parcelas adyacentes suelen presentar resultados más
homogéneos entre sí que parcelas más separadas, o en experimentos en donde los datos se
toman por días, y en donde se sabe que los resultados pueden diferir entre los distintos
días. Estas fuentes de variación son controladas mediante la formación de bloques; la idea
es agrupar a las observaciones en los distintos bloques de modo que sean lo más
homogéneas dentro del bloque y heterogéneas entre bloques.
Al diseño que controla una fuente de variación adicional a los tratamientos se le conoce
como el Diseño de Bloques. Aquí se verá el Diseño de Bloques Completos al Azar
(DBCA), en el caso paramétrico y no paramétrico, y sus respectivas pruebas de
comparación de medias. Los bloques son completos porque todos los tratamientos
aparecen en igual número, usualmente una vez, dentro de cada bloque, y son al azar por
que los tratamientos son asignados aleatoriamente dentro de cada bloque. A este diseño se
le conoce también como diseño de clasificación de dos vías sin interacción (Two Way).
Los diseños de bloques pueden también ser incompletos balanceados. En este caso, los
bloques son incompletos porque no todos los tratamientos aparecen dentro de cada bloque,
y balanceados porque el número de tratamientos dentro de cada bloque es el mismo y
cada tratamiento se repite el mismo número de veces dentro del experimento.
Ventajas
Desventajas
52
2.2.2 Aleatorización y Croquis Experimental
En este diseño los tratamientos son asignados en forma aleatoria dentro de cada bloque.
Por ejemplo suponga que va a evaluar k tratamientos con b repeticiones cada uno, en
donde cada repetición constituye un bloque; en este caso necesitará de b*k unidades
experimentales. Para asignar los tratamientos en forma aleatoria dentro de un bloque, se
puede ver los métodos dados para el Diseño Completamente al Azar.
Esquema de los datos:
BLOQUES
B1 B2 … Bb Ti·
T1 Y11 Y12 … Y1b T1·
T
R T2 Y21 Y22 … Y2b T2·
A : … … … … :
T. Tk Yk1 Yk2 … Ykb Tk·
B·j B·1 B·2 … B·b T··
y ij = µ + α i + β j + ε ij
donde
i= 1,2,…., k y j= 1,2,…, b
µ es una media general
αi es el efecto del i-ésimo tratamiento
βj es el efecto del j-ésimo bloque
εij es el término usual de error aleatorio
Días
Solución 1 2 3 4
1 13 22 18 39
2 16 24 17 44
3 5 4 1 22
53
El modelo aditivo lineal es el siguiente:
y ij = µ + α i + β j + ε ij
donde
i= 1,2,…., k y j= 1,2,…, b
Yij es el número de UCF observado con la i-ésima solución, j-ésima día (bloque).
µ es el efecto de la media general.
αi es el efecto del i-ésimo solución.
βj es el efecto del j-ésimo día (bloque).
εij es el efecto del error experimental con la i-ésima solución, j-ésimo día (bloque).
t= 3 (Número de tratamientos).
b= 4 (Número de días o bloques).
Los efectos del modelo, µ , α i , β j , son estimados de modo que se minimice la siguiente
expresión (Método de Mínimos Cuadrados):
Inicialmente se considera que tanto los tratamientos como los bloques son factores fijos.
Más aún, los efectos de tratamiento y de bloque se consideran como desviaciones de la
media general, por lo tanto:
54
k b
∑α
i =1
i =0 y ∑β
j =1
j =0
µ̂ = Y •• α̂ i = Y i• − Y ••
β̂ j = Y • j − Y •• ε ij = Yij − Y i• − Y • j + Y ••
Ejemplo 1 (Cont.): Con los datos del ejemplo anterior, la media estimada es:
µˆ = 18.75
βˆ 3 = Y •3 − Y •• = 12 − 18 .75 = −6.75
βˆ 4 = Y • 4 − Y •• = 35 − 18 .75 = 16 .25
55
La variabilidad total es cuantificada por la suma de cuadrados total:
k b
T•2•k b
= SC( y) = ∑∑ (Yij − T •• ) = ∑∑Yij −2 2
SCtotal
i =1 j =1 i =1 j =1 kb
T •2•
donde es el término de correlación (TC).
kb
Las sumas de los cuadrados de los tratamientos, bloques y error se calculan de la
siguiente manera:
k
Ti•2 b T•2j
SCTrat. =∑ − TC SC Bloques = ∑ − TC
i =1 b j =1 k
2
k b
Ti•2 b T• j
k
SCError = ∑∑Yij −∑ − ∑ 2
+ TC
i =1 j =1 i =1 b j =1 k
Estas fuentes de variación son comparadas mediante la prueba de hipótesis a partir del
cuadro de análisis de varianza (Cuadro ANOVA)
gltrat = k -1
glbloque = b-1
gltotal = kb - 1
glerror = (k-1)(b-1)
SCTrat . SC Bloques
CM Trata. = CM Bloques =
glTrat . gl Bloques
56
SC Error
CM Error =
gl Error
d) Hipótesis.
Para el Modelo I (Efectos fijos) las hipótesis son, en términos de los efectos de
los tratamientos siguientes:
H0: αi= 0 ∀ i
H1: αi≠ 0 para al menos algún i
H0: σ k = 0
2
H1: σ k > 0
2
57
Ejemplo 1 (Cont.): A continuación se presenta el análisis de varianza y la prueba
de hipótesis correspondiente para el ejemplo tratado en esta sección:
225 2
SCTotal = (13 2 + 22 2 +... + 22 2 ) − = 1862.25
(3)(4)
92 2 1012 32 2 225 2
SCTratamienot = + + + = 703.5
4 4 4 (3)(4)
34 2 50 2 36 2 105 2 225 2
SC Bloques = + + + − = 1106.92
3 3 3 3 (3)(4)
SC ( Error ) = SC (Total ) − SC (Trat .) − SC ( Bloq ) = 51.83
Cuadro ANOVA
H0: αi= 0 ∀ i
H1: αi≠ 0 para al menos algún i
O literalmente
H0: Las tres soluciones son iguales efectivas en el retardo del crecimiento de
bacterias en contenedores de leche.
H1: Al menos una de las soluciones tiene una efectividad diferente en el retardo
del crecimiento de bacterias en contenedores de leche.
58
El estadístico de prueba es F = 40.72 . El valor de tabla para un nivel de
significación del 5% es F( 0.95 , 2 , 6 ) = 5.14 . Dado que el estadístico de prueba
resulta mayor que el valor de tabla se rechaza H0. En conclusión, existe
suficiente evidencia estadística para aceptar que las tres soluciones no son
igualmente efectivas en el retardo del crecimiento de bacterias en contenedores
de leche.
CME 8.64
cv = = = 15.68%
Y •• 18.75
h) Estadístico de Prueba.
CM Bloques
FBloques = ~ Fα [(b − 1); (b − 1)(k − 1)]
CM Error
Entonces H0 se rechaza y
∴ Hay diferencias entre los bloques.
59
CM Trat
FTrat = ~ Fα [(k − 1); (b − 1)(k − 1)]
CM Error
Entonces H0 se rechaza y
∴ Hay diferencias entre los tratamientos.
Hipótesis:
H0: µBi= µBj ∀ i, j
H1: µBi≠ µBj para al menos alguno distinto
1 1
D = CM Error ( + )(k − 1) Fα [(k − 1); (b − k )]
bi bj
si y i − y j > D entonces H0 se rechaza.
Algunas veces los datos de ciertas unidades se pierden o no son utilizables, como es el
caso de un animal que se enferma o muere, y no completa todo el tratamiento; cuando se
pierde una parcela experimental en un campo, producto de una plaga, u otra causa
cualquiera.
Yates (1933) desarrolló un método para estimar los datos perdidos. El estimado de un
dato perdido no proporciona una información adicional, sino que solo facilita el análisis
de los datos restantes.
Cuando se pierde un dato en el diseño de BA se puede calcular un estimado del valor
perdido mediante la expresión siguiente:
bB + kT − G
Yˆij =
(b − 1)(k − 1)
donde:
B: total de unidades restantes en el bloque al que pertenece el valor.
T: total de las unidades restantes en el tratamiento al que pertenece el valor.
G: gran total.
60
b: número de bloques.
k: número de tratamientos.
(T + bB − G1 ) 2
SC Bloques( ajustados) = SC Bloques −
k (k − 1)(b − 1) 2
( B + kT − G1 ) 2
SCTrat ( ajustados ) = SCTrat −
b(b − 1)(k − 1) 2
Además, debe restársele 1 grado de libertad a los grados de libertad de error y el total.
Preparación
Proceso I II III IV V
A 85 81 82 85 82
B 85 79 86 89 81
C 97 92 89 91 86
D 93 85 87 88 87
61
g) Los procesos A y B son dos variantes de una metodología, llamémosla
metodología 1, y los procesos C y D son variantes de otra, llamémosla
metodología 2. Se cree que la metodología 2 es mejor que la metodología 1.
¿Aportan los resultados de este experimento suficiente evidencia para aceptar
que la metodología 2 es mejor que la metodología 1?
Alimento Laboratorio
Dietético 1 2 3
A 13 15 12
B 17 18 14
C 15 18 13
T1= 5400, T2= 4800, T3= 4200 y T5= 3600. El experimento se condujo en
parcelas de 300 m2 de área útil y los resultados están expresados en kilogramos.
Bloques Tratamientos
T1 T2 T3 T4
I 68 73 53 50
II 86 90 62 62
III 68 71 46 50
62
c) Realice la prueba de Tukey.
d) ¿Se puede afirmar que con T2 el rendimiento por parcela supera en más de
80 kilogramos al que se obtiene con T4?
Tratamiento
Bloque Testigo A B C
1 92 98 96 91
2 90 94 90 93
3 88 93 91 97
4 86 91 89 95
Crema Bloque
1 2 3 4 5 6 7
1 3 3 4 4 3 4 5
2 4 4 6 5 5 6 6
3 5 4 6 5 5 7 7
4 4 5 4 6 4 6 7
63
6) A seis soldadores, con diferente nivel de experiencia, se les pidió que unieran dos
tubos metálicos utilizando 5 diferentes tipos de llama. Las llamas fueron
utilizadas en orden aleatorio por cada soldador. Las soldaduras ya terminadas
fueron evaluadas sobre una variedad de factores cualitativos y calificadas del 1 al
10, donde 10 representa un trabajo perfecto. Los resultados fueron los siguientes:
El DCL es usado en muchos campos de investigación donde hay dos fuentes principales
de variación en la realización del experimento. En experimentos sobre el terreno, la
disposición de las unidades experimentales suele ser sobre un área rectangular,
permitiendo así la eliminación de la variación proveniente de diferencias en el suelo en
dos direcciones. El DCL ha sido utilizado también un la industria, laboratorio y en las
ciencias sociales.
64
experimental y cuadrados muy grandes implican la utilización de muchas unidades
experimentales además de que al tener bloques grandes el error experimental aumenta.
Ventajas:
Desventajas:
− El número de tratamientos, filas y columnas debe ser el mismo. Por esta razón, no es
recomendable para un número elevado de tratamientos ya que se requerirá de un
número elevado de unidades experimentales (u.e.) (el número de u.e. es igual a t2).
− Si existe interacción entre los bloques y tratamientos, ésta va incluida en el error
experimental. En este caso se tiene la interacción filas por columnas, filas por
tratamientos, columnas por tratamientos y filas por columnas por tratamientos.
COLUMNAS
FILAS C1 C2 … Ct
F1 A1 A5 … A7
F2 A7 At … A2
… … … … …
Ft A3 A6 … A4
donde:
Ci: Columna i-ésima.
Fj: Fila j-ésima
Yij: Tratamiento aplicado a la i-ésima columna y j-ésima fila.
65
2.3.3 Modelo Aditivo Lineal
Yij ( k ) = µ + α i + β j + ζ ( k ) + ε ijk
donde:
Todos los abonos se aplicaron a razón de 100 Kg. Por hectárea. El diseño empleado fue un
Cuadrado Latino, donde las unidades experimentales fueron clasificadas en filas y
columnas según su ubicación en el terreno tal y como se muestra en el siguiente croquis
junto con los resultados del experimento (en Kg. de caña/parcela):
Columna
Fila 1 2 3 4
1 432(SA) 518(NA) 458(SS) 583(UR)
2 550(SS) 724(UR) 400(NA) 524(SA)
3 556(UR) 384(SS) 400(SA) 297(NA)
4 500(NA) 506(SA) 501(UR) 494(SS)
66
El modelo aditivo lineal es el siguiente:
Y(i ) jk = µ + α (i ) + β j + ζ k + ε (i ) jk
donde:
No existe interacción entre los bloques por filas, por bloques y los tratamientos.
Q = ∑ j =1 ∑k =1 ε (2i ) jk = ∑ j =1 ∑k =1 (Y(i ) jk − µ − α (i ) − β j − ζ k ) 2
t t t t
67
teniendo en cuenta las siguientes restricciones:
t t t
∑α
i =1
(i ) =0 ∑β
j =1
j =0 ∑ζ
k =1
k =0
βˆ j = Y (•) j • − Y (•)•• ζ k = Y ( • ) • k − Y ( • ) ••
Ejemplo 1 (Cont.): Con los datos del ejemplo anterior, la media estimada es:
µˆ = Y (• )•• = 489.2
68
El efecto estimado del error ε 21 :
t t t t Y(2•)••
scTotal = ∑∑(Y(i) jk − Y (•)•• )2 = ∑∑Y(i2) jk −
j=1 k=1 j=1 k=1 t2
Y(2• )••
donde FC = (Factor de corrección).
t2
Las sumas de cuadrados de los tratamientos, bloques por filas y por columnas y error
experimental se calculan de la siguiente manera:
t Y(2i)•• t Y(2•) j•
SCTrat = ∑ − FC SCbloq Fila = ∑ − FC
i=1 t j =1 t
t Y(2•)•k
SCbloq Columnas= ∑ − FC
k=1 t
t t t Y(i2)•• t Y(•2) j• t Y(2•)•k
SCError = ∑∑Y 2
(i ) jk −∑ −∑ −∑ + 2FC
j =1 k =1 i=1 t j =1 t k =1 t
69
Estas fuentes de variación son comparadas mediante el siguiente procedimiento de
prueba de hipótesis a partir del cuadro de análisis de varianza (Cuadro ANOVA)
Columnas t −1 SC(Col)
SC(Col.)
gl(Col)
Tratamientos t −1 SC(Trat)
SC(Trat)
gl(Trat)
Error (t − 1)(t − 2) SC(Error)
SC(Error)
gl(Error)
Total SC(Total) t 2 −1
Hipótesis:
Para el Modelo I (Efectos fijos) las hipótesis son, en términos de los efectos de los
tratamientos las siguientes:
H0: αi= 0 ∀ i
H1: αi≠ 0 para algún i
H1: σ t > 0
2
En cualquiera de los casos, la hipótesis nula implica que los tratamientos no afectan a la
variable respuesta o lo que es lo mismo, que con todos los tratamientos se obtienen los
mismos resultados.
70
Causa de Grados Valor Esperado de los Cuadrados
Variación de Medios
Libertad Modelo I Modelo II
(gl)
t
α i2
Tratamientos t-1 σ + t∑
2
σ 2 + tσ α2
i =1 t −1
t β j2
Filas t-1 σ + t∑
2
σ 2 + tσ β2
j =1 t −1
t-1 t
ζ k2
Columna σ + t∑
2
σ 2 + tσ ζ2
j =1 t −1
Error (t- 1)(t- 2)
Experimental σ2 σ2
Total t2- 1
Estadístico de Prueba.
CM Trat
F= ~ F( gl (Trat ), gl ( Error ))
CM Error
Regla de decisión:
Entonces H0 se rechaza y
∴ Hay entre los tratamientos.
Ejemplo 1 (Cont.): A continuación se presenta el análisis de varianza y la prueba de
hipótesis correspondiente para el ejemplo tratado en esta sección:
t t Y(2•)••
scTotal = ∑∑Y 2
(i ) jk −
j=1 k=1 t2
7827 2
= (432 + 550 + ..... + 494 ) −
2 2
= 42586 2
42
71
t Y(2i)••
SCTrat = ∑ − FC
i =1 t
17152 18622 18862 23642 7827 2
= + + + + = 59570
4 4 4 4 42
t Y(2•) j •
SCbloq Fila = ∑ − FC
j =1 t
19912 2198 2 1637 2 20012 7827 2
= + + + + = 40893
4 4 4 4 42
t Y(2•)•k
SCbloq Columnas = ∑ − FC
k =1 t
20382 21322 17592 18982 7827 2
= + + + + = 19968
4 4 4 4 42
ANOVA
Asumiendo un modelo de efectos fijos, las hipótesis en términos de los efectos de los
tratamientos son:
H0: αi= 0 ∀ i
H1: αi≠ 0 para algún i
72
En términos de las medias de los tratamientos:
H0: µi= µ ∀ i
H1: µi≠ µ para algún i
O literalmente:
H0: Los cuatro abonos nitrogenados tienen el mismo efecto en el cultivo de caña de
azúcar.
H1: Con al menos uno de los abonos nitrogenados se obtiene un efecto diferente en el
cultivo de caña de azúcar.
CME 3738
cv = = = 12.50%
Y ( • ) •• 489.19
2CME
1) Prueba t y DLS Sd =
t
ci2
S Lˆ = CME ∑i =1
t
2) Contrastes Ortogonales
t
CME
3) Tukey Sd =
t
2CME
4) Dunnet Sd =
t
73
2.3.8 Ejercicios
Orden de Operador
Montaje 1 2 3 4
1 C= 10 D= 14 A= 07 B= 08
2 B= 07 C= 18 D= 11 A= 09
3 A= 05 B= 10 C= 11 D= 09
4 D= 10 A= 10 B= 12 C= 14
Casilleros
Pisos 1 2 3 4
1 1.40(A) 1.38(B) 1.40(C) 1.60(D)
2 1.35(B) 1.28(A) 1.45(D) 1.62(C)
3 1.38(C) 1.40(D) 1.42(B) 1.63(A)
4 1.39(D) 1.39(C) 1.40(A) 1.60(B)
74
e) Realice la prueba DLS para comparar si existe diferencia entre el tratamiento
C y D. Use α=0.01
f) Utilice la prueba T para comparar si el peso promedio utilizando el
tratamiento C es menor al peso promedio usando el tratamiento B. Use
α=0.05
Es posible que en algunos experimentos que usan diseños por bloques no puedan
realizarse los ensayos de todas las combinaciones de tratamiento dentro de cada bloque o
que en algún momento se pierdan los valores tomados. Situaciones como éstas ocurren
debido a escasez en los recursos del experimento, por descuidos o por el tamaño físico
de los bloques. Por ejemplo, supongamos un experimento en el que el tamaño físico de
las probetas sólo alcanza para probar tres puntas en cada probeta. En estos casos en
posible usar diseños aleatorizados por bloques en los que cada tratamiento no está
presente en cada bloque. Estos diseños se conocen como Diseños Aleatorizados de
Bloques Incompletos (DBI), y serán el motivo de estudio.
Cuando las comparaciones entre todos los tratamientos tienen la misma importancia,
éstas deben elegirse de manera que ocurran en forma balanceada dentro de cada bloque.
Esto significa que cualquier par de tratamientos ocurren juntos el mismo número de
veces que cualquier otro par. Por lo tanto, un diseño balanceado de bloques incompletos
es un diseño de bloques incompletos en el que cualquier par de tratamientos ocurren
juntos el mismo número de veces.
75
2.4.1 Análisis estadístico
λ = r ⋅ (k − 1) a − 1
Se dice que el diseño es simétrico si a = b.
Bloques Tratamientos
1 1 2 3
2 1 2 4
3 1 3 4
4 2 3 4
Bloques Tratamientos
1 1 2
2 3 4
3 1 3
4 2 4
5 1 4
6 2 3
76
EJEMPLO 3: Supongamos b = 4 bloques incompletos para investigar b = 6
tratamientos.
Bloques Tratamientos
1 1 2 3
2 1 3 6
3 2 3 5
4 4 5 6
Yij = µ + τ i + β j + ε ij
SS T = ∑i ∑ j y ij2 − ( y •2• N )
77
tratamientos no corregidos, y1 , y 2 ,..., y a también son afectadas por las diferencias entre
los bloques.
en donde y j es el total del j-ésimo bloque. La SS Bloques tiene b-1 grados de libertad. La
suma de cuadrados de tratamiento corregida (o ajustada) es
b
Qi = y i• − (∑ nij ⋅ y • j ) k , i = 1,2,...., a
j =1
con nij = 1 si el tratamiento i ocurre en el bloque j, nij = 0 en otro caso. Por lo tanto,
(1 / k ) ⋅ ∑ j =1 nij ⋅ y• j
b
es el promedio de los totales de
los bloques en los que se aplica el tratamiento i. La suma de los totales de tratamiento
corregidos siempre será 0. La SSTratamientos ajustada tiene a -1 grados de libertad. La
suma de cuadrados del error se calcula por diferencia
SSBloque
La estadística apropiada para probar la igualdad de los efectos de tratamiento es:
F = CM Tratamientos / CM ε
78
Análisis de varianza para el diseño DBI
Bloques
SS Bloques b- 1
SS Bloques b − 1
Error
SSε N-a- b+ 1
SSε ( N − a − b + 1)
Total N- 1
SST
79
La Suma de Cuadrados de Bloque es:
9 7 4 20
(− ) 2 + (− ) 2 + (− ) 2 + ( ) 2
= 3⋅ 3 3 3 3 = 22.75
2⋅4
Como F > F0.05;3, 5 = 5.41 , se concluye que el catalizador empleado tiene un efecto
significativo sobre el tiempo de reacción.
80
2.4.4 Calculo de los efectos
En ocasiones, se desea evaluar los efectos de los bloques. Para lograrlo se requiere una
descomposición alterna de SST, en otras palabras,
a
Q j `= y• j − (∑ nij ⋅ yi• ) r , j = 1,2,...., b
i =1
7 24 31
( ) 2 + ( ) 2 + (− ) 2 + 0 2
SS Bloques ajustada = 3⋅ 3 3 3 = 66.08
2⋅4
81
Fuente de Suma de Grados de Media de F
Variación Cuadrados Libertad Cuadrados
Tratamientos 22.75 3 7.58 11.66
(corregidos)
Tratamientos
(no 11.67 3 ----
corregidos)
Bloques 55.00 3 ----
Bloques 66.08 3 22.03 33.90
(corregidos)
Error 3.25 5 0.65
Total 81.00 11
Hay que observar que la suma se cuadrados asociadas con cada media de cuadrados en
la tabla anterior no es igual a la suma total de cuadrados, o sea que
82
Capítulo 3 Diseños factoriales.
♦ Diseños factoriales.
♦ Diseños 2k.
Ventajas:
83
Desventajas:
Usos:
(Sigarroa, A. 1985)
3.1.2.1 Factor
Los factores son designados por letras mayúsculas. Por ejemplo en un experimento en el
que se evalúan 3 cantidades de semilla con 4 dosis de nitrógeno por parcela y 2 variedades
de maíz destinado a chala, el factor cantidad de semilla se puede denotar por A, el factor
dosis de nitrógeno por B y el factor de maíz por C.
Los niveles de un factor son denotados por letras minúsculas con subíndices. Por
ejemplo, las 3 cantidades de semilla podrían ser denotadas por a1, a2 y a3, las 4 dosis de
nitrógeno por b1, b2, b3, b4, y las 2 variedades de maíz por c1, c2.
84
Una combinación de letras minúsculas con sus respectivos subíndices es utilizada para
denotar una combinación de los niveles de los factores. Por ejemplo la combinación a2b2c1
denotará el tratamiento conformado por la aplicación de la cantidad a2 de semilla con la
dosis b2 de nitrógeno y la variedad c1 de maíz.
Dependiendo de la naturaleza de los niveles de los factores, estos pueden ser cualitativos
o cuantitativos. En el ejemplo, los factores A y B son cuantitativos y el factor C cualitativo.
En el caso de factores cuantitativos estos pueden ser igualmente espaciados o no. Así por
ejemplo, para el factor B, niveles de 0, 10, 20, 30 Kg/parcela y de 10, 20, 40, y 80
Kg/parcela constituirían niveles igualmente espaciados y no igualmente espaciados
respectivamente.
Adicionalmente, los factores pueden ser fijos o al azar, dependiendo de la forma en que
son seleccionados sus niveles. Un experimento factorial con todos sus factores fijos
corresponderá a un modelo I o de efectos fijos, un experimento factorial con todos sus
factores aleatorios corresponderá a un modelo II o de efectos aleatorios y un experimento
factorial con algunos factores fijos y otros aleatorios corresponderá a un modelo III o de
efectos mixtos. En este caso se considerarán que todos los factores son fijos.
Efecto Principal: Es el efecto de un factor en promedio sobre los niveles de los otros
factores.
Efectos Simple: Es el efecto de un factor, en un nivel de los demás factores.
Efectos Interacción: Está dado por la variación que tiene un efecto simple de un factor al
pasar de un nivel a otro de otro factor.
Efectos Cruzado: Está dado por las combinaciones cruzadas de dos factores.
85
FACTOR B
B1 B2 … Bb
Y111 Y121 … Y1b1
F A1 … … … …
A Y11r Y12r … Y1br
C Y211 Y221 … Y2b1
T A2 … … … …
O
Y21r Y22r … Y2br
R
…
A Yh11 Yh21 … Yhb1
Ah … … … …
Yh1r Yh2r … Yhbr
Niveles del a1 a2
Factor A
Niveles del b1 b2 b1 b2
Factor B
Medias 54 38 45 56
Efectos Simples:
Efectos Principales:
- De A: EP(A)=
1
[ES ( A(b1 ) + ES ( A(b2 ))] = 9 − 18 = −4.5
2 2
1 16 − 11
- De B: EP(B)= [ES ( B (a1 ) + ES ( B (a 2 ))] = = 2 .5
2 2
Efecto de interacción:
- De AB: EI(AB)=
1
[ES ( A(b1 ) + ES ( A(b2 ))] = 9 + 18 = 6.75
2× 2 2
- EP(AB)=
1
[ES ( B(a1 ) + ES ( B(a 2 ))] = 16 + 11 = 6.75
2× 2 2
86
Efectos cruzados:
Ahora, dado que los tratamientos son generados por las combinaciones entre los niveles
de dos factores, el efecto de los tratamientos se descompone en el efecto del factor A, el
efecto del factor B y el efecto de la interacción entre los dos factores. Así, el modelo
aditivo lineal para un factorial pxq en DCA será:
Yijk = µ + α i + β j + I ij + ε ijk
donde:
Yijk: es el valor o rendimiento observado con el i-ésimo nivel del factor A, j-ésimo factor
B, k-ésima representación de la celda (ij).
µ: es el efecto de la media general.
αi: es el efecto del i-ésimo nivel del factor A.
β: es el efecto del j-ésimo nivel del factor B.
Iij: es el efecto del interacción del i-ésimo nivel del factor A con el j-ésimo nivel del factor
B.
εijk: es el efecto del error experimental en el i-ésimo nivel del factor A, j-ésimo factor B, k-
ésima representación de la celda (ij). εijk~ N(0; σ2).
h: es el número de niveles de factores A.
b: es el número de niveles de factores B.
donde:
γk: es el efecto del k-ésimo bloque.
Los supuestos del modelo serán los mismos que para el DCA o DBCA con un solo
factor vistos anteriormente. Los cálculos y procedimientos presentados de aquí en adelante
87
corresponderán al caso del experimento factorial pxq en DBCA. El caso del experimento
factorial en DCA es similar al del DBCA.
Campos a1 a2
b1 b2 b3 b1 b2 b3
1 1.9 1.8 2.7 1.8 2.9 3.0
2 2.3 2.1 2.4 2.2 2.7 3.2
3 2.0 2.4 2.9 2.0 3.2 2.9
4 2.1 2.9 2.8 2.4 3.5 3.4
Total 8.3 9.2 10.8 8.4 12.3 12.5
Yijk = µ + αi + β j + I ij + γ k + ε ijk
donde:
Yijk: es el rendimiento de maíz en Tm/Ha obtenido con el i-ésimo nivel de abono, j-
ésima dosis, k-ésimo campo de cultivo.
µ: es el efecto de la media general.
αi: es el efecto del i-ésimo tipo de abono.
β: es el efecto del j-ésima dosis de abono.
Iij: es el efecto del interacción del i-ésimo tipo de abono, j-ésima dosis.
γk: es el efecto del k-ésimo campo de cultivo.
εijk: es el efecto del error experimental en el i-ésimo nivel del factor A, j-ésimo factor B,
k-ésima representación de la celda (ij). εijk~ N(0; σ2).
h= 2: es el número de niveles de factores A.
b= 3: es el número de niveles de factores B.
r= 4 es el número de bloques.
Los efectos del modelo, µ, αi, βj, Iij, γk son estimados de modo que se minimice la
siguiente expresión (Método de los Mínimos Cuadrados):
88
h b r
Q = ∑∑∑ε ijk
2
= ∑∑∑(Yijk − µ − αi − β j − I ij − γ k ) 2
i =1 j =1 k =i
h b h b r
∑α =0
i=1
i ∑β
j=1
j =0 ∑I
i=1
ij =0 ∑I
j=1
ij =0 ∑γ
k=1
k =0
Ejemplo 2 (Cont.): Con los datos del ejemplo anterior, la media estimada es:
µˆ = Y ••• = 2.5625
Los efectos estimados de los niveles del factor A:
αˆ1 = Y 1•• − Y ••• = 2.3583 − 2.5625 = −0.2042
αˆ 2 = Y 2•• − Y ••• = 2.7667 − 2.5625 = 0.2042
El efecto estimado de la interacción entre el nivel 1 del factor A y el nivel 2 del factor B:
Iˆ12 = Y 12• − Y 1•• − Y •2• + Y •••
= 2.3 − 2.3583 − 2.6875 + 2.5625
= −0.1833
89
3.1.5 Análisis de Varianza
k b r k b r
SCTotal = ∑ ∑∑ (Yijk − Y ••• ) =∑∑∑Yijk2 − FC
2
i =1 j =1 k =1 i =1 j =1 k =1
Y•2••
donde FC = . El cual significa factor de correlación.
kbr
k b Yij2•
SC I = SC ( A) + SC ( B) + SC ( I ) = ∑∑ − FC
i =1 j =1 r
Y•2•k
r
90
Fuente de Grados de Sumas de Cuadrados F
Variación Libertad Cuadrados Medios
(gl) (SC) (CM)
SC Bloques
Bloques r-1 SC Bloques gl Bloques
SC A CM A
A k-1 SC A gl A CM Error
SC B CM B
B b-1 SC B gl B CM Error
SC I CM I
I= (AxB) (k-1)(b- 1) SC AB gl I CM Error
Error (kb- 1)(r- 1) SC Error
Experimental
Total kbr- 1 SC Total
Hipótesis:
Para el Modelo I (Efectos fijos) las hipótesis son, en términos de los efectos de los
niveles de los factores las siguientes:
H1: σ α > 0
2
91
Para el efecto principal de B:
Ho: σ β2 = 0
H1: σ β >0
2
H1: σ αβ > 0
2
Estadístico de Prueba:
CM A
Para el efecto principal de A: F= ~ F( gl ( A), gl ( Error ))
CM Error
CM B
Para el efecto principal de B: F= ~ F( gl ( B ), gl ( Error ))
CM Error
CM I
Para el efecto principal de I: F= ~ F( gl ( I ), gl ( Error ))
CM Error
Regla de Decisión:
La hipótesis nula se rechaza con un nivel de significación de α si el F resulta mayor que
el valor de la tabla F(1−σ ) con los grados de libertad correspondientes a cada caso.
k b r
SCTotal = ∑∑∑ Yijk2 − FC
i =1 j =1 k =1
61.52
= (1.9 2 + 2.32 + ..... + 3.4 2 ) − = 6.0763
(2)(3)(4)
92
Yi•2•
k
SC ( A) = ∑ − FC
i =1 br
28.32 33.2 2 61.52
= + − = 1.0004
(3)(4) (3)(4) (2)(3)(4)
b Y•2j •
SC ( B) = ∑ − FC
j =1 kr
16.7 2 21.52 23.32 61.52
= + + − = 2.91
(2)(4) (2)(4) (2)(4) (2)(3)(4)
SC I = SC I − SC A − SC B
= 4.4738- 1.0004- 2.91= 0.5633
r
Y•2• k
SC Bloques =∑ − FC
k =1 kb
SC E = SCTotal − SC I − SC Bloq
= 6.0763- 4.4738- 0.8046
= 0.7979
Cuadro ANOVA:
93
Para el efecto principal de B:
Ho: βi = 0 ∀ j
H1: β j ≠ 0 para al menos algún j.
CME 0.0532
cv = = = 9% .
Y •• • 2.5625
Este análisis debe ser efectuado en el caso que la interacción resulte significativa y
consiste en evaluar a cada factor en cada uno de los niveles del otro. Las hipótesis a
contrastar en este caso, asumiendo un Modelo I (Efectos fijos) son las siguientes:
Los grados de libertad para cada efecto simple serán iguales a los grados de libertad del
correspondiente efecto principal y las sumas de cuadrados son calculadas de acuerdo con
las siguientes fórmulas:
k Yij2• Y•2j •
SC ( Ab j ) = ∑ −
i =1 r kr
94
2) Para el efecto simple de B en el i-ésimo nivel de A:
b Yij2•Yi•2•
SC ( Ba j ) = ∑ −
j =1 r br
Cuadro ANOVA:
95
Para un modelo de efectos fijos las hipótesis serán:
Para B en a2:
Ho: µ 21• = µ 22• = µ 23•
H1: Al menos un µ 2 j •
Los efectos simples del factor A son comparados con el valor de la tabla
F( 0.95 ,1,15 ) = 4.54 y los efectos simples del factor B con F( 0.95, 2,15) = 3.86 . No te que
solo el efecto simple A en b1 resulta no significativo. Las conclusiones en este experimento
serían las siguientes:
- No existe suficiente evidencia estadística para aceptar que con los dos tipos de
abono se obtengan mejores resultados diferentes en el rendimiento de maíz
cuando se aplican en l \a dosis b1(20 kg/Ha).
- Existe suficiente evidencia estadística para aceptar que con los dos tipos de
abono se obtienen resultados diferentes en el rendimiento de maíz cuando se
aplican en las dosis b2(30 kg/ha) y b3(40 kg/ha).
- Existe suficiente evidencia estadística para aceptar que con al menos una de las
dosis se obtienen resultados diferentes en el rendimiento de maíz tanto en el
abono a1 como en el a1.
Para comparar las medias de los niveles i y j de un factor sobre todos los niveles del otro
utilicemos las siguientes fórmulas para las desviaciones estándar:
96
Prueba Factor A Factor B
T y DLS 2CME 2CME
Sd = Sd =
br kr
Tukey 2CME 2CME
Sd = Sd =
br kr
Para comparar las medias de los niveles i y j de un factor sobre todos los niveles del otro
utilicemos las siguientes fórmulas para las desviaciones estándar:
3.1.8 Ejercicios
v1 v2 v3
Rep. a1 a2 a3 a1 a2 a3 a1 a2 a3
1 4.5 6.3 3.5 4.1 4.0 3.6 4.2 4.8 3.9
2 4.4 6.9 3.5 3.9 3.5 3.1 4.3 4.3 3.6
3 4.2 6.4 4.0 3.6 4.0 3.5 3.8 3.9 4.0
4 3.9 6.5 3.2 4.1 4.1 3.9 4.7 4.2 4.1
96
c) Efectué la prueba de Tukey para el evaluar si existen diferencias entre los venenos
cuando se aplica el antídoto a2.
d) Se cree que el antídoto a2 es más efectivo que el a1 para contrarrestar el veneno v1.
Efectúe la prueba correspondiente.
97
b) Efectúe el análisis de la varianza. Analice los efectos principales o simples según
corresponda.
c) Efectué la prueba de Tukey donde sea necesario.
Bloque v1 v2 v3
d1 d2 d3 d1 d2 d3 d1 d2 d3
I 10.05 9.66 9.14 10.71 10.35 11.42 9.03 10.46 13
II 8.71 8.45 9.02 9.45 10.24 12.91 8.54 10.5 10.1
III 9.9 8.05 8.01 9.25 11.1 11.5 7.24 8.85 11.57
Campo a1 a2 a3
b1 b2 b1 b2 b1 b2
1 9.56 8.26 9.18 8.90 8.26 9.82
2 9.32 8.50 8.86 8.50 8.64 9.84
3 8.96 8.42 8.22 9.82 8.10 9.7
4 8.78 8.26 8.70 9.78 8.72 10.04
98
6) Con la finalidad de estudiar el efecto de tres niveles de Nitrógeno (a1, a2, a3) y dos
niveles de fósforo (b1, b2), en el cultivo de una variedad de papa se realizó un
experimento con un arreglo factorial conducido en el DCA con 4 repeticiones. Los
resultados obtenidos en kg/parcela son los siguientes:
Repetición a1 a2 a3
b1 b2 b1 b2 b1 b2
1 31 43 42 45 48 51
2 32 41 38 46 50 47
3 34 43 36 44 48 50
4 35 39 41 43 51 52
3.2 Diseños 2k
3.2.1 Diseño bifactorial sin replicas
El modelo es:
Yij = µ + α i + β j + (αβ ) ij + ε ij
i = 1, . . . , a j = 1, . . . , b
donde:
99
Supongamos que:
a b a b
∑α = ∑ β = ∑ (αβ ) = ∑ (αβ )
i =1
i
j =1
i
i =1
ij
j =1
ij =0
Factores A1 … Aa
B1 Y11 … Y1a
: : … :
Bb Yb1 … Yba
En este caso, el número de parámetros a estimar es igual que en el caso del diseño
bifactorial replicado:
1 + (a − 1) + (b − 1) + (a − 1)(b − 1) = ab
(αβ ) ij = 0
donde i= 1, … , a j=1, … ,b
1 a 2 1 2 1 b 2 1 2
SC A = ∑ i• ab y ••
b i =1
y − SC B =
a
∑ y −
j =1 • j
ab
y ••
1 2
SCT = ∑i =1 ∑ j =1 y ij2 −
a b
SC E = SCT − SC A − SC B y ••
ab
Calcularemos los test F.
SC A SC B
FA = a −1 FB = b −1
SC E SC E
( a − 1)(b − 1) (a − 1)(b − 1)
100
obteniéndose la siguiente tabla ANOVA
Total SC T ab- 1
(αβ ) ij = kα i β j
1) Una componente para la interacción con 1 grado de libertad, de modo que la suma
de cuadrados correspondiente es:
2)
2
1 ⎡ a b y•2• ⎤
SCN = ⎢∑i=1 ∑j =1 yij yi• y• j − y•• (SCA + SCB + )⎥
a ⋅ b ⋅ SCA ⋅ SCB ⎣ ab ⎦
∗
SC E = SC T − SC N
Se determina
SC N
F0 = ∗
SC E
(a − 1)(b − 1) − 1
101
3.2.2 Diseño bifactorial con replicas
El modelo es:
donde:
Supongamos que:
a b a b
∑ α = ∑ β = ∑ (αβ )
i =1
i
j =1
i
i =1
ij = ∑ (αβ ) ij = 0
j =1
Factores A1 … Aa
Y111 … Y1a1
B1 : … :
Y11k … Y1ak
: : … :
Yb11 … Ybak
Bb : … :
Yb1k … Ybak
donde k = 1, … , n.
102
Estimación de los parámetros
Se calcula:
a b a b
∑α = ∑β = ∑(αβ) = ∑(αβ)
i =1
i
j =1
i
i =1
ij
j =1
ij =0
Se tiene
∂φ
= −2∑i =1 ∑ j =1 ∑k =1 ( y ijk − µ − α i − β j − (αβ ) ij ) 2 = 0 ⇒
a b n
∂µ
∑ ∑ ∑
a b n
i =1 j =1 k =1
y ijk − abnµ = 0 ⇒
1
∑ ∑ ∑ y ijk = y •••
a b n
µ̂ =
abn i =1 j =1 k =1
Para i fijado
∂φ
= −2∑ j =1 ∑ k =1 ( y ijk − µ − α i − β j − (αβ ) ij ) = 0 ⇒
b n
∂α i
∑ ∑
b n
j =1 k =1
y ijk − bnµ − bnα i = 0 ⇒
1
∑ ∑
b n
α̂ i = y ijk − y ••• ⇒
bn j =1 k =1
α̂ i = y i •• − y •••
Análogamente, para j fijado,
α̂ j = y • j • − y •••
103
∂φ
= − 2 ∑ k =1 ( y ijk − µ − α i − β j − (αβ ) ij ) = 0 ⇒
n
∂ (αβ ) ij
***
∑ [ y ijk − n y
•••
− n( y i •• − y ••• ) − n( y • j • − y ••• ) − n(αβ ) ij ] = 0 ⇒
***
(αβ ) ij = y ij • − y i•• − y • j • + y •••
Así
ŷ ijk = y ij •
1 + ( a − 1) + (b − 1) + ( a − 1)(b − 1)
ya que la suma de las estimaciones de las interacciones por filas es igual a 0, con lo cual
hay (b − 1) términos. Del mismo modo sucede para las columnas, y se obtienen (a − 1)
términos.
En total hay ( a − 1)(b − 1) términos.
= ∑i =1 ∑ j =1 ∑k =1 ( y ijk − y ij • ) 2
a b n
104
1
∑ ∑ ∑
a b n
σˆ 2 = ( y ijk − y ij • ) 2
ab(n − 1) i =1 j =1 k =1
Descomposición de la varianza
SC T = ∑i =1 ∑ j =1 ∑ k =1 ( y ijk − y ••• ) 2 =
a b n
= ∑i =1 ∑ j =1 ∑k =1 ( y ijk
a b n 2
2
) − N ⋅ y •• • =
1 2
= ∑i =1 ∑ j =1 ∑k =1 ( y ij2k ) −
a b n
y • •• =
abn
= SC A + SC B + SC AB + SC E
donde N = abn y
1 1 2
∑
a
= y 2
i • • − y •• •
bn i =1 abn
≡ “Suma de Cuadrados explicada debido al factor A”.
1 1 2
∑
b
= y 2
• j • − y •• •
an j =1 abn
≡ “Suma de Cuadrados explicada debido al factor B”.
105
SC AB = n ∑ i =1 ∑ j =1 ( y ij • − y i •• − y • j • + y ••• ) 2 =
a b
[
= n∑i =1 ∑ j =1 ( y ij • − y ••• ) − ( y i •• − y ••• ) − ( y • j • − y ••• ) =
a b
]
2
1 a 1 1 1 2
∑ ∑ ∑ ∑
b a b
= y 2
− y 2
− y 2
− y
n i =1 j =1 ij • bn i =1 i •• an j =1 • j • abn •••
≡ “Suma de Cuadrados explicada debido a la interacción”.
SC A SC B
MC A = MC B =
a −1 b −1
SC AB SC E
MC AB = MC E =
( a − 1)(b − 1) ab (n − 1)
Calculamos el test F.
MC A MC B MC AB
FA = FB = FAB =
MC E MC E MC E
106
Entonces:
F A > F a −1 , ab ( n −1 );α
Observación: Siempre trataremos de buscar el modelo más sencillo que explique bien la
variable respuesta. Por ejemplo, si aceptamos H 0 : (αβ )11 = .... = (αβ ) ab = 0 ,
concluimos que la interacción no influye de manera apreciable en la respuesta, y
pasaríamos a considerar un modelo con dos factores sin interacción y calcularíamos de
nuevo la tabla ANOVA.
Ejemplo: Se aplican pinturas tapa poros para aeronaves en superficies de aluminio, con
dos métodos; inmersión y rociado. La finalidad del tapa poros es mejorar la adhesión de
pintura, y puede aplicarse en algunas partes utilizando cualquier método. El grupo de
ingeniería de procesos responsable de esta operación está interesado en saber si existen
diferencias entre tres tapa poros diferentes e cuanto a sus propiedades de adhesión.
Para investigar el efecto que tienen el tipo de pintura tapa poros y el método de
aplicación sobre adhesión de la pintura, se realiza un diseño factorial. Para ello, se pintan
tres muestras con cada tapa poro utilizando cada método de aplicación, después se aplica
una capa fina de pintura y a continuación se mide la fuerza de adhesión. Los resultados
son los siguientes:
Entonces, a = 3, b = 2, n = 3, N = 18 .
107
Las medias de las observaciones son:
SC T = ∑i =1 ∑ j =1 ∑ k =1 ( y ijk − y ••• ) 2 =
a b n
= ∑ i =1 ∑ j =1 ∑ k =1 ( yijk
a b n 2
2
) − N ⋅ y ••• =
= 4 2 + 4.5 2 + ... + 5 2 + 5 2 − 18 × 4.989 2 = 10.72
SC A = bn ∑ i =1 ( y i •• ) − N ⋅ y ••• =
a 2 2
SC B = an ∑ j =1 ( y • j • ) − N ⋅ y ••• =
b 2 2
SC AB = n ∑i =1 ∑ j =1 y ij • − N ⋅ y ••• −SC A − SC B =
a b 2 2
SC E = SCT − SC A − SC B − SC AB =
= 10.72 − 4.58 − 4.91 − 0.24 = 0.99
108
La tabla ANOVA es:
Por tanto, no hay evidencia de la existencia de interacción entre los factores. Los efectos
del tipo de tapaporos y del método de aplicación empleado afectan a la fuerza de adhesión.
En este caso, debemos simplificar el modelo, considerado un modelo sin interacción
(juntando las sumas de cuadrados de la interacción a las del error), donde la tabla ANOVA
sería:
Concluimos que los efectos del tipo de tapaporos y del modelo de aplicación empleado
afectan a la fuerza de adhesión.
Ejemplo: Supongamos que un ingeniero diseña una batería para su uso en un dispositivo
que será sometido a ciertas variaciones extremas de temperatura. El único parámetro de
diseño que se puede seleccionar es el material de la cubierta de la batería, y tiene tres
alternativas. Cuando el dispositivo se manufactura y se envía al campo, el ingeniero no
tiene control sobre los extremos de temperatura a que será expuesto el dispositivo, y sabe
por experiencia que es probable que la temperatura influya en la duración efectiva de la
batería. Sin embargo, sí es posible controlar la temperatura en el laboratorio de desarrollo
de productos para los fines de ensayo.
El ingeniero decide probar los tres materiales de la cubierta a tres niveles de temperatura
(15, 70 y 125 oF) consistentes en el entorno de uso final del producto. Se prueban cuatro
baterías con cada combinación de material de cubierta y temperatura y las 36 pruebas se
ejecutan al azar. Los datos son los siguientes:
109
Material 15 oF 70 oF 125 oF
1 130 155 34 40 20 70
74 180 80 75 82 58
2 150 188 136 122 25 70
159 126 106 115 58 45
3 138 110 174 120 96 104
168 160 150 139 82 60
Material 15 oF 70 oF 125 oF y i ••
1 134.75 57.25 57.5 83.17
2 155.75 119.75 49.5 108.33
3 144 145.75 85.5 125.083
y • j• 144.83 107.583 64.17 y ••• = 105.53
SC A = bn ∑i =1 ( y i•• ) − N ⋅ y ••• =
a 2 2
SC B = an ∑ j =1 ( y • j • ) − N ⋅ y ••• =
b 2 2
SC E = SCT − SC A − SC B − SC AB = 18230.75
110
La tabla ANOVA es:
Por tanto, existe una interacción significativa entre los factores. Los efectos del tipo de
material y de la temperatura son significativos.
Si se rechaza la igualdad entre los efectos del factor A ó B se puede considerar el tests de
recorrido studentizado (para el factor correspondiente), pero no son recomendables cuando
aparece interacción significativa. Se puede hacer fijando un nivel concreto de uno de los
factores.
Si se rechaza la igualdad entre las interacciones, se pueden contrastar las medias que
aparecen y ij • en todos los posibles tratamientos.
Se puede considerar un modelo de efectos mixtos en el que uno de los factores es fijo y
el otro aleatorio:
β j ~ N (0, σ β )
(αβ ) ij ~ N (0, σ αβ )
ε ijk ~ N (0, σ )
para i = 1, …, a j = 1, …., b k = 1, … , n
111
Se puede demostrar que
∑ αi
a 2
⎛ SC A ⎞
⎟ = σ + nσ αβ + bn i =1
2 2
E⎜
⎝ a −1⎠ a −1
⎛ SC ⎞
E ⎜ B ⎟ = σ 2 + nσ αβ2 + anσ β2
⎝ b −1⎠
⎛ SC AB ⎞
E ⎜⎜ ⎟⎟ = σ 2 + nσ αβ2
⎝ (a − 1)(b − 1) ⎠
⎛ SC E ⎞
E ⎜⎜ ⎟⎟ = σ 2
⎝ ab(n − 1) ⎠
Así, para contrastar
H 0 : α i = 0, (i = 1,..., a) MC A
⇒ F0 =
H1 : α i ≠ 0 MC AB
H 0 : σˆ β2 = 0
MC B
⇒ F0 =
H 1 : σˆ β ≠ 0
2
MC AB
H 0 : σˆ αβ
2
=0 MC AB
⇒ F0 =
H 1 : σˆ αβ ≠ 0
2
MC E
µ̂ = y •••
αˆ i = y i•• − y ••• (i = 1,..., a)
MCB − MC AB
σˆ β2 =
an
MC AB − MC E
σ̂ αβ
2
=
n
σˆ = MC E
2
112
3.2.4 El diseño 22
BAJO: 0
ALTO: 1
Los niveles altos de los factores se representan mediante las letras a y b respectivamente
y los niveles bajos se representan por la ausencia de dichas letras. Si ambos niveles son
bajos se considera un valor igual a (1).
(0,0) ⇒ (1)
(1,0) ⇒ a
(0,1) ⇒ b
(1,1) ⇒ ab
(1), a, b y ab son las respuestas para las n réplicas. Los efectos medios de A y B son
1
A= ( ab + a − b − (1))
2n
1
B= ( ab + a − a − (1))
2n
Estos valores se obtienen considerando que, por ejemplo, el efecto de A se obtiene como
la diferencia entre el nivel alto del factor menos el nivel bajo (en cada caso en relación a
los niveles del otro factor): El efecto de A en el nivel bajo de B es ( a − (1)) n y el efecto
de A en el nivel alto de B es ( ab − b) n .
ab + a b + (1) 1
A= − = (ab + a − b − (1))
2n 2n 2n
1
AB = [(ab + a − b − (1))] = 1 [ab + (1) − a − b] .
2n 2n
Del mismo modo se puede definir BA, obteniéndose que AB = BA.
113
En general, se trata de medir la importancia y el efecto de los factores que intervienen,
en términos de la magnitud y del signo de los efectos anteriores.
Las sumas de cuadrados se pueden definir en términos, también, de las estimas
anteriores:
SC Factor =
n∑ c
1
a 2
[∑ a
i =1 i
c yi• ]2
.
i =1 i
SC A =
[ab + a − b − (1)]
2
4n
SC B =
[ab + b − a − (1) ]
2
4n
SC AB =
[ab + (1) − a − b ]
2
4n
SC E
MC E =
4(n − 1)
La F del test se calcula de la siguiente forma:
SC A SCB SC AB
FA = FB = FAB =
MC E MCE MC E
La tabla de análisis de la varianza es, entonces,
114
Fuente de Suma de Grados de Media F
Variación Cuadrados Libertad Cuadrática
Factor A SC A 1 MC A FA
Factor B SC B 1 MC B FB
Interacción SC AB 1 MC AB FAB
Error SC E 4(n- 1) MC E
Total SC T 4n- 1
y••• = 776
Los efectos medios y las medias de cuadrados son:
(4 B ) 2 (4 AB) 2
SC B = = 7688 SC AB = = 3528
4× 2 4× 2
776 2
SCT = (86 + .... + 153 ) −
2 2
= 11420 SC E = 172
8
115
La tabla de análisis de la varianza es:
3.2.5 El diseño 23
Se introduce un breve resumen de este modelo. Supongamos que se tienen tres factores
binarios A, B y C. El número de posibles combinaciones es 8, y con n replicaciones se
tiene un total de 8n observaciones.
Para calcular los efectos se puede usar la siguiente tabla o matriz de diseño:
Por otro lado se pueden obtener las distintas filas a partir del producto entre ellas, por
ejemplo:
A ⋅ B = AB
116
( AB) ⋅ ( B) = A ⋅ B 2 = A
( AC ) ⋅ ( BC ) = A ⋅ C 2 ⋅ B = AB
Los efectos medios se calculan a partir de los contrastes indicados en la tabla anterior
partidos entre 4n:
1
A= [a − (1) + ab − b + ac − c + abc − bc]
4n
1
B= [b + ab + bc + abc − (1) − a − c − ac]
4n
1
C= [c + ac + bc + abc − (1) − a − b − ab]
4n
1
AB = [(1) + ab + c + abc − a − b − ac − bc]
4n
1
AC = [(1) + b + ac + abc − a − ab − c − bc]
4n
1
BC = [(1) + a + bc + abc − b − ab − c − ac]
4n
1
ABC = [abc + a + b + c − ab − ac − bc − (1)]
4n
Las sumas de los cuadrados son, en cada caso, de manera semejante al diseño 22,
Contraste 2
SC Efec =
8n
Ejemplo: Supongamos la siguiente tabla con n= 2 réplicas
Factor B
0 1
Factor A Factor C Factor C
0 1 0 1
0 4 7 20 10
5 9 14 6
1 4 2 4 14
11 7 6 16
117
Se tiene que:
(1)= 9 c= 16 b= 34 bc= 16
a= 15 ac= 9 ab= 10 abc= 30
1
A= [15 − 9 + 10 − 34 + 9 − 16 + 30 − 16] = − 11 = −1.375
8 8
1 41
B = [34 + 10 + 16 + 30 − (9 + 15 + 16 + 9)] = = 5.125
8 8
1 3
C = [16 + 9 + 16 + 30 − (9 + 15 + 34 + 10)] = = 0.375
8 8
1 9
AB = [9 + 10 + 16 + 30 − (15 + 34 + 9 + 16)] = − = −1.125
8 8
1 25
AC = [9 + 34 + 9 + 30 − (15 + 10 + 16 + 16)] = − = 3.125
8 8
1 1
BC = [9 + 15 + 16 + 30 − (34 + 10 + 16 + 9)] = = 0.125
8 8
1 51
ABC = [30 + 15 + 34 + 16 − (10 + 9 + 16 + 9)] = = 6.375
8 8
Contraste 2
SC Efec =
8n
se tiene que:
1 2 1 2
SC A = 11 = 7.56 SC B = 41 = 105.06
16 16
1 2 1
SC C = 3 = 0.56 SC AB = 9 2 = 5.06
16 16
1 2 1 2
SC AC = 25 = 39.06 SC BC = 1 = 0.06
16 16
1 2
SC ABC = 51 = 162.56
16
y
1
SCT = (4 2 + 5 2 + .... + 14 2 + 16 2 ) − 139 2 = 389.44
16
SC E = 69.52
118
La tabla de análisis de la varianza es
Como el valor de la F de Snedecor F1,8; 0.05 = 5 .32 , entonces los valores marcados con
(*) son significativos a nivel 0.05.
Se supone que:
119
3.2.7 Representación de los factores y niveles
Factor Niveles
1
A :
k
1
B :
k
3.2.8 Ejercicios
Combinación Réplica
de I II
tratamientos
(1) 221 311
a 325 435
b 354 348
ab 552 472
c 440 453
ac 406 377
bc 605 500
abc 392 419
120
A = tiempo en el horno.
B = porciento de leche.
C = tipo de harina (nacional o importada)
Nivel Textura
(1) 10.0
a 13.0
b 8.0
ab 15.1
c 11.0
ac 12.9
bc 8.1
abc 15.0
121
Capítulo 4 Diseño de Parcelas Divididas y jerárquicos.
♦ Diseño de Parcelas Divididas.
♦ Diseños jerárquicos.
Hemos visto antes que los tratamientos generados aleatoriamente, dependiendo del
diseño utilizado, a las unidades experimentales; esto es, los niveles de ambos factores eran
aleatorizados simultáneamente. Sin embargo, existen casos en los que esta aleatorización
es poco práctica y en los que resulta recomendable aleatorizar primero los niveles de un
factor y luego los niveles del otro. El procedimiento consiste entonces en asignar los
niveles de un factor a las unidades experimentales completas, también llamadas parcelas, y
luego, cada unidad experimental dividirla en subunidades, llamadas subparcelas, a las
cuales se les aplicarán los niveles del otro factor.
Factor α1 α α α
A 2 3 4
Factor β β2
B 1
Bloques
α4 β2 α1 β2 α2 β1 α3 β2
Bloque
α 4b1 α 1b1 α 2b2 α3 β1
1
122
α2 β1 α1 β2 α4 β1 α3 β1
Bloque α2 β2 α1 β1 α4 β2 α3 β2
2
α1 β1 α2 β2 α4 β2 α3 β1
Bloque α1 β2 α2 β1 α4 β1 α3 β2
3
Esquema de datos.
Tabla auxiliar
1 2 …. q Yi··
Y1·1 Y1·2 …. Y1·q Y1··
Factor A : : …. : :
Yp·1 Yp·2 …. Yp·q Yp··
Y··k Y··1 Y··2 …. Y··q
A\B β1 β2 …. βr
α1 Y11· Y12· …. Y1r·
: : : …. :
αp Yp1· Yp2· …. Ypr·
Y·j· Y·1· Y·2· …. Y·q·
Debe notarse que la aleatorización se realiza en dos etapas. Primero aleatorizamos los
niveles del factor A sobre las unidades completas, después se aleatorizan los niveles del
factor B sobre las subunidades, dos por cada unidad completa. Cada unidad completa
(parcela) puede ser considerada como un bloque en cuanto al factor B, pero es solamente
un bloque incompleto cuando tomamos en cuenta las combinaciones de tratamientos. Por
este motivo los diseños de parcelas divididas pueden denominarse diseños de bloques
incompletos. En resumen la aleatorización del tratamiento principal se realiza sobre los
123
bloques, mientras que la aleatorización de los subtratamientos se realiza en cada parcela o
unidad constituyendo, por lo tanto las subunidades.
Trataremos el caso del diseño de parcelas divididas con dos factores, un factor en las
unidades completas y un factor en las subunidades, utilizando los diseños completamente
al azar y de bloques completamente al azar para la asignación de los niveles del factor que
va en las unidades completas. Sin embargo, es posible utilizar el diseño de parcelas
divididas con más de un factor, tanto en las unidades completas como en las subunidades.
Aunque este diseño fue desarrollado en agricultura (y de ahí su nombre), puede aplicarse
en muchas otras disciplinas.
Usos.
1) Cuando los tratamientos asociados con los niveles de uno o más de los factores
requieren mayores cantidades de material experimental en una unidad
experimental, que los tratamientos para otros factores. Esta característica es común
en experimentos de campo, de laboratorio, industriales y sociales.
2) Cuando un factor adicional va a ser añadido para incrementar la amplitud del
experimento.
3) A partir de informaciones previas, puede saberse que las mayores diferencias
pueden esperarse entre los niveles de determinados factores en comparación con
los niveles de otros. En este caso, las combinaciones de tratamientos para los
factores donde se esperan grandes diferencias pueden ser asignadas al azar en las
unidades completas, a manera de conveniencia.
4) Este diseño se usa cuando se desea una mayor precisión para las comparaciones
entre determinados factores que para otros. Esto es esencialmente lo mismo que la
situación anterior, pero las razones pueden ser diferentes.
(Sigarroa, A. 1985)
Dado que en este diseño la aleatorización se realiza en dos etapas, el modelo aditivo
lineal tendrá dos fuentes de error, una desde las unidades completas y otra desde las
subunidades.
Yijk = µ + α i + γ ij + β k + (αβ ) ik + ε ijk
124
donde:
Yijk es el valor o rendimiento observado con el i-ésimo nivel del factor A, j-ésima
repetición, y k-ésimo nivel del factor B.
µ es el efecto de la media general.
αi es el efecto del i-ésimo nivel del factor A.
γij es el efecto del error experimental en parcelas (Error (α))
βk es el efecto del k-ésimo nivel del factor B.
εijk es el efecto del error experimental en subparcelas (Error (b))
i= 1,…, p (p= número de niveles del factor A)
j= 1,…, r (r= número de repeticiones para los niveles del factor A)
k= 1,…, q (q= número de niveles del factor B)
Se asume que tanto γij como εijk están normal e independientemente distribuidos con
medias cero y variancias σ γ2 σ ε2 respectivamente.
Bloque Variedad b1 b2 b3 b4
I a1(572) 111 130 157 174
(1624) a2(533) 117 114 161 141
a3(519) 105 140 18 156
II a1(349) 61 91 97 100
(1287) a2(453) 70 108 126 149
a3(485) 96 124 121 144
125
Bloque Variedad b1 b2 b3 b4
III a1(366) 74 89 81 122
(1178) a2(432) 64 103 132 133
a3(380) 70 89 104 117
IV a1(368) 62 90 100 116
(1091) a2(382) 80 82 94 126
a3(341) 63 70 109 99
donde:
Las sumas de los cuadrados para un diseño de parcelas divididas en DBCA son
calculadas por:
p
Y•2••
r q
SC (Total parcelas ) = ∑∑∑ Y − 2
ijk
i =1 j =1 k =1 prq
Y•2••
done es el factor de corrección (Fc).
prq
p r Yij2•
SC (Total parcelas) = ∑∑ − Fc
i =1 j =1 q
126
r Y•2j •
SC ( Bloques) = ∑ − Fc
j =1 pq
p q
Yi•2k
SC (Comb. AB) = SC ( A) + SC ( B) + SC ( AB) = ∑∑ − Fc
i =1 k =1 r
p 2
Y Y•2• k
q
SC ( A) = ∑ i ••
− Fc SC ( B) = ∑ − Fc
i =1 rq j =1 pr
SC ( AB ) = SC (Comb . AB ) − SC ( A) − SC ( B )
SC ( Error (b)) = SC (Total subunidade s ) − SC (Total unidades ) − SC ( B ) − SC ( AB )
El cuadro de Análisis de Varianza se presenta a continuación. Generalmente el cuadrado
medio del error para las unidades completas, designado por Ea, es mayor que el cuadrado
medio del error para las subunidades, designado por Eb, ya que las observaciones en las
subunidades tienden a tener resultados más homogéneos dentro de la misma unidad que
entre unidades diferentes.
Cuadro ANOVA
Total
Subunidades pqr-1 SC (Total Subunid .)
127
Hipótesis:
Para el Modelo I (Efectos fijos) las hipótesis son, en términos de los efectos de los
niveles de los factores las siguientes:
Estadístico de Prueba:
CM ( A)
Para el efecto principal de A: F= ~ F(gl(A), gl(Error(a))
Ea
CM ( B )
Para el efecto principal de B: F= ~ F(gl(B), gl(Error(b))
Eb
CM ( AB )
Para el efecto principal de AB: F= ~ F(gl(AB), gl(Error(b))
Eb
Regla de Decisión:
Las hipótesis nulas se rechazan con un nivel de significación α si el F resulta mayor que
el valor de tabla F(1- α) con los grados de libertad correspondientes a cada caso.
5180 2
SC (Total subunidades) = (1112 + 130 2 + ...... + 99 2 ) − = 38303.7
(3)(4)(4)
572 2 + 533 2 + ...... + 3412 5180 2
SC (Total unidades ) = ( )− = 17361.2
4 (3)(4)(4)
1624 2 + 1287 2 + 1178 2 + 10912 5180 2
SC ( Bloques ) = − = 13634.2
12 (3)(4)(4)
128
308 2 + 400 2 + ...... + 516 2 5180 2
SC (Comb. AB) = − = 17756.2
4 (3)(4)(4)
16552 + 18002 + 17252 5180 2
SC ( A) = − = 657.3
16 (3)(4)(4)
973 2 + 1230 2 + 1400 2 + 1577 2 5180 2
SC ( B ) = − = 16538.2
12 (3)(4)( 4)
SC ( AB) = 17756.2 − 657.3 − 16538.2 = 560.7
SC ( Error ( a )) = 17361 .2 − 657 .3 − 13634 .2 = 3069 .7
SC ( Error (b)) = 38303.7 − 17361.2 − 16538.2 − 560.7 = 3843.6
Cuadro ANOVA
Total 47 38303.7
Subunidades
Hipótesis:
Para el Modelo I (Efectos fijos) las hipótesis son, en términos de los efectos de los
niveles de los factores las siguientes:
129
Para el efecto de la interacción AB: H0: (αβ)ik= 0 ∀ i, k
H1: (αβ)ik≠ 0 para al menos algún i, k
En este diseño, se debe calcular un coeficiente de variación para parcelas y otros para
subparcelas:
Ea q Ea
cv( parcelas ) = cv( subparcelas) =
Y ••• Y •••
142.6 142.6
cv( parcelas ) = = 10.48% cv( subparcela s ) = = 11.07%
107.9 107.9
Para comparar las medias de los niveles i y j de factor sobre todos los niveles del otro
(efectos principales) se deben utilizar las siguientes fórmulas para las desviaciones
estándar:
130
Prueba Factor A Factor B
(Parcelas) (Subparcelas)
2Ea 2 Eb
t y DLS Sd = Sd =
qr pr
2Ea 2 Eb
Tukey Sd = Sd =
qr pr
Para compara las medias de los niveles k y l de un factor en un nivel del otro utilice las
siguientes fórmulas para las desviaciones estándar:
Al compara dos medias del factor A en un nivel del factor B, se están comparando tanto
parcelas como subparcelas, por lo que es necesario utilizar un promedio ponderado de Ea y
Eb para el cálculo de la desviación estándar como se puede ver en el cuadro presentado
arriba. Las ponderaciones son (q-1) y l para Eb y Ea respectivamente, las cuales suman q,
cantidad que aparece en el divisor. Para estas comparaciones, el valor t calculado no sigue
una distribución t de Student, y por lo tanto se deberá utilizar la siguiente aproximación
para el valor tabular:
(q − 1) E b t b + E a t a
t' =
(q − 1) E b + E a
donde los valores ta y tb son los valores de la tabla t Student con los grados de libertad
de Ea y Eb respectivamente.
131
4.1.5 Ejercicios
Riego b1 b2 Riego b1 b2
Bloque I Bloque II
a1 159 301 a1 207 209
a2 220 409 a2 109 186
a3 303 144 a3 281 153
Riego b1 b2
a1 333 419
Bloque a2 198 254
III
a3 253 228
132
a) Presente el modelo aditivo lineal e interprete sus componentes en términos
del problema.
b) Realice el ANOVA y presente los coeficientes de variación.
c) Realice la prueba de Tukey para comparar las distintas variedades.
Dosis d Nitrógeno (Subparcelas): 0 Kg/Ha (b1), 50 Kg/Ha (b2), 100 Kg/Ha (b3)
133
día, un lote de pulpa es producido por uno de los tres métodos bajo estudio. El
método es aleatorizado entre los 9 días disponibles para el experimento. En cada
día, el lote es dividido en cuatro sub-lotes y cada sub-lotes es cocido en cada una de
las cuatro temperaturas en (0F). Los resultados obtenidos para la resistencia a la
tensión del papel son los siguientes:
Método 1 2 3 1 2 3 1 2 3
Día 5 1 8 7 6 3 9 4 2
Temperatura
200 30 34 29 28 31 31 31 35 32
225 35 41 31 32 36 35 37 40 39
250 32 38 33 35 42 32 36 39 39
275 36 42 31 41 40 35 40 44 40
Hemos visto como en los diseños factoriales que cada uno de los niveles de un factor
presenta correspondencia con los niveles de otros factores. Sin embargo, en ciertas
investigaciones se toman los datos de una forma diferente como en zoología. En estas
investigaciones los diferentes niveles del factor B pueden ser muy diferentes dentro de
cada nivel del factor A.
Tomando muestras en diferentes grupos y de diferente proceder, el factor A puede ser
especies y el factor B proceder, estas no están relacionadas factorialmente y no pueden ser
tratadas como se hace en los experimentos factoriales.
En cierto sentido, el caso de 1 factor, que ya hemos discutido es un caso especial de
estos diseños jerárquicos o anidados, ya que las mismas muestras no son medidas en cada
nivel del factor. El factor y las muestras no están relacionadas factorialmente, sino
jerárquicamente.
El modelo jerárquico puede extenderse a cualquier número de factores sin grandes
complicaciones en el análisis.
(Sigarroa, A. 1985)
134
4.2.1 Representación de los datos
1) Especies.
2) Localidades dentro de especies.
3) Subestaciones dentro de localidades.
4) Días dentro de subestaciones.
5) Especimenes dentro de días.
Ahora bien, cuales 2 factores adyacentes pueden formar un modelo lineal de un solo
factor con réplicas. Tomando solamente especimenes dentro de días y días dentro de
subestaciones, los especimenes constituyen observaciones repetidas en cada nivel del
factor día. Moviéndonos hacia arriba en la jerarquía: días dentro de subestaciones son
observaciones repetidas en cada nivel del factor subestaciones. Este proceso puede
repetirse hasta que se alcance el tope de la jerarquía, donde el último análisis de 1 factor
es el de localidades dentro de especies, como observaciones repetidas en cada nivel del
factor especie. Hay 4 comparaciones de factores simples, cada una de ellas contenida
dentro de la inmediata superior, en el modelo jerárquico y todas ellas pueden combinarse
en análisis simples.
Los análisis de estos diseños se denominan análisis de varianza anidado, debido a la
clasificación subordinada entre los factores. El diseño también se denomina análisis de
varianza jerárquico. (Sigarroa, A. 1985)
135
4.2.2 Modelos de ANOVA
Para un ANOVA jerárquico con 2 niveles (Modelo II) el modelo aditivo lineal será:
De igual forma, debemos asumir que Ai , Bij y ε ijk están normalmente distribuidos con
media cero y componentes de varianza; σ A2 , σ B2∈A y σ ε2 respectivamente. Usamos el
símbolo σ B2∈A , en lugar de σ B2 para denotar que la σ 2 es del nivel B dentro del nivel A.
Cuando el Modelo es Mixto, (es decir, el nivel superior tiene un efecto fijo de
tratamientos) descomponemos la observación como:
Siendo esta expresión igual a la anterior, con la diferencia de que denotamos por α i un
efecto fijo a diferencia de Ai en el modelo anterior que representaba un efecto aleatorio.
(Sigarroa, A. 1985)
136
4.2.4 Calculo de la ANOVA
Definiciones:
Entre CM ( grupos )
grupos SC ( grupos ) a-1 CM ( grupos ) CM ( sub.g .)
Entre
subgrupo SC ( sub.g .) a(b-1) CM ( sub. g .) CM ( sub.g.)
dentro de CM ( D)
grupos
Dentro de
subgrupos SC ( D ) ab(c-1) CM ( D )
(D)
Total SC (Total ) (abc- 1)
137
F es menor que la unidad que se refleja en el estimado negativo de la componente de
varianza σˆ B∈
2
A.
Los estimados de los componentes de varianza para cualquier factor que sea aleatorio,
pueden ser obtenidos sustrayendo el denominador del numerador en el test F
correspondiente y dividiendo esta diferencia por el multiplicador del componente de
varianza (su coeficiente).
1) Dentro de subgrupos.
σˆ D2 = CM ( D )
2) Entre subgrupos dentro de grupos.
CM B∈ A − CM ( D )
σˆ B2∈ A =
c
3) Entre grupos.
CM A − CM B∈A
σ̂ A2 =
cb
Añadimos que la varianza nunca puede ser negativa, en caso de que el test F será No
Solución. Luego en comparaciones de los estimados podemos encontrar donde puede
estar la variabilidad.
138
Localidades (a= 3)
I II III
1 2 3 4 1 2 3 4 1 2 3 4
27 24 28 29 35 33 32 32 41 41 37 45
31 28 31 25 33 33 36 35 34 40 42 38
Mediciones 30 29 31 28 33 31 33 31 40 43 36 31
(n= 5) 30 31 28 27 35 33 33 34 41 37 41 36
27 29 33 30 38 37 33 33 42 41 37 43
Suma de 145 143 151 139 174 167 167 165 198 202 193 193
Subgrupos
Suma de 578 673 786
grupos
a b c
G = ∑ ∑ ∑ Y = 578 + 673 + 786 = 2037
2
⎛ a b c ⎞
⎜∑ ∑ ∑Y ⎟
2 ⎜ ⎟
G ⎝ ⎠
F .C. = = =
N a⋅b⋅c
(2037) 2
= = 69156.15
5⋅ 4⋅3
3. Calculemos la Suma de Cuadrados Total (SCT)
a b c
SC T = ∑ ∑ ∑ Y 2 − F .C. =
139
4. Calculemos la Suma de Cuadrados de grupos (localidades)
2
⎛ b c ⎞
a
∑ ⎜⎜ ∑∑ Y ⎟⎟
⎝ ⎠
SC Loc ( A) = − F .C. =
c⋅b
(578) 2 + ... + (786) 2
= − 69156.15 = 1084.30
20
2 2
⎛ c ⎞
a ba ⎛ b c ⎞
∑∑ ⎜ ∑ ⎟ ∑ ⎜ ∑∑ ⎟⎟
⎜ Y ⎟ ⎜ Y
SC B∈A = ⎝ ⎠ − ⎝ ⎠
c c ⋅b
(145) 2 + ... + (193) 2
= − 70240 .45
5
= 70276.20 − 70240.45 = 35.75
a b c
∑∑ ⎜⎜ ∑ Y ⎟⎟
SCesp ( C∈B ) = ∑∑ ∑ Y 2 − ⎝ ⎠
c
= 70607.00 − 70276.20 = 330.80
140
8. Ahora colocaremos los valores obtenidos en la tabla anterior (que propone las
fórmulas de cálculo)
** ρ < 0.01
σˆ ε2 = CM ε = 6.89
CM B∈A − CM ε
σˆ B2∈A =
c
3.97 − 6.89
= = −0.58 → ( 0)
5
CM A − CM B∈A
σˆ A2 =
c ⋅b
542.15 − 3.97
= = 26.91
20
141
Como que generalmente nos interesan solo las magnitudes relativas de las
componentes de varianza, estos pueden expresarse como porcentajes de las varianzas.
σˆ ε2 + σˆ B2∈A + σˆ A2
= 6.89 + 0 + 26.91 = 33.80
de donde:
6.89
σˆ ε2 representa ⋅ 100 = 20.38%
33.80
0
σˆ B2∈A representa ⋅ 100 = 0%
33.80
26.91
σˆ A2 representa ⋅ 100 = 79.62%
33.80
Conclusiones generales:
En base a estos resultados puede concluirse que las localidades analizadas son
genéticamente diferentes y de esta forma estamos en presencia de diferentes razas
geográficas.
(Sigarroa, A. 1985)
4.2.6 Ejercicio
142
Vial 1 Vial 2 Vial 3
58.5 77.8 84.0 70.1 69.8 56.0 50.7 63.8 56.6 77.8 69.9 62.1
Mediciones 59.5 80.9 83.6 68.3 69.8 54.5 49.3 65.8 57.5 79.2 69.2 64.5
Suma de 118.0 158.7 167.6 138.4 139.6 110.5 100.0 129.6 114.1 157.0 139.1 126.6
subgrupos
Suma de 582.7 479.7 536.8
grupos
143
Capítulo 5 Regresión Lineal y Covarianza.
♦ Regresión lineal simple y múltiple.
♦ Análisis de Covarianza.
Ejemplo 1: Conforme los quesos maduran, ocurren varios procesos químicos que
determinan el sabor del producto final. En un estudio en queso cheddar, 10 muestras de
queso fueron analizadas en su composición química. Además, una medida subjetiva del
sabor fue obtenida combinando los escores asignados por varios sujetos que probaron el
queso. Los datos se dan a continuación:
Muestra 1 2 3 4 5 6 7 8 9 10
Sabor 12.3 47.9 37.3 21 0.7 40.9 18 15.2 16.8 0.7
AA 4.543 5.759 5.892 5.242 4.477 6.365 5.247 5.298 5.366 5.328
H2S 3.135 7.496 8.726 4.174 2.996 9.588 6.174 5.22 3.664 3.912
AL 0.86 1.81 1.29 1.58 1.06 1.74 1.63 1.33 1.31 1.25
144
AA: Logaritmo natural de la concentración de ácido acético.
H2S: Logaritmo natural de la concentración de sulfuro de hidrógeno.
AL: Concentración de ácido láctico.
El objetivo de este estudio es evaluar el efecto de las variables AA, H2S y AL (variables
independientes o predictoras) en el sabor del queso (variable dependiente o respuesta). A
continuación se presenta un gráfico de dispersión entre las variables Sabor y AA:
En este caso la variable respuesta “Y” sería el sabor y la variable predoctora “X” la
concentración de ácido acético. El gráfico muestra una aparente relación de dependencia
entre ambas variables en el sentido de que mayor concentración de ácido mayor será la
calificación del sabor.
Muchos aspectos científicos tienen que ver con la relación entre pares de variables en las
que se plantea la relación causa- efecto.
Una función es una relación que nos permite predecir que valores de una variable (Y)
corresponden a determinados valores de otra variable (X). Tal relación, escrita
generalmente como Y = F(X) nos es familiar, sin embargo, revisemos brevemente las
funciones como una introducción apropiada para la regresión.
Y= X
145
En esta función denotaremos (Y) como la VARIABLE DEPENDIENTE, mientras que
(X) se denomina VARIABLE INDEPENDIENTE. La magnitud de Y depende de la
magnitud de X y puede, por consiguiente, ser predicha a partir de la variable
independiente.
dY
= b nos plantea que la derivada de la función es igual a la pendiente de la recta. Aquí
dX
b es el coeficiente de regresión y la función se denomina ecuación de regresión, que nos
permite relacionar la dependencia de las medias de la variable Y como una función de la
variable X, mediante alguna ecuación matemática. Cuando queremos recalcar que el
coeficiente de regresión es de la variable Y sobre la variable X escribimos bY•X. Si
deseamos hallar la regresión de X en Y, el símbolo apropiado para el coeficiente es bX•Y.
X Y E(Y/X)
n
X1 Y11 … Y1n ∑Y
i =1
1i
n
… … … … …
… n
Xb Ym1 Ymn ∑Y
i =1
mi
n
b n n
Total ∑X
i =1
i ∑Y
i =1
i1 … ∑Y
i =1
in
Usos
- El estudio de la causa.
Si deseamos conocer si la variación en la variable Y es provocada por cambios en
la variable X, manipulamos X en un experimento y vemos si podemos obtener una
regresión significativa de Y en X. La idea acerca de la causa es compleja y
filosófica y no tratamos aquí aspectos. No debe confundirse la variación
concomitante en la causa, las variables pueden variar juntas, entonces esta
covariación puede ser accidental o ambas pueden ser funciones de una causa
común que las afecta. Cuando manipulamos una variable y encontramos que tales
manipulaciones afectan una segunda variable, esta variación de la variable
independiente X, es la causa de la variación de la variable dependiente Y (¡no la
causa de la variable!)
- La descripción de leyes científicas y las predicciones.
146
Es una segunda área general de aplicación del análisis de regresión. La
descripción matemática de relaciones entre variables en la naturaleza y los análisis
de regresión nos permiten estimar relaciones funcionales entre variables, una de
las cuales está sujeta a error. Estas relaciones funcionales no siempre tienen un
significado interpretable.
(Sigarroa, A. 1985)
Yi = α + βX i + ε i i= 1, …, n
Los parámetros del modelo son estimados por el método de Mínimos Cuadrados. Este
método permite obtener los valores estimados de α y β de modo que la suma de los
errores al cuadrado sea mínima; es decir, de lo que se trata es de calcular a y b de modo
que se minimice la siguiente expresión:
n n
∑ ei2 = ∑ (Yi − a − bX i )2
i =1 i =1
SP( XY )
∑ (X i − X )(Yi − Y )
βˆ = b = = i =1
n
=
SC ( X )
∑ (X
i =1
i − X )2
n
∑ X Y − n XY ) i i
2
= i =1
n
∑ X i2` − n X
2
i =1
α̂ = a = Y − b X
147
La interpretación de estos valores, es clara. El intercepto α es el valor estimado de la
variable Y cuando la variable X es cero y la pendiente b es el cambio estimado en Y por
cambio unitario en X. Sin embargo, la interpretación de a tendrá sentido solo en el caso
en que un valor de X= 0 sea posible y además, cuando valores cercanos a X= 0 hallan sido
utilizados en la estimación. Para ilustrar estas ideas vea el siguiente caso.
Aun suponiendo que un diámetro de cero fuera posible, la interpretación del valor
estimado de Y cuando X= 0 no sería válida ya que para la construcción del modelo se
emplearon datos de diámetros comprendidos entre 16 y 18 pulgadas. Para llevar la
discusión a un plano más realista suponga que se desea estimar, a partir del modelo
anterior, el volumen de un árbol con un diámetro de 10 pulgadas. A continuación se
presenta un diagrama de dispersión con la muestra completa de 31 árboles cuyos
diámetros van desde 8.3 hasta 20.4.
148
La curva sólida muestra la relación entre ambas variedades para los datos de los 31
árboles y la línea punteada corresponde a la ecuación estimada con los 7 árboles iniciales.
Como se puede apreciar, la línea recta es bastante buena para describir la relación entre el
diámetro y el volumen para árboles con diámetros de entre 16 y 18 pulgadas, pero su
ajuste ya no es tan bueno conforme los valores de X se alejan de dicho rango. El modelo
lineal simple podría ser aceptable para estimar el volumen de un árbol con un diámetro
de 15 ó inclusive 14 pulgadas pero definitivamente no para uno de 10.
Y = 21.08 X = 5.3517
∑X t
2
= 289.34 ∑Y t
2
= 6789.06 ∑X Y t t = 1193.91
1193.91 − 10(21.08)(5.3517)
b= = 22.44
289.34 − 10(5.3517) 2
149
En este caso el intercepto, -99.03, correspondería al puntaje estimado del sabor de un
queso cuando el logaritmo natural de la concentración de ácido acético es igual a cero.
Dado que en la estimación de este modelo se utilizaron valores de AA de 4.477 hasta
6.365, esta interpretación no tiene validez. La pendiente en cambio, 22.44, es siempre
interpretable y en este caso indica que por cada incremento unitario en el logaritmo
natural de la concentración de ácido acético, se estima un incremento en el puntaje del
sabor de 22.44 puntos.
Hipótesis:
H0: β= 0
H1: β≠ 0
Las hipótesis anteriores son evaluadas a través del análisis de la varianza de Y. Dado el
modelo Yi = α + β X i + ε i , la varianza de Y es explicada por la regresión ( β X i ) y por
error ( ε i ). El término α no participa del análisis ya que es una constante.
150
El cuadro de análisis de varianza es el siguiente:
Fuente de Gl SC CM F
Variación
Regresión 1 bSP(XY) SC (Re g ) CM (Re g )
gl (Re g ) CM ( Error )
Error n-2 SC(Y)- SC ( Error )
bSP(XY) gl ( Error )
Total n-1 SC(Y)
Estadístico de Prueba:
CM (Re g )
F= ~ F(1, n- 2)
CM ( Error )
Reglas de Decisión:
H0: β= 0
H1: β≠ 0
O dicho literalmente:
H0: El sabor del queso no depende de la concentración de ácido acético.
H1: El sabor del queso sí depende de la concentración de ácido acético.
Cuadro ANOVA:
F. V. Gl SC CM F
Regresión 1 1476 1476 13.58
Error 8 869 109
Total 9 2345
El valor de tabla para un nivel de significación del 5% es F( 0.95 ,1,8) = 5.318 . Como el
valor calculado es mayor al valor de tabla se rechaza H0. En conclusión, existe suficiente
evidencia estadística para aceptar que el sabor del queso depende de la concentración de
ácido acético a través de un modelo lineal.
151
5.1.4 Coeficiente de Correlación y de Determinación
SC (Re gresión)
r2 =
SC (Total )
- Un valor de -1 significa una perfecta correlación negativa, es decir, todos los puntos
caen sobre una línea con pendiente negativa.
- Un valor de 0 significa no correlación.
- Un valor de 1 significa una perfecta correlación positiva, es decir, todos los puntos
caen sobre una línea con pendiente positiva.
1476
r2 = = 0.63
2345
El 63% de la variabilidad del sabor es explicado por la concentración de ácido acético.
r = 0.63 = 0.79
0.79 indica una elevada correlación positiva.
152
Note que el ajuste es bastante bueno.
5.1.5 Predicción
El objetivo principal del análisis de regresión es construir una modelo permita predecir
el valor de Y cuando la variable X toma un valor determinado. Una vez que se ha
determinado la validez del modelo de regresión lineal simple, la ecuación de pronóstico
estará dada por:
Yˆi = α + βX i
153
de madera y el diámetro del árbol, uno estaría más interesado (por cuestiones de manejo
forestal) en el volumen medio de madera de un conjunto de árboles para determinado
diámetro que en el volumen de madera de un árbol en particular con dicho diámetro. De
hecho, el valor de pronóstico tendrá mayor variabilidad que la media estimada.
El intervalo de predicción de 100(1- α)% para un valor de Y dado X está dado por:
⎡ 1 (X − X )2 ⎤
IP(Y X ) = Yˆ X ± t (1−α CME ⎢1 + + 2 ⎥
⎢⎣ n ∑ ( X − X ) ⎥⎦
,n − 2)
2
El intervalo de confianza de 100(1- α)% para la media de Y dado X está dado por:
⎡ 1 (X − X )2 ⎤
IC ( µ Y X ) = Yˆ X ± t (1−α CME ⎢1 + + 2 ⎥
⎢⎣ n ∑ ( X − X ) ⎥⎦
,n−2)
2
Este valor es el puntaje de sabor estimado para un queso en el que AA= 6. Por otro
lado, no todos los quesos con AA= 6 tendrán el mismo sabor, pero el puntaje promedio
estimado de estos será también igual a 35.61.
El intervalo de predicción del 95% para el valor individual está dado por:
⎡ 1 ( X − X )2 ⎤
IP(Y X ) = Yˆ X ± t ( 0.975,n − 2 ) CME ⎢1 + + 2 ⎥
⎣⎢ n ∑ ( X − X ) ⎦⎥
⎡ 1 (6 − 5.352) 2 ⎤
= 35.63 ± 2.306 108.7 ⎢1 + + ⎥
⎣ 10 2.93 ⎦
= 35.63 ± 26.81
= [8.82;62.44]
154
⎡ 1 (X − X )2 ⎤
IC ( µ Y X ) = Yˆ X ± t ( 0.975,n − 2 ) CME ⎢1 + + 2 ⎥
⎣⎢ n ∑ ( X − X ) ⎦⎥
⎡ 1 (6 − 5.352) 2 ⎤
= 35.63 ± 2.306 108.7 ⎢1 + + ⎥
⎣ 10 2.93 ⎦
= 35.63 ± 11.86
= [23.77;47.49]
5.1.6 Ejercicios
Ingesta de zinc 0 2 4 8 12 16 30
155
Nación Inmunización Mortalidad Nación Inmunización Mortalidad
Bolivia 40 165 Italia 85 11
Brasil 54 85 Japón 83 6
Canadá 85 9 México 65 51
China 95 43 Polonia 98 18
Egipto 81 94 Senegal 47 189
Etiopía 26 226 Turquía 74 90
Finlandia 90 7 Reino Unido 75 10
Francia 95 9 USA 97 12
Grecia 83 12 URSS 79 35
India 83 145 Yugoslavia 91 27
3) Los grillos hacen sus chirridos rozando rápidamente una de sus alas sobre la otra.
Mientras más rápido ellos mueven sus alas, mas fuerte es el chirrido que ellos
producen. Los científicos han notado que los grillos mueven sus alas más rápido
cuando hace calor que cuando hace frío. Por lo tanto, escuchando el tono de los
chirridos, es posible estableces la temperatura del aire. A continuación se presentan
registros del tono (en vibraciones por segundo) de los chirridos de grillos en 15
diferentes temperaturas:
Vibraciones 20 16 20 18 17 16 15 17 15 16 15 17 16 17 14
por segundo
Temperatura 89 72 93 84 81 75 70 82 69 83 80 83 81 84 76
Temperatura 22 22 24 24 26 26 28 28 30 30
(0C)
Latidos/minuto 20.8 22.3 24.1 25.6 25.7 27.2 27.3 28.8 29.4 31.9
Temperatura 32 32 34 34 36 36 38 38 40 40
(0C)
Latidos/minuto 32.4 33.8 32.8 34.1 32.4 37.9 38.0 36.5 39.0 41.0
5) Se realiza un estudio para establecer una ecuación mediante la cual se pueda utilizar
la concentración de estrona en saliva (X) para predecir la concentración del
esteroide en plasma libre (Y). Se extrajeron los siguientes datos de 14 varones sanos:
X 1 7 8 9 9 11 13 14 14 16 17 18 20 23
Y 30 25 31 27 39 38 43 49 55 48 51 64 63 68
156
5.1.7 Regresión lineal múltiple
Se trata de predecir el valor de una variable respuesta (y) como función lineal de una
familia de m variables explicativas (x1, x2, ..., xm), a partir de una muestra de tamaño n
cuyas observaciones se ordenan matricialmente:
⎛ βˆ 0 ⎞
⎜ ⎟
⎜ βˆ ⎟
βˆ = ⎜ 1 ⎟ = ( X T X ) −1 X T Y
⎜: ⎟
⎜ βˆ ⎟
⎝ m⎠
siendo
157
habiéndose indicado la transposición matricial mediante el superíndice T.
El estimador insesgado de la varianza , conocido con el nombre de varianza
residual, tiene por expresión
n
1
S R2 = ∑
n − m − 1 i =1
( y i − βˆ 0 − βˆ1 xi1 − ..... − βˆ m xim ) 2
⎛ S R2 ⎞
R = 100⎜1 − 2 ⎟
2
⎜ S ⎟
⎝ y ⎠
siendo
1 n
S =
2
y ∑
n − 1 i =1
( yi − y ) 2
2
n −1 S y n − m −1
A= 2
−
m SR m
que se distribuye como una Fm,n-m-1 de Snedecor. El contraste se realiza con un nivel
de significación del 5%.
158
5.2 Análisis de Covarianza
Usos
159
para ser comparables, las y de tratamientos deberán ajustarse, para hacerlas los
mejores estimados que podrían haber sido, si todas las x de tratamientos hubieran
sido las mismas.
De forma similar, si el objetivo principal de la covarianza es ajustar las y de
tratamiento se hace necesaria una regresión que permita un ajuste correspondiente
al error.
(Sigarroa, A. 1985)
Los modelos lineales aditivos para cualquiera de los diseños experimentales, resultan
los mismos que para el análisis de varianza, más un término adicional para la variable
independiente o concomitante.
Yij = µ + τ i + ε ij (1)
donde:
160
Supongamos ahora que en cada unidad experimental, hemos medido otra variable X ij
que está linealmente relacionada con Yij . El modelo quedaría expresado como:
Yij = µ + τ i + β ( X ij − X •• ) + ε ij (2)
donde:
Yij = µ + τ i + γ j + β ( X ij − X •• ) + ε ij (3)
i= 1,…, t j= 1,….,b
donde:
161
Bloq. T1 T2 T3 T4 T5 Total
X Y X Y X Y X Y X Y X Y
I 20.4 24.6 27.2 32.6 26.8 31.7 22.4 29.1 21.8 27.0 118.6 145.0
II 19.6 23.4 32.0 36.6 26.5 30.7 23.2 28.9 24.3 30.5 125.6 150.1
III 25.1 30.3 33.0 37.7 26.8 30.4 28.6 35.2 30.3 36.4 143.8 170.0
IV 18.1 21.8 26.8 31.0 28.6 33.8 24.4 30.2 29.3 35.0 127.2 151.8
Total 83.2 100.1 119.0 137.9 108.7 126.6 98.6 123.4 105.7 128.9 515.2 616.9
Yij = µ + τ i + γ j + β ( X ij − X •• ) + ε ij
i= 1,…, t j= 1,….,b
donde:
Yij es el peso final de una bolsa de ostras tratada con la i-ésima temperatura
(tratamiento), en el j-ésimo mes (bloque).
µ es el efecto de la media general de los pesos.
τ i es el efecto de la i-ésima temperatura del agua.
γ j es el efecto del j-ésimo mes.
β es el coeficiente de regresión lineal de Y, el peso final de las ostras, sobre X, el peso
inicial.
X ij es el peso de una bolsa de ostras tratada con la i-ésima temperatura, en el j-ésimo
mes.
X •• es el peso inicial de las bolsas de ostras.
ε ij es el efecto del error experimental la i-ésima temperatura de agua, en el j-ésimo
mes.
t = 5 (Número de tratamientos).
b= 4 (Número de bloques).
Yij − β ( X ij − X •• ) = µ + τ i + γ j + ε ij (4)
Yij − τ i − γ j = µ + β ( X ij − X •• ) + ε ij (5)
162
La forma en que se ha descrito la ecuación (4) nos permite analizar aspectos
concernientes al diseño experimental.
1. Los valores de X son fijos, medidos sin error, y no son afectados por los
tratamientos.
2. Las variables X y Y deben tener varianzas homogéneas entre los tratamientos.
3. La regresión de Y sobre X debe ser lineal.
(Sigarroa, A. 1985)
Cuadro ANCOVA
Fuente Gl SCX SPXY SCY SC aj. Gl aj. CM aj.
de
Var.
Bloques b- 1 BXX BXY BYY
Trat. + 2
S XY
Error b(t -1) SXX SXY SYY SCT + E = S YY −
S XX
163
Los pasos para la construcción del cuadrado ANCOVA son los siguientes:
t b t b
SC ( X ) = ∑∑ X − TC X 2
ij
SP( XY ) = ∑∑ X ij Yij − TC XY
i =1 j =1 i =1 j =1
t b
SC (Y ) = ∑∑ Yij2 − TC Y
i =1 j =1
donde:
X •2• X Y Y•2•
TC X = TC XY = •• •• TCY =
tb tb tb
3. Calcular las sumas de cuadrados en X, Y y la suma de productos para cada una
de las fuentes de variación (Columnas SCX, SPXY, SCY):
Para bloques:
b X •2j b X • j Y• j b Y•2j
B XX = ∑ − TC X B XY = ∑ − TC XY BYY = ∑ − TcY
j =1 t j =1 t j =1 t
Para tratamientos:
t
X i2• t
X Y t
Yi •2
T XX = ∑ − TC X T XY = ∑ i • i • − TC XY TYY =∑ − TCY
i =1 b i =1 b i =1 b
E XX = SC ( X ) − B XX − T XX E XY = SP( XY ) − B XY − T XY
EYY = SC (Y ) − BYY − T yy
2 2
E XY S XY
SC E = EYY − SCT + E = S YY −
E XX S XX
164
6. Calcular la suma de cuadrados ajustada para evaluar diferencias entre las medias
ajustadas de los tratamientos:
SCT + E − SC E
7. Calcular los grados de libertad ajustados (Columna gl aj.).
8. Calculas los cuadrados medios ajustados (Columna CM aj.)
515.2 2
SC ( X ) = (20.4 2 + 19.6 2 + .... + 29.3 2 ) − = 309.79
(5)(4)
(515.2)(616.9)
SP( XY ) = ((20.4)(24.6) + (19.6)(23.4) + .... + (29.3)(35.0)) − = 325.67
(5)(4)
616.9 2
SC (Y ) = (24.6 2 + 23.4 2 + .... + 35.0 2 ) − = 358.67
(5)(4)
165
Con estos resultados, el cuadro ANCOVA es el siguiente:
Cuadro ANCOVA
Hipótesis:
H0: β= 0
H1: β≠ 0
Estadístico de Prueba:
2
E XY
E XX
F = ~ F(1, gl ( Error aj .))
CME aj .
166
Regla de Decisión:
Ejemplo 1 (Cont.):
H0: β= 0
H1: β≠ 0
H0: El peso final de las ostras no depende linealmente del peso inicial.
H1: El peso final de las ostras sí depende linealmente del peso inicial.
74 .50 2
F = 64 .63 = 313 .05 ~ F(1,1)
0 .2743
En el caso que la regresión resulte significativa, las hipótesis para los tratamientos se
plantearán en términos de los efectos (medias) de los tratamientos ajustados por la
regresión.
Hipótesis:
Estadístico de Prueba:
CM (Trat aj .)
F = ~ F( gl ( Trat . aj .), gl ( Error aj .))
CME aj .
167
Regla de Decisión:
Ejemplo 1 (Cont.):
o linealmente:
H0: Las cinco temperaturas son igualmente efectivas en el crecimiento de las ostras.
H1: Con al menos una de las temperaturas se obtienen resultados diferentes en el
crecimiento de ostras.
3 .1493
F = = 11 .48 ~ F( 4 ,11 )
0 .2743
Para aplicar las pruebas de comparación de medias de tratamientos se debe trabajar con
las medias de los tratamientos ajustadas por la regresión. Para efectuar el ajuste, se debe
calcular primero el coeficiente de regresión estimado, el cual es dado por:
E XY
βˆ =
E XX
Las medias de los tratamientos ajustadas por la regresión están dadas por:
Y i• aj . = Y i • − βˆ ( X i • − X •• )
168
⎡ 1 1 ( X i• − X j • ) 2 ⎤
1) Prueba t y DLS S d = CME aj.⎢ + + ⎥
⎣⎢ ri r j E XX ⎥⎦
CME aj. ⎡ 1 1 ( X i• − X j • ) 2 ⎤
2) Tukey Sd = ⎢ + + ⎥
2 ⎣⎢ ri r j E XX ⎦⎥
⎡ 1 1 ( X T • − X i• ) 2 ⎤
3) Dunnett S d = CME aj.⎢ + + ⎥
⎣ rT ri E XX ⎦
E XY 74.50
βˆ = = = 1.1527
E XX 64.63
Las medias de las variables X y Y sin ajuntar para cada tratamiento son:
169
El valor de tabla con α= 5%, p= 5 tratamientos y 11 grados de libertad para el error
ajustado es AES(T)= 4.57. La amplitud límite significativa de Tukey está dada por la
siguiente fórmula:
CME aj. ⎡ 2 ( X i• − X j • ) 2 ⎤
ALS (T ) = AES (T ) = ⎢ + ⎥
2 ⎣b E XX ⎦
T2 T3 T1 T5 T4
29.88 30.02 30.74 31.46 32.13
5.2.7 Ejercicios
170
Días de Bloques
tratamiento I II III IV
X Y X Y X Y X Y
30 41 4.08 24 2.78 31 2.79 46 4.24
35 40 4.26 36 4.23 44 5.60 48 6.36
40 37 4.72 32 4.92 38 4.50 41 5.62
45 32 4.00 38 4.53 40 4.83 40 4.30
Corral Raciones
1 2 3 4 5 6
1 X 17 22 18 22 22 22
Y 4.32 4.51 3.86 4.54 4.13 4.42
2 X 16 15 17 15 17 13
Y 3.72 4.30 4.51 4.19 3.86 3.43
3 X 19 16 21 19 19 15
Y 4.23 4.23 3.82 4.24 4.04 3.46
4 X 22 21 18 21 19 23
Y 4.79 4.94 4.02 4.39 4.31 4.70
5 X 20 15 18 17 18 14
Y 4.73 4.00 4.17 4.39 3.97 3.89
171
Conclusiones.
172
Recomendaciones.
¾ Que se disponga de este material en sus dos formas (soporte magnético y texto
editado) a entera disposición de los estudiantes que cursan la asignatura.
¾ Que se continúe enriqueciendo con otros diseños y ejercicios que siempre serán
útiles para el desarrollo intelectual y profesional de los estudiantes.
173
Bibliografía.
174