Manual Estadistico PDF
Manual Estadistico PDF
Manual Estadistico PDF
Taller I
Santiago, Chile
2012
Indice general
Introduccion 7
2. Estadstica No Parametrica 31
1
2.1. Conceptos previos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.1.1. Clasificacion de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.1.2. Estadsticos de orden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.1.3. Test de Hipotesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2. Caso de una muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.2.1. Prueba de rachas o de series aleatorias . . . . . . . . . . . . . . . . . . . . . . . 33
2.2.2. Prueba Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.2.3. Prueba del Signo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.2.4. Prueba de Wilcoxon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.2.5. Prueba Chi-Cuadrado (2 ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.2.6. Prueba de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.2.7. Prueba de Shapiro-Wilk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.3. Caso de dos muestras correlacionadas . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.3.1. Prueba del Signo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.3.2. Prueba de rangos asignados de Wilcoxon . . . . . . . . . . . . . . . . . . . . . 43
2.3.3. Prueba de cambio de McNemar . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.4. Caso de dos muestras independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.4.1. Prueba de Wald-Wolfowitz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.4.2. Prueba de Wilcoxon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.4.3. Prueba de Mann-Whitney . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.4.4. Prueba de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . 49
2.4.5. Prueba de Siegel Tuckey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.5. Caso de k muestras correlacionadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.5.1. Prueba Q de Cochran . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.5.2. Prueba de Friedman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.6. Caso de k muestras independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.6.1. Prueba H de Kruskal-Wallis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.7. Correlacion de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.7.1. Coeficiente de correlacion rs de Spearman . . . . . . . . . . . . . . . . . . . . . 54
2.7.2. Coeficiente de correlacion de Kendall . . . . . . . . . . . . . . . . . . . . . . 56
2.7.3. Coeficiente de concordancia W de Kendall . . . . . . . . . . . . . . . . . . . . . 57
2.7.4. La estadstica de Kappa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
2.8. Tabla de Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
2.8.1. Caso de una Muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
2.8.2. Caso de dos muestras correlacionadas . . . . . . . . . . . . . . . . . . . . . . . 60
2.8.3. Caso de k muestras correlacionadas . . . . . . . . . . . . . . . . . . . . . . . . . 60
2.8.4. Caso de dos muestras Independientes . . . . . . . . . . . . . . . . . . . . . . . . 61
2.8.5. Caso de k mustras independientes . . . . . . . . . . . . . . . . . . . . . . . . . 61
2.8.6. Correlacion de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
2.9. Comentarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3. Tecnicas de Muestreo 64
3.1. Definiciones Basicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.1.1. Observaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.2. Sesgos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.2.1. Sesgos de seleccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.2.2. Sesgos de medicion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.3. Tipos de diseno muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
2
3.3.1. Muestreo Aleatorio Simple (m.a.s) . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.3.2. Proporciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.3.3. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.3.4. Estimacion del tamano de la muestra . . . . . . . . . . . . . . . . . . . . . . . 69
3.3.5. Muestreo con distinta probabilidad de seleccion . . . . . . . . . . . . . . . . . . 70
3.3.6. Estimadores para muestreo usando informacion Auxiliar . . . . . . . . . . . . . 71
3.3.7. Muestreo Estratificado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
3.3.8. Muestreo por conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.3.9. Diseno en mas de dos etapas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.3.10. Tecnicas de remuestreo y replicas . . . . . . . . . . . . . . . . . . . . . . . . . . 78
3.4. Tabla de Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
3.5. Comentarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
4. Metodos Multivariantes 94
4.1. Analisis descriptivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.1.1. Aplicaciones de Tecnicas Multivariadas . . . . . . . . . . . . . . . . . . . . . . 95
4.2. Tecnicas multivariadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.2.1. Representacion grafica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.3. Comparacion de muestras provenientes de poblaciones normales . . . . . . . . . . . . . 96
4.3.1. Distribucion Normal Multivariada . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.3.2. Distribucion Wishart . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.3.3. Test T 2 de Hotelling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.3.4. Test de homogeneidad para K-poblaciones . . . . . . . . . . . . . . . . . . . . . 98
4.3.5. Inferencia sobre un vector de medias . . . . . . . . . . . . . . . . . . . . . . . . 98
4.3.6. Inferencia sobre una matriz de Var-Cov . . . . . . . . . . . . . . . . . . . . . . 99
4.3.7. Test de Wilks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
4.3.8. Docima de Bartlett . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
4.4. Componentes principales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
4.4.1. Calculo y seleccion de componentes . . . . . . . . . . . . . . . . . . . . . . . . . 101
4.4.2. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
4.4.3. Seleccion del numero de componentes . . . . . . . . . . . . . . . . . . . . . . . 101
4.4.4. Interpretacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
4.4.5. Representacion Grafica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
4.5. Analisis factorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
4.5.1. Modelo Factorial Ortogonal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
4.5.2. Estimacion de cargas y comunalidades . . . . . . . . . . . . . . . . . . . . . . . 104
4.5.3. Rotaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
4.6. Analisis de discriminantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
4.7. Analisis multivariado de la varianza (MANOVA) . . . . . . . . . . . . . . . . . . . . . 107
4.7.1. Modelo con un Factor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
4.7.2. Modelo con dos Factores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
4.8. Analisis de correlacion canonica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
4.9. Analisis de correspondencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
4.9.1. Tabla de Contingencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
4.9.2. Tabla de contingencia multiple o matriz de Burt . . . . . . . . . . . . . . . . . 110
4.9.3. La Matriz de Frecuencias Condicionadas por Filas R o columnas S . . . . . . 110
4.10. Analisis de conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
4.10.1. Complicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
3
4.10.2. Criterios de Similitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
4.10.3. Distancias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
4.10.4. Criterios basados en los Coeficientes de Correlacion . . . . . . . . . . . . . . . 112
4.10.5. Metodos de Clasificacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
4.11. Analisis CHAID . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
4.11.1. Supuestos del Analisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
4.11.2. Procedimiento del Analisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
4.12. Regresion logstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
4.13. Estudios de segmentacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
4.14. Tabla de Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
4.15. Comentarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
4
6.11.2. Diseno con dos factores aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . 156
6.11.3. Diseno mixtos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
6.12. Disenos factoriales con bloques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
6.13. Disenos anidados o jerarquicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
6.14. Disenos anidados y cruzados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
6.14.1. Disenos con tres factores anidados y uno cruzado . . . . . . . . . . . . . . . . . 161
6.15. Disenos de parcelas divididas (SPLIT PLOT) . . . . . . . . . . . . . . . . . . . . . . . 162
6.16. Diseno factorial 2k . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
6.16.1. Generalizacion del diseno 2k . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
6.17. Diseno factorial 3k . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
6.18. Analisis de covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
6.18.1. Analisis de la Covarianza Unifactorial . . . . . . . . . . . . . . . . . . . . . . . 167
6.19. Metodos alternativos para determinar efectos y significacion de los factores . . . . . . 169
6.19.1. Metodo de Yates . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
6.19.2. Grafico en papel logartmico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
6.19.3. Analisis de medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
6.20. Tecnicas para abaratar costos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
6.20.1. Tecnicas de confusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
6.20.2. Disenos Fraccionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
6.21. Metodo de Taguchi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
6.22. Metodos y diseno de superficie de respuesta (MSR) . . . . . . . . . . . . . . . . . . . . 173
6.23. Metodo de la maxima pendiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
6.23.1. Algoritmo del camino de la Maxima Pendiente . . . . . . . . . . . . . . . . . . 174
6.24. Tabla de Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
6.25. Comentarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
5
8.2. Generacion de variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
8.3. Integrales mediante numeros aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
8.4. El proceso de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
8.4.1. Teora de Colas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
8.4.2. Metodos de Monte Carlo con Cadenas de Markov . . . . . . . . . . . . . . . . . 216
8.5. Tabla de Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
8.6. Comentarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221
Aplicaciones 225
10.1. No Parametrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
10.2. Tecnicas de Muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228
10.3. Simulacion Estadstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
10.4. Series Cronologicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238
10.5. Modelos Lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
10.6. Diseno de Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
10.7. Tecnicas Multivariadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
10.8. Diseno y Analisis de Encuesta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 250
Anexo 256
11.1. TABLA A. Distribucion Chi-Cuadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . 256
11.2. TABLA B. Distribucion Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257
11.3. TABLA C. Distribucion T-Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258
11.4. TABLA D. Prueba U de Mann-Whitney . . . . . . . . . . . . . . . . . . . . . . . . . . 259
11.5. TABLA E. Distribucion Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260
11.6. TABLA F. Wald-Wolfowitz de valores crticos para prueba de rachas . . . . . . . . . . 266
11.7. TABLA G. Signos rankeados de Wilcoxon . . . . . . . . . . . . . . . . . . . . . . . . . 267
11.8. TABLA H. Para diferencias de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . 269
11.9. TABLA I. Para dos muestras de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . 269
11.10.TABLA J. Para dos muestras de Kolmogorov-Smirnov (Bidireccional) . . . . . . . . . 270
11.11.TABLA K. Friedman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271
11.12.TABLA L. Kruskal-Wallis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272
11.13.TABLA M. Coeficiente de correlacion de Spearman . . . . . . . . . . . . . . . . . . . . 273
11.14.TABLA N. Coeficiente de correlacion de Kendall . . . . . . . . . . . . . . . . . . . . . 273
11.15.TABLA O. Coeficiente de concordancia de Kendall . . . . . . . . . . . . . . . . . . . . 274
11.16.TABLA P. Coeficientes de Shapiro-Wilk . . . . . . . . . . . . . . . . . . . . . . . . . . 274
11.17.TABLA Q. Valores crticos de Shapiro-Wilk . . . . . . . . . . . . . . . . . . . . . . . . 275
6
Introduccion
La estadstica es una disciplina que se entiende como una forma de pensamientos para la re-
solucion de problemas cotidianos o cientficos, proporciona instrumentos para la toma de decisiones
cuando prevalecen condiciones de riesgo e incertidumbre.
En nuestros das esta se ha convertido en un metodo efectivo para describir con exactitud
los valores de datos economicos, polticos, sociales, psicologicos, biologicos, fsicos, entre otras, y sir-
ve como herramienta para relacionar y analizar dichos datos. Respecto a esto se comprende que la
estadstica abarca una gran cantidad de actividades, lo que desprende una cantidad extensa de temati-
cas importantes en todas las areas de la investigacion, las cuales dependen de la situacion a la que se
enfrenta y de los conceptos asociada a esta.
El presente manual tiene como objetivo dar a conocer lneas del conocimiento estadstico im-
portantes para el desarrollo de la recoleccion, calificacion y analisis de datos, para as hacer inferencias
cientficas sobre estos, ademas se daran a entender relaciones que existen entre las tematicas a abordar
para complementar en el desarrollo de cada una de estas.
Las areas que se presentaran siguen una estructura la que se inicia con la disciplina de Diseno
y analisis de encuestas, Captulo 1, esta tematica engloba la metodologa a seguir de un investigador
respecto a un estudio, la cual en su metodologa generaliza el uso de las otras tematicas a analizar,
posteriormente se aborda en la Estadstica no parametrica, Captulo 2, en el cual una vez profundizado
la tematica anterior, se presenta esta disciplina la que puede ser utilizada para contrastar docimas sin
previa informacion de la poblacion, es muy importante para cualquier tipo de area que se aborde en
esta linea de conocimientos estadsticos, y respecto a lo expuesto en el capitulo 1, es importante en el
momento de validar las hipotesis. Ya explicado esto se interiorizara el conocimiento con las Tecnicas
de muestreo, Captulo 3, una vez desarrollado los temas anteriores se puede deducir una necesidad se
analizar poblaciones a traves de un grupo reducido de estas, sea por costo, tiempo o actualizacion de
informacion, en esta disciplina se ensenaran diferentes tecnicas para as tener una representacion de
una muestra respecto a la poblacion. Estas tecnicas son fundamentales para los estudios en diseno y
analisis de encuestas (como el ver en que poblacion se basara el estudio), tambien se pueden utilizar
docimas de Estadstica no parametrica para comprobar aleatoriedad o comportamientos de la pobla-
cion. En general, es un piso fundamental para llevar acabo estudios sobre una poblacion. ede ahorrar
costos y alcanzar una mayor cantidad de analisis.
7
sionalidad, calificar, discriminar y agrupar observaciones, en lo cual estos pueden utilizar tecnicas de
muestreo u ocupar docimas de estadstica no parametrica. Son de gran importancia para hacer estudios
con los objetivos propuestos, como en el caso hacer un estudio de asignacion de un credito bancario,
aglomerar grupos de individuos para luego hacer inferencias sobre estas, entre otras, como el analisis
de varianza o anova, la cual se relaciona de forma directa con el capitulo de modelos lineales y diseno
de experimentos en donde se explicara su relacion de interes con las tematicas expuestas. De esto se
puede desprender los Modelos lineales, Captulo 5, la que es una herramienta estadstica para poder
estudiar el comportamiento de una variable dependiente a traves de variables independientes, con esto
se puede formular un modelo de regresion lineal el cual se trabaja bajo ciertos supuestos, los cuales si
cumplen pueden un modelo eficiente en relacion a una investigacion. En esta tematica se profundiza el
como funcionan y se relaciona con lo metodos multivariantes para los analisis de anova, ya que estos
son base para entenderlos. Un investigador puede utilizar esta herramienta para poder encontrar un
modelo en el cual las variables o tratamientos que se definan expliquen una variable de interes. Estos
dan un entendimiento base para Diseno de experimentos, Captulo 6, en esta tematica se aborda de
lleno los diferentes disenos experimentales que un investigador puede definir para poder analizarlos y
ver si influyen en su variable respuesta, es esencial entender la base del capitulo de modelos lineales,
ya que estos se relacionan en gran importancia con los supuestos y desarrollos de los distintos disenos
experimentales.
Una rama distinta a las demas es Series cronologicas, Captulo 7, en la cual esta disciplina de
la estadstica se preocupa de estudiar observaciones medidas en un instante de tiempo, la cual formula
un modelo que se puede ajustar a estos datos de forma tal que se pueda predecir o retropredecir
valores a lo largo del tiempo. Estos pueden ser comparados con los modelos de regresion lineal con la
salvedad de que estos modelos son mas estaticos con respecto a la series de tiempo. Es importante que
en modelos lineales, analisis de anova, disenos de experimentos y series cronologicas, pueden ocupar
docimas de estadstica no parametrica para ver como se comportan sus residuos o como distribuyen,
para as ver si cumplen o no con los supuestos. Tambien se hace un alcance en que las series cro-
nologicas pueden ser ocupadas para analizar los residuos en modelos lineales. Es una herramienta
importante para un investigador que este llevando a acabo un estudio a traves del tiempo. Por ultimo,
se dara termino a esta lnea del conocimiento estadstico con Simulacion Estadstica, Captulo 8, la
que se puede relacionar con cualquiera de los ya expuestos, ya que la simulacion estadstica es un
metodo que disena algun modelo o calculo de un sistema real y obtener resultados a traves de este
en union con el software que se ocupe. Esta puede ser una herramienta provechosa para el investi-
gador con respecto a su estudio, ya que puede ahorrar costos y alcanzar una mayor cantidad de analisis.
8
Captulo 1
El diseno y analisis de encuesta entrega una pauta de los pasos a seguir en una investigacion,
desde la creacion de una idea, hasta la elaboracion de un instrumento que sea lo suficientemente con-
fiable para poder entregar una respuesta satisfactoria a cierto problema de interes.
El analisis de encuesta consiste en tratar de explicar tanto los enfoques experimentales como
los no experimentales, el cuantitativo y el cualitativo, abarcar desde la concepcion de la idea de la
investigacion y el desarrollo del marco teorico hasta la formulacion de hipotesis, la eleccion del diseno
de investigacion, la elaboracion del instrumento de recoleccion de datos y del reporte de investigacion.
1.1. Investigacion
Las investigaciones se originan en ideas las cuales pueden provenir de distintas fuentes y la
calidad de dichas ideas no esta necesariamente relacionadas con la fuente de donde provengan. Fre-
cuentemente las ideas son vagas y deben ser traducidas en problemas mas concretos de investigacion,
para lo cual se requiere una revision bibliografica de la idea. Las buenas ideas deben alentar al inves-
tigador, ser novedosas y servir para la elaboracion de teoras y la resolucion de problemas.
9
Los objetivos y preguntas de investigacion deben ser congruentes entre s e ir en la misma
direccion. Los objetivos establecen que pretende la investigacion y las preguntas nos dicen que res-
puestas deben encontrarse mediante la investigacion.
Los criterios principales para evaluar el valor potencial de una investigacion son: conveniencia,
relevancia social, implicaciones practicas, valor teorico y utilidad metodologica. Ademas debe anali-
zarse la viabilidad de la investigacion y sus posibles consecuencias.
Cuando se tiene planteado el problema de estudio, es decir ya contamos con los objetivos y
preguntas de la investigacion, y ademas se ha evaluado su relevancia y factibilidad, el siguiente paso
consiste en sustentar el marco teorico del estudio.
El marco teorico se integra con las teoras, enfoques teorico, estudios y antecedentes generales
que se refieren al problema de investigacion. Para elaborar el marco teorico es necesario detectar,
obtener y consultar la literatura y otros documentos pertinentes para el problema de investigacion,
as como extraer y recopilar de ello la informacion de interes. La revision de la literatura puede ini-
ciarse manualmente o acudiendo a un banco de datos al que se tiene acceso por computacion.
El marco teorico cumple diversas funciones dentro de una investigacion, entre las cuales des-
tacan las siguientes:
1. Ayuda a prevenir errores que se han cometido en otros estudios.
2. Orienta sobre como habra de llevarse a cabo el estudio. En efecto, al acudir a los antecedentes,
se puede dar cuenta de como ha sido tratado un problema especfico de investigacion.
3. Ampla el horizonte del estudio y gua al investigador para que este se centre en su problema
evitando desviaciones del planteamiento original.
10
4. Conduce al establecimiento de hipotesis o afirmaciones que mas tarde habran de someterse a
prueba en la realidad.
5. Inspira nuevas lneas y areas de investigacion.
6. Provee de un marco de referencia para interpretar los resultados del estudio.
Con el proposito de evaluar la teora de nuestro marco teorico podemos aplicar cinco criterios:
a) Capacidad de descripcion, explicacion y prediccion.
b) Consistencia logica.
c) Perspectiva.
d) Fructificacion.
e) Parsimonia.
El marco teorico orientara el rumbo de las etapas subsecuentes del proceso de investigacion.
Una vez que se ha efectuado la revision de la literatura y se afino el planteamiento del pro-
blema, se debe pensar que alcance tendra la investigacion: exploratorio, descriptivo, correlacional o
explicativo. Es decir, hasta donde (en terminos de conocimiento) es posible que llegue el estudio?
Ningun tipo de estudio es superior a los demas, todos son significativos y valiosos. La diferencia
para elegir uno u otro tipo de investigacion reside en el grado de conocimiento respecto al tema que
se va a estudiar y los objetivos.
Los estudios exploratorios tienen por objeto esencial examinar un topico desconocido o poco
estudiado. Esta clase de investigaciones sirven para desarrollar metodos a utilizar en estudios mas
profundos.
Los estudios descriptivos sirven para analizar como es y se manifiesta un fenomeno y sus com-
ponentes (e.g. cuantas personas ven un programa de television y por que lo ven).
Los estudios correlacionales pretenden ver como se relacionan o vinculan diversos fenomenos
entre s.
Los estudios explicativos buscan encontrar las razones o causas que provocan ciertos fenomenos.
Una misma investigacion puede abarcar fines exploratorios, en su inicio y terminar siendo
descriptiva, correlacional y hasta explicativa; todo segun los objetivos del investigador.
11
1.5. Hipotesis
Las hipotesis son proposiciones tentativas acerca de la relacion entre dos o mas variables y
se apoyan en conocimientos organizados y sistematicos. Las hipotesis contienen variables, estas son
propiedades cuya variacion pueden ser medidas.
Las hipotesis surgen normalmente del planteamiento del problema y la revision de la literatura,
y algunas veces de teoras. Las hipotesis deben referirse a una situacion real. Las variables contenidas
tienen que ser precisas, concretas y poder observarse en la realidad, la relacion entre las variables debe
ser clara, verosmil y medible. Asimismo, las hipotesis deben estar vinculadas con tecnicas disponibles
para probarlas.
12
3.
4.
Puesto que las hipotesis nulas y las alternativas se derivan a las hipotesis de investigacion, pueden
clasificarse del mismo modo pero con los elementos que las caracterizan.
13
En una investigacion puede formularse una o varias hipotesis de distintos tipos. Las hipotesis se con-
trastan contra la realidad para aceptarse o rechazarse en un contexto determinado.
Hay investigaciones que no pueden formular hipotesis por que el fenomeno a estudiar es des-
conocido o se carece de la informacion para establecerlas (pero ello solo ocurre en los estudios explo-
ratorios y algunos estudios descriptivos).
Una vez que se ha definido el tipo de estudio a realizar y se han definido las hipotesis de inves-
tigacion, el investigador debe concebir una manera practica y concreta para responder a las preguntas
de investigacion, esto implica seleccionar un tipo de diseno y aplicarlo al tipo de estudio.
Deducimos que un estmulo afecta cuando observamos diferencias (en las variables que supues-
tamente serian afectadas), entre un grupo al que se le administro dicho estmulo y el grupo al que no
se le administro, siendo ambos iguales en todo excepto en esto ultimo.
Para lograr el control o la validez interna de los grupos se le administro los estmulos y a otro
no. A veces graduamos la cantidad del estmulo que se administra, es decir, a distintos grupos (seme-
jantes) les administramos diferentes grados del estmulo para observar si provocan efectos distintos.
La asignacion de azar es (normalmente), el metodo preferible para lograr que los grupos del
experimento sean comparables (semejantes).
Existen diversos factores o fuentes que pueden hacer que nos confundamos y ya no sepamos si
la presencia de una variable independiente o tratamiento experimental tiene o no un verdadero efecto,
se trata de explicaciones rivales a las explicacion de que la(s) variable independiente(s) afecta o no a
la(s) variable(s) dependiente (s).
A estas explicaciones rivales se les conoce como fuentes de invalidacion interna, por que atentan
contra la validez interna de un experimento. La validez tiene que ver con la calidad del experimento y
se logra cuando hay control, cuando los grupos difieren entre s solamente en la exposicion a la variable
independiente.
14
Hay nueve fuentes de invalidacion interna:
1. Historia: Son antecedentes que ocurren durante el desarrollo del experimento que afectan a la
variable dependiente y pueden confundir los resultados experimentales.
2. Maduracion: Son procesos internos de los participantes que opera como consecuencia del tiempo
y que afectan los resultados del experimento, como el cansancio, hambre, aburricion, aumento
de edad.
3. Inestabilidad: Poca o nula confiabilidad de las mediciones, fluctuaciones en las personas selec-
cionadas o componentes del experimento, o inestabilidad autonorma de mediciones repetidas
aparentemente equivalentes.
4. Administracion de pruebas: Se refiere al efecto que puede tener la aplicacion de una prueba sobre
las puntuaciones de pruebas subconsecuentes.
5. Instrumentacion: Esta fuente hace referencia a cambios en los instrumentos de medicion o en los
observadores participantes que pueden producir variaciones en los resultados que se obtengan.
6. Regresion estadstica: Esta fuente se refiere a un efecto provocado por una tendencia de sujetos
seleccionados sobre la base de puntuaciones extrema.
7. Seleccion: Esta puede presentarse como resultado de elegir a los sujetos para los grupos del
experimento, de tal manera que los grupos no sean equiparables, es decir si no se seleccionan
los sujetos para los grupos asegurandose la equivalencia de estos, la seleccion puede resultar
tendenciosa.
8. Mortalidad: Esta fuente se refiere a diferencias en la perdida de participantes entre los grupos
que se comparan.
9. Interaccion entre seleccion y maduracion: Se trata de un efecto de maduracion que no es igual
en los grupos del experimento, debido a algun factor de seleccion.
Los disenos experimentales se pueden clasificar en:
a) Puros.
b) Pre-experimental.
c) Cuasi-experimental.
Los experimentos puros son aquellos que manipulan las variables independientes para ver sus efectos
sobre variables dependientes, la variable independiente es la que se considera como supuesta causa en
una relacion entre variables, es la condicion antecedente, y al efecto provocado por dicha causa se le
denomina variable dependiente (consecuente), el investigador hace variar la variable independientes,
es decir, da distintos valores a esta variable para posteriormente analizar como cambia la variable
dependiente.
Los estudios pre-experimentales se llaman as, porque su grado de control es mnimo, consiste
en administrar un estmulo o tratamiento a un grupo, y despues aplicar una medicion en una o mas
variables para observar cual es el nivel del grupo en estas variables.
Los disenos cuasi-experimental tambien manipulan deliberadamente al menos una variable in-
dependiente para ver su efecto y relacion con una o mas variables dependientes, solamente que difieren
de los disenos puros en el grado de seguridad o confiabilidad que pueda tenerse sobre la equivalencia
15
inicial de los grupos, en estos disenos los sujetos no son asignados al azar a los grupos ni emparejados,
sino que dichos grupos ya estaban formados antes del experimento, son grupos intactos (la razon por
la que surgen y la manera como se forman fueron independientes o aparte del experimento).
Los experimentos que hacen equivalentes a los grupos y que se mantienen en esta equivalen-
cia durante el desarrollo de aquellos, controlan las fuentes de invalidacion interna. Lograr la validez
interna es el objetivo metodologico y principal en todo experimento. Una vez que se consigue es ideal
alcanzar validez externa (posibilidad de generalizar los resultados de la poblacion, otros experimentos
y situaciones no experimentales).
Hay dos contextos en donde pueden realizarse los experimentos: el laboratorio, y el campo.
16
Los disenos no experimentales se dividen de la siguiente manera:
Los disenos transeccionales realizan observaciones en un momento unico en el tiempo. Cuando miden
variables de manera individual y reportan esas mediciones son descriptivos. Cuando describen rela-
ciones entre variables son correlacionales y si establecen procesos de causalidad entre variables son
correlacionales/ causales.
Los disenos longitudinales realizan observaciones en dos o mas momentos o puntos en el tiem-
po. Si estudian a una poblacion son disenos de tendencia, si analizan a una subpoblacion o grupo
especfico son disenos de analisis evolutivo de grupo y si estudian a los mismos sujetos son disenos de
panel.
Ahora bien siguiendo con los conceptos que conllevan a una investigacion, para la medicion
de caractersticas fsicas (por ejemplo, el peso, la altura, etc.), existen, instrumentos tangibles para
poder medirlas, en el caso de caractersticas psicologicas (nivel de atencion, postura hacia el consumo
de drogas, etc.) no existen instrumentos de medicion que entreguen resultados de forma precisa, di-
chas caractersticas representan constructos que se deben medir mediante instrumentos disenados de
manera especfica, dichos instrumentos son los test, cuestionarios o inventarios. Por el contrario a los
instrumentos que miden longitud, que entregan una medida precisa, la bondad de un test no se puede
presuponer, mas bien siempre se esta mejorando.
17
Un cuestionario estara formado por una serie de elementos o tems a los que cada individuo
que se somete a la prueba debera responder. Luego de cuantificar las respuestas de cada individuo, se
asignan puntuaciones a esa persona con respecto al constructo o atributo que se pretende medir. Una
puntuacion indica el grado de asociacion de la persona con el atributo.
Como primer paso, es necesario dar una definicion operacional del constructo o rasgo que se
quiere medir, que es un concepto, pero que tiene un sentido adicional, el cual fue inventado o adoptado
de una manera deliberada y consciente para un proposito en especial.
De lo anterior debemos ser capaces de establecer un conjunto de tems que representen las
conductas mediante las que se manifiestan los componentes del constructo.
En relacion a la construccion de los tems existen dos temas a tener en cuenta: El formato
de respuesta y las normas de redaccion de los tems.
18
1.8.4. Redaccion de tems
Ademas se deben evitar las opciones del tipo todas las anteriores son correctas o ninguna
de las anteriores es correcta, as tambien se debe balancear la posicion de la opcion correcta, para
que no se situe siempre en la misma opcion.
Tambien se debe tener en cuenta la dificultad para crear las alternativas incorrectas, donde
estas no deben ser absurdas ni que se puedan eliminar con cierto grado de sentido comun. El estable-
cimiento de alternativas multiples exige un conocimiento claro de lo que se desea evaluar como de las
personas a las que va dirigida la prueba.
Luego de establecer el formato de respuesta mas adecuado, es preciso decidir como se pueden
cuantificar los posibles resultados. En general, para los tems de rendimiento optimo se asigna 1 si es
acierto y 0 si es error, as el puntaje directo sera el numero de tems que el sujeto acierte.
Por otro lado, las pruebas de rendimiento tpico requieren cuantificar las posibles respuestas
tomando en cuenta que la alternativa con mayor valor indique mayor nivel de rasgo u opinion.
Por ejemplo, si es una categora con opcion binaria se puede cuantificar con 1 el acuerdo
y 2 el desacuerdo o viceversa. Mientras que si el formato es de n categoras ordenadas, estas se
cuantificaran desde 1 hasta n, tomando en cuenta la direccion de la afirmacion.
19
1.8.6. Analisis de tems
Los tems se han formulado para que midan el constructo, o rasgo que se desea evaluar. Luego
el grado en que cada tem es bueno es algo que se puede comprobar estadsticamente si se definen
ciertos indicadores, el ndice de dificultad, el ndice de homogeneidad y el ndice de validez.
Para esto, luego de aplicar la prueba a una muestra de sujetos y cuantificadas las respuestas,
se forma una matriz de datos.
Items
Sujeto 1 2 ... j ... n X
1 a11 a12 . . . a1j ... a1n
..
.
i ai1 ai2 ... aij ... ain
..
.
N aN 1 aN 2 ... aN j ... aN a
Donde aij indica el valor de la respuesta del sujeto i en el tem j. Luego al sumar por filas se puede
obtener las puntuaciones directas (X) de los sujetos en el total del test.
Sirve para cuantificar el grado de dificultad de cada tem, por lo que solo tiene sentido en los
test de rendimiento optimo.
Hj = rjX
Este ndice mide el grado en que el tem j esta midiendo lo mismo que la prueba. Los tems con bajo
Hj indican que estan midiendo algo diferente que la prueba en conjunto.
Si un test tiene poca cantidad de tems, resulta mas apropiado ocupar el ndice de homogeneidad
corregido rj(Xj) , este ndice se calcula como la correlacion de los puntajes del tem con la puntuacion
total del test luego de restarle el total de las puntuaciones del tem que se quiere obtener.
20
1.8.6.3. Indice de Validez
Se puede tambien correlacionar los puntajes de un tem j con lo que obtengan los N sujetos
bajo un criterio de validacion externa al test (Y), luego se define el ndice de validez como:
Vj = rjY
(Y), en este caso es una medida diferente para reflejar el mismo rasgo, por lo que si el test esta mi-
diendo lo que se desea, este ndice sera alto.
Los tems que tengan un Vj cercano a cero, es conveniente sacarlos de la prueba, ya que no
estan aportando a medir el rasgo que se pretende medir.
Muy en relacion con el analisis de tems, se encuentra el tema del estudio de los patrones
de respuesta, que se han dado a las diferentes alternativas de cada tem. Para un tem concreto de
una prueba de rendimiento optimo, lo ideal es que la alternativa seleccionada en mayor medida sea
la correcta; cada una de las alternativas incorrectas del tem debe tambien ser seleccionada por un
numero de personas que, aun siendo inferior al que selecciona la alternativa correcta, ratifique como
adecuadas (como bien planteadas) dichas alternativas incorrectas.
En los test de opcion multiple, donde se debe seleccionar una sola alternativa, se puede sobre-
estimar el puntaje de una persona por el hecho que esta conteste algunas preguntas al azar, entonces
se necesita establecer un procedimiento para descontar los aciertos producidos por el azar Aa .
Luego, se puede estimar el numero de aciertos al azar, el cual esta determinado por:
1
Aa = E
n
Donde E corresponde a la cantidad de tems erroneos.
En el area de la psicologa, no es posible medir aptitudes, actitudes, etc., por lo cual se cons-
truyen test para poder entregar alguna medicion del comportamiento de cierta persona.
Como se vio anteriormente, los resultados de los test se pueden cuantificar, obteniendose un
puntaje para cada persona (X). Pero la duda que surge es que si dicho puntaje puede medir efectiva-
mente el rasgo, por esto, la teora clasica de los test propone un modelo formal, llamado modelo lineal
clasico, el cual, bajo ciertos supuestos es capaz de determinar el grado en que un test informa sobre
cierto rasgo.
21
Supuestos
Segun el modelo clasico, las formas paralelas de un test se definen con las siguientes condiciones:
a) Un individuo tiene los mismos puntajes verdaderos en ambas formas.
b) La varianza de los errores de medicion es la misma en ambas formas.
Pero, en la practica no se conocen los valores de los puntajes verdaderos, solamente conocemos los
puntajes empricos. Se puede constatar que para que dos formas sean paralelas, los puntajes medios
son los mismos, al igual que las varianzas. Al ocupar estadstica inferencial, podemos determinar esto
mediante los siguientes test:
a) Test para igualdad de medias.
H0 : 1 2 = 0 v/s H1 : 1 2 6= 0
El estadstico es:
D N
T = tN 1
SD
Donde D es el promedio de las diferencias y SD la desviacion estandar de las diferencias.
22
b) Test para igualdad de varianzas.
H0 : 1 2 = 0 v/s H1 : 1 2 6= 0
El estadstico es:
(S12 S22 ) N 2
T = p
2
tN 2
2S1 S2 1 r12
Donde r1 2 es la correlacion de Pearson entre X1 y X2 .
Se define el coeficiente de fiabilidad como la correlacion de los puntajes obtenidos de los sujetos
de dos formas paralelas de un test. Es decir, si dos formas de un test pretenden medir un mismo rasgo,
se espera una correlacion alta entre ambos puntajes empricos para una misma poblacion.
El coeficiente de correlacion de Pearson para datos poblacionales esta dado por la siguiente
forma:
X1 X2 2
12 = = 2v
N 1 2 X
Esto significa que el ndice de fiabilidad es el cociente entre la variacion de los puntajes verdaderos y la
variacion de los puntajes empricos. Dicho coeficiente asume valores entre 0 y 1, ya que las varianzas
son siempre positivas.
Supongamos que se tienen n formas paralelas para medir un aspecto psicologico determinado.
Por lo visto anteriormente, estas n formas tendran la misma varianza emprica, al igual que las corre-
laciones entre todas los posibles pares de formas.
Se definen los parametros de una forma paralela como x , v , e , xx (varianzas de las puntua-
ciones empricas, verdaderas, error, respectivamente y por ultimo el coeficiente de fiabilidad), entonces
al unir las n formas paralelas los parametros seran nx , nv , ne , nxx , donde:
a) La varianza emprica es:
nx = nx2 [1 + (n 1)xx ]
nv = n2 v2
ne = ne2
23
d) El coeficiente de fiabilidad del test alargado es:
nxx
nxx =
1 + (n 1)xx
Esta expresion se conoce como formula general de Spearman-Brown y permite obtener el ndice de
fiabilidad de un test compuesto de n formas paralelas.
A veces, por razones de ndole practica o investigadora, se disena un test y una segunda ver-
sion del mismo, denominada forma paralela, que intenta evaluar o medir lo mismo que el test original
pero con diferentes tems. Como ya hemos explicado, dos versiones o formas se consideran paralelas si,
aplicadas a una misma muestra de personas, obtienen medias y varianzas probabilsticamente similares.
La correlacion de Pearson entre las puntuaciones obtenidas en una misma muestra en dos
formas paralelas se considera el coeficiente de fiabilidad de cualquiera de ellas, e indicara el grado en
que pueden considerarse equivalentes.
Este procedimiento consiste en dividir el test en dos mitades equivalentes (normalmente una
con los elementos pares y otra con los impares). Para cada sujeto se obtiene la puntuacion directa
en ambas mitades. Disponemos entonces de dos variables (P e I), cuya correlacion (rP I ) indica su
grado de relacion. Para superar el problema de subestimacion, y as obtener el coeficiente de fiabilidad
del test completo, debemos aplicar la formula de Spearman-Brown, considerando ahora que estamos
trabajando con datos muestrales, y haciendo n = 2 ya que el test completo tiene el doble de tems que
cualquiera de sus mitades:
2rP I
rxx =
1 + rP I
Fue desarrollado por J.L. Cronbach y a diferencia de los metodos anteriores, requiere de solo
una aplicacion del instrumento. Ademas no es necesario dividir los tems del instrumento, ya que solo
es necesario aplicar la medicion y calcular el coeficiente.
24
Pk !
2
k i=1 Si
= 1 2
k1 St
Donde,
k: Numero de tems o preguntas.
Si2 : Varianza del tem i.
St2 : Varianza del total de valores observados (varianza de la suma de los tems).
X =V +E
Es facil demostrar que se cumple la siguiente relacion para datos muestrales:
v2
xx =
x2
Para datos muestrales, la expresion anterior queda establecida como:
Sv2 Sv2
rxx = = 1
Sx2 Se2
De donde se deduce que el error tpico de medida puede obtenerse a partir de la expresion:
Se = Sx 1 rxx
Una cosa es que el test mida de manera precisa o estable (esta cualidad se refiere a su fiabili-
dad), y otra diferente es la cuestion de que es lo que autenticamente esta evaluando.
Aunque cada vez se tiende mas a concebir la validez como un proceso unitario que tiene como
objetivo aportar pruebas sobre las inferencias que podemos realizar con un test, tradicionalmente
25
se han diferenciado varios procedimientos de validacion, alguno de los cuales incluye varios metodos
diferentes de comprobacion. Los fundamentales procedimientos son denominados como validez de
contenido, de constructo y referida al criterio.
Sobre todo en pruebas de rendimiento (por ejemplo, pruebas de inteligencia, de aptitudes, etc...)
y en pruebas de conocimientos (cuestionarios para evaluar el rendimiento en una materia escolar o en
una especialidad tematica concreta), tiene sentido justificar que el conjunto de tems que forman el
test conforman una muestra representativa del universo de contenidos que interesa evaluar.
Un constructo es un concepto elaborado por los teoricos de la Psicologa para explicar el com-
portamiento humano. Inteligencia fluida, extroversion, autoconcepto, asertividad, motivacion intrnse-
ca... son constructos que forman parte de teoras psicologicas y que precisan de indicadores observables
para su estudio. En muchas ocasiones, estos indicadores son los tems de un test, y debe comprobarse
empricamente donde resultan adecuados para reflejar el constructo de referencia.
Aunque los metodos a emplear son sin duda variados, as como las tecnicas estadsticas para
analizar los datos, podemos encontrar un comun denominador a todos ellos, que se sintetiza en las
siguientes fases:
Formular hipotesis relevantes en las que aparezca el constructo que pretendemos evaluar con el
test.
Efectuar en la practica mediciones oportunas de las variables o constructos involucrados en las
hipotesis.
Determinar si se verifican o no las hipotesis planteadas. En el caso de que as sea, queda confir-
mado mediante una investigacion que el test mide el constructo de interes ya que, de lo contrario,
no habra razones logicas para que se cumplieran las hipotesis formuladas.
26
de un terapeuta de las mejoras conseguidas por cada persona, etc. A la correlacion entre las puntua-
ciones en el test (X) y en el criterio (Y) se le denomina coeficiente de validez, lo designamos como
rxy e indicara el grado en el que el test sirve para pronosticar con precision el rendimiento en el criterio.
2
Sy20 2
Syy 0
rxy = =1
Sy2 Sy2
Donde,
Sy2 : Varianza del criterio.
Sy20 : Varianza de los pronosticos.
2
Syy 0 : Varianza de los errores de pronostico.
El coeficiente de validez es una correlacion entre una variable X (test) y otra Y (criterio). La
cuanta de la correlacion viene condicionada por varios factores, como son:
La fiabilidad del test.
La fiabilidad del criterio.
La autentica relacion entre test y criterio.
La variabilidad de la muestra en el test y en el criterio.
Respecto a los dos primeros factores, se puede decir que el coeficiente de validez tiende a incrementarse
a medida que test y criterio son variables medidas con exactitud. Problemas de fiabilidad en uno u
otro se reflejan mediante una disminucion del coeficiente de validez. De hecho, se puede comprobar
que el lmite maximo al que puede llegar rxy es rxx ryy es decir:
rxy rxx ryy
Siendo rxx el coeficiente de fiabilidad del test y ryy el coeficiente de fiabilidad del criterio.
27
1.11. Tabla de resumen
TEMAS CONTENIDOS
Investigacion Definicion de investigacion
Planteamiento del problema Estructuracion de la idea de investi-
gacion
Marco teorico Orientacion de la investigacion
Tipo de investigacion Definir alcance de la investigacion
Hipotesis Define relacion entre dos o mas va-
riables a partir de una afirmacion
Tipos de diseno de investigacion Diseno no experimental
Diseno experimental
Redaccion y analisis de tems Definicion del constructo
Construccion provisional del cues-
tionario
Formato de respuesta
Redaccion de tems
Cuantificacion de las respuestas
Analisis de tems
Analisis de opciones incorrectas de
respuesta
Correccion de los efectos del azar
Modelo clasico y concepto de fiabilidad Fiabilidad del test
Formas paralelas de un test
Coeficiente de fiabilidad de formas
paralelas
Coeficiente de fiabilidad de n formas
paralelas
Fiabilidad como correlacion de for-
mas paralelas
Fiabilidad como estabilidad tempo-
ral
Metodos de dos mitades
Coeficiente de Cronbach
Error tpico o estandar de medida
Validez del test Validez del contenido
Validez de constructo
Validez de criterio
28
1.12. Comentarios
Si bien el diseno de encuestas estructura y da forma a una investigacion, este se relaciona con
varias areas de la estadstica, como son las tecnicas de muestreo las cuales acotan el alcance de los
resultados de la investigacion como tambien en la seleccion de los grupos de estudio. Otro alcance, es
que en la seleccion del tipo de diseno experimental tiene una relacion directa con el captulo de di-
seno de experimentos, en el cual el investigador selecciona el mejor modelo para representar su estudio.
Por ultimo, la relacion con el captulo siguiente, estadstica no parametrica, es aquella con la
cual ayuda a contrastar las hipotesis de las medias en las formas paralelas de un test.
En referencia al manual estadsitco del ano 2000, este captulo fue reordenado en su estructura.
29
Referencias
30
Captulo 2
Estadstica No Parametrica
Por lo general, las pruebas no parametricas son faciles de usar y calcular, eliminan la necesidad
de de suposiciones restrictivas de las pruebas parametricas. Tambien una de las importancias de esta
disciplina es la de trabajar con muestras pequenas y usar datos cualitativos, sin embargo, a veces,
ignoran o pierden informacion e incurren en un mayor error del tipo II (no rechazar una hipotesis nula
falsa).
31
Nominal: on variables numericas cuyos valores representan una categora o identifican un grupo
de pertenencia.
Ordinal (rankings): son variables numericas cuyos valores representan una categora o identi-
fican un grupo de pertenencia contando con un orden logico o jerarquico.
Intervalo: son variables numericas cuyos valores representan magnitudes y la distancia entre
los numeros de su escala es igual. Las variables de intervalo carecen de un cero absoluto, por lo
que operaciones como la multiplicacion y la division no son realizables.
Razon: poseen las mismas caractersticas de las variables de intervalo, con la diferencia que
cuentan con un cero absoluto; es decir, el valor cero representa la ausencia total de medida.
Es decir:
Mnimo valor de la muestra: X[1] = min{Xi } i = 1, . . . , n
Maximo valor de la muestra: X[n] = max{Xi } i = 1, . . . , n
r-esimo estadstico de orden: X[r] 1 < r < n
Algunas aplicaciones de esta estadstica son:
1. Cuando se desea obtener el mnimo costo al cual se puede obtener cierta materia prima.
2. La temperatura maxima en un lapso de tiempo en estudio.
3. Cuando se requiere la maxima presion de soporte de un cierto material de construccion, etc.
La mediana es un buen estimador para la tendencia central de la poblacion, ya que esta no se ve
influenciada por valores grandes o pequenos dentro de la muestra como es en el caso de la media.
Luego la mediana para la m.a. se define por:
X n+1
2
si n es impar
Me =
1 (X n + X n ) si n es par
2 2 2
+1
Otros elementos fundamentales son el rango definido como X[n] X1 y el rango intercuatlico
(Q3 Q1 ). Estos estimadores dan una buena apreciacion de la dispersion de los datos.
32
1. Planteamiento de la Hipotesis
H0 : Hipotesis nula. Se plantea con el proposito de rechazarla.
H1 : Hipotesis alternativa. Declaracion operacional de la hipotesis de investigacion.
2. Region de rechazo de H0
a) Determinacion del modelo probabilstico.
b) Especificacion del nivel de significancia .
El nivel de significancia viene dado por el Error Tipo I :
En esta seccion se presentan varias pruebas estadsticas no parametricas con el fin de probar
ciertas hipotesis sobre una muestra unica.
Si se desea inferir o llegar a alguna conclusion acerca de la poblacion desde una muestra, es
necesario que dicha muestra posea un caracter aleatorio; es decir, las observaciones sucesivas deben
33
ser independientes. Es por esto que se han desarrolado varias tecnias para probar la hipotesis de que
la muestra es aleatoria. Estas tecnicas se basan en el orden original en que se obtuvieron los valores
de las observaciones.
Es importante recalcar que los valores de la variable en estudio deben ser dicotomicos, de otro
modo si fuesen continuos es posible dicotomizarlos mediante el criterio de la mediana, es decir, si
dichos valores estan por debajo o sobre la mediana se les asigna un valor (en general un signo o un
numero que identifque en dos grupos los valores) negativo (- o 0) y positivo (+ o 1), respectivamente.
Hipotesis
H0 : La muestra es aleatoria
H1 : La muestra no es aleatoria
Entonces la forma de proceder para contrastar las hipotesis es, primero identificar los dos tipos
de valores que toma la variable de estudio (recordar si la variable es continua, dicotomizarla), luego
se cuenta el numero de rachas o series (Robs ) observadas. Se define una racha o serie a la sucesion de
observaciones con el mismo valor.
Estos valores (Rsup y Rinf ) corresponden a valores crticos que se obtienen de la tabla de Wald-
Wolfowitz. Vease Anexo [Tabla F].
R
Z= N (0, 1)
Donde,
34
RC : {|Z| Z1 2 }
En cualquier caso de rechazar, el rechazo a la hipotesis nula sera con un nivel de significancia de y
por lo tanto se concluira que la muestra no es de caracter aleatorio.
Muchas poblaciones estan compuestas por solo dos grupos o clases. Para tales poblaciones, ca-
da observacion puede caer en un solo caso categorico. Estas reciben el nombre de poblacion dicotomica.
En esta prueba se desea verificar si la poblacion o un conjunto de sujetos posee o no una cierta
caracterstica, para esto se utiliza un test binomial con probabilidad = 1/2 ya que se tiene la misma
probabilidad de poseer una u otra caracterstica.
Es usual que se utilice esta prueba para muestras pequenas (n < 25), pero en caso contrario
se puede realizar una aproximacion a una distribucion conocida, para facilitar los calculos.
Hipotesis
Procedimiento
1. Dicotomizar las variables con valores 1 si posee cierta caracterstica y 0 en caso contrario.
2. Obtener la muestra como el conjunto de estas variables, es decir, sumar estas variables aleatorias.
3. Establecer el numero observado Xobs en la muestra.
Distribucion muestral bajo H0
Sea X: Cantidad de sujetos que poseen cierta caracterstica de una cantidad n sujetos. Luego,
n
(0,5)n x = 0, 1, . . . , n
X Bin(n, 0,5) P (X = x) = x
Region de rechazo
Para muestras pequenas (n 25)
Para la hipotesis 2.1 se tendra una region bilateral:
RC : {m.a.(n)/|Xobs | > X1 2 }
35
Para las hipotesis 2.2 y 2.3 se tendra una region unilateral, respectivamente:
RC : {m.a.(n)/Xobs < X }
RC : {m.a.(n)/Xobs > X1 }
Las regiones de rechazo de las hipotesis 2.1, 2.2 y 2.3 son respectivamente:
RC : {m.a.(n)/|Zobs | > Z1 2 }
RC : {m.a.(n)/Zobs < Z }
RC : {m.a.(n)/Zobs > Z1 }
En caso de rechazar, se concluira entonces con un nivel de significacion que la proporcion de sujetos
que poseen dicha caracterstica es distinta, menor o mayor segun corresponda el planteamiento de la
hipotesis nula.
Esta prueba contrasta las hipotesis sobre la mediana (M ) de cualquier poblacion continua.
Para la realizacion de prueba, se debe dicotomizar la variable continua, asignando (+) al valor sobre
la mediana y (-) al valor bajo esta. Los empates se asignan arbitrariamente. Ademas se debe cumplir
los supuestos de seleccion aleatoria de una poblacion con mediana desconocida, la poblacion debe ser
continua y la variable debe ser al menos ordinal.
La realizacion de esta prueba es en base de una muestra pequena (n < 25), sin embargo, para
muestras grandes se vera posteriormente la realizacion de esta prueba mediante una aproximacion
asintotica.
Hipotesis
Las hipotesis anteriores hacen referencia a que se quiere contrastar si el valor de la mediana poblacional
es igual, menor o mayor a un valor determinado, esto es, estimar el valor original donde se separa de
36
igual proporcion los signos.
Procedimiento
1. Dicotomizar la variable continua.
2. Establecer el numero observado Xobs a la cantidad de observaciones sobre la mediana (cantidad
de signos +).
Distribucion muestral bajo H0
Region de rechazo
Para muestras pequenas (n < 25)
Para la hipotesis 2.4 se tendra una region bilateral:
RC : {m.a.(n)/|Xobs | > X1 2 }
Para las hipotesis 2.5 y 2.6, se tendran regiones unilaterales, respectivamente:
RC : {m.a.(n)/Xobs < X }
RC : {m.a.(n)/Xobs > X1 }
Las regiones de rechazo para las hipotesis 2.4, 2.5 y 2.6, vienen dadas respectivamente por:
RC : {m.a.(n)/|Zobs | > Z1 2 }
RC : {m.a.(n)/Zobs < Z }
RC : {m.a.(n)/Zobs > Z1 }
37
En caso de rechazar, se concluira con un nivel de significacion que el valor de la mediana sera distinto,
menor o mayor que el predicho segun el planteamiento de la hipotesis nula.
Tiene el mismo objetivo que la prueba de signo, ademas de considerar tanto la magnitud del
cambio como el signo de la diferencia entre la observacion y la mediana.
Los supuestos que se deben cumplir para el desarrollo de esta prueba son que las muestras
deben ser seleccionadas en forma aleatoria y la poblacion debe ser continua.
Al termino, se mostrara la distribucion sintotica que tiene el estadstico al tener una muestra
grande (n > 25) siendo esto otra forma de responder a esta prueba.
Hipotesis
Procedimiento
1. Calcular las diferencias Di entre las observaciones y la mediana, sin descuidar el signo.
2. Asignar el ranking de las diferencias absolutas obtenidas.
3. Encontrar Zi tal que:
1 Di > 0
Zi =
0 Di < 0
4. Asignar con T + la suma de los ranking de las diferencias con signo (+) y asignar con T la suma
de los ranking de las diferencias con signo (-).
Region de rechazo
Para muestras pequenas (n 25)
Para la hipotesis 2.8 se tendra una region bilateral:
RC : {m.a.(n)/T < T1 }
RC : {m.a.(n)/T + < T1 }
Donde el valor T se encuentra en la tabla: Signos rankeados de Wilcoxon. Vease Anexo [Tabla
G].
Para muestras grandes (n > 25)
Se utiliza una aproximacion asintotica de la distribucion normal. Bajo H0 el valor observado
38
viene dado por:
n(n+1)
T+ 4
Zobs = q
n(n+1)(2n+1)
24
Las regiones de rechazo para las hipotesis 3.8, 3.9 y 3.10, respectivamente son:
RC : {m.a.(n)/|Zobs | > Z1 2 }
RC : {m.a.(n)/Zobs < Z }
RC : {m.a.(n)/Zobs > Z1 }
Al igual que la prueba anterior de signos, se debe rechazar con un nivel de significacion.
Hipotesis
Procedimiento
1. Se clasifican las frecuencias de las observaciones en k categoras.
2. Se determinan las frecuencias esperadas. Estas se rigen por la esperanza de la ley de distribucion
bajo H0 .
3. Calculo del valor esperado ei :
Caso Discreto: ei = nP (X = xi )
Caso Continuo: ei = nP (ai X bi )
4. Si existe algun valor esperado menor a cinco, entonces se combinan las categoras adyacentes.
Distribucion muestral bajo H0
El estadstico para esta prueba viene dado por:
k
X (Oi ei )2 a
X2 = 2(kr1)
ei
i=1
Donde,
Oi : Valor observado.
ei : Valor esperado.
39
r: Cantidad de parametros.
Region de rechazo
2
RC : {m.a.(n)/Xobs < 2(kr1);1 }
En caso de rechazar la hipotesis nula, se debe hacer con un nivel de significancia y concluir que la
muestra no se ajusta a una ley de distribucion especificada.
Al igual que la prueba de 2 , esta tambien es una prueba de bondad de ajuste, solo que esta di-
senada para variables aleatorias continuas y esto hace que la prueba de Kolmogorov-Smirnov tenga
mas potencia que la prueba anterior descrita.
Esta prueba analiza si los valores de alguna muestra provienen de alguna distribucion teorica
especificada F0 . Para responder a esta hipotesis la prueba se basa en el calculo de la mayor diferencia
entre la distribucion especificada y la distribucion emprica Fn . En el fondo, analiza si es significativa
la diferencia entre estas distribuciones.
Hipotesis
Procedimiento
1. Ordenar la muestra de menor a mayor.
2. Calcular F0 (xi ) y Fn (xi ) para realizar las respectivas diferencias para i = 1, . . . , n.
3. Obtener Dn que es la mayor de estas diferencias, es decir,
Region de rechazo
En caso de rechazar, se debe concluir que la muestra no proviene de una distribucion especifi-
cada con un nivel de significancia.
40
2.2.7. Prueba de Shapiro-Wilk
Esta prueba se utiliza, para decidir si una muestra seleccionada aleatoriamente de una cierta
poblacion con distribucion F (x) desconocida, posee distribucion normal.
Hipotesis
H0 : F (x) N ormal
H1 : F (x) N ormal
Procedimiento
Region de Rechazo
RC : {m.a.(n)/Wobs > W }
Donde los valores de W se encuentran en la tabla de valores crticos del estadstico de Shapiro-Wilk.
Vease Anexo [Tabla Q].
En caso de ser rechaza la hipotesis nula, se debera concluir con un nivel de significancia que
la muestra no posee una distribucion normal.
Los casos de dos muestras correlacionadas o muestras pareadas, analizan pares de respuestas
que estan altamente correlacionadas entre s, como por ejemplo, estudiar el efecto de un sujeto antes
y despues de consumir cierto medicamiento.
Se analizaran casos en que se tenga un par (Xi ,Yi ) como observacion, de un total de n pares.
41
2.3.1. Prueba del Signo
La realizacion adecuada de esta prueba es cuando se tiene n pares de observaciones de (Xi ,Yi )
en escala ordinal. Los supuestos a considerar son la aleatoriedad de la seleccion y que la variable debe
ser continua.
Hipotesis
Procedimiento
1. Realizar las diferencias entre cada pareja i-esima, i.e, hacer: Di = Xi Yi
2. Contabilizar las diferencias positivas y negativas.
3. Definir X como la mnima cantidad entre diferencias positivas y negativas, i.e.,
Region de rechazo
Para muestras pequenas (n 25)
RC : {m.a.(n)/X > BN }
El valor de BN se encuentra la tabla: Coeficientes binomiales, con n cantidad de pares observados.
Vease Anexo [Tabla E].
Para muestras grandes (n > 25)
Se utiliza una aproximacion asintotica a la distribucion normal, obteniendose:
Las regiones de rechazo para las hipotesis 2.11, 2.12 y 2.13 son respectivamente:
RC : {m.a.(n)/|Zobs | > Z1 2 }
RC : {m.a.(n)/Zobs < Z }
RC : {m.a.(n)/Zobs > Z1 }
En caso de rechazar la hipotesis nula, se concluira entonces que las medianas de las dos muestras son
diferentes, una menor o mayor a la otra, segun corresponda.
42
2.3.2. Prueba de rangos asignados de Wilcoxon
Al igual que en el caso de una muestra, la prueba de Wilcoxon para muestras pareadas tiene
el mismo objetivo, pero ademas considera la magnitud y signo de la diferencia (Xi ,Yi ) por observacion.
Esta prueba da mas importancia al par que presente una diferencia mayor.
Para la realizacion, se debe cumplir con el supuesto de que las muestras deben ser seleccionadas
en forma aleatoria y su distribucion debe ser continua.
Hipotesis
H00 : M(+) = M() v/s H10 : M(+) 6= M() (2.15)
H000 : M(+) M() v/s H10 : M(+) < M() (2.16)
H0000 : M(+) M() v/s H10 : M(+) > M() (2.17)
Procedimiento
1. Calcular las diferencias: Di = Xi Yi . Si alguna diferencia es cero, se debe eliminar esta obser-
vacion y reducir el tamano muestral n.
2. Realizar el ranking del valor absoluto obtenido de estas diferencias.
3. Asignar con T + a la suma de los ranking de las diferencias con signo (+) y asignar con T a la
suma de los ranking de las diferencias con signo (-).
Region de rechazo
Para muestras pequenas (n 25)
Para la hipotesis 2.15 se hace: T = min{T + , T } y luego:
RC : {m.a.(n)/T < T0 }
Para las hipotesis 2.16 y 2.17, se tendra respectivamente:
RC : {m.a.(n)/T < T0 }
RC : {m.a.(n)/T + < T0 }
done el valor T0 se encuentra en la tabla: Valores crticos de T en la prueba de los rangos
senalados de pares igualados de Wilcoxon. Vease Anexo [Tabla G].
Para muestras grandes (n > 25)
Se utiliza una aproximacion asintotica a la distribucion normal. Bajo H0 el valor observado viene
dado por:
n(n+1)
T+ 4
Zobs = q
n(n+1)(2n+1)
24
Las regiones de rechazo para las hipotesis 2.15, 2.16 y 2.17, son respectivamente:
RC : {m.a.(n)/|Zobs | > Z1 2 }
RC : {m.a.(n)/Zobs < Z }
RC : {m.a.(n)/Zobs > Z1 }
43
Al igual que la prueba de signo para dos muestras correlacionadas se debe concluir en caso de rechazar
la hipotesis nula con un nivel de significancia.
Esta prueba estudia la significacion de cualquier tipo de cambio. Esta es adecuada para disenos
de antes y despuesde algun tratamiento. En ella se utiliza la observacion en escala nominal y que
sea dicotomica.
Es usual utilizar la tabla de cambios en esta prueba, que es insensible al efecto del orden.
AntesDespues - +
+ A B
- C D
donde,
Hipotesis
Procedimiento
1. Ordenar los datos en la tabla.
2. Determinar la frecuencia esperada: E = 12 (B + C).
Distribucion muestral bajo H0
Si E < 5, se utiliza la prueba binomial vista en la seccion 2.2.2, donde los parametros de la
distribucion binomial vienen dados por: n = B + C y = 1/2.
Si E 5, se utiliza una aproximacion a la distribucion Chi-Cuadrado con 1 grado de libertad,
i.e.,
(B C)2 a
X2 = 21
B+C
Corrigiendo por continuidad, se obtiene:
2 (|B C| 1)2
Xobs =
B+C
Region de rechazo
44
Para la hipotesis 2.18 se tendra una region bilateral:
2
RC : {m.a.(n)/|Xobs | > 2(1);1 }
2
Para las hipotesis 2.19 y 2.20, se tendran las mismas regiones unilaterales:
2
RC : {m.a.(n)/Xobs > 2(1);1 }
2
En este caso, si se rechaza la hipotesis nula se debera concluir entonces que el tratamiento influyo en
la eleccion de los sujetos con un nivel de significacion.
Esta prueba contrasta si existe alguna diferencia entre dos muestras (X e Y ) extradas de la
misma poblacion, comparando las medianas o la varianza de cada una.
La medicion debe ser en escala ordinal, las muestras deben estar unidas y ordenadas en forma
creciente y el supuesto a cumplirse es que la variable aleatoria sea continua.
Hipotesis
Se tendra una hipotesis cuando se trate de comparar las varianzas de cada muestra. Ahora
cuando se quiera comparar por las medianas se tendran tres hipotesis a contrastar.
Contrastando por las varianzas de cada muestra:
Procedimiento
1. Unificar las muestras y ordenar el resultado de forma creciente.
2. Obtener las rachas (explicado en la seccion 2.2.1) de este resultado, diferenciando la provinencia
de cada observacion.
3. Cuantificar las rachas, obteniendose robs .
45
Region de rechazo
Para muestras pequenas (n1 n2 20)
En caso de rechazar las hipotesis acerca de la varianza o de medianas, se debe concluir entonces con
un nivel de significancia que ambas muestras difieren.
Hipotesis
Procedimiento
1. Unificar las muestras y ordenar el resultado de forma creciente.
2. Realizar el ranking de este resultado.
3. Definir T1 como la suma de los ranking de la muestra X y T2 como la suma de los ranking de la
muestra Y .
46
4. Estadstico de Wilcoxon:
Si n1 < n2 entonces la observacion esta dada por T1 .
Si n1 > n2 entonces la observacion esta dada por T1 .
Si n1 = n2 entonces la observacion esta dada por T (eleccion arbitrariamente entre T1 y T2 ).
Region de rechazo
Para muestras pequenas (n1 n2 10)
Si n1 = n2 o n1 < n2 o n1 > n2 entonces las regiones bilaterales estan dadas respectivamente
por:
RC : {m.a.(n1 , n2 )/T TL T TU }
RC : {m.a.(n1 , n2 )/T1 TL T1 TU }
RC : {m.a.(n1 , n2 )/T2 TL T2 TU }
Donde TL y TU son los lmites inferior y superior de los valores crticos que se encuentran en la
tabla: Valores crticos de T en la prueba de los rangos senalados de pares igualados de Wilcoxon.
Vease Anexo [Tabla G].
Para muestras grandes (n1 n2 10)
Se aproxima T a una distribucion asintotica a la normal de parametros:
n1 n2 + n1 (n1 + 1) n1 n2 (n1 + n2 + 1)
= ; 2 =
2 12
Luego, el estadstico es:
T
Zobs =
Para la hipotesis 2.25 se tendra una region bilateral:
En caso de rechazar la hipotesis nula, se debera concluir que ambas muestras difieren o no provienen
de la misma ley de distribucion con un nivel de significacion.
Hipotesis
H00 : FX (x) = FY (y) v/s H10 : FX (x) 6= FY (y) (2.28)
H000 : FX (x) FY (y) v/s H10 : FX (x) < FY (y) (2.29)
H0000 : FX (x) FY (y) v/s H10 : FX (x) > FY (y) (2.30)
Procedimiento
47
1. Asignar n1 a la menor cantidad de observaciones entre la muestra X e Y , y asignar n2 a la mayor
cantidad.
2. Unificar las muestras y ordenar el resultado de forma creciente.
3. Realizar el ranking de este resultado e identificar (utilizar smbolos) la procedencia de la obser-
vacion.
4. Estadstico U de Mann-Whitney:
Se cuenta el numero de observaciones que hay en la muestra mas pequena (supongamos X),
antes de la primera observacion de la otra muestra (Y ). Luego realizar lo mismo con la segunda
observacion y as sucesivamente. La suma de estos valores sera el estadstico U de Mann-Whitney.
Region de rechazo
Se analiza principalmente segun el tamano de muestra mas pequena (n2 ).
Para muestras pequenas n2 8
U = n1 n2 U
y se vuelve a buscar de la misma forma.
Para muestras con 8 < n2 20
Si U > 21 n1 n2 , entonces se utiliza U explicado anteriormente.
T
Zobs =
Para la hipotesis 2.28 se tendra una region bilateral:
48
Si se rechaza la hipotesis nula se concluira entonces que las dos muestras no provienen de la misma
poblacion con un nivel de significancia.
Esta prueba se usa para confirmar que dos muestras independientes provienen de una misma
poblacion o poseen una misma ley de distribucion.
Sobre la hipotesis, H00 , se enfoca en las diferencias de localizacion y dispersion, y en las hipotesis
H000 y H0000 se usan para si los valores de la muestra son mayores o menores que la otra.
Hipotesis
Procedimiento
1. En cada muestra se fijan tantos intervalos como sea conveniente.
2. Los datos por muestra, se registran en cada intervalo fijado. Luego, se reorganizan los datos en
sumas acumuladas de la observacion al cual pertenece (frecuencias acumuladas), i.e., realizar:
Sn1 (x) = K/n1 y Sn2 (x) = K/n2 , de cada muestra respectiva. El valorde K es el numero de
puntajes iguales o menores de x.
3. Realizar las diferencias de las distribuciones acumuladas por intervalo.
Para la hipotesis 2.31 se aplica el valor absoluto de las diferencias.
4. La estadstica D se encuentra como las mayores de estas diferencias, i.e.,
Region de rechazo
Para muestras pequenas (n1 = n2 = N 40)
Para las hipotesis 2.31, 2.32 y 2.33 se tendra la misma region de rechazo:
RC : {m.a.(n1 , n2 )/Dobs D }
49
El valor D se encuentra en la tabla: Valores crticos de D en la prueba de dos muestras de
Kolmogorov-Smirnov. Vease Anexo [Tabla J].
Para las hipotesis 2.32 y 2.33, se aproxima Dobs a una v.a. Chi-Cuadrado con dos grados de
libertad, obteniendose el siguiente estadstico:
2 n1 n2
Xobs = 4(Dobs )2
n1 + n2
Y la region de rechazo es:
2
RC : {m.a.(n1 , n2 )/Xobs > 2(2);1 }
En caso de rechazar la hipotesis nula se debera concluir que las muestras son distintas en ley de
distribucion con un nivel de significancia.
Para aplicar esta prueba se deben considerar dos poblaciones, con medianas MX y MY , con
tamanos de muestra n y m. Se debe cumplir que las medianas de las muestras sean similares y que el
tamano de la muestra de las Xi observaciones sea menor o igual al tamano de las Yi observaciones.
Hipotesis
Procedimiento
1. Las muestras se unen en una sola y se ordenan de menor a mayor (asignacion de ranking).
2. Si existen observaciones repetidas se toman los promedios de los ranking de estos datos, siguiendo
el metodo de Wilcoxon.
3. Encontrar la suma de los ranking de la primera muestra indicada por Sw y de la segunda muestra
Sr .
4. Determinar el estadstico Sn que corresponde al valor menor escogido entre Sw y Sr .
Luego se definen:
50
Para obtener los ranking (ai ):
El ranking 1 se asigna al valor mas pequeno, el ranking 2 al valor mas grande, el ranking 3 al
segundo valor mas grande, el ranking 4 al segundo valor mas pequeno y as sucesivamente.
Region de rechazo
RC : {m.a.(n, m)/Sn W1 }
RC : {m.a.(n, m)/Sn W }
RC : {m.a.(n, m)/Sn W 2 Sn W1 2 }
Donde los valores de W1 y W } se encuentran en la tabla de signos rankeados de Wilcoxon.
Vease Anexo [Tabla G].
Para muestras grandes
Se aproxima Sn a una variable aleatoria con distribucion normal, mediante un factor de correc-
cion por continuidad de 0.5.
Luego se define:
Sn E(Sn )
0,5 N (0, 1)
V ar(Sn )
En caso de ser rechazada la hipotesis nula, se debe concluir con un nivel de significacion que la
varianza de las dos poblaciones son distintas.
Es evidente que para realizar este tipo de pruebas, se debe tener el mismo tamano para las k
muestras, i.e., n1 = = nk = n.
Es una extension de la prueba de McNemar vista en la seccion 2.3.3. Aqu se utilizan tres
o mas muestras, provenientes de la misma poblacion en condiciones diferentes. Estudia el grado de
significacion de cualquier cambio o si las componentes tratamientos difieren significativamente entre
s, es por esto que esta prueba esta basada en el analisis de la varianza.
Es adecuada para los datos en escala nominal del tipo dicotomico, o si se ha dicotomizado la
informacion.
Hipotesis
51
H0 : No hay diferencia significativa entre las k condiciones o tratamientos.
H1 : Existe al menos algun tratamiento significativamente distinto al resto.
Procedimiento
1. Ubicar las k muestras (o tratamientos) en forma vertical y asignar con 1 a la primera carac-
terstica (exito) y 0 en el otro caso (fracaso).
2. Se obtiene el total de puntajes por las k columnas (tratamientos) y por las n filas (observaciones).
3. Estadstico Q de Cochran:
!2
k k
G2j G2j
P P
(k 1) k
j=1 j=1
Q= n n
L2i
P P
k Li
i=1 i=1
Donde:
k: Cantidad de tratamientos.
n: Cantidad de observaciones de cada muestras.
Gj : Cantidad de exitos en la columna j.
Li : Cantidad de exitos en la fila i.
Region de rechazo
El estadstico Q se aproxima a una distribucion Chi-Cuadrado con k 1 grados de libertad,
obteniendose:
En caso de ser rechazada la hipotesis nula, se concluye entonces con un nivel de significancia que al
menos uno de los tratamientos difiere de los otros.
Al igual que la prueba anterior, esta prueba esta basada en el analisis de varianza. Esta prueba
analiza si tres o mas tratamientos provienen de la misma poblacion o poseen la misma ley de distri-
bucion. Luego, se tienen k tratamientos y n bloques (observaciones).
Hipotesis
Procedimiento
52
1. Realizar el ranking dentro de cada bloque.
2. Obtener el total de los puntajes (suma del ranking) por tratamiento.
3. Estadstico de Friedman:
k
12 X
Fr = Rj2 3n(k + 1)
nk(k + 1)
j=1
Donde:
n: Cantidad de bloques.
k: Cantidad de tratamientos.
Rj : Puntaje del tratamiento j.
Region de rechazo
Para muestras pequenas (n 10)
En caso de ser rechazada la hipotesis nula, se concluira que al menos uno de los tratamientos difiere
en ley con un nivel de significancia.
Las muestras deben ser seleccionadas de forma aleatoria, deben ser continuas y su medida debe
ser al menos ordinal.
Hipotesis
53
H0 : Las k muestras son identicas en ley de distribucion.
H1 : Existen por lo menos dos muestras que no poseen la misma ley.
Procedimiento
1. Unificar las k muestras y ordenar el resultado de forma creciente.
2. Realizar el ranking de este resultado.
3. Estadstica H de Kruscal-Wallis:
k
X Rj2
12 a
H= 3(N + 1) 2(k1)
N (N + 1) nj
j=1
Donde:
k: Numero de muestras.
nj : Cantidad de observaciones de la muestra j.
N : Cantidad total de observaciones de la muestra combinada, i.e., N = nj .
Rj : Suma del ranking de la muestra j.
Region de rechazo
Para muestras pequenas (nj 25)
En caso de ser rechazada la hipotesis nula se concluye que existe al menos dos muestras que no poseen
la misma ley con un nivel de significancia.
La correlacion de variables mide el grado de asociacion que exista entre dos muestras (X e Y ).
Es una medida de asociacion entre dos variables X e Y , requiriendose que esten medidas por
lo menos en escala ordinal.
Los supuestos son de aleatoriedad de las muestras y que las muestras sean del mismo tamano
(n1 = n2 = n).
54
Hipotesis
Procedimiento
1. Ordenar los objetos o individuos en estudio segun las dos variables. Luego asignar el ranking (o
rango) de cada variable (se asigna un 1 para el menor valor de X y N para el mas grande, lo
mismo para la variable Y ).
2. Realizar la diferenciacion de estos dos ranking.
3. Estadstico rs de Spearman:
Pn 2
6 i=1 di
rs = 1
n3 n
Donde:
di : Diferencia de los rangos de cada variable en la observacion i, i.e., di = xi yi .
Lo anterior es para el caso de ausencia de empates entre rangos de cada variable. Luego el es-
tadstico con empates es:
Pn
(xi x)(yi y)
rs = qP i=1
n 2
Pn 2
i=1 (xi x) i=1 (yi y)
Donde:
xi : Rango correspondiente a la variable X del individuo i.
yi : Rango correspondiente a la variable Y del individuo i.
x: Promedio de los rangos de la variable X.
y: Promedio de los rangos de la variable Y .
Region de rechazo
Para muestras pequenas (n 30)
55
En caso de rechazar la hipotesis nula se debera concluir con un nivel de significancia que las dos
variables no estan asociadas.
Al igual que el coeficiente de correlacion de Spearman, las variables X e Y deben estar medi-
das en escala ordinal. Esta es una prueba de significancia para el coeficiente de correlacion de Kendall.
Hipotesis
Procedimiento
1. Teniendo los valores de X e Y emparejados, se realiza el ranking para ambas muestras.
2. Se ordena el ranking de X de forma creciente, para as ordenar el ranking de Y segun el orden
de X.
3. Calculo de la estadstica S: Se toma cada observacion en los rangos de Y , se cuenta la cantidad
de rangos a su derecha que son mayores a este numero y se le resta la cantidad de rangos a su
derecha que son menores. La suma de estos valores obtenidos de cada observacion se suman y
se obtiene S.
4. Coeficiente de correlacion de Kendall ( ):
2S
=
n(n 1)
En caso de empates se calcula:
2S
=p p
n(n 1) x n(n 1) y
Donde, = t(t 1), siendo t el numero de observaciones empatadas en la muestra X, analogo
para Y .
Region de rechazo
Para muestras pequenas (n 8)
56
Zobs = q
2(2n+5)
9n(n1)
En caso de ser rechazada la hipotesis nula se debera concluir de manera similar que en el coeficiente
de correlacion de Spearman, con un nivel de significancia.
Hipotesis
Procedimiento
1. Tabular los k items (columnas) con sus respectivos bloques (filas).
2. Realizar el ranking dentro de los n bloques.
3. Coeficiente de concordancia de Kendall (W ):
12S
W =
k 2 (n3 n)
Donde:
k
P Rj
S= Rj k y Rj es la suma de los ranking del item j.
j=1
Region de rechazo
Para muestras pequenas (k < 27 n < 7)
57
Luego, la region de rechazo es:
En caso de rechazar la hipotesis nula se debera concluir con un nivel de significancia que existe
relacion entre los rangos.
Esta estadstica o ndice es util para estudiar el grado de acuerdo entre observaciones, esto es,
hasta que punto coinciden en su medicion.
Hipotesis
Procedimiento
1. Construir la tabla donde cada uno de los N objetos o individuos seran asignados a las m cate-
goras mediante k criterios. La tabla de asignaciones sera de N m, donde nij es el numero de
criterios (o evaluadores) que asignaron al objeto i en la categora j.
2. Estadstico Kappa:
P (A) P (E)
=
1 P (E)
Donde:
m
(n2ij )
P
j=1
Si = ; corresponde a la proporcion que existe entre los pares de criterios (o evaluadores)
(k2)
existentes del i-esimo sujeto, con los posibles pares de evaluadores o criterios.
!
N N P
m
1 1 1
n2ij
P P
P (A) = N Si = N k(k1) k1 ; corresponde a la proporcion de veces que los k
i=1 i=1 j=1
58
criterios concuerdan.
m
Cj 2
P
P (E) = Nk ; corresponde a la proporcion de veces que se espera que los k criterios
j=1
concuerden.
3. Para interpretacion de , se usa:
RC : {muestras/|Zobs | Z1 }
En caso de rechazar la hipotesis nula se debera concluir con un nivel de significancia, que existe
relacion o acuerdo entre las observaciones.
59
2.8. Tabla de Resumen
60
2.8.4. Caso de dos muestras Independientes
61
2.9. Comentarios
Los metodos no parametricos son casi tan eficientes como sus pares parametricos para detectar
diferencias entre poblaciones; y por que no, hasta mas eficientes en muchos casos en que no se cumplen
los supuestos parametricos.
Por su facil aplicacion y gran libertad de utilizacion, las tecnicas no parametricas tienen un rol
preponderante en la metodologa estadstica.
Por ultimo, esta rama de la estadstica se puede ver relacionada con otras, como lo es con el
siguiente captulo tecnicas de muestreo, cuando se requiere saber si el proceso de seleccion de sujetos
fue de caracter aleatorio.
Con respecto al captulo anterior, esta disciplina es importante en el momento de plantear una
hipotesis, entender la naturaleza de esta y con los diferentes metodos con los cuales se desarrolla la
investigacion poder probar si se cumple o no lo planteado en esta docima. En el caso de validar el
instrumento, estas docimas son frecuentemente ocupadas.
En relacion con el manual estadstico del ano 2000, se agrego la prueba binomial para el caso
de una muestra y la prueba de Shapiro-Wilk. Tambien se corrigio la formula correspondiente a la
mediana en los estadsticos de orden.
62
Referencias
63
Captulo 3
Tecnicas de Muestreo
Cuando se quiere saber informacion acerca de alguna poblacion de interes, a veces ocurre que la
poblacion es demasiada amplia para poder estudiar en su totalidad, debido al costo que esto implicara
y a que en muchas ocasiones no sera posible conseguir la medicion de cada individuo que lo componen.
Para solucionar el problema de obtener aquella informacion, existen tecnicas estadsticas para
examinar solo un subconjunto de individuos, es decir obtener una muestra, la cual sera representativa,
para luego realizar las inferencias de interes. Estas son las denominadas tecnicas de muestreo.
El realizar diferentes tecnicas de muestreo como herramienta de investigacion da un sustento
para concluir determinados estudios de una poblacion (obtener resultados de maxima calidad), reducir
costos materiales de este estudio y una mayor rapidez en la obtencion de la informacion. Estas seran
abordadas a lo largo del desarrollo del capitulo.
Un ejemplo es: medir la estatura de los ninos de un curso de 4to basico, donde la estatura sera
la variable de interes y la poblacion objetivo los ninos de un curso de 4to basico.
Para poder utilizar lo observado en la muestra como conclusion para la poblacion objetivo se
requiere que la muestra sea representativa de la poblacion objetivo. La representatividad de una
muestra no se garantiza mediante la composicion de la muestra sino que por la forma de seleccion
de ella (es ver la que tan aleatorio fue el proceso de seleccion, el cual se puede ver por el test de rachas).
64
El marco muestral: Es un listado de las unidades de la poblacion objetivo. Normalmente
este no coincide con la poblacion objetivo, por lo que el marco muestral debe cumplir con lo siguiente:
Cada unidad tiene que estar perfectamente identificada (no puede haber ambiguedad)
Contar con los mecanismos que permitan la medicion de la variable de interes en la unidad
seleccionada.
Ser lo mas actualizado y exhaustivo posible.
3.1.1. Observaciones
65
3.2. Sesgos
A menudo una muestra de conveniencia es sesgada debido que las unidades mas faciles de
elegir o las que mas probablemente respondan a la encuesta no son representativas de las unidades
mas difciles de elegir o de las unidades que no contesten la encuesta.
Este sesgo se produce cuando el marco muestral no coincide con la poblacion objetivo, es decir,
es un instrumento de medicion de la variable de interes el cual debe ser preciso y confiable, es por
esto que la construccion del instrumento debe ser considerado y minimizado en la etapa de diseno de
la encuesta, por lo que no habra ninguna ambiguedad.
66
3.3. Tipos de diseno muestral
Este diseno es el mas sencillo, consiste en que todas las muestras posibles tienen la misma pro-
babilidad de ser seleccionadas. Este mecanismo de seleccion es base para muchos otros que se veran
mas adelante (Estratificado, Conglomerados, entre otros).
En este diseno consideramos una poblacion de tamano N y la muestra que se tomara de ta-
mano n, de modo que cada unidad de la poblacion tiene la misma probabilidad de ser elegido.
N
Entonces existen n muestras posibles de modo que escoger una muestra por separado es:
1 n!(N n)! n
P (S) = N
= = ; S es una muestra individual
n
N! N
Entonces de esto se obtienen los estimadores (insesgados) para y (total poblacional y media
poblacional respectivamente) con sus respectivas varianzas que se ven en el siguiente cuadro:
3.3.1.1.1. Observaciones
El termino S 2 es la variabilidad muestreal y 2 es la variabilidad poblacional en la cual se esta-
blece lo siguiente:
n N
1 1
S2 = (yi yb)2 est.insegado 2 = (yi )2
P P
n1 N 1
i=1 i=1
n
El termino (1 N ) se conoce comofactor de correccion por poblacion finita. Si la poblacion
es muy grande este sera aproximadamente 1.
En este diseno consideramos la poblacion N y una muestra de tamano n, de modo que cada
subconjunto de unidades en la seleccion puede repetirse (independientes entre s), de esta manera la
probabilidad de seleccionar una muestra S es N1 .
67
De esto se obtienen los estimadores (insesgados) para y con sus respectivas varianzas que
se ven en el siguiente cuadro:
Parametro Estimador Muestreal Varianza S2
n n
1 S2
y masc/r = n1 1
(yi yb)2
P P
yi (1 N) n n1
i=1 i=1
n n
1 S2
N ( n1 N 2 (1 1
(yi yb)2
P P
bmasc/r = yi ) N) n n1
i=1 i=1
3.3.1.2.1. Observaciones
Al igual que en m.a.s.(s/r), S 2 estima insesgadamente a 2 .
Se puede observar que en la varianza de los estimadores no aparece el factor de correcion por
poblacion finita (este factor ayuda porque hace mas pequena la varianza).
Siempre sera preferible el m.a.s. s/r, pero este es mucho mas difcil de llevar a la practica para
algunas poblaciones.
3.3.2. Proporciones
Los intervalos de confianza se crean para indicar la exactitud del parametro en estudio que
puede ser o en base a los estimadores y o b respectivamente. De esta manera se entiende que un
intervalo de confianza (IC) de un nivel de (1 ) significa que si se extrajeran todas las muestras
posibles de igual tamano de la poblacion y se crean con cada una de ellas intervalos de confianza,
entonces se espera que el 100(1 ) % de ellos contendra el verdadero valor del parametro.
El intervalo queda expresado en el siguiente cuadro:
h i
IC((1 )100 %; x
b) = xb C1 2 Q
b x
b = [y mas ; mas rc ; pb] b = [S; S 2 ]
Q pb
Donde (
t1 2 si 15 n < 50
C=
z1 2 si n 50
68
(esto se ve por teorema del limite central).
Se desea determinar el tamano de la muestra para esto se requiere fijar una precision y un nivel
de significancia . Este nivel de precision es determinado por el investigador, pero se debe considerar
que una muestra pequena tendra mayor error de precision entre el estimador y el parametro que una
muestra mas grande, dado que se acerca mas a la poblacion.
El error absoluto d es aquel error que se mide en la misma unidad que el parametro a estimar,
y el error relativo r es aquel error que se expresa en porcentaje. Las ecuaciones respectivas son:
Error absoluto: P (| | d) = 1
| |
Error relativo: P( > r) = 1
Se consideran:
N numero total de unidades en la poblacion
Nk numero de unidades de la subpoblacion
Yik el valor de la variable de interes en la unidad ide la subpoblacion k
3.3.4.2.1. Observacion
Los estimadores del parametro y las estimaciones de la varianza son insesgadas.
69
3.3.5. Muestreo con distinta probabilidad de seleccion
Estos estimadores estan en base a ser proporcionales a su tamano, de esta manera se entiende
lo siguiente:
Casosf avorables
Pi =
Casostotales
Supongamos que se tiene una poblacion de tamano N donde se ha definido que cada unidad
tiene probabilidad i de pertenecer a la muestra. De esta manera los estimadores seran:
Parametro Estimador Varianza
n P P ij i j yi yj
1 1 P yi P 1i 2
HT d
HT = N ( n i ) y
2 i
+ ( i j ) ij )
i=1 i=L i=L j=L
n
P yi 1 P 1i 2 P P ij i j yi yj
HT d
HT = i N2
( y
2 i
+ ( i j ) ij )
i=1 i=L i=L j=L
Con i 6= j
Donde L = numero de observaciones distintas en la muestra
j = 1 (1 Pi )2
ij = i + j (1 (1 Pi Pj )L )
70
3.3.6. Estimadores para muestreo usando informacion Auxiliar
Para realizar esta estimacion se debe tener una variable x (variable auxiliar o subsidiaria)
relacionada de forma lineal con una variable y (variable de interes) siendo de la forma y = x. Se
realizan estimaciones por razon cuando se quiere medir una caracterstica de la muestra en la cual se
puede establecer 2 comparaciones entre s (ejemplo: razon entre activos y pasivos). El objetivo de este
estimador es obtener una mayor precision tomando ventaja de la correlacion entre x e y.
3.3.6.1.1. Observacion
N
1 P
Sz2 = n1 (yi xy xi )2 est.insesgado 2 = 1
(yi xy xi )2
P
N 1
ieS i=1
Al igual que el estimador de razon se debe tener una variable x (auxiliar) y una variable y (in-
teres), pero la relacion lineal entre estas no necesariamente pasa por el origen (puede tener intercepto)
siendo de la forma y = + x, lo que implica los siguientes estimadores:
3.3.6.2.1. Observacion
N
1 P 1
Sw2 = n2 (yi b axi )2 est.insesgadoSw2 = (yi b axi )2
P
N 2
ieS i=1
71
3.3.6.3. Observacion General
Por lo general bajo m.a.s. las estimaciones de sus parametros son insesgadas, no as con el
estimador de razon y regresion, los cuales son sesgados, pero cuando el tamano de la muestra crece se
hacen casi insesgados. De esta manera al parametro se calcula el error cuadratico medio (ECM\ ) en
vez de la varianza.
3.3.7.1. Observacion
En general se desea determinar con precision el valor de est , sin embargo algunas veces el valor
de j es de interes tambien, en ese caso se debe controlar las varianzas de j para luego determinar
las varianzas de est . Ahora bien si solo nos concentramos en est se presentan tres situaciones posibles:
Se conoce el numero de grupos (L) pero se desconocen Mj s y las Sj s. Entonces lo que se puede
72
hacer es lo siguiente:
n
nj =
L
nMj
nj =
N
nMj Sj
nj = P
Mk S k
keL
3.3.7.3.1. Observaciones
Si Mj = N y Sk = S
cj entonces:
nN S
cj nN S
cj n
nj = P = =
NScj LN S
cj L
keL
Si Sk = S
cj
nMj S
cj nMj S
cj nMj
nj = P = P =
Mk S
cj Mk N
keL keL
73
manera:
Mj Sj
Cj
nj = (CostoM aximo C0 ) P
Mk Sk Ck
keL
Todos los grupos tienen interseccion vaca (no puede haber unidades que pertenezcan a dos
grupos).
Todas las unidades pertenecen a un grupo.
Suponemos entonces que se tienen Mgrupos.
yij = valor de la variable de interes i que pertenece al grupo o estrato j.
Mj = Numero de unidades de interes que contiene al conglomerado j.
S= Muestra de grupos.
M = Numero total de los grupos.
En el muestreo por conglomerados se escogen grupos o conglomerados y estos se examinan (se
mide su variable de interes de todas sus unidades).
Ejemplo: se desea calcular el rendimiento promedio de los ninos de 4to basico, entonces decimos
que los ninos se agrupan en colegios, de estos colegios escogemos un grupo y a todos los ninos de 4to
basico de ese colegio se les evaluara su rendimiento.
74
3.3.8.1. Observacion
Cuando se tiene solo un conglomerado (m = 1) se utiliza este muestreo en sustituto del mues-
treo por conglomerados y m.a.s., donde las unidades de observacion se eligen de manera secuencial.
1 2 3 4 5 6 7
muestra 1 2 6
muestra 2 4
muestra 3 3 5 7
Luego para solucionar la problematica propuesta anteriormente tenemos dos opciones:
Ordenamiento arbitrario: Si el ordenamiento es arbitrario (No existe un orden natural) enton-
ces se puede considerar que los datos provienen del m.a.s, luego se usa S2 habitual en la varianza
del y cong .
Particion del conglomerado: Considerar el conjunto como proveniente de dos conglomerados de
la mitad del tamano.
Casosf avorables
Con Pi = Casostotales se definen los siguientes estimadores:
Parametro Estimador P Varianza
ieS i
P i
congHH y congHH = N1 ( m
1
Pi )
1
(1 1
N 2 m m1
( Pi bcongHH )2 )
1
P
i 1 1 PieSi
congHH bcongHH = m
ieS
Pi m m1 ( Pi bcongHH )2
ieS
75
3.3.8.3.2. Estimador Horvitz-Thompson(cong-HT)
j = 1 (1 Pi )2
ij = i + j (1 (1 Pi Pj )L )
Parametro Estimador Varianza
P P ij i j i j
y congHT = N1 ( ii ) 1 P 1i 2
P
congHT N2
( +
i2 i
( i j ) ij ))
ieL ieL ieL jeL
P i P 1i 2 P P ij i j i j
congHT bcongHT = i i2 i
+ ( i j ) ij )
ieL ieL ieL jeL
Si se considera que no es posible medir todas las unidades dentro de los conglomerados esco-
gidos se hace una seleccion de unidades donde se medira la variable de interes, de esta forma se tienes
lo siguiente:
76
Siendo los siguientes estimadores:
Parametro Estimador Varianza
M
Mj (Mj mj ) 2 M (M m) 2
= N1 ( M 1 M
P P
be y be m j ) (
N2 m m Sj + m Sc )
ieup j=1
M
M P M P Mj (Mj mj ) 2 M (M m) 2
be bbe = m j m m Sj + m Sc
ieup j=1
M
Pj mj
Mj P P
Con: mj Yij ; N = Mj ; y =
i=1 jeS i=1
m mj
1 1
Sc2 = (j bbe )2 ; Sj2 = (yij y)2
P P
m1 mj 1
i=1 j=1
3.3.9.1.1. Observacion
Los estimadores son insesgados.
Muestrear mj unidades secundarias dentro de cada una de las m unidades primarias tiene un
costo asociado, es por esto que determinar los mj y m optimos se deben definir los siguientes conceptos:
C0 = Costo fijo.
C1 = Costo de seleccionar una unidad primaria.
C2 = Costo de seleccionar una unidad secundaria.
Quedando el costo y tamanos optimos expresados de la siguiente manera:
M P
M M
(yij y j )2 ; SCB = (y j y)2
P P
Donde: SCW =
j=1 i=1 j=1
En el muestreo doble abarca la misma idea al igual que los estimadores de razon: existe y
variable de interes y x variable auxiliar. En este caso se escoge una muestra de la poblacion S donde
se estudia la variable auxiliar x con el objetivo de estimar el parametro deseado. Posteriormente se
0
sub-muestrea S y se determina en esta (S ) los valores de la variable de interes y, tal que:
1 P 1 P
yS0 = n yi ; x S 0 = n xi
ieS ieS
77
Entonces los estimadores quedan como:
y S0
1 1
Donde: SS20 = f2 = xi )2
P P
n0 1 (yi y S0 ) ; S n0 1 (yi xS0
ieS0 ieS0
Bajo este tipo de muestreo, cuando el resultado del estudio de la primera muestra no es deci-
sivo, una segunda muestra es extrada de la misma poblacion (grupos homogeneos de cualquier tipo).
Las dos muestras son combinadas para analizar los resultados.
Este metodo permite a una persona principiar con una muestra relativamente pequena para
ahorrar costos y tiempo. Si la primera muestra arroja un resultado definitivo, la segunda muestra
puede no necesitarse. Por ejemplo, al probar la calidad de un lote de productos manufacturados, si la
primera muestra arroja una calidad muy alta, el lote es aceptado; si arroja una calidad muy pobre,
el lote es rechazado. Solamente si la primera muestra arroja una calidad intermedia, sera requerida la
segunda muestra.
Es muy importante mencionar que no es conveniente extender el numero de etapas, puesto que
los estimadores pierden eficiencia.
3.3.10.2. Bootstrap
Describiremos la tecnica del Bootstrap para una muestra aleatoria simple con reemplazo. Su-
ponga que S es una m.a.s. de tamano n, al extraer la muestra esperamos que reproduzca las propiedades
de la poblacion completa. Entonces consideramos la muestra S como si fuese una poblacion y obtene-
mos nuevas muestras a partir de S. Si nuestra muestra es similar a nuestra poblacion entonces nuestras
nuevas muestras se comportaran de buena forma.
78
Ventajas:
Esta tecnica servira para los cuantiles, ademas es adecuada para determinar intervalos de con-
fianza en forma directa.
Desventajas:
Requiere de mas calculo que la tecnica del Jackknife o de replicas repetidas balanceadas.
El muestreo espacial tiene gran utilidad cuando la naturaleza de las unidades en estudio tie-
nen algun tipo de dependencia, ya sea fsica, etructural, de correlacion, etc. Los datos recopilados se
definiran como realizaciones de un proceso estocastico en el espacio disctreto o continuo, involucrando
mas de dos dimensiones.
El objetivo pincipal del analisis exploratorio es determinar y estudiar las relaciones de las
unidades muestreales. El objetivo secundario (operacional) es determinar si existen datos atpicos o
peculiares (que no satisfagan el comportamiento general).
79
En un primer enfoque se estudian los datos, tomando en cuenta su naturaleza relacionada,
pero suponiendo un modelo Gaussiano; luego se grafican los datos en un diagrama de dispersion, pro-
bablemente tridimensional (realizando cortes si existen mas dimensiones). Posteriormente se contruye
un grafico de Tallo-Hoja, considerando que este no dara cuenta de la naturaleza espacial de los datos.
A continuacon se calculan medidas de posicion (media, mediana).
Se desea que los datos formen una nube, para poder realizar una prediccion, la curva consiste
en calcular un Z(St ), para St no observado. Se asume que Z(St ) es un proceso estocastico estacionario,
en el sentido que puede ser determinado a partir de datos ya recolectados.
Notas: Modelo Subyace a suponer: Distribucion Gaussiana de los datos, es decir:
Z(s1 )
.
.
Z(sN )
El grafico Box-Plot estudia tendencias globales y destaca valores atpicos y el Pocket-Plot busca
identificar areas que se considerar atpicas con sus congeneres.
Teniendo en consideracion que los datos {Z(s), sD} provienen de un proceso estocasticos con
D <d con volumen no nulo.
supuestos: Para poder inferir a partir del proceso estocastico Z(s), se debe suponer que:
- E[Z(s + h) Z(s)] = 0
- Cov[Z(s1 ), Z(s2 )] = C(s1 s2 ) (que corresponde al Covariograma o funcion de Covarian-
za)
Luego, se establece que un proceso estocatico {Z(s), sD} sera:
80
Estacionario de segundo orden si se cumplen los dos supuestos anteriores.
Estacionario Estricto si:
Fz1 s1 ,..,zn sn (z1 , ..., zn ) = Fz1 sh ,..,zn shn (z1 , ..., zn ), n > 1, h D, D <d
1
Si las propiedades probabilsticas de T k {Z(s); s = 1, ...} son iguales {Z(s), sD} es un proceso
estacionario estricto, k > 0, kZ.
Sea P: medida de probabilidad asociada al proceso estocastico {Z(s), sD} estacionario, A con-
junto medible, donde:
s1
.
A = {Z(s)tal que S = . , Z(s1 ) z1 ...Z(sn ) zn
sp
La definicion P (A) = 0 o P (A) = 1 se traduce en que con todas las realizaciones del proceso
estocastico {Z(s), s = 1, ...}, cuando se translada sucesivamente, llena el espacio de trayectorias
posibles.
Teorema ergodico: Sea {Z(s), sD} proceso estocastico estacionario ergodico. Sea G funcipon
integrable Para cada realizacion {z1 , ..., zn { del proceso, salvo en un conjunto de medida nula:
n1 Z
1X
lm g(T 1 ({z1 ...zn ...})) gdp
n+ n
i=1
Este teorema es de suma importancia, puesto que si este se cumple el estudio es valido.
Posterior al Analisis exploratorio corresponde modelar las relaciones que se establezcan entre las
observaciones a traves del Variograma, el cual determina la relacion de dependencia que existe
81
en ciertas unidades. Para el proceso {Z(s), sD} y observaciones {Z(s1 ), ..., Z(sn )}, se propone
el siguiente modelo:
1. Z(s) = (s) w(s) (s) (s) ; sD
(s) E[Z(.)] :Variacion a gran escala.
w(s) :Proceso con media 0, intrinsicamente estacionario. Satisface las siguientes condi-
ciones:
u(s) = B0 + B1 X + B2 Y + B3 X 2 + B4 XY + B5 Y 2
Donde u(s):tendencia ; B1 X + B2 Y :componente lineal ; B3 X 2 + B4 XY +
B5 Y 2 :componente cuadratico.
0
u(s) B0 + B1 Cos(v1 X + w2 Y ) ; S (S, Y ) , suponiendo que el comportamiento
a gran escala presenta oscilacion.
Si se tiene un proceso estocastico {Z(s), sD}, V ar[Z(s1 ) Z(s2 )] 2(s1 , s2 ), s1 ,s2 D. La
funcion 2() corresponde al Variograma y () corresponde al Semi-variograma. Ambas se consideran
parametros del proceso estocastico.
82
Efecto Nugget
Z(shj ej Z(s)
Nota: Un proceso {Z(s), sD} es L2 diferenciable en S si hj > 0, { hj } converge en
L2 , j = 1, ..., d.
Definicion
Estimador Clasico: P
(h) = |N 1(h)|
Si 2b (Z(si ) Z(sj ))2 , h vector.
(s1 ,s2 )N (h)
83
1. Los datos estan espaciados irregularmente, se utiliza una version suavizada del estimador
clasico del Variograma:
0
2 (h, l) = P romedio{(Z(si ) Z(sj ))2 ; (si , sj )N (h); hT (h, l)}, en que T (h, l) es la razon
de tolerancia especificada en <4 . El promedio puede ser ponderado.
2. Si {Z(s), sD} es estacionario de segundo orden, entonces 2(h) = 2(C(0) C(h)) en que
1 P
C(h) Cov(Z(t + h), Z(t)), luego C(h) = |N (h)|
b (Z(si ) z)(Z(sj ) z)
(si ,sj )N (h)
n
1 P
N (h) = {(si , sj )/si sj = h} Z = n Z(si ), n=numero de datos.
i=1
Estimador Robusto del Variograma:
Se postula como estimador robusto del variograma a:
4
1 X 1 1
2(h) = |Z(si ) Z(sj )| 2 0,494 ,
|Nh | 0,457 + |N (h)|
(s ,s )N
i j h
h 1
i4 1
2(h) M ediana{[Z(si ) Z(sj )] 2 , (si .sj )N (h)} B(h) = 0,457 n +
B(h)
Ambos tienen un comportamiento similar, aun cuando existe una ventaja adicional al usar
|Z(sj ) Z(si )|2 en vez de (Z(si ) Z(sj ))2 debido a que el promedio de cantidades dependientes
es mas eficiente a medida que la dependencia aumenta.
Estimadores basados en los cuantiles:
Se propone:
1. IQ(h) = [U Q(Z(si ) Z(sj )) LQ(Z(si ) Z(sj ))]2 , donde:
UQ es el tercer cuantil de {(Z(si ) Z(sj )), (si , sj )N (h)}
LQ es el primer cuantil de {(Z(si ) Z(sj )), (si , sj )N (h)}
2. M (h) = mediana{(Z(si ) Z(sj )), (si , sj )N (h)}, en el cual es equivalente a 2(h)
Sesgos
b(h) es un estimador de (h) cuando {Z(s), sD} es un proceso estocastico estacionario
1.
intrnseco.
2. Si el proceso {Z(s), sD} es estacionario de segundo orden, E[C(h)]
b es sesgado, aunque n
(cantidad de datos) ; no obstante, es posible probar que la distribucion asintotica de
C(h)
b tiene media C(h).
Relacion Covariograma y Correlogramo: C(h) = Cov(Zt+h , Zt ) si esta bien definido se de-
nomina Covariograma o funcion de Covarianza. Si C(0) > 0 p(h) = C(h)
C(0) se denomina funcion
de autocovarianza o Correlogramo.
Distribuciones cuando n
pb(h) = C(h) v N (p(h), W
b
bC(0) n ). Puede probarse que 2b
(h) tiene distribucion gaussiana.
Contaminacion lineal
84
El proceso es estacionario de segundo orden {Z(s), sD} es tal que E(S(s)) = 0, V ar(S(s)) =
1, sD.
En la practica se tiene Z(s) = S(s)+(S (n1))
2 , error aleatorio. A partir de este, el estimador
2 n2
Cz (h) = Cs (h) + 12 se hace muy grande, a medida que n crece, por tanto, no es conveniente
b b
usarlo. Luego, es preferible utilizar el estimador 2b (h)
= 2s (h) + 2 h2 , frente a un problema de
contaminacion lineal.
Este estimador es asintoticamente la cuarta potencia de una variable gaussiana E[2(h)] 2(h).
Respecto a la robustez, se analiza el modelo Z(s) + u + w(s) + Er(s) con u <.
w(s): proceso estacionario intrnseco, de media 0, con variograma continuo en el origen.
Er(s): rudo blanco, independiente de w(s).
Tal que,
N (0, C) con probabilidad1
Er(s) = f (n) =
N (0, kC) con probabilidad
grado de contaminacion.
En las definiciones de los estimadores 2(h), 2b (h),2(h) debe considerarse la propiedad del
Variograma que lo define como una funcion negativa. Por tanto, la idea es encontrar un estimador de
Variograma valido, que este cerca de los datos que se dispone.
J
Dentro de {2(h, ); }, familia de variogramas, se buscara el representante mas cercano
a los datos.
P
Maxima Verosimilitud:PSuponiendo que Z = (Z(1), ..., Z(n)) v N (XB, ()), donde Z =
XB , con v N (0, ()) es el modelo propuesto.
85
El inconveniente de untilizar este tipo de estimador se refiere a la dependencia de bM V respecto
del modelo escogido; y el sesgo provocado por el tamano (pequeno) de la muestra.
Maxima Verosimilitud Restringida: A partir de la {Z(1), ..., Z(n)} se traba-
coleccion de datos
Z(1) Z(2)
.
jara con W que cuenta con n 1 datos, W = . Luego, se aplicara maxima
.
Z(n 1) Z(n)
verosimilitud sobre W,
P
Bajo el supuesto de que Z = (Z(1), ..., Z(n)) presenta E(Z) = u y V ar(Z) = () y no
necesariamente gaussiano. Donde:
1
P P P .
() = 1 1 +... + n n ; = .
n
Se desea estimar de forma que E[()]b sea mnima, donde b = W T F W , W = AT Z.
Nota: Este estimador presenta problemas en el momento en que se desea descomponer la varianza
de la forma que se plantea; esto se debe a la no independencia de los datos.
Mnimos Cuadrados: Este estimador esta libre de supuestos de distribucion y a diferencia de
los anteriores, considera las estimaciones de variograma previas. Se considera 2 (h), cualquiera
[2 (h) 2(h, )]2 . Por
P
de los estimadores de variograma vistos, para encontrar:M in J
NT hj
tanto, cualquiera de los estimadores: 2b
(h), 2(h) y 2(h) puede ajustarse a 2(h, ).
Mnimos Cuadrados Generalizados:
M in[2 (h) = 2[(h, 0)]T [2 (h) 2(h, 0)]]2 bM CG , estimador de mnimos cuadrados gene-
ralizado. Es aquel que minimiza [2 (h) 2(h, )T ]V 1 [2 (h) 2(h, )], con V = matriz de
var-cov de 2 (h).
Debido a las dificultades de calculo y al error que se pudiera cometer en determinar la matriz
V; se propone el siguiente estimador de .
Mnimos Cuadrados Ponderados: En este caso bM CP es aquel estimador de que minimiza
[2 (h) 2(h, )]T V 1 [2 (h) 2(h, )] en que Vb = Diag[V ar(2 (hi )), i = 1, ..., n p]; p 1
Nota: Se se tiene certeza de que los datos presentan distribucion gaussiana, es recomendable
utilizar bM V R , en otro caso, se recomienda bM CP .
86
Validacion cruzada del Variograma
A traves de la tecnica, que consiste en borrar, artificialmente algunos datos y usar los restantes
para predecir las observaciones borradas; se busca diagnosticar problemas de ajustar del estimador
del variograma que se este utilizando. Luego la cercana del predictor, Z b1 (s1 ), respecto de los valores
observados Z(s1 ); puede resumirse en:
n
1 P Z(si )Z bi (si )]
n [ \
i=1 (Zi (si ))
s
n
1
[ Z(si ) Zi (si ) 2
P b
n ]
bi (Z(si ))
b
i=1
La etapa principal del muestreo espacial corresponde a este punto, en donde se utilizan los
analisis efectuados con anterioridad para predecir la existencia de la caracterstica en estudio, ya sea
en valores puntuales o en promedio. Considerese un proceso {Z(s); s D <d } del que se disponen
las observaciones {Z(s1 )...Z(sn )} y se quiere determinar un funcional del proceso g({Z(s); s D}).
Se denomina Prediccion Espacial, a la prediccion de esta funcion a partir de {Z(s1 )...Z(sn )}.
Nota: Se define:
Estimacion: realizar inferencias acerca de parametros desconocidos pero fijos.
Prediccion: Inferencias de parametros con comportamiento aleatorio.
Se conoce como Kriging al metodo de Prediccion Espacial que se basa en la minimizacion del E.C.M.
que usualmente depende de las propiedades de segundo orden de {Z(s); s D}.
Se pretende encontrar un predictor que cumpla con ciertas caractersticas de optimalidad. Para
ello, se determina el costo asociado a usar ese predictor.
Escala de Variacion
Las suposiciones que a menudo se hacen acerca del proceso {Z(s); s D} muchas veces no son
verificables. Para efectuar suposiciones razonablesdebe ponerseatencion a la escala de fluctuacion
que el proceso parezca exhibir. La escala puede tener dos sentidos o significados:
87
1. Escala observacional de los Z(si ) : Los instrumentos utilizados para medir Z(si ) y Si tiene un
nivel de presicion dado.
2. Escala Espacial: Las observaciones estan tomadas con una cierta distancia.
Puesto que el termino Kriging tiene relacion con la determinacion deun buen predictor, segun
un criterio de optimalidad.
Predictor optimo
88
n
P
Pb(Z, B) = i Z(si )
i=1
Efectos de los parametros del variograma en Kriging
Si Z(s) es un proceso para el cual se puede definir su variograma, sabemos que 2(h) =
V ar[Z(s + h) Z(s)] si h 0 2(h) 0 (es continua en 0). En caso contrario, se produce efecto
Nugget.
Se llama Rango del Variograma al rezago h mas pequeno en que Z(s + h) y Z(s) no estan
correlacionados.
Se supone el modelo Z(s) = (s) + (s) + (s) + (s); (s), (s), (s), (s) independientes
entre s.
Si el efecto Nugget es grande (como porcentaje del umbral), implica que se debe tomar datos en
una vecindad grande de S0 , para hacer que P (Z, S0 ) sea estable y tenga varianza estimable razonable.
Nota: Aun cuando se puede pensar que datos a distancia mayor que el rango no afectan las
ecuaciones de Kriging, este hecho no es as, produciendose un efecto llamado pantalla, que es objeto
de investigacion. Por lo tanto, no se debe eliminar observaciones basandose en este criterio.
Como se sabe, las ecuaciones de Kriging vienen dados por el mejor predictor Z(s0 ) = 0 Z.
89
Cuando Z(s) no es estacionario, el variograma dependera de los terminos h y s, entonces, se usara (s0 , s1 )
a cambio de (s0 s1 ). Debido a este reemplazo, el estimador que se obtendra no se considerara optimo.
En ocasiones en que, por motivos fsicos, Z(s0 ) > 0 y existe la posibilidad de que Z(s0 ) sea
negativo; la solucion se restringe a ni=1 i = 1; i > 0, notando que Z(s0 ) cumpla esta restriccion
P
hara crecer la varianza.
Pn
Entonces, usando 2Y (s), obtener P (Z, B) = i=1 Bi Z(si ). Luego, se usa como prediccion:
0
Y (B) = ni=1 Bi Z a (si ). Donde,
P
0
Z a (si ) = mediana ponderada{Z(si )ij , i 6= j}
Existen otros metodos para encontrar modelos predictivos, tales como Kriging Universal y Kriging en
media polaca.
Dependiendo del objetivo final del estudio, existen dos tipos de disenos espaciales:
a) Disenos muestreales espaciales: que tienen por objeto determinar una funcion del proceso
{Z(s), s D}, con D, region de estudio.
En general, para poder obtener las observaciones, se debe disponer de un plan de muestreo, una
adecuada eleccion del estimador o predictor, y de una seleccion del criterio de optimalidad.
De las tecnicas de Muestreo, se puede obtener relaciones entre la presicion relativa del M.A.S.
estratificado, por conglomerados. En estudios geologicos se utiliza preferentemente el muestreo
sistematico y el muestreo estratificado, combinado con el M.A.S. dentro de los estratos. En
investigaciones donde la region en estudio D es finita y pequena, se utiliza el muestreo sistematico.
b) Disenos experimentales espaciales: que tienen por objeto determinar el efecto de algun tra-
tamiento que se aplicara a las observaciones de un proceso {Z(s), s D}.
Los factores principales en el diseno experimental pueden estar aleatorizados, bloqueados o re-
plicados, y se desea eliminar el efecto de dependencia espacial, asignando adecuadamente los
tratamientos a las ubicaciones. El objetivo de aleatorizar es neutralizar la correlacion espacial
y entregar un analisis valido de la varianza. El bloqueo tiene por objeto reducir la variacion
residual y se desea obtener estimadores mas precisos utilizando las replicas.
90
3.4. Tabla de Resumen
Tecnicas de Muestreo
91
3.5. Comentarios
En este captulo (tecnicas de muestreo) se explicaron diferentes tecnicas para obtener una
representatividad de un subconjunto de la poblacion para as estudiarlos y obtener resultados que,
a nivel estadstico, sean de maxima calidad, esta se relaciona de una manera eficaz con las temati-
cas expuestas anteriormente, ya que en el caso de Diseno y analisis de encuestasforma una parte
importante para ver hasta adonde abarcara el estudio, ya que todo lo que resulte sera relacionado
directamente con la poblacion de la cual se esta trabajando, tambien en el caso de estadstica no
parametrica, se relacionan en el caso de querer comprobar algun tipo de test, en el caso de ver que
tan azaroso es el procedimiento se puede realizar un test de rachas (ya que si es azarozo se tendra una
representatividad estadstica tanto en el procedimiento como en los resultados).
De acuerdo a las tematicas que se abordaran en los siguientes captulos, estas tecnicas forman
parte importante de como se compondran los diferentes pasos de ciertas estimaciones y de la obtencion
de la informacion.
Es por esto que utilizar las tecnicas de muestreo provechosamente es de vital importancia en
el estudio, ya que toda la base de esta determinara que tan eficaz pueden llegar a ser las conclusiones
y como se optimizaran los recursos economicos que se disponen.
Respecto al Manual del ano 2000, se reorganizo la estructura de este captulo, en muchas sec-
ciones no se profundizaba respecto a los temas a tratar como en los sesgos que se pueden incurrir,
se opto por una introduccion mas precisa, las tablas se organizaron para resumir de una forma mas
precisa las formulas y se acotaron caractersticas de estas. Tambien hubieron puntos que no se modi-
ficaron ya que estaban bien explicados y profundizados, como es el caso de Muestreo espacial y por
ultimo se agrego la explicacion de tecnicas de remuestreo y replicas.
92
Referencias
93
Captulo 4
Metodos Multivariantes
Las tecnicas multivariantes incluyen tanto metodos descriptivos que tienen por objetivo extraer
informacion de los datos disponibles, como metodos de inferencia que, a traves de la construccion de
modelos, pretenden obtener conclusiones sobre la poblacion.
Matriz de Datos: Esta formada por n observaciones, a las cuales se le han medido p variables,
las que forman en su conjunto una variable multivariante y cada una representa una variable
univariada. Su representacion matricial de dimension n p es la siguiente:
i = 1, , n(individuo)
X = xij
j = 1, , p(variable)
Vector de medias: Esta compuesto por las medias de cada una de las p variables. Por lo tanto
su dimension estara dada por p 1 y su representacion es la siguiente:
1 n
x= xi
n i=1
Matriz de Var-Cov: Como su nombre lo dice, esta contiene la relacion lineal entre dos variables, es
decir, la covarianza y ademas la varianza de cada variable, la cual sera la diagonal. Su dimension
sera p p (cuadrada y simatrica) y sera calculada segun:
1 n
S= (xi x)(xi x)
n i=1
94
Matriz de correlacion: Esta matriz se obtiene a traves de la matriz de var-cov y de la matriz D, la
cual es una matriz diagonal que contiene la varianza de cada una de sus variables, es importante
notar que esta matriz corresponde a la matriz de var-cov estandarizadas. Su dimension tambien
es de p p y su representacion es la siguiente:
1 si i = 1, , n 1 1
Ri j = R = D 2 SD 2
cov(xi , xj ) si j = 1, , p
Medidas de variabilidad global
Varianza Total: Consiste en la suma de las varianzas, es decir, tr(S)
Varianza Promedio: Es el promedio de las varianzas de las variables, es decir, p1 tr(S)
Varianza Generalizada: Es una medida basada en la cantidad de variables. Se considera el area
si p = 2 , se considera volumen en caso de p = 3, y un hipervolumen si p 3, ocupada por el
conjunto de dato. Su forma de calculo esta dada por el determinante de S , tal que V G =| S | .
Datos cuantitativos.
Analisis de Componentes Principales
Analisis Factorial
Analisis de Cluster
Datos cualitativos.
Analisis de correspondencia
Analisis de Cluster
Modelos Log-lineales
95
4.2. Tecnicas multivariadas
As como en el caso univariado cuando se desea comparar dos poblaciones se requieren ciertas
caractersticas para hacer posible el estudio, como lo es la variabilidad de las poblaciones y su com-
portamiento medio cuando siguen un patron especificado. Cuando no se tenga un patron determinado
existen herramientas complementarias como lo son la mediana y el ranking. Estos casos se ven en mas
detalle en los metodos no parametricos.
96
4.3.2. Distribucion Wishart
Propiedades
E(W ) = n
W1 W2
AMpp = AW A W ishat(n, A1 (A1 ) )
1
si S = x P x = Sn W ishart(n 1, )
n1
Cuando se desean comparar dos poblaciones, con la particularidad de que ellas siguen una dis-
tribucion normal multivariada y ademas presentan matrices de varianzas-covarianzas en comun1 =
2 . Para que esto sea posible se establece el siguiente contraste en el estudio(Vease Referencias [1],pagi-
nas 76-77).
H0 : 1 = 2 v/s H1 : 1 6= 2
Considerando la hipotesis nula y utilizando la estadstica de distancia del T 2 Hotelling, se puede
establecer 1
2 t 1 1
T = (x1 x2 ) + Sc (x1 x2 ) > C 2
n1 n2
2 n1 + n2 2
C =p F1 (p, n1 + n2 p 1)
n1 + n2 p 1
97
Donde: p: Es el numero de variables.
ni : Tamano de la poblacion i con i = 1, 2.
Si : La matriz de varianzas covarianzas de la poblacion i con i = 1, 2.
H0 := i = = k vs H1 : i 6= j para algun i 6= j
1 i 2p2 + 3p 1
C 1 = 1 (ki=1 k )
ni 1 i=1 (ni k) 6(p + 1)(k 1)
H0 : = 0 v/s H1 : 6= 0
98
Ademas, bajo H0 el estadstico y su distribucion estara dada por:
2
Tobs n(x 0 ) S 1 (x 0 ) Tn
2
1
p
2 > (n 1)p
Luego, existe evidencia de rechazar H0 si Tobs F1 (p, (n p))
np
Este contraste se obtiene asumiendo el supuesto de normalidad.
Si se desconoce 0 se puede obtener una estimacion, como un vector de medias de referencia,
a traves del calculo de la region de confianza (elipsoide), asumiendo conocido, tal que:
n(x ) 1 (x ) 21 (p)
H0 : = 0 v/s H1 : 0
H0 : 1 = = k vs H1 : i 6= j para algun i 6= j
ki=1 (ni k) 1
( )( ) > F1 (k 1, ki=1 ni k)
k1
Donde:
|W |
=
|W +B |
99
W = ki=1 nj=1
i
(xij xi )t (xij xi )
Este contraste determina si existe una estructura de relacion o no entre las variables de una
poblacion, por medio de la matriz de correlacion R que indica las relaciones existentes entre cada par
de variables (ij ).
La hipotesis es de la forma:
H0 :| R |= 1 vs H1 :| R |6= 1
Junto con el supuesto de normalidad multivariada y bajo la hipotesis nula, se cumple que:
2p + 5
n1 ln | R | 2p(p1)/2
6
El analisis de componentes principales es una tecnica estadstica que nos permite reducir di-
mensionalidad, esto quiere decir que al tener una gran cantidad de datos con muchas variables (p)
involucradas podremos disminuir estas ultimas perdiendo la menor cantidad de informacion posible.
Este metodo utiliza tecnicas de ortogonalizacion, es decir, va a considerar una reduccion dependien-
do del numero de grupos formados por las variables que se encuentran correlacionadas entre s. La
idea es que el conjunto correlacionado de variables representen una idea o concepto que facilite su
interpretacion.
El proceso de encontrar las componentes principales, es analogo a descomponer la matriz de
valores y vectores propios, luego se puede mostrar que el espacio de dimensiones r < p que mejor
representa a los puntos viene definido por los vectores propios o componentes principales, asociados a
los r mayores valores propios, que seran las direcciones principales, de las matrices S (Var-Cov) o R
(Correlaciones)(Vease Referencias [1],paginas 214-227).
100
4.4.1. Calculo y seleccion de componentes
|S I| = 0
4.4.2. Propiedades
Las direcciones principales i S, representan las variabilidades asociadas a las variables, es decir,
var(yi ) = i , cuya propiedad principal es que conservan la variabilidad inicial, esto es:
101
4.4.3.1. Grafico de codos
Este consiste en hacer el grafico de i vs i(componentes principales), para luego buscar un codo
en el grafico, es decir, encontrar un punto a partir del cual los valores propios sean aproximadamente
iguales. El criterio sera quedarse con el numero de componentes que excluya los asociados a valores
pequenos y aproximadamente del mismo tamano.
Seleccionar componentes r < p hasta cubrir una proporcion determinada de varianza, como
por ejemplo mas del 60 u 80 % de variabilidad explicada.
Desechar aquellos componentes asociados a valores propios inferiores a una cota, que suele ser
la varianza media:
pi=1 i
p
4.4.4. Interpretacion
Factor global de tamano:Todos los signos de las variables en la componente son iguales.
Factor de forma:Los signos de las variables dentro de la componente son distintos.
Factores distintos:Eventualmente si cada componente posee distintas variables, entonces debe-
mos buscar un concepto que resuma a cada una de ellas.
Cada componente principal es una combinacion lineal, por lo que esta combinacion lineal
aplicada a una muestra (n), entregara puntajes, los cuales se pueden representar en un plano cartesiano.
La representacion habitual es tomar dos ejes ortogonales que representen los dos componentes
considerados, y situar cada punto sobre ese plano por sus coordenadas con relacion a estos ejes, que
son los valores de los dos componentes para esa observacion.
102
y1 = 11 f1 + 12 f2 + + 1p fp
y2 = 21 f1 + 22 f2 + + 2p fp
..
.
yp = p1 f1 + p2 f2 + + pp fp
Donde:
i jrepresenta el coeficiente de la combinacion lineal que muestra la relacion entre yi y fi .
fi es el factor o variable latente.
Entonces, a partir de estas combinaciones, los coeficientes denominados cargas, permiten inferir
si una variable i carga en un factor j. A partir de esto se espera una reduccion de la informacion
contenida en las p variables, y resumidas en r < p factores.
NOTA: Al igual que en componentes principales, se puede reducir la redundancia de informa-
cion, basandose en una matriz de dependencia representada por la matriz de correlaciones o la matriz
de varianzas-covarianzas.
Suponga que se dispone de una muestra aleatoria que proviene de una distribucion homogenea
con vector de medias y matriz de varianzas-covarianzas .
El modelo estara definido por:
y1 = 11 f1 + 12 f2 + + 1r fr + 1
y2 = 21 f1 + 22 f2 + + 2r fr + 2
..
.
yp = p1 f1 + p2 f2 + + pr fr + p
103
4.5.2. Estimacion de cargas y comunalidades
S = CDC
Donde C contiene los vectores propios normalizados y D contiene en su diagonal los valores
propios. A raz de esta descomposicion se proponen cuatro metodos en el proceso de estimacion de un
modelo factorial.
0,5
S r r = Cr DR
Obteniendose una estimacion de las cargas, usando las r primeras coordenadas de la descom-
posicion. Luego las varianzas especficas se estiman a partir de:
= diag(S r r )
A partir de aca, notemos que la suma de los elementos columna de la matriz r , entregara una
estimacion de las comunalidades, esto es:
rj=1 2ij j
=
tr(SoR) tr(SoR)
h i
El ajuste de este modelo se basa en obtener = S + , se obtendran cotas a partir
de:
104
iniciales para . Estimaremos las comunalidades a partir de:
1 1
h2i0 = Si2 o h2i0 = Si2
sii rii
j j
o
tr(S ) tr(R )
Este es una modificacion al metodo de factor principal, considerando que este puede iterarse
para mejorar las estimaciones de las comunalidades. Despues de obtener a partir de S o R
, usando comunalidades iniciales, se pueden obtener nuevas estimaciones a partir de:
h2i1 = rj=1 2ij
4.5.3. Rotaciones
La idea de efectuar la rotacion de ejes es poder tener una mejor interpretacion de los factores
en otro escenario de referencia, de modo que los ejes queden tan cerca de los puntos como sea posible.
Si hay un conjunto por donde pase el eje, entonces este conjunto estara mas asociado a dicho factor
(eje).
Dentro de las rotaciones ortogonales, la mas usada y conocida es la denominada Varimax. Esta
tecnica busca aquellas cargas que maximizan el cuadrado de cada columna de , donde
105
cos sen
= T y T = ,
sen cos
Esta tecnica asegurara ademas que cada factor disponga de un pequeno numero de variables con
cargas altas y un gran numero de variables con cargas nulas. Esto implica que el nivel de importancia
de las variables en los factores es mas evidente.
La mas conocida entre este tipo de rotaciones es la denominada Promax, la ventaja de este
tipo de rotaciones es que se relaja la ortogonalidad impuesta y hace que los nuevos factores tomen
libremente posiciones en el espacio factorial, pero el grado de correlacion entre los factores se mantiene
pequeno, pues se espera que dos factores altamente correlacionados expliquen la misma dimension. La
estimacion de estos factores consta de dos pasos:
Obtener la rotacion Varimax para asegurar que se esta trabajando en espacios bipolares.
Aplicar mnimos cuadrados entre la solucion Varimax y la matriz original.
Se estudiara con mayor profundidad en las aplicaciones del captulo.
L = i=1 pi Xi
= b = S 1 (X1 X 2 )
t1 + t2
Donde es el criterio de corte, l1 + l2 = bt (X 1 + X 2 )
2
cual un individuo x0 en la primera poblacion si l > 0. Si no se cumpliese la condicion planteada
el individuo sera clasificado en la segunda poblacion.
Siendo c(i/j) el costo de clasificar en la i-esima poblacion a un sujeto de la j-esima poblacion
se puede establecer:
106
c(1/2)
ln
c(2/1)
| S1 | 1 t 1
Donde K = 1
ln( + )(x S x1 xt2 S21 x2 ) En otro caso el individuo es clasificado en la
2 | S1 | 2 1 1
otra poblacion.
En el caso que se desconozca la distribucion parametrica de las poblaciones, pero se cumple el
supuesto de igualdad de varianzas, se puede aplicar la regla de discriminacion de Fisher, determinada
por:
(n1 1)S1 + (n2 1)S2
y = (x1 x2 )t Sc1 x0 y donde Sc =
n1 + n2 2
Se clasificara utilizando el criterio de corte.
Los modelos de Analisis de Varianza Multivariante (MANOVA) son una generalizacion directa
de los univariantes (ANOVA), es decir, que la variable de respuesta que se estudia es un vector para
cada observacion .
Al igual que en el caso univariante este tipos de analisis requiere de los siguientes supuestos:
Las variables de respuesta son continuas.
Presencia de homocedasticidad en el modelo.
Independencia de los individuos.
Las poblaciones siguen una distribucion multivariada con media cero.
Siendo el objetivo principal determinar si existen diferencias significativas entre los efectos de los
tratamientos.
107
La tabla MANOVA con un factor y su hipotesis respectiva son:
H0 : 1 = = k v/s H1 : 1 6= j para algun i 6= j
La tabla ANOVA asociada es:
Fuente g.l Suma de Cuadrados criterio de WILKS
|W |
kj=1 ni (xi x)(xi x) = B =
Tratamiento k1
|W +B |
nj
kj=1 ni k kj=1 i=1 (xij xi )(xij xi ) = W
Error
nj
kj=1 ni 1 kj=1 i=1 (xij x)(xij x) = B+W
Total
Esta docima corresponde originalmente a la docima de Fisher para el caso univariado. Por lo
tanto se rechaza la hipotesis nula con un nivel de significancia si:
|W |
> 1 (p, k 1, kj=1 nj k)
|W +B |
Se mantienen el mismo supuesto de los casos anteriores (la normalidad de los errores) y las
mismas restricciones (la suma sobre el ndice que corresponda de los efectos debe ser 0). Los parametros
del modelo son estimados nuevamente por el metodo de mnimos cuadrados para minimizar as las
perturbaciones. Las hipotesis tambien son analogas a los casos anteriores.
Para este caso yijk es la k-esima observacion del tratamiento ij . este modelo se diferencia del
anterior por tener un efecto de interaccion ij en la fuente de variacion(Vease Referencias [1],paginas
350-353). La tabla MANOVA asociada sera:
108
Fuente grados de suma de Criterio de WILKS
libertad cuadrados
|W |
Factor A a1 A = bnai=1 (yi y)(yi y) 1 =
|W +A|
|W |
Factor B b1 B = bnai=1 (yj y)(yj y) 2 =
|W +B |
|W |
Factor A B (b 1)(a 1) I = bj=1 ai=1 (yij yi. y.j + y)(yij yi. y.j + y) 3 =
|W +I |
El analisis de correlacion canonica es una tecnica que facilita el estudio de las interrelaciones
entre multiples variables (dependientes) o bien multiples variables predictoras (independientes), es
decir, mientras que la regresion multiple predice una unica variable dependiente a partir de un conjun-
to de multiples variables independientes, la correlacion canonica predice simultaneamente multiples
variables dependientes a partir de multiples variables independientes(Vease Referencias [7],paginas
361-379). El analisis en si no requiere ningun supuesto, lo que si se recomienda que por lo menos una
de las poblaciones distribuya normal multivariada para que los estimadores de maxima verosimilitud
tengan mejores propiedades estadsticas. Cuando una base de datos particionada en dos grupos donde
el primer conjunto de variables correspondera a X y el segundo Y en donde se deben asumir :
E(X) = 1 E(Y ) = 2 Cov(X) = 11 Cov(Y ) = 22
Cov(X, Y ) = 12 = 21
Las combinaciones lineales que se proponen para cada una de las poblaciones seran:
U = a X V = b Y De lo cual se puede establecer:
V ar(U ) = a 11 a V ar(V ) = b 22 b
Cov(U, V ) = a 21 b
Luego para encontrar las combinaciones lineales que maximicen las correlaciones entre U y V
se establece que:
!
Cov(U, V )
max((U, V )) = max p p =
V ar(U ) V ar(V )
Las combinaciones lineales de las originales con a y b correspondientes al maximo, se denominan
primeras variables canonicas; son las combinaciones lineales de variables en X y en Y con maxima
correlacion muestral.
109
Los vectores propios asociadas a las matrices formadas para a 1 1
11 12 22 21
para b 1 1
22 21 11 12 En resumen toda la informacion contenida en las distintas variables por
separado, esta resumida en ambas combinaciones lineales.
Cuando se quiere medir a una cantidad de individuos o unidades muestrales con dos carac-
tersticas cualitativas, de tal manera que la primera caracterstica puede asumir A valores y la segunda
caracterstica puede asumir B valores, de tal manera que una unidad eventualmente puede tomar el
par de valores dentro del conjunto A B. Para fijar ideas consideremos una tradicional tabla de contin-
gencia. Teniendose la informacion de las matrices binarias Xnp tanto para los niveles de A como de
B, se establece la tabla de contingencia de la forma:
Xat XB
en donde el resultado representa todos los individuos que tengan un determinado par de ca-
ractersticas.
Se aplica a tablas de contingencias en las que por filas se tienen n individuos y por columnas
s variables categoricas con pi i = 1, , s categoras mutuamente excluyentes y exhaustivas.
La tabla de datos tiene, por lo tanto, la forma:
Z = [Z1 , Z2 , , Zs ]
Donde Z es una matriz binaria o una matriz formada por el cruzamiento de las variables. Entonces el
Analisis de Correspondencias Multiples se basa en realizar un Analisis de Correspondencias sobre la
llamada matriz de Burt: B = Z t Z Dicha matriz se construye por superposicion de cajas. En los bloques
diagonales aparecen matrices diagonales conteniendo las frecuencias marginales de cada una de las
variables analizadas. Fuera de la diagonal aparecen las tablas de frecuencias cruzadas correspondientes
a todas las combinaciones 2 a 2 de las variables analizadas. Se toman como dimensiones aquellas cuya
contribucion a la inercia supera 1/p.
110
general se orienta a casos en los cuales una variable representa tems o individuos y el resto son
variables cualitativas u ordinales que representan cualidades.
Para dar a cada fila o columna un peso proporcional se establecen las matrices
Df = diag(F1 , , FA ) Dc = diag(F1 , , FB )
Para las ecuaciones se definira como: R = Df1 F S = Dc1 F
Por lo cual R es un vector de valores propios y S es un vector propio
Se debe mencionar que el proceso de descomposicion puede ser realizado tanto para las filas
como las columnas debido a que es arbitraria la eleccion entregando los mismos resultados y para su
interpretacion se procede de manera similar al analisis de componentes principales.
Cuando este presente una poblacion multivariada (p > 2), se pueden realizar agrupaciones bajo
ciertas similitudes, es decir, el analisis de conglomerados es realizar agrupaciones bajo caractersticas
similares(Vease Referencias [7],paginas 451-503).
4.10.1. Complicaciones
4.10.3. Distancias
La distancia dij entre 2 puntos xi , xj , cuya dimension es p 1 , es una metrica que debe
cumplir:
d(xi , xj ); <+
d(xi , xj ) = d(xj , xi )
111
d(xi , xj ) d(xi , xk ) + d(xk , xj )
Se utiliza si se desease encontrar la similitud entre dos sujetos, de acuerdo a diversas variables
en comun se debe establecer la distancia entre ellas d(xi , xj ) = (pk=1 (xik xjk )2 )0,5
Esta distancia permite que las variables esten correlacionadas a diferencia que en la distancia
euclideana.
d2ij = (xi xj ) 1 (xi xj )
(x x )2 0,5
h i
Se utiliza si las varianzas influyen en las distancias dij = (pk=1 ik S 2 jk )
k
| (xik xjk ) |
Se utiliza cuando existen valores atpicos dij = pk=1
(xik + xjk )
Cuando mas cercano a uno sea el coeficiente de correlacion, mayor sera la similitud.
Coeficiente Pearson : Senala el nivel de semejanza entre dos individuos, cuando se este en pre-
sencia de variables cuantitativas.
s
(xik xjk )2
Dij = pk=1
Sk2
112
4.10.5. Metodos de Clasificacion
A diferencia del agrupamiento jerarquico, estos metodos flexibilizan la ubicacion de los indivi-
duos, puesto que pueden ser ubicados en distintos grupos a medida que itera algunos de los algoritmos.
El algoritmo mas usado para efectos de agrupacion es el denominado k-medias o Metodo de Particion.
Una vez que el algoritmo esta en ejecucion, los vectores asociados a las observaciones se asig-
naran a aquellos grupos que minimizan su distancia, y en cada iteracion se recalcularan los centroides.
Esto ultimo permite la comparacion de los vectores con los nuevos centroides, pudiendo ser movidos
de un grupo a otro. El proceso continuara hasta que se cumpla algun criterio de parada que ratifique
que los resultados alcanzan la congruencia.
Este metodo tiene mayor pertinencia, sobre todo cuando n (n > 100).
Este metodo consta en formar los grupos en pasos sucesivos y analizan en cada paso la distancia
entre los grupos formados. Dentro de este metodo se pueden distinguir otros metodos como son los
disociativos y aglomerativos.
1. Metodos Disociativos: Consiste en considerar a la poblacion como un conglomerado y gracias a
pasos sucesivos ir formando grupos hasta terminar en tantos grupos como individuos. De estos
metodos se destaca el de William y Lambert.
2. Metodos Aglomerativos: Practicamente sera el proceso inverso del metodo diciosativo, o sea, a
partir de los individuos y bajo un criterio especfico van agrupando o conglomerando hasta llegar
a un grupo que tome en consideracion a todos los individuos la estructura final sera similar a un
arbol llamado dendograma
Los criterios mas utilizados para conglomerar a los individuos son:
Metodo de Distancia Mnima o Vecino mas cercano (Single Linkage): La conglomeracion de los
individuos o grupos, se establece por medio de la matriz de similitud e ir conglomerando de
acuerdo a la mnima distancia paso a paso.
Metodo de Distancia Maxima o Vecino mas lejano (Complete Linkage): Es el mismo proceso que
en el metodo anterior con la diferencia de que se utiliza la maxima distancia entre los grupos.
113
Metodo de Distancias Ponderadas (Weighted Pairgroup): Consiste en ir agrupando los indivi-
duos de acuerdo a la distancia ponderada entre los grupos.
Metodo de Distancia entre Centroides (Average Linkage): En este metodo se realizan las agru-
paciones de acuerdo a los centroides mas cercanos. La distancia en este metodo se calcula de la
siguiente forma:
ni nj di,j
ni dk,i + nj dk,j
ni + nj
Di+j,k =
ni + nj
Donde la distancia entre el grupo formado por los individuos o grupos i + j, y el individuo o
grupo k, siendo ni el numero de individuos del grupo i y dk,i la similaridad entre k e i.
Metodo de Ward (Ward Linkage): Consiste en minimizar la suma de cuadrados dentro de cada
conglomerado.
Al realizar comparaciones entre los metodos resulta ser mas efectivos el de los Centroides y el
de Ward. Pero si las poblaciones de conglomerados son bien separadas no existen diferencias funda-
mentales entre los metodos. Si no fuese as el metodo de Ward conduce a los mejores resultados.
La variable respuesta debe ser categorica y las variables explicativas de preferencia tambien
deben ser categoricas, en caso contrario deberan ser transformadas a variables categoricas .
Debe existir un numero importante de observaciones con el fin de dar validez a la docima de
Chi-Cuadrado, si no fuese as se utilizara otro criterio (Fisher).
el algoritmo puede utilizarse tambien con variables dependiente cuantitativa en tal caso, en lugar
de utilizar el estadstico Chi-Cuadrado se tendra que utilizar la razon entre la media cuadratica
externa y la interna (estadstico F) con su correspondiente grado de significacion correspondiente
a la distribucion de F de Snedecor.
1. Preparacion de las variables. Tarea del analista, que debe seleccionar una variable dependiente
que sea de interes para el analisis y elegir un conjunto de posibles pronosticadores relevantes
114
(variables nominales, ordinales con pocas categoras, preferiblemente menos de diez, o incluso va-
riables cuantitativas convertidas en discretas) que permitan realizar una descripcion y pronostico
optimo de la primera variable.
2. Agrupacion de las categoras de las variables independientes en el caso de que estas tengan un
perfil similar de la variable dependiente.
3. Primera segmentacion, que consiste en la seleccion de la variable que mejor prediga la variable
dependiente(utilizando tablas de contingencia).
4. Segunda segmentacion. Para cada segmento formado en el paso anterior, se busca entre las
variables cuyos valores han sido previamente agrupados de la misma forma que en el paso 2, la
que tenga mayor poder pronosticador.
5. Sucesivas segmentaciones. Se procede de forma similar al paso anterior en cada grupo formado
por la segmentacion previa.
Es importante mencionar que el analisis CHAID permite un mejor control del tipo I para
muestras grandes
El objetivo primordial que resuelve esta tecnica es el de modelar como influye en la probabilidad
de aparicion de un suceso, habitualmente dicotomico, la presencia o no de diversos factores y el valor
o nivel de los mismos. Tambien puede ser usada para estimar la probabilidad de aparicion de cada
una de las posibilidades de un suceso con mas de dos categoras (politomico). En estos casos no se
puede aplicar el modelo de Regresion Lineal Multiple por no cumplirse el supuesto de continuidad y
de distribucion normal de la variable respuesta
En este analisis de Regresion Logstica se construye una ecuacion de regresion para predecir
la condicion a partir de una combinacion lineal de variables. La ecuacion dara el riesgo de contraer la
condicion (o de pertenecer a un grupo) con una suma ponderada de los factores
z = Bo + B1 x1 + B2 x2 + + Bn xn
1
LA transformacion logstica esta asociada a: y =
1 + ez
NOTA: Este topico se observa con mayor profundidad en Modelos Lineales.
115
mas semejantes posible respecto de sus probables respuestas ante las variables de la mezcla de
marketing y sus dimensiones de segmentacion.
Heterogeneos entre s: Los consumidores de varios segmentos deben ser lo mas distintos posible
respecto a su respuesta probable ante las variables de la mezcla de marketing
Bastante grandes: Para poder garantizar la rentabilidad del segmento
Operacionales: Para identificar a los clientes y escoger las variables de la mezcla de marketing .
Se debe de incluir la dimension demografica para poder tomar decisiones referentes a la plaza y
la promocion.
En este tipo de estudios se utiliza generalmente el metodo de conglomerados, pero si se dispone
de informacion cuantitativa y el objetivo es caracterizar, detectar, discriminar o asociar, el analisis a
realizar es otro, ya sea analisis de discriminantes o analisis de correspondencia.
116
4.14. Tabla de Resumen
Tipo de Analisis Caractersticas y Objetivos
117
4.15. Comentarios
El estudio de los metodos mutivariados es importante para poder realizar inferencia acerca de
la naturaleza de poblaciones a las cuales se les han medido una gran cantidad de caractersticas o
variables.
En el proximo captulo se analizaran los modelos lineales los cuales pueden ser vistos como un
proceso multivariado, ya que se da explicacion a una variable dependiente a traves de un vector de
variables independientes.
Con respecto al manual estadstico del ano 2000, no se encontraron errores, por lo cual solo se
procedio a complementar los metodos de discriminantes, correspondencia , componentes principales. Se
anadio los puntos Inferencia sobre Vector de Media y Inferencia sobre Matriz de Varianza y Covarianza.
Por lo cual en general fue un proceso de reorganizacion de los temas, sintetizacion y complementacion.
118
Referencias
[1] Mardia Kent and Ibby. 1982.Multivariate analysis academic Press, inc 3ed
[2] Jhonson-Wochern. 1990.Applied Multivariate Statistical Analysis. 3ed
[3] Guerrero C. 2000.Modelos estadstico en Database Marketing.
[4] Grande Abascal. 1989. Metodos multivariantes para la investigacion comercial
[5] Donald F. Morrison. 2005.Multivariate Analysis. 3ed
[6] Pirie w. 1983.Encyclopedy of statistical sciences. Volumen IV. eds. S.Kotz and N. L.
[7] Alvin C. Rencher. 2003. Method of Multivariate Analysis second ed.
119
Captulo 5
Modelos Lineales
En este captulo se emprendera un estudio de procedimientos inferenciales que pueden ser usa-
dos cuando una variable aleatoria Y , llamada variable dependiente, tiene una media que es funcion
de una o mas variables no aleatorias x1 , x2 , ..., xn llamadas variables independientes. Estos procedi-
mientos son utilizados con el fin de encontrar una manera de predecir o pronosticar los valores de la
variable Y en funcion de las variables X. Muchos tipos de funciones matematicas pueden ser usadas
para modelar una respuesta que sea funcion de una o mas variables independientes. estas se pueden
clasificar en dos categorias: modelos determinsticos y probabilsticos. Los modelos determinsticos son
aquellos que no toman en cuenta ningun error para predecir o pronosticar Y como funcion de X. Un
modelo determinstico esta lejos de una descripcion adecuada de la realidad. Un modelo probabilstico
es un proceso inferencial donde es necesario evaluar la verosimilitud de observar errores de prediccion
de varias magnitudes. Este modelo toma en cuenta el comportamiento aleatorio de Y . Ejemplo de
modelos determinstico y probabilstico:
y = 0 + 1 x1 (modelo determinstico)
y = 0 + 1 x1 + (modelo probabilstico)
Donde es una variable aleatoria que representa al error y tiene una distribucion de probabili-
dad especfica con media 0. En este captulo se estudiara los modelos lineales desde una optica clasica,
se empezara analizando los modelos de regresion lineal, para luego pasar a estudiar los modelos de
regresion logstica y finalmente hablar de la regresion de Cox y la regresion Poisson.
La regresion lineal comprende el estudio del comportamiento de una variable cuantitativa (va-
riable dependiente), en terminos de una transformacion f lineal en los coeficientes de las variables
explicativas, mas una componente de error aleatorio que refleja lo que no se puede explicar a traves de
las variables explicativas. El objetivo que persigue la regresion lineal es el modelar y estimar el valor
real o promedio de la variable dependiente en terminos de valores conocidos o fijos de las variables
explicativas.
120
A este modelo se le denomina Modelo lineal. Siendo el vector de los coeficientes de las va-
riables explicativas sobre la variable dependiente Y (variable de interes). La variable aleatorio i es
el termino de error del modelo. Este error aleatorio posee varias propiedades que se explicaran mas
adelante.
Y = X +
Donde:
Y : Es un vector columna n 1 que contiene las observaciones de la variable dependiente.
X : Es una matriz n (p + 1) que muestra las n observaciones de las p-variables explicativas desde X1
a Xp , con la primera columna de unos para representar el termino de interseccion. : Es un vector
columna (p + 1) 1 compuesto por los parametros desconocidos 0 , 1 , ..., p .
: Es un vector columna n 1 de las componentes del error.
E[i ] = 0
V ar[i ] = 2
Cov[i , j ] = 0
Corr[xi , xj ] = 0
El vector tiene una distribucion normal n-variada es decir Nn (0, 2 In ). De este supuesto se
puede desprender que los errores deben tener media 0, igual varianza y ademas son no correlacionados,
es decir la matriz de varianzas covarianzas es 2 In .
Tambien se debe cumplir la no colinealidad entre variables independientes, llamadas tambien
variables regresoras; esto es, la correlacion entre dos variables independientes y distintas es baja o
nula.
El primer objetivo del analisis de Regresion Lineal es la estimacion de los parametros desco-
nocidos del modelo. Dada una muestra aleatoria y una vez estimados los coeficientes de la matriz ,
121
se puede calcular:
Yi = 0 + 1 x1i + ... + p xpi
e = Y Y = Y X
Este metodo es el mas usado por ser uno de los mas eficaces, ademas ofrece algunas propiedades
estadsticas muy atractivas. Para poder estudiar las propiedades del modelo con este metodo se deben
cumplir a cabalidad los supuestos analizados anteriormente.
o matricialmente
mn e0 e = mn(Y 0 Y 2 0 X 0 Y + 0 X 0 X )
De esta estimacion se puede apreciar que si existe multicolinealidad entre las variables expli-
cativas no se podra obtener la estimacion, debido a que no se podria definir la inversa de la matriz X 0 X.
Para poder lograr una mayor precision de las estimaciones, se requiere de un numero de ob-
servaciones notablemente superior al de las variables explicativas.
Una vez obtenidos los estimadores de mnimos cuadrados a partir de una muestra se pueden
identificar las siguientes propiedades:
El valor medio de los residuos es cero (e = 0).
Los residuos no estan correlacionados con el valor estimado Yi ni con las variables explicativas
X.
Es un estimador lineal.
Es insesgado E[] = .
Existe mnima varianza entre la clase de todos los estimadores lineales insesgados. Por lo tanto
es un estimacion eficiente.
122
La varianza estimada del estimador es
Es importante mencionar que si se cumplen los supuestos del modelo clasico de regresion lineal,
el estimador MICO sera el mejor estimador lineal insesgado.
Al igual que el metodo anterior, el metodo de maxima verosimilitud descansa sobre el supuesto
de que los errores se distribuyen normalmente. Bajo este supuesto, la distribucion de las observaciones
Y esta dada por:
Y N (X, 2 In )
Luego su funcion de maxima verosimilitud es
n n 1
L(Y |, 2 ) = (2) 2 | 2 In | 2 exp 2 (Y X)(Y X)0
2
Este estimador cumple con la facultad de estimar tanto como 2 . Ahora maximizando la
funcion de verosimilitud para obtener el estimador de , se obtiene que:
M V = (X 0 X)1 X 0 Y
Es por esta razon que al modelo se le aplicara una transformacion, la cual consiste en premul-
tiplicar el modelo original por una matriz Pnn
P Y = (P X) + P
Luego solo bastara con poder encontrar una matriz Pnn tal que V ar( ) sea igual a 2 In ,
puesto que la linealidad del modelo permite que los coeficientes del modelo transformado sean iguales
123
al original.
Al saber que la matriz Sigma es simetrica, definida positiva, y al tener una matriz V cuadrada,
no singular, donde = V V 0 o V 1 (V 1 )0 = In , por lo tanto 1 = (V 1 )0 V 1 , luego al decir que
P = V 1 se tendra que:
V ar( ) = 2 V 1 (V 1 )0 = 2 In
Luego se cumple la homocedasticidad y el estimador de los coeficientes sera
0 0
M CG = (X X )1 X Y
M CG = (X 0 (V 1 )0 V 1 X)1 X 0 (V 1 )0 V 1 Y
M CG = (X 0 1 X)1 X 0 1 Y
Este estimador es insesgado y de varianza mnima.
El metodo MCP es un caso especial de la tecnica MCG, ya que este metodo de estimacion
es usado principalmente cuando existe el problema
q de heterocedasticidad. Al definir wi = i2 , para
1
i = 1, ..., n y se puede tomar como pesos a wi y de esta forma podemos construir la matriz
r r r
21 1 1 1
W = diag , , ...,
w1 w2 wn
1
Procediendo como en el metodo MCG, al reemplazar P por W 2 se obtiene el siguiente modelo:
1 1 1
W 2 Y = W 2 X + W 2
Y = X +
No es raro que en los modelos de analisis de regresion se encuentren uno o mas casos inusuales,
es decir, observaciones que se apartan del resto de los datos. Lo que interesa es saber que ocurre con
los coeficientes cuando se agrega una observacion a la base de datos.
Los puntos que estan separados de la masa de datos sin justificacion de su validez son deno-
minados outliers y deben ser retirados de la base de datos.
124
Aquellos puntos que influencian el modelo, cambiandolo debido a la atraccion que ellos ejercen
en la base de datos se denominan influyentes. Para evaluar tal influencia, existen indicadores que
permiten cuantificar esta peculiaridad.
Sea Hnn = X(X 0 X)1 X 0 con i, j = 1, ..., n se denomina matriz hat ya que al operarla con Y
origina , esto es,
X n
hij yj
j=1
Por este medio, se puede construir indicadores que permitan advertir la presencia de observa-
ciones discordantes.
ri = S e1h
i
Residuos estandarizados.
ei
ti =
S(i) 1h
Residuos estudentizados, donde S(i) es S sin la i-esima observacion.
Se pueden considerar casos discordantes a aquellos que provocan un residuo estudentizado que
en valor absoluto es mayor o igual a 2 (|ti | 2).
Como se observa la eliminacion de las observaciones depende, hasta ahora, de los residuos y
de los elementos diagonales de la matriz H. Pero lo que necesitamos es una medida de influencia que
permita notar la sensibilidad de los coeficientes y que ocurre con los residuos si se toma o deja una
observacion.
125
5.1.3.1.2. Distacia de Cook
Un indicador de influencia es la Distancia de Cook que consiste en calcular una norma eucli-
diana al cuadrado ponderado de DFBETA. El indicador estara definido por:
Otro indicador de influencia es el llamado DFFITS, donde este indicador estara dado por:
r
hi
DF F IT S = ti
1 hi
Cuyo valor es llamado grande si se cumple que
r
p
|DF F IT S| 2
n
entonces si DFFITS es grande la observacion analizada es influyente.
Nos permite la estimacion de regiones de confianza para el valor real y el valor medio de Y,
pudiendo realizar docimas respecto de los mismos. Es importante que el valor medio de los errores sea
0, para que junto con este supuesto de normalidad se garantice la distribucion de los estimadores de
los parametros poblacionales.
126
5.1.4.1.1. Como detectar la no presencia de normalidad en los errores
Para detectar si las perturbaciones tienen una distribucion normal se pueden utilizar dos me-
dios, una metodo grafico y a traves de docimas de bondad de ajuste.
Los metodos graficos mas utilizados son los qq plots los que buscan graficar los residuos y
ajustarlos a una recta que contenga todos los puntos.
Dentro de las docimas de bondad de ajuste mas usado, ya funciona bien para muestras de
cualquier tamano es el test no parametrico de Kolmogorov-Smirnov, otro test muy usado para chequear
normalidad es el test de Shapiro-Wilks, este test es usado para muestras pequenas que no superen las
50 observaciones.
5.1.4.2. Multicolinealidad
Cuando tal relacion de dependencia ocurra entre las variables explicativas en forma exacta, no
existira (X 0 X)1 . Esto se debe principalmente a que al existir dependencia lineal entre columnas de
la matriz X 0 X, esta deja de ser de rango completo, por lo cual, no existe inversa de esta matriz.
Ante este tipo de asociacion significativa es altamente probable que los coeficientes del modelo
lineal no sean significativos rechazando dicho modelo, ademas se pueden obtener intervalos de confianza
muy grandes, y el error tipo II aumenta considerablemente.
127
regrasar Xi . el factor de incremento de varianza (VIF) estara definido por:
1
V IF (i) =
1 R2 (i)
Este supuesto es de gran relevancia y consiste en que los terminos de perturbacion i tienen la
misma varianza, o sea son homocedaticos.
128
Y . Puesto que cov(e, Y ) = 0 y por ende admitiendo normalidad, al menos no debe haber relacion
lineal entre e y los valores estimados de Y .
Docima de rangos de Spearman: Este contraste, se basa en la intuicion de que si la varianza
del termino de error, t2 depende directamente de los valores de la variable explicativa Xji
(variable explicativa j en el i-esimo instante), entonces el tamano de los residuos esta relacionado
con el tamano de dicha variable. As tras estimar el modelo a traves de MICO, se determinan
los rangos (asignar ranking en sentido creciente) tanto para el valor absoluto de los residuos ei
como para los valores absolutos de Xij y se calcula el coeficiente de correlacion de rango de
Spearman. en su forma habitual(Vease captulo 1). Con esto tendremos la estadistca T dada
por
n2
T = rs
1 rs
Admitiendo normalidad en los errores, T distribuye t-student con (n 2) grados de libertad.
Por lo tanto, si T > t1 (n 2), se dispone de informacion para no aceptar homocedasticidad.
Existen otras docimas diferentes de heterocedasticidad, cada una basada en diferentes supuestos,
tales como Glodfeld-Quandt, Breush-Pagan, White, etc.
129
5.1.4.4.2. Como Detectar la Autocorrelacion
Una de las maneras mas sencillas que se utiliza para la deteccion de autocorrelacion, es la uti-
lizacion de graficos, el cual se emplea con un punto de partida, y como primer procedimiento resulta
muy ilustrativo graficar ei versus ei1 (grafico de residuos). Si la mayoria de los puntos graficados se
encuentran en el primer o tercer cuadrante, existe indicio de autocrrelacion positiva, mientras que si
se encuentra en el segundo o cuarto cuadrante, es indicio de autocorrelacion negativa. Si la autoco-
rrelacion se pudiese aproximar a un modelo autorregresivo de primer orden este procediemiento seria
muy util.
Otra manera de ver si existe algun grado de autocorrelacion es mediante contrastes, graficar
los residuos obtenidos versus el instante i en que fueron obtenidos, luego si el grafico presenta esta-
cionalidad (un ciclo), alguna clara tendencia o una clara relacion, se puede decir que el modelo sufre
problemas de autocorrelacion.
La docima de rachas nos permite ver si existe aleatoriedad en los residuos, luego las rachas
pueden ser de gran ayuda en la deteccion de auto correlacion, ya que si acepta la aleatoriedad de los
residuos, se podra rechazar la autocorrelacion, ya que si se acepta la aleatoriedad de los residuos, se
podra rechazar la autocorrelacion entre ellos. En el caso de que existan pocas rachas sera indicio de
autocorrelacion positiva y si existen muchas sera muestra de que existe autocorrelacion negativa.
Docima de Durbin-Watson: El metodo analtico mas reconocido para detectar la presencia
de autocorrelacion es el estadstico d de Durbin-Watson, que posee la siguiente forma:
n
X
(ei ei1 )2
i=2
d= n
X
e2i
i=1
dL d du la prueba no es concluyente.
H0 : no existe autocorrelacion negativa.
Se tiene que si:
d > 4 dL no existe evidencia significativa, para apoyar la hipotesis nula.
4 du d 4 dL la prueba no es concluyente.
H0 : no existe autocorrelacion negativa o positiva.
130
Se tiene que si:
d < dL no existe evidencia significativa, para apoyar la hipotesis nula.
dL d du la prueba no es concluyente.
4 du d 4 dL la prueba no es concluyente.
Si todas las observaciones fueran a caer en la lnea de regresion de los datos, se tendria un ajuste
perfecto, pero raramente se presenta este caso. El coeficiente de determinacion R2 es una medida de
Resumen que nos dice que tan bien se ajusta la linea de regresion muestral a los datos.
X 0 Y nY 2
R2 =
Y 0 Y nY 2
El coeficiente de determinacion que proviene del ajuste de los grados de libertad asociados con
las sumas de los cuadrados se denota por:
(n 1)
R2 = 1 (1 R2 )
(n p)
Ademas se puede verificar directamente que
2
R2 = 1
Sr2
131
As R2 y R2 estan relacionados de tal forma que para p > 1, R2 < R2 , entonces a medida que
el numero de variables explicativas aumenta, el R2 aumenta, pero de forma mas lenta que el valor R2 .
Es decir, como medida de ajuste del modelo, no se incrementa tan facilmente por el simple hecho de
incorporar mas variables explicativas a un modelo.
Para docimar s el modelo es adecuado, se debe realizar una docima con respecto a la signifi-
cacion global de los coeficientes .
H0 : = 0 v/s H1 : 6= 0 para algun
Definiremos:
SCM
Modelo p1 SCM CM M = p1
CM M
Fobs = CM E
SCE
Error np SCE CM E = np
Total n1 SCT
CM M
El estadstico es Fobs = CM E F1alpha (p 1, n p)
Si la SCM es aroximadamente igual a SCT se puede concluir que a traves de este modelo se
esta explicando la variabilidad total de la variable, y por ende este es satisfactorio. Si la SCE son
132
mucho mayores que la SCM , entonces SCT esta siendo explicada por los errores, luego el modelo no
es adecuado.
Si Fobs > F1 (p 1, n p), se rechaza la hipotesis con una confianza de (1 ) %. En este
caso se dice que existe evidencia suficiente de que el modelo es adecuado.
Para conocer si el valor de uno de los coeficientes es significativo, se utiliza la siguiente prueba
de hipotesis:
H0 : j = 0 v/s H1 : j 6= 0, j = 0...p
En este caso la estadistica de prueba es
j
T = t1 (n p)
2 ajj
Donde ajj : es el elemento j-esimo de la diagonal principal de la matriz (X 0 X)1 .
Si T > t1 (n p), se dice que existe evidencia suficiente para rechazar la hipotesis nula. Si
esto ocurre la variable X es significativa en el modelo. Esta docima, se puede utilizar no solo para
medir significancia de un coeficiente, ademas para verificar si el parametro estimado es equivalente a
un valor asignado j = 0 .
SCM2
Modelo 1 (original) p1 SCM1 CM M = p1
SCM2
Modelo 2 (nuevo) m+p1 SCM2 CM M2 = m+p1
SCA
Debido a la adicion m SCA = SCM1 SCM2 CM A = m
SCE
Error n (p + m) SCE CM E = n(p+m)
Total n1 SCT
Donde m es el numero de regresores nuevos y (p + m) el numero de parametros del nuevo
modelo.
133
El estadstico Fobs F1 (m; n (p + m))
Si Fobs > F1 (m; n (p + m) existe evidencia para decir que la adicion de una o mas variables
explicativas incrementa significativamente la SCM , por lo tanto se debe(n) adicionar al modelo.
5.2.3. Estimacion
Una vez conocidos los valores observados de las variables explicativas en un periodo mayor a
n, se pueden realizar estimaciones en terminos de estas observaciones (habitualmente a esta accion se
le llama prediccion).
Yf = Xf + f
e(f ) = Yf Yf = f Xf (X 0 X)1 X 0
Mas aun se asume que Yf (0v , 2 I), donde las nuevas respuestas se comportan de igual
manera que las anteriores.
La regresion logstica se utiliza para estudiar el efecto de multiples variables explicativas sobre
una variable respuesta categorica ya sea dicotomica o con mas de dos categoras. Por lo tanto no es
valido usar el modelo clasico de regresion lineal ya que no se cumple los supuestos de continuidad y
normalidad de la variable dependiente.
Y |X = b0 + b1 X1 + ... + bk Xk
134
pero ahora,
E[Y |X] = 0 + 1 X1 + ... + k Xk = 0 X
siendo P (Y = 1|X) = p con p (0, 1).
Entonces si se propone
1
p = E[Y = 1|X] =
1 + exp( 0 X)
p
Se estara en presencia de un modelo de regresion logstica. Ya que 1p = exp( 0 X), donde la primera
p
parte de la igualdad se encuentra en el intervalo (0, +). Luego, como log( 1p ) (, +), se tiene
que
p
logit(p) = log( ) = 0 + 1 X1 + ... + k Xk = 0 X
1p
En resumen, la regresion logstica no es mas que el aplicar un modelo clasico de regresion lineal
p
al logaritmo de la razon 1p de la probabilidades a favor de Y = 1 que puede ser escrito de la siguiente
forma:
k
P (Y = 1|X = x) P (Y = 1|X = x) X
log = log = logit(p) = 0 + i Xi
1 P (Y = 1|X = x) P (Y = 0|X = x)
i=1
Si se supone que se esta interesado en saber cuantas veces mas es posible que un individuo
desarrolle cierta enfermedad estando en un grupo expuesto, comparado con un grupo no expuesto.
En otras palabras, cuantas mas o menos veces es posible que Y tome el valor 1 para un valor Xi
comparado con Xj .
Supongamos dos valores de Xi , x1 y x2 . Los odds ratio o razon de disparidad es
p1
1p1
OR = p2
1p2
ODD1
OR = = exp((x1 x2 ))
ODD2
En el caso en que alguna de las k variables fuese nominal, es necesario representarla por una
coleccion de variables indicadoras (dummy) adecuada.
135
a cero y resolver el sistema de (k + 1) ecuaciones no lineales (en los ) cuya resolucion requiere la
inclusion de metodos numericos iterativos.
Al igual que en el modelo de regresion lineal clasico, estamos interesados en docimar H0 : 1 = ... = k = 0
Para esto se usa el estadstico de Wald
!
2
W = X#parametros1
S
Es aplicable en las situaciones de las que el tiempo de sobrevivencia (T) depende de k variables
Xj que forman el vector X 0 = (X1 , X2 , ..., Xk ). Cox (1972) propuso modelar esta dependencia a traves
de una funcion de riesgo expresada como
(t, X) = 0 (t)exp( 0 X)
Donde
0 (t) : funcion de riesgo latente (o referencia) que corresponderia a una individuo hipotetico en que
X = 0 (es similar al intercepto de modelo de regresion lineal pero se diferencian en que 0 (t) es funcion
del tiempo) y es un vector de constantes.
Observaciones:
(t,X)
0 (t) = exp( 0 X) es el riesgo relativo de caso X = x respecto a X = 0, no cambia en el tiempo.
Para los individuos X = x1 y X = x2 se tiene que (t, x1 ) = 0 (t)exp( 0 x1 ), y (t, x2 ) =
0 (t)exp( 0 x2 ).
Al comparar riesgos
(t, x1 )
= exp( 0 (x1 x2 ))
(t, x2 )
vemos que la razon no depende del tiempo. Este cuociente indica el riesgo de morir (cuantas
veces, mas o menos) del sujeto X = x1 con respecto al sujeto X = x2 .
5.4.1. Estimacion de
Sean t(1) < t(2) < ... < t(n) los tiempos de muerte de los individuos X(1) , X(2) , ..., X(n) y sea
R(i) el conjunto de sujetos expuestos inmediatamente antes de t(i) .
Luego,
n
Y exp( 0 X(i) )
L() = X
i=1 exp( 0 X(i) )
X(i) R(i)
136
es la funcion de verosimilitud y
n
X n
X X
lnL() = 0 X(i) ln exp( 0 X(i) )
i=1 i=1 X(i) R(i)
entonces lnL()
= Y (), por lo que sera solucion de Y () = 0 cuyo resultado se obtiene mediante
metodos numericos iterativos tal como Newton-Raphson.
Las variables de conteo o recuento se definen, como el numero de sucesos o eventos que ocurren
en una misma unidad de observacion en un intervalo espacial o temporal definido.
logi = t xi
Existen casos en que los conteos de las observaciones se dan en periodos de tiempo o poblaciones
no homogeneas, se recomienda incluir al modelo una variable de exposicion llamada offset. La ecuacion
del MRP que permite obtener los valores de conteo esperados, incorporando a la variable offset es
calculada de la siguiente forma:
ln tii = xi
ln(i ) ln(ti ) = xi
ln(i ) = xi + ln(ti )
ln(i ) = xi + + of f set(ti )
i = expxi ++of f set(ti )
i = ti expxi +
Donde of f set(ti ) = ln(ti ), y ti es un vector columna que contiene los valores de la variable de
exposicion para cada unidad de observacion estos pueden puede ser la cantidad de tiempo en el cual
se ha llevado el recuento, o el tamano del espacio en el cual se han obtenido los recuentos, o bien el
tamano de la poblacion que proporciona los recuentos.
137
5.6. Tabla de Resumen
138
5.6.2. Caracterstica de los modelos
139
5.7. Comentarios
Los Modelos Lineales en su globalidad pueden ser usados para muchos ambitos de investigacion
debido a su capacidad predictiva, en las ramas de la biologa son muy utilizados, ya que sus modelos
dan respuestas a muchas incognitas buscadas en la investigacion cientfica. Ademas ordena de manera
correcta informacion no experimental, errores de medicion, etc.
Para entender los Modelos Lineales es importante tener una nocion basica de Metodos Mul-
tivariados, ya que en si estos modelos son una tecnica de modelamiento multivariado. Ademas estos
entregan herramientas poderosas para la reduccion o clasificion de variables que luego se ocuparan
como variables de respuestas para nuestra variable independiente. Tambien es importante conocer
metodos de Estadstica No Parametrica, ya que nos otorga docimas poderosas para la evaluacion de
supuestos que deben cumplirse.
As mismo los modelos lineales son fundamentales para poder entender otros ambitos de los
lineamientos estadsticos. Todo el concepto de analisis de varianza, es el fundamento escencial de nues-
tro proximo captulo Diseno y Analisis de Experimentos. As tambien, las series cronologicas toman
muchos conceptos de estos modelos para el analisis de de residuos, y siempre se busca hacer una com-
paracion entre estos modelos estatcos y los modelos dinamicos entregados por las series temporales.
Con respecto al manual del ano 2000 los topicos fueron ordenados, se profundizo en el analisis
de supuestos e influencia, y se cambio el enfoque de la Regresion Poisson.
140
Referencias
[1] Sanford Weisberg. Applied Linear Regression Third Edition. Editorial Wiley
[2] Alan Agresti. 2002. Categorical Data Analisys Second Edition. Editorial Wiley
[3] David W. Hosmer, Stanley Lemeshow. 2002. Applied Logistic Regresion Second Edition. Editorial
Wiley
[4] Ronald Hocking. 1996. Method and Aplications of Linear Models. Willey-Interscience Publica-
tions.
141
Captulo 6
Los modelos de disenos experimentales son modelos estadsticos clasicos cuyo objetivo es averi-
guar si los factores determinados influyen en la variable de interes, por lo cual realizamos experimentos
para obtener datos a partir de este, y entonces usamos la informacion del experimento para hacer nue-
vas conjeturas validas y objetivas.
Para usar un enfoque estadstico al disenar y analizar un experimento se debe tener una
idea cualitativa de como se va a analizar,se ofrece una gua del procedimiento recomendado(Vease
Referencias [1],pagina 8):
1. Comprension y planteamiento del problema.
2. Eleccion de factores y niveles.
142
3. Seleccion de la variable de respuesta.
4. Eleccion de diseno experimental.
5. Realizacion del experimento.
6. Analisis de datos.
7. Conclusiones y recomendaciones.
Modelos de efectos fijos: Obtenido cuando los tratamientos y factores que intervienen en el
experimento son fijados previamente(no aleatorios).
Modelos de efectos aleatorios: Obtenido cuando los tratamientos y factores que intervienen en
el experimento son seleccionados al azar.
Mixtos: Obtenidos cuando se presenta una combinacion de algunos factores fijos con algunos
aleatorios.
Los disenos experimentales se utilizaran dependiendo de las necesidades del investigador. Sin
embargo todos se rigen por los mismos supuestos de normalidad, homocedasticidad y aleatoriedad de
los residuos.
En varias casos, debido a que no existen estadsticos exactos para probar ciertos efectos de
los experimentos factoriales con tres o mas factores en los que se interviene un modelo aleatorio
mixto. Una posible solucion a este dilema es suponer que ciertas interacciones o tratamientos son
insignificantes(Vease Referencias [1],paginas 234-238).
Una variante de este metodo es ponderar los medias de cuadrados del analisis de varianza, para
obtener una estimacion del error con mas grados de libertad. El peligro de ponderar es que se puede
incrementar la probabilidad de cometer un error de tipo II, y al combinar la media de cuadrados de
un factor que es significativa con la del error, se obtiene una nueva media de cuadrados residuales
que resulta ser muy grande.Lo cual hara difcil notar otros factores significativos. Por otro lado la
media de cuadrados del error original tiene muy pocos grados de libertad, y al ponderar la potencia
se incrementa considerablemente.
En estos disenos se analiza el efecto de una variable explicativa o factor, sobre la variable
respuesta.
Supongamos que se tiene un factor A con r niveles y n replicas por tratamientos, la variable
respuesta del experimento se denota por yij , donde i = 1, , n y j = 1, , r.
Donde el conjunto de valores de la variable respuesta en cada tratamiento define una poblacion,
la cual debe satisfacer una serie de supuestos.
143
Este modelo corresponde a un modelo de efectos aleatorios, con una variable explicativa o
factor. Se debe considerar que cada poblacion (generada por cada tratamiento) debe satisfacer una
serie de restricciones para poder ser analizada estadsticamente:
1. Tener distribucion normal.
2. Ser homocedasticas.
3. De cada poblacion se debe extraer una muestra de n observaciones independientes.
Entonces el modelo para este tipo de diseno es:
yij = + jA + ij
con ij N (0, 2 )
Donde jA = (j ), es el efecto del nivel j del factor A. Que representa la media del
tratamiento menos la media total del proceso.
Ademas el modelo presenta la restriccion rj=1 jA = 0 y el siguiente supuesto ij N (0, 2 ).
La estimacion de los parametros del modelo se realiza usando el metodo de mnimos cuadrados.
Es decir, la suma de cuadrados de los errores sea mnima.
Las hipotesis de interes a docimar son apreciar si los efectos de los factores son o no significa-
tivamente distintos, i.e.:
Para docimar estas hipotesis se realiza un analisis de la varianza, el cual consiste en descompo-
ner la variacion total del proceso en distintas fuentes de variacion. En este caso, es posible descomponer
la variacion total en funcion de la variacion explicada por los tratamientos y por las componentes del
error. Luego:
ni=1 rj=1 (yij y.. )2 = ni=1 rj=1 (y.j y.. )2 + ni=1 rj=1 (yij y.j )2
2
yij y2
SST = rj=1 .. + rj=1 (n 1)Sj2
n rn
144
La tabla ANOVA asociada es:
Fuente (g.l) grados de (SS) suma de (MS) cuadrados F
libertad cuadrados medios
2
yij y2 SSTr M STr
Tratamiento n-1 SSTr = rj=1 .. M STr =
n rn n1 M SE
SSE
Error r(n 1) SSE = rj=1 (n 1)Sj2 M SE =
r(n 1)
2(n1)
M STr
F = = 2n 1 F (n 1, ni=1 a)
M SE ((n a)
i=1
ni=1 a
As se ha establecido la regla de decision. Si F0 < F1 ((n 1), (ni=1 a)) entonces existe
evidencia estadstica significativa para decir que al menos uno de los tratamientos produce un efecto
distinto de cero, es decir al menos uno de los distintos niveles de la circunstancia que se ha estudiado,
tiene una influencia significativa en la caracterstica de interes.
Como se expondra en los captulos posteriores, el procedimiento es analogo para los distintos
tipos de disenos, con variaciones que dependen tanto del numero de factores, como interactuan estos
y de la naturaleza de los mismos.
Al efectuar un analisis para un modelo de efectos fijos, si se puede concluir que existe una
diferencia de medias, sin especificar cual de ellas difiere.Los metodos para encontrar las medias que no
cumplen con la hipotesis nula se utilizaran comparaciones multiples, los metodos mas utilizados son:
145
6.3.1.1. Metodo de Scheffe
Metodo utilizado para comparar contrastes, es decir, contrastes entre dos o mas medias o en
el caso que el diseno no este balanceado.
Posee la siguiente forma: L = rj=1 cj j = L = rj=1 cj y.j con rj=1 cj = 0
La hipotesis a docimar es:
H0 : L = 0 v/s H1 : L 6= 0
tal que
L S L L L + S L
p
Donde S = (n 1)F1 ((n 1), r(n 1)
La regla de decision presenta que, si el intervalo de confianza anterior contiene al 0, entonces,
existira evidencia estadstica para rechazar la hipotesis nula.
Una vez calculadas todas las comparaciones, se ordenan de mayor a menor, y apreciamos el
rango de diferencia de medias entre tratamientos.
Metodo para comparar todas las parejas de medias, las cuales se disponen en orden. Es aplicable
en experimentos donde las muestras son del mismo tamano. Por lo cual existira diferencia entre los
tramamientos que conforman el contraste si:
y.j y.j = L
=
r
M SE
L > F1 (p, r(n 1))
n
Donde p indica el numero de tratamientos que estan en contraste.
146
6.4. Modelo de componentes de la varianza o modelo aleatorio
En algunos casos, los niveles del factor que generan los tratamientos son demasiado numerosos o
costosos de implementar, por lo tanto el investigador se ve obligado solo a trabajar con algunos de ellos
(una muestra), lo que da origen a los Modelos Aleatorios, en los cuales, los efectos producidos por los
niveles no son fijos sino aleatorios. Sin embargo, se obtienen conclusiones de todos los niveles del factor
pues estos fueron seleccionados al azar. Suponiendo que de un factor se seleccionan al azar, con r niveles
de un factor (muestra aleatoria), asignados aleatoriamente a las unidades experimentales utilizadas, al
igual que en el diseno anterior, generando r poblaciones cuyas medias seran m1 , m2 , , mr entonces:
E(mj ) =
2
V ar(mj ) = A
Bajo la hipotesis nula:
2
H0 : m1 = m2 = = mj = H0 : A =0
2 2
H0 : A =0 v/s H1 : A >0
Se define el efecto del tratamiento como jA = mj , que es una variable aleatoria . Los
supuestos son los mismos que para el caso de diseno con 1 factor.
As se obtiene el modelo de componentes de la varianza:
yij = + jA + ij
jA N (0, jA )
Ademas el calculo de las sumas de cuadrado es analogo y equivalente al caso del diseno con un
factor.
En este diseno no se puede realizar comparaciones multiples, pues solo se estima la muestra de
todos los tratamientos. Sin embargo es posible estimar las varianzas mediante intervalos de confianza
M SE
r(n 1) 2(r(n1))
2
r(n 1)M SE
df racr(n 1)M SE1 2 (r(n1)) 2
2 (r(n1))
147
Es probable que estas estimaciones arrojen valores negativos, lo cual sabemos no es posible.
Una opcion es tomar esta estimacion como evidencia de que el verdadero valor es cero, es decir, truncar
la estimacion. Otra forma es estimar la varianza mediante otro metodo que arroje valores positivos o
considerar esto como evidencia de que el modelo lineal propuesto es incorrecto y volver a examinar el
problema.
Debido a que no se puede construir un intervalo de confianza para A 2 , se considerara uno para
el coeficiente de correlacion entre clases, el cual mide la asociacion entre las observaciones de un mismo
tratamiento.
A 2 B
= 2 A 2
A+1 A + B+1
Donde
M STr
1 1 1 M STr 1
A= 1 B= 1
n M SE F (a 1, N a)
n M SE F (a 1, N a)
1
2 2
En cuanto al analisis de la varianza, este se realiza de manera analoga al caso de los disenos
con un factor.
Los disenos que se han tratado anteriormente en este captulo tienen en comun que sus unidades
experimentales son de la misma naturaleza. En el caso de que no lo fueran, es decir, que exista una
diferencia apreciable entre ellas el error experimental se mostrara reflejado tanto en el error aleatorio
como en la variabilidad de las unidades experimentales. Por esto es preferible trabajar con un diseno
de bloques aleatorios(Vease Referencias [1],paginas 119-126).
Un bloque se forma por unidades experimentales similares, sin importar el numero de trata-
mientos que se desea comparar y dichos bloques se forman luego de identificar los niveles del factor.
El diseno de bloques debe cumplir los mismos supuestos que para el caso del diseno con un
factor.
1. Cada bloque y tratamiento debe definir una poblacion con distribucion normal.
2. Las poblaciones deben ser homocedasticas.
3. De cada poblacion se debe extraer una muestra aleatoria.
4. Los efectos del bloque y del tratamiento deben ser aditivos,es decir, cumpliendo
(ij .j i. + ) = 0
148
Utilizando el supuesto de normalidad del error y las restricciones asociadas a los efectos.
SSE
Error (n 1)(r 1) SSE = M SE =
ni=1 a
SST SSBL SSTr
Total nr 1 SST =
y..2
ni=1 rj=1 yij
2
nr
La columna con la letra F representa las reglas de decision correspondiente a cada fuente
las cuales se establecen mediante calculos de esperanza y bajo el supuesto de normalidad, las que
corresponden a las siguientes distribuciones:
F1 (n 1, (n 1)(r 1)) para el caso de bloques
F1 (r 1, (n 1)(r 1)) para el caso de los tratamientos
149
Donde: i : Es el efecto sobra la media global debido al bloque i-esimo.
j :Es el efecto sobre la media global debido al bloque j-esimo.
k :es el efecto sobre la media global debido al bloque k-esimo.
El modelo es completamente aditivo, es decir, no hay interacciones entre filas,columnas y
tratamientos.
El metodo de mnimos cuadrados proporciona los siguientes estimadores
= y ...
i = y i.. y ...
j = y .j. y ...
pi=1 pj=1 yijk
k = y ..k y ... donde y ..k =
k
El analisis de la varianza consiste en descomponer la suma de cuadrados total de las k 2 obser-
vaciones en los componentes de las filas, columnas, tratamientos y el error.
La tabla asociada es:
2
yi.. y2 SSF M SF
Bloque p-1 SSF = pi=1 ... M SF = F0 =
p p2 p1 M SE
(Fila)
2
y.j. y2 SSC M SC
Bloque p-1 SSC = pj=1 ... M SC = F0 =
p p2 p1 M SE
(Columna)
2
y..k y2 SSTr M STr
Tratamiento p-1 SSTr = pk=1 ... M STr = F0 =
p p2 p1 M SE
SSE
Error (p 1)(p 2) SSE = M SE =
(p 1)(p 2)
SST SSF SSC SSTr
2
y...
Total p2 1 SST = pi=1 pj=1 pk=1 yijk
2
p2
150
6.7. Diseno de cuadrado grecolatino
Si existen tres fuentes de perturbacion para las unidades experimentales, se debe utilizar un
diseno de dos cuadrados latino sobrepuestos. En este caso los tratamiento se indican con letras latinas
y griegas respectivamente. Se dice que los dos cuadrados latinos son ortogonales si al sobreponerse
poseen la propiedad de que cada letra griega aparece solo una vez con cada letra latina. El diseno
permite analizar cuatro factores(reglon, columna, letra griega, letra latina), cada uno con p niveles.
Este tipo de cuadrados existen para todo p 3, excepto para p = 6 (caso particular) (Vease Referencias
[1],paginas 147-149).
1 2 3
1 A C B
2 B A C
3 C B A
El modelo asociado sera:
yijkl = + iF + +jC + kTr + lG + ijkl
En este caso se docima la posibilidad que alguno de los tratamientos (aditivos) presente alguna dife-
rencia significativa, es decir, algun tratamiento sea distinto.
Fuentes grados de suma de cuadrados medios
libertad cuadrados (SS) (MS)
2
yi... y2 SSF
Fila p-1 SSF = pi=1 ....
p n p1
2
y.j.. y2 SSC
Columna p-1 SSC = pj=1 ....
p n p1
2
y..k. y2 SSTr
Tratamiento p-1 SSTr = pk=1 ....
p n p1
2
y...m y2 SSG
Griegas p-1 SSG = pm=1 ....
p n p1
SSE
Error (p 1)(p 2) SSE =
(p 1)(p 2)
SST SSF SSC SSTr SSG
2
y....
Total p2 1 SST = pi=1 pj=1 pk=1 pm=1 yijkm
2
n
151
M STr
Regla de decision: si F0 = , entonces para F0 > F1 (p 1, (p 1)(p 3)), existe
M SE
evidencia estadstica para decir que al menos uno de los tratamientos produce un efecto significativo.
Se forma agregando cuadrados latinos, de modo que el rectangulo tenga rt columnas y t filas.
Es decir, nos referimos al tipo de diseno que se compone de cuadrados latinos replicados, dado que es
un diseno aditivo no existe interaccion. Este tipo de diseno se utiliza generalmente cuando se desea
estudiar un diseno de cuadrado latino en distintos periodos.
1 2 3 4 5 6 7 8
1 A D C B D B C A
2 B A D C A C D B
3 C B A D B D A C
4 D C B A C A B D
El modelo asociado sera:
yijk = + iF + +jC + kTr + ijk
La hipotesis a docimar es:
H0 : kTr = 0 v/s H1 : kTr 6= 0 para algun k
En este caso se docima la posibilidad que alguno de los tratamientos (aditivos) presente alguna dife-
rencia significativa, i.e., los tratamientos tienen el mismo efecto. La tabla ANOVA asociada es:
2
yi.. y2 SSF
Fila p-1 SSF = pi=1 ...2 M SF =
rp rp p1
(periodo)
2
y.j. y2 SSC
Columna rp-1 SSC = ...2 M SC =
p rp rp 1
(individuo)
2
y..k y2 SSTr M STr
Tratamiento p-1 SSTr = pk=1 ...2 M STr = F0 =
rt rt p1 M SE
SSE
Error (p 1)(rp 2) SSE = M SE =
(p 1)(rp 2)
SST SSF SSC SSTr
2
y...
Total rt2 1 2
SST = yijk
t2
152
Regla de decision: si F0 > F1 (p 1, (p 1)(rp 2)), existe evidencia estadstica para decir
que al menos uno de los tratamientos produce un efecto significativo.
Son disenos de rectangulos latinos, en donde habitualmente las filas corresponden a periodos
y las columnas a sujetos. Son utilizados en la industria farmaceutica para ensayar medicamentos o
en la investigacion medica. Consiste en ensayar en individuos distintos tratamientos(medicamentos)A
y B, en forma sucesiva en dos o mas periodos, en el primer periodo son asignados al azar dichos
medicamentos. No existen efectos de residuos.
1 2 3 4 5 6 7 8 9 10
Periodo A B A A B B A B B B
1
Periodo B A B B A A B A A A
2
El modelo asociado sera:
yijk = + iF + +jC + kTr + ijk
La hipotesis a docimar es:
H0 : kTr = 0 v/s H1 : kTr 6= 0 para algun k
Se docima la posibilidad que los medicamentos suministrados produzcan un efecto distinto en los
pacientes,es decir, que uno de ellos sea mejor o quizas ambos producen los mismos resultados.
2
yi.. y2 SSF
Fila p-1 SSF = pi=1 ... M SF =
p p2 p1
(periodo)
2
y.j. y2 SSC
Columna rp-1 SSC = ... M SC =
p p2 rp 1
(individuo)
2
y..k y2 SSTr M STr
Tratamiento p-1 SSTr = pk=1 ... M STr = F0 =
rt t2 p1 M SE
SSE
Error (p 1)(rp 2) SSE = M SE =
(p 1)(rp 2)
SST SSF SSC SSTr
2
y...
Total rt2 1 2
SST = yijk
t2
Regla de decision: si F0 > F1 (p 1, (p 1)(rp 2)), existe evidencia estadstica para decir
que al menos uno de los tratamientos produce un efecto significativo.
153
6.10. Determinacion de los estimadores de la varianza
154
6.11.1. Diseno con dos factores fijos
El efecto de cada factor se define de manera al caso del diseno con 1 factor, mientras de no el
efecto de interaccion sera determinado por:
AB
ij = ij i. .j
Se mantienen el mismo supuesto de los casos anteriores (la normalidad de los errores) y las
mismas restricciones (la suma sobre el ndice que corresponda de los efectos debe ser 0). Los parametros
del modelo son estimados nuevamente por el metodo de mnimos cuadrados para minimizar as las
perturbaciones. Las hipotesis tambien son analogas a los casos anteriores.
Nuevamente para analizar el modelo particionamos la variacion total, obteniendo:
Luego de trasformar un poco los resultados obtenidos (para simplificar el calculo) y mediante
calculos sencillos de esperanzas (considerando los supuestos de normalidad del diseno), se obtiene la
siguiente tabla resumen del analisis de la varianza (ANOVA):
Fuente grados de suma de cuadrados E(M S) F
libertad cuadrados medios (MS)
SSE
Error ab(n 1) SSE
ab(n 1)
La regla de decision tienen la formaF1 (p, ab(n1)) donde p representa los grados de libertad
del efecto correspondiente.
155
6.11.1.1. Comparaciones multiples para los experimentos de dos factores
1. Comparacion entre los niveles del factor A Se dice que existe diferencia entre dos niveles i ei
del factor A si se cumple que:
r
M SE
y i.. y i .. > q1 (a, ab(n 1))
bn
Nuevamente se ejemplificaran estos modelo para el caso de dos factores, recordando que esta
metodologa puede extenderse para un numero n de factores. Suponiendo los factores A y B poseen un
gran numero de niveles y se obtiene una muestra aleatoria de ellos, ambos factores de dicen aleatorios
(analogo al caso de componentes de la varianza).
El modelo para este experimento sera:
yijk = + iA + jB + ij
AB
+ ijk
Como el efecto del factor es ahora aleatorio, la restriccion del modelo sera : iA N (0, A
2)
156
Luego de particionar la variacion total y hacer los calculos de esperanza como en los disenos
anteriores se obtiene la siguiente tabla ANOVA:
Fuente grados de suma de cuadrados E(M S)
libertad cuadrados medios (MS)
SSA 2 + n 2 + 2
Factor A a-1 SSA bnA AB
a1
SSB 2 + n 2 + 2
Factor B b-1 SSB anB AB
b1
SSAB 2 + 2
Factor A B (a 1)(b 1) SSAB nAB
(a 1)(b 1
SSE
Error ab(n 1) SSE 2
ab(n 1)
Las formulas para obtener las sumas de cuadrados (SS), son las mismas que para el caso del
diseno con dos factores fijos. Es claro que las conjeturas de este punto pueden ser extendidas para el
caso arbitrario de p factores aleatorios con bastante simplicidad.
Estos se refieren a aquellos modelos que estan compuestos tanto por efectos fijo como por efectos
aleatorios. Es facil deducir el procedimiento para establecer tanto el modelo como sus restricciones,
supuestos y analisis de varianza, puesto que sera una mezcla de los procesos vistos anteriormente.
Para ejemplificar este modelo (que puede adquirir muchas formas), se supondra que el problema
sugiere un modelo con un factor A fijo y uno B aleatorio (lo que implica que la interaccion sera tambien
aleatoria)entonces:
yijk = + iA + jB + ij
AB
+ ijk
Este modelo cumple las condiciones (homocedasticidad, normalidad, aleatoriedad) de los di-
senos anteriormente vistos. Las restricciones y supuestos para este modelo se reducen a:
ai=1 iA = ai=1 ij
AB = 0
jB N (0, B
2)
AB N (0, 2 )
ij AB
ijk N (0, 2 )
157
Entonces el analisis del modelo es:
SSA (iA )2 2 + 2 M SA
Factor A a-1 SSA bn + nAB f1 =
a1 a1 M SE
SSB 2 + 2 M SB
Factor B b-1 SSB anB f2 =
b1 M SE
SSAB 2 + 2 M SAB
Factor A B (a 1)(b 1) SSAB nAB f3 =
(a 1)(b 1 M SE
SSE
Error ab(n 1) SSE 2
ab(n 1)
Donde las formulas para las sumas de cuadrados se obtiene de la manera tradicional (y son las
mismas que para el caso del diseno con dos factores) y los valores esperados se obtuvieron mediante
el metodo de Cornfield y Tukey .
Nuevamente, cualquiera de los disenos multifactoriales tratados anteriormente en este captulo,
podra eventualmente transformarse en un diseno mixto. Siguiendo la pauta general que se ha presen-
tado para estos, es posible reconstruir los disenos, sus modelos, hipotesis y reglas de decision, para
poder analizarlos.
En este tipo de diseno se nos presenta el caso en que se tienen dos factores con bloque, donde
ademas de que la variable de interes esta sometida a dos tipos de condiciones distintas y con diferentes
niveles, las unidades experimentales pueden dividirse en grupos o bloques debido a su naturaleza. De
esta forma, las poblaciones para este diseno estan definidas por la interseccion de los niveles de ambos
factores interceptados a su vez con cada bloque.
Las condiciones que debe cumplir cada poblacion son las mismas que para los disenos anteriores,
exceptuando por un cambio en el tamano muestral, ya que:
De cada poblacion se extrae una muestra de una observacion.
Luego de la definicion de los efectos (analoga a los casos anteriores) y considerando los supuestos es
posible construir el modelo para este diseno, que tiene la forma:
yijk = + iA + jB + kBl + ij
AB
+ ijk
158
En este caso, nuestras hipotesis a docimar son las mismas que para el diseno con dos factores
sin bloques. Como es logico, los parametros se estiman mediante mnimos cuadrados y nuevamente se
particiona la variacion total, obteniendo:
Mediante los procedimientos ya conocidos es posible obtener la siguiente tabla resumen del
analisis de la varianza:
Fuente grados de suma de cuadrados medios
libertad cuadrados
SSA
Factor A a-1 SSA M STr =
a1
SSb
Factor B b-1 SSB M STr =
b1
SSAB
Factor A B (a-1)(b-1) SSAB M STr =
(a 1)(b 1)
SSBl
Bloque n-1 SSBl M SBl =
n1
Donde se obtienen tanto las sumas de cuadrados, como las reglas de decision de manera tradi-
cional y analoga a los casos anteriormente vistos.
Puede darse el caso de que en un experimento con varios factores, algunos de los niveles de
uno de estos sea similar a los niveles de otro (dependan en cierta manera), lo cual se denomina diseno
jerarquico o anidado.
En este diseno mantiene las mismas condiciones (que deben cumplir las poblaciones) que los
disenos anteriores. Sin embargo se introduce una nueva notacion para los efectos. Si un factor B esta
anidado a un factor A, entonces el efecto de A mantiene la misma notacion que se a ocupado hasta
B , es decir, lleva ambos sub-ndices (el propio
ahora, pero el efecto del factor anidado sera notado por ij
y el del factor al cual esta anidado).
159
Luego de definir los efectos de la forma tradicional ocupada en este captulo y considerando
los supuestos y restricciones se establece el modelo:
i = 1, , a
j = 1, , b
yijkl = + iA + ij
B
+ kC + ik
AC BC
+ ijk + ijkl
k = 1, , c
l = 1, , n
Nota: Este modelo se ha establecido bajo el supuesto de que existen tres factores en el expe-
rimento donde B esta anidado en A y C esta anidado en B, luego no se deben incluir los efectos de
interaccion correspondientes, pues al estar anidados todos los factores seran redundantes (explican lo
mismo).
Luego de particionar la variacion total se obtiene que:
2
yi... y2 SSA M SA
A a-1 ai=1 .... M SA =
bcn abcn a1 M SE
2
yij.. 2
a b yi... SSB(A) M SB(A)
B(A) a(b-1) i=1 j=1 M SB(A) =
cn bcn a(b 1) M SE
2
yijk. 2
yij.. SSC(BA) M SC(BA)
C(BA) c-1 ai=1 bj=1 ck=1 M SC(BA) =
n cn c 1) M SE
Debido a que existe un gran numero de estos disenos, se tomara un ejemplo concreto en el
cual existen tres factores anidados y uno cruzado. Sin embargo, es relativamente sencillo llevar esta
metodologa para otras combinaciones entre factores anidados y cruzados:
160
6.14.1. Disenos con tres factores anidados y uno cruzado
Este diseno ademas de los factores anidados, tiene un factor cruzado, es decir, es independiente
a los otros tres factores. El modelo de este diseno queda establecido por:
yijklm = + iA + ijB + C + D + AD + BD + CD +
ijk l il ijl ijkl ijklm Es clara la analoga con el
caso del diseno anterior en cuanto a la simbologa ocupada. Luego de particionar la variacion total
y hacer las transformaciones correspondientes, respetando los supuestos obtenemos la siguiente tabla
ANOVA:
Fuente grados de suma de cuadrados medios
libertad cuadrados
SSA
A a-1 SSA M SA =
a1
SSB(A)
B(A) b-1 SSB(A) M SB(A) =
b1
SSC(AB)
C(AB) ab(c-1) SSC(AB) M SC(AB) =
ab(c 1)
SSD
D d-1 SSD M SD =
d1
SSAD
AD (a-1)(d-1) SSAD M SAD =
(a 1)(d 1)
SSB(A)D
B(A)D a(b-1)(d-1) SSB(A)D M SB(A)D =
a(b 1)(d 1)
SSC(BA)D
C(BA)D ab(c-1)(d-1) SSC(BA)D M SC(BA)D =
ab(c 1)(d 1)
SSE
Error abcd(n-1) SSE M SE =
abcd(n 1)
161
6.15. Disenos de parcelas divididas (SPLIT PLOT)
En algunos disenos multifactoriales con bloque puede que no sea posible aleatorizar comple-
tamente el orden de los ensayos en cada bloque. Esto lleva utilizar una generalizacion del diseno por
bloques llamado diseno de parcelas divididas(Vease Referencias [1],pagina 419-424).
Para este caso, cada bloque se dividira en partes llamadas parcelas completas que a su vez se
particionan en parcelas divididas.
yijk = + iR + jA + ij
RA + B + AB +
k jk ijk
En este caso las hipotesis a docimar son las mismas que en el diseno con dos factores fijos. Y
la variacion total se particiona en fuentes de variacion, resumidos en la tabla ANOVA siguiente:
2
yi.. y2 SSR
Replicas n-1 ri=1 ... M SR =
ab abn n1
2
y.j. y2 SSA
A a-1 aj=1 ... M SR =
nb abn a1
2
yij. y2 SSRA
E1 = RA (n-1)(a-1) ri=1 aj=1 ... M SRA =
b abn (n 1)(a 1)
2
y.j. 2
a y... SSB
B b-1 j=1 M SB =
an abn b1
2
y.jk 2
a b y... SSAB
AB (a-1)(b-1) j=1 k=1 SSA SSB M SAB =
n abn (a 1)(b 1)
M SE
Error a(b 1)(n 1) SSE =
a(b 1)(n 1)
SST (SSR + SSA + SSRA + SSB + SSBA)
2
y...
Total abn 1 ri=1 aj=1 bk=1 yijk
2
abn
162
M SAB
Para f3 = > F1 ((a 1)(b 1), a(b 1)(n 1))
M SE
existe evidencia estadstica para rechazar H0
El mas importante de los casos especiales de los disenos factoriales es el que tiene k factores
cada uno a dos niveles. Estos niveles pueden ser cuantitativos, valores de temperatura o presion, o
pueden ser cualitativos, tales como 2 maquinas o dos operadores, o tal vez pueda ser la presencia o
ausencia de un factor. Una replica completa de tal diseno requiere 2 2 2 2 = 2k observaciones
y se conoce como un diseno factorial 2k .
Como cada factor en el experimento tiene 2 niveles los llamaremos nivel bajo (-) y nivel alto
(+)(Vease Referencias [1],pagina 241-249).
Se trabajara bajo los siguientes supuestos:
1. Los factores son fijos
2. Los disenos son completamente aleatorios
3. Se supone normalidad
6.16.0.1. Diseno 22
El diseno mas pequeno en este tipo de experimento es el que tiene k = 2 factores. Es importante
realizar replicas de cada tratamiento o combinacion en el experimento ya que esto me permite comparar
entre valores (datos obtenidos en los diferentes niveles de un factor fijando los demas factores) y dentro
de valores (datos obtenidos de una misma combinacion).
En este tipo de disenos tenemos dos factores A y B cada uno con dos niveles. En este tipo de
diseno los niveles superiores e inferiores se denotaran por los signos (+)(-) respectivamente.
Existen cuatro combinaciones posibles de los tratamientos, estas seran denotadas por letras
minusculasa,b,ab,(1), donde la letra nos indica que el tratamiento se encuentra en su nivel superior,
entonces (1) nos indica que ambos tratamiento se encuentran en su nivel inferior.
MATRIZ DE DISENO
Tratamiento A B Interpretacion
163
Definamos efecto promedio de un factor como el cambio en la respuesta producido por la
variacion del nivel de un factor promedio sobre los niveles de ese factor, entonces los efectos medios
de A y B quedan determinados por :
O (ab b + a (1)) O (ab a + b (1))
A= B=
2n 2n
Donde n representa el numero de replicas.
Llamaremos contraste o efecto total a la combinacion lineal de los resultados obtenidos en cada
tratamiento A = (ab b + a (1) B = (ab a + b (1))
el modelo asociado es:
yij = + iA + jB + ij
AB
+ ij
H0 : iA = jB = ij
AB
=0 v/s H1 : al menos uno distinto de cero
SSA M SA
A k-1 SSA M SA = f1 =
k1 M SE
SSB M SB
B k-1 SSB M SB = f2 =
k1 M SE
SSAB M SAB
AB k-1 SSAB M SAB = f3 =
k1 M SE
SSE M SA
Error 2k (n 1) SSE M SE = f1 =
2k (n 1) M SE
Total 2k n 1 SST
164
6.16.1. Generalizacion del diseno 2k
Son disenos de k factores con tres niveles cada uno. Donde los factores y las interacciones
se representaran mediante letras mayusculas, los tres niveles de los factores seran asociados como
nivel inferior, intermedio y superior. Estos niveles a diferencia del caso 2k donde se usaban signos,
seran representados por dgitos (0 , 1, 2). Cada combinacion de tratamientos se representa mediante k
dgitos, donde el primero indica el efecto A, el segundo el efecto B y el k-esimo el efecto de K (Vease
Referencias [1],paginas 347-357).
6.17.0.1. Diseno 32
Este diseno tiene tres factores, cada uno con dos niveles. Para este tipo de disenos se utilizan
efectos lineales y efectos cuadraticos.
Para este caso el 0 0 representa la combinacion de los tratamientos A y B, ambos en su nivel
inferior, y en caso 0 1 indica que A esta en un nivel inferior y B en un nivel intermedio.
Si los efectos son cuantitativos es usado los dgitos -1, 0, 1 ya que esto facilita la determinacion
de efectos lineales y cuadraticos.
165
Para este caso se utilizara:
1 si A=0
1 si A = (0, 2)
AL = 0 si A=1 AG =
2 si A=1
1 si A=2
1 si B=0
1 si B = 0, 2
BL = 0 si B=1 BG =
2 si B = 1
1 si B=2
00 1 1 1 1 1 1 1 1
10 0 1 0 2 2 1 0 2
20 1 1 1 1 1 1 1 1
01 1 0 1 1 1 2 2 2
11 0 0 0 2 2 2 0 4
21 1 0 0 1 1 2 2 2
02 1 1 1 1 1 1 1 1
12 0 1 0 2 2 1 0 2
22 1 1 1 1 1 1 1 1
Esto asegura que el diseno es ortogonal, es decir la suma de los valores de cada tratamiento y
su combinacion es cero. Por lo cual se trabajara con constantes ortogonales, para estimar el efecto de
los valores(lineales o cuadraticos) ponderando las observaciones de cada tratamiento con los contrastes
correspondientes.
Si se desea estimar el efecto lineal de A se debera observar los valores correspondientes a AL
que es la primera columna de la matriz de diseno y se multiplica por los valores observacionales para
posteriormente sumarlos, el valor obtenido es el contraste.
NOTA:La tabla ANOVA es analoga al diseno 2k .
Analogo a usar la matriz de diseno, es usar la metodologa Yates.
166
6.18. Analisis de covarianza
.. .. .. ..
. . . .
x2.. y..2
T xx = ij x2ij 2
T yy = ij yij
N N
x2.. y..2
Txy = i i xij yij
N
167
xi. y.j y.. x..
Axy = Ii=1
ni N
x2i. y.j2
Exx = i j x2ij i 2
Eyy = i j yij i
ni ni
xi. y.j
Exy = i j xij yij i
ni
Donde Tyy (aj) es la variacion debida al efecto del factor mas el efecto residual.
Eyy (aj): la suma de cuadrados de y dentro de los tratamientos ajustada por la covariable.
2
Exy
Eyy (aj) = Eyy
Exx
Donde Ayy (aj) es la variacion entre los valores de la variable dependiente debida solo al efecto
del nivel del factor.
Hipotesis de los efectos del factor:
Ayy (aj)(I 1)
F =
Eyy (aj)(N I 1)
H0 : = 0 v/s H1 : 6= 0
168
La tabla ANOVA asociada es:
Fuente grados de suma de cuadrados medios F
libertad cuadrados
2
Exy 2
Exy M SReg
Regresion 1 M SReg = f1 =
Exx Exx M SE
SSE(aj)
Error (aj) N I 1 SSE(aj) = Eyy (aj) M SE =
N I 1
M SReg
Para f1 = > F1 (I 1, N I 1)
M SE
M STr
Para f2 = > F1 (I 1, N I 1)
M SE(aj)
existe evidencia estadstica para rechazar H0 para anova(f1 , f2 ).
Es un algoritmo que permite estimar los contrastes de los distintos factores, y determinar con
las sumas de cuadrados en los disenos factoriales 2k y 3k (Vease Referencias [1],paginas 276 y 347).
Para disenos 2k .
contraste.del.ef ecto
SS(Ef ecto) =
2k n
Para disenos 3k .
contraste.del.ef ecto
SS(Ef ecto) =
3k n
Y finalmente en ambos casos se construira su respectiva tabla anova asociada.
6.19.1.1. Diseno 2k
El algoritmo es el siguiente:
1. Listar todas las observaciones obtenidas de menor a mayor.
2. Sumas pares de observaciones hasta completas la mitad de una columna .
3. El resto de la columna se forma restando los pares de observaciones.
4. Se forman tantas columnas como factores tengan.
169
5. La ultima columna resultante se considera el contraste del efecto y a ese valor se le aplica la
formula SS(Efecto)
6.19.1.2. Diseno 3k
El algoritmo es el siguiente:
1. Listar las observaciones de menor a mayor
2. La primera parte de la columna resulta de la suma de a tres, de los valores.
3. La segunda es el resultado de la diferencia entre el tercer valor y el primero de cada tercio de
observaciones.
4. La tercera parte de la columna, se obtienen sumando el primero con el ultimo valor de cada
tercio y a esa cifra se le resta el doble del termino central.
5. Se forma un total de k columnas.
6. La ultima columna resultante se considera el contraste del efecto y a ese valor se le aplica la
formula SS(Efecto)
Esta metodologa consiste en calcular los efectos medios y luego asignarles rangos de menor a
mayor(Vease Referencias [1],paginas 261-269).
(i 0,5)
pi = 100
(2k 1)
Donde i varia segun el numero de efectos asociados al diseno. Una vez obtenidos estos valores,
en el papel se distribuyen los contrastes en torno al cero y se ubican los valores antes encontrados.
Despues se dibuja una recta intermedia con el objetivo que la mayora de los valores sean tocados, y
los valores que esten lejanos a la recta seran considerados significativamente distintos.
Este tipo de analisis se aplica a los disenos 2k , consiste en calcular una media poblacional
con todos los tratamientos, luego se calculan medias a cada tratamiento en sus dos niveles, inferior y
superior, por ultimo se grafican estos valores respecto a la media poblacional, entonces diremos que
los valores que esten lejanos seran considerados significativamente distintos.
Debido a que en varios disenos se requieren de muchos tratamientos k > 3. Por ello es necesario
de tecnicas que permitan disminuir el numero de factores para que as el costo del experimento sea
menor.
En este punto nos enfocaremos a dos tecnicas frecuentemente usadas: Tecnicas de confusion y
tecnica de experimento fraccionado.
170
6.20.1. Tecnicas de confusion
Son experimentos que se efectuan en distintas etapas en donde se supone que los efectos de los
factores son fijos. En estos casos se debe elegir parte del experimento, es decir, cuales deben ser los
tratamientos a ensayar en cada etapa teniendo la precaucion de no confundir el efecto etapa o bloque
con el efecto principal. Al usar esta tecnica la imformacion sobre ciertos tratamientos(generalmente in-
teracciones de orden superior) se vuelven indistinguibles o se confunden con bloques(Vease Referencias
[1],paginas 285-296).
la idea es dividir el total de tratamientos en dos bloques, el bloque principal es aquel que tiene
le efecto que se desea confundir y el bloque secundario. Se llama efecto definicion al efecto que se
confunde con las etapas. Son los factores del bloque principal los que seran ensayados y los resultados
obtenidos cumplen la propiedad de interpretar a ambos bloques.
En el diseno 2k , el experimento puede realizarse en dos o mas etapas, utilizando esta tecnica
el numero de bloques es 2r , por lo cual cada etapa se debe ensayar 2kr tratamientos.
Como criterio para elegir el efecto que se va a confundir, se considera la interaccion con mayor
grado.
Una manera de asignar tratamientos a las etapas es formando contrastes mediante una com-
binacion lineal definida por:
L = Zi (mod2)
Donde Zi toma el valor 1 si el factor i actua a nivel superior y 0 si actua a nivel inferior, utilizandose
tantas Z como factores se tenga.
Para el caso del diseno 3k la metodologia es analoga a la anterior, pero el artificio matematico
utilizado es dividir las interacciones en componentes.
ai xi = m(mod3)
Siendo ai el exponente de xi .
A medida que los factores aumentan en un diseno factorial el numero de ensayos necesarios para
obtener una sola replica completa sobrepasa rapidamente los recursos disponibles. Si el experimentador
puede suponer razonablemente que algunas interacciones de orden superior son despreciables, la in-
formacion sobre los efectos principales y las interacciones de menor orden, puede obtenerse realizando
solo una fraccion del experimento factorial completo(Vease Referencias [1],paginas 300-337).
Estos disenos un uso muy importante cuando se han considerados muchos factores, con el fin
de identificar aquellos que tienen efectos importantes, de haberlos. Suelen realizarse en la primera fase
de un proyecto cuando es probables que muchos factores de los inicialmente considerados tengan poco
o ningun efecto sobre la respuesta.
En los diseno 2k una fraccion 1/2r de un experimento es un conjunto de 2kr tratamientos.
la fraccion se forma al selecciona solo las combinaciones de tratamientos que producen un
signo positivo sobre la columna ABC, que es la interaccion que escogimos como efecto generador,
donde p indica el numero de generadores, tambien se denomina efecto definitoria I = ABC. La
fraccion asociada al efecto generador se denomina fraccion principal. En la practica, no importa cual
171
de las dos fracciones se utiliza ya que cada tratamiento de las fracciones tiene su respectivo aliado, es
decir, basta trabajar solo una fraccion para interpretar los resultados para ambas. Para los diseno con
mas de 3 factores y para el diseno 3k se aplica el diseno analogamente.
Se define como resolucion de un diseno fraccionado al numero de letras que tiene el efecto
generador con menor numero. Las resoluciones mas usadas son las III, IV, V .
El objetivo es disenar productos menos sensibles a los factores aleatorios (o ruidos) que hacen
que varen los parametros que definen su calidad(Esto es lo que se llama crear un diseno robusto)(Vease
Referencias [1],paginas 369-387).
Para esto definio un proceso de diseno y proceso de fabricacion en tres etapas:
1. Diseno del sistema Esta es la etapa conceptual en la que se determinan las caractersticas gene-
rales, parametros a tener en cuenta, objetivos, etc.
2. Diseno de parametros Una vez establecido el concepto comienza la etapa de ingeniera de deta-
lle, en la que se definen los parametros del producto: dimensiones, especificaciones, materiales,
etc. En esta etapa un analisis permite establecer parametros que minimicen los efectos de la
variabilidad en el proceso, medio ambiente y manipulacion en la presentacion final del producto.
En esta etapa se pueden realizar una serie de experimentos estadsticos que ayudan a medir la
sensibilidad de los parametros objetivos a variaciones en el proceso o en lo que se denominan
ruidos.
3. Diseno de tolerancias Completado el diseno de parametros, y con una real comprension de los
efectos de cada uno de los parametros en la presentacion final del producto. Se puede centrar la
atencion en unos pocos parametros clave, sobre los que se trabajara en obtener tolerancias mas
estrechas.
Taguchi establecio las siguientes condiciones para tener productos de calidad:
1. La desviacion estandar ente el valor de la variable que mide la calidad y un valor objetivo en
donde el desempeno del producto o servicio debe ser mnima.
2. El desempeno del producto o servicio debe ser insensible a la variacion de sus componentes.
3. El desempeno del producto o servicio debe ser insensible a los cambios del medio ambiente.
La medida de la calidad es la diferencia entre la variable que mide la calidad y el valor objetivo.
Esta medida se expresa mediante la funcion de perdida.
L(x) = k(x T0 )2
Si L(x) = 0 la calidad es maxima.
El producto o proceso es de calidad si la perdida medio es mnima, es decir cuando se cumple:
E[L(x)] = kE[(x T0 )2 ]
E[L(x)] = kE[ 2 + ( T0 )]
172
Este metodo establecio un criterio para identificar a los factores que afectan la varianza de
modo que al cambiar sus niveles se puede reducir la varianza de la variable respuesta.
Para identificar estos factores se usa una transformacion llamada senal de ruido.
2
S/N = 10 ln( )
2
Para calcular la senal de ruido se utiliza
(yi T0 )2
S/N = 10 log ni=1 ( )
N
= f (X1 , X2 , , Xk )
de tal forma que la variable respuesta puede expresarse como:
Y = + = f (X1 , X2 , , Xk ) +
173
Primer Orden
Y = 0 + 1 X1 + 2 X2 + + k Xk +
Segundo Orden
Y = 0 + ki=1 i Xi + ki=1 ii Xi + +ki,j i,j Xi Xj +
i<j
La mayora de las veces las condiciones de operacion optima de un sistema estan lejanas al
optimo real, entonces el objetivo de este metodo es moverse rapidamente hacia la curva de pendiente
del modelo(Vease Referencias [1],paginas 469-476).
El metodo de maxima pendiente en ascenso consiste en ejecutar una secuencia de experimentos
a lo largo de la lnea de maximo incremento de la respuesta. Si el modelo ajustado de primer orden es
adecuado, la informacion que este proporciona se utiliza para determinar una direccion en la cual se
espere observar mayores valores de la variable respuesta. A medida que se avanza sobre la superficie
ajustada en la direccion en que se incrementan los valores de la respuesta, el incremento en la respuesta
se estabilizara en el punto mas alto de la superficie ajustada.
y = 0 + ki=1 i Xi
174
6.24. Tabla de Resumen
Tipo de Diseno Caractersticas
Completamente aleatorio igual probabilidad
con un Factor sin bloque unidades homogeneas
175
6.25. Comentarios
Se puede inferir que los disenos de experimentos son explicados en gran parte por el capitulo
desarrollado con anterioridad, modelos lineales, ya por la eleccion del modelo como el estudio de los
supuestos. Otra relacion es con tecnicas de muestreo, ya que muchos disenos se basan en muestras,
las que pueden ser obtenidas a traves de las tecnicas explicadas en el capitulo de la disciplina, como
tambien con estadstica no parametrica, como el analisis de los residuos y comportamiento de las
observaciones. Tambien se relaciona con la siguiente tematica, series de cronologicas, como en el caso
de rectangulo latino, debido a su diseno aditivo de cuadrados latinos el cual posee un periodo, es por
esto que se pueden utilizar la disciplina ya mencionada para predecir o retropredecir la informacion
asociada, y en el analisis de residuos para los supuestos.
Con respecto al manual estadstico del ano 2000. Se corrigieron los disenos de cuadrados latinos,
cuadrados grecolatinos debido a que sus respectivas formulas de analisis de varianza presentaban
falencias. En tecnicas para abaratar costos, sintetizo y amplio el uso de los disenos fraccionados, que
debido a su forma puede ser utilizado en una gran variedad de disenos. Se complemento el proceso de
diseno del metodo Taguchi. Las tablas se redisenaron para una facil interpretacion.
176
Referencias
177
Captulo 7
Series Cronologicas
En los distintos campos de la investigacion cientfica los datos observados pueden estar influen-
ciados por la presencia de una variable temporal, este efecto provocado puede hacer que el modelo
entregado a traves de los Modelos Lineales no responda de manera satisfactoria el predecir el compor-
tamiento de la variable dependiente del tiempo, es por esto que se hace indispensable el estudio de
modelos mas dinamicos que respondan a esta inquietud. Este captulo abarcara un breve resumen de
las principales tematicas de las series cronologicas.
Como definicion formal se podria decir que una serie temporal es un conjunto de observaciones
las cuales son medidas en un tiempo especfico, donde existe algun tipo de relacion entre observacio-
nes sucesivas. Estas serie puede ser discreta o continua dependiendo como sea medida. Una serie de
tiempo discreta es aquel conjunto de datos donde cada observacion es medido en momentos puntuales
de tiempo. En cambio las series continuas son aquella donde la observacion se realiza en intervalos de
tiempo finito.
La correalacion obvia que se da al tomar una muestra de puntos en un espacio de tiempo res-
tringira el uso de los metodos de estadstica tradicionales que asumen que estas observaciones tomadas
son independientes e identicamente distribuidas. Esto nos lleva a usar el analisis de los datos a traves
de series temporales.
El enfoque del dominio del tiempo es generalmente motivado por la presuncion que la corre-
lacion entre los puntos y el tiempo es explicado de mejor manera en terminos de la dependencia de
los valores futuros con respecto a los valores pasados. Este enfoque se caracteriza por modelar ciertos
valores futuros de la serie de tiempo como una funcion parametrica de los valores presente y pasados.
En el analisis de series de tiempo uno puede determinar varios objetivos, estos pueden ser el
describir el comportamiento de los datos, predecir o retropredecir el comportamiento del fenomeno, etc.
178
7.1. Procesos Estocasticos
Funcion de medias: Funcion de medias del preceso, es una funcion del tiempo que propor-
ciona las medias de las distribuciones marginales de Zt , para cada instante.
E[Zt ] = t , t = 1, 2, ..., n
Proceso Estable: Si la funcion de medias es constante se dice que el proceso es estable, es
decir no presenta tendencia (creciente o decreciente).
Funcion de Varianzas: Funcion de varianzas del proceso es una funcion del tiempo que
proporciona las varianzas de las distribuciones marginales de Zt , para cada instante.
V[Zt ] = t2
Debemos recordar que la estructura de dependencia lineal entre las variables aleatorias se re-
presenta por las funciones de covarianzas y correlacion.
179
Proceso Estacionario Debil: Se dice que un proceso es estacionario debil, si es estable en
la media, varianza y covarianza.
t = = cte.
t2 = 2 = cte
Cov(t, t + h) =Cov(t, t h) = h , h Z.
Proceso Estacionario Estricto: Dado un conjunto de observaciones {Zt , t T }, se dice que
el proceso es estacionario estricto si la distribucion conjunta de (Zt , ..., Zk ) y (Zt+h , ..., Zk+h ) es la
misma para todo k 0 y h Z.
Si el proceso es estacionario se puede escribir la autocorrelacion como:
k
k =
0
donde 0 es la varianza del proceso.
Operador de Rezago: El operador de rezago o de retardo se define de la siguiente manera:
BZt = Zt1
B j Zt = Ztj
Zt = Zt Zt1
con = (1 B)
El operador de rezago y diferencias solo puede manipularse como funciones polinomiales.
Estacionalidad: Un tipo especial de no estacionaridad es la estacionalidad, entendiendo por
ello una pauta regular de comportamiento periodico de la serie.
Proceso de Ruido Blanco: Proceso ruido blanco es un proceso estacionario definido como:
E[t ] = 0
V[t ] = 2
Cov(t , t+k ) = 0
Caminata aleatoria: La caminata aleatoria simple sobre el conjunto de numeros enteros Z,
es un proceso estocastico a tiempo discreto {Xn : n = 0, 1, ...} que evolucionan como se observa en la
siguiente figura:
180
Es decir, iniciando en el estado 0, al siguiente tiempo el proceso puede pasar al estado +1
con probabilidad p o al estado 1 con probabilidad q, en donde p + q = 1. Se usa la misma regla
para los siguientes tiempos. El valor de Xn es el estado del proceso al tiempo n. Este porceso cambia
de un estado a otro en dos tiempos consecutivos de acuerdo a las posibilidades de transicion que se
muestran en la figura, valida para cualquier n , para cualquier entero i, j. Estas probabilidades se
pueden escribir de la siguiente manera:
p si j = i + 1
P (Xn+1 = j | Xn = i) = q si j = i 1
0 e.o.c
La caminata aleatoria se divide en dos tipos: sin variaciones(sin termino constante) y con
variaciones (con termino constante).
Caminata aleatoria sin variaciones: Supongamos que t es un proceso ruido blanco. Entonces, la
serie Yt es de caminata aleatoria si:
Yt = Yt1 + t
La caminata aleatoria sin variaciones cumple con:
E[Yt ] = Y0
V ar[Yt ] = t2
Este proceso se dice de memoria infinita ya que los shocks aleatorios sobreviven infinitos perio-
dos. Es interesante notar que la primera diferenciacion de este proceso vuelve la caminata en
estacionaria, ya que:
Yt = Yt Yt1 = t
Yt = + Yt1 + t
Donde es el parametro de variacion. En la definicion del proceso se nota que determina como
vara Yt . La caminata aleatoria con variaciones cumple con:
E[Yt ] = Y0 + t
V ar[Yt ] = t2
Ahora no solo la varianza cambia en el tiempo sino que la media depende del momento t.
Proceso Homogeneo de Orden h: Se dice que un proceso es homogeneo de orden h, cuando
al diferenciarlo h veces se obtiene un proceso estacionario.
181
7.2. Tecnicas de suavizamiento
Para poder predecir futuros valores, una de las mejores formas de explicar el comportamiento
de una variable suele ser el analisis de su tendencia a largo plazo, para ello se utiliza ajustes que
intentan suavizar los repentinos saltos que podria presentar las fluctuaciones de las series.
Este metodo es apropiado si los datos no presentan ninguna tendencia, se desplaza por un
valor medio a largo plazo.
Ft+1 = At + (1 )Ft .
Donde
Ft+1 : Prediccion periodo siguiente.
At : Valor real observado al tiempo t.
Ft : Prediccion hecha anteriormente para el periodo actual.
: Constante de suavizamiento (0, 1).
El objetivo es poder encontrar el valor de que minimice el error cuadratico medio(MSE), donde
(Ft At )2
P
M SE =
n1
Tambien conocido como metodo de Brown, lleva el nombre de doble porque se somete a la va-
riable a una doble operacion de alisado, se utiliza principalmente este metodo cuando existe tendencia,
pero no estacionalidad.
F 0 t + 1 = At + (1 )F 0 t
F 00 t+1 = F 0 t+1 + (1 )F 00 t
La prediccion viene dada por:
Yt+m|t = b0t + b1t m
Con m denominado horizonte de prediccion y donde:
b0t = 2F 0 t+1 F 00 t+1
b1t = (F 0 t+1 + F 00 t+1
1
Con (0, 1) constante. Aqui tambien se debe buscar el valor de que minimice el MSE.
182
7.2.4. Alisado Exponencial Doble de Holt-Winter
yt = (at + bt t) + t + t
Donde:
at = (yt tp )(1 )(at1 + bt1 )
bt = (at at1 ) + (1 )bt1
t = (yt at ) + (1 )tp
p: periodo
Para las predicciones de los modelos de suavizamiento exponencial simple y doble el intervalo
de confianza esta dada por:
(yt+m|t z(1 2 ) ECM gm ; yt+m|t + z(1 2 ) ECM gm )
#1
{1 + 4(1 ) + 5(1 )2 + 2(4 3)m + 22 m2 }
"
1+ (2)3
2
gm = 1,25 2 2
1 + (2) 3 {1 + 4(1 ) + 5(1 ) + 2(4 3)m + 2 }
Existen basiscamente tres enfoques para analizar las Series de Tiempo: Clasico, Box-Jenkins e
Ingenieril.
mt : Comportamiento de tendencia.
St : Comportamineto estacional o cclico.
t : Componente aleatorio.
Entonces,
Xt = mt + St + t
183
7.3.1.1. Estimacion de la tendencia en ausencia de la estacionalidad
Xt = mt + t
La idea es determinar un polinomio en t del tipo (a + bt + ct2 + ...), que se ajuste a la tendencia
general. Se pueden senalar los siguientes metodos para estimar los valores de a, b, c.
1er metodo: Ajuste de una funcion mt mediante mnimos cuadrados.
Por ejemplo si:
mt = at2 + bt + c mt = at2 + bt + c
luego,
Xt = mt + t
(Xt f (t))2 .
P
En general, la funcion que minimize a mt = f (t) es
2do metodo Estimacion mediante filtros lineales.
q
F iltro
X
{Xt } Xt0 = aqXt+r
r=q
1 Pq
Wt = 2q+1 r=q XT +r Filtro (si mt es lineal)
P
Wt = at Xt+1 Filtro (si mt es polinomico).
Cabe destacar que, el aplicar un filtro a una Serie de Tiempo hace posible extraer la tendencia
i.e, justamente lo que se queria predecir.
Anteriormente se han mencionado los dos metodos mas utilizados, lo que no implica que existan
otros.
184
7.3.1.2. Estimacion en presencia de la estacionalidad
Xt = mt + St + t Hipotesis E[t ] = 0
d
1X
mj = Xjk
d
k=1
Componente estacional:
d
1X
Sk = Xjk mj
d
j=1
Primero filtrar la serie para estimar la tendencia preliminar de los subperiodos de d. Poste-
riormente se calcula la estacionalidad por subperiodo (Wt ) permitiendo calcular la componente
estacional, mediante:
d
X 1
Sl = Wl Wj
d
j=1
185
7.3.2. Enfoque Box-Jenkins
Se basa en el hecho cierto , de que es posible obtener una serie estacionaria, a partir de una que
no lo es; mediante el uso del operador de diferenciacion. Para su uso, generalmente se debe disponer
de una Serie de Tiempo de mas de treinta observaciones.
Si el comportamiento estocastico de todas las series de tiempo fuera explicado en terminos de los
modelos de ruido blanco, los metodos de la estadstica clasica seran suficientes para explicar dicho
comportamiento.
Donde se denomina nivel del proceso, que en adelante asumiremos como nivel 0, al adoptar procesos
centrados.
As, al considerar B, operador de rezago (o retardo), se obtiene que:
X
Xt = (1 + j B j )wt = (B)wt
j=0
Para este tipo de procesos, la funcion de autocovarianza y su generadora estan dadas respec-
tivamente por:
X
k = Cov(Xt , Xt+k ) = 2 j j+k
j=0
X
(B) = k B k
j=0
k
Ademas la asociacion de valores k = 0 , tambien constituye una aplicacion, denominada fun-
cion de autocorrelacion.
Bajo ciertas condiciones, un proceso lineal general, puede ser reescrito de similar forma en
terminos de su propia historia (invertibilidad):
X
Xt = wt + j Xtj
j=1
186
lo que equivale a decir,
X
X
X
j
wt = Xt j Xtj = Xt j B Xt = (1 j B j )Xt = (B)Xt
j=1 j=1 j=1
187
7.3.2.1.2. Proceso de Medias Moviles (MA)
Sea {wt , t Z} un proceso ruido blanco, tal que wt RB(0, w2 ), entonces el proceso {X , t Z} se
t
que es un proceso Medias Moviles de orden q, M A(q) ssi exite 1 , ..., p , constantes tales que:
Los procesos M A(q) son estacionarios, ya que (B) es serie finita. Sin embargo, para que un
prceso de este tipo sea invertible, se debe cumplir que todas las raices del polinomio (B) se encuentran
fuera del circulo unitario (Vease Referencias [1], captulo 3, pagina 67).
Como Xt = (B)wt , se observa que Xt es una combinacion lineal finita de terminos ruido
blanco, por lo cual el proceso puede ser redefinido por
q
X
Xt = j wtj
j=0
(Para mayor informacion Vease Referencias [2], captulo 3, pagina 103 - 104)
188
En este modelo se establece la condicion de estacionaridad de un proceso autorregresivo si las races
del polinomio (B) = 0 estan fuera del crculo unitario, igual que la condicion de estacionaridad de
un AR(p), ademas, establece la condicion de invertibilidad si las raices del polinomio (B) = 0 estan
fuera del crculo unitario. (Vease Referencias [1], captulo 3, pagina 74).
Podemos representar el modelo ARM A(p, q) como una representacion M A() cuando las
raices del polinomio (B) estan fuera del circulo unitario, lo cual queda representado por
X
Xt = j wtj
j=0
Para clarificar un poco los conceptos, se toma un proceso ARM A(1, 1), donde la funcion de autoco-
varianza satisface
(k) (k 1) = 0, k > 1
entonces la solucion general es (k) = ck con k = 1, 2, ... y bajo las condiciones iniciales
2
(0) = (1) + w [1 + + 2 ]
2
(1) = (0) + w
resolviendo el sistema se obtiene:
2 1 + 2 + 2
(0) = w
1 2
2 (1 + )( + )
(1) = w
1 2
(1)
El valor de c obtenido es c = , entonces la solucion especfica para (k) es
2 (1 + )( + ) k1
(k) = w
1 2
189
Finalmente, dividiendo por (0) produce la funcion de autocorrelacion (ACF)
(1 + )( + ) k1
(k) = , h1
1 + 2 + 2
(Vease Referencias [2], captulo 3, pagina 104 - 105).
(11 B...p B p )(11 B S ...P B P S )(1B)d (1B S )D Xt = (1+1 B+...+q B q )(1+1 B S +...+Q B QS )wt
190
7.3.2.1.6. Proceso ARF IM A(p, d, q)
Este modelo se denomina proceso Autorregresivo Fraccionalmente Integrado de Medias Moviles, los
procesos ARFIMA permiten de manera relativamente simple la modelizacion de situaciones interme-
dias entre los modelos ARMA (estacionarios y con poca persistencia) y los modelos ARIMA (con races
unitarias y, por lo tanto las persistencias de los shocks hasta el infinito). Diremos que un proceso Xt
es integrado de orden d, y lo denotaremos por Xt I(d) si:
(1 B)d Xt = ut
191
1 X
Cov[c (k), c (h)] {(r)(r + h k) + (r k)(r + h)}
N r=
2m
X
2mk
Xi
1 X i=m+1
12 (k) = (Xik X2m )(Xi X2m ) con X2m = m
m
i=m+1
Si los valores de los parametros son no estacionarios, estos pueden estimarse mediante Yule-
Walker aproximado de los procesos autorregresivos sucesivos. As, una estimacion de la autocorrelacion
192
parcial, puede ser obtenida sustituyendo por estimadores rj de las autocorrelaciones teoricas, y resol-
viendo las ecuaciones:
rj = k1 rj1 + k2 rj2 + ... + kk rjr
con
(1) 1
p .. ..
= [(ij) ]i,j=1 , = . y = .
(p) p
193
7.3.2.3.2. Estimadores de los parametros del modelo ARM A(p, q)
En este caso se utilizan dos puntos importantes, estos son:
Analizando la funcion de auntocorrelacion parcial, se determina el orden p; lo cual se logra al
observar el mayor rezago, tal que (k0 ) 6= 0 en la parte autorregresiva.
Analizando la funcion de autocorrelacion simple (k) determinamos el orden q; considerando el
mayor rezago, tal que (k) 6= 0 para la parte de medias moviles.
Observacion:
1. Se procede de la misma manera para los proceso ARIM A(p, d, q) con la salvedad que habra que
diferenciarlos las veces que sea necesaria para volverla estacionaria, y calcular p, q de la misma
manera. El valor de d estara dado por la cantidad de veces que se diferencie la serie para volverla
estacionaria.
2. En el caso de los modelos SARIM A(p, d, q) (P, D, Q)S se procede de manera analoga se
diferencia para volver estacionaria la serie, se calculan P y Q observando los ACF y P ACF ,
para calcular P se observa el P ACF , el mayor numero de i i 6= 0 que se repitan entre los ciclos
es el valor de P , en el caso de Q se procede de la misma forma pero con respecto al ACF . Luego
se diferencia la serie con respecto a el periodo y se calcula D como la cantidad de veces que se
diferencia la serie para quitarle la estacionalidad. Luego se procede a calcular p y q del mismo
modo que en el caso del modelo ARM A(p, q).
Para verificar que el modelo se ajusta a los datos, se analizan los residuos y se ven si estos
forman un proceso meramente aleatorio. Suponiendo que la serie en particular ha sido modelado iden-
tificando sus parametros estimados, el problema es decidir cunado el modelo es adecuado.
Una vez aceptados los modelos que se ajustan razonablemente a los datos, se debe decidir, con
cual de ellos quedarnos, para ello disponemos de criterios, el principal de estos es:
194
donde = (1 , 2 , ..., p , 1 , ..., q ), y L() funcion de verosimilitud.
Para la eleccion de un modelo se suele elegir aquel que posea un AIC o un BIC mas cercano a 0.
Comunmente denominado enfoque ingenieril, supone que la serie de tiempo se puede descompo-
ner en distintas frecuencias permitiendo aislar aquellas que mas contribuyan a la variabiliad de la serie.
Previamente, se presento que para estudiar la evolucion temporal de una serie de tiempo, se
utilizan las funciones de autocovarianzas y autocorrelacion parcial las cuales entregan una idea de la es-
tructura de dependencia entre las variables aleatorias que forma, en funcion de su separacion temporal.
195
Definicion: Sea {Xt } un proceso estocastico estacionario con funcion de autocovarianza (k),
X
tal que |(k)| (converge absolutamente, esto es que (k) 0 cuando |k| ), entonces
k=
el espectro o funcion de densidad espectral de {Xt } se define por:
1 X
f (w) = x (k)eiwk
2
k=
( )
X (k)sen(k)
= 2 [ + ] + 2
k
k=1
con
Tambien se pueden encontrar las funciones de densidad y de distribucion expresadas en termi-
nos de la funcion de autocorrelacion:
f (w)
g(w) =
(0)
F ()
G() =
(0)
196
7.3.3.1. Como Abordar un Analisis Espectral en una Serie de Tiempo
Al graficar el periodograma versus la frecuencia, se obtiene un grafico que muestra los diversos
peaks; los cuales aportan a la variabiliadad de la serie.
197
Especficamente un modelo ARCH(r) esta definido como:
2 + ... + Z 2
Zt = ht t , con ht = 0 + 1 Zt1 r tr
donde {t } es una secuencia de variables aleatorias con media cero y varianza 1, y 0 > 0, i 0
para i > 0. Los coeficientes i deben satisfacer algunas condiciones de regularidad, para asegurar que
la varianza condicional de Zt es finita. En la practica, se suele asumir que t N (0, 1).
Algunas propiedades del modelo ARCH: Para entender los modelos ARCH, se debe estudiar
cuidadosamente el modelo ARCH(1), el cual esta definido de la siguiente manera
p
Z t = h t t
donde
2
ht = 0 + 1 Zt1
entonces se cumple que
E[Zt ] = E[E(Zt |Ft1 )] = 0
V ar[Zt ] = E[Zt2 ] = E[E(Zt |Ft1 )] = E[0 + 1 Zt1
2 ] = + E[Z 2 ]
0 1 t1
LLamado modelo ARCH generalizado, una serie de tiempo Zt sigue un modelo GARCH(r, s)
puro si p
Zt = hi t
con
r
X s
X
2
hi = 0 + i Zti + j htj
i=1 j=1
El proposito es considerar una aproximacion Bayesiana que pueda ser usada para estimar la
mayoria de los modelos univariados encontrados en la literarura.
198
asume que es positiva (Vease Referencias [3], captulo 11, pagina 288).
7.4.2.1. Estimacion
Considerando el modelo general, se toma p = max(p, u), q = max(q, v), se toman los valores
iniciales
Z0 = (Zp+1 , Zp+2 , ..., Z0 )0
a0 = (a q +1, aq+2 , ..., a0 )0
g0 = (gw+i , ..., g0 )0
= (Z00 , a00 , g00 , f0 , g0 )0
Entonces
E(Zt |Zt1 , ) = f (Zt1 , ..., Ztp ; at1 , ..., atq ) ft
V ar(Zt |Zt1 , ) = g 2 (Zt1 , ..., Ztu ; at1 , ..., atv ; gt1,...,qtw ) gt2
Dandose una distribucion a priori p(), el logaritmo de la funcion a posteriori sera porporcional
a
n
(Zt ft )2
1X 2
`(|Zn ) ln[p()] ln(2gt ) +
2
t=1
gt2
La habilidad para evaluar esta funcion a posteriori cumple un rol fundamental en la aproxima-
cion Bayesiana, por lo general esta posteriori incluye una gran cantidad de parametros por lo cual es
bastante dfcil de manejar. Existen distintos metodos para evaluar esta funcion, dependiendo el tipo
de funcion a priori (Vease Referencias [3] capitulo 11, pagina 288 - 294).
199
7.5. Tabla de Resumen
200
7.5.2. Estimacion de parametros modelos Box-Jenkins
Modelo Estimacion
201
7.6. Comentarios
Las Series Temporales, son un arma potente a la hora de enfrentar los problemas de modela-
cion que pueda dejar los modelos estaticos de Modelos Lineales. Son muy utilizados en el area de la
economia, ya que el tiempo influye de manera constante en la estimacion de valores.
Lo principal que se pude obtener de las series temporales es la obtencion de estimaciones futu-
ras, a traves del conocimiento del comportamiento pasado de la serie, esto hace que el ajuste a traves
de series de tiempo pueda dar informacion mas fidedigna de los posibles cambios futuros de la variable
de interes.
Para poder entender los procesos involucrados en Series de Tiempo, es necesario tener nocio-
nes de Modelos Lineales, ya que el enfoque del analisis de los errores es similar. Ademas existe una
comparacion entre los modelos estaticos de los Modelos Lineales y los modelos dinamicos de las Series
de Tiempo. Necesario es tambien tener conocimiento de la Estadstica no Parametrica y sus docimas,
as como tambien de la estadstica descriptiva.
La modelacion en las Series Temporales requiere de mucha ayuda computacional para la si-
mulacion de los datos y la aplicacion de modelos, en el siguiente capitulo se analizaran los principales
conceptos de la Simulacion Estadstica, los cuales son muy usados por la mayoria de los principales
lineamientos estadsticos, es una poderosa herramienta para la replicacion de experimento y el analisis
de estos.
Con respecto al manual del ano 2000 se ordenaron los topicos, se profundizo en la metodologa
Box-Jenkins, se le agrego una nueva seccion (Otros Enfoques).
202
Referencias
[1] Box and Jenkins. 1976. Time Series Analysis, Forecasting. Editorial Holden-Day.
[2] Shumway R. y Stoffer D. 1999. Time Series Analysis and Its Applications With R Examples.
Editorial Springer.
[3] Pena D. Tiao G. Tsay R. 2001. A Course in Time Series Analysis. Editorial Wiley.
[4] Wai W. 1990. Time Series Analysis: Univariate and Multivariate Methods. Editorial Addison-
Wesley.
[5] Brockwell and Davis. Time Series Analysis Theory and Methods. Editorial Springer-Varlag.
203
Captulo 8
Simulacion Estadstica
Debido a lo expuesto con anterioridad es que en este capitulo se abordaran diferentes tematicas
de la simulacion estadstica, ya que estas pueden ser utilizadas de forma provechosa en diferentes areas
de la estadstica, como en el caso de las diferentes formas de simular variables aleatorias, el calcular
de forma aproximada integrales, simular los procesos de Poisson (homogeneo o no homogeneo) o el
simular una lnea de espera, que se profundizaran en el desarrollo de este capitulo.
Para generar una variable aleatoria con cierta distribucion arbitraria, primero se deben generar
numeros aleatorios o pseudo-aleatorios, sobre los cuales se construiran dichas variables. Aunque en un
principio estos numeros fueron generados de forma manual o mecanica, con el tiempo se ha llegado a
utilizar las computadoras para lograrlo.
1. Uniformemente Distribuidas.
2. No correlacionados (estadsticamente independientes).
204
3. Su periodo o ciclo debe ser largo.
xn = axn1 modulo m
Donde a y m son enteros positivos dados y la cantidad xmn es llamada numero pseudo-aleatorio
y se considera como una aproximacion del valor de una variable aleatoria uniforme en (0, 1).
Se debe considerar que despues de cierto numero de valores generados, a lo mas m, algun valor
debe repetirse, por lo que las constantes a y m deben encontrarse de manera que para cualquier semilla
x0 el numero de variables que se pueda generar sin repeticiones sea lo suficientemente grande. Por este
motivo las constantes a y m deben satisfacer los siguientes criterios:
Para cualquier x0 , la sucesion resultante aparenta ser una sucesion de variables aleatorias inde-
pendientes y uniformes en (0, 1).
Para cualquier x0 , el numero de variables que se pueden generar antes de que comience la
repeticion es grande
Los valores que se pueden calcular de manera eficiente en una computadora digital.
En general, para cumplir las tres condiciones anteriores es que m debe ser un numero primo grande.
xn = (axn1 + c)modulo m
Se les llama as ya que tienen un termino aditivo y otro multiplicativo. Al ser empleados con frecuencia
se elige m como la longitud de la palabra de la computadora pues hace mas eficiente el calculo.
205
8.2. Generacion de variables aleatorias
x0 si U < p0
x si p 0 U < p0 + p1
1
.
.
.
j1
P Pj
U <
xj si
pi
i=1 i=1
Como P {a U b} = b a para 0 < a < b < 1, se tiene que:
j1
X j
X
{X = xj } = P { pi U < pi } = pj
i=1 i=1
El tiempo que tome generar la variable discreta depende proporcionalmente del numero de
intervalos en los que se realiza la busqueda.
206
8.2.0.2.1.1. Generacion de variables aleatorias Poisson
i
La variable aleatoria Poisson con media si pi = P {X = i} = e i! y la clave para aplicar el metodo
de la transformada inversa para generar esta variable aleatoria es la siguiente identidad,
pi+1 =pi
i+1
Para aprovechar la recursion, para generar la variable aleatoria, la cantidad i se refiere al valor en
cuestion; p = pi es la probabilidad de que X sea igual a i y F = F (i) es la probabilidad de que X sea
menor o igual a i para luego generar la variable Poisson de media con el siguiente algoritmo: Vease
Referencias [3], paginas 50.
5. Ir al paso 3.
De la misma manera, el numero de busquedas es 1 mas que el valor de la variable. Luego en promedio
se necesitan 1 + np busquedas para generar X con distribucion Binomial (n, p).
207
una constante tal que: Vease Referencias [3], pagina 53
pj
C, paratodopj > 0
qj
El algoritmo a utilizar es el siguiente:
P {X = j} = p1j + (1 )p2j , j 0
Donde 0 < < 1. Luego si consideramos X1 y X2 como variable aleatoria con funciones de masa {p1j }
y {p2j } respectivamente entonces se define X como:
X1 con probabilidad
X=
X2 con probabilidad (1 )
Por lo tanto, para generar el valor de X implementamos el siguiente algoritmo:
208
f (x)
g(x) c, x; c = Supx fg(x)
(x)
Este algoritmo entrega una variable aleatoria X con funcion de densidad f (x). La probabilidad
de aceptar un candidato generado por g es:
f (y) 1
p{U }=
cg(y) c
n
P n
P
F (x) = pi Fi (x) ; pi 0 y pi = 1
i=1 i=1
La tecnica tambien se puede usar si la funcion de densidad f (x) puede ser descompuesta como:
n
X
f (x) = pi fi (x)
i=1
209
8.3. Integrales mediante numeros aleatorios
Z 1
Caso 1: Suponga que se quiere calcular = g(x) dx, donde g :]0, 1[ , tambien que
0
U v U (0, 1), entonces se puede expresar , como = E[g(U )].
k
P
g(Ui ) E[g(U )] = ; cuando k
i=1
Por lo tanto se puede realizar una aproximacion de generando suficientes numeros aleatorios
ui y la aproximacion de es el promedio de g(ui ).
La Ley Fuerte de los Grandes Numeros:
Sea x1 , x2 , ? i.i.d. con E(xi ) = , V ar(xi ) = 2
n
Sn
P
np , donde S = n x i
i=1
La Ley Debil de los Grandes Numeros:
Sea x1 , x2 , ? i.i.d. con E|xi | < Snn C.S
Teorema Central del Lmite:
2
Sea x1 , x2 , ....i.i.d. con E(xi ) = , V ar(xi ) = , (x v N (0, n ))
z = n(x) D z v N (0, 1)
Z b
Caso 2:Si el objetivo es calcular = g(x) dx, donde g : [a, b] <, entonces al hacer la
a
xa dx
sustitucion y = ba dy = (ba) , entonces da como resultado:
Z 1 Z 1
= g(a + [b a]y)(b a) dy = h(y) dy
0 0
El primer objetivo es llevar al caso ]0, 1[, as se puede aproximar al generar numeros aleatorios
y luego considerar el valor promedio de h evaluada en estos numeros aleatorios.
Z
Caso 3:En este caso el objetivo es calcular el valor de = g(x) dx, haciendo esta vez la
0 Z 1
1 dx
sustitucion y = (x+1)2
, dy = (x+1)2 = y 2 para obtener la identidad, entonces = h(y) dy
0
g( y1 )1
donde h(y) = y2
Caso 4:Este es el caso mas evidente para aproximar integrales, y es la utilidad de los numeros
210
aleatorios. Se supone que g es una funcion con argumentos de dimension n, el objetivo es calcular:
Z 1 Z 1Z 1
= .... g(x1 , ...., xn ) dx1 dx2 ..... dxn
0 0 0
La clave del metodo de monte Carlo es que se puede dejar expresado como las esperanzas de cada
variable. Por lo tanto si se genera k conjuntos independientes, cada uno formado por n variables alea-
torias i.i.d. uniformes en (0, 1).
Es posible describir eventos mediante una funcion de conteo N (t)definida para t > 0, la cual
representa el numero de eventos que ocurren durante un periodo de tiempo [0, t]. Por lo tanto para
cada t el valor de N (t) es una variable aleatoria y la familia que conforman estas variables aleatorias,
conforman un proceso estocastico.
El proceso de conteo que es un proceso de valores enteros {N (t), t > 0}, es el que se cuenta el
numero de puntos que se encuentran en el intervalo, estos puntos deben estar distribuidos por algun
mecanismo estocastico. Vease Referencias [3], pagina 86.
Uno de los casos mas tpicos de un proceso de conteo corresponde al que se presenta a conti-
nuacion, en donde los puntos representan los tiempos v1 , v2 , v3 , ? en los cuales han ocurrido eventos
de un caracter especfico, donde T1 = v1 , T2 = v2 v1 , ? , Tn = vn vn1 son llamados los sucesivos
tiempos entre llegadas.
Sean una cantidad de eventos ocurridos en un intervalo de tiempo (0, ), con N (t) el numero
de eventos que ocurren en el intervalo (0, t], t > 0 y N (t + h) N (t) toma valores enteros y no nega-
tivos. Por lo tanto se tiene los siguientes axiomas para un proceso de homogeneo:
Axioma I: N (t) = 0
Axioma II: El proceso {N (t)}, t > 0 tiene incrementos independientes, es decir N (0) = 0
y t0 < t1 < t2 > ... > tn entonces N (t1 ) N (t0 ), N (t2 ) N (t1 ), ?, N (tn ) N (tn1 ) son
indendientes.
211
Axioma III: Para cualquier t 0:
P r{N (t + h) N (t) > 2}
(t) = lm =0
x0 P r{N (t + h) N (t) = 1}
212
6. I = I + 1; S(I) = t
7. Ir al paso 2.
Tambien llamadas de teoras de filas son comunes en sistemas informaticos, es el estudio ma-
tematico del comportamiento de lneas de espera. Tpicamente una cola tiene un servidor (o varios
de ellos) y una sala de espera (o buffer) finito o infinito. Estas se presentan cuando un numero de
clientesllegan a un lugar para obtener algun servicio el cual tiene una determinada capacidad de
atencion. En este contexto una cola es una lnea de espera de clientes y la teora de colas sera un
conjunto de modelos matematicos que describen estos sistemas de espera. Estos modelos se utilizan
para encontrar un buen ajuste entre los costos del sistema y los tiempos promedio de las lneas de
espera en un tiempo dado (Vease Referencias [4], pagina 493).
1. Una fila - un servidor - poblacion infinita: La disciplina de la fila es que el primero que
213
llega recibe el servicio (FIFO) y ademas la capacidad de la ?sala de espera? es infinita.
2. Una fila - un servidor - poblacion finita: Mas realista que la caracterizacion anterior, supone
que la ?sala de espera? tiene una capacidad limitada.
3. Una fila - servidores multiples en paralelo - poblacion infinita: Puede llegar un numero
infinito de clientes en espera a recibir un servicio de uno de los servidores que operan de manera
simultanea.
4. Una fila - servidores multiples en paralelo - poblacion finita: Analogo al caso anterior,
se diferencia de el porque llega una cantidad limitada de gente.
5. Filas con servidores multiples en serie: Caracterstico del sector productivo, donde todo
proceso requiere de una serie de actividades desarrolladas en serie (ensamblaje, luego pintura,
luego envoltura, etc.). Se rige por una poltica FIFO.
En general, son de gran interes los sistemas cuyo proceso de llegada corresponde a un proceso de
Poisson. Por lo que este tipo de sistemas son los que se abarcar en esta seccion. Para optimizar estos
sistemas, se deben definir una serie de variables aleatorias y no aleatorias que se encuentran en cada
una de las etapas del sistema:
1. i : es el tiempo que se requiere para que un cliente sea atendido (Interesa de manera particular
cuando se rige por una distribucion exponencial).
2. Wi : tiempo que debe esperar el cliente i-esimo para ser atendido.
3. Ti : tiempo total de permanencia en el sistema del cliente i-esimo. De las definiciones anteriores
podemos notar que:
Ti = Wi + i
N (t): Numero de personas en el sistema en el tiempo t.
A(t): Numero de personas que llegan al sistema en el tiempo t.
D(t): Numero de personas que abandonan el sistema en el tiempo t.
N (t): Numero medio de personas que estan en el sistema en el intervalo de tiempo [0, t].
T (t): tiempo medio gastado por el sistema para atender los A(t) primeros clientes.
214
8.4.1.1. Modelo M |M |s
Sea Pi la probabilidad de que el numero de personas que estan en el sistema en el tiempo t sea
igual a i,es decir Pi = P (N (t) = i), entonces:
Pi = Pi1 ; i = 1, ..., s, s + 1, ...
i
Luego, si P0 es la probabilidad inicial del proceso y se define p = se puede obtener de las ecuaciones
anteriores:
pis
Pi = is Ps
S
pis ps
Pi = is P0
S s!
Esto permite dejar las ecuaciones en terminos de la probabilidad inicial. Ademas es posible determinar
el valor de la probabilidad inicial de la forma:
1
P0 = s1
P pi ps s
i! + s!(sp)
i=0
215
8.4.1.2. Modelo M |G|s
Analogo al caso anterior tenemos este modelo, el cual presenta algunas diferencias con el an-
terior. En este caso el proceso de llegada tambien es Poisson homogeneo a tasa y los tiempos de
llegada siguen siendo exponenciales con s servidores, sin embargo los tiempos de atencion poseen una
distribucion cualquiera.
Los tiempos de atencion se pueden comportar de diversas maneras y tienen diferentes notacio-
nes, en general se pueden encontrar procesos en los cuales tengan una distribucion exponencial pero
no necesariamente sean independientes (M |M |s), que sigan una distribucion exponencial pero sean
independientes (M |GI|), que tengan una ley Erlang-k y sean independientes (M |Ek|s) o que sean
constantes (M |D|s).
Para analizar este modelo se utiliza la metodologa de la cadena de Markov, definiendo una
nueva variable aleatoria X(t) que sera el numero de clientes en el sistema en el instante t. Xn sera el
numero de personas en el sistema a la salida de la n-esima persona e Y(n+1) el numero de personas
que llegan al sistema durante el tiempo de atencion de la persona n + 1. Definiendo la indicatriz:
1 si Xn > 0
n =
0 si Xn < 0
Se puede establecer X(n+1) = Xn + Yn1 + n , una forma recursiva general. Luego el proceso
estocastico definido por Xn : n N0 es una cadena de Markov en tiempo discreto y por ende es posible
estudiar su matriz de transicion, estacionalidad y tomar valores esperados.
Por supuesto, existe un gran numero mas de modelos de sistemas de espera donde, por ejemplo,
los procesos de llegada ya no corresponden a un proceso Poisson homogeneo, sino que tiene una
distribucion cualquiera como lo son los modelos G|M |s, GI|M |s.
Metodo poderoso para generar un vector cuya distribucion es aproximada la de X, tiene como
ventaja de que la funcion de masa o densidad de X puede estar dada salvo una constante, multiplica-
tiva que es de gran importancia (Vease Referencias [3], pagina 218).
216
Luego si hay un conjunto de numeros Pij , i, j = 1, ?, N , tales que siempre que el proceso
este en el estado i, entonces de manera independiente a los estados pasados, la probabilidad de que el
siguiente estado sea j es Pij , entonces la coleccion Xn , n 0 es una cadena de Markov, con probabilidad
de transicion Pij i, j = 1, ?, N . Las probabilidades de transicion satisfacen:
N
X
i Pij ; j = 1, ..., N
i=1
Una cadena de Markov es irreductible si para cada par de estados i y jexsis te una probabilidad
positiva, so se parte del estado i, el proceso llega a estar al estado j. La fraccion de tiempo, j a largo
plazo que el proceso esta en el estado j. Se puede mostrar que j ,j = 1,? ,N
N
X
j = i Pij = 1; j = 1, ..., N
i=1
N
X
j = 1
j=1
Las j son las probabilidades estacionarias de la cadena de Markov, ya que si el inicial se distribuye
con {j }, entonces P {Xn = j} = j para todo n y j.
j = lm P {Xn = j}
n+
217
de masa de probabilidad:
b(j)
j = , j = 1, ...m
B
Una forma de simular una sucesion de variables aleatorias cuyas distribuciones convergen a j ,
consiste en determinar una cadena de Markov que sea facil de simular y cuyas probabilidades lmites
sean j .
Cuando Xn = i se genera una variable aleatoria X tal que P {X = j} = q(i, j),j = 1,? m. Si
X = j, entonces X(n+1) es igual a j con probabilidad (i, j) y es igual a i con probabilidad 1 (i, j).
Bajo estas condiciones, es facil ver que la sucesion es una cadena de Markov con probabilidades de
transicion Pij dadas por:
Esta cadena de Markov sera reversible en el tiempo y tendra probabilidades estacionarias pij , si:
Esto equivale a:
(j)q(j, i) b(j)q(j, i)
(i, j) = min( , 1) = min( , 1)
(i)q(i, j) b(i)q(i, j)
El algoritmo Hastiongs- Metropolis para generar una cadena de Markov reversible en el tiempo
cuyas probabilidades lmites son (j) = b(j)
B , j = 1, ?m
218
2. Sean n = 0 y X0 = k.
3. Generar una variable aleatoria X tal que P {X = j} = q(Xn , j) y generar un numero aleatorio
U.
[b(X)q(X,Xn )]
4. Si U < [b(Xn )q(Xn ,X)] , entonces N S = X, en caso contrario, N S = Xn .
5. n = n + 1, Xn = N S.
6. Ir al paso 3.
219
8.5. Tabla de Resumen
Simulacion Estadstica
Tecnicas de Simulacion Caractersticas
Generacion de variables aleatorias discretas Utilizar los metodos de trans-
formada inversa, aceptacion-
rechazo o composicion discre-
to
Generacion de variables aleatorias continuas Utilizar los metodos de trans-
formada inversa, aceptacion-
rechazo I y II.
Integrales Simular los valores a traves
del metodo Monte Carlo.
Procesos de Poisson - Si el proceso de conteo N(t)
tiene incrementos estaciona-
rios (Axioma V), se esta en
presencia de un Proceso de
Poisson No homogeneo.
- En un intervalo de tiempo
suficientemente pequeno,a lo
mas un evento puede ocurrir
(Axioma III).
Teora de Colas Se presentan cuando un
numero de clientes? llegan a
un lugar para obtener algun
servicio el cual tiene una
determinada capacidad de
atencion.
Modelo M |M |s Estos tienen un proceso de
llegada correspondiente a un
proceso de Poisson de parame-
tro , por lo que los tiem-
pos de llegada son variables
aleatorias i.i.d. con distribu-
cion exponencial de parame-
tro .
Modelo M |G|s A diferencia del anterior, se
cumple lo mismo pero los
tiempos de atencion tienen
una distribucion cualquiera.
220
8.6. Comentarios
Esta tematica es y puede ser utilizada en todas la areas explicadas y profundizadas en los
captulos anteriores, ya que la simulacion estadstica se puede adaptar a todas estas, como en el caso
de tecnicas de muestreo, ya que el proceso de muestrear se puede realizar a traves de una simulacion y
replicarlo varias veces (como lo son los muestreo por replicas), tambien en el caso de analizar residuos
se pueden hacer diferentes docimas y graficas para comprobar su naturaleza, tambien el realizar o
llevar a cabo diferentes metodos multivariantes (como el analisis de conglomerados) o en el caso de
series cronologicas las cuales estan relacionadas con los procesos estocasticos y el comportamiento
de sus residuos. La simulacion en su objetivo marca una tendencia de tratar de abarcar todas las
herramientas estadsticas para as ser un metodo optimo en el momento de enfrentar un problema o
abarcar alguna tematica en especfico de un estudio.
Esta disciplina del conocimiento de la estadstica no fue integrada en el Manual del ano 2000.
221
Referencias
[1] Jorge A. Timana Rojas. (2002). Introduccion a la Teora de Colas. Editorial Universidad de Piura.
[2] De Rolando Titiosky. (2007). Teora de Colas. UNI FIIS.
[3] Ross Sheldon M. (1999). Simulacion. 2a edicion. Prentice Hall.
[4] Ross Sheldon M. (2007). Introduction to Probability Models. 9a edicion. Elsevier.
222
Comentario Final
Las diferentes tecnicas o herramientas estadsticas presentadas con anterioridad ayudan a re-
solver o abordar diferentes problematicas presentadas en la realidad, las cuales tienen una estrecha
relacion en el desarrollo de cada una, como por ejemplo, el llevar a cabo una investigacion o estudio de
una determinada area psicologica, este requerira seguir la estructura del diseno y analisis de encuesta,
en el cual el investigador debe determinar la poblacion o alcance que tendran los resultados (como
la poblacion puede llegar a ser un factor de imposibilitar la investigacion se utiliza las tecnicas de
muestreo), tambien debe abordar el tipo de diseno (experimental o no experimental) en el cual si
es experimental se necesitara de un pleno conocimiento de los disenos de experimentos, luego para la
validez del instrumento aplicado en el paso anterior debera utilizar los procedimientos de la estadstica
no parametrica para validar las hipotesis.
Tambien se puede hacer un alcance a la relacion existente entre Modelos Lineales, Disenos de
Experimentos, Estadstica no Parametrica, en relacion a que el primero define partes teoricas impor-
tantes para validar modelos (adecuados o no adecuados), analizar las variables (tanto la dependiente
como las independientes) y ver que modelo es mas adecuado. En tanto, Disenos de Experimentos
abarca una expansion de los modelos estadsticos para buscar la relacion entre la variable explicada
y ciertos tratamientos (tambien bloques o interacciones), la cual debe cumplir con los supuestos de
normalidad, homocedasticidad y aleatoriedad en los residuos, los cuales son explicados en Modelos
Lineales para validar un modelo, en estos supuestos se puede relacionar la Estadstica no Parametri-
ca, como es en el caso de probar normalidad a traves del test Shapiro-Wilk o Kolmogorov-Smirnov,
tambien en el caso de probar la aleatoriedad de los residuos con el test de rachas.
En el caso de los Metodos Multivariantes, hay analisis que tiene relacion con diferentes areas,
como en el caso de ANOVA y analisis de contrastes relacionado directamente con Diseno de Experi-
mentos. Tambien estas tecnicas se pueden implementar para reducir variables (dimensionalidad) para
luego estudiarlas en un posible modelo estadstico (esto conlleva una optimizacion de recursos), en el
caso de agrupar individuos respecto a cualidades, se puede encontrar grupos que llegarian a ser mas
de interes en otro posible estudio en el cual se aborde cualquier tematica de las otras areas.
En el caso de Series de Tiempo tiene una relacion complementaria con Modelos Lineales, en el
caso de ver que modelo es mejor para ciertas problematicas que pueden ser resueltas por ambas (se
opta por la mas adecuada), de esta misma manera tambien se puede hacer un alcance al analisis de sus
supuestos, como en el caso de la homocedasticidad y aleatoriedad de los residuos, ya que mencionado
anteriormente se relaciona con la Estadstica no Parametrica, tambien en Modelos Lineales el analizar
el comportamiento de los residuos se puede realizar a traves de una serie de tiempo.
Los Modelos Lineales tienen una relacion con el Analisis Multivariante y Analisis de Encuesta
respecto a la regresion logstica.
Por ultimo, otro alcance que se puede hacer es Simulacion Estadstica, ya que esta tiene relacion
223
con los procesos estocasticos los cuales a su vez tienen una directa relacion con las Series de Tiempo,
a si mismo con el uso de procedimientos iterativos de muestreo para buscar proximidad en el estudio.
Es por esto que el dominar estas herramientas o tecnicas estadsticas son de gran importancia
para analizar problemas reales en el cual con un basto dominio de estas, se encontrara la solucion mas
optima y recomendable en el momento de tomar decisiones.
224
Aplicaciones
10.1. No Parametrica
En una casa de remate, se ponen a la venta tres tipos de piano del siglo XVIII: A, B, C. Una
tienda de antiguedades con el fin de elegir el mejor de los tres pianos para adherir a la coleccion de su
tienda, realiza una prueba, se selecciona a 10 personas especialistas en el tema, luego cada especialista
es llevado a un estudio, en el cual se le expone al sonido de cada uno de los pianos (por separado),
cada vez que se expona al sonido del piano, la persona deba evaluar la calidad del sonido, en una
escala del 1 al 10, en donde es de interes conocer cual de los pianos es mejor.
Procedimiento
1. Se trabajara con el software SPSS.
2. Se aplicara el test de Friedman el cual nos mostrara si existe evidencia para concluir que hay
diferencia entre los pianos.
3. Si se rechaza la hipotesis nula, sera necesario saber cual o cuales pianos difieren, para esto se
utilizara un test de Wilcoxon para cada combinacion de par de violines.
4. Para corroborar los principios del test de Wilcoxon sera necesario de manera previa aplicar un
test de rachas el cual nos indique si los datos fueron escogidos de manera azarosa o no.
La base de datos es la siguiente:
Para aplicar el test de Friedman sera necesario seleccionar la opcion test para k muestras
relacionadas
Luego seleccionamos la opcion test de Friedman
225
Con un nivel de significancia pequeno (< 0,05), rechazamos la hipotesis nula, lo cual significa que al
menos uno de los tres pianos difiere de los otros, luego:
Para la seleccion del test de Rachas, es necesario ir a la opcion de 2 muestras relacionadas.
226
Cuyos valores de significancia nos indican que no existe evidencia para rechazar la hipotesis nula, por
lo tanto se puede afirmar que los valores fueron seleccionados de manera aleatoria.
Para la seleccion del test de Wilcoxon, se debe seleccionar la opcion test para dos muestras
relacionadas.
Luego escoger todas las muestras posibles, marcando la opcion Wilcoxon.
227
Los valores de significancia son altos para los pares B-A y C-A, mientras que el par C-A tiene un valor
bajo, con lo que se puede concluir que solo hay diferencias entre el piano C y el A.
Se presentan las siguientes observaciones sobre los salarios mensuales de 935 hombres emplea-
dos en Estados Unidos entre otras variables de los cuales se desea determinar su ingreso medio bajo
muestreo aleatorio simple (m.a.s.) de 100 empleados.
Para realizar un diseno muestral se utilizara el software SPSS, de esta forma realizar en forma
particular un muestreo aleatorio simple. Los pasos a seguir son:
Analizar
228
Muestras complejas
Seleccionar una muestra
229
Ahora bien, se quiere determinar que tipo de metodo se quiere realizar, de esta manera apare-
ceran los siguientes disenos: Muestreo aleatorio simple, Sistematico simple, Secuencial simple, Proba-
bilidad proporcional al tamano, Muestreo sistematico proporcional al tamano y muestreo secuencial
proporcional al tamano. Como el caso que se abordara es Muestreo aleatorio simple se seleccionara esta
opcion y ademas con la cualidad de que esta sea Sin reposicion, quedando lo siguiente:
Una vez determinado el tipo de diseno, se abordara el saber el valor de la muestra asociada al
tamano poblacional, en este caso se determinara una muestra optima de 100 empleados, sin aplicarles
ningun costo asociado ni margen de error tolerable ya que si fuera as el tamano de la muestra sera
otro y solo se esta realizando un ejemplo general. Por ultimo quedara:
230
Existe la opcion de seguir el asistente de muestreo, as en las siguientes ventanas apareceran
si se guardan los tamanos de la poblacion, proporcion muestral, etc. Tambien si se quiere realizar
la segunda etapa, correspondiente al muestreo bi-etapico, algun tipo de semilla generadora de forma
aleatoria, incluir marco muestral cuando existen datos perdidos y finalmente guardar dicho plan de
muestreo.
Posteriormente, se dirigira al a:
Analizar
Muestras complejas
Descriptivos
Una vez abierta esta pantalla, se vera el archivo donde esta contenido el plan de muestras, que
por defecto es el que creamos, asi se procedera en:
231
Luego, se seleccionara que variable es de interes para estimar, en este caso sera el salario (wage)
e interesa calcular solo una estimacion de su media y un intervalo de confianza respectivo, de esta
forma se procedera a escoger la opcion Estadsticos
En esta parte aparecera las correspondientes estimaciones tanto para la media y tamano de la
poblacion, as como su intervalo de confianza con el respectivo nivel de significancian. As, se seleccio-
nara continuar y luego aceptar lo cual entregara el siguiente resumen:
232
La pregunta es: como saber si esta estimacion es cercana a la estimacion media de la po-
blacion?. Luego, esta pregunta se puede responder en Analizar Estadsticos Descriptivos
Descriptivos Opciones
De esta manera, al concretar esta opcion entregara el valor medio de la poblacion, el cual es
el siguiente:
Como este valor esta nstuo en el intervalo de confianza de la estimacion, se puede decir con
seguridad que una muestra de 100 personas estima de buena manera la media del salario de los
empleados.
Se desea simular la entrada al centro de atencion Almacenes Paris, en donde por lo general
se forman colas en los modulos. Para este caso estudiaremos la atencion de la tienda basandonos
solo en el uso de dos modulos, los que luego de ser atendidos en alguno de los modulos pasaran a
ser atendidos por una caja, el horario de atencion sera de las 8 : 00 AM hasta las 14 : 00 PM para
determinar cuantas personas entran en este determinado tiempo, simulando mediante un proceso de
Poisson dado, utilizando el software Arena.
Las tasas de atencion para este ejemplo seran fijadas de forma arbitraria, estas tasas se fijan
de la siguiente manera (ver figura):
233
Haciendo doble clic sobre el recuadro de Llegadas de clientes.
En la variable Name seleccionamos un nombre para nuestra entidad.
En la variable Entity Type, seleccionamos por defecto entity 1 que corresponde al inicio del
sistema.
En la variable Type, seleccionamos como van a estar distribuidos los tiempos entre llegadas.
En la variable Expression, seleccionamos los parametros asociados al tiempo entre llegadas.
En la variable Units, seleccionamos las unidades entre llegadas (das, horas, minutos, etc.)
En la variable Entities per Arrival, seleccionamos el numero de entidades por llegadas.
En la variable Max Arrival, seleccionamos el maximo numero de entidades por llegadas.
En la variable First creation, seleccionamos el instante de la primera llegada.
Nos podemos dar cuenta que a las 11:06 AM han ingresado 64 clientes de los cuales 28 han sido
atendidos por el modulo 1 y 36 por el modulo 2. Ademas han salido del sistema tan solo 60 clientes
de los 64 que han ingresado por lo cual 4 clientes se encuentran dentro del sistema, como lo muestra
la siguiente figura.
234
Una vez que termina el horario de atencion ejecutamos el programa para realizar un analisis mas
detallado, para esto seleccionamos las siguientes opciones:
1. El numero de clientes que salieron del sistema fueron 160, al observar el Number out del sistema.
2. El Va time, nos indica el tiempo promedio que pasa el cliente dentro del sistemade donde te-
nemos que es igual a 3.954 minutos (0.06585910 horas).
El Wait time, nos indica el tiempo que espera el cliente dentro del sistema para ser atendido el
cual es igual a 3.492 minutos (0.05824352 horas).
235
Y el Total time, nos indica el tiempo medio que el cliente demora en su atencion total dentro
del sistema este es igual a 7.446 minutos (0.1241 horas).
3. El numero de clientes que ingresaron al sistema son 173 pero solamente 160 clientes terminaron
de ser atendidos antes de las 14 : 00 PM. Ademas el numero de clientes que se encuentran dentro
del sistema en promedio son 5 clientes aproximadamente (W IP = 4,25), al observar el Half
wicth este nos indica que hay una correlacion entre las salidas.
4. De la variable VA time per entity, podemos observar que el tiempo promedio que pasa un cliente
en caja es de 1.39 minutos (0.0232 horas), en el modulo 1 es de 2.18 minutos (0.03642 horas) y el
tiempo que pasa en el modulo 2 es de 2.94 minutos (0.04914 horas). Del Half wicth obtenemos
(insufficient) para establecer intervalos de confianza, debido a que el numero de clientes que
ingresa al sistema no es suficiente. Y el cliente que mas rapido fue atendido en caja fue con un
tiempo de 0.32 segundos (0.000087 horas) y el cliente que mas demoro en pagar en caja fue de
9 minutos (0.15 horas).
De la variable Wait time per entity el tiempo promedio de espera por los clientes para pasar a
caja es de 3.49 minutos (0.0582 horas).
De la variable Total time per entity, tenemos que: al formarse colas en las cajas el tiempo
promedio que el cliente demora entre hacer la fila y pagar en esta es de 4.88 minutos (0.08144
horas), como en el modulo 1 y 2 no se forman colas para pasar por estos modulos ya que la
atencion es rapida el tiempo promedio de atencion de estos modulos son 2.16 (0.036 horas) y
2.94 (0.049 horas) minutos respectivamente.
236
Ademas a traves del Number waiting sabemos que el numero medio de personas que estan en
la cola son 3 personas aproximadamente.
5. Al modulo 1 ingresaron 83 personas antes de las 14:00 PM pero atendio solamente a 81 clientes,
en cambio al modulo 2 ingresaron 90 clientes antes de las 14:00 PM pero atendio solamente a 88
clientes y a caja ingresaron 169 clientes pero atendieron solamente a 160 clientes como se puede
apreciar en el siguiente grafico.
Por lo tanto la atencion de los modulos es mas rapida que la atencion prestada en caja, a partir
de esto podemos decir que el sistema funciona dentro de lo normal ya que en ningun momen-
to el sistema colapsa, pero se podra mejorar capacitando mejor al cajero(a) o abriendo otra caja.
237
10.4. Series Cronologicas
Se tratara de aplicar la metodologia a la base de datos de la Base Monetaria del pas observada
desde enero de 1991 hasta Noviembre de 2011 (Base de datos entregada por el Banco Central). Se vera
que tipo de modelo se ajusta y de que observaciones dependen las observaciones futuras. Se utilizara
el software R-Guide para realizar los procesos.
Lo primero que se realiza es graficar la serie con el fin de poder observar si existe estacionalidad
y ver si tiene tendencia.
En este grafico se observa que la variable no presenta estacinalidad y tiene un tendencia creciente, por
ende no es estacionaria. Ademas se nota que la puede presentar problemas de heterocedasticidad, por
lo cual se procede a aplicar una transformacion con el fin de estabilizar la varianza. Luego de hacer
una comparacion se decide realizar una transformacion logaritmica, y se grafica ACF y PACF de la
variable normal y transformada para ver si la transformacion afecto la correlacion de la variable.
238
Se procede a diferenciar la serie para volverla estacionaria, y tratar de encontrar los parametros
p y q que mejor expliquen el modelo. se grafica nuevamente el ACF y PACF y se observan los rezagos,
Se llega a la conclucion que los parametros del modelo sonp = 1, q = 4 y como se diferencio solo una
vez la serie d = 1. Ahora se realiza una simulacion de este modelo y se analizan los supuestos de los
errores. con lo que se llega a
239
X2 Gl p-valor
Box-Pierce 1, 7195 1 0, 1898
Box-Ljung 1, 7401 1 0, 1871
Se llega a la conclusion de que los errores distribuyen ruido blanco y que el modelo es aceptable.
Para realizar este analisis se utilizaron los siguiente comandos para el programa R-Guide.
library(car)
library(MASS)
w<-read.table("base_monetaria1.txt", header=T, dec=",")
w<-ts(w)
w
plot.ts(w,main="Base Monetaria",xlab="Ene.1991
- Nov.2011", ylab="Valor Base Monetaria (miles de millones)")
###########TRANSFORMACION######################################
w1<-log(w)
w1
plot.ts(w1,main="Base Monetaria Transformada"
,xlab="Ene.1991 - Nov.2011", ylab="Log(Valor Base Monetaria)")
240
r<-boxcox(w~t+t1)
names(r)
r$x
max(r$x)
max(r$y)
r$y
r$x[58]
w2<- ((w^r$x[58])-1)/r$x[58]
w2
par(mfrow=c(2,1))
plot.ts(w1,main="Base Monetaria Transformada (log)"
,xlab="Ene.1991 - Nov.2011", ylab="Valor Base Monetaria (miles de millones)")
plot.ts(w2,main="Base Monetaria Transformada (boxcox)"
,xlab="Ene.1991 - Nov.2011", ylab="Valor Base Monetaria (miles de millones)")
########################################################
########Diferenciacion de la serie######################
dw<-diff(w1)
plot.ts(dw,main="diferenciacion Base monetaria",
xlab="Ene.1991 - Nov.2011", ylab="Log(Valor Base Monetaria)")
par(mfrow=c(2,1))
acf(dw, main="Base Monetaria Transformada",lag.max=100)
pacf(dw, main="Base Monetaria Transformada",lag.max=100)
tsdiag(mo)
Box.test(mo$res,type="Box-Pierce")
Box.test(mo$res,type="Ljung")
#####################################################################
Se tratara de estudiar el efecto de la masa de polvo PM-2,5 y PM-10 en las muertes de menores
de 65 anos, la base de datos recogida consta de 52 variables, y los datos fueron recogidos desde el 01
de enero y terminando el 31 de Diciembre de 2008 (Base de Datos proporcionada por el INE). Las
variables entan codificadas en la siguiente tabla:
241
Codigo Variable Nombre de Variable
diasem Indicadora dia de la semana (1-7)
corr Da correlativo
corr2 Da correlativo al cuadrado
seno Componente seno modelo armonico
cos Componentente coseno modelo armonico
ca Mortalidad diaria por cancer
cv Mortalidad diaria por enfermedad cardiovascular
res Mortalidad diaria enfermedad respiratoria
mmen65 Mortalidad diaria menores de 65 anos
mmay65 Mortalidad diaria mayores de 65 anos
mp25 Concentracion diaria de particulas MP 2,5
prommp25 Promedio de concentracion MP 2,5
mp10 Concentracion diaria de particulas MP 10
tem Temperatura
temcuad Temperatura cuadrado
hr Humedad relativa
vind Indicadora de presencia de virus
vcasos Numero de casos de virus
vpro Proporcion de virus
ptotal Poblacion total
pmen65 Poblacion menores de 65 anos
pmay65 Poblacion mayores de 65 anos
lnptotal Logaritmo natural de la poblacion
Para realizar el analisis se utilizara el software R-Guide, para el analisis de los supuestos se
realizara una manera grafica y se utilizara la docima de Kolmogorov-Smirnov para chequear normali-
dad, el test de Breush-Pagan para la homocedasticidad y el test de Box-Pierce para Autocorrelacion.
Se realizara una Regresion Poisson para tratar de explicar si la tasa de muertes de personas
menores de 65 anos esta relacionado con la cantidad de material particulado en el aire, con variable
of f set = ln(pmen65), se utilizara un modelo armonico para tratar la estacionaridad de la variable
diasem.
En este modelo se buscara la explicar la taza me muertes de personas menores de 65 anos.
Como se aplico anteriormente utilizaremos una matriz de correlaciones para analizar la asociacion de
esta variales con respecto a mi variables respuesta.
diasem mp10 mp25 tem hr vind
res 0,0393 0,0655 0,1275 0,1354 0,02146 0,1828
La asociacion de estas variables con respecto a la variable de respuesta no es tan alta, pero se
analizara si al momento de crear un modelo la influencia de estas variables las vuelve significativas.
A continuacion se presentara las variables del modelo con sus respectivos coef, IRR, sd(coef),
Z y p-valor:
242
Variable Coef. IRR Sd.(coef.) Z p-valor
diasem2 0,0317 0,9687 0,0178 1,77 0,076
diasem3 0,0787 0,9242 0,0185 4,26 0,000
diasem4 0,1193 0,8874 0,0186 6,41 0,000
diasem5 0,1261 0,8814 0,0188 6,68 0,000
diasem6 0,0879 0,9158 0,0184 4,75 0,000
diasem7 0,0179 1,0180 0,0176 1,01 0,310
corr 0,0000 0,9999 0,0000 0,67 0,502
corr2 1,70e08 1 1,98e08 0,86 0,391
cos 0,0461 0,9549 0,0170 2,70 0,007
seno 0,0173 0,9827 0,0081 2,13 0,033
mp25 0,0029 1,0029 0,0012 2,46 0,014
mp10 0,0015 0,9984 0,0006 2,34 0,019
tem 0,0328 0,9676 0,0070 4,70 0,000
hr 0,0018 0,9981 0,0006 2,86 0,004
vind 0,0673 1,0696 0,0140 4,78 0,000
temcua 0,0010 1,0010 0,0002 4,95 0,000
cons 11,94 0,0794 150,37 0,000
of f set = ln(pmen65)
En el modelo se puede observar que las variables M P10 y M P2,5 son significativas, lo que quiere
decir que inciden en la mortalidad de personas menores de 65 anos. Teniendo en cuenta al igual que en
el caso anterior tiene una relacion directa, lo que quiere decir que a mayor material paticulado mayor
sera el peligro de mortalidad de personas menores de 65 anos. La variable mas peligrosa es M P2,5
por ser material particulado muy pequeno el cual puede llegar a los pulmones e inlcuso al torrente
sanguineo.
Analisis de supuestos:
243
Normalidad Homoedasticidad Autocorrelacion
P-valor 2,2e16 0,2634 0,06566
no damos cuenta que el supuesto de normalidad no se cumple en cambio el de homocedasticidad
se cumple y bajo un nivel de significacion de 5 % tambien se cumpliria el supuesto de autocorrelacion
y podria haber cierta normalidad observada cualitativamente en los residuos.
Se utilzaron las siguiente funciones de R-Guide
library(MASS)
library(car)
library(lmtest, pos=4)
library(tseries)
w<-read.table("variable10.txt", header=T, dec="," )
attach(w)
names(w)
c<-matrix(c(mmen65,diasem,mp10,mp25,hr,tem ,vind ),ncol=7)
c
cor(c)
m3<-glm(mmen65~diasem2+diasem3+diasem4+diasem5+diasem6+diasem7+
corr+corr2+cos+sen+mp10+mp25+hr+tem+temcuad+
vind+offset(lnpmay65), family=poisson(), data=w)
m3.1<-glm(mmen65~diasem2+diasem3+diasem4+diasem5+diasem6+diasem7+
corr+corr2+cos+sen+mp10+mp25+
vind+offset(lnpmay65), family=poisson(), data=w)
m3
m3.1
summary(m3)
summary(m3.1)
##########ANALISIS DE SUPUESTOS#####################
p3<-predict(m3)
par(mfrow=c(3,2))
hist(m3$residuals, col="dark blue",
main="Residuos de Devianza Modelo ", xlab="Residuos", ylab="frecuencias")
qqnorm(m3$residuals)
qqline(m3$residuals)
244
shapiro.test(m3$residuals)
#######Homocedasticidad Breucsh-Pagan#############################
bptest(m3)
##########Autocorrelacion(Ruido Blanco) Box-Pierce#######################
Box.test(m3$residuals)
##########Test de rachas Independencia###################################
runs.test(as.factor(m3$residuals > median(m3$residuals)))
La mayora de los problemas de diseno de experimentos se podran resolver usando este camino
en el software. Aqu seleccionaremos las variables dependientes (la variable respuesta) y los factores
fijos, o aleatorios que tengamos.
Construccion de tabla ANOVA
Modelo: identificamos si es un modelo con o sin interaccion (Factorial completo o Personalizado,
respectivamente), por defecto el programa ajusta un modelo factorial completo, es decir, considera-
mos todos los factores y las interacciones posibles entre estos. Pero si seleccionamos personalizado,
podremos especificar los efectos que apareceran en la tabla Anova Luego, se presentara el resultado
de la tabla anova, aqu podremos analizar efectos significativos en el experimento.
Analisis Grafico
Graficos: Se podran observar los graficos de perfil, con los que podemos analizar graficamente
las interacciones entre los factores. Tendremos que especificar: En el eje Horizontal agregar el factor
que queramos ver representado en el, en lneas distintas se especifica el segundo factor, cuyos niveles
los representaran las lneas del grafico
Comparaciones Multiples
Post hoc: Aqu es posible realizar comparaciones multiples entre pares de medias, en contras-
tes post hoc para, tenemos que indicar los factores para los cuales queremos realizar comparaciones
multiples. Se podran seleccionar los distintos metodos con los cuales podremos realizar comparaciones,
las mas utilizadas Scheffe, Tukey, Duncan, etc.
Valores Pronosticados y Residuos
245
Guardar: si seleccionamos valores pronosticados no tipificados y residuos no tipificado estare-
mos guardando los datos de los valores predichos y los errores, los cuales podemos graficar para ver si
se presenta algun tipo de interaccion.
aov(formula): entrega la ANOVA del modelo. formula: establece la formula a ocupar, donde
estas pueden ser: Y A + B: diseno aditivo, un factor (fijo o aleatorio) y un bloque.
Y ABC: diseno factorial con 3 factores (fijos o aleatorios) con Y como variable dependiente
.
Y A + B + C: diseno aditivo, cuadrado latino.
Y A : B : diseno anidado con 2 factores .
Y A B : C :diseno anidado cruzado plot.design aov formula: establece el grafico de las
interacciones del modelo.
TukeyHSD modelo(A) ordered = TRUE: nos da las comparaciones multiples que puede tener
el modelo con un factor determinado.
3. Haga clic en Mostrar disenos disponibles. Para la mayora de los tipos de disenos,Minitab muestra
todos los disenos posibles y el numero de ejecuciones requeridas en el cuadro de dialogo Mostrar
disenos disponibles.
2.png
4. Haga clic en Aceptar para volver al cuadro de dialogo principal.
5. En Tipo de diseno, elija el diseno que quiere realizar
6. En Numero de factores, elija la cantidad de factores.
7. Haga clic en Disenos. El cuadro de la parte superior muestra todos los disenos disponibles para
el tipo de diseno y la cantidad de factores que selecciono.
246
8. En Numero de replicas para puntos axiales, elija numero de replicas.
9. Haga clic en Aceptar para volver al cuadro de dialogo principal. Note que Minitab activa los
botones restantes.
1. Componentes principales en R
1.- possum.pre <- princomp(na.omit(possum[,6:14]))
2.- summary(possum.pre)
En 1.- la sentencia permite obtener las componentes y en 2.- la proporcion explicada por cada
variable
2. Analisis de Correspondencia en R El programa permite graficar este analisis, y con ello obtener
las categoras relacionadas
library(lattice)
data (possum) # DAAG package
colr <- c("red", "blue")
pchr <- c(1,3,6,0,5,6,17)
ss <- expand.grid(site=1:7,sex=1:2) # Site varies fastest
ss$sexsite <- paste (ss$sex, ss$site, sep="-") # Site varies fastest
sexsite <- paste (possum$sex, possum$site, sep="-")
splom(~possum[, c(9:11)], panel= panel.superpose,groups=sexsite,col=colr[ss$sex],
pch=pchr[ss$site], varnames=c("tail\nlength", "foot\nlength","ear conch\nlength"),
key=list(points=list(pch=pchr), text=list(c ("Cambarville","Bellbird","Whian
Whian","Byrangery","Conondale","Allyn River","Bulburin")), columns=4))
3. Analisis discriminante en R Este programa permite identificar los grupos, con sus respectiva
probabilidades de cometer un error de asignacion y se obtiene los coeficientes discriminantes
lineales que se utiliza para la formulacion de la ecuacion de seleccion
library (MASS)
data (leafshape17) # DAAG package
leaf17.lda <- lda(arch~logwid+loglen, data=leafshape17)
leaf17.hat <- predict(leaf17.lda)
leaf17.lda
4. Cluster en R 1.- Este programa permite observar el dendograma
247
swiss.px <- predict(swiss.pca)
dimnames(km$centers)[[2]] <- dimnames(swiss.x)[[2]]
swiss.centers <- predict(swiss.pca, km$centers)
eqscplot(swiss.px[, 1:2], type = "n",
xlab = "first principal component",
ylab = "second principal component")
text(swiss.px[, 1:2], labels = km$cluster)
points(swiss.centers[,1:2], pch = 3, cex = 3)
identify(swiss.px[, 1:2], cex = 0.5)
6. Manova (s- plus) 1.- solucion < manova(resp diseno,data=frame). 2.- summary(solucion)
En 1.- La funcion devuelve (en solucion) un objeto de tipo maov, cuyas componentes pueden
examinarse mediante
Se analisara la base de datos IRIS incluida en freeware R.
library(MASS) library(mda) library(subselect)
Ejemplo Data Iris
data(iris3)
Iris <- data.frame(rbind(iris3[,,1], iris3[,,2], iris3[,,3]),
Sp = rep(c("s","c","v"), rep(50,3)))
train <- sample(1:150, 75)
table(Iris$Sp[train])
z <- lda(Sp ~ ., Iris, prior = c(1,1,1)/3, subset = train)
## 1ero. las probabilidades 2do. los promedios de los grupos o los centroides.
3ero. las funciones discriminantes. 4to. la proporcion explicada.
z
predict(z, Iris[-train, ])#$class
## arroja las probabilidades a posteriori de cada sujeto. mas abajo tira los score.
data(iris)
248
irisfit <- fda(Species ~ ., data = iris)
irisfit
confusion(irisfit, iris)
confusion(predict(irisfit, iris), iris$Species)
plot(irisfit)
coef(irisfit)
Se puede observa claramente como ajusta a sus respectivas poblaciones los tipos de petalos.
Ademas de observar los estimadores de confusion , las probabilidades asociadas entre otros facto-
res(Anexo).
Como se observa los grupos estan divididos por clase y practicamente no existe interaccion
entre los grupos, esto se puede corroborar observando la variable de confusion , la cual nos dice que si
es menor al 10 % los datos estan bien clasificados.
Aplicacion analisis de correspondencia
# Se introduce la tabla
sex<-matrix(c(21,21,14,13,8,8,9,6,8,2,2,3,4,10,10),ncol=5,byrow=TRUE)
# Se calculan los porcentajes
ncol<-5
nrow<-3
n<-sum(sex)
rtot<-apply(sex,1,sum)
ctot<-apply(sex,2,sum)
xrtot<-cbind(rtot,rtot,rtot,rtot,rtot)
xctot<-rbind(ctot,ctot,ctot)
xrtot<-sex/xrtot
xctot<-sex/xctot
rdot<-rtot/n
cdot<-ctot/n
# Se calculan las matrices de distancias entre columnas
dcols<-matrix(0,ncol,ncol)
for(i in 1:ncol){
for(j in 1:ncol){d<-0
for(k in 1:nrow) d<-d+(xctot[k,i]-xctot[k,j])^2/rdot[k]
dcols[i,j]<-sqrt(d)}}
# Se calculan las matrices de distancias entre filas
drows<-matrix(0,nrow,nrow)
249
for(i in 1:nrow){
for(j in 1:nrow){d<-0
for(k in 1:ncol) d<-d+(xrtot[i,k]-xrtot[j,k])^2/cdot[k]
drows[i,j]<-sqrt(d)}}
# Se aplica el MDS metrico
r1<-cmdscale(dcols,eig=TRUE)
r1$points
r1$eig
c1<-cmdscale(drows,eig=TRUE)
c1$points
c1$eig
xrtot
# Se dibujan las coordenadas en un dos dimensiones
par(pty="s")
plot(r1$points,xlim=range(r1$points[,1],c1$points[,1]),ylim=range(r1$p
oints[,1],c1$points[,1]),type="n",
xlab="Coordenada 1",ylab="Coordenada 2",lwd=2)
text(r1$points,labels=c("ED1","ED2","ED3","ED4","ED5"),lwd=2)
text(c1$points,labels=c("Nopar","parnS","parS"),lwd=4)
abline(h=0,lty=2)
abline(v=0,lty=2)
Se tiene una encuesta anonima realizada a 28 cursos de una entidad educacional universitaria.
Este instrumento de medicion esta constituido por cuatro conjuntos de tems:
Contexto Instruccional
Contexto Regulativo
Contexto Imaginativo y creativo
Contexto Interpersonal
250
Donde cada conjunto hace referencia a los diferentes fenomenos que ocurren dentro del clima escolar,
sin embargo los tems no se encuentran ordenados segun el contexto que miden. Se trabajara con el
software XLSTAT.
Los tems estan formulados para que los alumnos respondan verdadero (1) o falso (0), con respecto a
lo que se les exponga. Por lo cual se realizara un analisis factorial usando la matriz de correlaciones
policoricas.
Analisis descriptivo
Se encontro que alumnos no contestaron ninguna pregunta de la encuesta(< 0,4 %) y por ende
se eliminaron ya que no contribuan al analisis.
Analisis factorial
Nos sirve para analizar la validez de constructo ya que este, a partir de un conjunto de variables
observadas, nos permite reducir la redundancia de informacion y explicar esta mediante un conjunto
mas pequeno de variables o factores.
251
Se eligio el metodo de componentes principales para la extraccion de los factores, esta se basa en
suponer que los factores comunes explican el comportamiento de las variables originales en su totalidad.
Para probar si tiene o no sentido utilizar el analisis factorial utilizamos el test de Bartlett.
252
Se eligio rotar los ejes de los factores, con el objetivo de maximizar la variabilidad entre las cargas
factoriales y as visualizar de una mejor manera las ponderaciones de cada tem, por lo cual el efecto
que produce la rotacion es redistribuir la varianza para lograr factores mas notorios.
La rotacion usada para los analisis fue Rotacion Varimax, puesto que tiene como caracterstica
el permitir obtener cargas mas extremas, indicando notoriamente una asociacion positiva o negativa
entre los tems y el factor.
La rotacion deja claramente definidos a los factores organizacionales que se queran revelar.
253
Factor 1: Contexto Instruccional, con 8 tems.
Factor 2: Contexto Regulativo, con 9 tems.
Factor 3: Contexto Imaginativo y creativo, con 6 tems.
Factor 4: Contexto Interpersonal, con 6 tems.
254
Validacion de la encuesta
Validez de los tems: se refiere al grado en que un instrumento realmente mide la variable
que pretende medir.
Conclusion
255
Anexo
256
11.2. TABLA B. Distribucion Normal
257
11.3. TABLA C. Distribucion T-Student
258
11.4. TABLA D. Prueba U de Mann-Whitney
259
11.5. TABLA E. Distribucion Binomial
260
261
262
263
264
265
11.6. TABLA F. Wald-Wolfowitz de valores crticos para prueba de
rachas
266
11.7. TABLA G. Signos rankeados de Wilcoxon
267
268
11.8. TABLA H. Para diferencias de Kolmogorov-Smirnov
269
11.10. TABLA J. Para dos muestras de Kolmogorov-Smirnov (Bi-
direccional)
270
11.11. TABLA K. Friedman
271
11.12. TABLA L. Kruskal-Wallis
272
11.13. TABLA M. Coeficiente de correlacion de Spearman
273
11.15. TABLA O. Coeficiente de concordancia de Kendall
274
11.17. TABLA Q. Valores crticos de Shapiro-Wilk
275