Metodo Analisis Multivariado
Metodo Analisis Multivariado
Metodo Analisis Multivariado
MÉTODOS ESTADÍSTICOS
MULTIVARIADOS
Pág. 1
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
CONTENIDO
1. Coeficiente de Cronbach
2. Métodos de análisis multivariado
3. ANOVA de K direcciones
4. Análisis multivariado de Varianza (MANOVA)
5. Análisis de Covarianza
6. Análisis Discriminante
7. Análisis de Conglomerados (Clusters)
8. Análisis de componentes principales
9. Análisis Factorial
10. Análisis de Regresión Múltiple
11. Análisis de correspondencia
Pág. 2
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
1. COEFICIENTE DE CRONBACH
Pág. 3
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
a) Se aplica la escala.
b) Se obtienen los resultados.
c) Se calculan los coeficientes de correlación r de Pearson entre todos los
ítems (todos contra todos de par en par).
d) Se elabora la matriz de correlación con los coeficientes obtenidos. Por
ejemploEjemplo:
Pág. 4
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 5
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 6
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
2. MÉTODOS DE ANÁLISIS
MULTIVARIADO
Pág. 7
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 8
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Regresión múltiple
En un método de análisis adecuado cuando el problema de investigación
involucra una variable dependiente única que se presume se relaciona a dos o
más variables independientes medibles. El objetivo es predecir el cambio en la
variable dependiente de respuesta con cambios en las variables
independientes, normalmente con el método de mínimos cuadrados.
Pág. 9
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Análisis conjunto
Se aplica a nuevos productos para evaluar la importancia de los atributos del
nuevo producto así como los niveles de cada atributo, mientras que el
consumidor evalúa solo unos pocos perfiles del producto como combinaciones
de los niveles de producto.
Por ejemplo asumir un producto con tres atributos (precio, calidad y color),
cada uno en tres niveles posibles (vgrVg.. Rojo, amarillo y azul). En vez de
tener que evalurevaluar las 27 combinaciones posibles (3x3x3), se evalúa un
subconjunto de 9 o más combinaciones con base en su atractivo para el
consumidor, de manera que el investigador no solo conozca la importancia de
cada atributo, sino además la importancia de cada nivel (atractivo del rojo vsvs.
amarillo vsvs. azul).
Correlación canónica
El análisis de correlación puede ser visto como una extensión lógica de la
regresión múltiple. Donde se trata de correlacionar simultáneamente varias
variables dependientes medibles o métricas y varias variables independientes
medibles. El principio es establecer una combinación lineal de cada conjunto de
variables (dependientes e independientes) para maximizar la correlación entre
los dos conjuntos (obteniendo ponderaciones adecuados para las variables).
Pág. 10
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Escala multidimensional
El objetivo es transformar los juicios del consumidor de similitud o preferencias
(vgrVg.. Preferencia por tiendas o marcas) en distancias representadas en un
espacio multidimensional. Si los objetos A y B se juzgan por el consumidor
como similares, comparados con cualquier otro par de objetos, la técnica
posiciona los objetos A y B de manera que la distancia entre ellos en un
espacio multidimensional es más pequeñopequeña que la distancia entre
cualquier otro par de objetos. Al final se muestra un mapa perceptual con la
posición relativa de los objetos.
Análisis de correspondencia
Facilita tanto la reducción dimensional de objetos en un conjunto de atributos y
el mapa perceptual de objetos respecto a estos atributos. En su forma más
elemental es una tabla de contingencia o tabulación cruzada de dos variables
categóricas. Transforma los datos no métricos a un nivel medible y realiza una
reducción dimensional (similar al análisis de factores) y un mapa perceptual
(similar al análisis multidimensional).
Pág. 11
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 12
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Variables / Tipo
Percepciones / Medibles (Métricas)
X1 Tiempo de entrega - entrega del producto con la orden confirmada
X2 Nivel de precios - nivel de precio percibido ponderacióndo por
proveedores
X3 Flexibilidad de precios - flexibilidad para negociar precios
X4 Imagen de la empresa - general
X5 Servicio en general - nivel necesario para mantener relaciones
X6 Imagen de la fuerza de ventas - general
X7 Calidad del producto – calidad percibida en desempeño o rendimiento
Pág. 13
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
3. ANOVA DE K DIRECCIONES
Pág. 14
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 15
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Interpretación y ejemplo
Pág. 16
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
TABLA ANOVA
Pág. 17
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Ejemplo:
Un experimento se realizó para probar cuanto tiempo toma usar un modelo
nuevo y un modelo anterior de calculadora. Seis ingenieros trabajando en un
problema estadístico y uno de ingeniería se les toma el tiempo para resolver el
problema. Los ingenieros se consideran como bloques en el diseño
experimental.
Hay dos factores: Tipo de problema y modelo de calculadora – cada uno con
dos niveles, se hacen experimentos donde esos niveles de los factores se
cruzan. Los datos se muestran a continuación:
Pág. 18
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Source DF SS MS F P
Engineer 5 1.053 0.211 3.13 0.039
ProbType 1 16.667 16.667 16.667 247.52 0.000
Calculator 1 72.107 72.107 72.107 1070.89 0.000
ProbType*Calculator 1 3.682 3.682 3.682 54.68 0.000
Error 15 1.010 0.067
Total 23 94.518
Means
ProbType N SolveTime
Eng 12 3.8250
Stat 12 5.4917
Calculator N SolveTime
Pág. 19
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
New 12 2.9250
Old 12 6.3917
Pág. 20
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 21
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 22
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
2) MANOVA unidireccional. Análogo al ANOVA de una sola vía, pero con más
dependientes: una variable independiente multicategórica y varias
dependientes.
3) MANOVA factorial. Similar al ANOVA factorial, solamente que con dos o más
dependientes: varias independientes categóricas y varias dependientes.
Una pregunta que suele hacer el estudiante al revisar el MANOVA es ¿por qué
no hacemos ANOVAS separados, uno para cada dependiente? La respuesta:
las dependientes están correlacionadas muy frecuentemente, por lo cual los
resultados de varios ANOVA pueden ser redundantes y difíciles de integrar. He
aquí una síntesis de la explicación de Wiersma (1999) sobre este tipo de
análisis:
Pág. 23
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Se calculan diversas estadísticas para evaluar ambas hipótesis, entre las que
destacan: F (total, toma en cuenta el modelo completo), la prueba Hotelling's
TSquare, T2 (cuando hay dos grupos formados por las variables
independientes), Wilks' lambda, U (cuando hay más de dos grupos formados
por las variables independientes), y Pillai-Bartlett (cuando hay coeficientes
canónicos); y si resultan significativas en un nivel de confianza, se acepta la
hipótesis de investigación de diferencia de medias. Esto indica que hay, por lo
menos, una variable canónica significativa (pero puede haber varias). Si
diversas variables canónicas son significativas, esto muestra que se presentan
Pág. 24
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Una puntuación discriminante positiva y elevada para un grupo, indica que éste
se coloca por encima de los demás en la respectiva variable canónica. Y deben
considerarse las ponderaciones, las cuales son positivas o negativas. Las
puntuaciones discriminantes son utilizadas para interpretar las separaciones de
los grupos en las variables canónicas, en tanto que las ponderaciones se usan
para evaluar y ligar los resultados de las variables dependientes (Wiersma,
1999). Un ejemplo de las ponderaciones de los coeficientes de correlación
entre las variables dependientes y las variables canónicas así como las
puntuaciones discriminantes se muestran en las tablas siguientes:
Pág. 25
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 26
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 27
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
DATOS
ExtrusionE
Tear Gloss Opacity xtrusión Additive
6.5 9.5 4.4 1 1
6.2 9.9 6.4 1 1
5.8 9.6 3 1 1
6.5 9.6 4.1 1 1
6.5 9.2 0.8 1 1
6.9 9.1 5.7 1 2
7.2 10 2 1 2
6.9 9.9 3.9 1 2
6.1 9.5 1.9 1 2
6.3 9.4 5.7 1 2
6.7 9.1 2.8 2 1
6.6 9.3 4.1 2 1
7.2 8.3 3.8 2 1
7.1 8.4 1.6 2 1
6.8 8.5 3.4 2 1
7.1 9.2 8.4 2 2
7 8.8 5.2 2 2
7.2 9.7 6.9 2 2
7.5 10.1 2.7 2 2
7.6 9.2 1.9 2 2
Instrucciones de Minitab
Pág. 28
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Test DF
Criterion Statistic F Num Denom P
Wilks' 0.38186 7.554 3 14 0.003
Lawley-Hotelling 1.61877 7.554 3 14 0.003
Pillai's 0.61814 7.554 3 14 0.003
Roy's 1.61877
Pág. 29
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Eigenvector 1 2 3
Tear 0.6541 0.4315 0.0604
Gloss -0.3385 0.5163 0.0012
Opacity 0.0359 0.0302 -0.1209
Test DF
Criterion Statistic F Num Denom P
Wilks' 0.52303 4.256 3 14 0.025
Lawley-Hotelling 0.91192 4.256 3 14 0.025
Pillai's 0.47697 4.256 3 14 0.025
Roy's 0.91192
Pág. 30
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Eigenvector 1 2 3
Tear -0.6330 0.4480 -0.1276
Gloss -0.3214 -0.4992 -0.1694
Opacity -0.0684 0.0000 0.1102
Test DF
Criterion Statistic F Num Denom P
Wilks' 0.77711 1.339 3 14 0.302
Lawley-Hotelling 0.28683 1.339 3 14 0.302
Pillai's 0.22289 1.339 3 14 0.302
Roy's 0.28683
Eigenvector 1 2 3
Tear -0.1364 0.1806 0.7527
Gloss -0.5376 -0.3028 -0.0228
Opacity -0.0683 0.1102 -0.0000
Por default se muestra la tabla para las cuatro pruebas multivariadas (Wilks,
Lawley, Hotelling, Pillai y Roy) para cada uno de los términos en el modelo.
Pág. 31
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 32
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
4. Click OK.
Pág. 33
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
5 ANÁLISIS DE COVARIANZA
Pág. 34
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
5. ANÁLISIS DE COVARIANZA
Perspectivas o usos: Wildt y Ahtola (1978, pp. 8-9) destacan tres perspectivas
para el análisis de covarianza:
Pág. 35
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 36
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 37
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Ejemplo:
Pág. 38
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 39
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Wildt y Ahtola (1978, p. 13) definen algunos usos del análisis de covarianza:
Pág. 40
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Ejemplo:
Pág. 41
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 42
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Si el resultado fuera:
G1 = 35
G2 = 36
G3 = 38
Gl entre = K – 1 = 3 – 1 = 2
Gl intra = N – K = 107
F = 1.70
Pág. 43
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Ejemplo:
Y X Maq
36 20 1
41 25 1
39 24 1
42 25 1
49 32 1
40 22 2
48 28 2
39 22 2
45 30 2
44 28 2
35 21 3
37 23 3
42 26 3
34 21 3
32 15 3
En Minitab:
Pág. 44
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
45
40
Y
35
30
15.0 17.5 20.0 22.5 25.0 27.5 30.0 32.5
X
3. En Covariates X
6. OK
Pág. 45
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Conclusión:
Se observa que no hay diferencia en las máquinas una vez que eliminamos la
Con Minitab:
3. OK
Source DF SS MS F P
Maq 2 140.4 70.2 4.09 0.044
Error 12 206.0 17.2
Total 14 346.4
Pág. 46
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
StDev
Level N Mean StDev +---------+---------+---------+---------
1 5 41.400 4.827 (---------*----------)
2 5 43.200 3.701 (---------*---------)
3 5 36.000 3.808 (---------*---------)
+---------+---------+---------+---------
32.0 36.0 40.0 44.0
entre máquinas.
Pág. 47
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 48
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
En el ejemplo, hay dos categorías (votar por A o votar por B); por tanto, los
valores a predecir son 0 y 1 (A y B, respectivamente). Si el sujeto obtiene una
puntuación más cercana a cero, se predice que pertenece al grupo que votará
por A; si logra una puntuación más cercana a 1, se predice que pertenece al
grupo que votará por B. Además, se consigue una medida del grado de
discriminación del modelo.
Pág. 49
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Modelo discriminante
El problema que atiende la función discriminante es que tanto es posible
separar dos o más grupos de individuos, con base en las mediciones
realizadas en esos individuos en varias variables. Por ejemplo para el caso de
los pájaros que sobrevivieron y los que no sobrevivieron, es interesante
considerar si es posible utilizar las dimensiones de sus cuerpos para separar
sobrevivientes de no sobrevivientes.
Individuo X1 X2 …… Xp Grupo
1 X111 X112 …… X11p
2 X211 X212 …… X21p Grupo1
… …. …. …… ….
n1 Xn1,11 Xn1,12 …… Xn1,1p
1 X121 X122 …… X12p
2 X221 X222 …… X22p Grupo 2
… ….. ….. …… …..
n2 Xn2,2,1 Xn2,2,2 …… Xn2,2,p
1 X1m1 X1m2 …… X1mp
2 X1m1 X1m2 …… X1mp Grupo m
… …. …. …… ….
nm Xnm,m1 Xnm,m2 …… Xnm,mp
Pág. 50
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
p p
Dij2 = ∑∑( µri −µrj )v rs ( µsi − µsj )
r =1 s =1
Dij2 = (µ i − µ j )'V − 1 (µ i − µ j )
µ 1i
µ
µi=
2i
.....
µ pi
Pág. 51
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
c11 c12....c1p
c21 c22....c2 p
C=
.................
cp1 c p2....cpp
La distancia de Mahalanobis de una observación x' =( x1 , x2 ,......, x p )' al
centro del grupo i se estima con:
Di2 = ( x − xi )' C − 1 ( x − xi )
p p
Di2 = ∑∑( xr − xri )c rs ( xs − xsi )
r =1 s =1
Pág. 52
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Es a veces útil poder determinar las funciones de las variables X’s que en
alguna forma separen los m grupos tan bien como sea posible. El método más
sencillo consiste en tomar una combinación lineal de las variables X:
Z = a1 X 1 + a2 X 2 +........ + a p X p
Una forma de seleccionar los coeficientes a’s es seleccionar los que den la
mayor Fc en una ANOVA. Si se utiliza este método, se encuentran las
funciones canónicas discriminantes para cada observación i-ésima que no
están correlacionadas entre sí.
Z i = ai1 X 1 + ai 2 X 2 +........ + aip X p
m nj
m nj
Total T = ∑∑ ( xij − x ) 2 n – 1
j =1 i =1
m nj
Pág. 53
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
m nj
Pág. 54
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 55
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Ejemplo:
El porcentaje de personas empleadas en nueve diferentes sectores industriales
en Europa (Agr = agricultura; Min = minería; Man = Manufactura; Ps = Energía;
Con = Construcción; Ser = Servicios; Fin = Finanzas; Sps = Servicios sociales;
Tc = Transporte y comunicaciones).
Pág. 56
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Group 1 2 3
Count 9 9 8
Summary of classification
True Group
Put into Group 1 2 3
1 8 1 0
2 1 8 0
3 0 0 8
Total N 9 9 8
N correct 8 8 8
Proportion 0.889 0.889 1.000
1 2 3
1 0.0000 9.4368 40.1385
2 9.4368 0.0000 20.4832
3 40.1385 20.4832 0.0000
1 2 3
Constant -11171 -10821 -10678
Agr 221 218 217
Min 284 277 279
Man 211 208 207
Ps 371 369 371
Con 287 283 282
Ser 244 239 236
Fin 204 200 199
Sps 255 251 249
Pág. 57
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 58
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Discriminant
Warnings
Pág. 59
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Group Statistics
Valid N (listwise)
GRUPO Mean Std. Deviation Unweighted Weighted
1.00 AGR 9.5929 5.3626 14 14.000
MIN .8500 .7743 14 14.000
MAN 27.6214 5.0773 14 14.000
PS .9571 .2875 14 14.000
CON 8.4214 1.0401 14 14.000
SER 16.6786 1.5783 14 14.000
FIN 5.1143 1.4206 14 14.000
SPS 24.0786 5.3738 14 14.000
2.00 AGR 39.7250 19.6736 4 4.000
MIN .6000 .2160 4 4.000
MAN 19.6250 9.0205 4 4.000
PS .5000 .2708 4 4.000
CON 7.7000 3.6102 4 4.000
SER 9.9250 3.4760 4 4.000
FIN 3.6750 3.2908 4 4.000
SPS 12.8500 2.5981 4 4.000
3.00 AGR 25.5250 13.1487 8 8.000
MIN 2.2875 .6600 8 8.000
MAN 29.6250 7.2742 8 8.000
PS 1.0250 .4528 8 8.000
CON 7.9500 1.3299 8 8.000
SER 7.9625 1.8693 8 8.000
FIN 2.2125 3.6806 8 8.000
SPS 16.5125 5.8033 8 8.000
Total AGR 19.1308 15.5466 26 26.000
MIN 1.2538 .9700 26 26.000
MAN 27.0077 7.0078 26 26.000
PS .9077 .3762 26 26.000
CON 8.1654 1.6456 26 26.000
SER 12.9577 4.5753 26 26.000
FIN 4.0000 2.8066 26 26.000
SPS 20.0231 6.8295 26 26.000
Analysis 1
Eigenvalues
Canonical
Function Eigenvalue % of Variance Cumulative % Correlation
1 11.347a 92.1 92.1 .959
2 .977a 7.9 100.0 .703
a. First 2 canonical discriminant functions were used in the
analysis.
Pág. 60
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Wilks' Lambda
Wilks'
Test of Function(s) Lambda Chi-square df Sig.
1 through 2 .041 62.301 16 .000
2 .506 13.290 7 .065
Function
1 2
AGR 3.690 .555
MIN -.197 .551
MAN 2.038 .736
PS -.039 .357
CON .237 -.010
SER 1.900 .025
FIN 1.047 .357
SPS 2.205 .970
Structure Matrix
Function
1 2
SER .630* .339
FIN .157* -.032
AGR -.243 -.737*
MIN -.265 .592*
PS -.001 .551*
MAN -.017 .544*
SPS .229 .505*
CON .045 .103*
Pooled within-groups correlations between discriminating
variables and standardized canonical discriminant functions
Variables ordered by absolute size of correlation within function.
*. Largest absolute correlation between each variable and
any discriminant function
Function
GRUPO 1 2
1.00 2.792 .264
2.00 -1.234 -2.150
3.00 -4.269 .613
Unstandardized canonical discriminant
functions evaluated at group means
Pág. 61
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
GRUPO Function 1 2
1.00 1 .867 -.168
2 -.168 .737
2.00 1 2.340 .242
2 .242 .726
3.00 1 .672 .209
2 .209 1.605
The pooled within-groups covariance matrix of the canonical
discriminant functions is an identity matrix by definition.
Log Determinants
Log
GRUPO Rank Determinant
1.00 2 -.492
2.00 2 .495
3.00 2 .035
(identity matrix) 2 .000
The ranks and natural logarithms of determinants
printed are those of the group covariance matrices
of the canonical discriminant functions.
Test Results
Box's M 4.673
F Approx. .629
df1 6
df2 707.141
Sig. .707
Tests null hypothesis of equal population covariance
matrices of canonical discriminant functions.
Classification Statistics
Processed 26
Excluded Missing or out-of-range
0
group codes
At least one missing
0
discriminating variable
Used in Output 26
Pág. 62
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Separate-Groups Graphs
2.0
1.5
1.0
.5
0.0
Group Centroid
Function 2
-.5
-1.5 1
1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5
Function 1
-1.5
-2.0
-2.5
Group Centroid
Function 2
-3.0
Group Centroid
-3.5 2
-2.5 -2.0 -1.5 -1.0 -.5 0.0 .5 1.0
Function 1
Pág. 63
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Group Centroid
Function 2
-1
Group Centroid
-2 3
-5.5 -5.0 -4.5 -4.0 -3.5 -3.0
Function 1
1 3
1
-1 GRUPO
2 Group Centroids
-2
3
Function 2
-3
2
-4 1
-6 -4 -2 0 2 4 6
Function 1
Classification Resultsa
Pág. 64
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Territorial Map
Canonical Discriminant
Function 2
-6.0 -4.0 -2.0 .0 2.0 4.0 6.0
6.0 31
31
31
31
31
31
4.0 31
31
31
31
31
31
2.0 31
31
331
32221
* 332 21
322 21 *
.0 332 21
3322 21
322 21
332 21
322 21
332 21
-2.0 322 * 21
332 21
322 21
332 21
322 21
332 21
-4.0 322 21
332 21
22 21
21
21
21
-6.0 21
-6.0 -4.0 -2.0 .0 2.0 4.0 6.0
Canonical Discriminant Function 1
Symbols used in territorial map
Symbol Group Label
------ ----- --------------------
1 1
2 2
3 3
* Indicates a group centroid
1 3
1
0
-1 GRUPO
Function 2
2 Group Centroids
-2
3
-3
2
-4 1
-6 -4 -2 0 2 4 6
Function 1
Pág. 65
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Ejemplo:
Pág. 66
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
dá
CanadaCana
Alaska 102 429 dá 145 376
CanadaCana
Alaska 101 469 dá 115 354
CanadaCana
Alaska 85 444 dá 134 383
CanadaCana
Alaska 109 397 dá 117 355
CanadaCana
Alaska 106 442 dá 126 345
CanadaCana
Alaska 82 431 dá 118 379
CanadaCana
Alaska 118 381 dá 120 369
CanadaCana
Alaska 105 388 dá 153 403
CanadaCana
Alaska 121 403 dá 150 354
CanadaCana
Alaska 85 451 dá 154 390
CanadaCana
Alaska 83 453 dá 155 349
CanadaCana
Alaska 53 427 dá 109 325
CanadaCana
Alaska 95 411 dá 117 344
CanadaCana
Alaska 76 442 dá 128 400
CanadaCana
Alaska 95 426 dá 144 403
CanadaCana
Alaska 87 402 dá 163 370
CanadaCana
Alaska 70 397 dá 145 355
CanadaCana
Alaska 84 511 dá 133 375
CanadaCana
Alaska 91 469 dá 128 383
CanadaCana
Alaska 74 451 dá 123 349
CanadaCana
Alaska 101 474 dá 144 373
CanadaCana
Alaska 80 398 dá 140 388
CanadaCana
Alaska 95 433 dá 150 339
CanadaCana
Alaska 92 404 dá 124 341
CanadaCana
Alaska 99 481 dá 125 346
CanadaCana
Alaska 94 491 dá 153 352
CanadaCana
Alaska 87 480 dá 108 339
Pág. 67
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Summary of classification
True Group
Put into Group Alaska Canada
Alaska 44 1
CanadaCanadá 6 49
Total N 50 50
N correct 44 49
Proportion 0.880 0.980
Alaska Canada
Alaska 0.00000 8.29187
Canada 8.29187 0.00000
Pág. 68
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 69
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Z jk = a +W 1X 1k +W 2X 2 k +.... +W nX nk
Donde:
Zjk = Valor Z discriminante de la función discriminante J para el objeto K.
a = Intersección en eje Y
Wi = Peso discriminante para la variable independiente i.
Xik = Variable independiente i para el objeto k.
A B A B
Representación univariada de los valores Z de la función discriminante
Las áreas sombreadas son la probabilidad de clasificar erróneamente los objetos entre A y B
Pág. 70
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 71
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
4. Click OK.
Discriminant Analysis: X11 versus X1, X2, X3, X4, X5, X6, X7
Summary of classification
True Group
Put into Group 0 1
0 24 2
1 1 33
Total N 25 35
N correct 24 33
Proportion 0.960 0.943
N = 60 N Correct = 57 Proportion Correct = 0.950
Pág. 72
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Wilks'
Lambda F df1 df2 Sig.
X1 .614 36.526 1 58 .000
X2 .716 22.953 1 58 .000
X3 .467 66.302 1 58 .000
X4 .997 .145 1 58 .704
X5 .993 .414 1 58 .523
X6 .991 .522 1 58 .473
X7 .528 51.951 1 58 .000
Function
1
X1 1.152
X2 .749
X3 .668
X4 .111
X5 -1.153
X6 .042
X7 -.626
Function
1
X3 .643
X7 -.569
X1 .477
X2 -.379
X6 .057
X5 .051
X4 .030
Pooled within-groups correlations between discriminating variables and standardized canonical
discriminant functions Variables ordered by absolute size of correlation within function.
Function
X11 1
.00 -1.933
1.00 1.381
Unstandardized canonical discriminant functions evaluated at group means
Pág. 73
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Z=0
N=24 N=33
Zo=-1.933 Z1=1.063
Gráfica de los centroides de grupos
Pág. 74
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Wilks'
Lambda F df1 df2 Sig.
X1 .546 31.628 1 38 .000
X2 .934 2.676 1 38 .110
X3 .789 10.185 1 38 .003
X4 .969 1.205 1 38 .279
X5 .798 9.611 1 38 .004
X6 .997 .105 1 38 .748
X7 .535 33.043 1 38 .000
Log Determinants
Log
DeterminantDe
X11 Rank terminan
.00 7 -9.872
1.00 7 -6.987
Pooled within-groups 7 -6.367
The ranks and natural logarithms of determinants printed are those of the group covariance matrices.
Test Results
Box's M 63.963
F Approx. 1.776
df1 28
df2 3061.289
Sig. .007
Tests null hypothesis of equal population covariance matrices.
Function
1
X1 1.932
X2 1.525
X3 .294
X4 -.621
X5 -1.698
X6 .934
X7 -.783
Structure Matrix
Function
1
X7 -.644
X1 .630
X3 .358
X5 .347
X2 -.183
X4 -.123
X6 -.036
Pág. 75
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Function
X11 1
.00 -1.822
1.00 1.093
Unstandardized canonical discriminant functions evaluated at group means
X11 = 0
X11 = 1
5
5
4
4
3
3
2 2
1 1
Classification Results(a)
Predicted Group
Membership
Pág. 76
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Regresión Logística
Una de las ventajas de la regresión logística versus el análisis discriminante es
que es menos afectada por las diferencias en varianzas / covarianzas entre los
grupos, que es una premisa del análisis discriminante. Otra ventaja es que la
regresión logística puede manejar variables independientes categóricas
fácilmente, mientras que en el análisis discriminante el uso de variables de
apoyo crea problemas con la igualdad de varianza / covarianza. Finalmente la
regresión logística es similar a la regresión múltiple en términos de su
interpretación e interpretación incluyendo los residuos.
Ejemplo:
Un investigador está interesado en comprender el efecto de fumar y el peso en
el pulso en reposo, como esta última variable dependiente es categórica (bajo,
alto) el análisis de regresión logística es adecuado.
You are a researcher who is interested in understanding the effect of smoking
and weight upon resting pulse rate. Because you have categorized the
response-pulse rate-
into low and high, a binary logistic regression analysis is appropriate to
investigate the effects of smoking and weight upon pulse rate.
Se tiene interés en comprender el efecto de fumar y el peso sobre el pulso (alto
y bajo).
Pág. 77
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Factor Information
Factor Levels Values
Pág. 78
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Smokes 2 No Yes
Log-Likelihood = -46.820
Test that all slopes are zero: G = 7.574, DF = 2, P-Value = 0.023
Pág. 79
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Goodness-of-Fit Tests
Method Chi-Square DF P
Pearson 40.848 47 0.724
Deviance 51.201 47 0.312
Hosmer-Lemeshow 4.745 8 0.784
Brown:
General Alternative 0.905 2 0.636
Symmetric Alternative 0.463 1 0.496
Estas pruebas de bondad de ajuste con P values de 0.312 a 0.724 indican que
no hay evidencia suficiente que indique que el modelo no ajuste a los datos
adecuadamente, considerando un nivel de significancia de 0.05.
Group
Value 1 2 3 4 5 6 7 8 9 10 Total
Low
Obs 4 6 6 8 8 6 8 12 10 2 70
Exp 4.4 6.4 6.3 6.6 6.9 7.2 8.3 12.9 9.1 1.9
High
Obs 5 4 3 1 1 3 2 3 0 0 22
Exp 4.6 3.6 2.7 2.4 2.1 1.8 1.7 2.1 0.9 0.1
Total 9 10 9 9 9 9 10 15 10 2 92
Esta tabla permit e ver que tan bien ajusta el modelo a los datos, comparando
las frecuencias observadas y las frecuencias esperadas, siendo similares indica
que no hay evidencia suficiente de que los datos no ajusten bien al modelo,
soportado por las pruebas de bondad de ajuste para un nivel de significancia
de 0.05.
Measures of Association:
(Between the Response Variable and Predicted Probabilities)
Esta tabla muestra 1540 pares (70 individuos con un low pulse y 22 con high
pulse resultando en 70*22 = 1540) con valores de respuesta diferentes. Con
base en el modelo un par es concordante si el individuo con una tasa de pulso
baja (low pulse rate) tiene una más alta probabilidad de tener pulso bajo,
discrepante de si sucede lo contrario, y empate si las probabilidades son
iguales. En este ejemplo el 67.9% de los pares son concordantes y 29% son
Pág. 80
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 81
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
4
Delta Chi-Square
4
Delta Chi-Square
Con la opción Editor > Brush se puede observar que corresponden a los
valores de datos 31 y 66, correspondientes a individuos con un pulso alto, que
no fuman, y que tienen pesos menores al promedio (116 y 136 libras).
Pág. 82
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 83
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
8. Análisis de Conglomerados
Pág. 84
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
8. ANÁLISIS DE CONGLOMERADOS
Se cuenta también con el análisis de conglomerados o clusters (técnica para
agruparAgrupar los casos o elementos de una muestra en grupos con base en
una o
másMás variables).
Pág. 85
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
A. Conglomerados de observaciones
Variables V1 V2
A 3 2
B 4 5
C 4 7
D 2 7
E 6 6
Pág. 86
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
F 7 7
G 6 4
Variables A B C D E F G
V1 3 4 4 2 6 7 6
V2 2 5 7 7 6 7 4
Scatterplot of V2 vs V1
D C F
7
E
6
B
5
V2
G
4
Distancia
3 euclidiana de A a
B
A
2
2 3 4 5 6 7
V1
Ejemplo 1:
Para medir la similitud se evalúa con la distancia euclidiana (línea recta) entre
cada par de observaciones (ver Tabla), entendiendo que las distancias
pequeñas indican similaridad, E y F son las más similares (1.414) y la A y F las
más diferentes (6.403).
Observ. A B C D E F G
A
Pág. 87
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
B 3.162
C 5.099 2.000
D 5.099 2.828 2.000
E 5.000 2.236 2.236 4.123
F 6.403 3.606 3.000 5.000 1.414
G 3.606 2.236 3.606 5.000 2.000 3.162
Distancia
Mínima entre Solución por
observa-ciones conglomerados
Paso Distancia Par Miembros en el Núm. Dist.ancia
Mínima entre observado conglomerado Deo. Prom.edio
observaciones de Ddentro del
Conglo Conglomerado.
merado
.
Sol. inicial A, B,C,D,E,F,G 7 0
1 1.414 E-F A, B,C,D,E-F,G 6 1.414
2 2.000 E-G A, B,C,D,E-F-G 5 2.192
3 2.000 C-D A, B,C-D,E-F-G 4 2.144
4 2.000 B-C A, B-C-D,E-F-G 3 2.234
5 2.236 B-E A,B-C-D-E-F-G 2 2.896
6 3.162 A==B A-B-C-D-E-F-G 1 3.420
Utilizando Minitab:
Stat > Multivariate Análisis > Cluster Observations
Distance Measured Euclidean Seleccionar Show Dendogram OK
Pág. 88
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
50.61
67.08
Similarit y
83.54
100.00
A B C D E F G
Observat ions
3.16
2.11
Dist ance
1.05
0.00
1 2 3 4 5 6 7
Observat ions
Pág. 89
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Final Partition
Number of clusters: 1
Within Average Maximum
cluster distance distance
Number of sum of from from
observations squares centroid centroid
Cluster1 7 41.4286 2.23187 3.77154
Ejemplo 2:
Pág. 90
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
3 En Variables, Pop-Home.
3.0
2.5
2.0
Eigenvalue
1.5
1.0
0.5
0.0
1 2 3 4 5
Component Number
Pág. 91
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
PC1 = −.558 Pop − .313 School − .568 Employ − .487 Health + .174 Home
Ejemplo 32:
Con los datos de HATCO se utilizan las siete percepciones de clientes para
identificar segmentos de clientes.
Pág. 92
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 93
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 94
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
62 38 93.594 5.070 4 75 4 4
63 37 92.867 5.645 25 33 25 4
64 36 92.341 6.062 25 26 25 6
65 35 91.633 6.622 18 50 18 6
66 34 90.732 7.335 23 56 23 4
67 33 90.566 7.466 9 12 9 5
68 32 89.797 8.075 11 85 11 4
69 31 89.607 8.225 8 36 8 6
70 30 88.621 9.005 1 51 1 4
71 29 88.537 9.072 13 22 13 5
72 28 87.859 9.608 40 94 40 6
73 27 87.621 9.797 4 24 4 6
74 26 86.484 10.697 3 10 3 9
75 25 86.381 10.778 18 43 18 8
76 24 86.216 10.909 7 15 7 7
77 23 85.195 11.717 16 47 16 6
78 22 85.001 11.870 39 65 39 4
79 21 82.841 13.580 3 57 3 10
80 20 82.550 13.810 9 14 9 10
81 19 81.104 14.954 9 49 9 12
82 18 77.848 17.531 2 4 2 8
83 17 76.996 18.205 8 17 8 8
84 16 67.541 25.688 1 25 1 10
85 15 65.781 27.081 2 40 2 14
86 14 61.257 30.661 7 9 7 19
87 13 60.778 31.040 11 23 11 8
88 12 56.202 34.662 6 8 6 12
89 11 49.784 39.741 2 39 2 18
90 10 42.640 45.395 3 82 3 12
91 9 40.362 47.197 1 18 1 18
92 8 36.171 50.514 1 16 1 24
93 7 29.104 56.107 6 11 6 20
94 6 19.593 63.634 5 7 5 21
95 5 17.930 64.950 1 13 1 29
96 4 -15.826 91.665 2 6 2 38
97 3 -96.701 155.669 2 3 2 50
98 2 -135.645 186.489 1 5 1 50
99 1 -839.878 743.820 1 2 1 100
Final Partition
Number of clusters: 1
Within Average Maximum
cluster distance distance
Number of sum of from from
observations squares centroid centroid
Cluster1 100 996.352 3.05166 5.27503
Pág. 95
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
406.13
270.75
Distance
135.38
0.00
1 9551 77 1100 858 747 6113 213 522 55 9 744 997 1276 581 520 3863 668 016 7329 781 892 4 346 50 72 69 8 125 4 4 26 59 33 62 5 42 7 67 9 014 192 8 28 375 9 923 325 6 91 670 5 26 0 8 68 36 4 18 48 8 4 89 24 2 74 0 544 5 86 9498 399 6 65 79 3 7110 34 3053 3748 57 1764 318 293
1
Observat ions
406.13
270.75
Distance
135.38
0.00
1 9551 77 1100 858 747 6113 213 522 55 9 744 997 1276 581 520 3863 668 016 7329 781 892 4 346 50 72 69 8 125 4 4 26 59 33 62 5 42 7 67 9 014 192 8 28 375 9 923 325 6 91 670 5 26 0 8 68 36 4 18 48 8 4 89 24 2 74 0 544 5 86 9498 399 6 65 79 3 7110 34 3053 3748 57 1764 318 293
1
Observat ions
Pág. 96
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
406.13
270.75
Dist ance
135.38
0.00
2 8 3 7 5 9 9 2 3 3 2 5 6 91 6 70 52 60 8 68 36 41 84 88 4 89 24 27 40 54 45 86 9 4 9 8 3 9 9 6 6 5 7 9 3 71 10 34 30 53 37 4 8 57 17 64 31 82 93
Observat ions
406.13
270.75
Dist ance
135.38
0.00
1 9 5 5 1 7 7 1 1 0 0 8 5 8 7 4 7 6 1 1 3 2 1 3 5 22 5 5 9 7 4 49 9 7 1 2 7 6 5 8 1 5 2 0 3 8 6 3 6 6 8 0 1 6 7 3 2 9 7 8 18 9 2 43 4 6 50 7 2 6 9 8 1 2 5 4 4 2 6 5 9 3 3 6 2 5 4 2 7 6 7 9 0 14 1 9 28
1
Observat ions
Pág. 97
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Suponiendo que se sabe que la partición final consistirá de tres grupos, y que
las observaciones 2, 5 y 9 pertenecen a esos grupos respectivamente. Para
proceder depende de si se especifica el número de conglomerados o se
proporciona una columna de partición.
1
R. Johnson and D. Wichern (1992). Applied Multivariate Statistical Methods, Third Edition. Prentice
Hall.
Pág. 98
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Ejemplo:
Se atrapan, anestesian, y miden ciento cuarenta y tres osos negros. Las
mediciones son altura y longitud de la cabeza (Lenght, Head L), peso total y
peso de la cabeza (Weight, Weight H.), dimensión del cuello y del cachete
(Neck G., Chest G.).
Se crea la columna de partición inicial con los tres osos semilla, designados
como: 1 = pequeño, 2= tamaño medio y 3= grande y los remanentes osos
como cero (desconocidos) para indicar membresía inicial del conglomerado.
Después se realiza un análisis de conglomerado por K medias y se guardan las
membresías del conglomerado en cada columna denominada BearSize.
Pág. 99
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
6 11 5.5 16 53 26 80 1 78 15 7 26 65 40 224 2
7 12 5.5 17 56 30.5 108 1 79 10 4 15.5 48 26 60 1
8 16.5 9 28 67.5 45 344 3 80 10 5 15 41 26 64 1
9 16.5 9 27 78 49 371 3 81 13 7 21 59 34 146 2
10 15.5 8 31 72 54 416 3 82 15.5 6 20.5 60 35 152 2
11 16 8 32 77 52 432 3 83 15.5 9 29 79 50 400 3
12 17 10 31.5 72 49 348 3 84 13.5 7 24.5 62 41 248 2
13 15.5 7.5 32 75 54.5 476 3 85 14.5 6.5 26 70.5 41 278 3
14 17.5 8 32 75 55 478 3 86 15 7 26.5 69 46.5 297 3
15 15 9 33 75 49 386 3 87 16 9 31.5 75 47 350 3
16 15.5 6.5 22 62 35 166 2 88 11.5 5 17 53 30.5 114 1
17 13 7 21 70 41 220 2 89 11.5 5 15 52.5 28 76 1
18 15 6.5 28 78 45 334 3 90 11 4.5 13 46 23 48 1
19 15 7.5 26.5 73.5 41 262 3 91 12 6 19 57 34.5 148 2
20 13.5 8 27 68.5 49 360 3 92 13.5 5 17 58 29 114 1
21 15.5 7 29.3 76 53 416 3 93 13.5 5 17 58 29.5 116 1
22 13.5 7 20 64 38 204 2 94 12.5 7.5 19 60 34 158 2
23 12.5 6 18 58 31 144 2 95 14 6.5 21 63 35 198 2
24 12 8.3 18.5 60.3 32 122 2 96 12 5 19 58.5 33.5 114 1
25 16 9 29 73 44 332 3 97 13 6 17.5 61 33 135 2
26 9 4.5 13 37 19 34 1 98 13.5 5 17 58 29 130 1
27 12.5 4.5 10.5 63 32 140 1 99 12.5 6.5 18 60 30 130 2
28 14 5 21.5 67 37 180 2 100 13.5 6.5 22 64 36 190 2
29 11.5 5 17.5 52 29 105 1 101 14.5 6.5 21.5 64 37 180 2
30 13 8 21.5 59 33 166 2 102 12 6.5 18.5 55.5 27.5 110 1
31 13.5 7 24 64 39 204 2 103 13 6 19.5 61.5 31 140 2
32 14.5 7.5 26.5 66 40 250 3 104 13.5 6 20 63.5 33 144 2
33 9 4.5 12 36 19 26 1 105 13.5 6 20 64 35 160 2
34 13 6 19 59 30 120 2 106 13.5 6.5 22 66.5 35 184 2
35 13 6 19 59 30 114 2 107 11 5 15.5 48.5 25.5 79 1
36 13.5 6.5 23 66.5 38 210 2 108 14.5 6 22.5 67 40 216 2
37 16 9.5 30 72 48 436 3 109 15 8 26.5 71 42.5 302 3
38 12.5 5 19 57.5 32 125 1 110 12 6 19 53.5 32 122 1
39 12.5 6 19 57 34 152 2 111 17 9 29.5 70 45.5 322 3
40 12.5 6.5 19.5 61 36 176 2 112 15.5 8 27 70 47 308 3
41 13 5 20 61 33 132 2 113 15.5 8 20 63 33 154 2
42 13.5 5 18.5 57 35 180 2 114 12 6 18 66.5 34 146 2
43 13 5 17 54 28 90 1 115 13 5.5 19.5 64 35 162 2
44 13 5.5 20.5 57.8 34.5 140 2 116 17.5 8 30 83 49 396 3
45 10 4 13 40 23 40 1 117 13 5 18 55.5 30.5 122 1
46 16 6 24 63 42 220 2 118 13 5.5 19.5 55 32.5 126 2
47 10 4 13.5 43 23 46 1 119 13 6 20.5 57 34 146 2
48 11 5 15 45 25 60 1 120 13 5.5 19.5 61.5 37 156 2
49 13.5 6 22 66.5 34 154 2 121 12.5 6 19.5 58.5 32 142 2
50 13 5.5 17.5 60.5 31 116 2 122 10 4.5 10 43.5 24 29 1
51 13 6.5 21 60 34.5 182 2 123 16.5 8.5 29.5 69 49.5 348 3
52 14.5 5.5 20 61 34 150 2 124 17 8.5 30.5 79.5 48.5 368 3
53 14 6.5 26 65 39 180 2 125 12 5.5 18 54.5 32 116 1
54 13 6 20 63 35 172 2 126 13 6 19 59 34 130 2
55 13.5 6 21 59.5 32.5 150 2 127 14 7 21 66.5 37 160 2
56 11 4 16 50.5 28 90 1 128 13 6.5 20.5 60 36.5 154 2
57 9.5 4.5 16 40 26 65 1 129 16 7.5 28 73 45 316 3
58 13.5 6.5 28 64 48 356 3 130 13.5 5.5 19.5 61 35 158 2
59 14.5 6.5 26 65 48 316 3 131 12.5 5.5 19 56 32 120 1
Pág. 100
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 101
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Cluster Centroids
Grand
Variable Cluster1 Cluster2 Cluster3 centroid
Head.L -1.0673 0.0126 1.2261 -0.0000
Head.W -0.9943 -0.0155 1.1943 0.0000
Neck.G -1.0244 -0.1293 1.4476 -0.0000
Length -1.1399 0.0614 1.2177 0.0000
Chest.G -1.0570 -0.0810 1.3932 -0.0000
Weight -0.9460 -0.2033 1.4974 -0.0000
Distances Between Cluster Centroids
Cluster1 Cluster2 Cluster3
Cluster1 0.0000 2.4233 5.8045
Cluster2 2.4233 0.0000 3.4388
Cluster3 5.8045 3.4388 0.0000
Pág. 102
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Ejemplo de HATCO:
Final Partition
Number of clusters: 2
Cluster Centroids
Grand
Variable Cluster1 Cluster2 centroid
X1 4.3827 2.5750 3.5150
X2 1.5808 3.2125 2.3640
X3 8.8615 6.8458 7.8940
X4 4.9250 5.5979 5.2480
X5 2.9577 2.8708 2.9160
X6 2.5250 2.8167 2.6650
X7 5.9038 8.1271 6.9710
Cluster1 Cluster2
Cluster1 0.0000 3.9347
Cluster2 3.9347 0.0000
Pág. 103
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
2. Variables X1 – X7
3. Number of clusters 2
4. OK
ANOVA
Cluster Error
Mean Square df Mean Square df F Sig.
X1 81.563 1 .930 98 87.717 .000
X2 66.457 1 .766 98 86.753 .000
X3 101.414 1 .923 98 109.816 .000
X4 11.302 1 1.178 98 9.596 .003
X5 .188 1 .568 98 .331 .566
X6 2.123 1 .579 98 3.670 .058
X7 123.372 1 1.280 98 96.404 .000
The F tests should be used only for descriptive purposes because the clusters have been chosen to
maximize the differences among cases in different clusters. The observed significance levels are not
corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are
equal.
Number of clusters: 4
Within Average Maximum
cluster distance distance
Number of sum of from from
observations squares centroid centroid
Cluster1 34 155.126 2.100 2.922
Cluster2 29 123.693 2.012 3.211
Cluster3 14 54.234 1.833 3.051
Cluster4 23 109.941 2.031 3.947
Cluster Centroids
Grand
Variable Cluster1 Cluster2 Cluster3 Cluster4 centroid
X1 4.1441 2.0241 3.6143 4.4043 3.5150
X2 1.5794 2.7655 4.1286 1.9435 2.3640
X3 8.5765 7.0103 5.9500 9.1826 7.8940
X4 4.4176 5.1621 6.0643 6.0870 5.2480
X5 2.8353 2.3655 3.8429 3.1652 2.9160
X6 2.0882 2.5552 3.1643 3.3522 2.6650
X7 5.3147 8.2690 7.9500 7.1870 6.9710
Pág. 104
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
En este caso se muestra en forma más clara un grupo de patrones con valores
altos y otro con valores bajos.
Cluster Error
Mean Square df Mean Square df F Sig.
X1 37.108 3 .639 96 58.055 .000
X2 28.530 3 .583 96 48.960 .000
X3 37.115 3 .839 96 44.224 .000
X4 15.527 3 .835 96 18.598 .000
X5 7.487 3 .348 96 21.509 .000
X6 8.242 3 .355 96 23.204 .000
X7 53.222 3 .928 96 57.330 .000
The F tests should be used only for descriptive purposes because the clusters have been chosen to
maximize the differences among cases in different clusters. The observed significance levels are not
corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are
equal.
Pág. 105
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Ejemplo:
Peru.Mtw
Age Years Weight Height Chin Forearm Calf Pulse Systol Diastol
21 1 71 1629 8 7 12.7 88 170 76
22 6 56.5 1569 3.3 5 8 64 120 60
24 5 56 1561 3.3 1.3 4.3 68 125 75
24 1 61 1619 3.7 3 4.3 52 148 120
25 1 65 1566 9 12.7 20.7 72 140 78
27 19 62 1639 3 3.3 5.7 72 106 72
28 5 53 1494 7.3 4.7 8 64 120 76
28 25 53 1568 3.7 4.3 0 80 108 62
31 6 65 1540 10.3 9 10 76 124 70
32 13 57 1530 5.7 4 6 60 134 64
33 13 66.5 1622 6 5.7 8.3 68 116 76
33 10 59.1 1486 6.7 5.3 10.3 72 114 74
34 15 64 1578 3.3 5.3 7 88 130 80
35 18 69.5 1645 9.3 5 7 60 118 68
Pág. 106
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Cluster Analysis of Variables: Age, Years, Weight, Height, Chin, Forearm, ...
Pág. 107
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
55.44
70.29
Similarit y
85.15
100.00
Age Years Weight Systol Diastol Chin Forearm Calf Pulse Height
Variables
En Minitab:
1. Stat > Multivariate > Cluster variables
2. Variables or distance matrix X1 – X7
Pág. 108
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Number
Number of obs.
of Similarity Distance Clusters New in new
Step clusters level level joined cluster cluster
1 6 89.4112 0.21178 4 6 4 2
2 5 80.5950 0.38810 1 5 1 2
3 4 73.4873 0.53025 2 7 2 2
4 3 57.8288 0.84342 1 3 1 3
5 2 39.4434 1.21113 2 4 2 4
6 1 -4.3342 2.08668 1 2 1 7
2.09
1.39
Dist ance
0.70
0.00
X1 X5 X3 X2 X7 X4 X6
Variables
Pág. 109
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Instrucciones en Minitab:
3. Rotation Varimax
5. OK
Pág. 110
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
X1 0.000 -0.000
X2 1.132 0.273
X3 0.000 -0.000
X4 -0.000 -0.000
X5 -0.815 0.832
X6 -0.000 -0.000
X7 -0.000 0.000
0.8
X2
Second Fact or
0.6
X1
0.4
X4
X6
0.2
X7
0.0
X3
3. OK
X1 X2 X3 X4 X5 X6
X2 -0.349
0.000
X3 0.476 -0.472
0.000 0.000
Pág. 111
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Al definir los factores que son las dimensiones de las variables que se
correlacionan significativamente, se observan dos factores. El primer factor
contiene a X1, X2, X3 y X7 y el segundo factor contiene a los aspectos de
imagen X4 y X6. En el primer factor X2 y X7 se relacionan inversamente con
X1 y X3, es decir que mientras se incrementan unas, las otras bajan. Esto
sugiere que altos valores en X1 y X3 implican valores bajos en X2 y X7. O sea
que definir conglomerados sólo con base en valores altos o bajos es
inapropiado.
10
9
8
7
Cluster
6
1
5
2
4
3
2
1
0
X1 X2 X3 X4 X5 X6 X7
Pág. 112
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
12
10
8 1
2
6
3
4 4
0
X1 X2 X3 X4 X5 X6 X7
Pág. 113
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
9. ANÁLISIS DE COMPONENTES
PRINCIPALES
Pág. 114
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 115
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
∑ ∑
p n
j =1 i =1
( xˆij − xij ) 2
Donde:
zi1 = ∑v j1 x ij
xˆij = a j1 zi1
xij i =1,2,...., n; j =1,2,...., p
( X ' X − λI )v = 0
Pág. 116
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Ejemplo:
15
6 2 0
3
Dada la matriz A = 15 4
2 2
3
0 2 2
Los valores característicos o Eigenvalores se obtienen al resolver la ecuación
del determinante: | A - λI | = 0, lo cual da en este caso:
(6 − λ ) 2 0 15
15 3
2 ( 4 − λ ) 2 = 0
3
0 (2 − λ )
2
El polinomio resultante es:
3 15
(6 − λ)(4 − λ)(2 − λ) − (6 − λ) − ( 2 − λ) = 0
2 2
Con sus raíces características o eigenvalores λ = 1, 3 y 8.
Los eigenvectores correspondientes se obtienen resolviendo la ecuación
Pág. 117
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
15
(6 − 3) 2 0
v1
15 3
2 ( 4 − 3) 2 v2 = 0
v3 La restricción para que la solución sea única es que:
3
0 2 (2 − 3)
1 3 9
v ' = −
2 10 20
3 1 9
− 28 − 2 14
V = 5 3 12
14 10 35
15 9 1
− 28 20 70
Pág. 118
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
En Matlab se tiene:
To get started, select "MATLAB Help" from the Help menu.
A =
6.0000 2.7386 0
2.7386 4.0000 1.2247
0 1.2247 2.0000
>> Lamda=eig(A)
Lamda =
1.0000
3.0000
8.0000
>> [V,D]=eig(A)
V =
0.3273 0.5000 -0.8018
-0.5976 -0.5477 -0.5855
0.7319 -0.6708 -0.1195
D =
1.0000 0 0
0 3.0000 0
0 0 8.0000
>>
4
Bryan, F.J. Manly, Multivariate Statistical Methods, Chapman and Hall, Londres, 1986
Pág. 119
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
1 c12 ..................c1 p
c21 1 ........... c2 p
C=
..............................
c p1 c p 2 ........... 1
Donde cada Cij = Cji es la correlación entre Xi y Xj. De esta manera la suma de
los términos diagonales, y la suma de los eigenvalores es igual al número de
variables p.
3. Encontrar los eigenvalores λ1, λ2, ……, λp y los correspondientes
eignevectores a1, a2, …… , ap. Los coeficientes del i-ésimo componente
principal están dados por ai mientras que la varianza es λi.
4. Descartar cualquier componente que solo contenga una pequeña parte de la
varianza de los datos (menor o igual a uno). Por ejemplo, iniciando en 20
variables, puede ser que los primeros tres componentes tengan el 90% de la
varianza total. Bajo esta base, se pueden ignorar los otros 17 componentes.
Ejemplo:
Los datos de las dimensiones de 49 pájaros se muestran a continuación:
Tabla y corrida Minitab
Los eigenvalores de esta matriz son: 3.616, 0.532, 0.386, 0.302 y 0.164, que
suman 5.000, que es igual a la suma de los términos de la diagonal de la matriz
C.
Pág. 120
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
En este caso contrasta X2, X3 y X4 contra X5, de modo que Z2 será alta si
(X2,X3,X4) son altas y (X5) es baja, por tanto puede considerarse que
representa la diferencia de forma entre los pájaros.
Z1 = 0.064
Z2 = 0.602
Pág. 121
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 122
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 123
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Correlations: RMEAT, WMEAT, EGGS, MILK, FISH, CERL, STARCH, NUTS, FR-
VEG
Pág. 124
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
3
Eigenvalue
0
1 2 3 4 5 6 7 8 9
Component Number
Valor mínimo a considerar
Pág. 125
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
0.1 RMEAT
EGGS
0.0
Second Component
-0.1 NUTS
-0.2
-0.3 STARCH
-0.4
-0.5 FR-VEG
-0.6 FI SH
-0.7
-0.5 -0.4 -0.3 -0.2 -0.1 0.0 0.1 0.2 0.3 0.4
First Component
Pág. 126
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Scatterplot of Z2 vs Z1
2 1
4
18
14 2 25
1 12 21 11
8 5
24
2220 23
0 3
6 13
7 16
9 15
10
-1
Z2
-2
19
-3
-4 17
-5
-3 -2 -1 0 1 2 3 4
Z1
Península ibérica
Pág. 127
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Ejemplo:
3 En Variables, Pop-Home.
Pág. 128
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
3.0
2.5
2.0
Eigenvalue
1.5
1.0
0.5
0.0
1 2 3 4 5
Component Number
PC1 = −.558 Pop − .313 School − .568 Employ − .487 Health + .174 Home
Pág. 129
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
coeficientes listados en PC2. Este componente podría ser pensado como nivel
de contraste de escolaridad y valor de la casa con salud y empleo de alguna
manera.
Pág. 130
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 131
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
5
Jonson, J.D., Applied Multivariate Data Analysis: Volume II, Categorical and Multivariate Methods,
Spinger Verlag, Nueva York, 1992
6
Hair, Joseph, F, et. Al., Multivariate Data Analysis, 5th. Edition, Prentice Hall International, Nueva
Jersey, 1998
Pág. 132
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Modelo matemático
A partir de los trabajos de Charles Spearman (1904) al hacer estudios de
psicología sobre la teoría de pruebas mentales, formuló un modelo de dos
factores: cada resultado de la prueba se forma de dos partes, uno que es
común a todas las pruebas (“inteligencia general”) y otro que es específico a la
prueba. Posteriormente, se modificó a para permitir que cada resultado de
Pág. 133
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Donde:
Pág. 134
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 135
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 136
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 137
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 138
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Análisis de componentes
El análisis de componentes se usa cuando el objetivo es resumir la mayor parte
de la información original (varianza) en un mínimo número de factores para
propósitos de predicción. Considera la varianza total y determina factores que
contienen pequeñas proporciones de varianza única y, en algunos casos,
varianza del error. No se basa en un modelo estadístico específico.7
Análisis factorial
En contraste el análisis de factores comunes se utiliza para identificar los
factores subyacentes o dimensiones que reflejan aquello que las variables
comparten en común. Se basa en un modelo estadístico especial.
En este método se tienen tres tipos de varianzas: (1) común, (2) específica
(única), y (3) error. La varianza común (communalities) se define como la
varianza en una variable que es compartida por todas las demás variables. La
varianza específica es la varianza asociada solo con una variable específica.
La varianza del error es la varianza debida a la incertidumbre en el proceso de
recolección de datos, errores de medición, o componente aleatorio en el
fenómeno medido.
Pág. 139
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Criterio a Priori: en este método el investigador ya tiene una idea clara de los
factores a extraer y así lo indica en la computadora.
Criterio Scree Test: Se usa para identificar el número óptimo de factores que
pueden ser extraídos antes de que la cantidad de varianza única empiece a
dominar la estructura de varianza común.
Eig
env
alor
Número de factores
Pág. 140
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
V5
+1 Factor I rotado
-1
Factor II
Pág. 141
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Equimax:
Es un compromiso entre las anteriores. Trata de simplificar los renglones y las
columnas, no se utiliza frecuentemente.
Pág. 142
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 143
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 144
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
3
Eigenvalue
0
1 2 3 4 5 6 7 8 9
Fact or Number
7 Click Graphs y seleccionar Loading plot for first 2 factors y Scree Plot.
Pág. 145
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Factor Analysis: RMEAT, WMEAT, EGGS, MILK, FISH, CERL, STARCH, NUTS,
FR-VEG
Eigenvalues Factores
4.00644 F1
1.63500 F2
1.12792 F3
0.95466 F4
Las ponderaciones de los factores que son mayores a |0.5|, sin importar el
signo, se analizan para mostrar como se relacionan las variables con los
factores. Se puede observar que: la variable X1 se explica fuertemente por los
Pág. 146
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
En este caso las variables X3, X4, X6, X7 y X8 se explican al menos por dos
factores, lo cual es mejor.
NUTS
0.25
FR-VEG STARCH
Second Fact or
0.00 FI SH
WMEAT
-0.25
-0.50
MI LK
EGGS
-0.75
RMEAT
-1.00
-0.50 -0.25 0.00 0.25 0.50 0.75 1.00
First Fact or
Pág. 147
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Z1 Z2 Z3 Z4
-2.08984 0.21229 -1.48719 0.91607
1.51952 -0.14373 -0.67295 -0.04645
0.54271 -0.78648 0.18603 -0.22398
-0.67265 0.77630 -1.57884 -0.08663
1.12632 0.60458 -0.33966 0.02184
0.28382 -0.24185 1.21441 1.14642
1.45824 0.86238 0.78301 0.03869
-0.67673 -0.14921 0.93845 2.29981
0.03566 -1.84164 0.00237 -1.24522
-1.73291 -0.89465 -0.40999 -1.39879
1.07856 1.20405 -1.09708 -0.64712
0.84733 -1.15498 -0.08258 0.51667
-0.62204 -0.37440 -0.59829 -1.17455
1.20389 -0.18081 -0.31569 0.37021
-0.87260 0.00189 1.50818 1.24280
1.07154 0.81779 0.25040 -0.66725
-1.02013 1.36441 2.63942 -1.71648
-0.51952 1.25002 -1.03438 0.40083
-0.48351 0.41424 1.05124 -1.81043
-0.27184 -0.39239 0.76534 1.37725
0.10789 -1.21314 -0.71597 -0.11354
-0.53941 -2.17878 -0.17044 -0.12795
-0.34330 0.78311 0.21603 0.63639
1.23608 -0.44858 0.05799 0.00754
-0.66709 1.70958 -1.10980 0.28389
Pág. 148
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Scatterplot of Z2 vs Z1
2
Yugoslav ia
Portugal
Rumania Hungría
Bélgica
Grecia
-1 Suiza Irlanda
Francia
-2 Reino Unido
-2 -1 0 1 2
Z1
Scatterplot of Z4 vs Z3
Finlandia
Suecia
Noruega
Dinamarca
Albania
1
Rusia
I rlanda
Rumania Holanda
Yugoslav ia
Z4
-1 I talia Francia
Grecia
Portugal
España
-2
-2 -1 0 1 2 3
Z3
Scatterplot of Z2 vs Z3
2
Yugoslav ia
Portugal
Rumania
I talia Suecia
Alemania Occ
Dinamarca
Bélgica
Grecia
-1 Suiza I rlanda
Francia
-2 Reino Unido
-2 -1 0 1 2 3
Z3
Pág. 149
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Scatterplot of Z1 vs Z4
2
Autria
Alemania orien
Alemania OccHolanda
Polonia Checa
1 Hungría
I rlanda
Bélgica
Dinamarca
Suiza
Francia
0
Z1
Rusia Suecia
España Reino Unido Rumania
I talia Yugoslav ia Finlandia
Noruega
Portugal Bulgaria
-1
Grecia
Albania
-2
-2 -1 0 1 2
Z4
Pág. 150
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
X1 X2 X3 X4 X6
X2 -0.349
0.000
X3 0.476 -0.472
0.000 0.000
Pág. 151
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
7 Click Graphs y seleccionar Loading plot for first 2 factors y Scree Plot.
2.
Pág. 152
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
factor 1, se ven dos grupos de variables. Las primeras son el nivel de precios
(X2) y la calidad del producto (X7) ambas con signos positivos y varían como
conjunto. Las otras dos, tiempo de entrega (X1) y flexibilidad de precios (X3)
En el factor 1, ambos grupos varían en sentido contrario, tal vez este factor sea
precios.
Se tienen ahora dos factores como combinación lineal de las variables para
efectos de realización de estudios:
Pág. 153
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
2.0
Eigenvalue
1.5
1.0
0.5
0.0
1 2 3 4 5 6
Fact or Number
Pág. 154
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
0.9
0.8
0.7
Second Fact or
0.6
0.5
0.4
0.3 X2
X1 X7
0.2
0.1
X3
0.0
Pág. 155
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 156
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
3.0
2.5
2.0
Eigenvalue
1.5
1.0
0.5
0.0
1 2 3 4 5
Fact or Number
Interpretación de resultados
Se seleccionan dos factores como el número que representa los datos del
censo en base al análisis de componentes principales. Se realiza una
extracción de máxima verisimilitud y rotación varimax para interpretar los
factores.
3 En Variables, Pop-Home.
Pág. 157
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 158
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
0.8
Pop
Second Fact or
0.6 Employ
0.4
0.2 Home
Health
0.0
Pág. 159
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 160
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 161
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Términos clave
Coeficiente ajustado de determinación (R2 ajustada): Es una métrica
modificada del coeficiente de determinación que toma en cuenta el
número de variables independientes incluidas en la ecuación de
regresión y el tamaño de muestra. A pesar de que la adición de variables
independientes hace que se incremente el coeficiente de determinación,
el coeficiente de determinación ajustado se reduce si las variables
independientes tienen poco poder explicativo y/o si los grados de
libertad son muy pequeños. Este estadístico es útil para comparar
ecuaciones con diferentes números de variables independientes, con
diferentes tamaños de muestra, o ambos.
Regresión con todos los posibles subconjuntos: Método de
selección de variables en el modelo que considera todas las
Pág. 162
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 163
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 164
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
*
TOLi = 1 − Ri2
*
Ri2 es el coeficiente de determinación para la variable de predicción i
Pág. 165
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Fórmulas:
La ecuación de regresión simple es:
Yˆ = b0 +b1V1
Donde:
bo = Término de intercepción
b1 = coeficiente de la regresión.
Error de predicción o residuo = diferencia entre valor real y estimado de la
variable dependiente.
∑ ( yi − y ) 2 = ∑ ( yi − yˆi ) 2 + ∑ ( yˆ i − y ) 2
i =1 i =1 i =1
Pág. 166
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
DIAGNÓSTICO AVANZADO
Índice de condición: Medición de la cantidad de varianza asociada con un
Eigenvalor (valor característico) de manera que un índice grande indica un
alto grado de colinealidad.
Distancia de Cook (Di): Medida resumida de la influencia de una
observación simple con base en los cambios totales en todos los demás
residuos cuando la observación se excluye del proceso de estimación. Los
valores mayores a 1 indican influencia significativa de la observación en la
estimación de los coeficientes de la regresión.
COVRATIO (razón de covarianza): Mide la influencia de una observación
simple en conjunto completo de coeficientes de la regresión. Un valor
cercano a 1 indica poca influencia, si (COVRATIO – 1) > ± 3 p/n (p es el
número de variables independientes +1 y n es el tamaño de muestra), la
observación se considera que tiene influencia.
Residuo excluido (deleted residual): Es el proceso de calcular residuos
en los cuales la influencia de cada una de las observaciones se excluye
cuando se calcula su residuo. Esto se logra al omitir la i-ésima observación
de la ecuación de regresión usada para calcular el valor estimado Y.
DFBETA: Mide el cambio en un coeficiente de la regresión cuando una
observación se omite del análisis de la regresión, se establece en términos
del coeficiente mismo, también se puede tener una versión estandarizada
SDBETA, donde sus valores son ajustados por sus errores estándar, se
definen cortes en 1 o 2 correspondientes a niveles de confianza de 0.10 y
0.05 respectivamente.
DFFIT: Mide el impacto de una observación en el ajuste general del modelo,
con una versión estandarizada DFFIT. La mejor regla práctica es
calsificarclasificar como influenciables cualquier valor SDFFIT > 2 /
raizraíz(p/n). p es el número de variables independientes +1 y n es el
tamaño de muestra.
Eigenvalor (valor característico): Mide la cantidad de varianza contenida
en la matriz de correlación de manera que la suma de los eigenvalores es
igual al número de variables. También se conoce como raíz latente o raíz
característica.
Pág. 167
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 168
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Evaluado la multicolinealidad
Regression
Variables Entered/Removed(b)
b Dependent Variable: X9
Model Summary
Pág. 169
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
ANOVA(b)
Total 8000.256 99
b Dependent Variable: X9
Coefficients(a)
a Dependent Variable: X9
Collinearity Diagnostics(a)
Variance Proportions
Condition
Eigenvalue
Dimension Index
Model (Constant) X1 X2 X3 X4 X5 X6 X7
1 1 7.533 1.000 .00 .00 .00 .00 .00 .00 .00 .00
2 .251 5.474 .00 .00 .01 .01 .00 .00 .00 .01
3 .106 8.426 .00 .01 .01 .00 .01 .00 .04 .04
4 6.548E-02 10.726 .01 .00 .00 .04 .03 .00 .18 .09
5 2.463E-02 17.489 .01 .01 .01 .31 .00 .00 .00 .53
Pág. 170
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
6 1.219E-02 24.861 .03 .00 .00 .07 .75 .00 .67 .05
7 6.259E-03 34.692 .86 .00 .00 .52 .17 .00 .10 .28
8 8.354E-04 94.959 .09 .97 .97 .05 .04 .99 .01 .00
a Dependent Variable: X9
Pág. 171
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Ejemplo:
1 Cargar datos
2 en Minitab.
5 Click Graphs.
Pág. 172
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
95
90
80
70
Percent
60
50
40
30
20
10
1
-3 -2 -1 0 1 2 3
St andardized Residual
Analysis of Variance
Source DF SS MS F P
Regression 2 18.9503 9.4751 15.53 0.007
Residual Error 5 3.0497 0.6099
Total 7 22.0000
Source DF Seq SS
TamanoTamaño 1 16.5143
Ingreso 1 2.4360
Interpretación de resultados
Salida de sesión
Pág. 173
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Salida gráfica
Pág. 174
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
4 OK
X1 X2 X3 X4 X5 X6 X7
X2 -0.349
0.000
X3 0.476 -0.472
0.000 0.000
Pág. 175
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
5 Click Graphs.
Analysis of Variance
Source DF SS MS F P
Regression 7 6177.81 882.54 44.55 0.000
Residual Error 92 1822.44 19.81
Total 99 8000.26
Source DF Seq SS
X1 1 3659.76
X2 1 927.88
X3 1 1424.10
X4 1 80.48
X5 1 18.20
X6 1 38.97
X7 1 28.43
Unusual Observations
Pág. 176
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
99
95
90
80
70
Percent
60
50
40
30
20
10
5
0.1
-3 -2 -1 0 1 2 3
St andardized Residual
1
St andardized Residual
-1
-2
-3
20 30 40 50 60
Fit t ed Value
Pág. 177
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 178
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 179
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 180
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Ejemplo:
Archivo
Tabl.Mtw
CT1 CT2 CT3 CT4 CT5 RowNames ColNames RowSupp1 RowSupp2 RSNames
3 19 39 14 10 Geology A 4 4 Museums
1 2 13 1 12 Biochemistry B 12 16 MathSci
6 25 49 21 29 Chemistry C 11 48
3 15 41 35 26 Zoology D 19 12
10 22 47 9 26 Physics E 7 27
3 11 25 15 34 Engineering
1 6 14 5 11 Microbiology
0 12 34 17 23 Botany
2 5 11 4 7 Statistics
2 11 37 8 20 Mathematics
Pág. 181
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Row Profiles
A B C D E Mass
Geology 0.035 0.224 0.459 0.165 0.118 0.107
Biochemistry 0.034 0.069 0.448 0.034 0.414 0.036
Chemistry 0.046 0.192 0.377 0.162 0.223 0.163
Zoology 0.025 0.125 0.342 0.292 0.217 0.151
Physics 0.088 0.193 0.412 0.079 0.228 0.143
Engineering 0.034 0.125 0.284 0.170 0.386 0.111
Microbiology 0.027 0.162 0.378 0.135 0.297 0.046
Botany 0.000 0.140 0.395 0.198 0.267 0.108
Statistics 0.069 0.172 0.379 0.138 0.241 0.036
Mathematics 0.026 0.141 0.474 0.103 0.256 0.098
Mass 0.039 0.161 0.389 0.162 0.249
Pág. 182
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Row Contributions
Component 1
ID Name Qual Mass Inert Coord Corr Contr
1 Geology 0.916 0.107 0.137 -0.076 0.055 0.016
2 Biochemistry 0.881 0.036 0.119 -0.180 0.119 0.030
3 Chemistry 0.644 0.163 0.021 -0.038 0.134 0.006
4 Zoology 0.929 0.151 0.230 0.327 0.846 0.413
5 Physics 0.886 0.143 0.196 -0.316 0.880 0.365
6 Engineering 0.870 0.111 0.152 0.117 0.121 0.039
7 Microbiology 0.680 0.046 0.010 -0.013 0.009 0.000
8 Botany 0.654 0.108 0.067 0.179 0.625 0.088
9 Statistics 0.561 0.036 0.012 -0.125 0.554 0.014
10 Mathematics 0.319 0.098 0.056 -0.107 0.240 0.029
Component 2
ID Name Coord Corr Contr
1 Geology -0.303 0.861 0.322
2 Biochemistry 0.455 0.762 0.248
3 Chemistry -0.073 0.510 0.029
4 Zoology -0.102 0.083 0.052
5 Physics -0.027 0.006 0.003
6 Engineering 0.292 0.749 0.310
7 Microbiology 0.110 0.671 0.018
8 Botany 0.039 0.029 0.005
9 Statistics -0.014 0.007 0.000
Pág. 183
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Supplementary Rows
Component 1 Component 2
ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr
1 Museums 0.556 0.067 0.353 0.314 0.225 0.168 -0.381 0.331 0.318
2 MathSci 0.559 0.134 0.041 -0.112 0.493 0.043 0.041 0.066 0.007
Column Contributions
Component 1 Component 2
ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr
1 A 0.587 0.039 0.187 -0.478 0.574 0.228 -0.072 0.013 0.007
2 B 0.816 0.161 0.110 -0.127 0.286 0.067 -0.173 0.531 0.159
3 C 0.465 0.389 0.094 -0.083 0.341 0.068 -0.050 0.124 0.032
4 D 0.968 0.162 0.347 0.390 0.859 0.632 -0.139 0.109 0.103
5 E 0.990 0.249 0.262 0.032 0.012 0.006 0.292 0.978 0.699
Pág. 184
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Row Plot
0.5 Biochemistry
0.4
Engineering
0.3
0.2
Component 2
Microbiology
0.1 Mathematics
MathSci Botany
Phy sics Statistics
0.0
Chemistry
Zoology
-0.1
-0.2
Geology
-0.3
Museums
-0.4
-0.4 -0.3 -0.2 -0.1 0.0 0.1 0.2 0.3 0.4 0.5
Component 1
2
E
1
Biochemistry
MicrobiologyEngineering
Phy sics
Component 2
MathSciBotany
Mathematics
Chemistry StatisticsZoology
0 C
A Geology Museums
D
B
-1
-2
-3
-3 -2 -1 0 1 2
Component 1
Pág. 185
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Ejemplo:
Los accidentes de automóvil se clasifican de acuerdo al tipo de accidente en:
colisión o volcadura; severidad del accidente (no severo y severo); si o no el
chofer fue expulsado; y el tamaño del coche (pequeño o estándar). Se utiliza el
Pág. 186
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 187
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
manera similar por cualquier componente, pero esto puede no ser cierto
para más de dos categorías.
La columna Mass tiene el mismo significado que en la tabla de perfiles
de Renglón – la proporción de la clase en el conjunto completo de datos.
En este ejemplo CarWt, DrEject, AccType, y AccServer se combinan
para una proporción de 0.25.
La columna denominada Inert, es la proporción en la que contribuye
cada columna en la inercia total. Las categorías coches pequeños,
expulsados, y volcaduras tienen la mayor inercia, sumando 61.4%, que
indica que estas categorías están más disociadas de las demás.
Column Contributions
Component 1 Component 2
ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr
1 Small 0.965 0.042 0.208 0.381 0.030 0.015 -2.139 0.936 0.771
2 Standard 0.965 0.208 0.042 -0.078 0.030 0.003 0.437 0.936 0.158
3 NoEject 0.474 0.213 0.037 -0.284 0.472 0.043 -0.020 0.002 0.000
4 Eject 0.474 0.037 0.213 1.659 0.472 0.250 0.115 0.002 0.002
5 Collis 0.613 0.193 0.057 -0.426 0.610 0.087 0.034 0.004 0.001
6 Rollover 0.613 0.057 0.193 1.429 0.610 0.291 -0.113 0.004 0.003
7 NoSevere 0.568 0.135 0.115 -0.652 0.502 0.143 -0.237 0.066 0.030
8 Severe 0.568 0.115 0.135 0.769 0.502 0.168 0.280 0.066 0.036
Pág. 188
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Column Plot
2
1
Standard
Severe
Component 2
NoEject Eject
Collis
0 NoSevere
Rollover
-1
-2 Small
-2 -1 0 1 2
Component 1
Pág. 189
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 190
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Por ejemplo, ¿Cómo percibe la gente las relaciones entre diferentes coches? Si
se tienen datos de encuestas indicando calificaciones de similaridad entre
diferentes fabricantes y modelos de coches, el escalado multidimensional
puede ser utilizado para identificar dimensiones que describan las
percepciones de los clientes.
Pág. 191
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
A B C D
A 0 6 6 2.5
B 6 0 9.5 7.8
C 6 9.5 0 3.5
D 2.5 7.8 3.5 0
B
A
Pág. 192
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Los pasos 2 a 5 se repiten hasta que parece que el estrés no se puede reducir
más. Como resultados del análisis se tienen las coordenadas de los n
individuos en las t dimensiones. Estas coordenadas pueden utilizarse para
dibujar un mapa que muestre como se relacionan los individuos. Es deseable
encontrar una buena solución en tres o menos dimensiones, para poder hacer
una representación gráfica adecuada.
Ejemplo:
Con base en un “mapa” de carreteras de una isla de Nueva Zelanda de 13
ciudades. Como las distancias no son proporcionales a las distancias
geográficas no es posible recuperar exactamente el mapa de las carreteras.
Pág. 193
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Escalado multidimensional
Franza Te
Alejandra Balclutha Blenheim Christchurch Dunedin Josef Greymouth Invercargill Milford Nelson Queenstown anau Timaru
Alejandra 0 100 485 284 126 233 347 138 248 563 56 173 197
Balclutha 100 0 478 276 50 493 402 89 213 537 156 138 177
Blenheim 485 478 0 201 427 327 214 567 691 73 494 615 300
Christchurch 284 276 201 0 226 247 158 365 489 267 305 414 99
Dunedin 126 50 427 226 0 354 352 139 263 493 192 188 127
Franza_Josef 233 493 327 247 354 0 114 380 416 300 228 366 313
Greymouth 347 402 214 158 352 114 0 493 555 187 341 480 225
Invercargill 138 89 567 365 139 380 493 0 174 632 118 99 266
Milford 248 213 691 489 263 416 555 174 0 756 178 75 377
Nelson 563 537 73 267 493 300 187 632 756 0 572 681 366
Queenstown 56 156 494 305 192 228 341 118 178 572 0 117 230
Te_anau 173 138 615 414 188 366 480 99 75 681 117 0 315
Timaru 197 177 300 99 127 313 225 266 377 366 230 315 0
3. Options: Group plots; Individual subject plots; Data Matriz; Model summary
4. OK
Alscal
Alscal Procedure Options
Data Options-
Model Options-
Model . . . . . . . . . . . Euclid
Maximum Dimensionality . . . . . 2
Minimum Dimensionality . . . . . 2
Negative Weights . . . . . . . Not Permitted
Output Options-
Job Option Header . . . . . . . Printed
Data Matrices . . . . . . . . Printed
Configurations and Transformations . Plotted
Output Dataset . . . . . . . . Not Created
Pág. 194
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Algorithmic Options-
Maximum Iterations . . . . . . 30
Convergence Criterion . . . . . .00100
Minimum S-stress . . . . . . . .00500
Missing Data Estimated by . . . . Ulbounds
Tiestore . . . . . . . . . . 78
6 7 8 9 10
6 .000
7 114.000 .000
8 380.000 493.000 .000
9 416.000 555.000 174.000 .000
10 300.000 187.000 632.000 756.000 .000
11 228.000 341.000 118.000 178.000 572.000
12 366.000 480.000 99.000 75.000 681.000
13 313.000 225.000 266.000 377.000 366.000
11 12 13
11 .000
12 117.000 .000
13 230.000 315.000 .000
1 .08605
2 .06010 .02596
3 .05795 .00214
4 .05730 .00066
Iterations stopped because
S-stress improvement is less than .001000
Stress and squared correlation (RSQ) in distances
Pág. 195
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Stimulus Coordinates
Dimension
Stimulus Stimulus 1 2
Number Name
1 ALEJANDR .7202 -.3136
2 BALCLUTH .8481 .7719
3 BLENHEIM -1.9897 .4399
4 CHRISTCH -.9345 .3452
5 DUNEDIN .5307 .5790
6 FRANZA -.6973 -1.2456
7 GREYMO -1.3326 -.5697
8 INVERCAR 1.2799 .3898
9 MILFORD 1.8132 -.3440
10 NELSON -2.3233 .0714
11 QUEENST .8088 -.4895
12 TE_ANAU 1.4641 -.2811
13 TIMARU -.1875 .6461
6 7 8 9 10
6 .000
7 .901 .000
8 2.535 2.793 .000
9 2.597 3.157 .996 .000
10 1.941 1.180 3.617 4.157 .000
11 1.533 2.112 .901 1.029 3.226
12 2.271 2.793 .753 .432 3.804
13 1.941 1.533 1.533 2.271 2.271
11 12 13
11 .000
12 .901 .000
13 1.533 1.941 .000
Pág. 196
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
nelson
0.0
alejandr te_anau
milford
queenst
-.5 greymo
Dimension 2
-1.0
franza
-1.5
-3 -2 -1 0 1 2
Dimension 1
2
Distances
0
0 1 2 3 4 5
Disparities
2
Distances
0
0 100 200 300 400 500 600 700 800
Observations
Pág. 197
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Transformation Scatterplot
Euclidean distance model
5
2
Disparities
0
0 100 200 300 400 500 600 700 800
Observations
Scatterplot of Z2 vs Z1
1.0
Balclutha
Timaru
Dunedin
0.5 Blenheim
Christchurch I nv ercargill
Nelson
0.0
Alejandra Te anau
Z2
Milford
Queenstown
-0.5 Greymouth
-1.0
Franza Josef
-1.5
-2 -1 0 1 2
Z1
Pág. 198
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Ejemplo HATCO:
Datos de similaridad
Los juicios de similaridad se realizaron con enfoque de comparación de objetos
pareados. Los 45 pares de organizaciones [(10 x 9)/2] se presentaron a los
encuestados, quienes indicaron que tan similares eran en una escala de nueve
puntos, con 1 “no similar” y 9 “muy similar”, los valores deben ser
transformados ya que valores altos de similaridad indican mayor similitud, lo
opuesto a una distancia de similaridad.
Calificación de atributos
Se obtuvieron calificaciones para los ocho atributos de cada organización,
incluyendo: calidad, orientación de la dirección, calidad del servicio, rapidez de
entrega, nivel de precios, imagen de la fuerza de ventas, flexibilidad de precios,
e imagen de manufactura. En este caso, se pidió a cada encuestado
seleccionar la organización que mejor caracterizaba el atributo, podrían ser
varias organizaciones.
Evaluación de preferencias
Pág. 199
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Pág. 200
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
4. Options: Group plots; Individual subject plots; Data Matrix; Model summary
4. OK
Alscal
Data Options-
Model Options-
Model . . . . . . . . . . . Euclid
Maximum Dimensionality . . . . . 2
Minimum Dimensionality . . . . . 2
Negative Weights . . . . . . . Not Permitted
Output Options-
Algorithmic Options-
Maximum Iterations . . . . . . 30
Convergence Criterion . . . . . .00100
Minimum S-stress . . . . . . . .00500
Missing Data Estimated by . . . . Ulbounds
Pág. 201
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
Tiestore . . . . . . . . . . 45
1 2 3 4 5
1 .000
2 6.610 .000
3 6.610 6.610 .000
4 2.330 2.610 3.440 .000
5 2.560 2.560 4.110 6.940 .000
6 4.060 2.390 2.170 4.060 2.390
7 2.500 3.500 4.000 2.220 2.170
8 2.330 2.390 3.720 2.670 2.610
9 2.440 4.940 6.610 2.500 7.060
10 6.170 6.940 2.830 2.500 2.500
6 7 8 9 10
6 .000
7 4.060 .000
8 3.670 2.280 .000
9 5.610 2.830 2.560 .000
10 3.500 6.940 2.440 2.390 .000
>Warning # 14654
>The total number of parameters being estimated (the number of
stimulus
>coordinates plus the number of weights, if any) is large relative to
the
>number of data values in your data matrix. The results may not be
reliable
>since there may not be enough data to precisely estimate the values
of the
>parameters. You should reduce the number of parameters (e.g.
request
>fewer dimensions) or increase the number of observations.
1 .34762
2 .31655 .03107
3 .30447 .01208
4 .29330 .01116
5 .28544 .00787
6 .27995 .00549
Pág. 202
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
7 .27809 .00186
8 .27736 .00072
For matrix
Stress = .21711 RSQ = .65041
Stimulus Coordinates
Dimension
Stimulus Stimulus 1 2
Number Name
1 2 3 4 5
1 .000
2 2.793 .000
3 2.793 2.793 .000
4 1.445 1.621 1.796 .000
5 1.616 1.616 2.793 2.793 .000
6 2.793 1.572 1.445 2.793 1.572
7 1.572 1.796 2.793 1.445 1.445
8 1.445 1.572 1.949 1.621 1.621
Pág. 203
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
6 7 8 9 10
6 .000
7 2.793 .000
8 1.796 1.445 .000
9 2.793 1.621 1.616 .000
10 1.796 2.793 1.572 1.572 .000
hatco
.5
g
0.0 e
c
-.5 h
Dimension 2
-1.0
i
b
-1.5
-2.0
-2.0 -1.5 -1.0 -.5 0.0 .5 1.0 1.5
Dimension 1
3.0
2.5
2.0
1.5
1.0
Distances
.5
0.0
1.4 1.6 1.8 2.0 2.2 2.4 2.6 2.8 3.0
Disparities
Pág. 204
MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / MARZO 2007
3.0
2.5
2.0
1.5
1.0
Distances
.5
0.0
2 3 4 5 6 7 8
Observations
Transformation Scatterplot
Euclidean distance model
3.0
2.8
2.6
2.4
2.2
2.0
1.8
Disparities
1.6
1.4
2 3 4 5 6 7 8
Observations
Pág. 205