Libra Analisis de Datos Con R PDF
Libra Analisis de Datos Con R PDF
Libra Analisis de Datos Con R PDF
Tal como se trata el análisis de datos en Francia, y tal como se utiliza en este libro, la termi-
nología «análisis de datos» reagrupa un conjunto de métodos estadísticos que se caracterizan
por ser multidimensionales y descriptivas.
El propio término «multidimensional» engloba dos aspectos. En primer lugar, implica que
las observaciones (o individuos estadísticos) son descritos por varias variables. En esta in-
troducción nos restringimos a los datos más corrientes, en los que un conjunto de individuos
es descrito por un conjunto de variables. Pero más allá de la disponibilidad de numerosas
variables para cada individuo estadístico, es la voluntad de estudiarlos simultáneamente lo
que caracteriza un enfoque multidimensional. De este modo, recurriremos al análisis de los
datos cada vez que la noción de perfil sea pertinente para considerar un individuo ; por
ejemplo, el perfil de las respuestas de los encuestados, el perfil biométrico de las plantas, el
perfil financiero de las empresas, etc.
Desde un punto de vista dual, si es interesante considerar globalmente los valores de los
individuos para un conjunto de variables es porque tales variables están vinculadas entre
ellas. Observemos que el estudio sucesivo de todas las relaciones entre las variables toma-
das dos a dos no constituye un enfoque multidimensional. Tal enfoque implica la toma en
consideración simultánea del conjunto de las relaciones entre las variables tomadas dos a
dos. Es lo que se hace, por ejemplo, en la puesta en evidencia de variables sintéticas : tal
variable representa varias otras, lo que implica que esté vinculada a cada una de ellas, y ello
es posible sólo si estas últimas están vinculadas entre ellas dos a dos. La noción de variable
sintética es, pues, intrínsecamente multidimensional y un instrumento potente de descrip-
ción de una tabla individuos × variables. Desde estos dos puntos de vista, es un concepto
clave del análisis de métodos multidimensionales y descriptivos.
Hagamos un último comentario sobre el término «análisis de datos» ya que posee por lo
menos dos sentidos. El ya precisado y otro, más amplio, de investigación estadística. Este
segundo sentido es una opinión del usuario ; es definido por un objetivo (analizar datos) y
no estipula nada en cuanto a los métodos estadísticos puestos en marcha. Es lo que engloba
el término anglosajón «data analysis». El término «análisis de datos», en el sentido de un
conjunto de métodos descriptivos multidimensionales, es más un punto de vista francés en
estadística. Jean-Paul Benzécri lo introdujo en Francia en los anos sesenta y su adopción
está sin duda vinculada al hecho de que estos métodos multidimensionales son el centro de
«data analyses».
i
A quién está dirigido este libro
Este libro se ha concebido para científicos que no se orientan hacia profesiones de la estadís-
tica pero que tendrán que tratar datos por ellos mismos. Está dirigido, pues, a los prácticos
confrontados al análisis estadístico de datos. En dicha perspectiva, está orientado hacia las
aplicaciones ; el formalismo matemático se ha reducido en lo posible, para dejar sitio a la
comprensión a partir del ejemplo y a partir de la intuición. Concretamente, el nivel de una
diplomatura científica es suficiente para apropiarse de todos los conceptos introducidos.
Sobre el plano del programa, una iniciación al lenguaje R es suficiente, por lo menos para
comenzar. Este programa es gratuito y está disponible en internet en la siguiente dirección :
http://www.r-project.org/.
Contenido y carácter del libro
El contenido del libra se centra en los cuatro métodos fundamentales del análisis de datos,
los que tienen el potencial más vasto de aplicación : el análisis en componentes principales
(ACP) cuando las variables son cuantitativas, el análisis factorial de las correspondencias
(AFC) y el análisis de correspondencias múltiples (ACM) cuando los datos son cualitativos y
la clasificación jerárquica ascendente. El punto de vista geométrico empleado para presentar
estos métodos proporciona un contexto único en el sentido de que abastece una visión uni-
ficada para el análisis exploratorio de las tablas de datos. En este contexto, presentaremos
los principios generales, indicadores, modos de representar y visualizar los objetos (filas y
columnas de una tabla de datos) comunes a todos los métodos.
Así, veremos cómo es posible utilizar variables cualitativas en un contexto de ACP donde
las variables que hay que analizar son clásicamente cuantitativas, al igual que añadir va-
riables cuantitativas en un contexto de ACM donde las variables son cualitativas. Para cada
método, el procedimiento adoptado es el mismo. Un ejemplo permite introducir la pro-
blemática y concreta casi paso a paso los elementos teóricos. Esta propuesta es seguida por
varios ejemplos, tratados de un modo detallado para ilustrar el aporte del método en las
aplicaciones.
A lo largo del texto, cada resultado es acompañado por el comando R que permite obte-
nerlo. Todos estos comandos son accesibles a partir de FactoMineR, paquete R desarrollado
por los autores. El lector que lo desee podrá encontrar los resultados que figuran en este
libro, puesto que los juegos de datos (así como las líneas de código) están disponibles en
la siguiente dirección : http://factominer.free.fr/libra. Así, con esta obra, el lector
dispone de un equipo completo (bases teóricas, ejemplos, programas) para analizar datos
multidimensionales.
Antes de finalizar este prefacio, nos complace dar las gracias a Inmaculada Calviño Iglesias
por la traducción de este libro y a Nuria Durán Adroher por su inestimable colaboración.
ii
Contenido
iii
1.10.2 Elección del análisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
1.10.3 Puesta en práctica con FactoMineR . . . . . . . . . . . . . . . . . . . . 43
1.11 Ejemplo : datos genómicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
1.11.1 Descripción de los datos y problemática . . . . . . . . . . . . . . . . . 49
1.11.2 Elección del análisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
1.11.3 Puesta en práctica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
iv
3 Análisis de correspondencias múltiple (ACM) 119
3.1 Datos y notaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
3.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
3.2.1 Estudio de individuos . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
3.2.2 Estudio de variables y de modalidades . . . . . . . . . . . . . . . . . . 121
3.3 Distancia entre individuos y distancia entre modalidades . . . . . . . . . . . . 121
3.3.1 Distancia entre individuos . . . . . . . . . . . . . . . . . . . . . . . . . 122
3.3.2 Distancia entre modalidades . . . . . . . . . . . . . . . . . . . . . . . . 122
3.4 AFC sobre la tabla disyuntiva completa . . . . . . . . . . . . . . . . . . . . . 123
3.4.1 Relación entre ACM y AFC . . . . . . . . . . . . . . . . . . . . . . . . 123
3.4.2 Nube de individuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
3.4.3 Nube de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
3.4.4 Nube de modalidades . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
3.4.5 Relaciones de transición . . . . . . . . . . . . . . . . . . . . . . . . . . 129
3.5 Ayuda a la interpretación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
3.5.1 Indicadores numéricos . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
3.5.2 Elementos suplementarios . . . . . . . . . . . . . . . . . . . . . . . . . 133
3.5.3 Descripción automática de los ejes . . . . . . . . . . . . . . . . . . . . 134
3.6 Puesta en práctica con FactoMineR . . . . . . . . . . . . . . . . . . . . . . . 135
3.7 Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
3.7.1 Análisis de una encuesta . . . . . . . . . . . . . . . . . . . . . . . . . . 138
3.7.2 Descripción de una variable cualitativa y de una subpoblación . . . . . 140
3.7.3 Tabla de Burt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
3.8 Encuesta sobre la percepción de los OGM . . . . . . . . . . . . . . . . . . . . 145
3.8.1 Descripción de los datos y problemática . . . . . . . . . . . . . . . . . 145
3.8.2 Elección del análisis y puesta en práctica . . . . . . . . . . . . . . . . 148
3.8.3 Análisis del primer plano . . . . . . . . . . . . . . . . . . . . . . . . . 148
3.8.4 Proyección de variables suplementarias . . . . . . . . . . . . . . . . . . 150
3.8.5 Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
3.9 Ejemplo : categorización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
3.9.1 Descripción de los datos y problemática . . . . . . . . . . . . . . . . . 152
3.9.2 Elección del análisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
3.9.3 Representación de los individuos sobre el primer plano . . . . . . . . . 154
3.9.4 Representación de las modalidades . . . . . . . . . . . . . . . . . . . . 155
3.9.5 Representación de las variables . . . . . . . . . . . . . . . . . . . . . . 156
4 Clasificación 157
4.1 Datos y problemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
4.2 Formalización de la noción de similitud . . . . . . . . . . . . . . . . . . . . . 160
4.2.1 Similitud entre individuos . . . . . . . . . . . . . . . . . . . . . . . . . 160
4.2.2 Similitud entre grupos de individuos . . . . . . . . . . . . . . . . . . . 163
4.3 Construcción de una jerarquía indiciada . . . . . . . . . . . . . . . . . . . . . 164
4.3.1 Algoritmo clásico de construcción ascendente . . . . . . . . . . . . . . 164
4.3.2 Jerarquía y partición (figura 4.6) . . . . . . . . . . . . . . . . . . . . . 165
4.4 Método de Ward . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
v
4.4.1 Calidad de una partición . . . . . . . . . . . . . . . . . . . . . . . . . 166
4.4.2 Agregación por la inercia . . . . . . . . . . . . . . . . . . . . . . . . . 167
4.4.3 Dos propiedades del índice de agregación . . . . . . . . . . . . . . . . 168
4.4.4 Análisis de una jerarquía, elección de una partición . . . . . . . . . . . 170
4.5 Investigación de una partición por agregación alrededor de los centros móviles 171
4.5.1 Datos y problemática . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
4.5.2 Principio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
4.5.3 Metodología . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
4.6 Particionamiento y clasificación jerárquica . . . . . . . . . . . . . . . . . . . . 173
4.6.1 Consolidación de una partición . . . . . . . . . . . . . . . . . . . . . . 173
4.6.2 Algoritmo mixto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
4.7 Clasificación y análisis factorial . . . . . . . . . . . . . . . . . . . . . . . . . . 174
4.7.1 Análisis factorial previo a una CJA . . . . . . . . . . . . . . . . . . . . 174
4.7.2 Análisis simultáneo de un plano factorial y de una jerarquía . . . . . . 175
4.8 Ejemplo : datos sobre temperaturas . . . . . . . . . . . . . . . . . . . . . . . 175
4.8.1 Descripción de los datos y problemática . . . . . . . . . . . . . . . . . 175
4.8.2 Elección del análisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
4.8.3 Puesta en marcha . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
4.9 Ejemplo : datos té . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
4.9.1 Descripción de los datos - problemática . . . . . . . . . . . . . . . . . 180
4.9.2 Construcción de la CJA . . . . . . . . . . . . . . . . . . . . . . . . . . 180
4.9.3 Descripción de los grupos . . . . . . . . . . . . . . . . . . . . . . . . . 182
4.10 Ejemplo : recorte en grupos de las variables cuantitativas . . . . . . . . . . . 183
4.10.1 Recorte en grupos de una variable . . . . . . . . . . . . . . . . . . . . 183
4.10.2 Recorte automático de varias variables . . . . . . . . . . . . . . . . . . 186
A Anexo 189
A.1 Porcentaje de inercia explicado por un eje y por un plano . . . . . . . . . . . 189
A.2 El lenguaje de programación R . . . . . . . . . . . . . . . . . . . . . . . . . . 194
A.2.1 Presentación general . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
A.2.2 Paquete Rcmdr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
A.2.3 Paquete FactoMineR . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
Bibliografía 207
Índice 209
vi
Chapitre 1
Análisis de componentes
principales (ACP)
Los datos pueden ser de naturaleza diversa ; algunos ejemplos se presentan en la tabla 1.1.
Ilustramos este capítulo de ACP con el juego de datos de los jugos de naranja, escogido
por su sencillez, ya que sólo contiene seis individuos y siete variables. Estos datos se han
obtenido en el ámbito de trabajos de estudiantes del Agrocampus. Un jurado integrado por
estudiantes evaluó los seis jugos de naranja según siete variables sensoriales (intensidad del
olor, tipo de olor, carácter pulposo, intensidad del sabor, carácter ácido, carácter amargo,
carácter azucarado). Los promedios de las evaluaciones del jurado aparecen seguidamente
(tabla 1.2).
1.2 Objetivos
La tabla de datos puede analizarse por sus filas (los individuos) o a través de sus columnas
(las variables), lo que suscita varios tipos de preguntas relacionadas con estos objetos de
diferente naturaleza.
A B C
2
● ● ● ●
1.0
● ●
1.0
● ●
●
●●
●
● ● ●
● ●●● ●● ●
● ● ● ●
●
● ● ●
● ● ●
● ● ●
1
● ● ● ●
●
●
0.5
0.5
●● ● ● ●
●
● ● ● ● ●
●
● ●
Variable k
Variable k
Variable k
● ●
●
0
●
●
● ●
−0.5 0.0
−1.0 −0.5 0.0
●
●● ● ●
● ● ● ● ●
●
●
● ●
● ● ●
● ●
−1
●
● ●
● ●
●
● ●
● ● ● ●
●
●● ●
● ●
−2
● ● ●
●
−1.0
● ●
● ● ●
●
● ●
● ● ●
●●
● ● ●
−1.0 −0.5 0.0 0.5 1.0 −1.0 −0.5 0.0 0.5 1.0 −3 −2 −1 0 1 2
Variable j Variable j Variable j
por dos variables (j y k). En el gráfico A se ponen en evidencia dos clases muy distintas
de individuos, en tanto que en el gráfico B se presenta una dimensión de variabilidad que
2
Análisis de componentes principales (ACP)
opone a individuos extremos (como en el caso del gráfico A) pero esta vez con los individuos
intermedios. La forma de la nube de individuos es aquí muy alargada. En el gráfico C se
muestra una nube informe (por ejemplo, sin estructura particular).
Es fácil describir los datos en estos ejemplos simples porque están en dos dimensiones.
Cuando los individuos son descritos por un gran número de variables, es necesario disponer
de un instrumento para explorar el espacio en el cual evolucionan. El estudio de los individuos
consiste en aprehender las semejanzas entre individuos desde el punto de vista del conjunto
de las variables, es decir establecer una tipología de individuos : ¿cuáles son los individuos
más próximos (resp. más alejados) ? ¿Existen grupos de individuos homogéneos desde el
punto de vista de sus semejanzas ? Otro aspecto consiste en buscar dimensiones comunes de
variabilidad que oponen individuos extremos a individuos intermedios.
En el ejemplo, dos jugos de naranja se han evaluado del mismo modo sobre el conjunto de la
descripción sensorial. Decimos entonces que ambos jugos tienen el mismo «perfil» sensorial.
De modo más general, nos preguntamos si existen unos grupos de jugos de naranja con
perfiles similares, por ejemplo, de dimensiones sensoriales que pueden oponer jugos extremos
a jugos intermedios.
3
Husson – Lê – Pagès Análisis de datos con R
A B C
0.0
0.0
1.0
● ● ● ● ● ●
● ●
●
● ● ● ●
● ● ● ● ● ● ●
● ●
●
● ●
● ●
● ● ●
● ● ● ● ●
● ● ● ● ●
● ● ●
● ● ● ● ● ● ● ● ●
●
● ●● ● ●
0.5
● ● ● ●
● ● ●
● ● ● ● ●
−0.4
−0.4
● ● ●
● ● ●
● ● ● ● ● ● ● ●
● ●
● ● ●
Variable k
● ●
Variable l
Variable l
●● ● ● ●
● ● ●● ●
● ● ● ●
● ●
● ●● ● ●
● ●
● ●●
0.0
● ● ● ● ●
● ● ● ● ●●
● ● ●
● ● ● ● ● ●
● ● ● ●
● ●
● ● ●
● ● ● ●
● ● ●
● ● ●
−0.8
−0.8
● ● ●
● ● ●● ● ● ● ●
● ● ●
● ● ● ● ●
● ● ● ●
−0.5
● ● ●
●● ● ● ● ●
● ● ● ●
● ●
● ● ●
● ● ● ● ●
●● ● ● ●
● ● ● ● ●
● ● ● ●
● ● ● ●
● ● ●
● ● ●● ● ●
● ● ● ●
−1.0
● ● ●
●
−1.2
−1.2
● ● ●
−1.0 −0.5 0.0 0.5 1.0 −1.0 −0.5 0.0 0.5 1.0 −1.0 −0.5 0.0 0.5 1.0
Variable j Variable j Variable k
D E F
● ● ●
● ● ● ● ● ●
1.0
1.0
1.0
● ● ●
● ● ● ● ● ●
● ● ●● ● ●
● ● ●
● ● ●
● ● ● ● ● ●
0.4 0.6 0.8
Variable m
Variable m
●
● ● ●
● ● ● ● ● ● ● ● ● ● ●
● ●● ●
● ● ●
● ● ●
● ● ● ● ● ● ●● ●
● ● ●
● ● ●
● ● ● ● ● ●
● ● ● ● ● ●
● ● ●
●● ● ●
● ● ● ● ● ●
●
●
● ● ●
● ● ● ● ● ●
● ● ● ●● ● ●
● ●
● ● ●● ●
● ● ● ●●● ● ● ● ● ●● ● ● ● ● ●● ●
● ● ●
● ● ●
● ● ●
0.2
0.2
0.2
● ● ●
● ● ● ● ●●
● ●● ● ● ● ● ● ●
● ● ● ● ● ●
● ● ● ● ● ● ● ● ●
● ● ● ● ● ●
● ● ●
● ● ● ●
● ●● ●●
0.0
0.0
0.0
● ● ●
−1.0 −0.5 0.0 0.5 1.0 −1.0 −0.5 0.0 0.5 1.0 −1.2 −0.8 −0.4 0.0
Variable j Variable k Variable l
Figure 1.2 – Representación de las relaciones entre cuatro variables (j, k, l y m) dos a dos.
definición de variables sintéticas propuestas por el ACP, por lo que será más fácil comentar
los datos por algunas variables sintéticas más bien que por el conjunto de las variables.
En el ejemplo de los zumos de naranja, la matriz de correlación (cf. tabla 1.3) reagrupa
los 21 coeficientes de correlación. Se pueden reagrupar las variables muy correlacionades
por paquetes pero, incluso para este número reducido de variables, esta reagrupación es
fastidiosa.
4
Análisis de componentes principales (ACP)
5
Husson – Lê – Pagès Análisis de datos con R
ACP normado cuando las variables son centradas y reducidas de ACP no normado cuando
las variables son únicamente centradas ; cuando no hay ninguna precisión, es sobreentiende
un ACP normado.
Observación sobre el peso de individuos. Hasta aquí, supusimos que todos los indi-
viduos tenían el mismo peso. Es el caso de casi la totalidad de las aplicaciones y lo supon-
dremos siempre. Sin embargo, la generalización a individuos con distinta ponderación no
plantea ningún problema conceptual (un peso doble es equivalente a dos individuos idénti-
cos) ni práctico (la inmensa mayoría de los programas, incluyendo FactoMineR, preveen esta
posibilidad). Puede ser útil destinar un peso diferente a cada individuo después de haber
establecido una muestra por ejemplo. De todos modos, es cómodo hacer la suma de los pe-
sos igual a 1. Más tarde, ya que se supondrá que tienen el mismo peso, cada individuo será
afectado del peso 1/I.
6
Análisis de componentes principales (ACP)
para fotografiar las frutas en la primera fila permiten difícilmente identificar cada fruta. En
la segunda fila, las frutas se reconocen más fácilmente. ¿Qué es lo que diferencia los enfoques
de la misma fruta entre la primera fila y la segunda ? Las distancias están menos deformadas
en los segundos enfoques y las representaciones ocupan mejor el espacio en la fotografía. La
fotografía proyectó un objeto tridimensional en un espacio de dos dimensiones.
Una buena representación deberá escoger un buen ángulo de enfoque ; generalmente, el ACP
vuelve a buscar el mejor espacio de representación (de dimensión reducida) que permite vi-
sualizar lo mejor posible la forma de una nube de K dimensiones. A menudo nos contentamos
con una representación plana que puede resultar insuficiente para ciertos juegos de datos
particularmente ricos.
Para obtener la mejor representación plana, la nube NI se proyecta sobre un plano de RK ,
escrito P , escogido tal que deforme lo menos posible la nube de puntos. El plano P es de
manera que las distancias entre puntos proyectados sean tan próximas como las distancias
entre puntos iniciales. Como en proyección una distancia sólo puede disminuir, procuramos
hacer las distancias proyectadas lo más grande posible. Escribiendo Hi la proyección del
7
Husson – Lê – Pagès Análisis de datos con R
I
X
OHi2 sea máximo.
i=1
Este criterio consiste en hacer máximo la varianza de los puntos proyectados. Hablamos
así de «varianza explicada». En Francia, utilizamos más bien el lenguaje de la mecánica :
O siendo el centro de gravedad de la nube, el criterio puede verse como la inercia de la
proyección de NI .
Observación PI
Si los individuos tienen pesos diferentes pi , el criterio a maximizar es i=1 pi OHi2 .
En ciertos casos, poco frecuentes, puede ser interesante buscar sólo la mejor representación
axialPde la nube NI . Este mejor eje se obtiene según el mismo principio : encontrar el eje u1 tal
I
que i=1 OHi2 sea máximo (con Hi la proyección de i sobre u1 ). Podemos demostrar que el
plano P contiene el eje u1 («mejor» plano contiene el «mejor» eje) : en este sentido, estas dos
representaciones encajan. Una ilustración de esta propiedad es presentada en la figura 1.6 :
los planetas, que están en un espacio de tres dimensiones, clásicamente se representan sobre
un eje, en el cual se sitúan de la mejor manera posible en función de la distancia que separa
unos de otros (en términos de inercia de la nube proyectada). También podemos representar
los planetas sobre un plano siguiendo el mismo principio : maximizar la inercia de la nube
de puntos proyectada (sobre el plano). Esta mejor representación plana contiene la mejor
representación axial.
So urio
o
o
ón
n
r
rn
no
te
tu
c
tu
ut
pi
ra
ep
er
l
Sa
Pl
Jú
U
M
N
Ve t e
M ra
s
nu
ar
er
Ti
Urano
Marte
Saturno Tierra Sol
Mercurio Venus Neptuno
Júpiter
Plutón
8
Análisis de componentes principales (ACP)
Definimos el plano P por dos vectores no colineales escogidos del modo siguiente : el vector
u1 que define el mejor eje (y que está incluido en P ), el vector u2 del plano P ortogonal a
u1 . El vector u2 corresponde al vector que expresa más variabilidad de NI una vez retirada
la expresada por u1 . Es decir, la variabilidad expresada por u2 es el mejor complemento y
es independiente de la variabilidad expresada por u1 .
Ejemplo
La distancia entre dos zumos de naranja se calcula tomando como base los siete descriptores
sensoriales. Decidimos estandarizar los datos para otorgar la misma influencia a cada des-
criptor. La figura 1.7 se obtiene a partir de los dos primeros componentes del ACP normado
y corresponde pues al el mejor plano de representación de la nube de puntos en el sentido de
la inercia proyectada. La inercia proyectada sobre este plano corresponde a la suma de los
dos primeros valores propios dividida por la suma de los valores propios, es decir a 86.82%
(= 67.77 % + 19.05 %) de la inercia total de la nube de puntos.
9
Husson – Lê – Pagès Análisis de datos con R
Pampryl fr.
2
Dim 2 (19.05%)
1
Tropicana fr.
0 Fruvita fr.
Pampryl amb.
-1
Joker amb.
Tropicana amb.
-2
-4 -2 0 2 4
Dim 1 (67.77%)
Figure 1.7 – Datos del zumo del zumo de naranja : representación plana de la nube de
individuos.
El principal eje de variabilidad entre los zumos de naranja, opone Tropicana fresco y Pampryl
ambiente. Según la tabla de datos 1.2, podemos ver que estos zumos de naranja son los más
extremos para los descriptores tipo olor y amargo : Tropicana fresco es el zumo de naranja
más típico y menos amargo mientras que Pampryl ambiente es el menos típico y más amargo.
El segundo componente, el que más opone los zumos de naranja una vez el principal eje de
variabilidad retirado, separaTropicana ambiente, que es el menos intenso desde el punto de
vista del olor, de Pampryl fresco entre los más intensos (cf. tabla 1.2).
Esta lectura de los datos es fastidiosa cuando el número de individuos y el número de
variables es considerable. Facilitamos la caracterización de los principales ejes con la ayuda
de las variables de un modo más directo.
10
Análisis de componentes principales (ACP)
factor 1. Veremos que esto está relacionado con el porcentaje de inercia asociado a F2 , que
por construcción, es inferior al asociado a F1 . El segundo eje puede caracterizarse por las
variables intensidad olor y pulposo (cf. tabla 1.4).
F1 F2
Intensidad.olor 0.46 0.75
Tipo.olor 0.99 0.13
Pulposo 0.72 0.62
Intensidad.sabor −0.65 0.43
Ácido −0.91 0.35
Amargo −0.93 0.19
Azucarado 0.95 −0.16
Tabla 1.4 – Datos zumo de naranja : coeficientes de correlación entre cada una de las variables
y los dos primeros componentes principales (las coordenadas de los individuos sobre los dos
primeros ejes).
Intensidad.olor
0.62 Pulposo
0.5
Intensidad.sabor
Ácido
Dim 2 (19.05%)
Amargo
Tipo.olor
0.0
0.72
Azucarado
-0.5
-1.0
11
Husson – Lê – Pagès Análisis de datos con R
coeficiente de correlación igual a 0) y que una variable no puede estar vinculada fuertemente
y simultáneamente a dos ejes ortogonales. Veremos más precisamente en la sección siguiente
por qué la variable está necesariamente dentro del círculo de radio 1.
O
1
con kkk (resp. klk) la norma de la variable k (resp. l) y θkl el ángulo formado por los vectores
que representan las variables k y l. Como aquí las variables están centradas, la norma de una
variable es igual a su desviación-típica multiplicada por la raíz de I y el producto escalar se
escribe :
XI
(xik − x̄k ) × (xil − x̄l ) = I × sk × sl × cos(θkl ).
i=1
12
Análisis de componentes principales (ACP)
r(k, l) = cos(θkl )
Esta propiedad es crucial en ACP porque ofrece una interpretación geométrica de la cor-
relación. Así, de la misma manera que la representación de la nube NI permite visualizar
la variabilidad entre los individuos, una representación de la nube NK permite visualizar el
conjunto de las correlaciones (vía los ángulos entre variables), es decir la matriz de corre-
lación. Para poder visualizar más fácilmente los ángulos entre las variables, representamos
las variables no por puntos pero por vectores. En general, caso que adoptamos, estando las
variables centradas y reducidas, sus longitudes valen 1 (de ahí el nombre de variable nor-
mada). Su extremidad se sitúa entonces sobre la esfera (decimos también hiperesfera para
recordar que, en general, I > 3) de radio 1, que se esquematiza en la figura 1.9.
Los vectores vs (s = 1, ..., S) pertenecen al espacio RI y por consiguiente pueden ser consi-
derados como nuevas variables. Así, el coeficiente de correlación r(k, vs ) entre la variable k
y vs es igual al coseno del ángulo θks entre k y vs si la variable k está centrada-reducida, y
entonces normada. La representación de las variables sobre el plano formado por (v1 , v2 ) es
atractiva porque las coordenadas de una variable k corresponden al coseno del ángulo θk1 y
al coseno del ángulo θk2 y como consecuencia,corresponden a los coeficientes de correlación
entre la variable k y v1 y entre la variable k y v2 . Sobre tal representación plana, es fácil ver
si una variable k está vinculada a una dimensión de variabilidad.
13
Husson – Lê – Pagès Análisis de datos con R
PK 2
Por construcción, la variable vs maximiza el criterio k=1 (OHks ) . Como la proyección de
una variable k es igual al coseno del ángulo θks , el criterio vuelve a maximizar :
K
X K
X
cos2 θks = r2 (k, vs ).
k=1 k=1
La última expresión muestra que vs es la nueva variable más correlada al conjunto de K
variables iniciales (con la condición de ortogonalidad a los vt ya encontrados). En este sentido,
vs es una variable sintética. Encontramos aquí el segundo aspecto del estudio de las variables
(cf. § 1.2.2).
A
HA
HB
HA
D HB HD
HD HC
HC
Observación
Cuando una variable no es normada, su longitud es igual a su desviación-típica. En ACP no
normada, el criterio se escribe así para el vector vs :
K
X K
X
2
(OHks ) = s2k r2 (k, vs ) .
k=1 k=1
14
Análisis de componentes principales (ACP)
K
1 X
Fs (i) = √ xik Gs (k),
λs k=1
I
1 X
Gs (k) = √ (1/I) xik Fs (i).
λs i=1
Este resultado es esencial para la interpretación y hace del ACP un instrumento de investi-
gación de calidad y sólido. Podemos leerlo del modo siguiente : un individuo está situado del
lado de las variables para las cuales toma valores fuertes y en oposición a las variables para
las cuales toma pequeños valores. Recordemos que los xik están centrados, y tienen valores
positivos y negativos ; de ahí el alejamiento de un individuo con relación a una variable para
la cual tiene un valor débil. Fs es el componente principal
√ de rango s ; λs es la varianza de
Fs y su raíz es la longitud de Fs en RI ; vs = Fs / λs denominade componente principal
normado.
Las inercias totales de ambas nubes son iguales (e igual a K si el ACP es normado). Además,
sus descomposiciones eje por eje son idénticas. Esta propiedad es notable : si S dimensiones
bastan para representar perfectamente NI , lo mismo ocurre para NK . Sino, ¿que podemos
decir de una variable sintética suplementaria que no diferenciaría los individuos ?
Los primeros indicadores que consultamos dan la inercia proyectada sobre la inercia total.
Es decir, para el eje s :
PI 1 s 2 PK 2
i=1 I (OHi ) k=1 (OHks ) λs
PI 1 2
= PK = PK .
i=1 I (Oi) k=1 Ok 2 s=1 λs
15
Husson – Lê – Pagès Análisis de datos con R
PK
Y si el ACP es normado, s=1 λs = K. Multiplicado por 100, este indicador representa el
porcentaje de inercia (de NI en RK o de NK en RI ) expresado por el eje de rango s. Este
porcentaje puede verse de dos maneras :
– como una medidad de la calidad de representación de datos ; en el ejemplo, diremos que el
primer eje expresa 67.77 % de la variabilidad de los datos (cf. tabla 1.5). En ACP normado
(con I > K), a menudo comparamos λs a 1, valor por debajo del cual el eje de rango s
representa entonces menos datos que una variable aislada y no es digno de interés ;
– como una medida de la importancia relativa de los ejes ; en el ejemplo, diremos que el
primer eje expresa tres veces más de variabilidad que el segundo ; en efecto, concierne
tres veces más variables pero esta formulación es verdaderamente exacta sólo cuando cada
variable está correlada perfectamente a un eje.
A causa de la ortogonalidad de los ejes entre ellos (tanto en RK como en RI ), estos porcen-
tajes de inercia se suman para varios ejes.
Valor Porcentaje Porcentaje
propio de inercia de inercia acumulada
comp. 1 4.74 67.77 67.77
comp. 2 1.33 19.05 86.81
comp. 3 0.82 11.71 98.53
comp. 4 0.08 1.20 99.73
comp. 5 0.02 0.27 100.00
Tabla 1.5 – Datos de los jugos de naranja : descomposición de la variabilidad por ejes.
Volvamos a la figura 1.5 : las fotografías de las frutas de la primera fila corresponden aprox-
imadamente a una proyección de las frutas sobre el plano formado por los ejes 2 y 3 del
ACP mientras que las fotografías de la segunda fila corresponde aproximadamente a una
proyección sobre el plano 1-2. Es por esta razón que las frutas son más fáciles de reconocer
en la segunda fila : más variabilidad (i.e., más información) es recuperada sobre el plano
1-2 con relación al plano 2-3 y es más fácil aprehender la forma global de la nube. Además,
el plátano es más reconocible que el melón sobre el plano 1-2 (en la segunda fila) porque
la parte de inercia recuperada por el plano 1-2 es más importante. En efecto, el plátano es
una fruta más alargada que el melón, lo que conlleva diferencias de inercia de un eje al otro
más marcadas. El melón, al ser casi esférico, los porcentajes de inercia asociados a cada uno
de los tres ejes son próximos de 33 % y la parte de inercia recuperada por el plano 1-2 es
próxima de 66 % (como la recuperada por el plano 2-3).
16
Análisis de componentes principales (ACP)
Pampryl amb. Tropicana amb. Fruvita fr. Joker amb. Tropicana fr. Pampryl fr.
3.03 1.98 2.59 2.09 3.51 2.34
Tabla 1.6 – Datos zumo de naranja : distancia de los individuos al centro de la nube.
Cuando un individuo contribuye mucho (i.e., mucho más que otros) en la construcción de
un eje factorial (por ejemplo Tropicana ambiente y Pampryl fresco, para el segundo eje cf.
17
Husson – Lê – Pagès Análisis de datos con R
Dim.1 Dim.2
Pampryl amb. 31.29 0.08
Tropicana amb. 2.76 36.77
Fruvita fr. 13.18 0.02
Joker amb. 12.63 8.69
Tropicana fr. 35.66 4.33
Pampryl fr. 4.48 50.10
tabla 1.7), es frecuente que los resultados de un nuevo ACP construido sin este individuo
cambien de modo sustancial : los principales factores de variabilidad pueden cambiar y
aparecer nuevas oposiciones entre individuos.
Del mismo modo, calculamos la contribución de la variable k en la construcción del eje s, lo
que da para el ejemplo, los resultados presentados en la tabla 1.8.
Dim.1 Dim.2
Intensidad.olor 4.45 42.69
Tipo.olor 20.47 1.35
Pulposo 10.98 28.52
Intensidad.sabor 8.90 13.80
Ácido 17.56 9.10
Amargo 18.42 2.65
Azucarado 19.22 1.89
Tabla 1.8 – Datos zumo de naranja : contribución de las variables en la construcción de los
ejes.
18
Análisis de componentes principales (ACP)
1 1 X
Gs (k 0 ) = √ xik0 Fs (i) = r(k 0 , Fs ).
λs I i∈{activo}
con {activo} el conjunto de los individuos activos : el cálculo de esta coordenada se hace
únicamente a partir de los individuos activos.
En el ejemplo, disponemos además de los descriptores sensoriales, de las variables fisico-
químicas (cf. tabla 1.9). Sin embargo, el punto de vista adoptado sobre los datos no cambia,
es decir : describir los zumos de naranja a partir del único perfil sensorial. Esta problemática
puede ser enriquecida uniendo las dimensiones sensoriales a las variables fisico-químicas.
El círculo de correlaciones (cf. figura 1.11) permite una representación conjunta de las va-
riables activas y suplementarias. El principal eje de variabilidad opone los zumos de naranja
percibidos como ácido-amargo, poco azucarados y poco típicos a los zumos de naranja per-
cibidos como azucarados, típicos, poco ácidos y poco amargos. El análisis de esta percepción
sensorial es reforzado por las variables pH y sacarosa. En efecto, estas dos variables son
correladas positivamente al primer eje y se sitúan al lado de los zumos de naranja percibidos
como azucarados y poco ácidos (un índice de pH elevado indica una acidez débil). También
encontramos la reacción llamada «de inversión (o de hidrólisis) de sacarosa» : sacarosa se
descompone en glucosa y fructosa en un medio ácido (los zumos de naranja ácidos contienen
más fructosa y glucosa y menos sacarosa que la media).
Observación
Cuando utilizamos el ACP con un fin exploratorio de los datos antes de realizar una regresión
múltiple, se aconseja escoger las variables explicativas del modelo de regresión como variables
activas del ACP y proyectar en suplementario la variable que hay que explicar. Esto da una
idea de las relaciones entre variables explicativas y de la necesidad a seleccionar las variables
explicativas en el modelo. Esto también da una idea sobre la calidad de la regresión : si la
variable que hay que explicar está bien proyectada, el modelo se ajusta bien los datos.
19
Husson – Lê – Pagès Análisis de datos con R
1.0
Intensidad.olor
Capacidad.de.endulzar
Pulposo
0.5
Intensidad.sabor
Ácidoe Fructosa
Glucosa
Dim 2 (19.05%)
Sacarosa
Amargo Tipo.olor
0.0
Ácido.cítrico Azucarado
pH
Vitamina.C
-0.5
-1.0
Dim 1 (67.77%)
20
Análisis de componentes principales (ACP)
Condición de Origen
conservación
Pampryl amb. Del tiempo Otro
Tropicana amb. Del tiempo Florida
Fruvita fr. Fresco Florida
Joker amb. Del tiempo Otro
Tropicana fr. Fresco Florida
Pampryl fr. Fresco Otro
Pampryl fr.
2
Dim 2 (19.05%)
Fresco
1
Tropicana fr.
Otro
Fruvita fr.
0
Pampryl amb.
Ambiente Florida
-1
Joker amb.
Tropicana amb.
-2
-4 -2 0 2 4
Dim 1 (67.77%)
Figure 1.12 – Datos de los jugos de naranja : representación plana de la nube de individuos
con dos variables cualitativas suplementarias.
Del mismo modo que para las variables, podemos utilizar una fórmula de transición para
calcular la coordenada de un individuo suplementario i0 sobre el eje de rango s :
K
1 X
Fs (i0 ) = √ xi0 k Gs (k).
λs k=1
Precisemos que el centrado y la reducción (eventual), se hacen con relación a las medias
y a las desviaciones-típicas calculadas sobre los individuos activos únicamente. Además, el
cálculo de la coordenada de i0 se hace únicamente a partir de las variables activas. No es
necesario disponer de valores tomados por los individuos suplementarios para las variables
suplementarias.
Observación
Una modalidad suplementaria puede ser considerada como un individuo suplementario que
tomaría, para cada variable activa, la media calculada sobre el conjunto de los individuos
que poseen esta modalidad.
21
Husson – Lê – Pagès Análisis de datos con R
Observación
Recordemos que los ejes factoriales, como variables sintéticas, son combinaciones lineales de
variables activas. Someter a un test la significación del coeficiente de correlación entre un
componente y una variable es pues un procedimiento por construcción erróneo. Sin embargo,
es útil clasificar y seleccionar las variables activas de ese modo para describir los ejes. En
cambio, para las variables suplementarias, el test descrito para la significación del coeficiente
de correlación entre dos variables corresponde al utilizado más a menudo.
Para una variable cualitativa, efectuamos un análisis de varianza a 1 factor donde procuramos
explicar las coordenadas de los individuos (sobre el eje de rango s) por la mencionada
PI
variable cualitativa ; utilizamos la restricción i=1 αi = 0. Luego, para cada modalidad, se
construye un test t de Student que permite comparar la media de los individuos que poseen
la modalidad a la media general (probamos αi = 0 ; para esto consideramos las varianzas de
las coordenadas iguales para cada modalidad). Las modalidades positivas (resp. negativas)
luego son clasificadas por probabilidad crítica creciente (resp. decreciente).
Estas ayudas para la interpretación son particularmente útiles para interpretar las dimen-
siones cuando el número de variables es importante.
Los datos utilizados contienen pocas variables ; no obstante, damos como ejemplo, las salidas
del procedimiento de descripción automática del primer eje. Las variables que más carac-
terizan el eje 1 son el tipo de olor, el carácter azucarado, el carácter amargo y el carácter
ácido (cf. tabla 1.11).
Correlación p.value
Tipo.olor 0.9854 0.0003
Carácter.azucarado 0.9549 0.0030
pH 0.8797 0.0208
Carácter.ácido −0.9127 0.0111
Carácter.amargo −0.9348 0.0062
Tabla 1.11 – Datos de los jugos de naranja : descripción de la primera dimensión por las
variables cuantitativas.
El primer eje también se caracteriza por la variable cualitativa Origen ya que el test de
correlación es significativamente diferente de 0 (probabilidad crítica del test igual a 0.00941) ;
los zumos de naranja de Florida tienen coordenadas significativamente más elevadas que la
media en el primer eje mientras que los zumos de naranja de otras procedencias tienen
coordenadas inferiores a la media (cf. tabla 1.12).
22
Análisis de componentes principales (ACP)
$Dim.1$quali
R2 p.value
Origen 0.8458 0.0094
$Dim.1$category
Estimate p.value
Florida 2.0031 0.0094
Otro -2.0031 0.0094
Tabla 1.12 – Datos de los jugos de naranja : descripción de la primera dimensión por las
variables cuantitativas.
library(FactoMineR)
naranja <- read.table("http://factominer.free.fr/libro/naranja.csv",
header=TRUE, sep=";", dec=".", row.names=1)
summary(naranja)
El ACP se obtiene precisando que aquí las variables de 8 a 14 son cuantitativas suplemen-
tarias y las variables 15 y 16 son cualitativas suplementarias :
Esta instrucción aplica el ACP y proporciona el gráfico de las variables (con las variables
activas y suplementarias, cf. figura 1.11) y el gráfico de los individuos (con los individuos y
las modalidades de las variables cualitativas suplementarias, cf. figura 1.12). Para dibujar el
gráfico solamente con los individuos (cf. figura 1.7), utilizamos la función plot.PCA :
plot(res.pca, invisible="quali")
Las tablas 1.4, 1.5, 1.6, 1.7 y 1.8 se obtienen por las líneas de código siguientes :
round(res.pca$var$coord[,1:2],2)
round(res.pca$eig,2)
round(res.pca$ind$dist,2)
round(res.pca$ind$contrib[,1:2],2)
round(res.pca$var$contrib[,1:2],2)
lapply(dimdesc(res.pca),lapply,round,2)
23
Husson – Lê – Pagès Análisis de datos con R
1.8 Complementos
1.8.1 Test de significación de los ejes
Puede ser interesante comparar el porcentaje de inercia asociado a un eje o a un plano en
el cuartil 0.95 de la distribución de estos porcentajes obtenida simulando tablas de datos
de dimensiones equivalentes teniendo como base una ley multinormal. Estos cuartiles son
reunidos en las tablas de la página 190 hasta la página 193 y un ejemplo es illustrado en
§ 1.9.4.
24
Análisis de componentes principales (ACP)
las distancias entre individuos están deformadas a causa de una dilatación de cada eje por
el inverso de la raíz cuadrada del valor propio que se le asocia : esta deformación es muy
importante ya que las inercias de los ejes de representación son muy diferentes. Además, no es
posible representar variables cuantitativas suplementarias. Para obtener una representación
simultánea de las nubes, se puede utilizar la función biplot.
25
Husson – Lê – Pagès Análisis de datos con R
1.9.2 Problemática
A partir de la tabla de los gastos brutos en euros, podemos construir una tabla de porcentajes
para estudiar la parte del presupuesto para cada rúbrica. Trabajar en la tabla bruta o en
la tabla de porcentajes no responde exactamente a los mismos objetivos : Si utilizamos los
porcentajes, nos interesamos al reparto de los gastos por puesto, mientras que si utilizamos
los datos brutos, podemos estudiar simultáneamente el reparto y el nivel de gasto, es decir,
los gastos relativos y absolutos. En el marco de esta presentación, analizamos los datos
brutos pero estudiar los porcentajes también daría resultados interesantes.
Nos interesamos aquí en la evolución del perfil de los gastos según la edad. Este objetivo
bastante general puede declinarse según varias cuestiones. ¿Hay grupos de edad que tienen
26
pan.cereales
carnes
pescados.mariscos
leche.quesos.huevos
aceites.grasas
frutas
legumbres
azúcar.productos
otros_productos
café.té.cacao
agua.bebidas
otros_gastos_alimentación
bebidas_alcohólicas
restauración
tabaco
ropa.artículos_calzado
vivienda.agua.gas.electricidad
mobiliario.equipamiento_doméstico
salud
transportes
comunicaciones
ocio.cultura
enseñanza
servicios.alojamiento
otros_bienes.servicios
fuera_campo_consumo_final
total_productos_alimenticios
total_alimentación
total_no_alimentación
gasto_total
Menos de 25 años 545 405 64 297 34 84 177 139 108 39 137 103 188 1185 518 1618 5855 1239 415 3474 1042 1715 354 70 1856 2585 2321 3506 18156 21662
De 25 a 34 años 741 734 153 522 56 156 297 230 187 78 204 151 233 1663 463 2690 5693 2000 805 4750 1214 2452 76 135 3656 7548 3742 5404 23935 29339
De 35 a 44 años 1005 1079 231 691 88 223 410 319 163 110 248 202 322 1867 502 2950 4681 2309 987 5551 1134 2872 272 270 3694 10474 5091 6958 25223 32181
27
edades (26 primeras columnas de la tabla 1.13).
De 45 a 54 años 944 1199 291 662 96 279 430 297 130 118 241 235 487 1761 436 2668 4526 2243 1054 5505 1257 2985 456 317 3716 11365 5410 7171 25163 32334
De 55 a 64 años 769 1167 325 613 102 305 443 253 126 109 209 184 481 1102 249 2080 3982 2187 1155 4818 961 2775 112 190 3632 10667 5087 6189 22141 28331
De 65 a 74 años 668 1061 286 525 111 315 410 219 97 90 161 141 450 608 85 1234 3630 1697 981 2845 650 2131 11 138 3207 6942 4535 5143 16609 21752
75 años y más 562 912 251 422 90 294 336 175 81 88 118 99 301 531 57 716 3493 1418 1015 1292 513 1311 6 73 2537 5486 3728 4259 12431 16690
Conjunto 795 1015 250 574 89 254 384 251 132 98 200 172 376 1320 328 2132 4428 1986 981 4285 989 2460 189 195 3384 8798 4590 5910 21357 27267
D1 581 687 132 382 67 169 272 171 91 62 148 73 225 532 299 1272 4072 875 486 1723 727 1019 118 61 1951 2175 3061 3593 12604 16197
D2 665 770 175 466 78 192 291 202 100 68 162 75 199 579 350 1256 4441 1051 537 2089 796 1279 134 69 2155 3056 3443 4023 14157 18180
D3 713 926 190 515 90 213 337 210 113 81 174 95 291 868 347 1517 4363 1188 959 3067 806 1469 138 115 2481 4261 3945 4813 16450 21263
D4 763 947 210 540 87 219 338 241 126 90 185 108 277 879 393 1638 4355 1618 879 3659 895 1803 136 118 2635 5020 4130 5008 18130 23138
D5 795 1040 223 556 89 237 367 243 136 91 197 143 366 1037 373 1867 4296 1677 865 3712 994 2076 125 139 3211 6169 4483 5520 19334 24853
D6 823 988 234 591 85 237 358 247 144 97 208 164 367 1201 329 2005 4270 1806 892 4651 966 2219 169 160 3222 7245 4543 5744 20687 26431
D7 887 1107 265 642 95 263 407 286 143 115 229 177 397 1444 349 2422 4366 2305 1028 4932 1132 2679 247 205 3740 9046 5014 6458 23405 29863
D8 913 1151 305 663 98 283 443 282 153 119 234 234 418 1736 315 2613 4501 2296 1086 5411 1147 3160 207 277 4028 10041 5296 7032 25041 32073
D9 892 1198 339 676 94 340 474 303 152 117 231 265 498 2155 294 2897 4466 2734 1306 6148 1199 3926 236 344 4684 14281 5579 7734 28234 35968
D10 913 1342 427 713 103 386 549 329 159 142 236 390 720 2768 232 3837 5147 4312 1776 7458 1230 4968 377 464 5737 26695 6409 9177 35538 44715
Tabla 1.13 – Datos gastos : reparto de gastos anuales medios de los franceses por grupos de
Análisis de componentes principales (ACP)
Husson – Lê – Pagès Análisis de datos con R
perfiles de gastos muy próximos ? Podemos así obtener una tipología de los grupos de edad
según los diferentes puestos de gastos ; la tipología siendo construida de modo que dos grupos
de edad son tan próximos que tienen perfiles de gastos similares. ¿Hay puestos de gastos que
evolucionan del mismo modo según la edad ? Es decir, queremos obtener un balance de las
relaciones entre los puestos de gastos a través del estudio de los coeficientes de correlación
entre las variables tomadas dos a dos. Además, ¿podemos construir indicadores sintéticos
que permiten resumir la evolución de los perfiles de gastos ? Podemos interesarnos por los
indicadores a priori como los totales parciales o el gasto total, pero el análisis permite
construir indicadores a posteriori (los factores del ACP) que podremos intentar unir a otros
indicadores (por ejemplo, la renta media).
Ambos resultados, el primero sobre los individuos y el segundo sobre las variables, están
confrontados para describir la tipología de los individuos a partir de las variables y recípro-
camente.
También podremos unir la tipología de los individuos con las variables cuantitativas que no
participaron a la construcción de las distancias interindividuales (las variables que corres-
ponden a los totales) así como los individuos suplementarios (los decilos de renta).
28
Análisis de componentes principales (ACP)
argumento row.w para precisar un vector de peso (sobre los individuos activos) ; cuando el
argumento no es precisado, el peso 1/I es afectado por defecto.
fuera_campo_consumo_final
otros_gastos_alimentación
ropa.artículos_calzado
otros_bienes.servicios
leche.quesos.huevos
servicios.alojamiento
bebidas_alcohólicas
pescados.mariscos
azúcar.productos
comunicaciones
otros_productos
aceites.grasas
agua.bebidas
café.té.cacao
pan.cereales
restauración
ocio.cultura
transportes
enseñanza
legumbres
carnes
tabaco
frutas
salud
media 748 937 229 533 82 237 358 233 127 90 188 159 352 1245 330 1994 4551 1870 916 4034 967 2320 184 170 3185 7867
desv.tip 164 262 84 129 25 81 88 59 34 25 47 47 113 502 183 776 871 393 226 1456 263 584 164 88 671 2962
cv 0,22 0,28 0,37 0,24 0,31 0,34 0,25 0,25 0,27 0,27 0,25 0,29 0,32 0,40 0,56 0,39 0,19 0,21 0,25 0,36 0,27 0,25 0,89 0,51 0,21 0,38
29
Husson – Lê – Pagès Análisis de datos con R
La función PCA proporciona el gráfico de los individuos y el gráfico de las variables así como
las salidas numéricas siguientes contenidas en el objeto res.pca :
> res.pca
**Results for the Principal Components Analysis (PCA)**
The analysis was performed on 18 individuals, described by 30 variables
*The results are available in the following objects:
name description
1 "$eig" "eigenvalues"
2 "$var" "results for the variables"
3 "$var$coord" "coord. for the variables"
4 "$var$cor" "correlations variables - dimensions"
5 "$var$cos2" "cos2 for the variables"
6 "$var$contrib" "contributions of the variables"
7 "$ind" "results for the individuals"
8 "$ind$coord" "coord. for the individuals"
9 "$ind$cos2" "cos2 for the individuals"
10 "$ind$contrib" "contributions of the individuals"
11 "$ind.sup" "results for the supplementary individuals"
12 "$ind.sup$coord" "coord. for the supplementary individuals"
13 "$ind.sup$cos2" "cos2 for the supplementary individuals"
14 "$quanti.sup" "results for the supplementary quantitative variables"
15 "$quanti.sup$coord" "coord. for the supplementary quantitative variables"
16 "$quanti.sup$cor" "correlations suppl. quantitative variables - dimensions"
17 "$call" "summary statistics"
18 "$call$centre" "mean of the variables"
19 "$call$ecart.type" "standard error of the variables"
20 "$call$row.w" "weights for the individuals"
21 "$call$col.w" "weights for the variables"
> round(res.pca$eig,2)
eigenvalue percentage cumulative percentage
variance of variance
comp 1 15.52 59.69 59.69
comp 2 8.67 33.34 93.03
comp 3 1.22 4.67 97.71
comp 4 0.38 1.48 99.18
comp 5 0.14 0.55 99.73
comp 6 0.07 0.27 100.00
Podemos visualizar estos valores propios con la ayuda de un diagrama en barras (cf. fi-
gura 1.13) utilizando el siguiente comando :
30
Análisis de componentes principales (ACP)
15
10
5
0
1 2 3 4 5 6
Figure 1.13 – Datos gastos : valor propio asociado a cada dimensión del ACP.
Los dos primeros ejes expresan 93.03% de la inercia total ; en otros términos, el 93.03%
de la variabilidad total de la nube de los individuos (o de las variables) está representado
por el primer plano. Este porcentaje es extremadamente importante y el primer plano re-
presenta la variabilidad contenida en el conjunto del juego activo de datos. Según la tabla
de la página 193, el cuantilo 95 % obtenido para 7 individuos y 25 variables vale 56.4%.
El porcentaje de inercia explicado por el primer plano de nuestro juego de datos es pues
significativo. Los ejes 3 y 4 expresan sólo 4.7% y 1.5% de inercia y no aportarán mucha infor-
mación. No obstante, es prudente representarlos para asegurarse de que no son interesantes
de interpretar.
Plano 1-2
Estudio de la nube de los individuos activos. La representación de la nube de los
individuos pone en evidencia eventuales particularidades del juego de datos : por ejemplo, la
presencia de una partición sobre los individuos, los individuos extremos,etc. La función PCA
proporciona por defecto un gráfico con los individuos activos y suplementarios. Podemos
construir el gráfico de los individuos activos únicamente con la ayuda de la función plot.PCA
(que puede ser llamada plot o plot.PCA). Precisamos entonces que construimos el gráfico
de los individuos (choix="ind") y que hacemos invisible a los individuos suplementarios
(invisible="ind.sup") :
> plot.PCA(res.pca, choix="ind", invisible="ind.sup")
Este gráfico de los individuos (cf. figura 1.14) presenta una disposición remarcable : el primer
eje opone los grupos de edad extremos con los grupos de edad medios. La relación entre la
edad y el primer eje no es lineal. El segundo eje ordena los grupos de edad del más alto al
31
Husson – Lê – Pagès Análisis de datos con R
Menos de 25 años
4
De 25 a 34 años
De 35 a 44 años
2
Dim 2 (33.34%)
De 45 a 54 años
0
De 55 a 64 años
-2
De 65 a 74 años
75 años y más
-4
-5 0 5
Dim 1 (59.69%)
más bajo. El objeto res.pca$ind contiene las coordenadas, los cosenos al cuadrado y las
contribuciones para cada individuo. Damos aquí estos tres indicadores para los individuos
activos y los tres primeros ejes.
> round(cbind(res.pca$ind$coord[,1:3],res.pca$ind$cos2[,1:3],
res.pca$ind$contrib[,1:3]),2)
Dim.1 Dim.2 Dim.3 Dim.1 Dim.2 Dim.3 Dim.1 Dim.2 Dim.3
Menos de 25 años -6.53 3.70 1.19 0.74 0.24 0.02 39.29 22.61 16.59
De 25 a 34 años -0.30 3.22 -2.04 0.01 0.70 0.28 0.08 17.08 49.07
De 35 a 44 años 4.11 1.87 -0.29 0.78 0.16 0.00 15.53 5.75 0.97
De 45 a 54 años 4.90 0.71 1.66 0.87 0.02 0.10 22.10 0.84 32.25
De 55 a 64 años 2.75 -1.89 -0.22 0.62 0.29 0.00 6.97 5.88 0.59
De 65 a 74 años -0.84 -3.68 -0.11 0.05 0.91 0.00 0.65 22.26 0.14
75 años y más -4.09 -3.94 -0.18 0.50 0.47 0.00 15.38 25.58 0.39
32
Análisis de componentes principales (ACP)
vivienda.agua.gas.electricidad tabaco
1.0
comunicaciones
restauración
otros_productos ropa.artículos_calzado
enseñanza transportes
0.5
agua.bebidas
ocio.cultura
pan.cereales
otros_gastos_alimentación
Dim 2 (33.34%)
servicios.alojamiento
mobiliario.equipamiento_doméstico
azúcar.productos
0.0
otros_bienes.servicios
leche.quesos.huevos
fuera_campo_consumo_final
café.té.cacao
legumbres
-0.5
carnes
bebidas_alcohólicas
salud
pescados.mariscos
aceites.grasas
frutas
-1.0
Dim 1 (59.69%)
La figura 1.15 pone en evidencia una correlación positiva entre el primer componente prin-
cipal y todas las variables excepto una (vivienda agua gas electricidad). Así, este eje opone
grupos de edad que consumen poco (grupos que tienen coordenadas negativas en el primer
eje) con grupos de edad que consumen mucho (en cualquier tipo de gastos).
Todas las variables están bien representadas en el plano 1-2, excepto la variable enseñanza.
Podemos leer esta calidad de representación en el gráfico gracias a la aproximación entre el
extremo de la flecha y el círculo de radio 1. Encontramos las coordenadas de las variables
activas en el objeto res.pca$var así como sus calidades de representación (cosenos al cua-
drado) y sus contribuciones en la construcción de los ejes (para no cargar mucho el texto,
damos indicadores para ocho variables) :
> round(cbind(res.pca$var$coord[,1:3],res.pca$var$cos2[,1:3],
res.pca$var$contrib[,1:3]),2)
Dim.1 Dim.2 Dim.3 Dim.1 Dim.2 Dim.3 Dim.1 Dim.2 Dim.3
pan.cereales 0.94 0.25 0.05 0.88 0.06 0.00 5.67 0.70 0.20
carnes 0.83 -0.55 0.06 0.70 0.30 0.00 4.48 3.46 0.27
pescados.mariscos 0.66 -0.74 0.05 0.44 0.55 0.00 2.82 6.31 0.17
leche.quesos.huevos 0.99 -0.08 -0.09 0.97 0.01 0.01 6.28 0.07 0.62
aceites.grasos 0.59 -0.80 0.04 0.35 0.63 0.00 2.24 7.29 0.16
frutas 0.48 -0.88 0.04 0.23 0.77 0.00 1.45 8.87 0.12
legumbres 0.84 -0.54 -0.01 0.70 0.29 0.00 4.54 3.36 0.01
enseñanza 0.28 0.62 0.72 0.08 0.39 0.52 0.52 4.49 42.81
Las variables estando bien representadas, lo mismo ocurre con el ángulo entre dos variables,
es decir, con la correlación entre dos variables. Ciertos gastos están fuertemente correlados
entre ellos : pan.cereales y leche.quesos.huevos están correlados positivamente (i.e., ciertos
grupos de edad gastan poco en estos dos puestos de gastos y otros gastan mucho). La variable
33
Husson – Lê – Pagès Análisis de datos con R
> round(cor(depenses[,c(1,4,17)]),2)
pan leche.quesos vivienda.agua
cereales huevos gas.electricidad
pan.cereales 1.00 0.95 0.11
leche.quesos.huevos 0.95 1.00 -0.06
vivienda.agua.gas.electricidad 0.11 -0.06 1.00
Las variables suplementarias son útiles aquí para simplificar la lectura del gráfico de las
variables. En efecto, en este ejemplo, las variables suplementarias son variables totales que
resumen varias variables. El gráfico de las variables suplementarias (cf. figura 1.16) es obte-
nido por :
total_no_alimentación
gasto_total
0.5
Dim 2 (33.34%)
total_alimentación
0.0
total_productos_alimenticios
-0.5
-1.0
Dim 1 (59.69%)
> round(cbind(res.pca$quanti.sup$coord[,1:3],res.pca$quanti.sup$cos2[,1:3]),2)
Dim.1 Dim.2 Dim.3 Dim.1 Dim.2 Dim.3
total_productos_alimenticios 0.94 -0.34 0.04 0.88 0.11 0.00
total_alimentación 1.00 0.04 0.03 0.99 0.00 0.00
total_no_alimentación 0.78 0.61 -0.05 0.60 0.38 0.00
gasto_total 0.86 0.51 -0.04 0.73 0.26 0.00
34
Análisis de componentes principales (ACP)
$Dim.2
$Dim.2$quanti
correlation p.value
vivienda.agua.gas.electricidad 0.967 3.79e-04
tabaco 0.967 3.80e-04
comunicaciones 0.840 1.81e-02
restauración 0.780 3.86e-02
aceites.grasos -0.795 3.26e-02
frutas -0.877 9.53e-03
Esta función es más útil cuantas más variables hayan y por lo tanto el gráfico de las
variables esté cargado. Vemos aquí que el primer eje está muy vinculado a la variable
total_alimentación (coeficiente de correlación de 0.996) y a la variable fuera_campo_-
consumo_final, etc. El segundo eje está muy vinculado a las variables vivienda agua gas
electricidad y tabaco.
35
Husson – Lê – Pagès Análisis de datos con R
principal es la combinación lineal de las variables que las sintetiza mejor. En este ejemplo, la
síntesis automática proporcionada por el ACP casi coincide con el total alimentación. Una
gran parte de las diferencias (cf. el porcentaje de inercia de 59.69%) que existen entre los
puestos de gastos de un grupo de edad al otro, puede ser resumida por la sola variable total
alimentación.
El eje 2 opone los gastos de fruta, aceites.grasos, pescado.marisco y salud los gastos vi-
vienda.agua.gas.electricidad.conbustible, tabaco, communicación y restauración. Este eje se-
para entre ellos sobre todo los grupos de edad que gastan globalmente poco (los grupos de
edad extremos). Los grupos de edad medios se separan sobre otros ejes (contribuyen mucho
en la construcción de los ejes 3 y 4, cf. tabla de contribuciones de la página 32). Entre
los presupuestos más débiles, encontramos presupuestos más especializados : los que tienen
menos de 25 años (coordenada positiva en el eje 2) gastan más (que la media) en communi-
cación, vivienda, restauración, (variables correladas positivamente con el factor 2) y menos
(que la media) en pescado, fruta, salud, aceites y grasa (variables correladas negativamente
con el factor 2). Las personas mayores (coordenadas negativas) presentan un perfil de gasto
opuesto.
Esto puede ser ilustrado comparando losmenos de 25 años y los75 años y más a partir de
los datos centrados reducidos (ver tabla página 39). Anotemos que estos dos grupos de edad
tienen coordenadas débiles sobre el eje 1 y gastan globalmente poco ; sus gastos importantes
para ciertos puestos, exacerbados por el eje 2, tienen que relativizarse con relación a su gasto
global.
Menos de 25 años
4
De 25 a 34 años
De 35 a 44 años
2
Dim 2 (33.34%)
De 45 a 54 años
D6 D7 D9 D10
0
D3 D8
D2 D4 D5 Conjunto
D1
De 55 a 64 años
-2
De 65 a 74 años
75 años y más
-4
-5 0 5 10
Dim 1 (59.69%)
36
Análisis de componentes principales (ACP)
> round(cbind(res.pca$ind.sup$coord[,1:4],res.pca$ind.sup$cos2[,1:4],2)
Dim.1 Dim.2 Dim.3 Dim.1 Dim.2 Dim.3
Conjunto 1.21 -0.22 -0.04 0.96 0.03 0.00
D1 -6.38 -0.48 0.52 0.94 0.01 0.01
D2 -5.01 -0.35 0.27 0.89 0.00 0.00
D3 -2.83 -0.89 0.10 0.79 0.08 0.00
D4 -1.66 -0.35 -0.22 0.63 0.03 0.01
D5 -0.30 -0.36 -0.29 0.12 0.17 0.11
D6 0.53 -0.01 -0.23 0.52 0.00 0.10
D7 3.04 0.11 -0.17 0.99 0.00 0.00
D8 4.57 0.15 -0.18 0.99 0.00 0.00
D9 7.00 0.07 -0.19 0.96 0.00 0.00
D10 13.23 -0.08 0.04 0.90 0.00 0.00
Plano 2-3
Estudio de la nube de individuos y de variables. Podemos también interesarnos por
la dimensión siguiente y construir el gráfico 2-3 de individuos (cf. figura 1.18) y el de variables
37
Husson – Lê – Pagès Análisis de datos con R
(cf. figura 1.19) precisando en la función plot.PCA los ejes de representación (axes=2:3) :
De 45 a 54 años
Menos de 25 años
1
Dim 3 (4.67%)
De 65 a 74 años
0
De 35 a 44 años
75 años y más De 55 a 64 años
-1
De 25 a 34 años
-2
-4 -2 0 2 4
Dim 2 (33.34%)
enseñanza
0.5
bebidas_alcohólicas servicios.alojamiento
Dim 3 (4.67%)
tabaco
aceites.grasas frutas comunicaciones
pescados.mariscos transportes
0.0
legumbres restauración
vivienda.agua.gas.electricidad
salud ropa.artículos_calzado
otros_bienes.servicios
-0.5
otros_productos
-1.0
Dim 2 (33.34%)
38
Análisis de componentes principales (ACP)
> res.pca$call$centre
> res.pca$call$ecart.type
pan.cereales carnes pescados.mariscos leche.quesos.huevos aceites.grasos
747.71 936.71 228.71 533.14 82.43
pan.cereales carnes pescados.mariscos leche.quesos.huevos aceites.grasos
163.51 262.39 84.34 128.84 25.40
El cálculo de datos centrados-reducidos es útil para comparar fácilmente los datos con la
media en número de desviaciones típicas pero sobre todo para comparar los valores de
una
p variable a otra. Para tener los datos centrados-reducidos, es necesario multiplicar por
(I − 1)/I ya que por defecto, la función scale considera que la desviación-típica es estimada
a partir de una muestra.
> round(scale(gastos[1:7,c(5,6,15,17,19,21)])*sqrt(6/7),2)
aceites frutas tabaco vivienda.agua salud comunicaciones
grasos gas.electricidad
Menos de 25 años -1.63 -1.62 0.88 1.28 -1.90 0.24
De 25 a 34 años -0.89 -0.85 0.62 1.12 -0.42 0.80
De 35 a 44 años 0.19 -0.14 0.80 0.13 0.27 0.54
De 45 a 54 años 0.46 0.45 0.50 -0.03 0.52 0.94
De 55 a 64 años 0.66 0.72 -0.38 -0.56 0.91 -0.02
De 65 a 74 años 0.96 0.83 -1.15 -0.91 0.25 -1.03
75 años y más 0.26 0.61 -1.28 -1.04 0.37 -1.48
39
Husson – Lê – Pagès Análisis de datos con R
Los individuos 75 años y más, De 65 a 74 años y De 45 a 54 años son los más particulares,
sus valores centrados reducidos son los más grandes en valor absoluto. Podemos representar
los valores de esta variable (cf. figura 1.20) con los comandos :
> par(las=2)
> plot(gastos[1:7,21],type="b",axes=F,ylab="Communicaciones (en Euros)",xlab="",bty="o")
> axis(2)
> axis(1,1:7,rownames(gastos)[1:7])
> par(las=0)
Visualizamos así una «fractura numérica» entre los que tienen más de 64 años y los otros. El
gráfico de variables en el plano 1-2 podía hacer pensar que eran los jóvenes quienes gastaban
mucho en comunicaciones. Pero de hecho, no es nada de esto, principalmente son los que
tienen más edad quienes gastan menos que los otros.
1200
Comunicaciones (en euros)
1000
800
600
De 45 a 54 años
De 55 a 64 años
De 35 a 44 años
De 25 a 34 años
De 65 a 74 años
Menos de 25 años
75 años y más
Los datos centrados-reducidos permiten comparar igualmente los gastos du un mismo tramo
de edad respecto a dos rúbricas de gastos. Los menores de 25 años gastan más en vi-
vienda.gas.electricidad y en tabaco con relació a la media (valor centrado-reducido positivo
para estas dos variables), pero son más notables por sus gastos en vivienda que en tabaco (el
valor centrado-reducido para la variable vivienda, 1.28, es más extremo que para la variable
tabaco, 0.88).
La matriz de correlación puede obtenerse con la función cor. Además, las relaciones entre
variables pueden visualizarse dos a dos con la ayuda de la función pairs (cf. figura 1.21) :
> pairs(gastos[1:7,1:4])
40
Análisis de componentes principales (ACP)
1000
● ● ●
● ● ●
800
pan.cereales ● ● ●
● ● ●
● ● ●
600
● ● ●
● ● ●
● ● ●
● ● ●
● ● ● ● ● ●
800 1000
● ● ●
carnes
● ● ●
600
400
● ● ●
● ● ●
300
● ● ● ● ● ●
● ● ●
● ● ●
200
pescados.mariscos
● ● ●
100
● ● ●
700
● ● ●
● ● ●
600
● ● ●
● ● ● ● ● ●
500
leche.quesos.huevos
● ● ●
400
300
● ● ●
Figure 1.21 – Datos gastos : nube de puntos de variables pan.cereales, carnes, pesca-
dos.mariscos y leche.quesos.huevos.
41
Husson – Lê – Pagès Análisis de datos con R
cada ciudad, la temperatura media anual así como la amplitud térmica (diferencia entre la
media mensual máxima y la media mensual mínima de una ciudad). Damos también dos
variables cuantitativas de localización (la longitud y la latitud) así como una variable cuali-
tativa (la pertenencia a una región de Europa, variable cualitativa con cuatro modalidades :
Europa del norte, del sur, del este y del oeste). Un extracto de los datos es proporcionado
en la tabla 1.14.
Ene Feb Marz Abr . . . Nov Dic Med Amp Lat Lon Reg
Ámsterdam 2.9 2.5 5.7 8.2 . . . 7.0 4.4 9.9 14.6 52.2 4.5 Oeste
Atenas 9.1 9.7 11.7 15.4 . . . 14.6 11.0 17.8 18.3 37.6 23.5 Sur
Berlín −0.2 0.1 4.4 8.2 . . . 4.2 1.2 9.1 18.5 52.3 13.2 Oeste
Bruselas 3.3 3.3 6.7 8.9 . . . 6.7 4.4 10.3 14.4 50.5 4.2 Oeste
Budapest −1.1 0.8 5.5 11.6 . . . 5.1 0.7 10.9 23.1 47.3 19.0 Este
Copenhague −0.4 −0.4 1.3 5.8 . . . 4.1 1.3 7.8 17.5 55.4 12.3 Norte
Dublín 4.8 5.0 5.9 7.8 . . . 6.7 5.4 9.3 10.2 53.2 6.1 Norte
Helsinki −5.8 −6.2 −2.7 3.1 . . . 0.1 −2.3 4.8 23.4 60.1 25.0 Norte
Kiev −5.9 −5.0 −0.3 7.4 . . . 1.2 −3.6 7.1 25.3 50.3 30.3 Este
.. .. .. .. .. .. .. .. .. .. .. .. ..
. . . . . . . . . . . . .
Tabla 1.14 – Datos temperaturas : extracto de algunas de las 23 capitales ; las temperaturas
son medidas en grados Celsius.
42
Análisis de componentes principales (ACP)
Esta visión del conjunto puede hacerse a través de variables sintéticas. La cuestión es en-
tonces : ¿Podemos resumir las temperaturas mensuales por un pequeño número de com-
ponentes ? Si la respuesta es sí, examinaremos las relaciones entre las variables iniciales
y las variables sintéticas : este exámen indirecto es más cómodo que el exámen directo
(con 12 variables iniciales y 2 variables sintéticas, examinaremos 24 relaciones en lugar de
(12 × 11)/2 = 66).
Nos interesamos por los perfiles de las temperaturas de las ciudades, por eso tomaremos como
variables activas únicamente las variables que conciernen la temperatura (lo que elimina va-
riables como la latitud, la longitud). Para las otras variables propuestas como suplementarias
(temperatura media anual y amplitud anual), se considerar como indicadores sintéticos que
serán interesantes de confrontar con los componentes principales pero que tampoco perte-
necen al perfil propiamente dicho. Además, son variables que utilizan una información ya
presente en otras variables.
43
Husson – Lê – Pagès Análisis de datos con R
> cor(temperaturas[1:23,1:16])
44
Análisis de componentes principales (ACP)
1.0
Amplitud
Junio
0.5
Longitud Julio
Mayo
Agosto
Dim 2 (15.4%)
Septiembre
Abril
0.0
Media
Octubre
Noviembre
Latitud Marzo
Febrero
-0.5
Diciembre
Enero
-1.0
Observación
El efecto tamaño da más información que el resumen temperaturas anuales ya que indica
que las ciudades con más calor anualmente también lo son (más o menos) cada mes.
Este
Norte Moscú
Kiev
Sur Budapest
2
Helsinki Sarajevo
Oslo
Fráncfort Sur Roma Sevilla
Dim 2 (15.4%)
Bruselas Amberes
Lisboa
Londres Ámsterdam
-2
Edimburgo
Dublín
Reikiavik
-3
-5 0 5
Dim 1 (82.9%)
45
Husson – Lê – Pagès Análisis de datos con R
A causa de la dualidad, la coordenada deHelsinki (resp. Atenas) nos indica una ciudad
donde hace frío (resp. calor) durante todo el año (cf. figura 1.23). Esto es claramente visible
en los datos : cualquiera que sea el mes, Helsinki (resp. Atenas) es una ciudad con más
frío (resp. con más calor) que la media. Esto se visualiza más fácilmente a partir de datos
centrados-reducidos que obtenemos por :
> scale(temperaturas[1:23,1:12])*sqrt(22/23)
46
Análisis de componentes principales (ACP)
$Dim.1
$Dim.1$quanti
correlation p.value
Media 0.998 9.58e-26
Octubre 0.992 3.73e-20
Septiembre 0.986 1.06e-17
Abril 0.974 5.30e-15
Noviembre 0.952 2.66e-12
Marzo 0.945 1.15e-11
Agosto 0.909 1.90e-09
Febrero 0.884 2.18e-08
Diciembre 0.873 5.45e-08
Mayo 0.870 7.01e-08
Julio 0.844 4.13e-07
Enero 0.842 4.59e-07
Junio 0.833 7.96e-07
Latitud -0.852 2.57e-07
$Dim.1$quali
R2 p.value
Región 0.679 6.282e-05
$Dim.1$category
Estimate p.value
Sur 4.183 2.282e-05
Este -1.478 4.090e-02
Norte -2.823 4.983e-04
$Dim.2
$Dim.2$quanti
correlation p.value
Amplitud 0.9444 1.296e-11
Junio 0.5453 7.120e-03
Julio 0.5087 1.319e-02
Mayo 0.4578 2.804e-02
Longitud 0.4196 4.621e-02
Febrero -0.4558 2.882e-02
Diciembre -0.4729 2.268e-02
Enero -0.5314 9.077e-03
$Dim.2$quali
R2 p.value
Región 0.546 0.00153
$Dim.2$category
Estimate p.value
Este 1.4620 0.0004473
Norte -0.9064 0.0166600
Conclusión
El balance de las relaciones entre las temperaturas pone en evidencia correlaciones positivas
entre las diferentes temperaturas mensuales y más finamente, dos períodos : la temporada
buena (de Mayo a Agosto) y la temporada mala (de Noviembre a Marzo). Esta separación en
dos periodos no está hecha en función de la evolución de la temperatura media, con la cual
47
Husson – Lê – Pagès Análisis de datos con R
no corresponde. Dentro de cada período, las temperaturas están más vinculadas entre ellas
que de un período a otro. El conjunto de temperaturas puede ser resumido por dos variables
sintéticas : la temperatura media anual y la amplitud térmica. Con la ayuda de estas dos
variables, podemos esbozar una tipología de las ciudades. Reagrupando las ciudades a la
vez próximas en el primer plano factorial y respetando la situación geográfica, podemos
proponer la tipología siguiente :
– Ciudades de Europa del Sur caracterizadas por temperaturas elevadas a lo largo del año ;
– Ciudades de Europa del oeste caracterizadas por temperaturas medias durante todo el
año ;
– Ciudades de Europa del Norte caracterizadas por temperaturas frías sobre todo en verano.
– Ciudades de Europa del Este caracterizadas por temperaturas frías sobre todo en invierno.
La ciudad de Sarajevo es una ciudad de Europa del Sur cuyo perfil de temperatura se parece
más a las ciudades de Europa del Oeste que a las ciudades de Europa del Sur. Podemos
anotar que las ciudades que no participaron en la construcción de los ejes (los individuos
suplementarios del análisis) tienen un perfil de temperaturas próximo al de la capital del
mismo país.
Las variables Noviembre y Marzo son muy correladas : en efecto, las puntas de las flechas son
próximas del círculo de correlación, etonces el ángulo entre los vectores Noviembre y Marzo
en el espacio RK (espacio de los individuos) es próximo del ángulo en el plano, es decir,
próximo de 0. Como el coeficiente de correlación es igual al coseno del ángulo en el espacio
de los individuos, entonces el coeficiente de correlación es próximo de 1. Esto significa que
las ciudades dónde hace frío en Noviembre son también ciudades en las que hace frío en
Marzo.
La correlación entre Enero y Junio es próxima de 0 ya que en el eje, el ángulo es próximo
de π/2 y las variables están bien proyectadas.
Para ir más lejos. Dos elipses de confianza pueden ser trazadas alrededor de las moda-
lidades de una variable cualitativa suplementaria (i.e. alrededor del baricentro de los indi-
viduos que poseen la modalidad). Estas elipses son adaptadas a representaciones planas y
permiten visualizar si dos modalidades son significativamente diferentes o no (cf. figura 1.24).
Para una modalidad, consideramos el vector de sus coordenadas y la matriz de varianza-
covarianza asociada y consideramos que sus coordenadas siguen una ley multinormal. Esta
hipótesis es razonable ya que se trabaja sobre baricentros y por consiguiente, sobre medias.
Conociendo la ley de la posición de una modalidad, podemos trazar su elipse de confianza.
En la práctica, es necesario construir una tabla (data.frame) con la variable cualitativa y
las coordenadas de los individuos en cada uno de los ejes factoriales. El cálculo de las elipses
de confianza es efectuado y, por fin, las elipses son trazadas :
48
Análisis de componentes principales (ACP)
Este
Norte Moscú
Kiev
Sur
Budapest
2
Helsinki Sarajevo
Oslo
Fráncfort Sur Roma Sevilla
Dim 2 (15.4%)
Bruselas Amberes
Lisboa
Londres Ámsterdam
-2
Edimburgo
Dublín
Reikiavik
-3
-5 0 5
Dim 1 (82.9%)
Cuarenta y tres pollos experimentaron uno de los seis regímenes siguientes : régimen normal
(N), ayuno durante 16 horas (J16), ayuno durante 16 horas y realimentados 5 horas (J16R5),
ayuno durante 16 horas y realimentados 16 horas (J16R16), ayuno durante 48 horas (J48),
ayuno durante 48 horas y realimentados 24 horas (J48R24). Al final de este régimen, un
análisis de los genes por chip ADN ha sido efectuado y la expresión de 7407 genes ha sido
conservada para el conjunto de los pollos. Una selección de los genes ha sido efectuada por
el biólogo ya que al principio, más de 20000 genes son medidos por los chips ADN. Des-
pués, los datos fueron pre-tratados de modo estándar para los chips ADN (estandarización,
eliminación del efecto chip, etc.).
La tabla de datos que hay que analizar es una tabla rectangular con muchos menos individuos
que variables : 43 líneas (pollos) y 7407 columnas (genes). Añadamos a esto la variable
cualitativa Régimen que corresponde a una de las 6 situaciones de estrés o regímenes definidos
anteriormente.
El objetivo del estudio es ver si los genes se expresan de modo distinto según la situación
de estrés en la cual esté puesto el pollo. Más precisamente, puede ser interesante ver cuánto
tiempo debe ser realimentado el pollo después de un ayuno antes de recobrar un estado
normal, i.e., un estado comparable al estado del pollo en un régimen normal. ¿Acaso algunos
genes son subexpresados durante el ayuno y sobre expresados en el momento de la fase de
realimentación ?
49
Husson – Lê – Pagès Análisis de datos con R
Luego hay que concatenar la variable cualitativa régimen a esta tabla (después de haberla
creado) :
Luego podemos realizar el ACP y construir el gráfico de individuos coloreando los individuos
en función de la variable régimen (aquí la primera variable de la tabla ; modificamos la talla
de la fuente por el parámetro cex ("cex=0.7" en lugar de 1 por defecto) :
El plano principal expresa 29.1% de la inercia total (cf. los gráficos o el objeto res.pca$eig).
Anotar que aquí obtenemos como máximo 42 dimensiones, lo que corresponde al total de
individuos −1 (y no al total de variables) : en efecto, los 43 individuos están como máximo
en un subespacio de 42 dimensiones.
En el plano principal del ACP (cf. figura 1.25), la nube de observaciones (pollos) se divide
en dos subgrupos. El primero, muy disperso, contiene todos los pollos que sufrieron un
estrés muy fuerte, el segundo, concentrado y próximo del origen, contiene los pollos que
no sufrieron estrés. Más detalladamente, el primer eje separa los pollos en tres grupos :
50
Análisis de componentes principales (ACP)
Normal
J16
100
J16R16 j48r24_9
J48 et J48R24
j48r24_5
j48r24_8
j48r24_7
50
J48R24
Dim 2 (9.35%)
j48r24_3
j48r24_2
j48r24_6
j48r24_1 J16
j48_7
0
j48r24_4
N
j48_1 J16R16
j48_6
J48 J16R5
j48_3
j48_4
j48_2
-50
-100 -50 0 50
Dim 1 (19.63%)
los pollos que sufrieron un estrés muy fuerte pero no fueron realimentados (J48), los pollos
que sufrieron un estrés muy fuerte y fueron realimentados (J48R24), y los otros pollos. Los
pollos realimentados tienden a recuperarse del estrés muy fuerte y su estado de salud tiende
a acercarse al de un pollo normal. Sin embargo, la realimentación durante 24 horas no es
suficiente para que el estado del pollo vuelva a ser completamente normal. Esto significa
que ciertos genes son específicos de un estado de estrés muy fuerte : ciertos genes son sobre
expresados en estado de estrés cuando otros son subestimados (el gráfico de las variables
muestra que ciertas variables son correladas negativamente cuando otras son correladas
positivamente). El segundo eje es específico de los pollos J48R24.
El gráfico de las variables no es legible aquí debido a una gran cantidad de variables. Para
representarlo y ver si existe una estructura sobre las variables, podemos representar un punto
por variable (sin flecha y sin etiqueta) con el encargo :
> plot(res.pca, choix="var", invisible="var")
> points(res.pca$var$coord[,1:2], cex=0.5)
Esta nube presenta un ritmo regular que no necesita comentarios particulares (pero había
que asegurarse de ello). Es entonces necesario caracterizar los ejes con la ayuda de la función
dimdesc (damos aquí sólo las variables cuantitativas que más caracterizan las dimensiones
y la totalidad de las modalidades que caracterizan las dimensiones) :
> dimdesc(res.pca,proba=1e-5)
$Dim.1$quanti $Dim.2$quanti $Dim.3$quanti
51
Husson – Lê – Pagès Análisis de datos con R
Variables factor map (PCA)
1.0
●
●
● ● ●
● ● ● ●
● ● ● ● ●
● ●● ●
● ● ● ● ● ●●
● ●● ● ● ●● ●
● ●
●● ●● ●● ● ● ●
● ●
●● ● ● ●
●
● ●●
●
● ● ● ●● ● ●● ●● ● ●
●
●
● ● ● ● ●● ● ●●
● ●●
●
● ● ● ●
● ●
● ● ●● ● ● ●
● ● ● ● ●●
● ● ● ● ● ● ●●●
● ● ● ● ●● ● ● ●
● ● ● ● ● ●● ●●● ● ●● ● ● ●
● ● ● ● ● ●● ●● ● ● ● ● ● ● ●
● ● ● ●● ● ● ● ● ●● ●● ●
●● ● ● ● ●● ● ● ●● ●● ● ● ●●
● ● ● ●
●
● ● ● ●
●● ●● ● ● ● ● ● ● ● ●●● ● ● ● ●●
●
● ●
● ● ●
0.5
● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●
● ●● ● ● ● ● ● ● ● ● ●● ●●
● ● ●● ● ●
● ●● ● ● ● ● ● ●● ●●●
● ● ● ●● ● ● ●● ●●● ●●●● ●●● ● ●
●●●●●●
●● ●
●
●● ● ● ● ●●●●●
●
●●
● ●● ● ●
● ● ●● ●●● ●●●● ●●●● ●
●● ●● ● ●● ●
● ● ● ● ● ● ● ● ●●● ●
●
●● ●
● ● ●●● ● ● ●●●● ● ● ●
● ● ●● ● ● ●● ● ●● ●● ● ● ●● ● ● ●● ● ●● ● ● ● ●●●
● ● ● ●●
● ● ● ● ● ● ● ● ● ● ● ●●
●
●
● ● ●●● ● ● ● ● ● ●●
●
● ● ●●
●
●●● ● ● ● ● ● ● ● ● ●●● ●● ●● ●
● ● ● ● ● ● ● ●●●● ● ●● ● ●● ●● ● ●
● ● ● ● ● ● ● ●●● ● ● ● ● ●● ● ●●● ● ● ●●● ● ● ●
●●
● ● ●● ● ●● ●● ● ● ●
●●● ● ● ● ● ●●● ●● ● ●● ●
● ●
● ● ●●● ●●● ● ● ●●
●● ● ● ● ● ● ● ●●● ● ● ●● ● ● ● ●
●● ●●
●● ●●●● ● ●● ● ●
●●
●
● ● ●● ● ● ●● ● ● ● ●
● ● ● ● ● ● ● ● ●
●●●● ●●●●●
●
●
●● ● ● ●
●● ● ● ● ● ●
●
●
●
●● ●●
●● ● ● ●
●● ● ●● ●● ● ● ● ● ● ● ● ●
● ●● ● ●●● ● ●
●●●
●
● ●●●●● ● ●● ●● ● ●● ● ● ●●● ● ●●● ●
● ●● ● ● ●● ●● ● ● ●●●
●●● ●
●● ●● ●
●●● ● ● ● ● ● ● ●● ● ●
●● ●● ●●● ● ● ●●● ●●● ●● ●● ● ● ●● ●● ● ● ● ● ●● ●● ●● ●
●
●● ●
● ● ● ● ● ●●
● ●
● ●
●●
● ● ●● ●● ●
●● ●● ● ● ●● ● ●● ● ● ●● ●● ● ●●● ● ● ● ●● ● ●● ● ● ● ●
● ● ● ●●● ●● ● ●● ● ● ●● ●● ● ● ●● ● ● ●
●● ●
●●
●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●
● ● ●● ● ● ● ● ●● ●
● ● ● ●
● ●●●
●
●
● ● ● ●●● ●
●
●● ● ● ●● ●
● ● ● ● ● ●
●● ● ● ● ●● ● ● ●●● ● ●● ●● ● ●● ●
●
●
● ●●● ● ●● ● ●●● ●● ●●● ●● ●● ●● ●● ● ● ● ● ● ●● ● ● ● ●●●●●● ●● ● ● ●● ● ● ●● ● ●
●
●● ●●● ●●● ● ●● ● ●● ●
●● ● ● ●● ●●●● ●● ●● ●●● ● ●●
●
● ● ● ● ● ● ● ●●●● ●● ● ● ●● ●
●●●
● ● ●●● ●● ● ● ●
● ● ●● ●● ●
●
●● ●
●● ● ●● ● ● ●● ● ● ● ●● ● ●● ● ●● ● ● ● ● ● ● ●
● ●●
● ● ● ●●●●●● ● ●● ● ●
● ● ● ●
● ●● ●● ● ●● ● ●●● ● ●● ● ● ●● ● ●●●● ●● ● ●●●● ●● ●
●●●● ●●● ● ● ●● ● ● ●● ● ●● ● ● ● ●
●● ●● ● ● ● ●●
●●● ● ● ● ●
● ● ● ●● ● ●●●● ●
● ● ●●
● ●
●
●●● ● ● ● ● ●● ● ●● ●●●●
●
● ● ● ● ●● ●● ● ● ● ●●●● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ●●
●● ●● ● ● ●● ● ●● ● ● ● ● ● ● ●●●● ●● ● ●● ● ●● ●●
●● ●●● ●● ● ●● ●● ●● ●● ● ● ● ●● ● ●
●●● ● ● ● ● ●
● ● ●● ● ● ●● ● ● ● ●● ● ●● ● ●
● ● ● ●● ● ● ● ● ● ●●● ●● ● ● ●● ● ● ●● ● ●●●● ● ●
● ● ●●●● ● ●● ● ●●● ● ●
● ● ● ●●
● ●● ● ● ●●● ● ●● ●● ●●● ●●● ● ● ● ●●● ●● ● ●
● ●● ● ● ●● ●● ● ● ● ●●●● ●●●● ● ●
● ●●●●● ●●●● ● ● ● ●●● ●● ● ● ●●
●● ●● ●● ● ● ●● ●●●●●●● ● ● ● ●●●● ● ●● ●● ● ●●
● ● ●● ● ●●
●
● ● ●● ●●●●
●
●● ● ●● ●
● ● ●●●
●●
● ● ●
●● ● ●● ● ●●
●●● ● ●● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ●● ● ●●● ● ● ● ● ● ● ● ● ● ● ●● ●●● ●
Dim 2 (9.35%)
●● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ●● ●●
●● ●● ● ●● ●
●● ● ●
● ● ●● ● ● ●●● ●
●● ● ●●
●
●● ● ● ● ● ●●● ● ●● ● ●●●●● ● ● ●●
● ● ● ●● ●
●● ●●
●● ● ● ●●● ●●● ●●● ● ● ●
● ● ● ●
●●
●
●●●●● ●● ● ● ●●
●● ●
● ●● ● ●●●●● ● ● ●● ● ●● ●●
● ●● ●● ●● ●● ● ● ●● ● ●●●●● ● ●●
●● ● ●● ●● ●●● ● ● ●●
●
●●● ● ● ● ●● ● ● ● ●● ●
● ●●● ●● ●●●● ● ●● ●●● ●● ● ● ●● ●● ●● ● ●● ● ●●●
● ●● ●●●● ● ● ●● ● ●●● ●● ●
●● ● ● ●●
● ●● ● ●
● ● ● ●●● ●●●
●
● ● ● ●● ●● ● ● ●● ●
● ●●●
● ●
●●●●●● ●●● ●
● ●
● ● ●● ● ● ●●● ●● ● ●● ● ●●● ● ●
●● ●● ●● ● ●● ●●●●●● ●
● ●●
●●● ●
● ● ● ●●
● ●●● ● ● ● ●●● ●●● ● ●●
● ●
●
●●
●
● ● ● ●● ●●● ● ● ●● ●
●●● ● ●● ●●
● ●
●●●● ●●●●
● ● ● ● ●●
● ● ● ● ● ●●●● ● ●● ● ● ● ●●●● ● ●
● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ●
● ● ●● ●●●● ● ● ●● ●
● ● ● ●●●
● ● ●●● ●● ● ●
● ● ●● ●●●●●●● ●● ●
●● ●●● ●● ● ●
●● ●● ●● ● ● ●● ● ●●●● ●
● ●●● ●●● ●● ● ●● ●● ●● ● ● ●
● ● ● ● ● ●●● ●
●●
●● ● ●● ●● ● ● ●●
● ● ● ●●●● ●● ● ● ● ● ● ●● ● ● ● ●
●● ● ● ● ●
●● ● ●● ●●●●● ●●●●
● ● ●● ● ● ●●● ● ●● ●● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ●● ●● ● ● ● ●● ●
● ●●●● ● ●● ● ●● ● ●●● ●●● ●● ●● ● ● ● ●●
● ● ●
●●● ● ●
● ●● ●● ● ● ●●●● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ●● ● ●●
●●
●● ●●●●● ●
● ●● ● ●● ● ● ●● ● ●●
●● ●
●●● ● ●● ●
● ● ● ●●●●●●● ● ● ●
●
● ●● ●● ● ● ●●
●● ●● ● ●●● ●● ●●
● ● ● ● ●● ● ●● ● ●●●● ●● ●●● ●●● ● ●● ●● ●
●●
●● ●● ● ●
● ● ●● ●● ● ●●
●●
●●
● ● ● ●● ● ● ● ●● ● ● ●● ●
●● ● ●● ●● ● ●●
● ● ●● ● ●●●● ● ●● ● ●● ●
● ●●●●●● ● ●●●● ● ●
● ●
● ● ●● ●
● ●● ● ●●
● ● ● ●
●●● ●● ●●●●
●●
● ● ● ● ● ● ● ● ● ● ●●● ●●●● ● ● ● ●● ●● ●●● ●●●●●● ● ● ● ● ●●● ●
● ● ●●●● ● ● ● ● ●●●●● ● ●
● ● ● ●● ● ● ●
●● ●●●● ●● ● ● ● ●● ●●● ●● ●● ● ●●● ●● ● ● ●● ●●● ●●●
● ● ●●●● ●●●●●● ● ●
●●
●● ● ● ●
● ●● ●●●
●● ●● ●
●● ●● ● ● ●● ● ●●
●●●●● ● ● ●● ●●●● ● ● ●● ● ●●● ● ●● ●● ●● ●● ● ● ●● ● ● ●● ●● ● ● ●
● ● ●●
● ● ●● ● ●●● ● ●● ●●● ●● ● ●●
●
● ●●●● ●● ● ●● ●● ●●
● ●
●● ● ● ●● ●●● ● ●● ● ●● ● ●● ● ●●●●● ●● ●
● ●● ● ●● ● ●● ● ● ● ●● ● ● ●
●
● ●
● ●● ●●● ●● ●●● ● ●● ● ● ●● ●● ● ● ●● ●● ● ● ●●●●
●●● ● ● ● ●●●●
●
● ●● ●● ● ● ●● ● ●
●●● ● ● ●● ●
● ● ● ●●● ● ● ●● ●● ● ●● ● ● ●● ●●
● ● ●● ●● ● ● ● ● ● ● ●● ●●● ●●● ●
●● ●● ●● ● ● ●● ● ● ● ●● ● ●● ● ● ● ●●● ● ● ●● ● ● ● ●● ● ●● ●●●●
● ● ●● ●●
● ●●
●● ●● ● ●●● ●● ● ●● ●● ●●● ● ● ●● ●●●● ● ●● ●
● ● ●●● ● ●
●● ● ●● ●● ● ●
●
● ●● ●● ●● ●●●
● ●● ● ●● ● ● ●● ● ●● ● ● ● ●
● ● ● ●● ● ●
● ● ● ● ● ●● ● ● ●● ● ● ●● ●● ●●● ●●●● ● ●● ●
●● ● ●● ● ●● ● ●● ●
●● ●
●
● ●
● ● ● ●● ● ●
●● ● ● ● ● ● ●● ●●● ● ●●●● ● ● ● ● ●● ● ●● ●
● ● ●● ● ●●● ● ● ● ●● ● ●● ● ●●● ● ● ●●● ● ●● ●● ●●● ●●●● ● ●● ● ● ● ●● ● ● ●●●● ● ●●● ● ● ●
●
●● ● ● ● ●●● ● ●●● ● ● ● ● ● ●● ● ● ● ●● ●●● ● ●●
● ● ●
● ●●●● ● ● ● ● ●● ● ●● ●● ●● ●● ●● ●●● ●●● ●
●● ●●
●●● ● ● ● ●● ● ● ● ● ●● ● ● ●● ● ● ●● ● ●●● ● ●
● ● ●●● ● ● ●● ● ● ●● ●
0.0
● ● ● ●● ●●
●
●● ● ●● ● ●●●● ●● ● ●
●●●● ● ● ●● ●●●●
● ● ● ●● ● ● ● ● ●●
● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ●
●● ● ● ●● ●● ● ●● ●
●● ●● ● ●● ●● ● ● ● ●● ●● ●●● ●● ● ● ● ● ● ● ● ● ● ●● ●● ●
● ● ●●● ●
● ●●● ● ● ●● ●
● ●● ●●
● ● ● ● ● ● ● ●
● ● ● ● ●● ●
● ● ● ● ●●
● ●●● ●● ● ●● ●●●● ●
● ● ● ●●● ● ● ●● ●● ●●● ● ●● ●
● ●● ●● ●● ●●●●●● ● ●
● ●●● ● ● ● ●●
● ●●● ●●●
● ●●●●
● ●● ●● ● ●●● ● ●● ● ● ● ● ●●●● ●
●● ● ● ● ●● ●● ● ● ●● ●
●● ● ● ● ● ● ●●●●●● ●●● ● ●●● ● ● ●●●
●
● ●●● ● ●
●●● ● ● ● ●●
● ● ●● ● ●●● ●● ●●● ●● ● ● ● ●●●● ●●●● ●● ● ● ● ●● ● ●● ●● ● ● ●●● ●● ● ●● ● ● ● ●● ●●●●
● ● ●●● ● ●● ● ● ● ● ●
● ● ●●● ● ●● ●● ● ●● ●● ●● ●● ●● ●
●● ● ●● ● ● ●●●
● ●
● ●● ●● ● ●● ● ● ● ●
● ● ●●● ● ● ●●
● ●●● ● ●●
● ● ●● ●●
●
●● ●
● ●● ●● ●
● ● ● ● ●●●● ● ● ●
● ● ●● ● ●● ●● ● ● ●●●●●●
●
● ●● ●●
● ● ●●● ● ●
●●
● ● ●
●●
●●
● ●●●●
● ● ● ●
● ●● ● ●● ● ● ● ● ● ●●● ● ● ● ●
● ● ●● ● ● ● ● ● ●● ● ●
● ●
● ●● ●● ● ● ● ●●●● ● ● ● ● ●●●● ●
● ● ●
● ● ●● ● ●●●●●● ● ●● ● ● ●● ●
● ●● ● ●● ● ●● ● ●
● ● ●● ● ●●●● ●● ● ● ●
● ● ●
●● ● ●●●●● ● ●●●●● ● ●● ●● ●
● ●● ● ●● ●
● ●●
● ●● ●
●● ●● ●● ● ● ●
●● ● ● ● ● ● ●
●●● ●● ●●● ●● ●● ● ● ● ● ●●
●● ●
● ● ●●
● ● ●●● ● ●
●● ● ●
●● ●●●●●● ● ● ● ● ● ●● ●●● ● ●●
●●● ●● ● ● ● ● ● ● ● ● ● ●
● ● ● ●
●●
● ● ●
● ●● ●● ●● ● ● ● ● ●●
●● ●●
●●●●
● ● ●●●●●●● ●● ●● ●● ● ● ● ●● ●●● ● ●● ●● ●●●● ● ● ● ●● ● ●●●● ●● ●●● ●● ●●● ● ● ●● ● ● ● ● ●●
●● ● ●● ● ● ● ●
● ● ●
● ●● ● ●●●● ● ● ●●● ● ●● ●● ●● ●●●● ● ● ●● ●
● ●● ● ●
●●●● ●● ●
●●●● ●● ●●
● ●●● ●
●● ● ● ●●
● ●●●●● ●●● ●● ●●● ●● ● ●● ●● ●●● ●
●
● ●●● ● ● ●●● ● ● ●● ●● ● ● ● ●● ● ●
● ● ●● ● ● ●● ● ●● ● ●●●●● ● ●● ● ●● ● ●
● ●● ●
● ● ● ● ●● ●●●●● ● ●●● ●● ● ● ●
●● ●● ● ●● ●●● ● ●●
● ● ●● ● ●●●●●● ● ●●●● ●●● ●● ● ● ●● ● ●● ●●●● ●
● ● ● ●● ●●● ● ●●●● ●● ●● ● ● ●●
● ● ●● ● ● ● ●● ● ●●●
● ● ● ● ●● ●●●● ●● ●●● ●● ●●● ●●●● ● ●●
●
● ● ● ●● ●●● ●●●●●● ●●
● ● ● ● ●● ● ● ● ● ● ●●● ● ● ●● ● ●● ●
● ● ● ●●● ●● ●
●●● ● ●
● ●●●●●● ● ●● ●●●●
● ●● ● ● ●● ● ●● ●● ● ●● ● ●●
● ●●●●● ● ●● ●● ● ●●●●
● ●● ●● ●●● ●● ●●
●●
●● ● ● ● ●● ●●●●●● ●●●● ●●● ● ●●
●● ●● ●● ● ●
● ●●● ● ●● ● ●●●●● ●
● ● ● ●● ●● ● ● ● ● ● ●● ●● ● ●
● ● ● ●
●●●● ●●●● ● ● ●
● ●●● ●●● ●
● ●● ● ●● ●● ● ● ●
● ●● ● ●●●●● ●●● ●●●● ●●●●●●● ● ● ● ●● ● ● ● ●● ●●● ●●● ●
● ●● ● ●
●●
●
●
● ● ● ● ●● ● ●
●●
●
● ● ● ● ● ●●● ● ●●● ● ● ●
● ●● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ●● ●
● ●
● ● ●● ● ●●● ●●●● ●● ●●●●●
● ● ●● ●● ●● ● ●
● ● ●●●●●● ● ●● ● ●
●●● ●● ● ● ●● ●●● ●●● ●● ● ●●●● ●●
●●
●● ●●
● ●●●●● ● ● ●● ● ● ●
● ●●● ● ●
●●●●●●● ●●
● ● ● ● ● ●
●
● ● ●● ● ● ● ● ● ● ●●● ●
● ● ●● ● ●● ●●● ● ● ●
● ●● ●● ● ● ● ●●●
● ●● ● ● ● ● ●● ●● ● ● ●●●
●● ●●●● ● ●● ●● ●●●●●
●●● ● ●● ● ● ●●●● ● ● ● ● ● ●●●● ● ● ●●●● ● ●● ●● ●● ● ●●● ● ● ●● ●● ●●● ● ● ● ●● ● ● ●
●● ● ●● ● ●● ● ● ●
●●●●● ●●
● ●● ● ● ● ● ●● ●● ● ●●
● ● ●● ●
●
●● ● ●●● ●
●●● ● ● ●
●
●● ●● ● ● ●● ● ●
● ● ● ●●●●● ● ●●● ●● ● ● ●● ●
●
● ●● ● ●●● ● ● ● ● ● ●● ● ●
●
● ●● ● ● ● ● ●
● ● ●●● ● ●
●● ●● ● ●●●● ●● ● ●● ●●● ●●
● ●
●●● ● ●● ● ●
● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ●●● ● ●● ●
●● ●● ●● ●
● ●● ●● ● ● ●● ●● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ●● ● ● ●
● ● ●
● ●● ● ●●●●● ●● ● ● ● ●●●● ●●●● ●●●●● ●
●
● ● ● ●● ● ● ● ● ● ●
● ●●●● ●●
● ●● ●●●● ● ●
● ● ●● ●●●● ● ● ● ●● ●
●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ●
●● ● ●
● ●
●●●
●●● ● ● ●● ● ● ● ●● ●● ● ● ● ●
●● ●
● ● ●● ●
● ● ● ● ● ● ● ● ●
● ● ● ● ●
●● ●● ●● ●●● ● ● ● ● ● ●
● ●● ● ● ●●● ●●
● ● ● ● ● ●● ● ●●●● ●●● ● ●
● ●
● ●●● ● ● ● ●●
●●
● ● ●●●●●●● ● ● ● ●● ●
● ●●●●● ●● ●● ● ● ●●●● ● ● ● ● ● ●●● ● ●● ●● ● ● ●● ● ● ●●●● ● ●
● ● ● ●● ● ● ● ●● ●● ● ●
●●●● ●
●
● ● ●
● ● ● ● ● ● ● ● ●● ● ●
● ●
● ● ● ●● ● ● ● ● ● ● ●●●● ●● ● ● ●● ●● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ●
● ●● ● ● ●● ●
●●
●●● ● ● ● ● ●●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ●● ● ●● ● ●
● ● ●● ● ●● ● ● ●
●● ● ● ● ●● ●● ●● ●
●● ●●● ● ● ● ● ●●●
● ●● ● ● ● ●● ●
●● ● ● ● ●● ● ● ● ● ● ●● ● ●● ● ● ●● ●●● ●● ●●●● ● ●●● ●
● ● ● ● ● ●● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ●● ●● ● ●●●●●● ● ● ● ● ● ●●
● ●● ●
●●●●● ● ●● ●
● ● ●● ●
●●●● ●● ● ●●●
● ● ● ● ●● ●
● ● ● ● ●●● ● ●● ● ●●● ● ● ● ● ●● ● ● ●
●● ● ● ● ● ●●● ● ● ● ● ● ● ●● ● ●●●●●
●● ● ●● ●
● ● ●● ●●●● ●●● ●
● ●● ●● ●
●● ●● ● ● ● ●●● ●● ● ●●●● ● ● ● ● ● ●● ● ● ● ●● ●● ●● ● ● ●●●● ●● ● ● ●● ●
● ● ● ●● ● ●
● ● ● ● ●● ●
●● ● ●● ● ●● ●● ● ● ● ● ●●
● ● ● ● ●● ● ● ● ● ● ●● ●●● ●● ● ● ●
●● ●● ● ● ●●● ●● ● ●
● ●
●● ● ●●●●●
● ● ●●● ●
●●● ●●● ● ●
● ● ●● ● ●●● ●● ● ● ● ● ● ●●● ● ● ●● ●● ●● ● ●
●● ● ● ●
● ●● ● ● ● ● ● ●●●● ● ● ●
● ● ●●
● ● ● ● ● ● ● ●●● ●●●● ● ●● ● ● ● ● ● ●● ●●● ● ●● ● ● ●●
● ●● ● ● ●● ●●●● ● ●●● ● ●●●●●●
●●●●● ● ●
● ● ● ●
●
●●●
● ● ● ● ●● ●●● ●● ●● ● ●
● ● ● ● ● ● ● ● ●●●● ●
● ●●● ●●● ● ●●● ● ● ● ●● ● ● ● ●● ●● ●●● ●
●● ● ● ●● ●●●● ● ●●● ● ●● ●
● ● ● ●● ●●● ● ● ● ●
●● ●●
● ●
●● ●● ●● ●● ● ●● ● ● ●● ●● ● ● ●● ● ●●● ● ● ●●● ● ●● ● ● ● ●●● ● ● ● ●● ● ●● ●● ● ●●
● ● ●● ● ●● ● ● ●● ●
●●●●● ●● ● ● ● ●
● ●●●● ● ● ●
● ●●● ● ● ●●
●● ●● ●●● ● ●
●● ●●
● ●
● ● ● ● ●●● ●●● ● ●● ● ●● ●● ● ●● ●●● ●● ●
● ●● ● ● ●● ●● ●●
● ● ●
●
●● ● ●● ●● ●●
● ●
●● ● ● ●●● ●
● ●● ● ● ●● ● ●● ● ●● ● ● ● ● ●●● ● ● ● ● ● ●● ● ● ●
● ●● ●● ●● ● ●●●● ●
●●● ● ● ●●
● ● ●● ● ●● ●● ● ●● ●● ● ●● ●● ● ●● ●
●● ● ●● ● ● ● ● ● ●●● ● ●
● ●
●●● ●●● ●●●
● ● ● ● ● ●● ● ●● ●● ● ●● ●●● ● ●●
●● ●●● ●● ● ● ● ● ● ● ●●●● ● ● ●●●● ●● ●● ● ● ● ●
●
● ● ●● ● ● ● ●●● ●●● ●● ● ●● ●● ●● ●● ●●
●●● ● ●
● ● ● ● ● ●● ●● ● ●● ● ●
● ●●
● ● ● ●●● ● ● ● ● ● ●● ● ● ● ●● ●● ● ● ●● ● ●● ● ● ●●● ● ● ● ● ● ●●● ●
●
● ●
●● ● ● ● ●● ● ●● ● ● ●● ● ● ● ●● ● ● ● ●● ●
● ● ● ●● ●●●●
● ● ●● ●
● ● ● ● ● ● ●● ● ●
−0.5
● ●● ● ● ●● ● ●● ●●
●● ●● ● ● ● ● ●● ● ●
● ● ● ●● ● ● ● ● ●●● ● ● ● ●●● ●●● ● ● ● ●● ●●● ● ●● ● ● ●● ●● ●●●● ● ●● ●● ● ●
● ● ● ●●●
● ● ●
● ● ● ● ●● ● ●
● ● ● ●● ● ● ● ● ● ● ● ●● ●
●
● ●
● ●● ●
● ●● ●●
● ●● ●● ● ●● ● ●● ●● ● ● ●● ●● ●
●
●
● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ●
●● ● ●● ● ●● ● ●● ● ● ● ● ● ● ●● ●●● ●●
● ● ● ● ●● ● ● ● ●
● ● ●●● ● ●
● ● ● ●● ● ● ● ● ● ● ● ● ● ●●● ●●
●● ● ● ● ● ●● ● ●● ●● ● ●
●● ● ●●●● ●
● ●● ●●
● ● ●● ● ● ●● ● ●● ● ●● ●●● ●● ● ●● ● ● ●● ● ● ● ●
● ●● ● ● ● ● ● ● ● ●● ● ●● ●●●● ●● ●
● ●● ●● ●
● ● ●
●
● ● ●●● ● ● ●● ● ● ● ●● ● ●● ● ●●● ●● ● ● ● ●● ● ● ●● ●●●●
●● ● ● ●● ● ● ● ● ●●
● ●
● ●● ● ● ● ● ●● ●●● ● ●● ● ● ● ●
●
● ● ●● ● ●●● ● ●
● ● ● ● ● ● ● ● ●●● ●
●
●● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ●●● ● ●●
● ● ●●● ●●● ●● ● ● ●● ● ●● ●● ●● ● ●●● ● ● ● ● ● ●
●●
● ●
●
● ● ● ● ● ● ●● ● ●●● ● ●●●
●
● ●● ● ● ● ● ●●● ●● ●● ● ● ●● ● ● ● ●
● ● ●● ● ● ● ●
● ● ●● ● ● ● ● ● ●● ●● ● ●●● ● ● ●● ● ●● ● ● ●
● ●● ● ●
● ● ● ● ● ● ● ●●
● ●
● ● ● ●●
● ●● ●
● ●● ● ● ●
● ● ●● ● ● ● ● ● ● ●
● ● ● ● ● ● ●
● ● ● ● ● ●
●● ● ● ● ● ● ● ●●
● ● ● ●
●
● ● ● ● ●
● ● ●●
●
● ●
●
●
−1.0
Dim 1 (19.63%)
Figure 1.26 – Datos genómicos : gráfico de variables en el primer plano (un punto corres-
ponde a una variable).
Los genes más correlados al primer eje son todos correlados positivamente : estos genes son
subexpresados cuando los pollos sufrieron un ayuno de 48 horas. Para el eje 2, ciertos genes
son sobre expresados (MPHOSPH9, BNC2, etc.) cuando los pollos se realimentan después
de un ayuno de 48 horas mientras que otros genes son subexpresados (PHYHD1, PDCD11,
etc.). Evidentemente, aquí el estadista debe llamar al biólogo para analizar por qué son
estos genes los que son subexpresados o sobre expresados. Varias modalidades de la variable
Régimen son características de los ejes 1 y 2 : encontramos aquí el resultado visualizado en
el plano, pero con un test (mientras que visualmente no podemos decir si las diferencias son
52
Análisis de componentes principales (ACP)
significativas o no). Los pollos que sufrieron un estrés durante 48 horas (realimentados o no)
tienen una coordenada significativamente más débil que otros sobre el eje 1, mientras que los
pollos que sufrieron un estrés durante 16 horas y que fueron realimentados 16 horas tienen
una coordenada significativamente positiva. El eje 2 separa los pollos que sufrieron un estrés
durante 48 horas : este eje opone los pollos realimentados (con coordenada significativamente
positiva) con los pollos no realimentados (con un coordenada significativamente negativa).
También es posible visualizar el plano 3-4 del ACP :
j16r5_3 j48r24_8
j16r5_6
j48r24_9 j16r5_8
j48_7 j16r5_2 j16r5_7
20
j16_5
j16r16_7
j16r16_2 j16r16_3 j16_4
J16R16 j48_3
Dim 4 (5.87%)
J48R24
j16r16_9 j16r16_8 j16r5_4 j16r5_1 j16_3
-20
j48_2
j48r24_7
j48r24_3
j48r24_5
-40
j16r16_4
j48r24_4
-60
Dim 3 (7.24%)
Este plano 3-4 (cf. figura 1.27), y más particularmente el eje 3, separa los regímenes no dife-
renciados del primer plano. Los pollos que siguieron un régimen normal tienen coordenadas
negativas en el eje 3 y los pollos que sufrieron un estrés durante 16 días tienen coordenadas
positivas en el eje 3. Los pollos realimentados después de un estrés de 16 días están entre
estos dos grupos, con un gradiente según el tiempo de realimentación : los pollos realimen-
tados 5 horas están más próximos de los pollos no realimentados y los pollos realimentados
53
Husson – Lê – Pagès Análisis de datos con R
16 horas están más próximos de los pollos que no sufrieron estrés. Parece pues que ciertos
genes sean expresados de otro modo según si hubo un estrés durante 16 horas o no, y ciertos
genes toman poco a poco una expresión «normal». Sin embargo, incluso después de 16 horas
de realimentación, los genes no funcionan todavía de modo normal.
Variables factor map (PCA)
1.0 ●
● ●
● ● ●
●
● ● ●
● ● ● ● ●
●● ●● ●
● ● ●
● ● ● ●
● ● ● ● ● ●
● ●
● ●● ●
● ● ●
● ● ●
● ● ● ●
● ● ● ● ● ●
0.5
● ●●● ● ●
● ● ● ●●
● ●●
● ● ● ●
● ● ●●● ● ● ● ● ● ●
● ●● ● ● ●
● ● ● ● ● ● ●●● ●●● ●● ● ●● ●
●● ●●● ●●●● ●● ●● ● ● ● ●●
●
● ●●● ● ● ●
●
● ●●● ●● ● ● ●
● ● ● ● ● ● ●● ● ● ●
● ● ●● ●●●● ● ● ● ●
● ● ●● ●● ●
● ● ● ●● ● ● ● ● ●● ● ● ● ● ●● ●
● ● ●
● ● ● ● ●● ●● ● ●
●● ● ●
● ●● ● ●●● ●● ● ●●● ● ●●● ● ●● ●●●● ● ● ●
● ● ●● ● ● ●● ● ●
● ●
● ● ●
●●
●
● ● ●● ● ● ● ● ● ●● ●●● ●● ●● ●●●●● ● ●● ● ●● ● ●● ●
●
● ● ● ●
● ●● ● ●● ● ●● ●●●● ● ●● ● ● ● ●
●●● ● ●●● ●● ● ●● ● ● ●●● ● ●● ● ●●
●
● ● ●
● ● ●●● ● ● ●● ●
●● ● ● ● ●●● ● ●
● ● ● ● ●
●● ●●●
● ● ●●● ● ●● ● ● ● ●● ● ●
● ●
●● ● ● ●● ● ● ● ●●●● ● ● ●● ● ●●● ● ●● ● ●●
● ● ● ●
● ● ● ●● ● ●●● ●● ●● ● ●● ●
●● ● ●●
●
●●
● ●
●●●●
● ● ●● ● ● ● ●●
●● ● ● ● ●● ●● ●●● ●● ● ● ●
● ● ●●
●●● ● ●● ● ● ●
●●●● ● ●
● ●● ● ●
●● ●
● ●● ● ● ●
● ●●
●● ● ●● ● ● ● ●● ●● ●● ● ● ●●●●
● ●● ●
● ● ● ● ●● ●●●● ● ●
●● ● ● ●●●●● ●● ●● ●● ● ● ●
●● ● ● ● ●●● ● ● ●●
●● ●● ● ● ●● ● ●● ● ● ●● ● ●●● ●
● ● ●● ● ●●
● ● ●
● ●●●● ● ●● ● ●●
● ● ●● ●●● ●● ● ●●● ● ● ● ●
● ● ●●
● ●● ● ●●● ● ●
● ● ● ●●
● ● ● ●● ●● ● ● ●●● ●●●●●● ● ●
● ●●●●● ● ●● ● ●●●●● ●●● ●
● ●● ●● ● ● ● ●● ●● ●●●
● ● ● ●● ● ●● ●●● ● ● ●
● ●● ● ●● ●● ●●
● ●● ● ●
● ●●●●
● ●●●●● ● ●●
●●●● ● ●●● ●●● ● ●●● ● ●● ●● ●●● ● ●
● ● ● ●● ● ● ●
●●● ●● ● ● ●● ● ● ●●● ● ●●
● ●●● ●
● ●●
●●●●● ● ●●● ●● ● ● ● ●● ●
● ● ●● ●● ● ● ●
● ● ● ●● ● ● ● ●●●
● ●●● ●●●●●●●●
● ●●●
●
●● ● ●●●
●● ●
●●●●●●● ●●● ●●●
● ●●● ● ● ●●●● ● ● ● ● ● ● ● ● ●
● ● ●
●● ● ● ● ● ● ●●● ● ● ● ● ● ●● ● ●●
● ● ● ●
●●● ●
●
●
●
●●● ● ●
● ●●●
● ●●●●● ● ● ● ●
●●
● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ●
● ● ●● ● ●●●● ●
● ● ● ● ● ●
● ● ● ● ● ● ● ●●● ● ● ● ●●● ● ● ● ● ●●
●●● ●●● ●● ● ●●●
● ●● ● ●●● ●● ●● ●●● ●●● ● ●●● ●● ●● ●● ● ●● ●● ● ●
● ●● ● ● ●
● ●● ● ●
●●●●● ● ● ●● ● ●● ● ● ● ●● ● ●● ● ● ● ●● ● ●●
● ●
● ● ●● ● ●●● ●●
● ●●● ●●●
●
● ●
● ●●● ● ●●● ● ● ●● ●●● ●
●●●● ●●● ●●● ● ●●●● ● ● ●● ●● ● ●●
● ●
● ● ● ● ● ●●
●
● ●●● ● ●● ●● ● ● ● ● ● ●●● ●
●●● ●●●●●● ●●●●●
● ●
● ●
● ●●
● ●● ●●●● ●● ● ●●● ● ● ●
Dim 4 (5.87%)
● ● ● ●●● ● ●
● ● ● ●
●● ●●● ● ● ● ● ● ● ● ●● ●●● ● ● ●● ●●
●● ●● ●● ● ● ●●● ● ●●●
● ●●● ●● ●● ●● ● ●● ● ●● ●● ● ● ●●
● ●●
● ● ● ●● ● ● ●
● ● ● ● ●●● ● ●●● ● ●
● ●●
● ●●●
●
● ● ●●●●●
●● ●● ●● ●●
●● ●●
●●
●●● ●
● ●●
●
●●●●● ●●● ●●●●
● ●● ●
●● ●● ● ●● ●● ●● ●● ●●
●
● ●● ● ● ●● ●
● ●●● ●
● ● ● ●
● ●●●●
● ●●●●
● ●● ●● ●● ● ●●
● ● ●● ●● ● ●● ● ●●●● ●●● ● ●● ●● ● ●● ●● ● ● ● ●●●●● ●● ● ●●
●●● ● ●●●
● ●●● ● ● ● ●● ● ●● ●●●● ● ● ●●● ●
● ●●
● ● ● ●
● ●● ●● ● ● ● ●●●●●
●●● ●●
●● ●● ●●● ●●● ●●●
● ●● ●●● ●●● ●●● ●● ●●● ●● ●
● ●●● ●●● ●●
●
● ●●● ●● ●●●
● ● ●●● ●●● ●● ●
●● ● ●● ● ●● ●
●●● ● ● ●● ●●●
●●●● ●●● ● ●● ●●
●●●
●●●●●
● ●●● ● ● ●●● ●●●● ●
●● ●●● ● ●●●
● ● ●● ●●● ●● ●●● ●●● ● ●●●●●● ●
●●● ●●● ● ●● ● ●
● ●●
● ● ●● ● ●● ● ● ●● ●
●● ● ●
● ●● ●● ● ● ●●●
●●
● ● ●●●
● ●● ●● ● ●●●● ●●●● ●
● ●● ● ●● ● ●● ● ●● ● ●
●
● ●● ●● ● ● ●● ● ●●
● ● ●● ●● ●● ●
● ● ●● ● ●
●●
●●● ● ● ● ●
●●
●
●● ● ● ●● ●●● ● ● ●●●● ●
●●● ●● ●●●●
● ●●●● ●●●
●
●
●
●●
●●●
●●● ●
●
● ● ●
●● ●● ●● ●
●
●●●
●
●●
● ●●●●●
● ● ●● ●
●● ●●● ● ● ●●
●●
●●● ● ●● ●
● ● ●●
●●●●
● ● ●
● ●●
● ● ●
● ● ●● ● ●
●●●● ● ●● ●
●●● ● ●●●●●● ● ●
● ●●●●● ●● ●● ● ●● ●● ● ● ●
● ● ● ●●●●● ● ●● ●●●● ● ●●
●●● ● ●● ●
●●
●
● ● ● ● ●●●●● ● ● ● ●● ●● ● ●● ● ● ●● ●●
●●●●●●● ● ●● ●● ●
●● ● ●●● ●●● ●
●
●●●
●
● ●
● ●●
●●● ●
●● ●● ●● ●●● ●●●● ● ●●
● ● ●● ● ● ● ● ● ●●
●● ● ●
●
●● ● ● ●●●
● ● ●●● ● ●● ●
● ●● ● ● ●
●● ● ●
● ● ● ● ● ● ●●● ● ● ● ●●●●●● ●● ●●● ● ● ● ●
● ●●● ● ●● ●●●●● ●●● ●
●●●● ● ●●●●● ●
●●●● ● ●●●● ●● ●● ●●●●● ● ●●●●●● ●● ●● ●● ● ● ● ● ●●●●● ● ●
● ●● ● ● ● ●●●●●● ● ●● ● ● ● ●● ●
●● ●● ●● ● ●●● ●● ●●● ●
●
●
●●●● ●●●● ● ●●●●
●● ● ●
●
●●● ●
● ● ●● ●
● ●●● ● ●●● ● ● ● ● ●● ● ●●● ● ●● ● ● ●
● ● ●● ● ●● ● ●●●● ● ●
● ● ●● ●
●● ● ●
●
● ●●●●●
●
●● ● ●● ●● ●
●● ●
●
●
●
● ●●
● ● ●
●
●
●
●●●●●
●
●
●
●
●●
●●●●●●●●
●● ● ● ●
●● ●
●●
●●
●●●●
●●
●●
●
●
●
●●●●
●● ●●● ●●●●●● ●●● ● ● ● ● ●● ● ● ●● ●●
●●
● ● ● ●● ●
● ● ● ● ●● ● ● ● ●● ●● ●●● ● ●● ●● ● ● ● ●
● ● ● ● ●● ●
● ● ● ●● ●● ● ●
● ●● ● ● ● ● ● ●
●● ●
● ● ●●● ●● ●● ●● ●●● ● ●●●● ●● ●● ●●● ●● ● ● ● ● ●● ●●● ● ●●● ● ●● ● ● ●
● ● ●● ●
● ●
● ●● ● ●●● ● ●
● ●●
●● ● ●
● ●●
●
● ●●● ● ●● ●●●●● ●● ● ●●● ●●●●● ●●●● ●
●●●
● ●●●● ●
●● ●● ●● ●●●●
●●● ●●
●
● ●●●●●● ●
●●
●●●●
●●●●●● ●●●●●● ● ● ●● ●● ● ●●●● ● ● ●● ● ●
●
● ● ● ● ● ● ● ● ●●● ●●
● ●●●●●
●● ●● ●
●● ●●● ● ●●● ● ●● ● ●●
●● ● ● ●● ●●● ●
● ●●
●●●●● ●
● ● ● ● ●● ●
● ●
●●
● ●
●●●● ●● ● ●● ● ●●● ● ●
● ● ● ●●● ●●
●●
● ● ●●●●●● ●● ● ●● ●
● ●● ●●● ●●●●● ●●
●●
●●●
●
● ●●●
●
●●●●● ●●●●
●● ●● ●
●●● ●● ●● ● ● ●● ● ● ●
● ●● ●● ●●●
●● ●●●● ●● ● ●
●● ●●●● ● ●
●●● ● ●● ● ●
●●● ●●● ●
●●●●● ●● ●●● ●
●●
●●●●
● ●●●
●● ● ● ●
●●● ●●● ●● ● ●●● ●● ●●●● ●● ● ● ● ● ● ● ●
● ● ● ● ●
● ●●● ●●● ● ●●●● ●●●●●● ●●
●●●● ●
●●
● ● ●●
●●● ● ●
●● ●
● ●●● ●●● ●●● ●
●●●●● ● ●●● ● ●● ● ●● ●● ● ●● ● ●
● ● ●● ● ● ●
● ● ●● ● ●●
● ●● ●●● ● ● ●●●● ●●● ●●● ●
● ●
●●
●●● ●● ●●● ●●●● ●● ● ●●●● ●●
● ●● ●●●●● ●●
●●● ●●● ●
● ●● ●●● ●● ● ● ●●●●
●● ● ●●●● ●
●● ●● ● ●●● ● ●●
●
●● ● ● ● ● ● ●● ●● ●● ● ● ●●
●● ● ● ● ●● ●● ●●●
●● ●●●●● ●●
●● ●●●●
● ●
●● ● ●
●●●
● ● ●● ● ●
●●● ● ●●●
● ● ●●●●● ●●●●
● ●● ●● ●●
● ● ●● ● ●
●●● ●●● ●●
● ●●● ●
●
●● ● ● ●
● ● ●
●● ●● ●● ● ● ●● ●●●●● ●● ● ● ●●●●● ●● ●●● ●●● ●● ●●● ●
●●● ●● ●●●●● ●● ●●●
●●●●●● ● ● ●●
● ●●● ● ● ● ●●●
● ●●
●● ●●● ● ●●●● ● ● ● ●
● ●● ●
0.0
● ●● ● ● ● ● ● ●● ●●
● ●●● ● ●●● ●●
●●
● ●● ● ● ●●●● ● ●
●● ● ●● ● ●●● ● ●●● ●● ●●
● ●●●●
● ●
● ●
●●
●
●
●● ●●●
●●● ●● ●●
●
●●●● ●●●●●
●●●●●● ●● ●● ● ●● ● ●● ●● ● ● ●● ●
● ●
● ●● ●● ● ● ● ● ●● ●● ● ● ● ●●●
● ● ●● ● ●● ●● ●● ●●● ●● ●● ●●
●●
●
●● ● ● ●●●● ●●● ●●● ●●●●● ●
●●●●● ●● ●
●
●● ● ●● ●●●●● ●● ● ●●●●
● ●
● ● ● ● ● ● ●● ●●● ●● ●● ● ●●● ● ●●●●● ●●●●
●●●●●
● ●●●● ●●● ●●●● ●● ●● ●● ● ●●●● ●● ● ● ●●● ● ● ● ●● ●● ● ●● ●●●●● ● ●
● ● ●● ●●●●● ●
● ● ● ●● ● ●
● ●
●
●
● ●●● ●●● ●● ● ● ● ● ●
● ●●
● ●●● ●●● ● ●●● ●● ●● ● ●●
●●
●●● ●●●
● ● ●● ●● ●● ●● ●●● ● ● ●● ● ●
●
● ●● ● ● ● ● ●● ●●●● ●
●● ●●
●● ● ● ●●●
●
● ●● ●● ●●●● ● ●● ● ●
●● ●
●●● ● ●●●●
● ●● ●●●●
●●
●● ●●● ● ●●●● ●●● ●
●●● ●●●● ● ● ●● ● ● ●●●●●●● ● ●● ● ● ● ● ●● ●
●● ● ● ● ● ● ●● ●● ●
●●● ●
●● ●● ● ●● ●●●● ●● ●●●● ●
● ●●● ●
●● ●●●● ● ●● ●
●●● ●●
●● ● ●●●
●● ●● ●●● ●●●●● ● ● ● ●
● ● ● ●●● ●●●● ●● ●●● ●●● ●● ●●
● ●●● ● ●● ● ●
●● ●● ●●●●●● ●
●●●
● ●●
●
●●●●
● ●● ●●● ●
●●● ●● ●●●
● ● ●●●● ● ●●●
● ●
●●●●● ●
●● ●●●●●● ● ● ●●●
●
●●
●●● ●●● ● ● ●● ● ●●●●● ● ● ●
● ●● ●● ● ●● ●● ●● ●●● ● ●●● ● ●● ●● ●
●
●● ●●
● ●●●●●●● ●● ●● ●●●●●● ●●● ●●● ●● ●
●●●●● ●
●●●● ●
● ● ● ●●
●●●
● ●●●●
●●●● ●● ●●● ●●● ●●● ● ●●●●
● ● ●● ●● ●●● ●●●● ● ● ● ● ●● ● ●
● ●● ● ●
● ●
●
● ●● ●
● ●
● ● ●
● ●●● ●●● ●●● ●
●
●●●●●●●
●●● ●●●
● ●● ●●
●●
●● ●●
●● ● ●●● ●
●●●●●
●
●
●
●
●●●● ●● ●●
●●● ●●●●● ●●
●●
●
●
●
●●● ●● ●●● ●● ● ●●
●●●● ● ● ● ● ●●● ● ●●●
●●●●
● ● ●
● ●● ● ● ●
● ●
● ● ● ● ●● ● ● ●
●
●● ● ●●
● ●● ●● ● ● ● ●● ● ● ● ●● ●● ●● ●
●●●● ●● ● ● ● ● ●
●● ●●● ● ●
● ● ● ●●● ● ● ●
● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ●● ●● ● ●● ●
●
●●●
●● ● ● ●● ●
● ●●●
●●●
●●●● ●●●● ●●
●●● ● ●
●● ●● ●●
● ● ●●●●● ● ●●●● ●●
● ●● ●●● ● ●●● ●●● ●
●● ● ● ●●
● ● ●●●
●● ●
● ●● ● ● ● ● ●● ●●● ●●●●
● ● ●●● ● ●●
●●●● ●●● ●●● ● ● ●●●
●
● ●●
● ● ● ●●●●● ●
●●● ●
●● ●●●●● ● ● ● ●●
●●● ●●●
● ● ●●●●●●●●
● ● ●● ●● ● ● ●● ● ●●● ●● ● ●
● ● ●● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ●●●● ● ● ●● ●●● ●●●● ●
●
● ●●●●● ●● ●
● ●●● ●●● ●● ●
●●●●
●●●●● ●● ● ● ●
● ● ●● ● ● ●●● ●● ● ●●●
● ● ● ●● ●●
●● ●●●
●●● ● ●● ●●● ●
●● ●●
● ●● ● ●●●●●●
●●● ● ●
●●● ●● ●● ●●
●●●● ●●●
●●
● ●●●● ●● ●
●●●●●● ●
●●● ●●● ● ● ● ●●●●● ●
● ●● ●
●
● ●
● ● ● ●●
●●●●● ●●● ● ● ●● ●● ● ●●●●●● ● ● ●● ●● ● ●●●● ● ●
● ●● ●●●● ● ●●●● ● ● ●●● ● ● ●
●● ● ●● ●● ● ●
● ● ●
●● ● ●●● ● ● ● ●
● ●
●●●●● ●●
●
● ● ●● ●● ●●● ● ● ●
●●●●● ● ●● ●
●●●● ●●● ●●● ●●● ●● ● ● ●●●● ●
● ● ● ● ● ●● ● ● ● ●●● ● ●●
●● ● ● ● ●●
●●●
●●● ●
● ● ● ●●● ●● ●●● ●● ●● ●
● ●●● ● ●
●●●
●●●●
● ●
●● ●●●●●●●
● ● ●●●
●
●
●● ●● ●●●
●● ●● ● ●● ● ●
● ● ● ● ●
● ●
●
● ●●●●●
●●
●● ●● ●● ●
●● ●
●● ●●●
● ●●●●● ●●● ●●
●
● ●● ●●●●●●
● ●
●●
●●●●
●
●
●
●●
●
●
●● ●
●
●
●●
●
●●●●●●● ●
●
●
●●●● ●●●●● ● ● ●● ● ●● ●●●● ●●
●
●●
●
●●●●●●● ●● ●● ● ● ● ● ● ●
● ●
● ● ● ● ● ● ●● ● ● ●● ● ●●● ●●● ●● ●
●●●●● ●●● ● ●● ●●● ●● ●● ● ●● ● ●●● ●●●●●● ●●●
● ●
● ●●●●●● ●●●● ●●●● ● ●●● ●● ●● ●
● ●● ● ● ●●●● ●● ●
● ●● ●● ●● ● ●● ●●●●● ●● ●●● ●● ● ● ● ●● ●● ● ●
●● ● ●
●● ● ● ●● ● ●● ●● ● ●● ● ●● ●● ●● ● ●
●● ●● ●●
● ● ●
●● ●● ●● ●● ●● ● ●●●
●●●●
● ●
● ●●● ●● ●● ●● ●●●● ● ●● ● ●●●● ● ● ●●
●●
●●● ●● ●● ● ●
●● ● ●●●● ● ● ● ● ●●●
● ●●●● ●●●● ● ●● ●● ●● ● ●● ●●●●● ● ●●● ●●● ●
● ● ●
● ●●●●
●
● ●● ● ●● ● ● ●● ●●●● ● ● ● ● ●● ●
●●● ● ●
● ● ● ●● ● ●● ● ● ● ●● ● ● ●●● ●● ●● ●●●
● ●● ● ●● ●●●●
●
● ●● ●●● ●●● ●●●
●● ●● ●●● ●●●● ●
●●●
●●● ●● ● ● ●●●● ● ●● ● ● ● ●●
●
● ● ● ● ●● ●● ●
● ●● ● ● ●● ●●
● ●
●●
●●● ● ● ●●● ● ● ● ●
● ● ●
●● ●● ● ●● ●● ● ● ●● ●
● ●● ● ● ● ● ● ●● ●●● ● ●●● ●●● ●●●●● ● ●● ●●● ●● ● ●● ●●● ●● ● ●● ● ● ●● ● ●
● ● ● ●●● ● ●● ● ● ●● ●● ● ● ●● ●●●●●●● ● ●●●
● ●
●● ●● ● ● ●●
● ●●● ●●●● ●● ●●● ●●●● ●
●●●● ●● ●●
●
● ●● ●● ● ●
● ●● ● ● ● ●● ●● ●● ●● ●●●● ● ●●● ● ● ●● ●●● ●● ●● ● ●● ●●●●● ● ●● ●● ●
● ●
● ● ● ●● ● ● ● ●● ●● ● ●●●●● ●
● ●●●●
● ● ●● ●●
●● ● ● ●● ● ●
● ●● ●●● ●●● ●●● ●● ●●●●
●
● ●
●● ● ●●● ●● ●●
● ● ● ●● ● ●
●
● ●● ● ● ● ●
● ●●●●●●
● ●● ● ●● ● ●● ● ●●●● ●● ● ●●●● ● ●● ● ●
●●● ● ●● ● ●
● ●
● ● ● ●●
●●●●●● ● ● ●●
●
● ● ●● ● ● ●●●●● ●●
●●●
● ● ●● ● ● ●● ● ●●
●
●
●●
● ●● ●
●● ● ●●
● ●● ●●●● ●● ● ● ●● ● ● ●● ●
● ● ● ●
● ● ● ●● ● ● ●● ● ●● ●● ● ●●●●● ● ●● ●● ●● ●●● ●●● ● ● ●● ● ● ● ● ●●● ● ● ●●● ● ● ● ●
● ●● ●
●● ● ● ●●
●● ● ● ●●
●
●● ●●
● ●●● ●● ●
●●●● ●●
● ●●●●●● ●
●● ● ●
● ●● ● ● ● ●
●● ● ●●
●
●
●●● ● ●● ●●●● ●● ●● ● ●● ●●● ●
●● ● ●●
●
●●● ●●● ● ● ●● ●●●●
● ●● ● ● ● ● ●●●● ● ●
●
●
●
●
●● ● ●
●●
●
●
●
●● ●●● ● ●●
●●
●
●
●
● ● ● ●● ●● ●
● ●● ● ● ●●● ● ● ● ● ●● ● ● ●● ●● ●●●● ● ●●●● ● ● ●●●●●● ● ●●● ●● ● ●●●● ● ● ● ●
● ● ●● ● ● ● ● ●● ● ●●● ● ● ●● ●● ● ● ● ●● ● ●
● ●● ● ●● ● ● ●● ●●● ●● ● ● ● ● ●● ● ●● ●
●
● ●● ● ●● ● ●● ●● ● ●● ● ●● ●● ● ●● ● ●●
● ● ● ● ● ● ●●●● ● ●● ●● ● ● ●● ● ●●● ● ● ● ●● ●● ●●●● ●●● ●●● ● ● ●● ●
● ●● ● ●
●
● ●●
●● ● ● ●●●● ● ● ●●● ● ● ●● ● ● ●● ● ● ● ● ●● ●●● ● ● ●●
●● ● ● ● ●● ● ● ●● ●●● ● ● ●● ●●
● ●
● ● ●
●● ●●●●● ●● ●●●●● ● ●●● ● ● ●
● ● ●● ●●
● ●
● ● ● ●●● ● ● ● ● ●● ● ●● ●● ● ● ● ●
● ● ● ● ● ●●● ●●● ● ●●●● ● ●● ●●● ●● ●●●
●● ●●●● ● ●●● ●●
●
●● ● ● ● ●● ●●
●● ●
●● ●
●● ● ●● ●
●● ● ● ●● ●● ●
● ●
● ● ● ●●
● ●● ● ●●● ● ●● ● ●
●●● ● ● ●●●● ●
●
●
● ● ● ● ● ● ●● ● ●●●● ●●● ●
●
● ● ●●
●
● ●
● ● ●
● ●
●●
●●● ●● ●
● ●● ●● ● ●
●● ● ● ● ●● ● ●
●
●●●● ●●
●●●
● ●●
●
●●
●● ● ● ● ●
● ●● ●
●●●●● ●●● ●● ● ● ● ● ● ●
●● ●●● ● ●●● ● ●● ●●● ● ● ● ●● ●● ● ● ●●
−0.5
●
● ● ●
● ●● ●●●● ● ● ● ● ● ● ●●
● ● ●● ●● ●●● ●●● ● ●
● ● ● ●●● ●●●● ● ● ●
●● ● ● ●●● ●●
●
● ●● ● ●● ● ● ● ● ● ● ● ●●● ● ●
● ● ● ●● ● ● ●● ●●● ● ●
● ● ● ● ● ● ● ●● ● ●●● ● ● ● ● ●●● ●●● ●
● ● ● ●●● ● ● ● ● ●● ●● ● ● ● ●
● ●● ●● ● ● ●
● ●● ● ● ●● ● ●
●
●●
● ●● ●● ●●● ● ●● ● ●
●●● ● ● ●● ●●● ●
● ● ●●● ● ● ●●
●
●●
● ● ● ●● ● ● ●
●
●●● ● ● ●
●● ● ●● ●
● ●●●
●
● ● ● ●● ●●●
● ●● ●● ●●● ●
● ●● ●
● ● ●
● ●
● ● ●● ●● ●● ● ● ●
● ● ●
● ● ● ● ●● ●● ●
● ●
●● ● ●
● ● ●
● ●
●
●
●
●
●
●
−1.0
Dim 3 (7.24%)
Figure 1.28 – Datos genómicos : gráfico de variables en el plano 3-4 (un punto corresponde
a una variable).
Igual que para el primer plano, la nube de variables en el plano 3-4 presenta un ritmo
regular que no necesita comentarios particulares. Es más fácil caracterizar los ejes de modo
automático con la ayuda del procedimiento dimdesc. La variable HIPK2, DUSP14 o todavía
PCSK51 caracterizan el eje 3 : son los genes más vinculados al eje (correlación negativa).
Las modalidades que caracterizan el eje son los pollos que no sufrieron estrés (con una
coordenada significativamente negativa), así como los pollos que tuvieron un estrés durante
16 horas y que no se realimentaron, y en un menor grado, los pollos que tuvieron un estrés
durante 16 horas y que fueron realimentados 5 horas (con coordenada significativamente
positiva).
Es posible construir elipses de confianza alrededor de los baricentros de la representación del
conjunto de los pollos que siguieron el mismo régimen. Para eello, creamos una tabla con
la variable Régimen y las coordenadas de los individuos de los ejes 1 y 2 ; luego calculamos
las coordenadas de las elipses (con la función coord.elipse y el argumento bary=TRUE para
precisar que son elipses construidas alrededor de baricentros) antes de construir el gráfico del
ACP (con la función plot.PCA y el argumento ellipse=bb que precisa que las coordenadas
de las elipses están en el objeto bb) :
54
Análisis de componentes principales (ACP)
100
j48r24_9
j48r24_5
j48r24_8
j48r24_7
50
J48R24
Dim 2 (9.35%)
j48r24_3
j48r24_2
j48r24_6
j48r24_1 J16
j48_7
0
j48r24_4
N
j48_1 J16R16
j48_6
J48 J16R5
j48_3
j48_4
j48_2
-50
-100 -50 0 50
Dim 1 (19.63%)
Estas elipses de confianza (cf. figura 1.29) confirman la impresión visual de que los regímenes
de estrés importantes (J48 y J48R24) son muy diferentes de los otros. Del mismo modo, las
elipses de confianza son disjuntas para los regímenes J16 y J16R16, para los regímenes
J16R16 y N o para los regímenes J16 y J16R5 : esta diferenciación de los regímenes no era
nada evidente sin las elipses de confianza.
Para tener las elipses de confianza en los ejes 3-4, creamos una tabla con la variable Régimen
y las coordenadas de los individuos en los ejes 3 y 4, calculamos el trazado de las elipses y
dibujamos el plano 3-4 del ACP con el añadido de las elipses :
> aa <- cbind.data.frame(pollos[,1], res.pca$ind$coord[,3:4])
> bb <- coord.ellipse(aa, bary=TRUE)
> plot.PCA(res.pca, habillage=1, ellipse=bb, axes=3:4)
55
Individuals factor map (PCA)
40
j16r5_3 j48r24_8
j16r5_6
j48r24_9 j16r5_8
j48_7 j16r5_2 j16r5_7
20
j16_5
j16r16_7
j16r16_2 j16r16_3 j16_4
J16R16 j48_3
Dim 4 (5.87%)
J48R24
j16r16_9 j16r16_8 j16r5_4 j16r5_1 j16_3
-20
j48_2
j48r24_7
j48r24_3
j48r24_5
-40
j16r16_4
j48r24_4
-60
Dim 3 (7.24%)
Imagen ideal que usted se Actividad que conviene más a una madre de familia
hace de una familia : cuando los niños son pequeños
Quedarse en Trabajo de Trabajo de Suma
el hogar medio tiempo tiempo completo
Ambos cónyuges trabajan por igual 13 142 106 261
Trabajo del marido más absorbente 30 408 117 555
Sólo el marido trabaja 241 573 94 908
Suma 284 1123 317 1724
Tabla 2.1 – Tabla que cruza las respuestas a dos preguntas de opinión.
Esta tabla se llama «tabla cruzada» en la terminología usual de los organismos que realizan
encuestas y «tabla de contingencia» en la jerga de los estadistas. La tabla reagrupa las
1. N. Tabard (1974). Necesidades y aspiraciones de las familias y de los jóvenes. París : CREDOC.
Husson – Lê – Pagès Análisis de datos con R
respuestas simultáneas a las dos preguntas : así, 241 es el número de personas que ha
respondido a la vez Sólo el marido trabaja a la pregunta de la familia ideal y Quedarse en el
hogar a la pregunta de la actividad de una madre de familia. Esta tabla es completada por la
suma de los términos de una misma fila (908 personas respondieron Sólo el marido trabaja ;
estos números constituyen el margen columna) o de una misma columna (284 personas
respondieron Quedarse en el hogar ; estos números constituyen el margen fila). La redacción
exacta de las preguntas es la siguiente :
Entre los tres modelos siguientes, ¿cuál es el que más se acerca de la imagen ideal que usted
se hace de una familia ? :
1. Una familia donde ambos cónyuges tienen una profesión que los absorbe tanto al
uno como al otro y donde los quehaceres domésticos y el cuidado de los niños son
compartidos entre los dos.
2. Una familia donde la mujer tiene una profesión menos absorbente que la del hombre
y donde ella se coupa de una parte más grande de los quehaceres domésticos y del
cuidado de los niños.
3. Una familia donde sólo el hombre ejerce una profesión y donde la mujer se queda en
el hogar.
Distinguiendo el periodo de cuando los niños son pequeños y el periodo de donde todos los
niños van a la escuela, ¿cuál es, según usted, el tipo de actividad que conviene mejor a una
madre de familia :
1. Quedarse en el hogar.
2. Trabajo de medio tiempo.
3. Trabajo de tiempo completo.
Más generalmente, una tabla de contingencia está construida del modo siguiente (cf. fi-
gura 2.1). Disponemos para n individuos de su valor para dos variables cualitativas anotadas
V 1 (presentando I modalidades o niveles) y V 2 (presentando J modalidades). La tabla de
contingencia tiene como término general xij , número de individuos que posee la modalidad
i de V 1 y j de V 2.
Los márgenes de la tabla se anotan reemplazando por un punto, en xij , el índice sobre el
cual se efectúa la suma. Así :
J
X I
X X
xi• = xij x•j = xij n = x•• = xij .
j=1 i=1 i,j
2. En este ejemplo, el término «probabilidad» puede parecer abusivo, ya que designa una cantidad esta-
blecida a partir de una muestra. Pero además de que es cómodo, el término corresponde al hecho de que en
el AFC los datos son considerados poblaciones, es decir, sin aspectos inferenciales.
58
Análisis factorial de las correspondencias (AFC)
V1 V2
Modalidades
1 de V2
1 j J
1
Individuos
l i j
Modalidades
de V1 i xij xi.
I
n
x. j n = x..
Figure 2.1 – Notaciones generales para una tabla de contingencia que cruza dos variables
cualitativas (V 1 y V 2) definidas sobre n individuos ; el individuo l posee las modalidades i
(para V 1) y j (para V 2) : es contabilizado en xij .
Observación
El término «análisis de correspondencias» procede del hecho de que se analiza una tabla que
pone en correspondencia dos conjuntos : el representado por las filas y el representado por
las columnas (desempeñan papeles simétricos).
59
Husson – Lê – Pagès Análisis de datos con R
más grande de la tabla, 573, parece sugerir una «atracción», término que queda por definir
precisamente entre las modalidades Sólo el marido trabaja y Trabajar de medio tiempo, lo que
parece confirmar el hecho de que Trabajar de medio tiempo es la respuesta más frecuente entre
las personas que han respondido Sólo el marido trabaja y recíprocamente. Pero la consulta de
los márgenes muestra que estas dos respuestas son, por separado, ampliamente mayoritarias.
De ahí la pregunta : ¿el valor elevado 573 no se debe al hecho de que estas respuestas son cada
una por separado muy frecuentes, más bien que una «atracción» entre estas modalidades ?
Resulta que los números de una tabla de contingencia se pueden comparar entre ellos sólo
recordando los márgenes que les corresponden. El análisis de tal tabla no es simple : se
requieren una formalización del objetivo del estudio y una metodología adaptada.
Así, la independencia estipula que la probabilidad conjunta (fij ) depende sólo de probabili-
dades marginales (fi• y f•j ), lo que está de acuerdo con nuestro comentario sobre el número
573.
Estudiar una relación equivale a comparar los efectivos observados (xij = nfij ) y los efectivos
teóricos correspondientes al modelo de independencia (nfi• f•j ). La tabla 2.2 reagrupa estas
dos tablas para nuestro ejemplo.
Comentemos algunas diferencias entre la tabla de los efectivos observados y la tabla de los
efectivos teóricos :
– 13 personas respondieron a la vez Ambos cónyuges trabajan por igual yQuedarse en el
hogar : si las preguntas fueran independientes, observaríamos (por término medio) a 43
personas que hubiesen dado esta pareja de respuestas. El efectivo observado es sensible-
mente inferior al efectivo teórico, lo que se esperaba dado el significado de estas respuestas.
Decimos que estas modalidades se rechazan : cuando escogemos una modalidad, tendemos
a no escoger la otra.
– 241 personas respondieron a la vez Sólo el marido trabaja y Quedarse en el hogar, va-
lor sensiblemente superior al efectivo teórico 149.6 obtenido (por término medio) con la
hipótesis de independencia (aquí todavía este resultado es esperado visto el significado
60
Análisis factorial de las correspondencias (AFC)
Efectivos observados
Quedarse en Trabajo de Trabajo de Suma
el hogar medio tiempo tiempo completo
Dos cóny. trab. por igual 13 142 106 261
Trab. marido + absorbente 30 408 117 555
Sólo el marido trab. 241 573 94 908
Suma 284 1123 317 1724
Efectivos teóricos
Quedarse en Trabajo de Trabajo de Suma
el hogar medio tiempo tiempo completo
Dos cóny. trab. por igual 43,0 170,0 48,0 261
Trab. marido + absorbente 91,4 361,5 102,1 555
Sólo el marido trab. 149,6 591,5 167,0 908
Suma 284 1123 317 1724
de estas respuestas). Decimos que estas modalidades se atraen : cuando escogemos una,
tendemos a escoger la otra.
– 573 personas respondieron a la vez Sólo el marido trabaja y Trabajar de medio tiempo,
efectivo inferior (muy ligeramente) al efectivo 591.5 teórico.
Este último resultado es muy interesante desde el punto de vista metodológico. El valor más
elevado de la tabla, es 573, lo que para un observador superficial, sugiere una atracción entre
estas dos respuestas. De hecho, no es nada de eso ya que, al contrario, estas modalidades
se rechazan (muy ligeramente). El valor fuerte (573) puede atribuirse, entonces, al hecho de
que ambas modalidades (consideradas por separado) son muy frecuentes (respectivamente
52.7 y 65.1% de las respuestas) y no al hecho deque se atraigan. Este resultado, que podía
presentir, está aquí claramente cuantificado gracias a la formalización (relación entre dos
variables ; desviación del modelo de independencia).
El criterio χ2 permite someter a un test la significación de la distancia global entre la tabla
observada y el modelo de independencia. Se escribe :
donde Φ2 corresponde a una medida de relación independiente del efectivo y a una inercia
total (ver más lejos). En el ejemplo, el χ2 vale 233.43, valor altamente significativo (pro-
babilidad crítica de ser sobrepasado : 2.4 × 10−49 ), resultado esperado dado la significación
de las preguntas. El detalle del cálculo (cf. tabla 2.3) pone en evidencia la contribución de
las celdas aparte de la independencia (es la asociación entre Los dos cónyuges trabajan por
igual y Trabajar de tiempo completo que expresa el valor que más se aleja de la hipótesis de
independencia : 30.04 del total) pero también la de las filas y de las columnas (observamos
la débil contribución, 4.78%, de Trabajar de medio tiempo).
61
Husson – Lê – Pagès Análisis de datos con R
Tabla 2.3 – Descomposición de χ2 , por celda, fila y columna (valores brutos y porcentajes).
Cuando el efectivo observado es inferior al efectivo teórico, añadimos el signo − a cada valor.
fij
∀i, j = fi• .
f•j
62
Análisis factorial de las correspondencias (AFC)
corresponde un punto cuya coordenada para la jésima dimensión es fij /fi• ; esta nube es
completada por el punto medio (GI ), cuya jésima coordenada valef•j (cf. figura 2.2).
Además de la transformación en perfiles, en relación con la nube de los individuos en ACP,
la nube de las filas en AFC presenta las dos particularidades esenciales siguientes :
1. Cada punto i es afectado por el peso fi• ; este peso es impuesto y es una parte integral
del AFC ; a perfil igual, damos a una modalidad una influencia tan grande como
frecuente ; con estos pesos, el perfil medio (GI ) es el centro de gravedad de NI . Este
punto GI es tomado como origen de los ejes (como en ACP para los individuos).
2. La distancia de la que se provee el espacio RJ consiste en dar el peso 1/f•j a la
dimensión j. El cuadrado de la distancia (dicha de χ2 ) entre los puntos i y l se escribe :
J 2
X 1 fij flj
d2χ2 (i, l) = − .
f
j=1 •j
fi• fl•
La principal justificación de esta distancia es indirecta y reside en la propiedad siguiente.
Teniendo en cuenta el peso fi• , la inercia del punto i con respecto a GI se escribe :
J 2
X 1 fij
Inercia(i/GI ) = fi• d2χ2 (i, GI ) = fi• − f•j ,
f
j=1 •j
fi•
J
X (fij − fi• f•j )2
= .
j=1
fi• f•j
63
Husson – Lê – Pagès Análisis de datos con R
d χ 2 (i, l )
Modalidades
de V2
1 j J i (de peso) fi.
1
GI
Modalidades fij
i 1
de V1
fi.
f. j fij
I Modalidad j
fi. de V2
GI f. j 1
1. Consideramos los perfiles-columnas (así, según nos interesemos por las filas o por las
columnas, no analizamos la misma tabla, fij /fi• en un caso, fij /f•j en el otro ; es aquí
donde hay una mayor diferencia con el ACP, en el cual la misma transformación de los
datos –el centrado y la reducción– se utiliza tanto para estudiar los individuos como
las variables).
2. A cada columna le corresponde un punto de RI , cuya coordenada sobre la dimensión
i es fij /f•j ; estos puntos constituyen la nube NJ .
3. Cada punto j es afectado por un peso de f•j ; con estos pesos, el centro de gravedad
de la nube, anotado GJ , es igual al perfil medio. Situamos el origen de los ejes GJ .
Modalidades d χ 2 ( j, k )
de V2
Modalidades fij
de V1
i fi.
f. j
fi. fij
I Modalidad i
1 1
f. j de V1
64
Análisis factorial de las correspondencias (AFC)
La nube NI es proyectada sobre los ejes us . Representamos estas proyecciones sobre planos
que asocian dos ejes, en primer lugar el plano (u1 ,u2 ). Como en ACP, a causa de la ortogo-
nalidad entre los ejes, este primer plano también hace máxima la inercia proyectada de NI ;
es decir, obtenemos el mismo plano buscando directamente (y no eje por eje) el plano de
inercia máxima. Esta propiedad se llama «encaje de soluciones» : en el sentido de la inercia
proyectada, el mejor eje es incluido en el mejor plano.
La inercia total mide la intensidad de la relación (en el sentido de Φ2 ) entre las dos variables
V 1 y V 2, en tanto que la inercia λs asociada al eje de rango s mide la parte de la relación
expresada por este eje. La naturaleza de esta parte de la relación puede describirse mediante
las coordenadas de los perfiles-filas : la distancia de un perfil al origen es una desviación
al perfil medio y, una contribución a la relación entre V 1 y V 2. La proximidad entre dos
perfiles-filas i y l expresa el mismo modo de desviarse del perfil medio : estas modalidades
i y l (de V 1) se asocian de modo privilegiado (i.e., más que si hubiese independencia) a
las mismas modalidades de V 2. Paralelamente, son las mismas modalidades de V 2 con las
cuales i y l se asocian menos que en el modelo de independencia. El alejamiento del origen
de dos perfiles-filas i y l expresa dos modos opuestos de desviarse del perfil medio : las
65
Husson – Lê – Pagès Análisis de datos con R
modalidades de V 2 con las cuales i se asocia de modo privilegiado son aquellas con las que
l se asocia menos que si hubiese independencia.
El AFC procede de modo simétrico para ajustar la nube NJ . Las principales etapas se
resumen a continuación. En RI , el origen de los ejes está situado en GJ , centro de gravedad
de NJ . Buscamos una continuación de los ejes ortogonales de inercia máxima. Sea vs el
vector unitario del eje de rango s y Hjs la proyección del perfil j sobre este eje vs que hace
máxima la cantidad siguiente :
J
X 2
f•j OHjs máximo.
j=1
La nube NJ es proyectada sobre los planos factoriales constituidos por parejas (vs , vt ),
principalmente el primero de ellos (v1 , v2 ).
66
Análisis factorial de las correspondencias (AFC)
0.4
Quedarse en el hogar
0.2
Trabajo de tiempo completo
Dim 2 (13.71%)
0.0
Dim 1 (86.29%)
0.4
Dim 1 (86.29%)
Figure 2.4 – Primer (y único) plano factorial procedente del AFC de la tabla 2.1. Arriba :
representación de las columnas ; abajo : representación de las filas.
El primer eje opone las modalidades Quedarse en el hogar y Trabajar de tiempo completo.
Esta oposición sobre el gráfico implica necesariamente una oposición en cuanto al perfil ; así,
las mujeres que han contestado Quedarse en el hogar (perfil-columna 1) responden :
– Sólo el marido trabaja más a menudo que el conjunto de la población (=perfil-columna
medio) : 84.9% contra 52.7% ;
– Ambos cónyuges trabajan por igual menos a menudo que el conjunto de la población (4.6%
contra 15.1%).
Recíprocamente, las mujeres que han respondido Trabajar de tiempo completo responden :
– Sólo el marido trabaja menos a menudo que el conjunto de la población (29.7% contra
52.7%) ;
67
Husson – Lê – Pagès Análisis de datos con R
Perfiles-filas
Quedarse en Trabajo de Trabajo de Suma
el hogar medio tiempo tiempo completo
Dos cóny. trab. por igual 0,050 0,544 0,406 1,000
Trab. marido + absorbente 0,054 0,735 0,211 1,000
Sólo el marido trab. 0,265 0,631 0,104 1,000
Perfil medio 0,165 0,651 0,184 1,000
Perfiles-columnas
Quedarse en Trabajo de Trabajo a Perfil medio
el hogar medio tiempo tiempo completo
Dos cóny. trab. por igual 0,046 0,126 0,334 0,151
Trab. marido + absorbente 0,106 0,363 0,369 0,322
Sólo el marido trab. 0,849 0,510 0,297 0,527
Suma 1,000 1,000 1,000 1,000
– Ambos cónyuges trabajan por igual más a menudo que el conjunto de la población (33.4%
contra 15.1%).
Esta oposición entre perfiles es el aspecto más importante (ya que está bien valorada por el
primer eje) de la desviación entre la tabla de contingencia y la independencia, o mejor, de
la relación entre ambas variables.
Este aspecto concierne a las modalidades extremas (lo que podía esperarse razonablemente),
esto es, la modalidad media desempeñando un papel neutro en esta oposición. Más general-
mente, es decir, sobre el plano, la modalidad Trabajar de medio tiempo está muy próxima
al centro de gravedad, lo que indica un perfil muy próximo del perfil medio (esto puede
comprobarse directamente sobre la tabla y medirse por la contribución de esta modalidad
al χ2 : 4.78% ; cf. tabla 2.3). Esto se puede expresar así : el conjunto de las mujeres que
han respondido Trabajar de medio tiempo no se distingue (desde el punto de vista de sus re-
spuestas a la pregunta 1) del conjunto de la población. Esta formulación sugiere, a su turno,
que la respuesta Trabajar de medio tiempo ha sido escogida en parte por el hecho de lo que
N. Tabard llama su «carácter moderado» (en particular, por aquellas que han respondido
Sólo el marido trabaja). Finalmente, esta respuesta no parece muy informativa : cuando una
mujer contestó, esto no sugiere nada en cuanto a lo contestó a la pregunta 1 (técnicamente :
la distribución condicional de Trabajar de medio tiempo es igual a la distribución marginal).
La contradicción entre las imágenes dadas por ambas preguntas es así bien aclarada (hay que
saber que las respuestas a la pregunta sobre la familia dan una imagen de los encuestados
más desfavorable al trabajo femenino que las respuestas a la otra pregunta).
De modo sintético, podemos decir que el primer eje clasifica las modalidades de la segunda
variable desde la más desfavorable al trabajo femenino hasta la más favorable. Como en ACP,
es cómodo nombrar un eje por una (o algunas) palabra(s) que resume(n) el significado : aquí,
es natural llamar este eje «actitud con respecto al trabajo femenino». La palabra «actitud»
hay que considerarla en el sentido de los psicólogos, según el cual todo objeto (aquí el
concepto de trabajo femenino) es dotado, para un individuo, de connotación (positiva o
negativa) ; resulta que las opiniones a propósito de este objeto se organizan según tal valencia
de un modo esencialmente unidimensional. La actitud (de un individuo con respecto a un
68
Análisis factorial de las correspondencias (AFC)
Así, no sólo las nubes NI y NJ tienen la misma inercia total sino también la misma inercia
en proyectar sobre los ejes factoriales del mismo rango. Esta propiedad caracteriza los ejes
factoriales : ningún otro par de direcciones (uno en RJ , el otro en RI ) la posee.
La tercera relación, la clave de la interpretación, comunica las coordenadas de las filas a las
coordenadas de las columnas sobre los ejes del mismo rango. Sea :
J
1 X fij
Fs (i) = √ Gs (j),
λs j=1 fi•
I
1 X fij
Gs (j) = √ Fs (i).
λs i=1 f•j
69
Husson – Lê – Pagès Análisis de datos con R
Con Fs (i) la coordenada del perfil-fila i sobre el eje de rango s (en RJ ) ; Gs (j) la coorde-
nada del perfil-columna j sobre el eje de rango s (en RI ) ; λs la inercia de NI (resp. de
NJ ) proyectada sobre el eje de rango s en RJ (resp. en RI ). Esta propiedad es la base
de la representación superpuesta, decimos también «simultánea», de las filas y columnas
(cf. figura 2.5, superposición de los gráficos de la figura√2.4). Así, para el se eje de esta
representación superpuesta, exceptuando el coeficiente 1/ λs :
– una fila i está en el baricentro de las columnas, cada columna j con peso fij /fi• i.e., su
término en el perfil de i (estos términos son positivos y su suma es igual a 1) ;
– una columna j está en el baricentro de las filas, cada línea i con peso fij /f•j i.e., su
término en el perfil de j (estos términos también son positivos y su suma es igual a 1).
Esta propiedad √ denominada baricéntrica (algunas veces casi – baricéntrica, para recordar el
coeficiente 1/ λs ; decimos también relaciones de transición porque permiten transitar de
un espacio – RI o RJ – al otro) permite interpretar la posición de una fila en relación con
las posiciones del conjunto de las columnas, por una parte, y la posición de una columna con
respecto a las posiciones del conjunto de las filas, por otra parte : una fila (resp. una columna)
está del lado de las columnas (resp. filas) con las cuales se asocia más y en oposición a las
columnas (resp. filas) con las que se asocia menos. Así, en el ejemplo :
– Quedarse en el hogar está del lado de Sólo el marido trabaja, modalidad con la que se
asocia mucho, y en oposición a las dos otras modalidades, con las cuales se asocia poco ;
– Ambos cónyuges trabajan por igual está del lado de Trabajar de medio tiempo y en oposición
a Quedarse en el hogar.
0.4
Dim 1 (86.29%)
Recordemos que el origen de los ejes es confundido con el perfil medio =(baricentro) de cada
una de ambas nubes. Así, cuando un perfil-fila i tiene una coordenada positiva, se asocia
70
Análisis factorial de las correspondencias (AFC)
globalmente :
– más que en el modelo de independencia a las modalidades j, teniendo una coordenada
positiva ;
– menos que en el modelo de independencia a las modalidades j, teniendo una coordenada
negativa.
La palabra «globalmente» en la frase antes citada es importante. La coordenada de un perfil-
fila está determinada por el conjunto de coordenadas de las columnas : podemos así comentar
la posición de una fila con respecto a las de todas las columnas, pero formalmente no podemos
decir nada en cuanto a la proximidad de una fila y de una columna particulares. En concreto,
verificaremos en los datos las asociaciones sugeridas por proximidades particulares, entre una
fila y una columna, que deseemos comentar.
Baricentro y casi–baricentro.
√
El coeficiente 1/ λs no debe ser olvidado en la interpretación. Indiquemos que, en AFC, los
valores propios están comprendidos entre 0 y 1 (este aspecto se detallara más tarde). De ello
resulta que en relación√con los baricentros
√ exactos, la representación del AFC está dilatada.
Así, en el ejemplo, 1/ λ1 = 2.93 y 1/ λ2 = 7.33 ; también :
– la modalidad (columna) Quedarse en el hogar, que se asocia casi exclusivamente a la
modalidad (fila) Sólo el marido trabaja, casi se confundiria con esta última en una repre-
sentación baricéntrica exacta ; su posición sobre el plano es mucho más excéntrica ;
– la modalidad (fila) Ambos cónyuges trabajan por igual se asocia, en partes más o menos
iguales (142 y 106), a las modalidades Trabajar de medio tiempo y Trabajar de tiempo
completo y sería, en una representación baricéntrica exacta, situada más o menos a mitad
del camino entre estas dos modalidades ; sobre el plano es mucho más excéntrica, y a lo
largo del eje 1, aparece (ligeramente) más allá de Trabajar de tiempo completo.
Podemos preguntarnos si no sería preferible representar los baricentros exactos más bien que
los casi–baricentros. Pero, en este caso, dos gráficos son necesarios y en cada uno de ellos las
filas y las columnas no desempeñan papeles simétricos ; en particular, el conjunto de las filas
y el de las columnas no tienen la misma inercia, la nube de los baricentros está (en relación
con la representación usual) contraída alrededor del origen, lo que hace más difícil la lectura
de las asociaciones entre modalidades (cf. figura 2.6).
El interés de una representación baricéntrica exacta es la visualización de la intensidad de la
relación expresada por el plano (en el sentido de Φ2 ). Una nube de baricentros (por ejemplo,
la de las filas para fijar las ideas), muy reagrupada alrededor del origen (a lo largo del eje
de rango s), pone en evidencia una débil relación (se trata de la parte expresada por el eje
de rango s) entre ambas variables V 1 y V 2 (cada perfil-fila, próximo al origen, difiere poco
del perfil medio). Pero, en este caso, las asociaciones entre filas √
y columnas son difíciles de
ver, lo que permite justamente la dilatación por el coeficiente 1/ λs , dilatación que es más
fuerte cuanto la (parte de) relación expresada por el eje es más débil. Resulta así que la
representación simultánea del AFC es concebida para visualizar la naturaleza de la relación
entre las variables (i.e., las asociaciones entre filas y columnas) y no dice nada en cuanto a
su intensidad. Esta intensidad es medida por los valores propios (que son componentes de
Φ2 ) y desde este punto de vista, en la práctica usual del AFC, ambos aspectos de la relación,
la naturaleza y la intensidad, están bien identificados por instrumentos separados (gráficos
por una parte y valores propios por otra parte).
71
Husson – Lê – Pagès Análisis de datos con R
0.4
Dos cóny. trab. por igual
0.2
Dim 2 (13.71%)
Dim 1 (86.29%)
0.4
Dim 1 (86.29%)
Figure 2.6 – Representación de los baricentros exactos. Figura de arriba para las filas ;
figura de abajo para las columnas del AFC de la tabla 2.1.
72
Análisis factorial de las correspondencias (AFC)
para Sólo el marido trabaja). De un modo más directamente vinculado a los datos, podemos
observar que las personas que han respondido Quedarse en el hogar casi todas (84.9%) han
respondido Sólo el marido trabaja : acumulan así dos respuestas desfavorables al trabajo
femenino. En cambio, las personas que han respondido sólo el marido trabaja acumulan
en el 26.5% de los casos solamente dos respuestas desfavorables. En este sentido podemos
decir que quedarse en el hogar, que predispone más a una segunda respuesta desfavorable
al trabajo femenino, es ella misma más desfavorable al trabajo femenino que sólo el marido
trabaja.
No está en nuestras atribuciones proponer una explicación psico–sociológica a estas carac-
terísticas de la tabla. Retendremos sobre todo que el AFC, vía la representación simultánea,
pone en evidencia de modo claro y simple características de la tabla analizada que no apare-
cen forzosamente por la sola inspección directa de los datos. Esto, ya visible sobre una tabla
de dimensión muy pequeña, es tan flagrante y preciado como el aumento de la dimensión de
la tabla.
73
Husson – Lê – Pagès Análisis de datos con R
J1 J2 F2
I1 0 F1
I2 0
Figure 2.7 – Caso de un valor propio igual a 1. Estructura de los datos y plano factorial
(λ1 = 1).
propios es, pues, importante en AFC. En el ejemplo, los valores propios son débiles (cf.
tabla 2.5). Incluso el primero, aunque asociado a una estructura clara, es débil : esto que se
evidencia es sólo una tendencia, aunque sea altamente significativa (cf. el test de χ2 ).
Aquí todavía no le corresponde al estadista proponer una interpretación psico–sociológica de
esta «débil» intensidad de relación : ¿esto se debe simplemente al hecho de que las preguntas
no son las mismas, o al «ruido» que está siempre presente en las respuestas a las preguntas
de opinión ?
Tabla 2.5 – Valores propios (=inercias proyectadas) del AFC de la tabla 2.1.
Después de insistir en el hecho de que la inercia asociada a un eje es una parte de la relación
entre ambas variables V 1 y V 2, es natural expresar esta parte en porcentajes (cf. tabla 2.5).
En el ejemplo, resulta así que el primer eje representa 86.29%, es decir, la casi totalidad de
la distancia entre la tabla de datos y la independencia. Hay aquí un argumento para tener
en cuenta sólo este eje en la interpretación. De modo más general, los valores propios miden
la importancia relativa de los ejes : su secuencia sugiere los ejes sobre los cuales enfocar
la atención. En el mismo tipo de ideas, representamos esta secuencia por un diagrama de
barras. En la figura 2.8 se muestra un caso histórico (doce marcas de cigarrillos en potencia ;
Benzécri, 1973, tomo 2 p. 339) en la cual este diagrama sugiere 5 ejes sensiblemente más
importantes que los otrosy se presenta el lento decrecimiento de los valores propios más allá
del quinto lo que da a entender que los ejes correspondientes representan sólo al «ruido».
En el estudio de tal caso, es prudente examinar el eje 6 por lo menos superficialmente
porque, in fine, una interpretación clara de este eje incitará a conservarlo en el comentario
de los resultados. Este uso habitual (tomar en consideración los ejes interpretables incluso
si corresponden a una inercia débil) no está desprovisto de sentido común (es difícil apartar
del comentario una dimensión que se sabe interpretar bien), pero dio lugar a numerosos
debates.
Al ser los ejes ortogonales, se pueden adicionar las inercias proyectadas sobre varios ejes.
En el ejemplo, la parte de la relación expresada por el plano es 100 %, lo que no es una
característica de los datos pero proviene de la dimensión de la tabla (3 × 3 ; cf. observación
sobre el número de ejes, sección 2.3.3). De modo más general, para cuantificar la parte de
74
Análisis factorial de las correspondencias (AFC)
Valeurs propres
0.15
0.10
0.05
0.00
1 2 3 4 5 6 7 8 9 10
Figure 2.8 – Ejemplo de diagrama que ilustra la secuencia de los valores propios de un
AFC.
Este criterio aparece aquí como una medida de la calidad global de representación de la nube
NI (o NJ ) por el eje de rango s. Más generalmente, podemos considerar la proyección sobre
un plano. En el presente caso, este criterio responde a la pregunta siguiente : si sabemos
que al proyectar la nube NI (o NJ ) sobre un plano (generalmente el primero, construido
a partir de los ejes 1 y 2) lo deformamos (recordemos que la operación de proyección sólo
puede reducir las distancias entre puntos), ¿es esta deformación importante ? Es decir, ¿las
proximidades entre puntos (del mismo conjunto, las filas o las columnas) sobre un plano
reflejan bien las proximidades en el espacio de salida (RJ o RI ) ? Si la respuesta es sí, la
interpretación es simple en el sentido de que las proximidades sobre el plano se encuentran
muy fácilmente en los datos aunque los valores propios sean débiles. Si la respuesta es no, el
interés a priori de la representación no se pone en duda ; simplemente, la débil calidad de
representación indica que otros fenómenos, visibles sobre los planos siguientes, se añaden a
lo que muestra el plano estudiado. En tal caso, encontrar en los datos los hechos puestos en
evidencia por el plano será menos simple en el caso de valores propios débiles (es siempre
fácil en el caso de valores propios próximos a 1).
Finalmente, la calidad de representación asociada a un plano es una característica que hay
que tomar en consideración pero no constituye de ninguna manera un juicio de valor sobre
el interés del plano. El pequeño ejemplo utilizado es una ilustración perfecta (aunque en un
caso límite) : la calidad de representación de 100 % se debe a la débil dimensión de la tabla
y no prejuzga para nada el interés del análisis.
75
Husson – Lê – Pagès Análisis de datos con R
Esta contribución es a menudo multiplicada por 100 o 1000 para facilitar la edición de las
tablas. Se denomina a veces «relativa», ya que se trae al conjunto de la nube ; la contribución
2
«absoluta» es, entonces, la inercia proyectada por el punto (fi• (OHis ) ). Esta distinción de
«relativa» y «absoluta» no la hacen con estos términos todos los autores. La mayoría de las
veces, «contribución» (o incluso «contribución absoluta») significa lo que se llama en este
libro «contribución relativa».
Las contribuciones son calculadas tanto para las filas como para las columnas. Pueden ser
acumuladas sobre varios puntos (de la misma nube). Son útiles sobre todo cuando hay muchos
puntos. Seleccionar los puntos más contributivos a menudo facilita un primer enfoque de
la interpretación. El caso particular de un eje debido esencialmente a uno o dos puntos se
detecta inmediatamente : la interpretación puede enfocarse entonces, en este punto, evitando
generalizaciones arriesgadas. En esta misma idea, el número mínimo de puntos que acumulan
un porcentaje fijado (por ejemplo, 50 %) de la inercia de un eje es un indicador de la
«generalidad» de dicho eje.
A causa de su pequeña dimensión, el análisis de datos sobre las opiniones con respecto al
trabajo femenino no necesita las contribuciones pero ésta bastan para ilustrar los cálculos :
por ejemplo, el detalle del cálculo de las contribuciones de Sólo el marido trabaja y de Ambos
cónyuges trabajan por igual sobre el primer eje muestra el papel respectivo de los pesos y de
las distancias en la formación de dos contribuciones cercanas.
76
Análisis factorial de las correspondencias (AFC)
Observación
En AFC, los puntos generalmente tienen el mismo peso y los cálculos de contribución de-
sempeñan un papel más importante que en el ACP normado usual (en el cual los elementos
tienen el mismo peso) : en efecto, en este último caso, la contribución es proporcional al cua-
drado de la distancia al origen y se lee (más o menos) sobre las representaciones factoriales.
77
Husson – Lê – Pagès Análisis de datos con R
1. Las cuatro modalidades extremas están bien representadas por el primer eje (calidad
de representación > 0.85) ; la desviación de cada una de ellas al perfil medio (i.e., las
modalidades a las cuales se asocia más, o menos, que si hubiese independencia) está
bien descrita por este eje ; el otro eje aporta relativamente poco sobre estas modali-
dades.
2. La modalidad Trabajar de medio tiempo está muy mal representada por el primer
eje ; pero esto no significa que se deba apartar tal modalidad de la interpretación (al
contrario, la posición central de esta modalidad se ha comentado suficientemente) ;
esto ilustra bien la primacía de las coordenadas en la interpretación ; simplemente, la
desviación de esta modalidad al perfil medio puede leerse sólo a través de otros ejes.
78
Análisis factorial de las correspondencias (AFC)
Dos cony. trab. por igual Trab. marido + absorbente Sólo el marido trab.
Distancia 0,3665 0,0891 0,0973
Inercia 0,0555 0,0287 0,0512
Tabla 2.7 – Distancia (al cuadrado) del perfil medio e inercia (en los espacios de salida, RI
y RJ ).
79
Husson – Lê – Pagès Análisis de datos con R
p-crítico 2.04 × 10−32 ) pero poco intensa (Φ2 = 0.094 ; V (V 1, V 3) = 0.217), en particular
menos intensa que la relación entre V 1 y V 2 (Φ2 (V 1, V 2) = 0.135 ; V (V 1, V 2) = 0.260).
Más allá del significado de las preguntas, esta relación más débil reenvía el «ruido» que acom-
paña las respuestas a las preguntas de tipo V 3. Las modalidades que expresan un acuerdo
pueden tener como origen una preocupación general de no oponerse ; las que expresan un
desacuerdo pueden originarse en una hostilidad con respecto al cuestionario en general. De
ahí las respuestas contradictorias que tienen como efecto de ocultar la relación entre las
preguntas.
Nada de acuerdo
Mujs. hogar aisladas del mundo
No muy de acuerdo Sólo el marido trab.
0.0
Dim 1 (86.29%)
Figure 2.9 – Representación de la figura 2.5 completada por las modalidades de la variable
suplementaria Las mujeres que se quedan en el hogar se sienten aisladas del mundo.
80
Análisis factorial de las correspondencias (AFC)
– Las modalidades que expresan el acuerdo con la opinión Las mujeres que se quedan en el
hogar se sienten aisladas del mundo se encuentran del lado de las actitudes desfavorables
con respecto al trabajo femenino e inversamente para las modalidades que expresan un
desacuerdo. La interpretación del eje es enriquecida.
– La nube de las modalidades de V 3 está más concentrada alrededor del origen que las otras
dos variables ; encontramos el hecho de que la relación entre V 1 y V 3 es menos intensa
que la relación entre V 1 y V 2.
– La modalidad Completamente de acuerdo está más alejada del origen de los ejes que la
modalidad Para nada de acuerdo ; parece ser más característica de una actitud favorable
al trabajo femenino que Para nada de acuerdo de una actitud desfavorable.
El test de χ2 y la tabla 2.2 se obtienen utilizando únicamente las tres primeras columnas
del juego de datos :
> res.test.chi2 <- chisq.test(trabajo[,1:3])
> res.test.chi2
> round(res.test.chi2$expected,1)
81
Husson – Lê – Pagès Análisis de datos con R
La tabla 2.4 se obtiene, después de haber transformado la tabla de datos en matriz, por :
> dd <- rbind(trabajo,apply(trabajo[,1:3],2,sum))
> rownames(dd)[4] <- "Perfil medio"
> round(prop.table(as.matrix(dd),margin=1),3)
Los gráficos de la representación de exactos baricentros (cf. figura 2.6) se obtienen por :
> plot(res.ca,invisible="col")
> coord.col = sweep(res.ca$col$coord,2,sqrt(res.ca$eig[,1]),FUN="*")
> points(coord.col, pch=17, col="red")
> text(coord.col, rownames(coord.col), col="red")
> plot(res.ca,invisible="row")
> coord.row = sweep(res.ca$row$coord,2,sqrt(res.ca$eig[,1]),FUN="*")
> points(coord.row, pch=20, col="blue")
> text(coord.row, rownames(coord.row), col="blue")
El cuadro de los valores propios (cf. tabla 2.5) y el gráfico de los valores propios se obtienen
por :
> res.ca$eig
> barplot(res.ca$eig[,1], main="Valores propios", names.arg=1:nrow(res.ca$eig))
Las inercias de las filas y de las columnas (cf. tabla 2.7) se logran directamente mientras que
las distancias al cuadrado deben calcularse de nuevo utilizando el margen fila y el margen
columna :
> res.ca$row$inertia
> res.ca$col$inertia
> res.ca$row$inertia/res.ca$call$marge.row
> res.ca$col$inertia/res.ca$call$marge.col
El gráfico de la figura 2.9 se obtiene realizando un nuevo AFC precisando que las columnas
a partir de la cuarta son suplementarias :
> res.ca2 <- CA(trabajo,col.sup=4:ncol(trabajo))
82
Análisis factorial de las correspondencias (AFC)
83
Husson – Lê – Pagès Análisis de datos con R
Hasta aquí, nosotros hemos llamado por comodidad «texto» a una fila de la tabla de léxica.
La definición de estos textos no es siempre tan evidente, y es lo que ilustramos con estos dos
ejemplos.
En la primera aplicación del AFC (citada anteriormente), el cuerpo inicial es la pieza de
teatro Phèdre. Para analizar este cuerpo, hubo que subdividirlo. El criterio elegido era el
personaje : una fila de la tabla (un texto) es el conjunto de las réplicas de un personaje
dado. Así fue posible establecer una cartografía de los personajes en función del único voca-
bulario que utilizan ; la primera dimensión corresponde al estatus social : los personajes más
importantes (el de Phèdre, pero hacer generalizaciones es tentador) no utilizan las mismas
palabras que sus súbditos (¡comenzando por el tuteo y el tratamiento de usted !). Otros re-
cortes eran posibles : por escena (para visualizar el desarrollo de la intriga) o, más finamente,
por personajes que se cruzan en los actos, para seguir la evolución de los personajes a lo
largo de la obra.
Una aplicación capital del análisis de los datos textuales consiste en analizar las preguntas
abiertas en los cuestionarios. Un ejemplo famoso es el de una pareja siguiendo preguntas for-
muladas sucesivamente : ¿Qué es, para usted, la derecha ? ¿Qué es, para usted, la izquierda ?
El interés de este tipo de preguntas es unánimemente reconocido : la espontaneidad de las
respuestas es una prueba de la importancia concedida (por el que contesta) a los aspectos
que evoca, información que es difícil de obtener de otro modo. En el ejemplo anterior, ¿se
destacan más bien los aspectos económicos, sociales y políticos ? ¿Y esto indiferentemente
para la izquierda y la derecha ?
Antes que todo, podemos pensar en considerar cada encuestado como una fila de la tabla.
Pero esta tabla está generalmente muy vacía (numerosas casillas), y su análisis por AFC
es a menudo arduo y decepcionante (muchos ejes ponen en evidencia pequeños grupos de
individuos que tienen algunas palabras particulares en común) pero poco sintético. Una
metodología recomendada consiste en reagrupar los encuestados según un criterio que cruza
todas o una parte de las variables clásicas siguientes : género (hombre/mujer), nivel de
estudios y edad («dividido» en clases). Otras reagrupaciones son por supuesto posibles y el
usuario deberá hacer esta elección con cuidado porque condiciona fuertemente los resultados.
Un texto es, entonces, la concatenación de las respuestas de una de las categorías procedentes
de la reagrupación de los que responden.
¿Qué palabras ?
De nuevo, por comodidad, llamamos «palabra» a una columna de la tabla de léxica. En
la práctica, la definición de lo que debe representar una columna no es simple, ya que hay
numerosos puntos de vista, cada uno de los cuales presenta aspectos interesantes. El usuario
deberá, pues, tomar las decisiones que le parezcan más convenientes a sus datos y a sus
objetivos. Citamos a continuación algunos puntos claves.
Selección según la frecuencia global. Las palabras raras, interesan poco al usuario en un
procedimiento de síntesis y a la vez pueden influir en el AFC. En efecto, una palabra utilizada
en un solo texto que contendría sólo esta palabra engendra un eje asociado al valor propio
(máximo) de 1 ; aunque este caso jamás se produce en la práctica, constituye una referencia
útil que contiene valores propios elevados, del orden de 0.5, observados regularmente en este
tipo de análisis. Eliminaremos entonces las palabras muy poco frecuentes (raras) ; la noción
de rareza, al ser relativa, implica definir el umbral en cada caso, en función del conjunto de
la frecuencia de las palabras.
84
Análisis factorial de las correspondencias (AFC)
Palabras herramientas. ¿Hay que conservar los artículos, las conjunciones, etc. ? A primera
vista, el usuario intenta eliminar esas palabras que no parecen importantes. Indiquemos,
a pesar de todo, que si esas palabras están repartidas como el perfil de repartición medio
(cuando su caso depende sólo de la longitud del texto), entonces están cerca del centro de
gravedad de la nube de las palabras e influyen poco en el análisis. En cambio, si su frecuencia
de utilización depende del texto, entonces son la marca de algo y merecen ser conservados.
Lematización. ¿Hay que reagrupar, por ejemplo, las formas gráficas correspondientes al sin-
gular o al plural del mismo nombre ? ¿Las correspondientes al mismo verbo ? La lematiza-
ción consiste en reagrupar las formas gráficas relativas a la misma entrada en el diccionario.
Tiene sus partidarios y sus oponentes. Indiquemos la propiedad de equivalencia distribu-
cional, propiedad general del AFC valorada precisamente en referencia a las tablas léxicas,
ilustrándolas por un ejemplo «textual» : si día y días tienen el mismo perfil, entonces es lo
mismo considerarlos juntos o por separado. Esta propiedad es un argumento en desventaja
de la lematización : en caso de igualdad de perfil, no ganamos nada ; sino que perdemos
un matiz. En la práctica, no obstante, hay que asegurarse de que el matiz citado merece la
atención, lo que no es el caso para las palabras menos frecuentes (excepto si se pone el límite
inferior de selección exageradamente elevado).
Stematización. Consiste en reagrupar las formas gráficas que poseen la misma raíz. Así, en
comentarios de degustación de vinos, podemos querer reagrupar verde y falta de madurez.
La stematización llama observaciones análogas a las emitidas a propósito de la lematización ;
pero aquí la toma de riesgo (de confundir nociones distintas) es más importante.
Segmentos repetidos. Ciertas palabras a menudo aparecen de modo combinado y esta com-
binación (hablamos de segmentos repetidos) es a la vez más evocadora que las palabras
consideradas por separado y puede eliminar las posibles ambigüedades. Así, en relación con
las descripciones de vinos, frutas rojas es precisamente más evocador que frutas (pensar en
frutas confitadas de los vinos untuosos) y que rojo (el color rojo no implica, en principio,
una nota aromática frutas rojas). El ejemplo más conocido de segmento repetido es sin duda
seguridad social, cuyo significado no se deduce fácilmente de seguridad y de social. Por eso es
muy útil considerar los segmentos repetidos, asignándole una columna a cada uno de ellos.
Las consideraciones que preceden no agotan el tema del análisis de los datos textuales sino
que dan los puntos de referencia claves para su puesta en práctica. Lo hemos comprendido :
lo más importante del trabajo se sitúa más arriba del AFC, en la constitución de la tabla
léxica a partir de un conjunto de textos.
El paquete tm (para text mining) está dedicado al análisis de datos textuales. La función
textual de FactoMineR es una función lexical que permite construir una tabla de contingencia.
Ilustremos esta función a partir del pequeño ejemplo siguiente que contiene dos variables
cualitativasy una variable textual :
> vino
Año de cosecha Vino Texto
1 Año de cosecha 1 Vino 1 Acidez,afrutado
2 Año de cosecha 2 Vino 1 Afrutado,ligero
3 Año de cosecha 1 Vino 1 Con toques de madera
4 Año de cosecha 2 Vino 1 Acidez
5 Año de cosecha 1 Vino 2 Azucarado
6 Año de cosecha 2 Vino 2 Azucarado,licoroso
7 Año de cosecha 1 Vino 2 Ligero,afrutado
85
Husson – Lê – Pagès Análisis de datos con R
La función textual permite construir la tabla de contingencia para cada modalidad de una
o varias variables cualitativas o para cada combinación de modalidades de dos variables
cualitativas. El argumento sep.word permite precisar los separadores de palabras y el ar-
gumento maj.in.min permite poner todas las palabras en minúsculas. La fila de encargo
siguiente construye una tabla de contingencia con las palabras en columna, en tanto que las
modalidades en fila de la segunda variable y las combinaciones de modalidades de la primera
con la segunda variable. Ella representa también el número de veces que se usa una palabra
(objeto nb.words) y en cuántas filas se ha empleado (salida útil para textos pero sin interés
para preguntas abiertas, ya que la misma palabra no se repite muchas veces).
> textual(vina,num.text=3,contingence.by=list(2,1:2),
sep.word=",",maj.in.min=TRUE)
$cont.table
acidez afrutado azucarado con toques de madera licoroso ligero
Vino 1 2 2 0 1 0 1
Vino 2 0 1 3 0 1 2
Año de cosecha 1.Vino 1 1 1 0 1 0 0
Año de cosecha 1.Vino 2 0 1 1 0 0 1
Año de cosecha 2.Vino 1 1 1 0 0 0 1
Año de cosecha 2.Vino 2 0 0 2 0 1 1
$nb.words
words nb.list
ligero 3 3
azucarado 3 3
afrutado 3 3
acidez 2 2
licoroso 1 1
con toques de madera 1 1
86
Análisis factorial de las correspondencias (AFC)
usa ken rus gbr eti cub mar ale jam pol
10000 m 0 4 0 0 8 0 2 0 0 0
100 m 5 0 0 1 0 0 0 0 1 0
110 m vallas 9 0 0 0 0 3 0 1 0 0
1500 m 0 5 0 0 0 0 3 0 0 0
200 m 8 0 0 1 0 0 0 0 1 0
20 km 0 0 3 0 0 0 0 0 0 1
3000 m Obstáculos 0 12 0 0 0 0 1 0 0 0
400 m 11 1 0 1 0 0 0 0 1 0
400 m vallas 7 0 0 1 0 0 0 0 2 0
4x100 m 4 0 0 1 0 2 0 0 1 0
4x400 m 5 0 1 2 0 1 0 0 2 0
5000 m 0 5 0 0 4 0 3 1 0 0
50 km 0 0 4 0 0 0 0 1 0 3
800 m 1 5 1 0 0 0 0 1 0 0
Decatlón 5 0 0 0 0 1 0 1 0 0
Disco 0 0 0 0 0 1 0 3 0 1
Salto de altura 3 0 3 2 0 2 0 0 0 1
Jabalina 0 0 2 3 0 0 0 0 0 0
Salto de longitud 7 0 0 0 0 2 0 0 1 0
Maratón 1 3 0 0 3 0 1 1 0 0
Martillo 1 0 0 0 0 0 0 0 0 1
Pértiga 4 0 3 0 0 0 0 1 0 0
Peso 8 0 0 0 0 0 0 0 0 1
Salto de triple 3 0 2 3 0 2 0 0 0 0
Tabla 2.9 – Datos de Juegos Olímpicos : número de medallas obtenidas por disciplina y por
país durante cinco olimpiadas. Extracto : los diez países que ganaron más medallas
2.8.2 Problemática
Se trata de una tabla de contingencia. Los individuos son las 360 medallas. A cada medalla
le son asociadas dos variables cualitativas : la prueba a la cual se refiere y el país al cual
pertenece el que la obtuvo. La tabla cruza estas dos variables.
Desde un punto de vista un poco formal, la problemática asociada a tal tabla consiste en el
estudio de la relación entre ambas variables : prueba y país. Pero esta manera de redactar es
difícil de entender. Podemos hacerla más concreta así : existen asociaciones notables como
«pruebas-países» en un sentido (i.e., tal país obtiene medallas sólo en tal prueba), o en
el otro (tal país no gana medallas en tal prueba mientras que consigue medallas en otras
pruebas).
El recurso a la noción de perfil, la clave del AFC, es aquí más evidente, más preciso y más rico.
Primero definimos el perfil atlético de un país por el conjunto de sus medallas, distribuidas
por pruebas (concretamente, una columna de la tabla). La problemática se convierte entonces
en la siguiente : ¿podemos considerar que todos los países tienen el mismo perfil atlético o, por
el contrario, ciertos países alcanzan mejores resultados en ciertas pruebas ? Y, en este último
caso, podemos sintetizar dichas «especializaciones» ? Por ejemplo, poniendo de manifiesto
oposiciones, por un lado, entre países que tienen los mismos perfiles (i.e., habiendo ganado
las mismas pruebas) y por otro lado, los que tienen el perfil opuesto (i.e., no habiendo ganado
las mismas pruebas).
De modo dual, la distribución de las medallas de una prueba por países define el «perfil
87
Husson – Lê – Pagès Análisis de datos con R
88
Análisis factorial de las correspondencias (AFC)
La función CA proporciona el gráfico del AFC que representa las filas y las columnas, así
como las salidas numéricas siguientes contenidas en el objeto res.ca :
> res.ca
**Results of the Correspondence Analysis (CA)**
The variable in rows have 24 categories, the variable in columns 58 categories
The chi square of independence between the two variables is equal to 2122.231
(p-value = 2.320981e-41).
*The results are available in the following objects:
name description
1 "$eig" "eigenvalues"
2 "$col" "results for the columns"
3 "$col$coord" "coord. for the columns"
4 "$col$cos2" "cos2 for the columns"
5 "$col$contrib" "contributions of the columns"
6 "$row" "results for the rows"
7 "$row$coord" "coord. for the rows"
8 "$row$cos2" "cos2 for the rows"
9 "$row$contrib" "contributions of the rows"
10 "$row.sup$coord" "coord. for the supplementary rows"
11 "$row.sup$cos2" "cos2 for the supplementary rows"
12 "$call" "summary called parameters"
13 "$call$marge.col" "weights of the columns"
14 "$call$marge.row" "weights of the rows"
> round(res.ca$eig,2)
eigenvalue percentage cumulative percentage
variance of variance
dim 1 0.82 13.85 13.85
89
Husson – Lê – Pagès Análisis de datos con R
Podemos visualizar estos valores propios con la ayuda de un diagrama en barras (cf. fi-
gura 2.10) :
> barplot(res.ca$eig[,1], main="Valores propios", names.arg=paste("dim",1:nrow(res.ca$eig)))
Valeurs propres
0.8
0.6
0.4
0.2
0.0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
Figure 2.10 – Datos de Juegos Olímpicos : valores propios asociados a cada dimensión del
AFC.
Los dos primeros ejes expresan 24.40% de la inercia total. Puede ser interesante interpretar
los ejes siguientes, que expresan igualmente un porcentaje importante de inercia total.
90
Análisis factorial de las correspondencias (AFC)
ltu
hun
slo tur
Disco
2
est
Martillo
blr
mex pol
ecu eun
50km
ita 20km
1
ger jpn
lat
esp aus
rus ukr
Pértiga kaz tch
nor fin
Dim 2 (10.53%)
cze Jabalina
rsa
sud den Decatlón
Maratón 800m Peso
kor
0
3000mObstáculos Altura
5000m fra
bdi brn 1500m alg swe
10000m ken nzl cub
eth mar qat Longitud can pan
Triple salto gbr
eri bra 110mH 4x400m
usa rou
4x100m bah
por 400m chn
400mH ngr
uga jam
ksa dom
-1
zam 200m
100m
tri gre
bar nam
-2 -1 0 1
Dim 1 (13.85%)
Podemos encontrar el conjunto de las coordenadas de las filas (resp. columnas) en el objeto
res.ca$row (resp. res.ca$col). Obtenemos entonces una tabla con las coordenadas, las
contribuciones (lo que indica en qué medida un individuo contribuye a la construcción de un
eje), los cosenos al cuadrado (lo que mide la calidad de la proyección de los individuos sobre
un eje) y las inercias para cada elemento (lo que corresponde a la distancia al baricentro
ponderado por el peso del elemento).
Podemos así construir el gráfico con los ejes 3 y 4. Utilizamos la función plot.CA (que puede
ser llamarse plot o plot.CA). Precisamos entonces los ejes de representación (axes = 3:4) :
91
Husson – Lê – Pagès Análisis de datos con R
Jabalina
2
cze
lat
ltu est
kaz
Disco
Decatlón
1
sud
gbr
ger
rsa den 800m
blr
cubbdi alg rou swe
5000m
Dim 4 (8.162%)
eri
eth
10000m Altura
Peso marken Triple salto
110mH
400mH
zam
ksa
dom 400m
uga
chn usa bah
Maratón
kor por
3000mObstáculos
0
200m
jamngr4x400m
4x100m brn
hun grebra Longitud nzl rus
100m 1500m qat
nam tri fra
pan Pértiga pol
bar ukr
jpn can esp 50km
Martillo eun
ita
-1
aus
slo tur
20km
mex
-2
ecu
-2 -1 0 1 2
Dim 3 (9.232%)
Figure 2.12 – Datos de Juegos Olímpicos : representación superpuesta sobre el plano (3,
4).
Ante todo, podemos interesarnos por las proyecciones de las diferentes pruebas sobre el
primer plano factorial. Los resultados son bastante espectaculares, ya que las pruebas de
carreras de fondo están bien separadas de las otras pruebas sobre el primer eje factorial.
Además, hay un gradiente entre estas pruebas, empezando por los 10.000 m y yendo hasta
los 800 m. Todas las pruebas son clasificadas de la distancia más larga a la más corta, sin
ninguna excepción. Esto muestra que los resultados de los 10.000 m son más particulares que
las otras pruebas de fondo. No obstante, podemos anotar que el maratón está más próximo
al centro del gráfico que lo esperado. Esto se explica por el hecho de que no es una prueba
de fondo como las otras.
Los países que tienen coordenadas negativas sobre el primer eje son aquellos que ganan
numerosas medallas en las pruebas de fondo en comparación con los resultados obtenidos
92
Análisis factorial de las correspondencias (AFC)
por estos países en otras pruebas, pero también en comparación con el número de medallas
ganadas por otras naciones en las pruebas de fondo. Encontramos numerosos países africanos
especialistas en las pruebas de fondo (Eritrea, Etiopía, Burundi, Marruecos, Catar, Kenia)
y también Nueva Zelanda (atención, Nueva Zelanda obtuvo sólo una medalla en los 1500 m,
de ahí su coordenada extrema).
Es interesante ver aquí las contribuciones de los diferentes países. Recordemos que en AFC,
contrariamente al ACP, los elementos más extremos no son necesariamente los que más
contribuyeron a la construcción de los ejes ya que los pesos son diferentes de un elemento
al otro. Las contribuciones de los trece países que más contribuyeron a la construcción del
eje 1 se indican más abajo (los países son clasificados por contribución decreciente) :
> res.ca$col$contrib[rev(order(res.ca$col$contrib[,1])),1]
ken eth mar usa gbr eri cub bdi alg jam tri kor
31.387 22.072 12.160 9.149 2.139 1.947 1.683 1.452 1.352 1.313 1.119 1.089
Para las pruebas de lanzamiento de martillo y de disco, observamos que los países más
eficientes son Lituania, Hungría, Eslovenia y Turquía.
Los ejes 3 y 4 separan de nuevo disco y martillo de las pruebas de marcha (20 km y 50 km). La
jabalina es una prueba de lanzamiento verdaderamente diferente de las pruebas de martillo
y de disco. Los países nórdicos (Noruega, República Checa, Finlandia, Letonia) son los más
eficientes en el lanzamiento de la jabalina.
Es posible obtener los márgenes filas y los márgenes columnas (así como el número de
medallas obtenidas por países multiplicando el margen columna por el número total de
medallas, 360) :
93
Husson – Lê – Pagès Análisis de datos con R
> res.ca$call$marge.row
> res.ca$call$marge.col[rev(order(res.ca$call$marge.col))]
usa ken rus eth gbr cub ger mar jam pol esp ita
0.228 0.097 0.053 0.042 0.042 0.039 0.028 0.028 0.025 0.022 0.022 0.019
> res.ca$call$marge.col[rev(order(res.ca$call$marge.col))]*360
usa ken rus eth gbr cub ger mar jam pol esp ita
82 35 19 15 15 14 10 10 9 8 8 7
94
Análisis factorial de las correspondencias (AFC)
los atletas de decatlón tienen una masa muscular importante y características físicas de
explosión que no les favorecen en las pruebas de fondo : estos atletas tienen dificultades
para terminar la prueba de 1500 m.
Recordemos que todos estos comentarios se hacen a partir del número de medallas obtenidas
por país y por disciplina, sin referencia a las características físicas de los atletas de las
diferentes pruebas.
95
Husson – Lê – Pagès Análisis de datos con R
Se trata, en cierto modo, de un cuestionario que contiene diez preguntas abiertas (una por
vino). Estos datos son reunidos en una tabla cuyas filas son los vinos, cuyas columnas son las
palabras y cuyo término general xij es el número de veces que la palabra j ha sido asociada
al vino i (cf. tabla 2.11, que figura de un modo transpuesto por razones de presentación de
la página).
1S-Mic 2S-Ren 3S-Tro 4S-Bui 5S-Bui 6C-Aub 7C-Aub 8C-Fon 9C-Fon 10C-Fon Suma
Afrutado 1 5 5 3 4 0 1 4 3 1 27
Azucarado, sutil, licoroso 0 1 1 0 0 11 1 2 1 1 18
Con toques de madera 1 0 0 0 2 0 7 0 1 5 16
Ligero, suave 1 0 2 2 1 2 0 0 4 0 12
Acidez 1 0 1 2 1 0 2 1 2 1 11
Cítrico 2 3 1 1 1 0 0 3 0 0 11
Amarillo dorado 2 0 0 1 0 1 2 1 2 2 11
Alegre 2 3 0 1 3 1 1 0 0 0 11
Aromas afrutados 2 1 2 1 0 1 0 1 1 0 9
Fino, discreto 0 2 1 4 0 0 0 1 1 0 9
Amargo 1 1 0 0 0 0 0 1 2 3 8
Floral 0 1 2 0 2 0 0 1 1 1 8
Graso, falta de frescura 0 0 0 0 0 2 2 1 2 1 8
Amarillo pálido, claro 1 2 2 0 1 2 0 0 0 0 8
Fresco en boca 1 2 2 2 0 0 0 0 0 0 7
Largo, muy largo 1 1 1 0 0 0 2 0 1 1 7
Floral, con fondo de flores blancas 2 1 1 0 1 0 0 0 0 1 6
Seco 0 0 0 3 1 0 0 1 1 0 6
Intenso, amplio 1 0 0 0 0 1 1 0 1 1 5
Miel 0 1 0 0 0 1 1 1 1 0 5
Complejo, corto 0 0 0 0 0 3 0 2 0 0 5
Abierto, expresivo 2 0 1 0 0 0 0 1 1 0 5
Con buena expresión aromática 1 1 1 1 0 0 0 0 0 0 4
Sabor extraño (cera, neumático) 0 0 0 0 0 0 3 0 0 1 4
Sabor poco maduro 2 0 2 0 0 0 0 0 0 0 4
Yodado 1 1 0 1 1 0 0 0 0 0 4
Poca acidez 1 0 0 1 2 0 0 0 0 0 4
Poco carácter, poca expresión 0 0 0 0 0 1 2 0 1 0 4
Sauvignon 1 1 1 0 0 0 0 0 0 1 4
Olor persistente 1 0 0 0 2 0 1 0 0 0 4
Suma 28 27 26 23 22 26 26 21 26 20 245
Tabla 2.11 – Datos de vinos : número de veces que cada palabra se ha utilizado para cada
vino (30 palabras).
Esta tabla puede verse como una tabla de contingencia, considerando que se dispone de
n descripciones sensoriales (una descripción es la asociación entre una palabra y un vino)
y que estas descripciones se clasifican según dos variables cualitativas : el vino al cual se
refieren y la palabra utilizada. El AFC va a analizar la diferencia entre esta tabla y el modelo
de independencia, modelo según el cual cada vino tiene el mismo perfil de palabras y cada
palabra se usa, en proporción, el mismo número de veces para cada vino.
Este tipo de tabla a menudo está constituida y analizada por AFC (históricamente, el
primer AFC publicado trataba de una tabla análoga, Escofier, 1965), pero habitualmente
con efectivos mucho más importantes. Estamos aquí en condiciones límites a causa de un
número total de casos (n = 245) muy débil. Sin embargo, el análisis es posible por el hecho
de que se trata de un vocabulario más bien estereotipado de los profesionales del vino, lo
que conduce a un número total de palabras no demasiado elevado y, entonces, un número
96
Análisis factorial de las correspondencias (AFC)
«suficiente» de palabras que presentan un efectivo no muy débil. Además, antes del análisis,
algunas palabras «vecinas» han sido reagrupadas (por ejemplo, Azucarado, Sutil y Licoroso,
que reenvían la misma percepción, la del sabor azucarado). En este texto, con la intención
de una simplificación, guardamos el término «palabra» para las filas de la tabla 2.11, incluso
cuando representan grupos de palabras que figuran tal cual en los cuestionarios (Falta de
frescura) o procedentes de una reagrupación a posteriori (Azucarado, Sutil).
En este tipo de análisis, eliminamos las palabras menos utilizadas. Teniendo en cuenta los
débiles efectivos, el límite se ha fijado en 4, límite por debajo del cual las palabras no se toman
en consideración. La determinación de este límite tiene siempre un carácter empírico : con
estos datos, poner el límite en 5 no cambia fundamentalmente la representación de los vinos
pero priva de palabras importantes (por ejemplo, «sauvignon»), y el límite en 3 conduce a
gráficos muy cargados, que además tienen palabras cuyas coordenadas son frágiles.
El objetivo de este análisis es proporcionar una imagen sintética de la diversidad de estos
vinos. Habitualmente, la diversidad sensorial de los vinos es estudiada con la ayuda de
un protocolo mucho más pesado : se establece un cuestionario, que contiene una lista de
descriptores (acidez, amargura, etc.) ; un jurado está preparado para la evaluación de los
vinos con la ayuda de estos descriptores, y se hace la evaluación final. Uno de los objetivos de
este estudio es también metodológico : ¿es posible obtener con un protocolo muy simplificado
(los catadores no se preparan de manera conjunta ; utilizan su propio vocabulario) una
imagen interesante de la diversidad de los vinos ?
2.9.2 Márgenes
El examen de los márgenes es importante tanto desde el punto de vista de su interpre-
tación directa (¿cuáles son las palabras más utilizadas ? ¿Ciertos vinos son objeto de más
comentarios que otros ?) como del de su influencia en AFC (como peso).
La palabra más utilizada es «afrutado», lo que está en consonancia con la observación
habitual de comentarios de degustación (para convencerse, leer la etiqueta de cualquier
botella : es difícil de escapar de «maravilloso afrutado»). Luego viene el conjunto Azucarado,
Sutil, Licoroso. Recordemos que estos vinos son secos y una percepción de azucarado es, de
facto, una característica notable. Por fin, la percepción de Con toques de madera, asociada
a una elaboración en barrica, está bien identificada por los profesionales, lo que favorece la
aparición de una citación elevada frecuente (por oposición a un olor fácilmente percibido pero
no reconocido que engendra palabras diferentes según los catadores). Prolongar el comentario
de estos efectivos marginales sobrepasa el marco de un libro de estadística. Sobre el plano
técnico, desde el punto de vista del AFC, las palabras tendrán, a perfil igual, un peso tan
importante que hace que hayan sido citadas frecuentemente, lo que es deseable.
En cambio, el número de palabras por vino parece homogéneo. Ningún vino parece atraer
más comentarios que otros, lo que es sin duda una consecuencia (deseada) de la forma de la
pregunta realizada («Para cada vino, dar una o algunas palabras...»). Por tener la conciencia
tranquila, podemos realizar un test χ2 de ajuste de los diez efectivos observados (última fila
de la tabla 2.11) a una ley uniforme. La probabilidad crítica (0.97) confirma que no hay que
prestar atención a las diferencias entre los efectivos de las palabras por vino. Desde el punto
de vista del AFC, podemos considerar que los vinos tendrán, a perfil igual, más o menos la
misma influencia en el análisis. Cuando el número de palabras por vino es diferente, el análisis
97
Husson – Lê – Pagès Análisis de datos con R
concede a un vino un peso importante, hecho que fue objeto de numerosos comentarios (su
perfil se conoce mejor).
2.9.3 Inercias
La inercia total (Φ2 ) vale 1.5 lo que lo conduce a un χ2 de 368.79 (n = 245), asociado a una
probabilidad crítica de 1.23×10−5 . La tabla está en condiciones de validez del test muy malas
(en principio, por lo menos 80 % de los efectivos teóricos debe ser superior a 5 y ninguno debe
ser nulo), pero la probabilidad crítica es tan débil que el interés del AFC sobre estos datos
está fuera de duda. Observemos que, para el que conoce la diversidad entre los vinos del Valle
del Loira (sobre todo teniendo en cuenta el hecho de que estos vinos han sido escogidos para
ilustrar esta diversidad), la relación entre las palabras y los vinos es la esperada. La pregunta
«realizada al χ2 » no es tanto la de la existencia de una relación como la de la aptitud de un
conjunto tan limitado de datos para poner en evidencia esta relación. Podemos considerar
aquí que la respuesta es positiva pero que los datos no tienen la «solidez estadística» de la
tabla sobre las opiniones con respecto al trabajo femenino (recordemos : para esta última
tabla, p-crítico = 10−49 ). También aumentaremos la prudencia en la interpretación (lo que
concretamente quiere decir : vueltas frecuentes a los datos brutos y puesta en relación con
informaciones exteriores a los datos). Estas observaciones son muy importantes ya que el
AFC, teniendo en cuenta sólo las probabilidades, no da ninguna garantía desde el punto de
vista de la significación.
La intensidad de la relación, medida por el V de Cramer, es más bien elevada : 0.409 (el
valor 1 correspondería a una asociación exclusiva entre cada vino y un grupo de palabras,
máximo impensable para el que conoce la dificultad de una degustación a ciegas) ; es más
elevada, por ejemplo, que la de los datos sobre el trabajo femenino (0.26).
La puesta en práctica del AFC se obtiene con los comandos siguientes :
> library(FactoMineR)
> vinos = read.table("http://factominer.free.fr/libra/vinos.csv",header=T,row.names=1,sep=";")
> colnames(vinos)=c("1S.Michaud","2S.Renaudie","3S.Trotignon","4S.Buisse","5S.BuisseCristal",
"6C.AubSilex","7C.Aub.Marigny","8C.FontDomaine","9C.FontBrûlés","10C.FontCoteaux","Suma")
> res.ca=CA(vinos,col.sup=11,row.sup=nrow(vinos))
> barplot(res.ca$eig[,1],main="Valores propios", names.arg=1:nrow(res.ca$eig))
La secuencia de los valores propios (cf. figura 2.13 y tabla 2.12) muestra dos ejes de inercia
mucho más importantes que los ejes siguientes, lo que añadido al porcentaje de inercia
acumulado de 53.6% incita a concentrar la interpretación en el primer plano. Cada uno de
estos dos ejes tiene una inercia bastante elevada (0.436 y 0.371) : las asociaciones entre vinos
y palabras deberían aparecer claramente.
98
Análisis factorial de las correspondencias (AFC)
Valeurs propres
0.4
0.3
0.2
0.1
0.0
1 2 3 4 5 6 7 8 9 10
Figure 2.13 – Datos de vinos : diagrama de los valores propios del AFC de la tabla 2.11.
> round(res.ca$eig,3)
eigenvalue percentage cumulative percentage
variance of variance
dim 1 0.436 28.932 28.932
dim 2 0.371 24.666 53.598
dim 3 0.181 12.055 65.653
dim 4 0.156 10.348 76.001
dim 5 0.100 6.645 82.646
dim 6 0.096 6.353 88.999
dim 7 0.066 4.382 93.380
dim 8 0.062 4.133 97.513
dim 9 0.037 2.487 100.000
dim 10 0.000 0.000 100.000
99
Husson – Lê – Pagès Análisis de datos con R
10C.FontCoteaux 7C.Aub.Marigny
Olor persistente
Complejo, corto
-1 0 1 2
Dim 1 (28.93%)
Figure 2.14 – Datos de vinos : primer plano factorial del AFC de la tabla 2.11.
100
Análisis factorial de las correspondencias (AFC)
Ejes 3 y 4.
Con la intención de ser exhaustivos, podemos consultar rápidamente los ejes siguientes. En
este enfoque, las contribuciones son útiles para resumir un eje a lo esencial.
Así, desde el punto de vista de las contribuciones, el eje 3 opone los vinos 1 y 4 y, para las
palabras, Seco y Fino a Poco maduro. Encontramos estas asociaciones/oposiciones en los
datos. Pero, además de que conciernen efectivos débiles, no nos sugieren ninguna interpreta-
ción. Por su parte, el eje 4 pone de relieve el vino 5, que se asocia a las palabras Alegre y Poca
acidez. Aquí todavía esta asociación es (poco) visible en los datos, pero concierne a efectivos
débiles y no evoca nada (al contrario, generalmente Alegre y Poca acidez se oponen).
Conclusiones.
Desde un punto de vista viti–vinícola, este análisis muestra un singularidad poco caracterís-
tica de la cepa chenin : esta cepa conduce, en la práctica, a vinos bastante diferentes que
se separan de los vinos sauvignon, sobre todo porque estos últimos son homogéneos y bien
caracterizados.
Desde un punto de vista sensorial, es posible obtener una imagen fiable (la fiabilidad es su-
gerida aquí por las relaciones claras entre las «descripciones» sensoriales y las informaciones
«externas» disponibles, que conciernen a la cepa y la elaboración en barrica o no), con un
protocolo muy ligero (una sola sesión) comparado con el protocolo habitual.
Desde un punto de vista estadístico, el AFC parece bien adaptado al análisis de matrices dis-
persas (presentando muchas casillas de efectivos débiles o nulos). Recordemos, no obstante,
que eliminamos las palabras de efectivos muy débiles (≤ 3).
101
Husson – Lê – Pagès Análisis de datos con R
en el año i (cualquiera que sea la causa). Estas tablas se yuxtaponen en columnas según
la figura 2.15. Los datos provienen del Centro de Epidemiología sobre las Causas Médicas
de Defunción (Cepidc), que ofrece en su página web un fácil acceso a algunos de sus datos
(http://www.cepidc.vesinet.inserm.fr/).
12 grupos de edad
65 causas de Suma
defunción 1979 + 2006
65 causas de Datos
defunción 1979
65 causas de Datos
defunción 2006
Años
de 1979 Totales
al 2006
102
Análisis factorial de las correspondencias (AFC)
Los factores del AFC de la tabla activa proporcionan un marco para el análisis de la relación
entre la edad y la causa de defunción, y esto para el periodo estudiado. La introducción de
las tablas anuales como filas suplementarias permite analizar, en este marco, la evolución
de dicha relación desde el punto de vista de las causas de defunción. Precisemos este punto
de vista : a una fila de la tabla activa, i.e., una causa de defunción, le corresponde la
distribución de los individuos «que pertenecen» a esta causa según los grupos de edad, lo que
llamamos «perfil de edad». El objeto del AFC puede expresarse como la puesta en evidencia
de las principales dimensiones de variabilidad de estos perfiles. Esperamos, por ejemplo,
una dimensión que opone perfiles «jóvenes» (las causas de defunciones características de
los jóvenes) y perfiles «mayores» (las causas de defunciones características de las personas
mayores).
Las filas suplementarias también son perfiles de edad ; cada perfil corresponde a una causa
de defunción para un año dado. Así, para cada causa de defunción, disponemos de varios
perfiles de edad (concretamente, disponemos de varios puntos sobre el gráfico) y será posible
analizar la evolución de estos perfiles con observaciones del tipo : tal causa de defunción,
muy característica de los jóvenes en 1979, lo es menos en 2006.
2.10.2 Márgenes
Los márgenes indican los grupos de edad más afectados y las causas de defunción más
frecuentes. También dan el peso de cada modalidad en el AFC. Los dos márgenes son muy
variables (cf. figura 2.16 y figura 2.17). Los resultados numéricos y las figuras se pueden
obtener con los comandos siguientes :
> library(FactoMineR)
> defuncion <- read.table("http://factominer.free.fr/libra/defuncion.csv",
header=TRUE, sep=";",row.names=1)
> colnames(defuncion) = c("0-1","1-4","5-14","15-24","25-34","35-44","45-54","55-64","65-74",
"75-84","85-94","95 y más")
> res.ca=CA(defuncion,row.sup=66:nrow(defuncion), graph=FALSE)
> round(res.ca$call$marge.col,3)
> round(res.ca$call$marge.row[order(res.ca$call$marge.row)],3)
> par(las=1)
> barplot(res.ca$call$marge.col,horiz=TRUE)
> barplot(res.ca$call$marge.row[order(res.ca$call$marge.row)],horiz=TRUE)
> par(las=0)
La causa de defunción más frecuente esta relacionada con las enfermedades cerebrovascu-
lares. El grupo de edad para el cual el número de defunciones es el más importante es el
grupo 75-84 años. En los grupos de edad superiores (85-94 años y 95 años y más) hay menos
defunciones porque el número de personas en estos grupos de edad es muy inferior. Pode-
mos observar que el número de defunciones en el grupo de edad 0-1 año es relativamente
importante con respecto a los grupos de edad siguientes. Esto es bastante notable, ya que
este grupo de edad concierne a sólo un año mientras que los siguientes conciernen a 4 años
y luego a 10 años. El porcentaje de niños de edad de 0-1 año que fallecen es mucho superior
al porcentaje de niños de 1 a 4 años o de 5 a 14 años que fallecen.
103
Husson – Lê – Pagès Análisis de datos con R
95 y más
85-94
75-84
65-74
55-64
45-54
35-44
25-34
15-24
5-14
1-4
0-1
2.10.3 Inercias
Aplicado sobre los datos activos, el test de independencia de χ2 muestra que la relación
entre ambas variables es significativo. El χ2 observado vale 1080254 y la probabilidad crítica
asociada muy próxima de 0 (el programa da 0). La significación del test fue la prevista
viendo a la vez lo que cada uno puede comprobar según sus conocimientos (aunque sólo
fuese por la existencia del término «enfermedad infantil») y del número muy importante
de observaciones. Aunque las hipótesis del test no son verificadas (muchas casillas tienen
efectivos teóricos inferiores a 5), la probabilidad crítica es tan débil que la significación
queda fuera de duda. La inercia total es igual a Φ2 = 1.0213 ; la intensidad de la relación,
medida por el V de Cramer, es más bien elevada : 0.305 (el valor 1 correspondería a una
asociación exclusiva entre cada grupo de edad y un grupo de causas de defunción).
> res.ca=CA(defuncion,row.sup=66:nrow(defuncion))
> barplot(res.ca$eig[,1],main="Valores propios", names.arg=1:nrow(res.ca$eig))
eigenvalue percentage of cumulative percentage
variance of variance
dim 1 0.5505 53.9002 53.9002
dim 2 0.2570 25.1628 79.0630
dim 3 0.1385 13.5653 92.6283
dim 4 0.0338 3.3141 95.9424
dim 5 0.0199 1.9439 97.8863
dim 6 0.0143 1.4022 99.2885
dim 7 0.0037 0.3665 99.6550
dim 8 0.0017 0.1624 99.8174
dim 9 0.0013 0.1256 99.9430
dim 10 0.0004 0.0439 99.9868
dim 11 0.0001 0.0132 100.0000
104
Análisis factorial de las correspondencias (AFC)
Enfermedades cerebrovasculares
Otras cardiopatías
Cardiopatías isquémicas
Otras enfermedades aparato circulatorio
Tumor maligno laringe, tráquea, bronquios y pulmón
Otros tumores malignos
Otras enfermedades sistema nervioso y órganos sentido
Otros síntomas y estados mórbidos mal definidos
Otras enfermedades aparato digestivo
Causas desconocidas o no precisadas
Otras enfermedades aparato respiratorio
Otros accidentes
Enfermedad crónica hígado
Tumor maligno colon
Tumor maligno tejidos linfáticos
Suicidios
Tumor maligno pecho
Diabetes azúcar
Caídas accidentales
Otras enfermedades crónicas vías respiratorias inferiores
Otros trastornos mentales y comportamiento
Accidentes de transporte
Tumor maligno próstata
Neumonía
Otras enfermedades endocrinas nutricionales y metabólicas
Tumor maligno estómago
Enfermedades riñón y uréteres
Tumor maligno páncreas
Otras enfermedades infecciosas y parasitarias
Tumor maligno hígado y vías biliares intrahepáticas
Otros tumores
Tumor maligno labios, cavidad bucal y faringe
Tumor maligno esófago
Tumor maligno recto y ano
Tumor maligno vejiga
Abuso alcohol y psicosis alcohólica
Tumor maligno ovario
Tumor maligno otras partes útero
Tumor maligno riñón
Enfermedades hematológicas
Otras enfermedades aparato genital-urinario
Otras enfermedades sistema osteoarticular, músculos y tejido conjuntivo
Infecciones en período perinatal
Infecciones piel y tejido celular subcutáneo
Úlcera gastroduodenal
Tuberculosis
Otras causas externas de herida y envenenamiento
Acontecimiento con intención no determinada
Asma
Melanoma maligno piel
Malformaciones congénitas aparato circulatorio
Intoxicaciones accidentales
Tumor maligno cuello útero
Otras malformaciones congénitas y anomalías cromosómicas
Artritis reumática y osteoartritis
Gripe
Hepatitis viral
Homicidios
Síndrome muerte súbita del bebé
Sida y enfermedades del VIH
Meningitis
Malformaciones congénitas sistema nervioso
Farmacodependencia toxicomanía
Complic. embarazo, parto y puerperalidad
Infección con meningococos
La secuencia de valores propios (cf. figura 2.18) distingue tres ejes de inercia. Estos tres ejes
representan 92.6% de la inercia total y resume bien el conjunto de la variabilidad (contenida
en un espacio de 12 − 1 = 11 dimensiones). Podremos, pues, concentrarnos en la interpreta-
ción de estos tres primeros ejes.
105
Husson – Lê – Pagès Análisis de datos con R
Valeurs propres
0.5
0.4
0.3
0.2
0.1
0.0
1 2 3 4 5 6 7 8 9 10 11 12
> res.ca$col$inertia/sum(res.ca$col$inertia)
0-1 1-4 5-14 15-24 25-34 35-44
0.5262 0.0216 0.0167 0.1222 0.0618 0.0399
45-54 55-64 65-74 75-84 85-94 95 y más
0.0456 0.0397 0.0208 0.0239 0.0534 0.0282
La inercia del grupo de edad 0-1 año es muy importante, puesto que 52.6% de la inercia total
se debe a este grupo de edad. La «mitad» de la relación entre edad y causa de defunción
reside en la particularidad del grupo de edad, que tendrá una influencia importante en los
resultados del AFC. Después del primer grupo, los dos otros grupos de edad que contribuyen
más a la relación son 15-24 años y 25-34 años. Estos grupos de edad tienen un perfil de
defunción muy particular y desempeñarán también un papel importante en el AFC.
Para las causas de defunción (hay 65 causas), damos a continuación únicamente las cinco
inercias más fuertes (en el espacio completo), clasificadas por orden decreciente :
> res.ca$row$inertia[rev(order(res.ca$row$inertia))]/sum(res.ca$row$inertia)
Infecciones en periodo perinatal 0.3241
Accidentes de transporte 0.1370
Síndrome muerte súbita del bebé 0.0794
Malformaciones congénitas aparato circulatorio 0.0654
Suicidios 0.0500
La infección en el periodo perinatal tiene una inercia fuerte comparada con otras causas de
defunción (32.41%), mientras que su peso es relativamente débil (su margen vale 0.00336).
Esta causa de defunción presenta un perfil de edad muy particular (como su nombre lo
indica).
En el marco de una inspección minuciosa de los datos, podemos poner de manifiesto el
detalle del cálculo de estas inercias en la forma de una tabla que recapitula para cada fila y
para cada columna, el peso (igual al margen expresado en porcentaje), la distancia al origen
y la inercia (bruta y en porcentaje). Sea, entonces, para las filas :
106
Análisis factorial de las correspondencias (AFC)
> bb<-round(cbind.data.frame(res.ca$call$marge.col,
sqrt(res.ca$col$inertia/res.ca$call$marge.col),
res.ca$col$inertia,res.ca$col$inertia/sum(res.ca$col$inertia)),4)
> colnames(bb)<-c("Peso","Distancia","Inercia","% del inercia")
Peso Distancia Inercia % del inercia
0-1 0.0099 7.3829 0.5374 0.5262
1-4 0.0021 3.2375 0.0221 0.0216
5-14 0.0032 2.3039 0.0170 0.0167
15-24 0.0118 3.2583 0.1248 0.1222
25-34 0.0140 2.1275 0.0632 0.0618
35-44 0.0251 1.2736 0.0408 0.0399
45-54 0.0657 0.8413 0.0465 0.0456
55-64 0.0994 0.6390 0.0406 0.0397
65-74 0.1900 0.3342 0.0212 0.0208
75-84 0.3189 0.2765 0.0244 0.0239
85-94 0.2189 0.4993 0.0546 0.0534
95 y más 0.0410 0.8375 0.0288 0.0282
Así las cosas, que la fuerte contribución del grupo de edad 15-24 años proviene principalmente
de la distancia al origen, de un perfil de causas de defunción muy particular.
15-24
25-34
2
Dim 2 (25.16%)
5-14
35-44
1-4
1
45-54
55-64
65-74
0
75-84
85-94 0-1
95 y más
0 2 4 6 8
Dim 1 (53.9%)
Figure 2.19 – Datos de defunciones : representación de los grupos de edad sobre el primer
plano.
107
Husson – Lê – Pagès Análisis de datos con R
0 2 4 6 8 10 12
Dim 1 (53.9%)
Figure 2.20 – Datos de defunciones : representación sobre el primer plano de los grupos de
edad y de las causas de las defunciones más específicas.
En AFC, como los elementos (filas o columnas) no tienen el mismo peso, es necesario consul-
tar las contribuciones antes de proponer una interpretación. Los objetos res$col$contrib
y res$row$contrib contienen las contribuciones de las filas y de las columnas para los
diferentes ejes. Las contribuciones son expresadas en porcentaje (y algunas veces llama-
das contribuciones relativas). Presentamos las contribuciones de las columnas en su orden
«natural». Sea :
> round(res.ca$col$contrib[,1],3)
0-1 1-4 5-14 15-24 25-34 35-44
97.071 0.730 0.256 0.240 0.122 0.024
45-54 55-64 65-74 75-84 85-94 95 y más
0.004 0.068 0.306 0.660 0.451 0.069
Las contribuciones confirman que el grupo de edad 0-1 año contribuyó él solo (casi) al primer
eje (lo que sugiere la figura 2.19) ; a esta edad, las causas de defunción son muy particulares.
Este resultado concuerda con la parte de inercia del grupo de edad en el espacio completo
(0.5262) comentado anteriormente.
Al ser numerosas las causas de defunción, presentamos las contribuciones clasificadas por
orden decreciente, limitándonos a las cinco más grandes (estas cinco causas de defunción
contribuyen en un 95.56% a la construcción del primer eje). Sea :
> res.ca$row$contrib[rev(order(res.ca$row$contrib[,1])),1]
108
Análisis factorial de las correspondencias (AFC)
El eje demuestra las causas de defunciones específicas (casi por definición, como lo muestran
los términos «perinatal», «bebé» del grupo de edad 0-1 año. Estas contribuciones completan
el gráfico e indican el papel clave que cumplen de las infecciones.
109
Husson – Lê – Pagès Análisis de datos con R
2.0
15-24
1.5
5-14
1.0
Dim 3 (13.57%) 1-4
25-34
0.5 95 y más
85-94
75-84
35-44
0.0
65-74
0-1
45-54
-0.5
55-64
-1.0
0 1 2 3
Dim 2 (25.16%)
Figure 2.21 – Datos de defunciones : representación de los grupos de edad sobre el plano
2-3.
2.0
15-24
1.5
Accidentes de transporte
5-14
1.0
1-4 Homicidios
25-34
Dim 3 (13.57%)
55-64 45-54
Tumor maligno laringe, tráquea, bronquios y pulmón Tumor maligno esófago
Tumor maligno labios, cavidad bucal y faringe Abuso alcohol y psicosis alcohólica
Enfermedad crónica hígado
-1.0
-2 -1 0 1 2 3
Dim 2 (25.16%)
Figure 2.22 – Datos de defunciones : plano 2-3 con la representación de los grupos de edad
y las causas de defunción que tienen una contribución superior a 1.5% sobre uno de los dos
ejes.
> res.ca=CA(defuncion,row.sup=c(66:nrow(defuncion)),ncp=Inf)
> round(dist(res.ca$col$coord),3)
110
Análisis factorial de las correspondencias (AFC)
0-1 1-4 5-14 15-24 25-34 35-44 45-54 55-64 65-74 75-84 85-94
1-4 6.818
5-14 7.221 2.069
15-24 7.965 3.656 2.008
25-34 7.611 3.263 1.874 1.840
35-44 7.495 3.241 2.118 2.694 1.250
45-54 7.480 3.322 2.352 3.166 1.944 0.874
55-64 7.483 3.354 2.428 3.329 2.171 1.175 0.412
65-74 7.480 3.346 2.428 3.374 2.249 1.343 0.767 0.445
75-84 7.480 3.342 2.445 3.410 2.312 1.496 1.073 0.827 0.422
85-94 7.486 3.351 2.485 3.449 2.373 1.619 1.282 1.094 0.754 0.380
95 y más 7.505 3.390 2.562 3.508 2.463 1.766 1.491 1.355 1.098 0.807 0.474
Esta matriz muestra primero la gran distancia entre el grupo de edad 0-1 año y todos
los demás grupos, de acuerdo con el primer eje. Más allá indica que la distancia entre
grupos de edad consecutivos disminuye regularmente entre 1 año y 54 años, y después
se estabiliza alrededor de un valor débil. Esto está de acuerdo con nuestra observación
sobre el plano 2-3, que concierne a los grupos de edad a partir de 15 años (para 1-4
años y 5-15 años, otros ejes, incluyendo el primero, son necesarios para mostrar esta
particularidad).
Las contribuciones en la construcción de los ejes, al igual que las calidades de representación
son las siguientes para los grupos de edad :
> round(cbind(res.ca$col$contrib[,2:5],res.ca$col$cos2[,2:5]),3)
Contribuciónes Calidades de representación (cos2)
Dim 2 Dim 3 Dim 4 Dim 5 Dim 2 Dim 3 Dim 4 Dim 5
0-1 1.060 0.146 0.015 0.599 0.005 0.000 0.000 0.000
1-4 0.711 1.031 2.089 58.057 0.083 0.065 0.032 0.523
5-14 2.659 2.375 4.075 15.458 0.401 0.193 0.081 0.180
15-24 33.216 21.793 13.518 0.920 0.684 0.242 0.037 0.001
25-34 18.946 5.357 4.207 6.381 0.771 0.118 0.023 0.020
35-44 12.049 0.074 19.113 1.596 0.759 0.003 0.159 0.008
45-54 9.017 12.762 11.460 2.453 0.498 0.380 0.083 0.010
55-64 3.585 20.883 0.002 2.923 0.227 0.713 0.000 0.014
65-74 0.038 10.562 11.896 0.471 0.005 0.690 0.190 0.004
75-84 5.439 0.719 9.790 5.097 0.573 0.041 0.136 0.042
85-94 10.447 16.309 6.272 0.298 0.492 0.414 0.039 0.001
95 y más 2.832 7.988 17.564 5.747 0.253 0.385 0.207 0.040
Para las causas de defunción, las contribuciones son clasificadas por orden decreciente y las
cinco contribuciones más fuertes son presentadas para los ejes 2 y 3 :
> cbind(res.ca$row$contrib[,2],res.ca$row$cos2[,2],res.ca$call$marge.row)
[rev(order(res.ca$row$contrib[,2])),]
contrib cos2 eff. en %
Accidentes de transporte 41.048 0.754 0.015
Suicidios 16.250 0.818 0.019
Otras cardiopatías 4.272 0.546 0.092
Otros accidentes 4.130 0.592 0.024
Acontecimiento con intención no determinada 3.390 0.886 0.003
> cbind(res.ca$row$contrib[,3],res.ca$row$cos2[,3],res.ca$call$marge.row)
[rev(order(res.ca$row$contrib[,3])),]
contrib cos2 eff. en %
111
Husson – Lê – Pagès Análisis de datos con R
A lo largo del segundo eje, los grupos de edad entre 15 y 44 años tienen una contribución
acumulada de 64.211% y la interpretación puede fundarse en ellas. Las contribuciones de
estos tres grupos concuerdan con las coordenadas (los tres efectivos marginales son similares)
y el grupo de edad 15-24 años es un extremo sobre el cual podemos enfocar la atención para
ilustrar el eje.
Los accidentes de transporte contribuyen de modo determinante a este eje (41.05%) y tienen
la coordenada más elevada. Esta causa de defunción es característica de los jóvenes adultos
(coordenada elevada) ; esto, unido al hecho de que su frecuencia es relativamente elevada (cf.
figura 2.17), hace que los jóvenes adultos constituyan una dimensión esencial (la segunda) de
la diferencia a la independencia (contribución elevada). Esto puede ilustrarse directamente
a partir de los datos (cf. tabla 2.13) : el porcentaje de los jóvenes con defunciones debidas a
accidentes de transporte es muy superior al de los jóvenes con defunciones en general.
Lo paralelo puede hacerse con los «Homicidios», cuya coordenada elevada indica una causa
característica de los jóvenes adultos. Pero la débil frecuencia de esta causa (cf. figura 2.17)
engendra una contribución débil (1.86%) : no es esta causa la que hace característicos a los
jóvenes adultos. En la tabla 2.13 se ilustran estos resultados de modo directo a partir de los
datos ; con respecto a «Accidentes de transporte», el porcentaje más débil del grupo de edad
15-24 para los homicidios (14.56 en lugar de 28.80) está de acuerdo con la posición menos
excéntrica de los «Homicidios».
La causa «Suicidios» es sensiblemente menos característica de los jóvenes adultos (posición
más central vinculada al porcentaje entre los jóvenes más débil que para las dos causas pre-
cedentes) ; pero su frecuencia relativamente grande (1.93%) hace que esta causa contribuya
de modo importante al particularismo de los jóvenes adultos.
15-24 25-34 35-44 Otros Totales
Accidentes de transporte 4653 2451 1841 7211 16156
Homicidios 144 199 180 466 989
Suicidios 1431 2693 3280 13003 20407
Otros 6203 9415 21299 983288 1020205
15-24 25-34 35-44 Otros Totales
Accidentes de transporte 0.288 0.152 0.114 0.446 1.000
Homicidios 0.146 0.201 0.182 0.471 1.000
Suicidios 0.070 0.132 0.161 0.637 1.000
Otros 0.006 0.009 0.021 0.964 1.000
Tabla 2.13 – Datos de defunciones : extracción de algunos datos que conciernen a causas
que caracterizan a los jóvenes adultos ; datos totales y frecuencias.
112
Análisis factorial de las correspondencias (AFC)
aquí introducir las tablas anuales como filas suplementarias en el AFC de su suma. El interés
es : 1) de no multiplicar los análisis ; 2) de analizar simultáneamente las dos tablas en un
marco «medio» ya interpretado.
Cada fila suplementaria es asociada a una pareja (causa, año) que llamaremos «causa–anual».
En la figura 2.23 se muestra la evolución de algunas causas de defunción. Una causa de
defunción, correspondiente a los datos acumulados de 1979 y 2006, se une a los puntos su-
plementarios de la misma causa de defunción en 1979 y en 2006. Mencionemos una propiedad
del AFC cuando se representan varios perfiles y sus sumas : el punto medio (i.e., corres-
pondiente a la suma) está en el baricentro de los puntos que constituyen la suma, es decir,
los dos puntos 1979 y 2006. Así, por ejemplo, el punto farmacodependencia toxicomanía
2006 está más próximo al punto medio que el punto farmacodependencia toxicomanía 1979 :
hay más defunciones atribuidas a «farmacodependencia y toxicomanía» en 2006 (189) en
relación con 1979 (33). Por el contrario, las defunciones debidas a la gripe retrocedieron
fuertemente (117 en 2006 contra 1062 en 1979).
2.5
79
2.0
79 5-14 06
1.0
1-4
79 25-34 Farmacodependencia toxicomanía
95 y más 06
79 79
0.5
Otros accidentes
Gripe 06 Intoxicaciones accidentales
85-94 79 06
2006 79
75-84 35-44 Suicidios
0.0
0-1 1979 06
65-74
45-54
-0.5
55-64
-1 0 1 2 3 4 5
Dim 2 (25.16%)
Consideremos dos causas–anuales relativas a la misma causa. Más allá de su posición con
respecto a su punto medio, es sobre todo interesante su distancia sobre el plano, ya que
indica una evolución de los perfiles de edad correspondiente. Las causas que aparecen sobre
la figura 2.23 han sido seleccionadas precisamente por su gran evolución de perfil de edad
entre 1975 y 2006. Comentemos dos ejemplos.
Farmacodependencia toxicomanía. El gráfico sugiere una evolución del perfil de edad hacia
los jóvenes. Esto puede verificarse directamente sobre los datos, pero reagrupando –para
simplificar– las edades en dos grupos : ≤ 44 años y > 44 años (el límite de 44 años es
113
Husson – Lê – Pagès Análisis de datos con R
sugerido por los datos totales). El aumento de esta causa entre los jóvenes es sensible, en
frecuencia absoluta (pasamos de 13 a 167) o relativa (el porcentaje de esta causa entre los
jóvenes pasa de 39 a 88 %, cf. tabla 2.14).
Efectivos Porcentaje
15-44 Otros Totales 15-44 Otros Totales
79_Farmacodependencia toxicomanía 13 20 33 0.394 0.606 1
06_Farmacodependencia toxicomanía 167 22 189 0.884 0.116 1
Farmacodependencia toxicomanía 180 42 222 0.811 0.189 1
Como los efectivos son débiles, es prudente verificar la relación entre la edad y el año a partir
del test de χ2 realizado sobre la tabla «Totales», en la figura 2.15. Conduce a un valor de
43.913 (probabilidad crítica : 3.4 × 10−11 ) altamente significativo.
Suicidios. El gráfico sugiere una evolución opuesta a la precedente, es decir, una disminución
relativa de esta causa entre los jóvenes. Tal evolución parece mucho menos importante que
la de la causa precedente, pero como la causa «Suicidio» es muy frecuente, merece atención.
La tabla 2.15 cruza la edad (reagrupada en dos grupos, repartidos esta vez alrededor de 34
años, límite sugerido por los datos totales) y el año. La tabla muestra que, en el periodo
1979 – 2006, el porcentaje de jóvenes en las defunciones por suicidios evoluciona del 24.6 al
16.0%. Esta evolución es menos espectacular que la de la toxicomanía (los Φ2 calculados a
partir de las tablas valen 0.198 para el primero y 0.011 para el segundo) pero, a causa de
los efectivos más importantes, es todavía más significativa (probabilidad crítica inferior a
2.2 × 10−16 ).
Efectivos Porcentaje
15-34 Otros Totales 15-34 Otros Totales
79_Suicidios 2461 7531 9992 0.246 0.754 1.000
06_Suicidios 1663 8752 10415 0.160 0.840 1.000
Suicidios 4124 16283 20407 0.202 0.798 1.000
Tabla 2.15 – Datos de defunciones : extracción de algunos datos relativos a los suicidios.
Además de las «causas-anuales», el perfil de edad media (i.e., cualquiera que sea la causa
de defunción) de cada año puede introducirse en suplementario. Para los años 1979 y 2006,
estos perfiles son los márgenes filas de las tablas 1979 y 2006. Estas tablas permiten estudiar
la evolución, entre los dos años, de la distribución de las defunciones según los grupos de
edad. La figura 2.23 muestra que, entre 1979 y 2006, el perfil de edad media se desplaza
hacia los grupos de edades elevadas : esto tiene que ver con : 1) el envejecimiento de la
población (no olvidemos que nuestros datos son efectivos y no índices) ; 2) el aumento de la
esperanza de vida.
Ya indicamos que, de hecho, estos datos están disponibles para cada año comprendido entre
1979 y 2006 ; sólo estos dos años extremos fueron introducidos en el análisis, con el fin
de que los resultados no fuesen demasiado complejos. En cambio es posible, sin complicar
demasiado el análisis, introducir como filas suplementarias los márgenes filas de cada tabla
anual. El gráfico de la figura 2.24 se obtiene rehaciendo el análisis con los mismos elementos
114
Análisis factorial de las correspondencias (AFC)
activos pero introduciendo sólo los perfiles anuales de edad en forma suplementaria.
La secuencia de los años presenta una trayectoria asombrosamente regular que muestra una
evolución hacia perfiles de edad más avanzada ; lo es hasta tal punto que son las irregula-
ridades en esta las trayectoria que merecen atención. Mencionemos, por ejemplo, el cambio
de dirección en 1999 de la trayectoria de los años : aunque en todo rigor la posición sobre
el plano de una fila (i.e., un año) deba interpretarse en función del conjunto de columnas
(los grupos de edad), la figura 2.24 muestra una trayectoria que, hasta 1999, se aleja de
los grupos de edad 45-54 y 55-64 años, y no se aleja más. El examen de la evolución de
las defunciones del grupo de edad 45-64 años (cf. figura 2.25) muestra en efecto un decre-
cimiento hasta 1999-2000, y un ascenso a partir de esta fecha. Propongamos una pista de
interpretación : este ascenso tiene que unirse sin duda con la llegada del grupo de edad de
la generación (numerosa) de la posguerra.
CA factor map
2000 1999
0.10
1990 1992
1994
1989
Dim 3 (13.57%)
1988
0.00
1987 1986
1985
1983 1984
1982
-0.05
1981
1980
1979
Dim 2 (25.16%)
Figure 2.24 – Datos de defunciones : evolución del número total de muertes por año y por
grupo de edad.
2. Rehacer un AFC con el número total de defunciones por año entre 1976 y 2006 como
filas suplementarias. Construimos luego un gráfico sin los elementos activos gracias al
115
Husson – Lê – Pagès Análisis de datos con R
100000
●
●
●
●
●
95000
●
90000 ●
●
85000
● ●
●
● ●
●
80000
●
●
●
●
● ●
●
● ●
Años
Figure 2.25 – Datos de defunciones : evolución de las defunciones del grupo de edad 45-64
años.
2.10.7 Conclusión
Este ejemplo ilustra bien la naturaleza de las síntesis que el AFC puede ofrecer a partir de
una tabla compleja. Los ejes también pueden poner en evidencia un caso particular si este
presenta una especificidad (el grupo de edad 0-1 año) con respecto a otros fenómenos más
globales.
La elección de los elementos activos y suplementarios es crucial y traduce un objetivo preciso.
Varias elecciones son posibles. En una fase de aprendizaje de los métodos o de la apropia-
ción de los datos, el usuario podrá confrontar varios puntos de vista ; en el momento de la
comunicación de los resultados, generalmente deberá escoger un solo resultado si no quiere
desanimarse. Es imperativo especificar bien el objetivo del análisis escogido. En el ejemplo
de las tablas anuales de defunción, confrontemos la metodología escogida (análisis de la tabla
suma e introducción de las tablas anuales en suplementarias) con una segunda metodología
(análisis de una yuxtaposición –en columna– de las tablas anuales e introducción de la tabla
suma en suplementario).
Como ya se indicó, el AFC de la tabla suma estudia la relación entre las variables causas
y edad para el periodo considerado. En este marco se examina la evolución anual de esta
116
Análisis factorial de las correspondencias (AFC)
relación a través de la de los perfiles de edad de las causas de defunción. En dicho análisis, las
evoluciones que no se inscriben en la relación global (i.e., sobre todo el periodo) no pueden
aparecer.
La segunda metodología, el AFC de las tablas anuales yuxtapuestas en columnas (cf. fi-
gura 2.15), aprehende a la vez la relación global y su evolución mediante la de los perfiles de
las causas. Esta presentación de objetivo es más completa que la más formal pero intrínseca
en el AFC, fundada sobre la relación entre la edad y la variable que cruza las causas y el
tiempo. En este análisis, las dimensiones específicas de la evolución anual (i.e. no vinculadas
a la relación global) pueden aparecer.
Señalemos de paso que las tablas anuales pueden también estar yuxtapuestas en fila, mos-
trando la evolución de la relación edades-causas a través de la de los perfiles de defunción de
los diferentes grupos de edad. Esto sugiere realizar un tercer AFC (las tablas anuales yuxta-
puestas en fila siendo activas), pero también la introducción como columnas suplementarias
de los grupos de edad anuales en el AFC de la tabla suma. Este primer análisis se encuentra
aquí enriquecido pero conservando su sencillez (debida a la de los elementos activos) y es
recomendada, por lo menos en una primera etapa.
Recordemos finalmente que el AFC (como otros métodos del análisis de datos multidimen-
sionales) proporciona una visualización de los datos. Esta visualización es de gran valor y
sugiere interpretaciones más allá de los datos pero no las «demuestra». El ejemplo presen-
tado ilustra bien este hecho, poniendo en evidencia evoluciones globales anuales ; pero el
AFC no dice nada en cuanto a la parte de la evolución de la pirámide de edades y la parte
de la evolución de los índices de mortalidad por causa y por grupo de edad. El AFC permitió
responder a la pregunta inicial (qué relación hay entre la edad y la causa de defunción) pero
en definitiva sugiere nuevas cuestiones. El usuario puede, entonces, tener la impresión de
insatisfacción. Pero ¿no es esta la señal de toda investigación ?
117
Chapitre 3
Análisis de correspondencias
múltiple (ACM)
3.2 Objetivos
Los datos pueden ser estudiados a partir de individuos, variables y modalidades ; esto lleva
a hacerse varios tipos de preguntas relativas a estos objetos de naturaleza diferente.
120
Análisis de correspondencias múltiple (ACM)
– si dos individuos tienen en común un gran número de modalidades, queremos que sean
próximos ;
– si dos individuos tienen en común todas las modalidades salvo una que es tomada por uno
de los individuos y raramente por el conjunto de otros, nos gustaría a alejarlos con el fin
de tener en consideración la especificidad de uno de los dos ;
– si dos individuos tienen en común una modalidad rara, tenemos ganas de acercarlos cua-
lesquiera que sean sus diferencias con el fin de tener en consideración su especificidad
común.
Estos diferentes ejemplos permiten comprobar que es necesario comparar los individuos mo-
dalidad por modalidad y teniendo en cuenta la rareza o el carácter general de la modalidad.
121
Husson – Lê – Pagès Análisis de datos con R
Ik6=k0
d2k,k0 = C 0 ,
Ik Ik0
con una constante C 0 . Ahora bien, según la codificación (xik = 0 o 1), el número de individuos
PI 2
que toma una y una sola de ambas modalidades es igual a Ik6=k0 = i=1 (xik − xik ) .
0
2
P de la codificación (xik = 0 o 1 y entonces xik = xik y como
Utilizando lasPpropiedades
2
consecuencia i xik = i xik = Ik ), podemos escribir :
PI !
1 1 i=1 xik xik
0
2 0
dk,k0 = C + −2 .
Ik 0 Ik Ik Ik0
122
Análisis de correspondencias múltiple (ACM)
Ahora bien
PI 2
1 Ik i=1 xik
= 2 = .
Ik Ik Ik2
K
I X 1 2
d2i,i0 = (xik − xi0 k ) ,
J Ik
k=1
K
X IJ xik x i0 k 2
= − ,
Ik J J
k=1
K 2
X 1 xik /(IJ) xi0 k /(IJ)
= − .
Ik /(IJ) 1/I 1/I
k=1
123
Husson – Lê – Pagès Análisis de datos con R
124
Análisis de correspondencias múltiple (ACM)
MCA factor map
195
211 168 190 202
● 182 ●208●
227 ● ●
31
● ●
229
1.0
● ●
74 100 220
95
●
●● ●
212 ● 53
165
●
199 249 297 248 ●
● 222 ●
272 ● ●
●
299 ●
●
261●
Dim 2 (8.103%)
16● 287
206 94 10 66
0.5
● ●
191 ● ● 62 171
● 271
●
203 277
209 ● 159 148 288 ● ● ●
15381 ● 52 ● 50 35
● 54 ● 15 ● ●
● 110● 17
120 224
240 ● ● 278
●
217113
● 259
196
241
●
● ● ●
205 ● 149
161 238173 269 207 ●
● ●●24 40
79266 ●● ●
●
59 ●
186 163 82 ● ● ●
22 ●
●
102 18022623 ● 83
●● ● ● 255 225●
87
6 167 ● ●189164
231 ● 37 ● ●198 112 48
93 ● 268
38 ● ● 213 253 ●
187
200188●4154
262 134
197 ●
34 ●●● 296 ● 291 ● 57
151
● 29 178
●
243
21201
●
● 283 ● ●
0.0
●● 55● 162
● ●223 156 275 20 ● ● 128 23518
● 172 44
122295
252
● ● ●1832
● 8 42
●
● ● ● 13
● 33 244
56 ● 67
●
63228 ●5●45 214 204 ● ● 280 233
● ●279
160 64135 234●●●127
●
193 ● 284 51 265
1 166
152
●● 47
●139
140
●●169 ●●
119 ● ●
194
● 111 218 30 109 ●
●3 18558 ● ● ● ● 133
32
● ●
300 124
146
158
232 ●
●257256
117
144 ●292
121●● 49 ●7 247 96
260
●6527 ● 246 ●
●● 136
68 ● ●
●263 ● 132
● ● 103
264 259
237 ●●
● 155 14 123
258
●
116
70
176 ●
150
230 12
● 192 ●84
138 ● 91 ● ● 28639
60 ● 72 ● ● ● 251 270 61 ● 273
● 184
36
285●●85
115 ●● ● 77
175
137
●250
254
177 ● 298
105
● ● ●147
19
170
71242 ●
●●●● 89
●281 80 267
219
76
97
● ● ●●●
●●
●
●181
141 216 11174 ● ● 143
276
131
●9278●28290 ● ●●
● 239● 108 ●99● ● ●
●
41 118
●
157
126
● ● 179 ●● ●
●73 101
●●●● 145 ● ●●●●● ●
● ●106
107
43
●● 104
●● ● ● 69
●
●●●● ●245
142 114
● ● ●● ●129
● 210
●● 98
● ●215
236 274 ●221
28 ●26 ●
●●
293 ●● ●
●●
● ● ● 289 ●●
● 125 ● ●●130●
● ●●46 ●
● 290 86 ●
75
294● ●
−0.5
● 88 ●
●●
●
Dim 1 (9.885%)
lugar de compra
después.cena
restaurante
deasayuno
salón.de.té
merienda
variedad
amigos
trabajo
azúcar
forma
cómo
tarde
casa
tipo
bar
200
262
265
273
Figure 3.2 – Datos té : comparación de individuos 200, 262, 265 y 273 (gris claro = presencia
de la modalidad).
Podemos, como en todo análisis factorial, interpretar las dimensiones del ACM a partir de los
individuos. Los individuos 265 y 273 son unos apasionados del té que beben té regularmente
y en cada ocasión. Los individuos 200 y 262 beben té sólo en casa en el desayuno o por
125
Husson – Lê – Pagès Análisis de datos con R
lugar.de.compra
0.6
Dim 2 (8.103%)
tipo
forma
0.4
0.2
variedad
edad_cuál restaurante
salón.de.té
merienda
0.0
amigos
Dim 1 (9.885%)
Las variables tipo, forma y lugar de compra están muy vinculadas a cada uno de los dos
primeros ejes ; pero no sabemos cómo (esto aparece en la representación de las modalidades).
También este gráfico es sobre todo valioso en el marco del primer desbrozo frente a un gran
número de variables.
126
Análisis de correspondencias múltiple (ACM)
tienda.especializada
2
a granel
té_gama_alta
1
después.cena
Dim 2 (8.103%)
verde
té_desconocido
-1
-1 0 1
Dim 1 (9.885%)
127
Husson – Lê – Pagès Análisis de datos con R
Observación
El baricentro de todas las modalidades de una misma variable está en el centro de gravedad
de la nube de individuos. Se confunde pues con el origen de los ejes.
I 2
X xik 1
d2k,GK = I − ,
i=1
Ik I
I
!
X x2 2 xik
ik I
= I − 2 + 2 ,
I
i=1 k
I Ik I
1 2 1
= I − + ,
Ik I I
I
= − 1.
Ik
Esta distancia es más grande cuanto menos individuos posean la modalidad k. Recordemos
que en AFC, el peso de un perfil-columna corresponde a su margen (aquí, Ik /(IJ)). Podemos
entonces escribir la inercia de la modalidad k :
2 Ik Ik I I − Ik 1 Ik
Inercia(k) = dk,GK × = −1 = = 1− .
IJ IJ Ik IJ J I
Esta fórmula muestra que la inercia de una modalidad es más importante cuanto más esta
modalidad es rara : por ejemplo si 1 % de los individuos toman la modalidad k y 50 % de
los individuos toma la modalidad k 0 , la inercia asociada a k será dos veces más importante
que la asociada a k 0 . Es entonces frecuente que las principales dimensiones del ACM estén
engendradas por algunas modalidades raras presentes en el análisis. Esto es casi sistemático
si estas modalidades raras son compartidas por los mismos individuos, lo que es bastante
corriente cuando estas modalidades son datos ausentes (por ejemplo, el mismo individuo
no respondió a varias preguntas en una encuesta). Los ejes, al estar determinados sólo a
partir de algunos individuos, puede ser preferible «eliminar» estas modalidades raras para
interesarse por el fenómeno general. Para ello, es posible reagrupar ciertas modalidades, lo
que es lógico, concretamente en el caso de modalidades ordenadas (por ejemplo, podemos
reagrupar los 60-75 años con los más de 75 años). También es posible repartir de modo
aleatorio los individuos asociados a las modalidades raras en otras modalidades (respetando
las proporciones asociadas con cada modalidad), método llamado ventilación (cf. § 3.7.1).
La inercia del conjunto de Kj modalidades de una variable j, denominada inercia de la
variable j, vale :
Kj
X 1 Ik
Inercia(j) = 1− .
J I
k=1
128
Análisis de correspondencias múltiple (ACM)
PKj
Como k=1 Ik = I, tenemos :
Kj − 1
Inercia(j) = .
J
Así, la inercia de una variable depende sólo del número de modalidades que la constituyen :
es más grande cuanto más este número es grande. En el ejemplo, la variable tipo (que tiene 6
modalidades) tiene 5 veces más inercia que la variable azucarado (que tiene 2 modalidades).
Observación
Podemos recomendar construir cuestionarios con un número equilibrado de respuestas por
pregunta (con el fin de tener un número equivalente de modalidades por variable) pero
esta recomendación no es una exigencia. En efecto, en la práctica, si una variable tiene
muchas modalidades, estas modalidades se reparten sobre muchas dimensiones (número de
dimensiones igual al número de modalidades menos 1). De este hecho, esta variable no
influirá sistemáticamente en la construcción de los ejes factoriales.
Por fin podemos calcular la inercia asociada al conjunto de las modalidades, que corresponde
a la inercia de la nube de modalidades (NK ) :
J
X Kj − 1 K
Inercia(NK ) = = − 1.
j=1
J J
Esta inercia depende sólo de la estructura del cuestionario, más precisamente, del número
medio de modalidades por variables. Por ejemplo, si todas las variables tienen el mismo
número de modalidades (∀j, Kj = c), la inercia de la nube será igual a c − 1.
Sobre el eje de rango s, exceptuando el coeficiente √1λ , la primera relación expresa que el
s
individuo i está en el centro de gravedad de las modalidades que posee (ya que xik = 0 para
las modalidades que no posee).
Sobre el eje de rango s, exceptuando el coeficiente √1λ , la segunda relación expresa que
s
la modalidad k está en el centro de gravedad de los individuos que la poseen. Como las
modalidades corresponden a grupos de individuos, es lógico representarlas sobre el gráfico de
los individuos. Las relaciones de transición muestran que dos representaciones son posibles :
129
Husson – Lê – Pagès Análisis de datos con R
dibujar las modalidades en el centro de gravedad de los individuos o dibujar los individuos en
el centro de gravedad de las modalidades. Estos dos gráficos son interesantes pero, como en el
AFC, no es posible tener estas dos propiedades simultáneamente. Construimos entonces un
gráfico compromiso del modo siguiente : construimos el gráfico de los individuos, y situamos
√
las modalidades multiplicando su coordenada sobre el eje de rango s por el coeficiente λs
(cf. figura 3.5). Así dilatamos la nube de modalidades por un coeficiente diferente en cada eje.
Este gráfico evita tener las modalidades concentradas en el centro del gráfico. Anotemos sin
embargo que la mayoría de las veces nos interesamos rápidamente por la forma de la nube
de individuos (la mayoría de las veces, los individuos son anónimos) antes de interpretar
detalladamente la nube de modalidades.
tienda.especializada
2
a granel
té_gama_alta
Dim 2 (8.103%)
1
después.cena
verde
negro
limón salón.de.té
supermercado+
puro bolsita+a granel
tienda.especializada
casa cada.momento.del.día
tarde
0
té_desconocido
-1
-1 0 1
Dim 1 (9.885%)
La segunda relación de transición está en acuerdo con el objetivo fijado en § 3.2.2 : dos
modalidades son próximas si las poseen los mismos individuos. También sugiere un modo
de interpretar la proximidad entre dos modalidades en el caso de que estas modalidades
pertenezcan a la misma variable. En efecto, en este caso, ambas modalidades no pueden
ser tomadas por los mismos individuos (elección exclusiva), lo que las aleja una de la otra
130
Análisis de correspondencias múltiple (ACM)
por construcción. Sin embargo, como una modalidad representa un grupo de individuos, dos
grupos de individuos pueden estar próximos si tienen los mismos perfiles.
En el ejemplo, las modalidades marca de distribuidor (MDD) y marca conocida asociadas a
la pregunta «¿Qué tipo de té compra ? (gama baja, marca de distribuidor, marca conocida,
gama alta, variable, no sabe) ?» son representadas una al lado de la otra (cf. figura 3.4). En
efecto, estas dos modalidades agrupan consumidores con perfiles similares : tienden a com-
prar más en supermercado y menos en tienda especializada, a consumir el té exclusivamente
en bolsita, a azucararlo (cf. tabla 3.1). La influencia del conjunto de estas variables acerca
estas dos modalidades, y es el aspecto multidimensional el que sobresale sobre el aspecto
exclusivo de las respuestas aportadas a la misma pregunta.
marca conocida MDD Global
lugar de compra=supermercado 86.32 % 95.24 % 64.00 %
forma=bolsita 73.68 % 76.19 % 56.67 %
azúcar=azucarado 52.63 % 61.90 % 48.33 %
forma=bolsita+a granel 21.05 % 19.05 % 31.33 %
lugar de compra=tienda especializada 2.11 % 0.00 % 10.00 %
lugar de compra=supermercado+tien.espec. 11.58 % 4.76 % 26.00 %
Tabla 3.1 – Datos té : comparación del perfil de consumidores que compran marcas co-
nocidas (resp. MDD) con el perfil medio. 86.32 % (resp. 95.24 %) de consumidores que
compran marcas conocidas (resp. MDD) compran en GMS contra 64 % para el conjunto de
consumidores.
131
Husson – Lê – Pagès Análisis de datos con R
1 3 5 7 9 11 13 15 17 19 21 23 25 27
132
Análisis de correspondencias múltiple (ACM)
J Kj
0 1 X X xi0 k
Fs (i ) = √ Gs (k),
λs j=1 k=1 J
I
1 X xik0
Gs (k 0 ) = √ Fs (i).
λs i=1 Ik0
tienda.especializada
2
a granel
té_gama_alta
Dim 2 (8.103%)
después.cena
verde
60 y +
cuadro medio salón.de.té
obrero negro limón
no
sinH activopara la salud
efectos
45-59
absorción
25-34 35-44
3refinado
puro del
a 6/semana hierro Supermercado+
1 a 2/semana
buenootro
casa cada.momento.del.día
diuréticola saludbolsita+a
activo
para granel
convivencia
deportista
espiritualidad
femenino
relajante
excitante tarde cuadro tienda.especializada
superior
evasión-exotismo
1/día F merienda
amigos
azúcardesayuno+ de 2/día
0
empleado otro
té_gama_baja
adelgazante té_variable bar
estudiante aromatizadotrabajo
té_marca_conocida supermercado leche restaurante
t_MDD bolsita 15-24 después.almuerzo
té_desconocido
-1
-1 0 1
Dim 1 (9.885%)
Estas fórmulas de transición son idénticas a las de los elementos (individuos y modalidades)
activos. En el ejemplo (cf. figura 3.7), podemos proyectar las modalidades de las variables
133
Husson – Lê – Pagès Análisis de datos con R
que conciernen a la imagen del té. Estas modalidades están en el centro del gráfico, lo que
muestra que será bastante difícil relacionar las variables de comportamiento por una parte
y las variables de imagen y del descriptivo socioeconómico por otra parte.
Las variables cuantitativas suplementarias se representan de la misma manera que en ACP
(cf. § 1.6.2) : sobre un círculo de correlación con la ayuda de los coeficientes de correla-
ción entre la variable y los factores. En el ejemplo, el círculo de correlación (cf. figura 3.8)
permite representar la variable cuantitativa edad. Esta variable no está bien representada ;
sin embargo, la correlación con el segundo factor (0.204) es significativa debido al número
importante de individuos. Los jóvenes tienden más bien a no comprar su té en tienda espe-
cializada. ¡Podemos decir también que los adultos compran preferentemente un té de gama
alta, a granel, en tiendas especializadas !
1.0
0.5
edad
Dim 2 (8.103%)
0.0
-0.5
-1.0
Dim 1 (9.885%)
Observación
La variable edad ha sido codificada en clase (15-24 años, 25-34 años, 35-44 años, 45-59 años,
60 años y más) y representada como una variable cualitativa suplementaria. Esta codificación
puede ser interesante para poner en evidencia relaciones no lineales. Si observamos en detalle
las modalidades suplementarias (cf. figura 3.9), podemos ver que las modalidades de la
variable edad se reparten en su orden natural a lo largo del segundo eje (cf. figura 3.9). Esto
está en acuerdo con la correlación positiva entra la variable edad y el segundo factor.
134
Análisis de correspondencias múltiple (ACM)
0.4
60 y +
cuadro medio
obrero
0.2
H no activo
sin efectos para la salud
1 a 2/semana 45-59 absorción del hierro
25-34 35-44
cuadro superior
refinado 3 a 6/semana
Dim 2 (8.103%)
estudiante
15-24
-0.4
tativas (en este último caso, utilizamos también las modalidades), activas o suplementarias.
En el ejemplo (cf. tabla 3.3), el primer eje es caracterizado por las variables lugar de compra,
salón de té, etc. Observamos que ciertas variables suplementarias están bien vinculadas a este
eje (sexo y convivencia). Como la inmensa mayoría de las variables tienen dos modalidades,
la caracterización por las modalidades (cf. tabla 3.4) es similar a la de las variables pero
explicita el sentido del eje : por ejemplo, la coordenada de salón de té es positiva mientras que
la coordenada de No salón de té es negativa ; así, los individuos que tienen una coordenada
positiva tienden más bien a ir a los salones de té.
135
Husson – Lê – Pagès Análisis de datos con R
$‘Dim 1‘$quali
R2 p.value
lugar.de.compra 0.4180 1.26e-35
salón.de.té 0.3720 6.08e-32
forma 0.2990 1.27e-23
amigos 0.2430 8.62e-20
restaurante 0.2260 2.32e-18
merienda 0.1920 1.65e-15
tipo 0.2160 4.05e-14
bar 0.1470 5.85e-12
trabajo 0.1120 3.00e-09
cómo 0.1030 4.80e-07
variedad 0.0895 8.97e-07
después.almuerzo 0.0746 1.57e-06
frecuencia 0.0944 1.85e-06
convivencia 0.0713 2.71e-06
tarde 0.0531 5.59e-05
a.cada.momento.del.día 0.0448 2.22e-04
sexo 0.0334 1.49e-03
después.cena 0.0329 1.61e-03
deasayuno 0.0254 5.67e-03
azúcar 0.0153 3.23e-02
Tabla 3.3 – Datos té : descripción de la primera dimensión por las variables cualitativas.
$‘Dim 1‘$category
Estimate p.value
salón de té 0.2970 6.08e-32
supermercado+tienda.especializada. 0.3390 1.76e-25
amigos 0.2000 8.62e-20
restaurante 0.2080 2.32e-18
merienda 0.1700 1.65e-15
bolsita+a granel 0.2350 2.72e-12
bar 0.1810 5.85e-12
trabajo 0.1420 3.00e-09
té_variable 0.2760 1.20e-07
después.almuerzo 0.1490 1.57e-06
convivencia 0.1300 2.71e-06
+ de 2/día 0.1490 1.46e-05
tarde 0.0935 5.59e-05
otro 0.3820 6.34e-05
aromatizado 0.1220 1.18e-04
a cada momento del día 0.0858 2.22e-04
té_gama_alta 0.1710 7.32e-04
negro 0.1240 8.90e-04
F 0.0716 1.49e-03
No.después.cena 0.1370 1.61e-03
desayuno 0.0614 5.67e-03
cuadro superior 0.1680 6.09e-03
No.azúcar 0.0476 3.23e-02
Tabla 3.4 – Datos té : descripción de la primera dimensión por las modalidades sobreexpre-
sadas.
136
Análisis de correspondencias múltiple (ACM)
Este código ejecuta el ACM y ilustra el gráfico de las variables (con las variables activas y
suplementarias, cf. figura 3.3), el gráfico de los individuos (con los individuos, las modalidades
de las variables activas y suplementarias, cf. figura 3.5) así como el gráfico de las variables
cuantitativas suplementarias (cf. figura 3.8). Para dibujar el gráfico con ciertos elementos
solamente, utilizamos la función plot.MCA. Los códigos siguientes permiten encontrar el
gráfico de los individuos (cf. figura 3.1), el de las modalidades activas (cf. figura 3.4), el de
la representación superpuesta (cf. figura 3.5), de las modalidades activas y suplementarias
(cf. figura 3.7), de las modalidades suplementarias (cf. figura 3.9) :
> plot(res.mca,invisible=c("var","quali.sup"),cex=0.7)
> plot(res.mca,invisible=c("ind","quali.sup"))
> plot(res.mca,invisible="quali.sup")
> plot(res.mca,invisible="ind")
> plot(res.mca,invisible=c("ind","var"))
El código dimdesc proporciona la descripción automática de las dimensiones por las variables
cualitativas (cf. tabla 3.3) o las modalidades (cf. tabla 3.4). La función lapply permite
únicamente poder redondear dentro de una lista (aquí dentro de una lista de listas !) :
> lapply(dimdesc(res.mca),lapply,signif,3)
Para ir más lejos. Las elipses de confianza pueden ser trazadas alrededor de las modali-
dades de una variable cualitativa (i.e., alrededor del baricentro de los individuos que poseen
la modalidad) según el mismo principio descrito en ACP (cf. p. 48). Estas elipses son adapta-
das a representaciones planas y permiten visualizar si dos modalidades son significativamente
diferentes o no. Es posible construir elipses de confianza para el conjunto de las modalidades
de varias variables cualitativas gracias a la función plotellipses (cf. figura 3.10) :
> plotellipses(res.mca,keepvar=c("restaurante","lugar.de.compra","relajante",
"categoria.profesional"))
Es también posible construir elipses de confianza para las modalidades de una sola variable
cualitativa. Para ello, reutilizamos las instrucciones de la función plot.PCA : realizamos un
ACP no normado sobre los componentes del ACM (lo que proporciona los mismos resul-
tados que el ACM) y luego reconstruimos un gráfico de ACP con elipses de confianza (cf.
figura 3.11) :
> res.mca <- MCA(te, quanti.sup=22, quali.sup=c(19:21,23:36), graph=FALSE)
> new.data <- cbind.data.frame(te[,11],res.mca$ind$coord)
> res.pca <- PCA(new.data,quali.sup=1,scale=FALSE,graph=FALSE)
> res.pca$eig[1:5,]=res.mca$eig[1:5,]
> concat.data <- cbind.data.frame(te[,11],res.mca$ind$coord)
> ellipse.coord <- coord.ellipse(concat.data,bary=TRUE)
> plot.PCA(res.pca, habillage=1, ellipse=ellipse.coord, cex=0.8,label="none")
137
Husson – Lê – Pagès Análisis de datos con R
relajante Restaurante
1.0
0.5
No.relajante No.Restaurante
relajante Restaurante 0.0
Dim 2 (8.1%)
-0.5
categoria.profesional lugar.de.compra
1.0
tienda especializada
0.5
no activo
otro activo cuadro medio supermercado+ tienda.esp
obrero cuadro superior
0.0 empleado supermercado
estudiante
-0.5
Dim 1 (9.88%)
Figure 3.10 – Datos té : representación de las elipses de confianza para algunas variables.
3.7 Complementos
3.7.1 Análisis de una encuesta
Construcción del cuestionario - elección de la codificación
138
Análisis de correspondencias múltiple (ACM)
No.restaurante
restaurante
● ● ●
● ●
●
●
1.0 ● ●
● ● ●
●
●
●
●
● ●
● ●
●
● ●
●
●
Dim 2 (8.1%)
0.5
●
●
● ● ●
●
● ● ● ●
●
●
● ● ●●
● ● ● ● ●
●
● ●
● ●
● ●
●
● ●● ●
● ●●
● ● ● ●
● ●
● ●
● ●
●
● ● ● ●
● ●
● ● ● ●
● ●
● ● ● ● ●
●
●
0.0
●● ●● ● ●
● ● ●
●
● ● ●● ● ●● ● ● ● ●
● ● ● ● ● ●● ●
●● ●● ● ● ●
● ● ● ● ● ●
● ● ● ● ●
● ● ● ● ●● ● ●
● ● ● ● ● ● ●
●● ● ● ● ●
● ● ● ● ● ●
● ●● ● ●
●● ● ●● ● ● ●
● ●
● ●● ● ● ●● ●● ● ● ●
● ● ●●●
●
● ● ● ● ●● ● ●
●
● ● ● ●
● ●● ●● ●● ● ● ● ●
●● ● ●● ●● ●
● ● ● ●● ●● ● ● ● ●
● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ●
● ●● ●
● ● ● ●
●● ● ● ●
● ●
● ●
● ●
● ●
●
−0.5
● ●
●●
●
Dim 1 (9.88%)
Figure 3.11 – Datos té : representación de las elipses de confianza alrededor de las moda-
lidades de la variable Restaurante.
139
Husson – Lê – Pagès Análisis de datos con R
efectivos planos, por clases con cortes naturales (estos cortes pueden ser hechos visibles con
la ayuda de un histograma u obtenidos de modo automático por un método de clasificación,
cf. § 4.10).
Cuando las preguntas realizadas son condicionadas por la respuesta a una pregunta pre-
cedente j (hablamos entonces de preguntas imbricadas), un modo de analizar los datos es
considerar a cada una de las subpoblaciones inducidas por cada modalidad de j. En el ejem-
plo, la pregunta «¿bebe usted té ?» dividió la población en dos y nos interesamos sólo por los
bebedores de té. Si hubiéramos estudiado el conjunto de la población, los primeros ejes del
ACM justo habrían puesto en oposición a los bebedores de los no bebedores, en la medida
en que los no bebedores responden sistemáticamente no a los diferentes lugares propuestos
de consumo, a los diferentes momentos del día, etc. Es pues preferible limitar este tipo de
preguntas.
Anotemos por fin que el número de modalidades puede ser diferente de una variable a
otra : en efecto, las variables que tienen más modalidades tienen una inercia más importante
pero esta inercia se reparte sobre un número más importante de ejes. Así, las primeras
dimensiones serán construidas tanto con las variables que tienen pocas modalidades como
con las variables que tienen muchas.
140
Análisis de correspondencias múltiple (ACM)
$test.chi2
p.value df
lugar.de.compra 1.1096e-18 10
forma 8.4420e-11 10
salón.de.té 1.6729e-03 5
amigos 4.2716e-02 5
adelgazante 4.3292e-02 5
variedad 4.9635e-02 10
Tabla 3.5 – Datos té : descripción de la variable tipo por las variables cualitativas.
Descripción de una subpoblación (de una modalidad) por una variable cuanti-
tativa
Para cada modalidad de la variable cualitativa tipo y para cada variable cuantitativa (ano-
tada X), calculamos el valor-test definido por :
x̄q − x̄
valeur-test = r ,
s2 I−Iq
Iq I−1
s2 I − Iq
E(X̄q ) = x̄ y V(X̄q ) = × .
Iq I −1
El valor-test puede pues ser visto como una desviación «normalizada» entre la media de
los individuos que poseen la modalidad q y la media general. Podemos además asociar una
probabilidad al valor-test. Si en la población, la distribución de X es normal, entonces bajo
la hipótesis nula la ley de X̄q es la siguiente :
r !
s I − Iq
X̄q = N x̄, p .
Iq I −1
141
Husson – Lê – Pagès Análisis de datos con R
$quanti$té_gama_alta
v.test Mean in category Overall mean sd in category Overall sd p.value
edad 3.02 43.40 37.05 16.95 16.84 0.00256
$quanti$té_gama_baja
NULL
$quanti$té_marca_conocida
NULL
$quanti$té_MDD
NULL
$quanti$té_variable
NULL
Tabla 3.6 – Datos té : descripción de la variable tipo por la variable cuantitativa edad.
142
Análisis de correspondencias múltiple (ACM)
Tabla 3.7 – Datos tá : tabla que cruza las variables tipo y lugar de compra.
Se trata una extracción aleatoria sin reposición de Iq individuos (los que toman la modali-
dad de interés té_gama_alta) entre I (la población total) ; nos interesamos por la variable
aleatoria X igual al número Iqt de apariciones de individuos que tienen el carácter estudiado
(compra en tienda especializada) sabiendo que su efectivo en la población es It . Bajo la
hipótesis nula, la variable aleatoria X sigue una ley hipergeométrica H(I, It , Iq ). Podemos
entonces calcular la probabilidad de tener un valor todavía más extremo que el observado.
Todas las modalidades de las variables cualitativas que caracterizan a cada modalidad de la
variable de interés pueden ser clasificadas por probabilidad crítica creciente. La primera fila
de la tabla 3.8 indica que 70 % (21/30 cf. tabla 3.7 o el extracto) individuos que compran su
té en tienda especializada provienen de la clase té_gama_alta ; 39.6 % (21/53 cf. tabla 3.7)
individuos de la clase té_gama_alta compran su té en tienda especializada ; 10 % (30/300
cf. tabla 3.7) de personas compran su té en tienda especializada. La probabilidad critica
del test (1.58 × 10−11 ) así como el valor-test (6.64) asociado es proporcionado. El valor-test
corresponde aquí al cuantil de la ley normal asociada con la probabilidad crítica ; el signo
indica una sobre o una subrepresentación (Lebart et al., 2006).
Las modalidades del conjunto de las variables cualitativas son clasificadas de la que más
caracteriza a la que menos caracteriza cuando la modalidad es sobrerepresentada en la clase
(i.e., la modalidad de interés) con relación a otras clases (el valor-test es entonces positivo) y
143
Husson – Lê – Pagès Análisis de datos con R
$category$té_gama_alta
Cla/Mod Mod/Cla Global p.value v.test
lugar.de.compra=tienda especializada 70.00 39.6 10.0 3.16e-11 6.64
forma=a granel 55.60 37.7 12.0 5.59e-08 5.43
variedad=negro 28.40 39.6 24.7 1.15e-02 2.53
edad_cual=60 y + 31.60 22.6 12.7 3.76e-02 2.08
sin.efectos.para.la.salud=sin efectos para la salud 27.30 34.0 22.0 3.81e-02 2.07
sin.efectos.para.la.salud=No.sin efectos para la salud 15.00 66.0 78.0 3.81e-02 -2.07
variedad=aromatizado 12.40 45.3 64.3 2.86e-03 -2.98
edad_cual=15-24 7.61 13.2 30.7 2.48e-03 -3.03
forma=bolsita 8.24 26.4 56.7 1.90e-06 -4.76
lugar.de.compra=supermercado 6.25 22.6 64.0 2.62e-11 -6.67
Tabla 3.8 – Descripción de las modalidades de la variable tipo por las modalidades de las
variables cualitativas.
144
Análisis de correspondencias múltiple (ACM)
145
Husson – Lê – Pagès Análisis de datos con R
> library(FactoMineR)
> ogm <- read.table("http://factominer.free.fr/libra/ogm.csv",header=TRUE,sep=";")
> summary(ogm[,1:16])
Concernido Posición.cultura Posición.Al.H Posición.Al.A
En absoluto:15 Favorable :45 Favorable :37 Favorable :44
Más o menos:53 Más bien desfavorable:54 Más bien desfavorable:47 Más bien desfavorable:39
Mucho :36 Muy favorable : 3 Muy favorable : 1 Muy favorable : 8
Un poco :31 Nada favorable :33 Nada favorable :50 Nada favorable :44
El resumen del juego de datos activo incita a reagrupar algunas modalidades entre ellas a
causa de su débil efectivo (cf. § 3.7.1). A la pregunta «¿Cuál es su posición en cuanto a la
incorporación de materia prima OGM en los productos alimenticios destinados a la alimen-
tación humana ?», por ejemplo, una sola persona declaró estar muy favorable. Estamos pues
en presencia de una modalidad de débil efectivo y es entonces aconsejable reagruparla con
otra. En este caso particular, la reagrupación se hace relativamente fácilmente en la medida
en que la variable concernida está constituida por modalidades ordenadas : no traicionamos
completamente el pensamiento de una persona reemplazando Muy favorable por Favorable.
146
Análisis de correspondencias múltiple (ACM)
Para ello, utilizamos la línea siguiente de código que permite reagrupar las modalidades Muy
favorable y Favorable en una única bajo la modalidad Favorable :
> levels(ogm$Posición.Al.H)[3] <- levels(ogm$Posición.Al.H)[1]
De modo general, para una pregunta dada, cuando las modalidades son cualesquiera (cuando
no existe relación de orden entre ellas por ejemplo), podemos reemplazar la modalidad rara-
mente utilizada por otra escogida aleatoriamente entre las restantes que han sido utilizadas
más frecuentemente.
La línea de código siguiente proporciona la tabla de frecuencias de las variables de descriptivo
socioeconómico :
> summary(ogm[,17:21], maxsum=Inf)
Sexo Edad CSP Relación Parti.Político
F:71 [26; 40]:24 Comerciante : 3 No:79 Centro :32
H:64 [41; 60]:24 Cuadro :17 Sí:56 Extrema izquierda: 9
< 25 :73 Estudiante :69 PS :47
> 60 :14 Funcionario público: 9 UMP :40
Inactivo : 4 Verdes : 7
Jubilado :14
Liberal : 3
Obrero : 1
Otro : 9
Técnico : 6
147
Husson – Lê – Pagès Análisis de datos con R
name description
1 "$eig" "eigenvalues"
2 "$var" "results for the variables"
3 "$var$coord" "coord. of the categories"
4 "$var$cos2" "cos2 for the categories"
5 "$var$contrib" "contributions of the categories"
6 "$var$v.test" "v-test for the categories"
7 "$ind" "results for the individuals"
8 "$ind$coord" "coord. for the individuals"
9 "$ind$cos2" "cos2 for the individuals"
10 "$ind$contrib" "contributions of the individuals"
11 "$quali.sup" "results for the supplementary qualitative variables"
12 "$quali.sup$coord" "coord. for the supplementary categories"
13 "$quali.sup$cos2" "cos2 for the supplementary categories"
14 "$quali.sup$v.test" "v-test for the supplementary categories"
15 "$call" "intermediate results"
16 "$call$marge.col" "weights of columns"
17 "$call$marge.li" "weights of rows"
Anotemos que es también posible reagrupar las modalidades de modo automático a través de
la ventilación evocada en § 3.7.1. Esta repartición es entonces aleatoria o tiene en cuenta la
relación de orden entre modalidades en el seno de una variable cuando la variable es ordenada
(ordered en R). Para ejecutar reagrupaciones de modo automático, podemos aplicar la línea
de código siguiente :
donde level.ventil designa el límite inferior por debajo del cual una modaidad es ventilada.
En el ejemplo, si una modalidad es tomada por menos de 5 % de individuos, estos últimos
son repartidos en el seno de las modalidades restantes.
148
Análisis de correspondencias múltiple (ACM)
MCA factor map MCA factor map
1.0
1.0
0.5
0.5
Dim 2 (12.51%)
Dim 2 (12.51%)
0.0
0.0
-0.5
-0.5
-1.0
-1.0
-1.5
-1.0 -0.5 0.0 0.5 1.0 1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0
> plot.MCA(res,invisible=c("var","quali.sup"),label=FALSE)
La forma de la nube de los individuos sobre el primer plano (cf. gráfico de la izquierda
figura 3.12) recuerda la forma de una parábola : es lo que se llama el efecto Guttman . Este
efecto traduce una redundancia entre las variables activas, es decir, una nube de individuos
extremadamente estructurada según el primer eje factorial. En el ejemplo, esto traduce por
una parte dos tipos extremos de posicionamiento con relación a los OGM que se reparten
en los dos lados del primer eje factorial, y por otra parte un posicionamiento más moderado
situado a lo largo del segundo eje factorial. No podemos decir nada más a simple vista
de la nube de los individuos que hay que interpretar conjuntamente con la nube de las
modalidades.
Con el fin de visualizar la nube de las modalidades activas, ejecutamos la línea de código
siguiente :
> plot.MCA(res,invisible=c("ind","quali.sup"),label=FALSE)
Igualmente que para la nube de individuos, la forma de la nube de las modalidades sobre el
primer plano (cf. gráfico de la derecha figura 3.12 o figura 3.13) recuerda la forma de una
parábola, lo que corresponde al efecto Guttman.
Con el fin de interpretar los ejes factoriales, es indispensable representarlos asociados a su
etiqueta, lo que se hace con la ayuda de la línea de código siguiente :
> plot.MCA(res,invisible=c("ind","quali.sup"))
Vemos pues (cf. figura 3.13), del lado positivo del primer eje factorial, las personas (a través
de las modalidades que escogieron) que se sienten concernidas por la pregunta de los OGM
y que son más bien desfavorables a su utilización ; del lado negativo del mismo eje factorial,
149
Husson – Lê – Pagès Análisis de datos con R
1.0
Posición.Al.H_Favorable Manif_Sí
Posición.Al.A_Muy favorable
Posición.Cultura_Nada favorable
Peligro_No Posición.Cultura_Favorable
Proced.inútil_Sí
Abuelos_No
0.5
Amenaza_Sí
Dim 2 (12.51%)
Proced.inútil_No
Mejoramiento.Agr_Sí Hambre_No
Media.activa_Sí Manif_No
Futur.progreso_No
Info.activa_No
Peligro_Sí Abuelos_Sí
Riesgo.eco_No
-0.5
Un poco
Posición.Cultura_Más bien desfavorable
-1.0
-1 0 1 2
Dim 1 (20.95%)
las personas que no se sienten concernidas por la pregunta de los OGM y que son más bien
favorables para su utilización.
También vemos, a lo largo del segundo eje factorial, a personas con la opinión menos ta-
jante que se sienten un poco concernidas por la pregunta de los OGM y que son más bien
desfavorables a su utilización.
Esta representación de las variables suplementarias (cf. figura 3.14) es particularmente no-
table ya que aporta dos cosas. Por una parte, revela una estructura fuerte para ambas
150
Análisis de correspondencias múltiple (ACM)
1.0 Cuadro
Obrero
0.5
Inactivo Verdes
Jubilado
Dim 2 (12.51%)
PS
Otro Extrema izquierda
Estudiante
< 25 F Comerciante Liberal
Técnico
-0.5
Funcionario público
Dim 1 (20.95%)
variables CSP y identificación a un partido político y por otra parte, no pone en evidencia
estructura particular con las variables de edad, de sexo, y de profesión en relación con la
agricultura, la industria agroalimentaria o la industria farmacéutica.
Las modalidades Ejecutivo, Inactivo y Jubilado se oponen a las modalidades Técnico y
Obrero, con la modalidad Funcionario situada en el medio ; igualmente, la modalidad UMP
se opone a las modalidades Verdes y Extrema izquierda, con la modalidad PS situada en el
medio.
3.8.5 Conclusión
La puesta en relación de estas tres nubes de puntos permite identificar tres posicionamientos
diferentes con relación a los OGM. Estos posicionamientos tienen que ponerse en relación
directa a la vez con el CSP del encuestado y el partido político con el que se identifica más ;
estas dos últimas variables parecen estar particularmente vinculadas. En cambio, estos tres
posicionamientos no parecen poder ser explicados por el sexo, ni por la edad, ni por el hecho
de que la profesión ejercida esté en relación con la agricultura, la industria agroalimenta-
ria o la industria farmacéutica, lo que se supone debe aportar un conocimiento científico
suplementario sobre los OGM.
151
Husson – Lê – Pagès Análisis de datos con R
Tabla 3.9 – Datos perfume : categorización de los jueces 18, 31, 40 y 93.
152
Análisis de correspondencias múltiple (ACM)
cualitativa a Kj modalidades (cf. tabla 3.10). Obtenemos así una tabla idéntica a la prece-
dente pero con una codificación más explícita. Es esta segunda tabla la que se analiza en los
párrafos siguientes.
Uno de los objetivos principales de este estudio es el de proporcionar una imagen sintética
del conjunto de los 12 perfumes de lujo teniendo como base las categorizaciones producidas
por los 98 consumidores. Una vez obtenida esta imagen, para comprender las razones por
las cuales dos perfumes se oponen, las dimensiones sensoriales de la imagen deben ser unidas
a los términos utilizados en el momento de la caracterización de los grupos. Y para ir más
lejos, veremos en este contexto sensorial particular cómo es posible explotar las propiedades
baricéntricas del ACM con el fin de sacar el máximo provecho de estos datos.
153
Husson – Lê – Pagès Análisis de datos con R
> library(FactoMineR)
> perfume <- read.table("http://factominer.free.fr/libra/perfume.csv",
header=TRUE, sep=";", row.names=1)
> res.perfume <- MCA(perfume)
Por defecto, la función considera todas los variables como activas y sólo necesita el nombre
del juego de datos como parámetro de entrada.
Angel
1.5
Lolita Lempicka
1.0
Dim 2 (13.64%)
Cinéma
0.5
L'instant Shalimar
0.0
J'adore (EP)
Pleasures
Chanel N.°5
-1.0
Dim 1 (17.8%)
Figure 3.15 – Datos perfumes : representación de los perfumes sobre el primer plano.
El primer eje factorial opone el perfume Shalimar, Aromatics Elixir y Chanel 5 con otros
(cf. figura 3.15). El segundo eje factorial opone a Angel, Lolita Lempicka y en una menor
medida Cinéma con otros perfumes. Estas posiciones alejadas de algunos perfumes tienen
que relacionarse con el número de veces que estos perfumes pertenecen a un grupo de un
solo elemento : es el caso por ejemplo de Shalimar, Chanel 5 y Angel, que respectivamente
han sido aislados por 24, 17 y 13 consumidores. Las proximidades tienen que relacionarse
con la frecuencia de pertenencia a la misma clase : es el caso de Aromatics Elixir asociado
154
Análisis de correspondencias múltiple (ACM)
42 veces con Shalimar y 51 veces con Chanel 5 ; y de Lolita Lempicka asociado 36 veces con
Angel. Anotemos igualmente la proximidad entre los dos J’adore, puestos juntos 56 veces.
caliente
caliente azucarado
floral-abuela
floral almizcle-ambarino-
floral-suave viejo
viejo-fuerte
suave
mareante
discreto-poco floral exótico
-1
agresivo-químico
-1 0 1 2
Dim 1 (17.8%)
Figure 3.16 – Datos perfumes : representación de las palabras sobre el primer plano.
La nube «en bruto» de las modalidades es inexplotable directamente tal y como es propor-
cionada por la función plot.MCA debido al gran número de palabras. La figura 3.16 es una
representación simplificada.
El primer eje opone los perfumes asociados con las palabras fuerte, viejo, con los perfumes
más bien florales, suaves. El segundo eje opone los perfumes asociados con las palabras calor,
azucarado, con toques de especias a los otros (cf. figura 3.16).
155
Husson – Lê – Pagès Análisis de datos con R
40
31
0.8
0.6
Dim 2 (13.64%)
0.4
0.2
93
18
0.0
Dim 1 (17.8%)
Figure 3.17 – Datos perfumes : representación de los consumidores sobre el primer plano.
156
Chapitre 4
Clasificación
indicio indicio
A B C D E C E D A B
Figure 4.1 – Ejemplo del árbol jerárquico (sintetizando las similitudes entre cinco objetos :
A, B, C, D, E).
primer nudo separa el reino animal y el reino vegetal. Es utilizado por todos los naturalistas.
También son muy utilizados los ejemplos que describen las administraciones, lo que permite
a cada uno conocer su (justo) puesto. Otro ejemplo : el árbol genealógico que describe la
descendencia de un antepasado (forzosamente) ilustre. Finalmente la figura 4.2 es un buen
ejemplo de visión sintética proporcinada por un árbol jerárquico.
Jerarquía No jerarquía
Tabla simple Tabla múltiple
(= particionamiento)
ACP AFC ACM … AFM Statis … Ascendente Descendente Agregación Método Knn …
(CJA) alrededor
de los
centros
móviles
Figure 4.2 – Árbol jerárquico que ilustra las similitudes entre los principales métodos del
análisis de los datos.
En estos ejemplos, los árboles han sido construidos por expertos según reglas establecidas en
referencia a un modelo más o menos estricto. Para la representación de los seres vivos, por
ejemplo, nos referimos a la evolución : idealmente, los diferentes nudos del árbol representan
cada uno una etapa de la evolución, las más importantes correspondiendo a los nudos situados
158
Clasificación
en lo alto del árbol (que por ejemplo para el reino animal, separa, en primer lugar, los
organismos unicelulares de los pluricelulares). La idea de evolución se encuentra en el orden
lateral de los individuos : las ramas de un nudo están colocadas poniendo a la izquierda a
los animales menos evolucionados.
A cada nudo se le asocia (por lo menos) un criterio y todos los individuos de una rama que
derivan de este nudo presentan el mismo valor para este criterio. Tal conjunto de individuos
se denomina monotético (por ejemplo : los organismos unicelulares, los vertebrados, los
mamíferos, etc.). En este ejemplo en particular (pero también, aunque en menor grado, en
otros precitados), el árbol jerárquico es el resultado de numerosas búsquedas, que permitieron
entre otras cosas dar un valor a los criterios más importantes que definían los nudos de los
niveles más elevados.
En este capítulo nos situamos en otra perspectiva, la misma que adoptamos en el análisis
factorial, es decir, la exploración sin a priori de una tabla de datos (construida con a priori,
de la entre los que emanan por ejemplo la elección de los individuos y la de las variables para
definir la tabla que hay que analizar). Se trata de construir un árbol jerárquico (y no un
plano factorial) para visualizar las similitudes entre objetos, que es un modo de estudiar la
variabilidad contenida en la tabla. Esta problemática es la misma que en el análisis factorial :
sólo el modo de representación difiere entre ambos enfoques.
Sin ideas a priori, procuraremos construir un árbol jerárquico en el que cada rama reúna
individuos que constituyen un grupo politético (tal grupo es definido por un conjunto de
propiedades tal que 1) cada elemento del grupo posee un gran número de estas propiedades
2) cada propiedad es poseída por un gran número de individuos del grupo).
Los algoritmos que construyen tales árboles son reagrupados bajo el término «clasificación
jerárquica». Estos son numerosos : los más utilizados proceden de manera ascendente (rea-
grupando primero los objetos más semejantes y a continuación los grupos así constituídos)
y son reagrupados bajo el término «Clasificación Jerárquica Ascendente» (CJA). Este capí-
tulo describe e ilustra principalmente uno de los algoritmos más utilizados : el algoritmo de
Ward (llamado también en Francia, «método de los momentos de orden 2»).
La tercera representación sintética de las similitudes entre objetos es la partición, conjunto
de clases (de objetos) de manera que cada objeto pertenece solamente a una clase. Categó-
ricamente, una partición es una variable cualitativa (cuyo valor, para cada objeto, es el
nombre - o el número - de la clase a la cual pertenece). Así, en el momento de una encuesta
de opinión distinguiremos por ejemplo a los hombres y a las mujeres, a los consumidores de
tal producto de los que no lo consumen, etc. Pero estas clases, monotéticas, son interesantes
sólo si la partición que constituyen está vinculada a un gran número de variables ; concreta-
mente, en una encuesta de opinión, la partición hombres / mujeres es más interesante cuanto
más el número de preguntas de opinión para las cuales las respuestas de los hombres difieren
de las de las mujeres es importante.
Aquí todavía nos situamos en una perspectiva exploratoria : a partir de una tabla de datos
rectangular que reúne las propiedades de un conjunto de objetos, queremos construir una
partición de estos objetos tales que 1) dentro de cada grupo los individuos se parecen y
2) de un grupo al otro los individuos se diferencian. Varios algoritmos, reagrupados bajo
el término de particionamiento, están disponibles ; nos limitamos en este capítulo al más
utilizado de ellos : la agregación alrededor de los centros móviles.
Por no perder generalidad, hablamos hasta aquí de objetos, que pueden ser individuos es-
159
Husson – Lê – Pagès Análisis de datos con R
160
Clasificación
K
X
d2 (i, l) = (xik − xlk )2 ,
k=1
K
X xik − x̄k xlk − x̄k 2
d2 (i, l) = ( − ) ,
sk sk
k=1
K
X 1
d2 (i, l) = (xik − xlk )2 .
sk
k=1
En la primera fórmula, la más general, los datos xik han sido previamente centrados y
reducidos. En las dos otras fórmulas, ponemos de manifiesto explícitamente el centrado y la
reducción, lo que será comentado más tarde.
Cuando se define la distancia d entre individuos de un espacio (aquí RK ), decimos que
proveemos este espacio de la distancia d (decimos también «métrica» y hablamos entonces
de espacio métrico) porque en este espacio todos los cálculos relacionados a la noción de
distancia deben ser hechos con esta distancia d. La función d de I × I en R+ definida
en el ACP posee todas las propiedades matemáticas deseables, comenzando por la de una
distancia (en el sentido matemático del término) sea :
d(i, l) = 0 ⇐⇒ i = l,
d(i, l) = d(l, i),
d(i, l) ≤ d(i, j) + d(j, i) (desigualdad triangular).
Se trata además de una distancia euclidiana, es decir, que permite definir una noción de
ángulo y de proyección ortogonal (la definición axiomática del concepto de distancia eucli-
diana sobrepasa el marco de esta obra). Esta última noción estando en el centro del análisis
factorial, todo método factorial necesariamente utiliza una distancia euclidiana (es también
el caso de la distancia de χ2 en AFC, por ejemplo). Pero, si no necesitamos la noción de
proyección, que es el caso en clasificación, no tenemos la obligación de recurrir a una distan-
cia euclidiana. Es aquí una propiedad de los métodos de clasificación interesante si queremos
medir la similitud entre dos individuos por una distancia no euclidiana.
161
Husson – Lê – Pagès Análisis de datos con R
V1 V2 V3 a b c a b c
a 1 1 3 a 0 a 0
b 1 1 1 b 2 0 b 2 0
c 2 2 2 c 3 3 0 c 3 3 0
A B C
Figure 4.3 – Distancia euclidiana usual (B) y distancia city-block (C) ilustrada para tres
individuos a, b, c descritos por tres variables V 1, V 2, V 3 (A).
La distancia city-block no es una distancia euclidiana. ¿Qué debemos escoger ? Salvo una
necesidad muy fuerte implicada por los datos (que jamás hemos encontrado) recomenda-
mos utilizar una distancia euclidiana ya que permite poner en marcha conjuntamente una
clasificación y un análisis factorial.
Otras distancias euclidianas. Existe una infinidad de distancias. Las más clásicas y
fáciles de interpretar, consisten en partir de la distancia usual y en otorgar un peso a cada
dimensión. Por ejemplo, en ACP normado, podemos también considerar que los datos son
solamente centrados y que la distancia utilizada asigna a cada variable un peso inverso a su
desviación-tipo (cf. la tercera fórmula de la definición de d2 (i, l) más arriba). Estas fórmulas
ilustran el hecho de que, en presencia de una distancia euclidiana cualquiera, podemos
trabajar con la distancia usual por una transformación de los datos.
Similitudes y disimilitudes
Entre las primeras tablas que han sido objeto de una clasificación automática, figuran las
tablas llamadas de presencia-ausencia en fitosociología. En una zona que estudiamos, de-
finimos un conjunto de lugares que deben «representar» la diversidad de los medios que
encontramos sobre la zona ; para cada lugar, hacemos una lista de las plantas presentes.
Estos datos son reunidos en una tabla que cruza las I especies y los J lugares, cuyo término
general xij vale 1 si la especie i está presente en el lugar j y 0 si no.
Uno de los objetivos generales de este tipo de estudio es la puesta en evidencia de asociaciones
vegetales, es decir, de conjuntos de especies presentes en los mismos medios. De aquí la idea
de clasificar especies ; dos especies se parecen más cuanto más las observamos en los mismos
lugares (también podemos clasificar los lugares ; dos lugares son próximas si tienen numerosas
especies en común). Queda por especificar esta noción de similitud.
162
Clasificación
El índice no hace intervenir los lugares en los cuales las dos especies son ausentes.
Este tipo de enfoque se aplica más generalmente a las tablas de presencia-ausencia que
cruzan individuos (a clasificar) y caracteres tales que la presencia de un carácter tiene, para
el usuario, más «valor» que su ausencia. Sino, los caracteres pueden ser vistos como variables
cualitativas con dos modalidades y el marco del ACM, en particular la distancia que se le
asocia, convenie.
Hay otros casos donde la naturaleza de los objetos estudiados es tal que la medida de
similitud que más se les adapta no es una distancia sino una disimilitud. Se proporciona
un ejemplo por la semejanza entre genomas. Sin entrar en detalles, para un estadista, se
trata de medir la similitud entre secuencias de letras que pertenecen al alfabeto {a, c, g, t
}. Podemos pensar en contar en cada secuencia, la frecuencia de todas las sucesiones de n
letras (con eventualmente varios valores de n) y utilizar entonces la distancia de χ2 . Pero
resumir una secuencia a tal conjunto de frecuencias no es satisfactorio. Podemos tener la
intuición que la semejanza entre dos genomas A y B será más cercano a través de la longitud
de las largas sucesiones de letras comunes de A y B. A partir de estas longitudes construimos
un indicador que satisface al genetista pero que no posee las propiedades de una distancia
(incluso sin conocer precisamente cómo estas longitudes son tomadas en consideración en
el indicador, lo que es un poco técnico, podemos tener la intuición de que la desigualdad
triangular no será verificada). Los métodos de clasificación son verdaderamente valiosos en
tales casos para respetar la medida de similitud adaptada a los objetos que hay que clasificar.
163
Husson – Lê – Pagès Análisis de datos con R
Salto mínimo
Diámetro
Figure 4.4 – Salto mínimo y diámetro entre dos grupos de individuos (identificados por
símbolos diferentes).
consiste en medir la disimilitud entre A y B por la distancia entre sus centros de gravedad.
Otro punto de vista, más completo, es el de la inercia : consiste en tomar en consideración
los pesos de los grupos (en este capítulo, consideramos que los individuos tienen el mismo
peso, caso más frecuente, y el peso de un grupo es proporcional a su efectivo ; mencionamos
aquí que el punto de vista de la inercia permite tomar en consideración simplemente pesos
diferentes de un individuo al otro).
Apliquemos al conjunto de los elementos de A y de B (A ∪ B de centro de gravedad G) el
teorema de Huygens. Inercia total (de A ∪ B con relación a G) = Inercia inter (de {GA , GB }
con relación a G) + Inercia intra (inercia de A con relación a GA más inercia de B con relación
a GB ). Esta descomposición sugiere tomar la inercia inter como medida de disimilitud entre
A y B. Daremos algunas propiedades de esta estrategia en la sección dedicada al método de
Ward, fundada sobre este criterio.
164
Clasificación
A B C D E F etapa 1
A F A 0
5
B 1 0
B E C 3 2 0
D 4 3 1 0
E 4 3 3 2 0
F 4 5 5 4 2 0 1
C D
A B
etapa 2 etapa 3
5 5
AB C D E F AB CD E F
AB 0 AB 0
C 3 0 CD 4 0
D 4 1 0 E 4 3 0
E 4 3 2 0 1 F 5 5 2 0 1
F 5 5 4 2 0
A B C D A B C D E F
etapa 4 etapa 5
5 5
AB CD EF ABCD EF
AB 0 ABCD 0
CD 4 0 EF 5 0
EF 5 5 0
1 1
A B C D E F A B C D E F
165
Husson – Lê – Pagès Análisis de datos con R
15
13
14
12
10 11
9
1 2 3 4 5 6 7 8
Si consideramos los individuos descritos por una sola variable cuantitativa (anotada y),
encontramos la ecuación del análisis de varianza a un factor. Con I individuos (de mismo
166
Clasificación
peso 1) repartidos en Q clases anotamos : yiq el valor (para y) del i individuo de la clase q ;
ȳq la media de y para los individuos de la clase q ; Iq el número de individuos de la clase q ;
ȳ la media general de y. El teorema de Huygens se escribe :
Iq
Q X Q Iq
Q X
X X X
(yiq − ȳ)2 = Iq (ȳq − ȳ)2 + (yiq − ȳq )2 .
q=1 i=1 q=1 q=1 i=1
Iq K
Q X Iq K
Q X
X X PQ PK X X
2
(yiqk − ȳk ) = q=1 k=1 Iq (ȳqk − ȳk ) 2
+ (yiqk − ȳqk )2 .
q=1 i=1 k=1 q=1 i=1 k=1
Inercia total = Inercia inter-clases + Inercia intra-clase.
Si se adopta esta descomposición como marco de análisis (i.e., si se mide la variabilidad
por la inercia) entonces, en la búsqueda de una buena partición, es indiferente minimizar la
variabilidad intra-clase o maximizar la variabilidad inter-clases (ya que la variabilidad total
es fijada por los datos). Esto es cómodo para el usuario, que tendría dificultades frente a una
aplicación particular, de privilegiar uno de ambos criterios. De ello resulta que la calidad de
una partición puede ser medida por :
Inercia inter-clases
.
Inercia total
Este cociente indica la parte de variabilidad total expresada por la partición. A menudo
es multiplicado por 100 para poder ser enunciado en término de porcentaje. En el caso
unidimensional, se confunde con la (cuadrado de la) razón de correlación. Con los datos de
la figura 4.5, utilizando esta vez la distancia euclidiana usual y considerando la partición en
tres clases {A, B}, {C, D} y {E, F }, este cociente vale 0.8846. Esta partición expresa pues
88.46 % de la variabilidad de los individuos. Es decir, si en lugar de considerar el conjunto de
los seis individuos consideramos sólo las tres clases, representamos 88.46 % de la variabilidad
de los datos. Este porcentaje debe ser apreciado comparado con el número de individuos con
el número de clases. En efecto, aumentando el número de clases, podemos encontrar una
partición que presenta un porcentaje (de inercia expresada) tan elevado como queremos. La
partición en la cual cada individuo constituye una clase presenta un porcentaje de 100 %
pero no tiene ningún interés práctico. En el pequeño ejemplo, podremos considerar que la
partición de seis individuos en tres clases, que en cierto modo divide por 2 la complejidad
de los datos pero que expresa 88.46 % es satisfactoria.
167
Husson – Lê – Pagès Análisis de datos con R
clases (entre las Q) que se van a agregar. Agregando dos clases, pasamos de una partición en
Q clases a una partición en Q−1 clases ; la inercia intra-clase sólo puede aumentar (resultado
inmediato aplicando el teorema de Huygens sobre estas dos clases, lo que muestra también
que el aumento es nulo si y sólo si ambas clases tienen el mismo centro de gravedad). La
idea de la agregación por la inercia consiste en escoger las dos clases que hay que agregar
para minimizar el crecimiento de inercia intra-clase. A causa del teorema de Huygens, esta
agregación de dos clases conlleva una disminución de la inercia inter-clases, disminución que
es minimizada.
Consideremos las clases p (de centro de gravedad gp y de efectivo Ip ) y q (de centro de
gravedad gq y de efectivo Iq ). El aumento ∆(p, q) de inercia intra-clase engendrada por la
reagrupación de las clases p y q puede escribirse :
Ip Iq 2
∆(p, q) = d (gp , gq ).
Ip + Iq
Escoger las clases p y q tales que ∆(p, q) sea mínimo se reduce a escoger :
– clases cuyos centros de gravedad son próximos (d2 (gp , gq ) pequeño) ;
I I
– clases de efectivos débiles ( Ipp+Iqq pequeño).
La primera propiedad es intuitiva. La segunda lo es menos pero presenta una consecuencia
interesante : la agregación por la inercia tiende a producir árboles armoniosos en el sentido
que las particiones son compuestas por clases de efectivos no demasiado diferentes. Aplicando
este algoritmo sobre los datos de la figura 4.5, obtenemos el árbol de la figura 4.7 ; los índices
de niveles y el detalle de su cálculo son recapitulados en la tabla 4.1.
El aspecto general del árbol es idéntico al obtenido en la figura 4.5 (con otra distancia y
otro criterio de agregación) : cuando una estructura es fuerte, (casi) es puesta en evidencia
cualquiera que sea el método empleado. La diferencia superior entre las dos jerarquías reside
en la variabilidad de los niveles : la agregación por la inercia aumenta las diferencias entre
los niveles más altos por una parte y los niveles más bajos por otra parte, y ello se debe al
I I
coeficiente Ipp+Iqq que (casi) crece «mecánicamente» entre los primeros niveles (que agregan
elementos de efectivos débiles) y los últimos (que agregan - en general - clases de efectivos
fuertes).
En ciertos programas, existe una opción de representación de un árbol jerárquico que utiliza,
como índices de nivel de un nudo, la raíz cuadrada de la ganancia de inercia intra. Y de
ello obtenemos un aspecto de los árboles más apretujado. En este libro, utilizamos el índice
original, i.e. la ganancia de inercia intra.
168
Clasificación
1.5
1.0
Hierarchical clustering
0.5
0.0
Cluster Dendrogram
11 inertia gain
1.5
1.0
10
0.5
9
7 8
0.0
E
C
F
B
A
Figure 4.7 – Árbol procedente del algoritmo de Ward aplicado sobre los datos de la figura 4.5
y utilizando la métrica euclidiana usual. Arriba a la derecha : diagrama de los índices de
nivel (del nudo de nivel más elevado al nudo de nivel más bajo). Los números de los nudos
han sido añadidos sobre el gráfico.
2. La suma de todos los índices de agregación (de la misma jerarquía) es igual a la inercia
total del conjunto de los individuos (con relación a su centro de gravedad). Sea :
I−1
X
∆n = inercia total.
n=1
Tabla 4.1 – Indices asociados con la figura 4.7. Los individuos son considerados como nudos
numerados en el orden de aparición del archivo (aquí, el orden alfabético).
169
Husson – Lê – Pagès Análisis de datos con R
A B C
170
Clasificación
∆(q)
min
qmin ≤q≤qmax ∆(q + 1)
con ∆(q) la ganancia de inercia inter-clases cuando se pasa de q − 1 a q clases, qmin (resp.
qmax ) el número mínimo (resp. máximo) de clases deseadas por el usuario. La función HCPC
(Hierarchical Clustering Principal Components) pone en marcha este cálculo después de
haber construido la jerarquía y propone un nivel de corte «óptimo». Es el estudio de un
árbol, este nivel de corte generalmente corresponde a la intuición visual. En el estudio
automático de un gran número de árboles que esto es más valioso.
4.5.2 Principio
El número Q de clases es fijado a priori. Podríamos pensar en calcular todas las particiones
posibles y retener la que optimiza un criterio dado. De hecho, consideraciones combinato-
171
Husson – Lê – Pagès Análisis de datos con R
rias muestran que el tiempo de cálculo asociado con este proceso es prohibitivo cuando el
número de individuos es un poco grande. Utilizamos pues el algoritmo iterativo descrito
a continuación. Sea Pn la partición de los individuos en la etapa n del algoritmo y ρn el
cociente [(inercia inter) / (inercia total)] de esta partición Pn
0. Consideramos una partición inicial P0 ; calculamos ρ0 .
En la etapa n del algoritmo :
1. Calculamos el centro de gravedad gn (q) de cada clase q de Pn ;
2. Volvemos a afectar cada individuo a la clase q de la que está más próxima (en término
de distancia a los centros de gravedad gn (q)) ; obtenemos una nueva partición Pn+1 y
calculamos su cociente ρn+1 ;
3. Mientras ρn+1 − ρn > umbral (i.e., la partición Pn+1 es mejor que Pn ) regresamos en 1.
Si no, Pn+1 es la partición buscada.
La convergencia de este algoritmo está asegurada por el hecho de que, a cada etapa, ρn
disminuye. En la práctica, esta convergencia es rápida (generalmente menos de 5 iteraciones
incluso para un conjunto importante de datos). La figura 4.9 ilustra este algoritmo sobre un
conjunto de datos escogidos en un plano.
1 2
3 4
Figure 4.9 – Ilustración del algoritmo de la agregación alrededor de los centros móviles
en un caso simple (los datos presentan un número de clases bien claro y correspondiente al
número de clases impuesto al algoritmo).
Buscamos una partición en dos clases de los 14 individuos (clase de los círculos y clase de
los cuadrados).
1. La asignación de los individuos a ambas clases es hecha al azar.
2. Calculamos los centros de gravedad de cada una de las clases (círculo y cuadrado
vacíos).
3. Asignamos cada individuo a la clase de la cual está más próximo (representamos la
mediatriz del segmento uniendo los centros de gravedad).
4. Calculamos los centros de gravedad de las nuevas clases.
Si se aplica de nuevo la etapa 3, no hay ningún cambio : el algoritmo ha convergido.
4.5.3 Metodología
El algoritmo descrito más arriba converge pero no necesariamente hacia un óptimo global.
En práctica, ejecutamos muchas veces el algoritmo partiendo de particiones iniciales P0
172
Clasificación
diferentes. Conservamos la mejor solución. Podemos también cruzar las particiones obtenidas
en consecuencia de una serie de ejecuciones del algoritmo. Llamamos «formas fuertes» a los
conjuntos de individuos que pertenecen a la misma clase cualquiera que sea la partición.
Estas formas fuertes constituyen grupos de individuos cuya estabilidad frente a la partición
inicial es interesante : ponen en evidencia zonas (del espacio) de densidad fuerte. Pero esta
metodología conduce también a algunas clases de efectivo débil, a menudo reducido a un
solo individuo, conteniendo individuos situados entre las zonas de densidad fuerte y cuya
gestión es necesariamente empírica (las dos opciones principales son la asignación a la forma
fuerte - de efectivo suficiente - la más próxima o la creación de una clase «residual» que
reagrupa los individuos aislados).
173
Husson – Lê – Pagès Análisis de datos con R
generalmente, la suma de los pesos, de los individuos a los que representa). Obtenemos así
una jerarquía que es, groseramente, lo alto de la jerarquía que se obtendría clasificando a
los individuos mismos.
Una variante de la etapa 1 consiste en realizar varios particionamientos y en conservar las
formas fuertes para la etapa 2.
174
Clasificación
– Eliminar de la CJA, las únicas dimensiones de las que estamos (prácticamente) seguros
que representan sólo «ruido», es decir, las últimas ; así conservaremos los factores que
totalizarán un porcentaje muy elevado de la inercia, digamos 80 % o 90 % para fijar las
ideas ; la jerarquía así obtenida debería ser más estable y más clara.
– Conservar para la CJA sólo los ejes que supimos interpretar, sea, en la práctica, un número
pequeño (entre 2 y 5) ; la jerarquía así obtenida desempeña esencialmente el papel de ayuda
a la interpretación del análisis factorial.
175
Husson – Lê – Pagès Análisis de datos con R
Observación
Los individuos suplementarios (en el ejemplo, las ciudades que no son capitales) no son
utilizados para construir las distancias entre individuos y no participan en el análisis.
Los dos primeros ejes del ACP realizado sobre las ciudades expresan más de 98 % de la
información. Podemos conservar todas las dimensiones ya que esto no modifica la clasificación
y permite descomponer la inercia total del ACP.
Observación
Anotemos que si se desea efectuar una clasificación jerárquica ascendente sobre un juego de
datos brutos, es posible hacer un ACP no normado (con argumento scale.unit=FALSE) y
conservar todos los ejes utilizando el argumento ncp=Inf (Inf para infinito). Es lo que se
hace por defecto por la función HCPC cuando el objeto de entrada es una tabla de datos.
La forma del dendrograma (cf. figura 4.10) sugiere una partición de las capitales en tres
grupos. El nivel óptimo de corte calculado por la función HCPC sugiere también tres grupos.
Encontramos por ejemplo en el primer grupo las capitales más frías (las que tienen las
coordenadas más débiles sobre el primer eje del análisis factorial). Así como se indica en la
sección 4.1 y se representa en la figura 4.1, es posible permutar las ramas de cada nudo del
árbol para ordenar los individuos en lo posible según el primer eje factorial. Es lo que se hace
con el argumento order=TRUE (utilizado por defecto). Si queremos clasificar los individuos
en función de otro criterio, hay que ordenar los individuos en la tabla en función de este
criterio antes de hacer el ACP, y luego hacer la clasificación con el argumento order=FALSE
en HCPC.
El objeto call$t contiene los resultados de la clasificación jerárquica ascendente. Particu-
larmente :
– las salidas de la función de clasificación agnes (del paquete cluster) en call$t$tree
– el número de grupos «óptimo» calculado ($call$t$nb.clust) : este número es determi-
nado entre el mínimo y el máximo de grupos definidos por el usuario y de modo que el
cociente $call$t$quot sea lo más pequeño posible ;
– la inercia intra de la partición en n grupos ($call$t$within) ; para n = 1 grupo (la
partición más grosera en un solo grupo) la inercia intra vale 12, para 2 grupos 5.237, etc.
– la ganancia de inercia inter cuándo se pasa de n grupos a n + 1 ($call$t$inter) ; para
2 grupos (i.e. Pasando de 1 a 2 grupos) la ganancia de inercia inter vale 6.763, para 3
grupos (i.e., pasando de 2 a 3 grupos) la ganancia de inercia inter vale 2.356, etc.
176
Clasificación
6
5
4
Hierarchical Clustering ●
3
2
1
0
Click to cut the tree
7
inertia gain
6
5
4
3
●
2
1
0
Reikiavik
Helsinki
Oslo
Estocolmo
Moscú
Minsk
Kiev
Cracovia
Copenhague
Berlín
Praga
Sarajevo
Sofía
Budapest
Dublín
Londres
Ámsterdam
Bruselas
París
Madrid
Roma
Lisboa
Atenas
$call$t$within
[1] 12.000 5.237 2.881 2.119 1.524 1.232 0.960 0.799 0.643 0.493
[11] 0.371 0.255 0.202 0.153 0.118 0.087 0.065 0.048 0.036 0.024
[21] 0.014 0.007 0.000
$call$t$inert.gain
[1] 6.763 2.356 0.762 0.596 0.291 0.272 0.161 0.155 0.151 0.122 0.115 0.054
[13] 0.049 0.034 0.031 0.022 0.017 0.012 0.012 0.010 0.007 0.007
$call$t$quot
[1] 0.550 0.736 0.719 0.809 0.779 0.832 0.806 0.766
Para dibujar el árbol completo en tres dimensiones sobre el primer plano factorial (cf. fi-
gura 4.11), utilizamos el argumento t.levels="all" :
> res.hcpc <- HCPC(res.pca,t.levels="all")
177
Husson – Lê – Pagès Análisis de datos con R
7
6
5
4
height
3
2
Dim 2 (15.4%)
Moscú Kiev Budapest 3
2
1
-6 -4 -2 0 2 4 6 8
Dim 1 (82.9%)
Descripción de los grupos Los grupos son descritos después y los resultados están en
el objeto desc.var. Todas las variables del juego de datos iniciales son utilizadas, sean
cuantitativas o cualitativas, activas o suplementarias. Para ello, la función devuelve los
mismos resultados que la función catdes (cf. § 3.7.2). Estos resultados son reagrupados en la
tabla 4.2. Ninguna variable caracteriza las ciudades del grupo 2. Las capitales de la clase 3
son características porque la temperatura media anual (15.7 grados) es más importante que
para el conjunto de las capitales (9.37 grados). Este grupo es caracterizado por la modalidad
sur de la variable cualitativa Región : hay más ciudades del sur en este grupo que en otros.
En efecto, 80 % de las ciudades del sur pertenecen al grupo 3, 100 % de las ciudades del
grupo 3 son ciudades del sur. Estos porcentajes son importantes ya que 21.7% de las ciudades
están en el sur.
Los grupos pueden también ser descritos por los componentes principales. Para ello, una
descripción idéntica a la realizada por las variables cuantitativas es efectuada a partir de
las coordenadas de los individuos sobre los ejes factoriales. La tabla 4.3 muestra así como
las capitales del grupo 1 (resp. 3) tienen una coordenada significativamente más débil (resp.
fuerte) que otras sobre la primera dimensión. Las coordenadas sobre la tercera dimensión
son más débiles para las capitales del grupo 2. Recordemos que la inercia explicada por el
eje 3 es sólo 1 %, pues no iremos más lejos en el comentario de este resultado.
178
Clasificación
> res.hcpc$desc.var
$test.chi2
p.value df
Región 0.0012 6
$category
$category$‘1‘
NULL
$category$‘2‘
NULL
$category$‘3‘
Cla/Mod Mod/Cla Global p.value v.test
Región=Sur 80 100 21.739 0.001 3.256
$quanti
$quanti$‘1‘
$‘1‘
v.test Mean in category Overall mean sd in category Overall sd p.value
Latitud 2.78 56.13 49.88 5.85 6.98 0.00550
Amplitud 2.14 21.99 18.80 4.84 4.61 0.03200
Julio -1.99 16.79 18.93 2.45 3.33 0.04600
Junio -2.06 14.73 16.77 2.52 3.07 0.04000
Agosto -2.48 15.49 18.30 2.26 3.53 0.01300
Mayo -2.55 10.84 13.27 2.43 2.96 0.01100
Septiembre -3.14 10.99 14.71 1.67 3.68 0.00170
Enero -3.26 -5.14 0.17 2.63 5.07 0.00110
Diciembre -3.27 -2.91 1.84 1.83 4.52 0.00110
Noviembre -3.36 0.60 5.08 0.94 4.14 0.00078
Media -3.37 5.50 9.37 0.77 3.56 0.00074
Abril -3.39 4.67 8.38 1.55 3.40 0.00071
Febrero -3.44 -4.60 0.96 2.34 5.01 0.00058
Octubre -3.45 5.76 10.07 0.92 3.87 0.00055
Marzo -3.68 -1.14 4.06 1.10 4.39 0.00024
$quanti$‘2‘
NULL
$quanti$‘3‘
v.test Mean in category Overall mean sd in category Overall sd p.value
Media 3.85 15.75 9.37 1.39 3.56 0.00012
Septiembre 3.81 21.23 14.71 1.54 3.68 0.00014
Octubre 3.72 16.75 10.07 1.91 3.87 0.00020
Agosto 3.71 24.38 18.30 1.88 3.53 0.00021
Noviembre 3.69 12.17 5.08 2.26 4.14 0.00022
Julio 3.60 24.50 18.93 2.09 3.33 0.00031
Abril 3.53 13.95 8.38 1.18 3.40 0.00041
Marzo 3.45 11.10 4.06 1.27 4.39 0.00056
Febrero 3.43 8.95 0.96 1.74 5.01 0.00059
Junio 3.39 21.60 16.77 1.86 3.07 0.00070
Diciembre 3.39 8.95 1.84 2.34 4.52 0.00071
Enero 3.29 7.92 0.17 2.08 5.07 0.00099
Mayo 3.18 17.65 13.27 1.55 2.96 0.00150
Latitud -3.23 39.42 49.88 1.52 6.98 0.00130
Tabla 4.2 – Datos temperaturas : salida de la función catdes (cf. § 3.7.2) aplicada a la
partición en tres grupos.
179
Husson – Lê – Pagès Análisis de datos con R
> res.hcpc$desc.axe
$quanti
$quanti$‘1‘
v.test Mean in category Overall mean sd in category Overall sd p.value
Dim.1 -3.32 -3.37 1.69e-16 0.849 3.15 0.0009087
$quanti$‘2‘
v.test Mean in category Overall mean sd in category Overall sd p.value
Dim.3 -2.41 -0.175 -4.05e-16 0.218 0.355 0.0157738
$quanti$‘3‘
v.test Mean in category Overall mean sd in category Overall sd p.value
Dim.1 3.86 5.66 1.69e-16 1.26 3.15 0.00011196
Tabla 4.3 – Descripción de los grupos (cf. § 3.7.2), procedentes de la clasificación, por los
componentes principales.
Puede ser interesante ilustrar el grupo por individuos particulares de este grupo. Para ello,
dos tipos de individuos particulares son propuestos : los modelos, es decir, los individuos
más próximos del centro del grupo y los individuos específicos, es decir, los individuos más
alejados de los centros de otros grupos. Para ello, el objeto desc.ind$para contiene los
individuos ordenados por grupo y la distancia entre cada individuo y el centro de su grupo.
El objeto desc.ind$spec contiene los individuos ordenados por grupo y la distancia entre
cada individuo y el centro del grupo más próximo (cf. tabla 4.4). Así, Oslo es la ciudad que
representa lo mejor posible las ciudades del grupo 1 mientras que Berlín y Roma son los
modelos de los grupos 2 y 3. La ciudad de Reikiavik es específica del grupo 1, del que es
la ciudad más alejada de los centros de los grupos 2 y 3 y que podemos considerar como la
más particular del grupo 1. París y Atenas son específicas de los grupos 2 y 3.
180
Clasificación
> res.hcpc$desc.ind
$para
cluster: 1
Oslo Helsinki Estocolmo Minsk Moscú
0.339 0.884 0.922 0.965 1.770
-------------------------------------------------
cluster: 2
Berlín Sarajevo Bruselas Praga Amsterdam
0.576 0.716 1.040 1.060 1.120
-------------------------------------------------
cluster: 3
Roma Lisboa Madrid Atenas
0.36 1.74 1.84 2.17
$spec
cluster: 1
Reikiavik Moscú Helsinki Minsk Oslo
5.47 4.34 4.28 3.74 3.48
-------------------------------------------------
cluster: 2
París Budapest Bruselas Dublín Amsterdam
4.38 4.37 4.35 4.28 4.08
-------------------------------------------------
cluster: 3
Atenas Lisboa Roma Madrid
7.67 5.66 5.35 4.22
> library(FactoMineR)
> te <- read.table("http://factominer.free.fr/libra/te.csv",header=TRUE,sep=";")
> res.mca<-MCA(te, ncp=20, quanti.sup=22, quali.sup=c(19:21,23:36), graph=FALSE)
> res.hcpc <- HCPC(res.mca)
El aspecto del árbol jerárquico, igualmente que el diagrama de las inercias asociadas con los
nudos, sugiere una partición en tres grupos (cf. figura 4.12).
Podemos colorear a continuación los individuos sobre el primer plano factorial en función
del grupo al cual pertenecen (cf. figura 4.13).
> plot(res.hcpc,choice="map",ind.names=FALSE)
La inercia inter de la partición en dos grupos, 0.085 (primera parte de los resultados que
figuran más abajo), es inferior al primer valor propio del ACM λ1 = 0.148 (la segunda parte
de los resultados de más abajo). Esto siempre se cumple y tiene la siguiente explicación :
el eje factorial aporta matices comparado con la partición en dos grupos. Igualmente, el
plano factorial expresa más inercia (0.148 + 0.122 = 0.270 que la partición en tres grupos
(0.085 + 0.069 = 0.154). Es una ventaja cuando queremos resumir fácilmente la información,
por ejemplo para una restitución de los resultados. El ACM será útil para una interpretación
más fina de los resultados.
> round(res.hcpc$call$t$inert.gain,3)
[1] 0.085 0.069 0.057 0.056 0.056 0.055 0.050
> round(res.mca$eig[,1],3)
[1] 0.148 0.122 0.090 0.078 0.074 0.071 0.068
181
Husson – Lê – Pagès Análisis de datos con R
0.08
Hierarchical Clustering
0.04
●
0.00
Click to cut the tree
inertia gain
0.08
0.06
0.04
●
0.02
0.00
38
187
200
154
37
188
167
163
40
262
102
180
55
186
226
296
76
97
209
219
36
184
145
237
14
256
216
141
43
41
104
230
78
293
162
231
24
63
164
275
5
45
175
213
8
285
115
169
12
65
96
214
58
70
176
177
7
170
282
185
71
98
30
210
27
18
57
286
280
152
166
228
29
77
109
155
144
132
119
257
250
254
245
147
131
247
124
146
158
123
139
140
218
298
143
121
129
106
107
161
91
174
125
160
20
84
138
281
19
28
236
192
73
276
255
101
80
60
279
215
69
13
239
300
34
232
183
157
49
42
126
128
85
134
137
189
88
258
150
114
75
193
105
292
289
153
151
156
23
79
197
194
92
82
142
118
1
94
263
181
47
11
90
116
26
149
290
294
6
4
86
205
3
223
217
198
54
249
191
203
227
222
212
195
199
182
211
165
81
52
288
113
2
16
15
171
9
242
159
206
93
10
17
173
50
269
272
196
31
271
277
278
95
53
202
100
62
261
229
190
74
297
287
248
208
299
168
220
117
111
179
284
21
32
201
244
207
252
136
122
35
224
221
133
68
83
89
240
246
234
225
103
39
46
130
266
59
72
241
243
99
61
267
270
33
291
120
235
56
48
178
112
51
260
233
238
25
64
110
253
172
264
251
108
87
259
268
283
67
265
295
148
22
44
127
274
66
135
273
204
182
Clasificación
Hierarchical clustering on the factor map
cluster 1
cluster 2
cluster 3 195 211 168190202
227 182
●
31
●
● 208
●
●
●
229
●
100 220
1.0
● ●
74
●
95 ● ● ●
212 ● 53
165199
● ●
297248
●222249
272 ●
● ●
●
299 ● ●
261 ●
16
206 94 10 287
Dim 2 (8.1%)
●
66
0.5
●
191 171
62 271
277 ● ●
●
●
●
203
15381 209 159 148 288 52 ●
50 35 ● ● ● ●
54 15 ● ●
110 17
120 ● 224 ●
278 ●●
●
● ●
217113 259238
196 240 ●
●
205 149
161 241
● 173 26959 207 ● ●
●
●
●
24 40
79266 ● ●
●● ●
●
● 186 163
18022623 83 82 22
●
●
●● ● ● ●
102 198255 48 253 225 87
●● ● ● ●
167
6188
38 189
231
21316437 ● ●112
93 ● ●
268
●
262 4154 57 ●
178 243
● ● ● ●
200
187 134
197
34 296
● 291
151
29 21 ●
201235
● ●
44283
●
295
252 ●●
●
0.0
●●
● 55
223162
156 ●
1832 27520
8 4213
●
33128
● 18 172
244
56
●
122 ●● ● ●
30284
● ●
193 166
152
1 47 140
139
169
●● 545
194119
●● 51
● ●
32133
● ● ●
●● ●
318558 246
● ●
300 158
146
124
232 111218
256
117
144292192
121 7 84
49 109
96
● ●
260
2476527
● ●
68 ●●
●
● ● ●● ●
●●
● ●
237155 263
●
14257
123
258
116
70 132 ●● ●● ● ● ● ● 103
●
264
136 ●
259
27061 ● ● ● ●
176150 138 91 39
●● ● ●
286 72 251
● ●
184
36 230
●
12
77 298
147
19 8980 60 ●
267 ●
273
97 285 170 ●●
219
76 85
115254
177●175
137
105
250
216 242
71 143 281
●● ●●
276
●
●● ●
● ●●
●●
●
● ● ● ●
●
● ●
181
141
41 118
●
157
126
145 11179
174 92
131 78282
90 69
● ● ●●● ● ●
73
●
101239 108 99
● ●● ●
●●●
● ●● ● ● ●●
104
245
142 107
106
43
114 ●● ● ●
12921098
●
215
●● ● ●●
● ●
●●●
221
●
● ● ● ● ●
●
●
● ● ●
●
293 236
● ●
●●●● ●
289 274●
●● ●●
28
●● ● 26
●● ●
●
●
● ●
● ●
●
125 130 ●
●
46
75
● ● ● ●
● ● ●
●
●
290 29486
●
●
●
●
−0.5
●
88 ●
●●
●
Dim 1 (9.88%)
183
Husson – Lê – Pagès Análisis de datos con R
> res.hcpc$desc.var$test.chi2
p.value df
lugar.de.compra 8.47e-79 4
forma 3.14e-47 4
tipo 1.86e-28 10
salón.de.té 9.62e-19 2
bar 8.54e-10 2
amigos 6.14e-08 2
restaurante 3.54e-07 2
cómo 3.62e-06 6
variedad 1.78e-03 4
sexo 1.79e-03 2
frecuencia 1.97e-03 6
trabajo 3.05e-03 2
merienda 3.68e-03 2
después.almuerzo 1.05e-02 2
después.cena 2.23e-02 2
a.cada.momento.del.día 3.60e-02 2
azúcar 3.69e-02 2
refinado 4.08e-02 2
Tabla 4.5 – Datos té : descripción de la partición en tres grupos por las variables.
té (ver capítulo de ACM) ha sido declarada como cuantitativa en el cuestionario. Con el fin de
poder poner en evidencia relaciones no lineales con esta variable, debe ser recodificada como
cualitativa. Consideremos esta variable edad y transformémosla en variable cualitativa. Una
primera estrategia es utilizar grupos «naturales» definidos a priori (por ejemplo, menos de 18
años, 18-30 años, etc.). La segunda estrategia es construir grupos equiprobables. Escogemos
entonces un número de grupos a priori, generalmente entre 4 y 7, para tener suficientes
grupos pero no demasiados :
Una tercera estrategia es la de elegir el número de grupos y de sus límites a partir de los
datos, i.e., del histograma (cf. figura 4.14) que representa la distribución de la variable con
la finalidad de definir los niveles de corte :
184
Clasificación
> res.hcpc$desc.var$category
$category$‘1‘
Cla/Mod Mod/Cla Global p.value v.test
lugar.de.compra=supermercado 85.90 93.80 64.00 4.11e-40 13.30
forma=bolsita 84.10 81.20 56.70 2.78e-25 10.40
salón.de.té=No.salón de té 70.70 97.20 80.70 2.09e-18 8.75
tipo=té_marca_conocida 83.20 44.90 31.70 2.78e-09 5.94
bar=No.bar 67.10 90.30 79.00 2.13e-08 5.60
amigos=No.amigos 76.90 45.50 34.70 3.42e-06 4.64
restaurante=No.restaurante 64.70 81.20 73.70 6.66e-04 3.40
tipo=té_MDD 90.50 10.80 7.00 2.40e-03 3.04
merienda=No.merienda 67.90 50.60 43.70 5.69e-03 2.77
cómo=puro 64.10 71.00 65.00 1.32e-02 2.48
trabajo=No.trabajo 63.40 76.70 71.00 1.41e-02 2.46
azúcar=azúcar 66.20 54.50 48.30 1.42e-02 2.45
a.cada.momento.del.día=No.a cada momento del día 64.00 71.60 65.70 1.45e-02 2.45
frecuencia=1 a 2/semana 75.00 18.80 14.70 2.39e-02 2.26
frecuencia=1/día 68.40 36.90 31.70 2.61e-02 2.22
tipo=té_desconocido 91.70 6.25 4.00 2.84e-02 2.19
edad_cual=15-24 68.50 35.80 30.70 2.90e-02 2.18
después.almuerzo=No.después.almuerzo 61.30 89.20 85.30 3.76e-02 2.08
tipo=té_gama_baja 100.00 3.98 2.33 4.55e-02 2.00
$category$‘2‘
Cla/Mod Mod/Cla Global p.value v.test
lugar.de.compra=tienda especializada 90.00 84.40 10.0 7.39e-30 11.40
forma=a granel 66.70 75.00 12.0 1.05e-19 9.08
tipo=té_gama_alta 49.10 81.20 17.7 4.67e-17 8.39
variedad=verde 27.30 28.10 11.0 7.30e-03 2.68
refinado=refinado 13.50 90.60 71.7 1.34e-02 2.47
sexo=H 16.40 62.50 40.7 1.43e-02 2.45
restaurante=No.restaurante 13.10 90.60 73.7 2.59e-02 2.23
después.cena=después.cena 28.60 18.80 7.0 3.10e-02 2.16
evasión.exotismo=No.evasión-exotismo 14.60 71.90 52.7 3.23e-02 2.14
$category$‘3‘
Cla/Mod Mod/Cla Global p.value v.test
lugar.de.compra=supermercado+tienda.especializada. 85.90 72.80 26.0 1.12e-33 12.10
forma=bolsita+a granel 67.00 68.50 31.3 2.56e-19 8.99
salón.de.té=salón de té 77.60 48.90 19.3 2.35e-16 8.20
bar=bar 63.50 43.50 21.0 1.95e-09 6.00
amigos=amigos 41.80 89.10 65.3 2.50e-09 5.96
tipo=té_variable 51.80 63.00 37.3 2.63e-09 5.95
restaurante=restaurante 54.40 46.70 26.3 3.92e-07 5.07
cómo=otro 100.00 9.78 3.0 3.62e-05 4.13
frecuencia=+ de 2/día 41.70 57.60 42.3 6.13e-04 3.43
merienda=merienda 38.50 70.70 56.3 1.22e-03 3.23
trabajo=trabajo 44.80 42.40 29.0 1.32e-03 3.21
sexo=F 37.10 71.70 59.3 4.90e-03 2.81
después.almuerzo=después.almuerzo 50.00 23.90 14.7 5.84e-03 2.76
cómo=limón 51.50 18.50 11.0 1.32e-02 2.48
azúcar=No.azúcar 36.10 60.90 51.7 4.54e-02 2.00
Tabla 4.6 – Datos té : descripción de la partición en tres grupos por las modalidades (salida
de la función catdes cf. § 3.7.2).
185
Husson – Lê – Pagès Análisis de datos con R
> res.hcpc$desc.axe
$quanti
$quanti$‘1‘
v.test Mean in category Overall mean sd in category Overall sd p.value
Dim.2 -7.80 -0.1320 4.93e-17 0.181 0.349 6.36e-15
Dim.1 -12.40 -0.2320 -2.00e-17 0.214 0.385 2.31e-35
$quanti$‘2‘
v.test Mean in category Overall mean sd in category Overall sd p.value
Dim.2 13.90 0.8120 4.93e-17 0.234 0.349 4.91e-44
Dim.4 4.35 0.2030 -3.35e-17 0.370 0.279 1.36e-05
$quanti$‘3‘
v.test Mean in category Overall mean sd in category Overall sd p.value
Dim.1 13.50 0.4520 -2.00e-17 0.252 0.385 1.89e-41
Dim.4 -4.73 -0.1150 -3.35e-17 0.292 0.279 2.30e-06
Tabla 4.7 – Datos té : descripción de la partición en tres grupos por los ejes factoriales.
Por defecto, la función HCPC construye un árbol jerárquico, la opción indicada aquí iter.max=10
conlleva la ejecución de la agregación alrededor de los centros móviles. El árbol jerárquico
(cf. figura 4.15) sugiere recortar la variable en cuatro grupos. Este árbol es construido en
función de los valores de la variable edad sobre el eje de abscisas.
Después, podemos construir una nueva variable cualitativa aa.cuali de la manera siguiente :
> max.cla = unlist(by(res.hcpc$data.clust[,1],res.hcpc$data.clust[,2],max))
> breaks=c(min(vari),max.cla)
> aa.cuali = cut(vari, breaks, include.lowest=TRUE)
> summary(aa.cuali)
[15,28] (28,42] (42,57] (57,90]
130 68 64 38
Este recorte parece de mejor calidad que el recorte en grupos equiprobables construido ante-
riormente ya que la clasificación jerárquica permitió detectar los «huecos» en la distribución
(cf. el histograma de la figura 4.14).
186
Clasificación
0.04
0.03
Density
0.02
0.01
0.00
20 40 60 80
edad
+ breaks=c(min(vari),maxi)
+ aa.cuali = cut(vari, breaks, include.lowest=TRUE)
+ datos.cuali[,i] = aa.cuali
+ }
La tabla datos.cuali así creada contiene únicamente variables cualitativas que correspon-
den al recorte en grupos de cada una de las variables cuantitativas de la tabla inicial datos.
187
500
400
300
height
200
100
0
0 20 40 60 80 100
Annexe A
189
Husson – Lê – Pagès Análisis de datos con R
Número de variables
nbind 4 5 6 7 8 9 10 11 12 13 14 15 16
5 72.6 67.6 63.3 60.4 57.9 55.5 53.9 52.6 51.3 50.1 49.1 48.4 47.5
6 67.6 61.8 57.6 54.7 52.4 50.4 48.7 46.9 45.8 44.6 43.6 42.9 42.0
7 64.0 58.3 54.0 50.9 48.3 46.1 44.5 42.9 41.8 40.4 39.8 38.8 38.1
8 60.7 54.9 50.7 47.7 45.2 43.1 41.3 40.1 38.7 37.4 36.5 35.9 35.0
9 58.6 52.3 48.7 45.0 42.7 40.8 39.1 37.7 36.3 35.2 34.3 33.5 32.5
10 56.8 50.5 46.4 43.5 40.7 38.6 36.9 35.7 34.4 33.4 32.1 31.5 30.7
11 55.0 48.8 44.6 41.6 39.0 37.2 35.4 33.9 32.8 31.7 30.8 29.7 29.1
12 53.3 47.5 43.2 40.1 37.7 35.6 34.1 32.5 31.5 30.3 29.4 28.6 27.9
13 52.0 46.2 41.8 39.0 36.4 34.5 32.9 31.3 30.2 29.1 28.2 27.4 26.7
14 51.0 45.2 40.9 37.8 35.5 33.3 31.7 30.3 29.0 28.1 27.2 26.4 25.6
15 50.1 44.1 40.0 36.8 34.4 32.4 30.8 29.4 28.3 27.3 26.5 25.5 24.7
16 49.3 43.2 39.2 36.0 33.7 31.6 29.9 28.7 27.4 26.5 25.5 24.7 24.0
17 48.4 42.3 38.3 35.2 32.9 31.0 29.2 27.9 26.7 25.7 24.9 24.0 23.3
18 47.6 41.8 37.6 34.5 32.2 30.2 28.7 27.1 26.0 25.1 24.2 23.4 22.7
19 46.9 41.1 36.8 33.9 31.5 29.7 28.0 26.6 25.6 24.5 23.5 22.8 22.1
20 46.1 40.5 36.3 33.5 30.9 29.0 27.4 26.1 25.0 24.0 23.0 22.3 21.6
25 44.0 38.1 33.9 31.0 28.6 26.9 25.2 23.8 22.8 21.9 21.0 20.3 19.6
30 41.9 36.4 32.4 29.4 27.1 25.1 23.6 22.4 21.3 20.3 19.5 18.8 18.1
35 40.7 35.0 31.0 28.1 25.9 23.9 22.5 21.2 20.1 19.2 18.4 17.7 17.0
40 39.7 34.0 30.1 27.1 24.7 23.0 21.6 20.3 19.3 18.3 17.5 16.8 16.2
45 38.8 33.0 29.1 26.3 24.0 22.3 20.8 19.6 18.5 17.6 16.8 16.1 15.5
50 38.0 32.4 28.5 25.6 23.4 21.6 20.1 18.9 17.9 17.0 16.2 15.6 15.0
100 34.1 28.5 24.8 21.9 19.9 18.2 16.9 15.7 14.7 14.0 13.2 12.6 12.0
Tabla A.1 – Cuantil a 95 % del porcentaje de inercia explicado por el primer eje de 10 000
ACP efectuados sobre tablas constituidas por variables independientes (el número de indi-
viduos varía de 5 a 100 y el número de variables de 4 a 16) : por ejemplo, para una tabla
con I = 30 individuos y K = 10 variables, 95 % de los porcentajes de inercia explicado por
el primer eje son inferiores a 23.6%.
190
Anexo
Número de variables
nbind 17 18 19 20 25 30 35 40 50 75 100 150 200
5 46.9 46.2 45.5 45.0 42.9 41.3 39.8 39.0 37.3 35.0 33.6 32.0 31.0
6 41.1 40.7 40.1 39.5 37.4 35.6 34.5 33.5 31.8 29.5 28.2 26.6 25.7
7 37.2 36.7 36.0 35.6 33.5 31.8 30.4 29.6 28.1 25.8 24.5 23.0 22.1
8 34.4 33.7 33.1 32.6 30.4 28.8 27.6 26.7 25.2 23.1 21.8 20.4 19.5
9 32.1 31.3 30.8 30.2 28.0 26.5 25.4 24.4 23.0 21.0 19.7 18.3 17.5
10 30.0 29.5 28.8 28.4 26.2 24.6 23.6 22.7 21.4 19.3 18.1 16.7 15.9
11 28.5 27.8 27.3 26.8 24.7 23.3 22.1 21.3 19.9 17.9 16.8 15.4 14.6
12 27.1 26.5 25.9 25.5 23.5 22.0 20.9 20.0 18.7 16.7 15.6 14.3 13.6
13 26.0 25.3 24.9 24.2 22.3 20.9 19.8 19.0 17.7 15.7 14.7 13.4 12.7
14 25.0 24.4 23.9 23.4 21.3 20.0 18.9 18.1 16.8 14.9 13.9 12.6 11.9
15 24.1 23.5 23.0 22.5 20.7 19.2 18.1 17.3 16.1 14.2 13.2 12.0 11.2
16 23.5 22.9 22.3 21.7 19.9 18.5 17.4 16.6 15.4 13.6 12.5 11.3 10.7
17 22.7 22.2 21.6 21.1 19.2 17.8 16.8 16.0 14.8 13.0 12.0 10.8 10.1
18 22.1 21.5 21.0 20.4 18.6 17.2 16.3 15.4 14.2 12.5 11.5 10.3 9.7
19 21.4 20.9 20.4 19.9 18.0 16.7 15.8 14.9 13.8 12.1 11.1 9.9 9.3
20 21.0 20.4 20.0 19.4 17.6 16.3 15.3 14.5 13.3 11.6 10.6 9.5 8.9
25 19.0 18.4 17.9 17.4 15.7 14.5 13.5 12.8 11.7 10.0 9.1 8.1 7.5
30 17.5 17.0 16.6 16.1 14.4 13.2 12.3 11.5 10.5 8.9 8.1 7.1 6.5
35 16.5 16.0 15.5 15.1 13.4 12.2 11.3 10.6 9.6 8.1 7.3 6.4 5.8
40 15.6 15.2 14.7 14.2 12.6 11.5 10.6 10.0 8.9 7.5 6.7 5.8 5.3
45 14.9 14.4 14.0 13.6 12.0 10.9 10.0 9.4 8.4 7.0 6.3 5.4 4.9
50 14.4 13.9 13.5 13.1 11.5 10.4 9.6 9.0 8.0 6.6 5.9 5.0 4.6
100 11.6 11.1 10.7 10.3 8.9 7.9 7.2 6.6 5.8 4.7 4.0 3.3 2.9
Tabla A.2 – Cuantil a 95 % del porcentaje de inercia explicado por el primer eje de 10 000
ACP efectuados sobre tablas constituidas por variables independientes (el número de indi-
viduos varía de 5 a 100 y el número de variables de 17 a 200) : por ejemplo, para una tabla
con I = 50 individuos y K = 30 variables, 95 % de los porcentajes de inercia explicado por
el primer eje son inferiores a 10.4%.
191
Husson – Lê – Pagès Análisis de datos con R
Número de variables
nbind 4 5 6 7 8 9 10 11 12 13 14 15 16
5 96.5 93.1 90.2 87.6 85.5 83.4 81.9 80.7 79.4 78.1 77.4 76.6 75.5
6 93.3 88.6 84.8 81.5 79.1 76.9 75.1 73.2 72.2 70.8 69.8 68.7 68.0
7 90.5 84.9 80.9 77.4 74.4 72.0 70.1 68.3 67.0 65.3 64.3 63.2 62.2
8 88.1 82.3 77.2 73.8 70.7 68.2 66.1 64.0 62.8 61.2 60.0 59.0 58.0
9 86.1 79.5 74.8 70.7 67.4 65.1 62.9 61.1 59.4 57.9 56.5 55.4 54.3
10 84.5 77.5 72.3 68.2 65.0 62.4 60.1 58.3 56.5 55.1 53.7 52.5 51.5
11 82.8 75.7 70.3 66.3 62.9 60.1 58.0 56.0 54.4 52.7 51.3 50.1 49.2
12 81.5 74.0 68.6 64.4 61.2 58.3 55.8 54.0 52.4 50.9 49.3 48.2 47.2
13 80.0 72.5 67.2 62.9 59.4 56.7 54.4 52.2 50.5 48.9 47.7 46.6 45.4
14 79.0 71.5 65.7 61.5 58.1 55.1 52.8 50.8 49.0 47.5 46.2 45.0 44.0
15 78.1 70.3 64.6 60.3 57.0 53.9 51.5 49.4 47.8 46.1 44.9 43.6 42.5
16 77.3 69.4 63.5 59.2 55.6 52.9 50.3 48.3 46.6 45.2 43.6 42.4 41.4
17 76.5 68.4 62.6 58.2 54.7 51.8 49.3 47.1 45.5 44.0 42.6 41.4 40.3
18 75.5 67.6 61.8 57.1 53.7 50.8 48.4 46.3 44.6 43.0 41.6 40.4 39.3
19 75.1 67.0 60.9 56.5 52.8 49.9 47.4 45.5 43.7 42.1 40.7 39.6 38.4
20 74.1 66.1 60.1 55.6 52.1 49.1 46.6 44.7 42.9 41.3 39.8 38.7 37.5
25 72.0 63.3 57.1 52.5 48.9 46.0 43.4 41.4 39.6 38.1 36.7 35.5 34.5
30 69.8 61.1 55.1 50.3 46.7 43.6 41.1 39.1 37.3 35.7 34.4 33.2 32.1
35 68.5 59.6 53.3 48.6 44.9 41.9 39.5 37.4 35.6 34.0 32.7 31.6 30.4
40 67.5 58.3 52.0 47.3 43.4 40.5 38.0 36.0 34.1 32.7 31.3 30.1 29.1
45 66.4 57.1 50.8 46.1 42.4 39.3 36.9 34.8 33.1 31.5 30.2 29.0 27.9
50 65.6 56.3 49.9 45.2 41.4 38.4 35.9 33.9 32.1 30.5 29.2 28.1 27.0
100 60.9 51.4 44.9 40.0 36.3 33.3 31.0 28.9 27.2 25.8 24.5 23.3 22.3
Tabla A.3 – Cuantil a 95 % del porcentaje de inercia explicado por el primer plano de
10 000 ACP efectuados sobre tablas constituidas por variables independientes (el número de
individuos varía de 5 a 100 y el número de variables de 4 a 16) : por ejemplo, para una tabla
con I = 30 individuos y K = 10 variables, 95 % de los porcentajes de inercia explicado por
el primer plano son inferiores a 41.1%.
192
Anexo
Número de variables
nbind 17 18 19 20 25 30 35 40 50 75 100 150 200
5 74.9 74.2 73.5 72.8 70.7 68.8 67.4 66.4 64.7 62.0 60.5 58.5 57.4
6 67.0 66.3 65.6 64.9 62.3 60.4 58.9 57.6 55.8 52.9 51.0 49.0 47.8
7 61.3 60.7 59.7 59.1 56.4 54.3 52.6 51.4 49.5 46.4 44.6 42.4 41.2
8 57.0 56.2 55.4 54.5 51.8 49.7 47.8 46.7 44.6 41.6 39.8 37.6 36.4
9 53.6 52.5 51.8 51.2 48.1 45.9 44.4 42.9 41.0 38.0 36.1 34.0 32.7
10 50.6 49.8 49.0 48.3 45.2 42.9 41.4 40.1 38.0 35.0 33.2 31.0 29.8
11 48.1 47.2 46.5 45.8 42.8 40.6 39.0 37.7 35.6 32.6 30.8 28.7 27.5
12 46.2 45.2 44.4 43.8 40.7 38.5 36.9 35.5 33.5 30.5 28.8 26.7 25.5
13 44.4 43.4 42.8 41.9 39.0 36.8 35.1 33.9 31.8 28.8 27.1 25.0 23.9
14 42.9 42.0 41.3 40.4 37.4 35.2 33.6 32.3 30.4 27.4 25.7 23.6 22.4
15 41.6 40.7 39.8 39.1 36.2 34.0 32.4 31.1 29.0 26.0 24.3 22.4 21.2
16 40.4 39.5 38.7 37.9 35.0 32.8 31.1 29.8 27.9 24.9 23.2 21.2 20.1
17 39.4 38.5 37.6 36.9 33.8 31.7 30.1 28.8 26.8 23.9 22.2 20.3 19.2
18 38.3 37.4 36.7 35.8 32.9 30.7 29.1 27.8 25.9 22.9 21.3 19.4 18.3
19 37.4 36.5 35.8 34.9 32.0 29.9 28.3 27.0 25.1 22.2 20.5 18.6 17.5
20 36.7 35.8 34.9 34.2 31.3 29.1 27.5 26.2 24.3 21.4 19.8 18.0 16.9
25 33.5 32.5 31.8 31.1 28.1 26.0 24.5 23.3 21.4 18.6 17.0 15.2 14.2
30 31.2 30.3 29.5 28.8 26.0 23.9 22.3 21.1 19.3 16.6 15.1 13.4 12.5
35 29.5 28.6 27.9 27.1 24.3 22.2 20.7 19.6 17.8 15.2 13.7 12.1 11.1
40 28.1 27.3 26.5 25.8 23.0 21.0 19.5 18.4 16.6 14.1 12.7 11.1 10.2
45 27.0 26.1 25.4 24.7 21.9 20.0 18.5 17.4 15.7 13.2 11.8 10.3 9.4
50 26.1 25.3 24.6 23.8 21.1 19.1 17.7 16.6 14.9 12.5 11.1 9.6 8.7
100 21.5 20.7 19.9 19.3 16.7 14.9 13.6 12.5 11.0 8.9 7.7 6.4 5.7
Tabla A.4 – Cuantil a 95 % del porcentaje de inercia explicado por el primer plano de
10 000 ACP efectuados sobre tablas constituidas por variables independientes (el número de
individuos varía de 5 a 100 y el número de variables de 17 a 200) : por ejemplo, para una
tabla con I = 50 individuos y K = 30 variables, 95 % de los porcentajes de inercia explicado
por el primer plano son inferiores a 19.1%.
193
Husson – Lê – Pagès Análisis de datos con R
1 > library(FactoMineR)
2 > temperaturas <- read.table("http://factominer.free.fr/libra/temperaturas.csv",
header=TRUE, sep=";", dec=".", row.names=1)
3 > res <- PCA(temperaturas, ind.sup=24:35, quanti.sup=13:16, quali.sup=17)
4 > plot.PCA(res, choix="ind", habillage=17, cex=0.7,title="Mi ACP")
5 > graph.var(res, draw=c("var","Media"),label=c("Mayo","Media"))
6 > write.infile(res, file="c:/essai.csv", sep = ";")
194
Anexo
Exportación de los gráficos. Los gráficos pueden exportarse bajo diferentes formatos (pdf,
emf, eps, jpg, etc.). Para ello, hacer clic en el gráfico y hacer Archivo y luego Guardar
como. Otra posibilidad es hacer clic con el botón derecho del ratón en el gráfico y de Copiar
como metafile. El gráfico puede entonces ser pegado directamente en un editor (Word
o Powerpoint por ejemplo). Es así posible disociar el gráfico y retocarlo para mejorar la
legibilidad.
Selección de individuos y/o de variables en un análisis. Es muy fácil realizar un análisis con
una parte del juego de datos. Las líneas siguientes permiten ejecutar un ACP sobre una
parte de la tabla de datos (entre los [ , ] los individuos se precisan antes de la coma y las
variables después) :
1 > res<-PCA(temperaturas[,1:12])
2 > res<-PCA(temperaturas[c(1:10,15:20),1:12])
3 > res<-PCA(temperaturas[-c(4:6,8,10),1:12])
1. Sobre el conjunto de los individuos pero únicamente con las variables de 1 a 12.
2. Sobre los individuos de 1 a 10 y de 15 a 20 pero únicamente con las variables de 1 a
12.
3. Sobre todos los individuos salvo los individuos de 4, 5, 6, 8 y 10 y con las variables de
1 a 12.
Función Descripción
read.table importa una tabla de datos de un archivo y crea un data-
frame (tabla que puede contener variables cuantitativas
y/o cualitativas y que contiene informaciones tales como
el nombre de las filas y el nombre de las columnas)
read.csv importa una tabla de datos de un archivo que tiene una
extensión csv y crea un data-frame
write.table escribe una tabla en un archivo
write.infile función del paquete FactoMineR que escribe todos los ele-
mentos de una lista en un archivo csv
save salva objetos R en un archivo .Rdata
load recupera los objetos guardados con la función save
history recupera las últimas líneas de códigos ejecutados
save.history salva el historial de las últimas líneas de código ejecutados
Función Descripción
cbind.data.frame yuxtapone los data-frames en columnas (pega las colum-
nas unas al lado de otras)
195
Husson – Lê – Pagès Análisis de datos con R
Función Descripción
rbind.data.frame yuxtapone los data-frames en filas ; los nombres de co-
lumnas de data-frames deben ser idénticos (pega las filas
una debajo de la otra, las columnas son clasificadas en el
mismo orden para todas las tablas con el fin de poner las
variables en correspondencia antes de la concatenación)
sort clasifica un vector por orden creciente (decreciendo si
decreasing = TRUE)
order clasifica una tabla en función de una o varias columnas
(o filas) : x[order(x[,3], -x[,6]), ] clasifica la tabla
x en función (creciente) de la tercera columna de x luego,
en caso de igualdad en la tercera columna de x, en función
(decreciente) de la sexta columna de x
dimnames da los nombres de las dimensiones de un objeto (lista,
matriz, data-frame, etc.)
rownames da los nombres de las filas de una matriz o de un data-
frame
colnames da los nombres de las columnas de una matriz o de un
data.frame
dim da las dimensiones de un objeto
nrow da el número de filas de una tabla
ncol da el número de columnas de una tabla
factor define un vector como un factor, i.e., una variable cua-
litativa (si ordered=TRUE los niveles de los factores son
considerados como ordenados)
levels da las modalidades de una variable cualitativa (niveles de
un factor)
nlevels da el número de modalidad de una variable cualitativa
which da las posiciones de los valores verdaderos de un vec-
tor o de una tabla lógica : el parámetro arr.ind=TRUE
permite devolver los números de filas y de columnas
de la tabla : which(c(1,4,3,2,5,3) == 3) devuelve
3 6 ; which(matrix(1:12,nrow=4) ==3,arr.ind=TRUE)
devuelve (fila 3, columna 1)
is.na comprueba si el dato está ausente
Función Descripción
mean(x, media de x calculada sobre los datos presentes
na.rm=TRUE)
196
Anexo
Función Descripción
sd(x) desviación-tipo de x
var(x) varianza de x, si x es un vector, o una matriz de varianza-
covarianza, si x es una matriz (varianza sin sesgo)
cor(x) matriz de correlación de x
quantile(x, cuantiles de x de orden probs
probs)
sum(x) suma de los elementos de x
min(x) mínimo de x
max(x) máximo de x
scale(x, centra (center=TRUE) y reduce (scale=TRUE) x
center=TRUE,
scale=TRUE)
colMeans(x) calcula la media de cada columna de la tabla x
rowMeans(x) calcula la media de cada fila de la tabla x
apply(x,MARGIN, aplica la función FUN sobre las filas o sobre las columnas
FUN) de la tabla x : apply(x, 2, mean) calcula las medias de
cada columna de x ; apply(x, 1, sum) calcula las sumas
de cada fila dex
Función Descripción
PCA análisis en componentes principales con posibilidad de te-
ner individuos suplementarios, variables cuantitativas y
cualitativas suplementarias
CA análisis factorial de correspondencias con posibilidad de
tener filas y columnas suplementarias
MCA análisis de correspondencias múltiples con posibilidad de
tener individuos suplementarios, variables cuantitativas y
cualitativas suplementarias
dimdesc describe los ejes factoriales
catdes describe una variable cualitativa en función de las va-
riables cuantitativas y/o cualitativas
condes describe una variable cuantitativa en función de las va-
riables cuantitativas y/o cualitativas
HCPC clasificación ascendente jerárquica sobre componentes
principales
graph.var dibuja el gráfico de las variables a partir de ciertas va-
riables únicamente
197
Husson – Lê – Pagès Análisis de datos con R
Función Descripción
x11() crea una nueva ventana gráfica vacía
pdf, postscript, guarda un gráfico en el formato pdf, postscript, jpeg, png,
jpeg, png, bmp bmp ; todas las funciones se utilizan de la misma manera :
pdf("mongraphe.pdf") ; orden gráfico ; dev.off()
Función Descripción
print escribe los resultados (el conjunto de los resultados o un
extracto)
plot construye un gráfico
Por ejemplo print.PCA, print.CA, print.MCA, pueden ser llamadas por la instrucción gené-
rica print. Según la clase del objeto (resultados procedentes de un ACP, un AFC, un ACM),
las salidas o los gráficos serán específicos. Para tener una ayuda sobre la función que escribe
un objeto PCA, por ejemplo : help ("print.PCA").
El interfaz (cf. figura A.1) se abre automáticamente. Este interfaz posee un menú deslizante,
una ventana de guión y una ventana de salida. Cuando el menú deslizante es utilizado, el
análisis es lanzado y las líneas de código que sirvieron para generar el análisis son escritas
en la ventana de guión.
Para importar los datos con Rcmdr, lo mas simple es tener un archivo Excel :
Datos → Importar datos → Desde conjunto de datos Excel
Con un archivo en el formato txt o csv :
Datos → Importar datos → Desde archivo de texto portapapeles o URL
A continuación hay que precisar el separador de columnas (separador de campos) y el sepa-
rador de decimales (un "." o una ",").
Para verificar que el juego de datos ha sido bien importado :
Estadísticos → Resúmenes → Conjunto de datos activo
198
Anexo
Para importar un juego de datos en el formato csv que contiene la identificador de los indivi-
duos, no es posible precisar en el menú deslizante de Rcmdr que la primera columna contiene
el identificador. Podemos entonces importar el juego de datos considerando la identificación
como una variable. Modificamos entonces la línea de código escrita en la ventana de guión
añadiendo el argumento row.names=1 y haciendo clic sobre Ejecutar.
Para cambiar de juego de datos activo, hacer clic en el encuadrado Datos. Si se modifica
el juego de datos activo (por ejemplo, convirtiendo una variable), es necesario validar esta
modificación del juego de datos por :
Datos → Conjunto de datos activo → Actualizar conjunto de datos activo
La ventana de salida toma las líneas de código en rojo y los resultados en azul. Los gráficos
son dibujados en R. Al final de una sesión Rcmdr, es posible guardar la ventana de guión,
es decir, todas las instrucciones así como el archivo de salida, es decir, todos los resultados.
Podemos cerrar a la vez R y Rmcdr haciendo Fichero → Salir → De Commander y R.
Observaciones
– Escribir en la ventana de guión de Rcmdr o en la ventana de R es totalmente equivalente.
Si una instrucción es lanzada desde Rcmdr, también es reconocida en R y viceversa. Los
objetos creados por Rcmdr pueden pues ser utilizados en R.
– Es posible que las ventanas de Rcmdr se abran mal escondiéndose detrás de ventanas ya
abiertas. En este caso, bajo Windows, hacer clic con el botón derecho del ratón en el
icono de R o en el atajo que permite lanzar R, y luego hacer clic sobre (Propiedades), y
modificar Blanco añadiendo "–sdi" después del camino de acceso al archivo Rgui.exe,
lo que da por ejemplo :
"C:\Program Files\R\R-2.9.0\bin\Rgui.exe" --sdi
199
Husson – Lê – Pagès Análisis de datos con R
El menú desplegable
Un interfaz gráfico está también disponible y puede ser instalado en el interfaz del paquete
Rcmdr (cf. § A.2.2). Para cargar el interfaz de FactoMineR, hay dos posibilidades :
– Instalar definitivamente el menú desplegable de FactoMineR en Rcmdr. Para ello, solamente
hay que escribir o copiar-pegar la fila de código siguiente en una ventana R :
> source("http://factominer.free.fr/install-facto.r")
1. Kaufman L. & Rousseuw P.J. (1990). Finding groups in data. An introduction to cluster analysis.
Wiley, New-York, 342 p.
200
Anexo
Para las utilizaciones posteriores del menú desplegable de FactoMineR, basta con lanzar
Rcmdr con el comando library(Rcmdr), y el menú desplegable entonces está presente por
defecto.
– Instalar para la sesión utilizada en ese momento el menú desplegable de FactoMineR en
Rcmdr. Para ello, hay que instalar una sola vez el paquete RcmdrPlugin. FactoMineR.
Luego, cada vez que se quiere utilizar el menú desplegable de FactoMineR, hay que lanzar
Rcmdr, luego hacer clic sobre Herramientas → Cargar Plug-in Rcmdr. Hay que escoger
el Plug-in de FactoMineR en la lista, Rcmdr después debe reiniciarse para tener en cuenta
este nuevo plug-in. Esto es más complicado, por eso aconsejamos optar más bien por la
primera posibilidad. Una utilización del menú desplegable es propuesta para el ACP más
abajo.
1. Importar los datos
El menú desplegable de Rcmdr propone varios formatos para importar los datos.
Cuando el archivo está en un formato de texto (txt, csv), no se puede precisar que la
primera columna contiene el identificador de los individuos ( lo que es frecuentemente
el caso en el análisis de los datos). Preferiremos realizar la importación a través del
menú de FactoMineR.
FactoMineR → Import data from txt file
Hacer clic sobre Rownames in the first column (si el nombre de los individuos está
presente en la primera columna) y precisar el separador de columnas (separador de
campos) y el separador de decimal.
2. El ACP con FactoMineR
Haga clic en la pestaña FactoMineR. Elegir Principal Components Analysis para
abrir la ventana principal del ACP (cf. figura A.2).
Entonces es posible seleccionar variables cualitativas suplementarias (Select supplementary
factors), variables cuantitativas suplementarias (Select supplementary variable)
e individuos suplementarios (Select supplementary individuals). Por defecto, los
resultados sobre las 5 primeras dimensiones son proporcionados en el objeto res, las
variables son centradas-reducidas y los gráficos son proporcionados para el primer
plano (ejes 1 y 2). Es preferible pulsar sobre Apply más bien que Submit, lo que per-
mite lanzar el análisis guardando la ventana abierta y de modificar ciertas opciones
sin tener que rehacer todo el parametraje.
La ventana de las opciones gráficas (cf. figura A.3) está separada en dos partes. La parte
izquierda concierne el gráfico de los individuos mientras que la parte derecha concierne
el gráfico de las variables. Es posible representar sólo las variables cualitativas suple-
mentarias (sin los individuos, en Hide some elements : seleccionar ind) ; también es
posible omitir las etiquetas de los individuos (Label for the active individuals).
Los individuos pueden ser coloreados en función de una variable cualitativa (Coloring
for individuals : escoger la variable cualitativa).
La ventana de las diferentes opciones de salida permite visualizar los diferentes re-
sultados (valores propios, individuos, variables, descripción automática de los ejes).
Todos los resultados también pueden ser exportados a un archivo csv (archivo legible
por Excel).
201
Husson – Lê – Pagès Análisis de datos con R
> library(dynGraph)
> dynGraph(res)
El gráfico de los individuos se abre por defecto y es posible desplazar las etiquetas de los
individuos para evitar que se sobrepongan, de colorear los individuos en función de una
variable cualitativa, de representar los puntos con uno talla proporcional a una variable
cuantitativa, etc. También podemos seleccionar individuos en una lista o directamente en la
pantalla con el ratón y ponerlos en modo fantasma. El gráfico puede entonces ser guardado
en diferentes formatos (emf, JPEG, pdf, etc.). El gráfico puede también ser guardado tal cual
202
Anexo
y reabrirse posteriormente : esto es útil cuando los gráficos son lentos para pulir. La copia
de seguridad es entonces un archivo ser.
203
Anexo
He aquí una bibliografía de los principales paquetes que permiten realizar análisis factoriales
o clasificaciones con R. Para una lista más detallada de los paquetes, remítase a la siguiente
página web para los métodos de análisis factorial :
http://cran.r-project.org/web/views/Multivariate.html
y la página web siguiente para los métodos de clasificación :
http://cran.r-project.org/web/views/Cluster.html
– El paquete ade4 propone funciones de análisis de datos para analizar datos ecológicos y
medioambientales. El número de funciones disponibles es muy grande y muchas funciones
pueden ser utilizadas en otros contextos fuera del contexto ecológico (funciones dudi.pca,
dudi.acm, dudi.fca, dudi.mix, dudi.pco, etc.).
Dray S. and Dufour A. B. (2007). The ade4 package : implementing the duality diagram
for ecologists. Journal of Statistical Software. 22, 1-20.
Existe una página web dedicada a este paquete : http://pbil.univ-lyon1.fr/ADE-4/
– El paquete ca, propuesto por Greenacre y Nenadic, está dedicado al análisis simple de
correspondencias (function ca) o múltiple (function mjca). Las numerosas extensiones
para las variables cualitativas están disponibles en este paquete.
– El paquete cluster permite realizar clasificaciones estándares y más concretamente, la cla-
sificación jerárquica ascendente con la función agnes.
– El paquete dynGraph es un programa de visualización que ha sido desarrollado inicialmente
para el paquete FactoMineR. El principal objetivo de dynGraph permite al usuario explorar
sus salidas gráficas multidimensionales de modo interactivo utilizando indicadores numé-
ricos.
Existe una página web dedicada a este paquete : http://dyngraph.free.fr
– En este libro se ha utilizado el paquete FactoMineR el cual permite realizar fácilmente aná-
lisis de datos multivariados (funciones PCA, CA, MCA, HCPC) proporcionando nume-
rosos gráficos (funciones plot, plotellipses) y ayudas en la interpretación de los resultados
(funciones dimdesc, catdes).
Husson F., Josse J., Lê S. & Mazet J. (2009). FactoMineR : Multivariate Exploratory
Data Analysis and Data Mining with R. R package version 1.12.
Lê S., Josse J. & Husson F. (2008). FactoMineR : An R Package for Multivariate Analysis.
Journal of Statistical Software, 25, 1-18.
205
Husson – Lê – Pagès Análisis de datos con R
206
Anexo
Bibliografía
Esta bibliografía está dividida en varias secciones, cada una de ellas proporciona las re-
ferencias específicas asociadas a un método : análisis de componentes principales, análisis
factorial de las correspondencias simples y múltiples y métodos de clasificación.
207
Husson – Lê – Pagès Análisis de datos con R
– Le Roux B. & Rouanet H. (2004). Geometric Data Analysis, From Correspondence Ana-
lysis to Structured Data Analysis. Dordrecht : Kluwer.
– Peña D. (2002). Análisis de datos multivariantes. McGraw-Hill, Madrid.
208
Índice
Índice
A ilustrativa . . . . . . . . . . . . . . . . . . . . . . . . 79
ACM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 suplementaria . . . . . . . . . . . . . . . . . . . . 79
ACP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Commander (paquete) . . . . . . . . . . . . . . . 198
AFC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 Componente principal . . . . . . . . 10, 15, 132
AFCM . . . . . . . . . . . . . . . . . . . . . . . . voir ACM Consolidación . . . . . . . . . . . . . . . . . . . . . . . . 173
Agregación alrededor de los centros mó- Contingencia (tabla de) . . . . . . . . . . . . . . . 57
viles . . . . . . . . . . . . . . . . . . . . . . . 159, Contribución
171 a χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
Análisis de componentes principales . . . . 1 de un individuo. . . . . . . . . . . . . .17, 131
Análisis de Correspondencias Múltiples119 de una columna . 76, 82, 93, 108, 111
Análisis Factorial de Correspondencias 58 de una fila . . . . . . . . . . . . . . . 76, 82, 108
Análisis Factorial de Correspondencias Múl- de una modalidad . . . . . . . . . . . . . . . 131
tiples . . . . . . . . . . . . . . . . . . . . . . . voir de una variable . . . . . . . . . . . . . . . . . . . 17
AFCM Correlación
Árbol jerárquico . . . . . . . . . . . . . . . . . . . . . 157 coeficiente . . . . . . . . . . . . . . . . . . . . . . . . . 3
Asignar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 matriz . . . . . . . . . . . . . . . 3, 9, 34, 40, 44
Ausencia de respuesta . . . . . . . . . . . . . . . 140 Cramer (V de) . . . . . . . . . . . . . . . 76, 98, 104
Ayudas a la interpretación . . . . 15, 73, 131 Criterio
de χ2 . . . . . . . . . . . . . . . . . . . . . . . . . 61, 79
B de Φ2 . . . . . 61, 63, 69, 76, 80, 98, 104
Biplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 de agregación . . . . . . . . . . . . . . . . . . . 168
de Ward . . . . . . . . . . . . . . . . . . . . . . . . 175
C Cuestionario . . . . . . . . . . . . . . . . . . . . . . . . . 138
Calidad de representación 75, 77, 82, 111,
131 D
Calidad de representación . . . . . . . . . . . . 16 Datos
Casi–baricentro . . . . . . . . . . . . . . . . . . . . . . . 71 ausentes . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Centrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 centados-reducidos . . . . . . . . . . . . . . . 39
Clasificación textuales . . . . . . . . . . . . . . . . . . . . . . . . . 83
Jerárquica Ascendente . . . . . . . . . . 159 Dendrograma . . . . . . . . . . . . . . . . . . . . . . . . 157
Clasificación supervisada . . . . . . . . . . . . . 160 Descomposición de χ2 . . . . . . . . . . . . . . . . .62
Clasificar . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 Descripción
Codificación . . . . . . . . . . . . . . . . . . . . . . . . . 138 automática de los ejes . . . . . 22, 35, 51
Coeficiente de correlación . . . . . . . . . . . . . . 3 automático de los ejes . . . . . . . . . . . 134
Columna de una modalidad . . . . . . . . . . . . . . . 141
209
Husson – Lê – Pagès Análisis de datos con R
210
Índice
N en clases . . . . . . . . . . . . . . . . . . . . . . . . 139
Niveles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 en grupos . . . . . . . . . . . . . . . . . . . . . . . 183
No normada . . . . . . . . . . . . . . . . . . . . . . . . . . 14 en intervalos . . . . . . . . . . . . . . . . . . . . 102
No normado . . . . . . . . . . . . . . . . . . . . . . . . . 176 Reducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Normada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Relaciones
Normado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 de dualidad . . . . . . . . . . . . . . . . . . . 15, 69
Nube de transición . . . . . . . . . . . . . 15, 70, 129
de perfiles-columnas . . . . . . . . . . . . . . 63 Relación entre variables . . . . . . . . . . . . . . . . 3
de perfiles-filas . . . . . . . . . . . . . . . . . . . 62 Representación
individuos . . . . . . . . . . . . . . . . . . . . . . . . . 5 baricéntrica . . . . . . . . . . . . . . . . . . . . . . 71
Nube de variables . . . . . . . . . . . . . . . . . . . . . 12 simultánea . . . . . . . . . . . . . . . . . . . . . . . 70
Nudo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 superpuesta . . . . . . . . . . . . . . . . . . 69, 70
Número de ejes . . . . . . . . . . . . . . . . . . . . . . . 66 Rotación varimax . . . . . . . . . . . . . . . . . . . . . 25
P S
Package Salto mínimo . . . . . . . . . . . . . . . . . . . . . . . . 163
FactoMineR . . . . . . . . . . . . . . . . . . . . . 200 Segmentos repetidos . . . . . . . . . . . . . . . . . . 85
Palabras herramientas . . . . . . . . . . . . . . . . 85 Similitudes . . . . . . . . . . . . . . . . . . . . . . . . . . 162
Paquete Stematización . . . . . . . . . . . . . . . . . . . . . . . . . 85
Rcmdr . . . . . . . . . . . . . . . . . . . . . . . . . . .198 Suplementaria
Particionamiento . . . . . . . . . . . . . . . . 159, 173 variable cualitativa . . . . . . . . . . . . . . . 20
Partitionnement . . . . . . . . . . . . . . . . . . . . . 171 variable cuantitativa . . . . . . . . . 18, 134
Parábola . . . . . . . . . . . . . . . . . . . . . . . . 109, 149 Suplementario . . . . . . . . . . . . . . . . . . . . . . . . 79
Perfil . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87, 103 elemento . . . . . . . . . . . . . . . . . . . . 79, 112
columna . . . . . . . . . . . . . . . . . . . . . . 62, 68 individuo . . . . . . . . . . . . . . . . . . . . . 21, 36
fila . . . . . . . . . . . . . . . . . . . . . . . . . . . 62, 68
medio . . . . . . . . . . . . . . . . . . . . . . . . 62, 70 T
Peso de los individuos . . . . . . . . . . . . . . 6, 28 Tabla
Politético . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 cruzada . . . . . . . . . . . . . . . . . . . . . . . . . . 57
Porcentaje de Burt . . . . . . . . . . . . . . . . . . . . . . . . . 144
de inercia . . . . . . . . . . . . 15, 75, 77, 131 de contingencia. . . . . . .57, 87, 96, 101
de variabilidad . . . . . . . . . . . . . . . . . . 167 disyuntiva completa . . . . . . . . . . . . . 121
Pregunta abierta . . . . . . . . . . . . . 84, 96, 139 léxica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
Presencia - ausencia . . . . . . . . . . . . . . . . . 162 Teorema de Huygens . . . . . . . . . . . . . . . . . 166
Presencia-ausencia . . . . . . . . . . . . . . . . . . . 120 Test de χ2 . . . . . . . . . . . . . . . . . . 89, 104, 141
Probabilidad marginal . . . . . . . . . . . . . . . . 58 Textual . . . . . . . . . . . . . . . . . . . . . . . . . . . 83, 95
Propiedad baricéntrica . . . . . . . . . . . . . . . . 70 Tipología . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Q V
QCM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 V de Cramer . . . . . . . . . . . . . . . . . 76, 98, 104
Valor - prueba . . . . . . . . . . . . . . . . . . . . . . . 141
R Valor propio . . 9, 66, 71, 73, 75, 82, 84, 99
R Commander (paquete). . . . . . . . . . . . .198 Variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
Reagrupar modalidades . . . . . . . . . . . . . . 146 cualitativa. . . . . . . . . . . . . . . . . . . . . . . .58
Recorte cualitativa suplementaria . . . . . . . . 20
211
Husson – Lê – Pagès Análisis de datos con R
W
Ward . . . . . . . . . . . . . . . . . . . . . . . . . . . 166, 175
212