TP Acp Temp
TP Acp Temp
TP Acp Temp
Remarque : tous les fichiers de données ainsi que les macro commandes SAS
TP: ACP élémentaire d’un fichier de sont disponibles sur le site wikistat/data. Télécharger le fichier temp.dat.
températures
3 Avec SAS/Insight
Résumé 3.1 Lecture des données
Pratique élémentaire de l’Analyse en composantes principales avec data sasuser.tempville;
les logiciels SAS et R. infile "temp.dat" ;
input ville $ janv fevr mars avri mai juin juil aout
1 Avertissement sept octo nove dece;
run;
– Les différents travaux et analyses proposés tout au long de ces documents
sont largement explicités. Les commandes en R ou SAS sont toutes four- Lance le module d’analyse interactive des données, ouvrir la table SAS qui
nies. L’important n’est pas de trouver la bonne syntaxe des commandes vient d’être créée puis déclarer la variable ville comme label.
ou de finir au plus vite mais de réfléchir sur les méthodes, leurs conditions
d’applications, les résultats obtenus. L’apprentissage de ces logiciels et de
3.2 Exploration élémentaire
leur programmation est un autre cours. 1. Etudier les distributions de chaque variable (diagramme boîte parallèle
– Il est possible de directement copier les commandes de l’affichage de ce de toutes les variables avec Box plot/ Mosaic plot), vérifier le
texte vers une fenêtre d’édition mais attention certains caractères, “mo- comportement correct de ces distributions, l’absence de valeur atypique,
difiés” par les normes d’affichage réservent des surprises, notamment le l’homogénéité des variances.
caractère “ ’ ” (quote) n’a pas la même fonction que le caractère “ ’ ” 2. Tracer la matrice des nuages de points (scatterplot) : commentaire sur la
(apostrophe). Il est vivement conseillé d’ouvrir une fenêtre d’édition de structure particulière des corrélations.
texte (xemacs, kile, notepad...), pas de traitement de texte (ni word, ni
open office), qui contiendra les différentes commandes a faire exécuter. 3.3 ACP
– Il est aussi possible de prendre le temps d’entrer les commandes au cla-
vier, cela laisse le temps de réfléchir ! 1. Le menu multivariate d’Insight propose une ACP. Lister les options
proposées.
2 Objectif 2. Choisir une ACP non réduite (pourquoi ?), demander le calcul de toutes
les composantes principales.
L’objectif de cette séance est d’aborder l’analyse en composantes prin- 3. Tracer les boîtes parallèles de ces composantes. Commentaire sur le choix
cipales sur un exemple simple afin d’évaluer les différentes possibilités of- du nombre de dimension c’est-à-dire le nombre de composantes à retenir.
fertes par les logiciels disponibles. Les données étudiées sont celles du fichier
4. Identifier la ville atypique.
temp.dat. Il contient les moyennes, entre 1931 et 1960, des températures
mensuelles moyennes de 36 villes françaises. La première variable correspond 5. Exclure puis ré-inclure cette ville des calculs. Les résultats en sont-ils
au nom de la ville (4 caractères), les 12 suivantes représentent chacune un mois modifiés ? Que dire de la stabilité du 2ème axe ?
de l’année (source : Mémorial de la Météorologie nationale). 6. Interprétation des axes.
1
TP: ACP élémentaire d’un fichier de températures
7. Sauver le graphe obtenu (biplot) afin d’en comparer les coordonnées avec 1. Apprécier le temps d’exécution.
les autres approches. 2. Ouvrir le fichier sashtml.htm
3. L’ACP est-elle réduite ?
4 Avec des macros ad’hoc de SAS
4. Tous les graphiques sont-ils pertinents ? Lequel manque-t-il ?
Télécharger et exécuter dans SAS les macros contenus dans les fichiers : 5. Comparer avec les résultats précédents.
acp.sas, gacpix.sas, gacpvx.sas, gacpsx.sas,
gacpbx.sas 6. Interpréter : "principal components pattern profiles"
de http://www.lsp.ups-tlse.fr/Besse/pub/sas
puis exécuter successivement en prenant le temps de comprendre les sorties 6 ACP avec R
(output) ainsi que les graphes :
6.1 Fonction de base
%acp(tempville, ville, janv fevr mars avri mai juin
juil aout sept octo nove dece,red=cov); Editer le fichier temp.dat pour introduire une première ligne contenant le
%gacpsx; nom des 12 variables séparées par un espace. Sauver ce fichier sous un nou-
%gacpbx; veau nom : temp-r.dat. Lancer R dans une fenêtre "console" puis exécuter
%gacpix; successivement les commandes suivantes :
%gacpvx; temp=read.table("temp-r.dat")
summary(temp)
1. L’acp est-elle réduite ? plot(temp)
2. Comparer avec les sorties de SAS/Insight acp=princomp(temp)
summary(acp)
3. Avec quelles coordonnées sont représentées les villes ? plot(acp)
4. Avec quelles coordonnées sont représentées les variables ? attributes(acp)
boxplot(data.frame(acp$scores)) # Que contient
5 Avec SAS/Stat de base et ODS # l’attribut "scores" ?
biplot(acp) # analyser les échelles des axes
Exécuter les commandes ci-dessous si ça marche sinon sauter cette section. acp$loadings # Que sont les "loadings" ?
ods html; Comparer avec les sorties précédentes. Est-il simple de bien déterminer quelle
ods graphics on; matrice de coordonnées est utilisée pour représenter les variables ?
proc princomp data=sasuser.tempville cov;
Commenter la position d’Embrun sur les graphiques.
var janv--dece;
run; 6.2 Librairie FactoMineR
ods graphics off;
ods html close; Développée à l’Agrocampus de Rennes (http ://factominer.free.fr) cette li-
brairie est principalement dédiée aux méthodes statistiques factorielles. Elle
2
TP: ACP élémentaire d’un fichier de températures
Cette librairie ajoute dans les techniques exploratoires des éléments : p-valeurs
de test, ellipse de confiance... supposant implicitement un modèle probabiliste ;
ils sont à utiliser avec prudence, plus comme des indicateurs que comme des
aides formels à la décision.