Document SPSS - 7

Formation « Traitement des données
avec le logiciel statistique SPSS »
Animation : Etienne F. KOUTON

Du 08 au 12/08/2022
Cotonou
Ce programme est financé par

l’Union européenne
Orientation et contenu de l’atelier
Objectifs pédagogiques :
Au cours de l’atelier, les participants apprendront à :
1. Connaître les principales fonctions du logiciel SPSS et son environnement.
2. Créer et lire des bases de données sous SPSS.
3. Préparer et traiter les données sous SPSS.
4. Faire la programmation sous SPSS.
5. Interpréter les résultats des sorties SPSS.
6. Réaliser des graphiques professionnels avec SPSS.
7. Connaître les Interface R et R studio.
8. Connaître les avantages/inconvénients de SPSS comparativement au logiciel R
Ce programme est financé par 2021 2

Orientation et contenu de l’atelier
Programme :
Thème 1 : L’installation et la prise en main du logiciel SPSS ( Durée : 7h15’, Jour 1)
Thème 2 : Analyse des données (Durée : 18h45’, Jours 2 à 4)
Thème 3 : Présenter et Interpréter les données (Durée : 5h15’, Jour 4)
Thème 4 : Initiation à la programmation sous SPSS, Analyse comparée

SPSS et R (Durée : 3h00’, Jour 5)

Démarche pédagogique & Supports de formation
Démarche pédagogique :
▪ Complémentarité des phases d’échanges, de présentations magistrales et d’ateliers de
mise en pratique.
▪ Alternance : exposé des formateurs, questions-réponses, exercice en commun,
brainstorming, travaux de groupe/exercice individuel, restitution/discussion, et
synthèse des formateurs.
Les fichiers constitutifs de la mallette pédagogique :

▪ Cahier de l’apprenant.
▪ Cahier des travaux pratiques
▪ Bases de données pour les travaux pratiques
▪ Des documents complémentaires (documents de lecture en format PDF, Word),
constitutifs des annexes de la mallette pédagogique.

Représentation schématique du logiciel SPSS

Les fenêtres et leurs contenus

Vocabulaire de base de SPSS

L’Editeur de données

L’Editeur de syntaxe

La page des résultats

Les analyses statistiques

La selection des variables

Les commandes de SPSS
Les commandes de SPSS se regroupent en cinq catégories :

• les commandes de manipulation de fichiers
• les commandes de formatage
• les commandes de manipulation de données
• la commande pour faire des graphiques
• les commandes d'analyses statistiques proprement dites

• Les commandes de manipulation de fichiers permettent d'importer des

fichiers de données pré existant dans SPSS, où encore (dans le cas de la
commande Aggregate) de produire un nouveau fichier contenant des
données résumées.
• Les commandes de formatage ont pour but d'améliorer l'affichage des
résultats.
• Les commandes de manipulation de données ont pour but de modifier les
données contenues dans le fichier actif.

• La création de graphiques est une part importante de l'activité

d'analyse des résultats. La commande pour faire des graphiques
permet de réaliser différents types de graphiques.
• Il existe dans SPSS un très grand nombre de commandes
d'analyses statistiques. Après tout, l'objectif final de ce logiciel est
de faire de la statistique. Plusieurs d’entre eux sont présentés dans
le cahier de l’apprenant.

Analyse des données
Etapes successives du processus d’analyse des données
• Analyse exploratoire
• Analyse univariée
• Analyse bivariée
• Analyse multivariée

Analyse exploratoire
Explorer permet d'obtenir des statistiques et des affichages pour
toutes vos observations ou pour des groupes d'observations
distincts. Vous pouvez ainsi obtenir des box plots, des graphiques
tiges et feuilles, des histogrammes, des tests de normalité, des
estimations de position robustes, des tableaux de fréquences,
ainsi que d'autres statistiques et graphiques explicatifs.

Analyse univariée
L’analyse univariée permet :
• d’une part d’identifier les variables à variation nulle ou très faible
et qui n’offrent donc pas d’intérêt pour l’analyse statistique sauf si
on s’arrête au niveau descriptif le plus bas et,
• d’autre part, de vérifier si les variables dont on dispose répondent
bien à la condition de normalité sur laquelle sont basées beaucoup
de techniques statistiques.

Analyse bivariée
• Permet de mettre en évidence les éventuelles associations
(simple covariation ou dépendance causale) entre deux
variables.
• Passage obligé vers une analyse plus complexe, car bon
nombre des techniques multivariées s’appuient sur la matrice
de relation calculée par paire de variables.

Analyse bivariée
Points importants à ce stade :
• L’association est-elle symétrique (pas d’hypothèse de dépendance ou de prédiction entre variables)
ou asymétrique (dépendance causale/prédiction) ;
• Tenir le plus possible compte des principales caractéristiques de l’association :
• degré (relation nulle, faible, forte),

• direction – pour des variables de niveau ordinal au moins – (relation négative ou positive),
• forme (relation monotone pour les variables ordinales, relation linéaire ou curvilinéaire pour
des variables qui impliquent au moins la propriété de distance), et
• niveau de signification statistique (relation non significative, significative ou très significative).
Ce travail préliminaire est indispensable avant toute analyse multivariée.

Analyse multivariée
Ensemble des méthodes traitant simultanément plus d'une variable.
On y recourt notamment pour :
• Mesurer le degré d'association entre deux ou plusieurs variables.
• Estimer les paramètres d'une relation entre deux ou plusieurs
variables.
• Evaluer à quel point les différences entre deux ou plusieurs
groupes d'observations sont significatives.
• Tenter de prédire à quel groupe appartient un individu, à partir de
ses autres caractéristiques.
• Essayer de discerner une structure dans un ensemble de données.

L’analyse multivariée peut être menée du point de vue des
individus ou du point de vue des variables :
Deux points de vue :
• Individus : - Ressemblances ou différences

- Recherche de groupes homogènes
• Variables : - Liaisons entre variables

- Recherche d’une explication d’une variable par les autres

Classement des méthodes selon les types de variables
Variable dépendante Variables indépendantes Méthode
2 variables catégorielles ……à 2 dimensions

Analyse de tableau de
Aucune
Plus de 2 variables contingence
…à plus de 2 dimensions
catégorielles
Analyse de variance
Discrètes (catégorielles) OU
Continue Régression multiple
Continues et/ou discrètes Régression multiple
2 catégories ….binomial
Catégorielle Continues et/ou discrètes Logit ou probit
Plus de 2 catégories …multinomial

Classement des méthodes selon l’objectif poursuivi :
Objectif poursuivi But Famille de méthodes Méthodes
Analyse en composantes principales (ACP) pour les

variables quantitatives
Analyse factorielle des correspondances simples (AFC) pour
Factorielles : Réduction du nombre de variables en les
2 variables qualitatives
résumant par un petit nombre de composantes
Analyse des correspondances multiples (ACM) pour
Comprendre au synthétiques appelés facteurs
plusieurs variables qualitatives
mieux les données
Extension : non linéaire, MDS, données mixtes, évolutives,
grâce à une
tableaux…
description Méthodes
Description
simplifiée aussi exploratoires Méthodes de partitionnement en un nombre fixé de classes
proche que a priori : méthode des centres mobiles, nuées dynamiques
possible de la
réalité Méthodes hiérarchiques - suite de partitions emboîtées :
Classification : Réduction du nombre d'individus par la
méthodes de classification ascendante hiérarchique
formation de groupes homogènes
(CAH)….
Extension : classification de variables (méthodes divisives),
méthodes probabilistes modèles de mélanges (non
géométriques)
Numériques : Régression
Expliquer et Modèle linéaire général : Recherche d'une relation entre
Méthodes Qualitatives : Analyse de la variance
prévoir une ou une variable numériques et plusieurs autres :
explicatives, Mixtes : Analyse de la covariance = Régression + Analyse de
Explication et prévision plusieurs variables
décisionnelles ou la variance
en fonction
inférentielles
d'autres variables Analyse discriminante : prédiction d'une variable qualitative à l'aide de plusieurs prédicteurs en général numériques
Extension : Disqual, PLS, ridge, régression logistique, arbre de décision, non linéaire, réseaux de neurones…

Assistance Technique- Appui Complémentaire
Centralisé
Programme d’Appui au Développement Durable du
Secteur Agricole (PADDSA)
Ministère de l’Agriculture, de l’Elevage et de la Pêche (MAEP)

Secrétariat Général du MAEP
03 BP 2900 Cotonou
Tél.: +229 21 30 10 87 / +229 21 30 04 10
Courriel : formation_acc@paddsa.bj


Jour 2: 09/08/2022
Cotonou

Retour sur la journée 1
• Synthèse des points clés de la journée 1 par le rapporteur : ce que je

peux appliquer concrètement et dans quelle situation.

Type de variables statistiques
Discrète
Quantitative
Continue
Variable
statistique
Nominale
Qualitative
Ordinale

Peut-on
additionner deux
oui observations ? non
Variables quantitatives Variables qualitatives
discrètes continues nominales ordinales
Valeurs numériques Nombreuses valeurs Pas d’ordre entre les Ordre entre les
peu nombreuses, numériques modalités modalités
dénombrables comprises dans des
intervalles Sexe, catégorie Degré de
socio- satisfaction, etc.
professionnelle, etc.
Age, nombre de Poids, taille, etc..
frères et soeurs,
nombre de formés,
etc.

Analyse descriptive ou interprétative.
▪ Descriptive : mettre en évidence les principales constatations,

situations, états et circonstances dévoilés par les données collectées
➔ axée sur ce qui s’est passé.
▪ Interprétative : donner un sens et une explication aux constatations et
à établir entre elles une relation de cause à effet ➔ explique
pourquoi cela s’est passé, quelle(s) peu(ven)t être la/les cause(s).

Quelques types d’analyse

▪ Comparaison entre le prévu et le réel (temporel) : différence entre les cibles
identifiées et les résultats réels. Il faut expliquer pourquoi il y a eu une variance.
▪ Comparaison démographique (données ventilées par sexe, âge ou origine ethnique)
afin de comparer la prestation de services à des groupes vulnérables spécifiques.
▪ Comparaison géographique (données par quartier, ou milieu urbain par opposition à
milieu rural).
▪ Comparaison thématique (données sur les interventions en matière de logement
menées sur l’initiative des donateurs par opposition aux interventions engagées sur
l’initiative des propriétaires) pour comparer les approches dans le cadre d’un
programme de reconstruction de logements.
▪ Comparaison technique : matériau, technologie, etc.

De la constatation aux mesures
Terme Définitions Exemples
Constatation ➔ Une déclaration factuelle • Des membres de la communauté ont déclaré (enquête) que
fondée sur des données leur revenu quotidien était inférieur à 1 USD.
primaires et secondaires • Les participants aux discussions de groupe communautaires
ont déclaré qu’ils voulaient trouver un emploi.
Conclusion ➔ Une synthèse (combinée) de • Des membres de la communauté vivent dans la pauvreté en
l’interprétation des résultats raison du manque d’activités créatrices de revenus.
Recommandation ➔ Une consigne basée sur des • Créer des possibilités de microfinance et de microentreprise
conclusions pour que les membres des communautés puissent démarrer
des activités créatrices de revenus culturellement adaptées et
économiquement viables.
Mesure ➔ Une action spécifique visant à • D’ici à décembre 2021, créer 6 groupes pilotes de solidarité
mettre une recommandation en chargés de recenser les possibilités de micro-entreprises et les
pratique bénéficiaires éventuels de prêts.
• D’ici à janvier 2022, mener une étude de marché pour
déterminer la viabilité des possibilités de micro-entreprises.
• Etc.

Les techniques de traitement statistique des données
• Statistiques descriptives : résumé des caractéristiques des données

recueillies sous forme d’une description et d’une présentation chiffrée
simple
• Statistiques inférentielles : mise en évidence des relations entretenues
par des variables, recherche une corrélation et/ou compare des
populations et met à l’épreuve la ou les hypothèses. Permet de
confirmer ou d’infirmer, par des lois de probabilité, si les relations
observées au sein d’un échantillon peuvent être généralisées et donc
s’appliquer à l’ensemble de la population.

Analyse descriptive des données
L’analyse descriptive des données
▪ Description d’une variable (univarié)

– Effectif
– Fréquence, pourcentage
– Tendance centrale (mode, médiane, moyenne)
– Dispersion
▪ Descriptions croisées entre 2 variables

– Relation entre deux variables : corrélation

L’analyse descriptive des données
▪ simple à mettre en œuvre
▪ permet :
• de procéder à une première évaluation de la validité des données
• de déterminer et d’analyser les principales caractéristiques
• de produire des rapports (tableaux, graphiques)
▪ particulièrement adaptée aux données du S&E (traitement
systématique et réponses rapides)

Analyse descriptives des variables
Traitement des données en utilisant les fonctions

▪ NB(), NBVAL(), NBVIDE(), NB.SI( )
▪ SOMME
▪ POURCENTAGES
▪ MOYENNE, MEDIANE, MODE
▪ MIN, MAX, ECARTYPE, etc.

Analyse initiale/exploratoire des données
Fonctions SPSS
Menu : [Analyse /Statistiques descriptives/ Fréquences]

Langage de commandes : Frequencies
Distribuer les fréquences des données
• Sélectionnez [Statistiques] pour demander des statistiques univariées.

• Sélectionnez [Diagrammes] pour demander des diagrammes en barres ou des
histogrammes.
• Sélectionnez [Format] pour gérer l'ordre des valeurs dans le tableau, la disposition de
celui-ci sur la page, l'affichage d'un index, et l'affichage des étiquettes de valeur.

Fonctions SPSS
Menu : [Analyse /Statistiques descriptives/ Explorer]
Langage de commandes : EXAMINE
[Diagrammes] Gérer les résultats sous forme

de graphiques.
[Statistiques] Demander des caractéristiques
[Options] Déterminer le traitement des valeurs
manquantes.
Explorer les données
La procédure Explorer produit des résumés statistiques et des affichages graphiques.

Fonctions SPSS
Plusieurs raisons pour utiliser la procédure Explorer :
• Elle indique les valeurs inhabituelles, les valeurs extrêmes, les trous dans les données ou
d'autres particularités.
• Elle aide à déterminer si les techniques statistiques envisagées pour l'analyse de vos données sont
appropriées (Vérifications des hypothèses)
• Elle informe sur le besoin de transformer les données si la technique d’analyse envisagée nécessite
une répartition gaussienne.
• Elle offre la possibilité de choisir d'utiliser des tests non paramétriques.

Fonctions SPSS
Menu : [Analyse /Statistiques descriptives/ Tableaux croisés...]
Langage de commandes : CROSSTABS
[Statistiques] vous permet de demander des statistiques

bivariées.
[Cellules] vous permet de gérer le contenu des cellules

constituant le tableau. .
Tableaux croisés
Sélectionnez [Supprimer les tableaux] pour voir uniquement les
statistiques, sans les tableaux proprement dits.

Analyse univariée
L’analyse univariée permet :
• d’une part d’identifier les variables à variation nulle ou très faible
et qui n’offrent donc pas d’intérêt pour l’analyse statistique sauf si
on s’arrête au niveau descriptif le plus bas et,
• d’autre part, de vérifier si les variables dont on dispose répondent
bien à la condition de normalité sur laquelle sont basées beaucoup
de techniques statistiques.

Analyse univariée des données
Principe de l’analyse univariée

Étape Nominale Ordonnée Discrète Continue
1. Effectifs A faire A faire A faire Inutile
2. Centralité Mode Médiane Moyenne et Moyenne et
Médiane Médiane
3. Dispersion N’existe pas Quartile Écart type et Écart type et
quartiles quartiles
4. Graphique Histogramme Histogram Histogramme Distribution
des effectifs me des des effectifs, et Graph Zone
effectifs Graph Zone & & Valeur
Valeur

Fonctions SPSS

Fonctions SPSS

Sorties SPSS

Sorties SPSS

Variables Modalités
Le profil des enquêtées
Fréquences Pourcentage
Sorties SPSS Tranche d'age

moins de 18 ans
18 à 25 ans
3
17
5
11,7
28,3
26 à 40 ans
41 à 60 ans 28 46,7
plus de 60 ans 5 8,3
Total 60 100
aucun 7 11,7
primaire 12 20
Niveau d'étude secondaire 14 23,3
graduat 17 28,3
licence et plus 4 6,7
brevet de formation 6 10
Total 60 100
mariée 21 35
divorcée 7 11,7
état civil
veuve 21 35
célibataire 11 18,3
Total 60 100
maraichage 14 23,3
transformation 12 20
commerce 17 28,3
secteur d’activité 17 28,3

élevage
Total 60 100
patronne 31 51,7
statut professionnel employée 12 20
indépendante 17 28,3
Total 60 100

Analyse bivariée
• Permet de mettre en évidence les éventuelles associations
(simple covariation ou dépendance causale) entre deux
variables.
• Passage obligé vers une analyse plus complexe, car bon
nombre des techniques multivariées s’appuient sur la matrice
de relation calculée par paire de variables.

Analyse de deux variables
Type de Représentation Indications
graphique
En secteurs
Affichage des proportions ou des pourcentages d’un
ensemble de données.
En anneau
Comparaison de valeurs de catégories différentes.

En barres
Comparaison entre catégories.
En bâtons
Représentation d’une durée.
Représentation de catégories différentes.
En courbes Représentation d’une évolution ou tendance dans le
temps.
Représentation d’une évolution ou tendance dans le
temps.
En aires
Mise en évidence d’un changement d’une ampleur
importante.
En Représentation de la répartition d'une variable continue
histogramme avec des colonnes.

Analyse bivariée
Savoir si le comportement d'une variable est influencé par
la valeur d'une autre variable :
▪ Corrélation : étudier des relations ou corrélations entre

deux variables statistiques
▪ Régression : résumer la relation entre deux variables
par une fonction simple (ici une droite de type Y = aX + b)

Analyse bivariée des données
Corrélation

Analyse bivariée
Points importants à ce stade :
• L’association est-elle symétrique (pas d’hypothèse de dépendance ou de prédiction entre variables)
ou asymétrique (dépendance causale/prédiction) ;
• Tenir le plus possible compte des principales caractéristiques de l’association :
• degré (relation nulle, faible, forte),
• direction – pour des variables de niveau ordinal au moins – (relation négative ou positive),
• forme (relation monotone pour les variables ordinales, relation linéaire ou curvilinéaire pour
des variables qui impliquent au moins la propriété de distance), et
• niveau de signification statistique (relation non significative, significative ou très significative).
Ce travail préliminaire est indispensable avant toute analyse multivariée.

Type de variables statistiques
Discrète
Quantitative
Continue
Variable
statistique
Nominale
Qualitative
Ordinale

Fonctions SPSS/X et Y deux variables qualitatives

Fonctions SPSS/X et Y deux variables qualitatives

Fonctions SPSS/X qualitative et Y quantitative
Etude de cas : Analyse des disparités régionales dans la superficie totale des
exploitations agricoles au Congo.
On utilise l’analyse de la variance avec un seul facteur (ONEWAY, SUMMARIZE,
MEANS) et le test de Fisher.
*H0 : La superficie des exploitations agricoles ne varie pas selon les régions.
*H1 : La superficie des exploitations agricoles varie selon les régions.
On obtient le tableau des résultats et le seuil de signification du Fisher par la

syntaxe suivante :



Descriptives
(64). Superficie totale estimée de l'exploitation (Ha)
Intervalle de confiance à 95 % pour la

moyenne
Variance
intercom-
N Moyenne Ecart type Erreur standard Borne inférieure Borne supérieure Min Max posantes
Kouilou 13458 2.55508 13.512061 .116475 2.32677 2.78338 .000 950.000
Niari 33718 1.54705 11.980026 .065242 1.41917 1.67493 .000 900.000
Lekoumou 15377 1.83767 10.016597 .080776 1.67934 1.99601 .000 500.000
Bouenza 49059 1.10684 5.237948 .023648 1.06049 1.15319 .000 500.750
Pool 45136 2.75509 16.303366 .076739 2.60468 2.90550 .000 800.000
Plateaux 28013 1.37648 6.196696 .037024 1.30391 1.44905 .000 600.200
Cuvette 20426 .93116 7.261432 .050808 .83157 1.03075 .000 500.000
Cuvette Ouest 10409 1.58339 3.335573 .032694 1.51930 1.64747 .000 305.000
Sangha 10628 1.74496 3.489357 .033847 1.67861 1.81130 .000 100.000
Likouala 22576 1.44797 5.950467 .039603 1.37035 1.52560 .000 815.815
Brazzaville 9843 .17468 2.063543 .020799 .13391 .21545 .000 187.000
Pointe-Noire 6131 .31869 1.035537 .013225 .29277 .34462 .000 32.000
Total 264774 1.59544 9.824080 .019092 1.55802 1.63286 .000 950.000
Modèle Effets fixes 9.799892 .019045 1.55811 1.63277
Effets aléatoires .249148 1.04707 2.14381 .536374

Tests d'homogénéité des variances
Statistique de
Levene df1 df2 Sig.
(64). Superficie totale estimée de Basé sur la moyenne 243,874 11 264762 ,000
l'exploitation (Ha) Basé sur la médiane 103,931 11 264762 <,001
Basé sur la médiane avec ddl ajusté 103,931 11 138217,436 <,001
Basé sur la moyenne tronquée 104,310 11 264762 <,001
ANOVA
(64). Superficie totale estimée de l'exploitation (Ha)
Somme des carrés df Carré moyen F Sig.

Entre groupes 126734,597 11 11521,327 119,966 <,001
Intra-groupes 25427181,849 264762 96,038
Total 25553916,446 264773
Au regard de la statistique de Fisher (Prob=0,000 > 0,05), on rejette l’hypothèse H0 c’est-à-dire il existe une relation
entre la région et la superficie des exploitations agricoles.

X et Y deux variables quantitatives
La relation entre deux variables numériques peut être visualisée à l’aide d’un nuage de points.
À première vue, il semble y avoir une tendance à dormir moins longtemps chez les plus grands
mammifères.

Traitement bivarié de variables
Corrélation entre les variables X et Y
Corrélation Corrélation
positive négative
Absence de
corrélation

La qualité de la corrélation entre deux variables peut se mesurer par la dispersion des
points autour de la relation moyenne.
Un coefficient proche de 1 est significatif d’une forte corrélation.
Corrélation parfaite Bonne corrélation Mauvaise corrélation

(corrélation forte) (corrélation faible)
L'existence d'une corrélation, aussi bonne soit elle, n'est jamais la preuve
d'une relation de cause à effet.

Traitement bivarié de variables quantitatives
Calcul de la pente de la droite de régression :

méthode des moindres carrés
Droite telle que la somme

des carrés des écarts d1,
d2,... soit minimale:

Traitement bivarié de variables quantitatives
Calcul de la pente de la droite de régression :

méthode des moindres carrés
Droite Y=aX+b telle que la

somme des carrés des
écarts d1, d2,... soit
minimale:
Le signe de la pente donne le sens de la corrélation (mais pas

sa qualité) :
a > 0 corrélation positive
a < 0 corrélation négative
a = 0 pas de corrélation
D’après ces graphiques, le modèle qui présente clairement la relation la plus linéaire, avec une variance à
peu près constante pour toutes les valeurs de la variable durée de gestion est le :

Droite de régression : coefficient de corrélation
La qualité de la corrélation peut être mesurée par un coefficient de
corrélation r. Le coefficient de corrélation est compris entre -1 et +1.
Plus il s'éloigne de zéro, meilleure est la corrélation.

r = +1 corrélation positive parfaite
r = -1 corrélation négative parfaite
r = 0 absence totale de corrélation


Fonctions SPSS/X et Y deux variables quantitatives

Sorties SPSS/X et Y deux variables quantitatives
Statistiques descriptives
Moyenne Ecart type N
(64). Superficie totale estimée de l'exploitation (Ha) 1.59544 9.824080 264774
Nombre total d'actifs dans le ménage agricole 1,9212 1,17122 264774
Corrélations
(64). Superficie totale Nombre total d'actifs
estimée de dans le ménage
l'exploitation (Ha) agricole
Corrélation de Pearson (64). Superficie totale estimée de l'exploitation (Ha) 1,000 ,000
Nombre total d'actifs dans le ménage agricole ,000 1,000
Sig. (unilatéral) (64). Superficie totale estimée de l'exploitation (Ha) . ,445
Nombre total d'actifs dans le ménage agricole ,445 .
N (64). Superficie totale estimée de l'exploitation (Ha) 264774 264774
Nombre total d'actifs dans le ménage agricole 264774 264774
Variables introduites/éliminéesa
Modèle Variables introduites Variables éliminées Méthode
1 Nombre total d'actifs dans le ménage agricoleb . Introduire
a. Variable dépendante : (64). Superficie totale estimée de l'exploitation (Ha)
b. Toutes les variables demandées ont été introduites.

Récapitulatif des modèles
Modèle R R-deux R-deux ajusté Erreur standard de l'estimation

1 ,000a ,000 ,000 9.824098
a. Prédicteurs : (Constante), Nombre total d'actifs dans le ménage agricole
ANOVAa
Somme des
Modèle carrés ddl Carré moyen F Sig.
1 Régression 1,856 1 1,856 ,019 ,890b
de Student 25553914,591 264772 96,513
Total 25553916,446 264773
b. Prédicteurs : (Constante), Nombre total d'actifs dans le ménage agricole

Coefficientsa
Coefficients Intervalle de confiance
Coefficients non standardisés standardisés t Sig. à 95,0% pour B
Borne Borne
Modèle B Erreur standard Bêta inférieure supérieure
1 (Constante) 1,591 ,037 43,379 ,000 1,519 1,663
Nombre total d'actifs ,002 ,016 ,000 ,139 ,890 -,030 ,034
dans le ménage agricole
Les résultats (R²= 0, Bêta=0 et non significatif) indiquent qu’il n’y a aucun lien entre le nombre d’actifs agricoles dans le ménage et
la superficie totale estimée de son exploitation.

Centralisé

03 BP 2900 Cotonou
Tél.: +229 21 30 10 87 / +229 21 30 04 10


Jour 3: 09/08/2022
Cotonou

Retour sur la journée 2
• Synthèse des points clés de la journée 3 par le rapporteur : ce que je

peux appliquer concrètement et dans quelle situation.

Analyse descriptive ou interprétative.
▪ Descriptive : mettre en évidence les principales constatations,

situations, états et circonstances dévoilés par les données collectées
➔ axée sur ce qui s’est passé.
▪ Interprétative : donner un sens et une explication aux constatations et
à établir entre elles une relation de cause à effet ➔ explique
pourquoi cela s’est passé, quelle(s) peu(ven)t être la/les cause(s).

Les techniques de traitement statistique des données
• Statistiques descriptives : résumé des caractéristiques des données

recueillies sous forme d’une description et d’une présentation chiffrée
simple
• Statistiques inférentielles : mise en évidence des relations entretenues
par des variables, recherche une corrélation et/ou compare des
populations et met à l’épreuve la ou les hypothèses. Permet de
confirmer ou d’infirmer, par des lois de probabilité, si les relations
observées au sein d’un échantillon peuvent être généralisées et donc
s’appliquer à l’ensemble de la population.

Ensemble des méthodes traitant simultanément plus d'une variable.
On y recourt notamment pour :
• Mesurer le degré d'association entre deux ou plusieurs variables.
• Estimer les paramètres d'une relation entre deux ou plusieurs
variables.
• Evaluer à quel point les différences entre deux ou plusieurs
groupes d'observations sont significatives.
• Tenter de prédire à quel groupe appartient un individu, à partir de
ses autres caractéristiques.
• Essayer de discerner une structure dans un ensemble de données.

L’analyse multivariée peut être menée du point de vue des
individus ou du point de vue des variables :
Deux points de vue :
• Individus : - Ressemblances ou différences

- Recherche de groupes homogènes
• Variables : - Liaisons entre variables

- Recherche d’une explication d’une variable par les autres

Classement des méthodes selon les types de variables
Variable dépendante Variables indépendantes Méthode
2 variables catégorielles ……à 2 dimensions

Analyse de tableau de
Aucune
Plus de 2 variables contingence
…à plus de 2 dimensions
catégorielles
Analyse de variance
Discrètes (catégorielles) OU
Continue Régression multiple
Continues et/ou discrètes Régression multiple
2 catégories ….binomial
Catégorielle Continues et/ou discrètes Logit ou probit
Plus de 2 catégories …multinomial

Classement des méthodes selon l’objectif poursuivi :
Objectif poursuivi But Famille de méthodes Méthodes
Analyse en composantes principales (ACP) pour les

variables quantitatives
Analyse factorielle des correspondances simples (AFC) pour
Factorielles : Réduction du nombre de variables en les
2 variables qualitatives
résumant par un petit nombre de composantes
Analyse des correspondances multiples (ACM) pour
Comprendre au synthétiques appelés facteurs
plusieurs variables qualitatives
mieux les données
Extension : non linéaire, MDS, données mixtes, évolutives,
grâce à une
tableaux…
description Méthodes
Description
simplifiée aussi exploratoires Méthodes de partitionnement en un nombre fixé de classes
proche que a priori : méthode des centres mobiles, nuées dynamiques
possible de la
réalité Méthodes hiérarchiques - suite de partitions emboîtées :
Classification : Réduction du nombre d'individus par la
méthodes de classification ascendante hiérarchique
formation de groupes homogènes
(CAH)….
Extension : classification de variables (méthodes divisives),
méthodes probabilistes modèles de mélanges (non
géométriques)
Numériques : Régression
Expliquer et Modèle linéaire général : Recherche d'une relation entre
Méthodes Qualitatives : Analyse de la variance
prévoir une ou une variable numériques et plusieurs autres :
explicatives, Mixtes : Analyse de la covariance = Régression + Analyse de
Explication et prévision plusieurs variables
décisionnelles ou la variance
en fonction
inférentielles
d'autres variables Analyse discriminante : prédiction d'une variable qualitative à l'aide de plusieurs prédicteurs en général numériques
Extension : Disqual, PLS, ridge, régression logistique, arbre de décision, non linéaire, réseaux de neurones…

Analyse de la variance à plan factoriel (ANOVA)
Objectifs
• Tester l’effet de deux ou de plusieurs variables indépendantes
catégorielles (facteurs) sur une variable dépendante quantitative à
l’intérieur d’une seule analyse (d’un seul modèle).
• Calculer l’effet simple de chaque variable indépendante ainsi que leur
interaction.
NB: En raison de la complexité de l’interprétation des interactions

multiples, les modèles factoriels incluent rarement plus de trois facteurs

Hypothèses
• Hypothèse 1 : Indépendance des observations : Pas de relation entre les
observations à l’intérieur d’un groupe, ni relation entre les observations
entre les groupes.
• Hypothèse 3 : Normalité des observations au sein des groupes / ou des
résidus du modèle.
• ANOVA n’est pas très sensible aux écarts de la normalité. Il est donc possible de procéder sans avoir une
normalité parfaite. Par contre, avec un petit échantillon, il faut faire attention à l’impact des valeurs
extrêmes (on peut faire le test avec et sans les valeurs extrêmes)
• Hypothèse 3 : Homogénéité des variances.
• Hypothèse peut être vérifiée par l’examen visuel des graphiques boites à moustaches ou encore par le
test de Levene qui est disponible dans les options de l’analyse. Si les groupes sont de tailles identiques,
on peut passer outre cette prémisse. De plus, il est bon de mentionner que ce test est moins sensible
aux variances qui ne sont pas égales que l’ANOVA à 1 facteur.

Procédure

Procédure

Procédure

Analyse de la covariance (ANCOVA)
Objectifs
Tout comme l’ANOVA, la procédure ANCOVA vise à déterminer l’effet d’une variable catégorielle
(indépendante) sur une variable continue (dépendante).
La particularité de l’ANCOVA est de calculer cet effet en contrôlant l’effet d’une autre variable continue
qui a un impact présumé sur la relation initiale. Cette variable contrôlée est appelée « covariable ».
La covariable est nommée ainsi, car on la suspecte de covarier avec la variable dépendante et
d’affecter indirectement la relation qui existe entre la variable indépendante et la variable dépendante.
Le but de l’ANCOVA est de tester la relation initiale en supprimant statistiquement l’effet indirect de la
covariable. Ceci revient à tester l’effet de la variable indépendante (catégorielle) sur la variable
dépendante (continue) une fois que l’effet de la covariable sur la variable dépendante est enlevé.

Hypothèses
Hypothèse nulle
Dans l’ANCOVA, nous testons l’hypothèse nulle de l’absence de différence

entre les moyennes des groupes une fois que l’effet de la covariable est retiré.
L’hypothèse alternative est donc que les moyennes des groupes se distinguent.
Hypothèses de l’ANCOVA
Les trois premières hypothèses sont les mêmes que pour l’ANOVA :

Hypothèses
Les trois premières hypothèses sont les mêmes que pour l’ANOVA :
Hypothèse 1 : Indépendance des observations : Pas de relation entre les observations à l’intérieur d’un groupe,
ni relation entre les observations entre les groupes.
Hypothèse 3 : Normalité des observations au sein des groupes / ou des résidus du modèle.
Hypothèse 3 : Homogénéité des variances.
Nous devons toutefois respecter une quatrième condition avant de procéder à l’ANCOVA :
Hypothèse 4 : Les droites de régressions sont homogènes
• Pour comprendre cette hypothèse, imaginons que nous réalisons un nuage de points avec la covariable et les
valeurs de la variable dépendante pour chacun des groupes créés par la variable catégorielle. S’il existe une relation
linéaire positive entre la variable dépendante pour un groupe et la covariable, nous espérons que la relation ira dans
le même sens pour les autres groupes. Vous pouvez tester cette prémisse à partir du bouton Model de la boîte de
dialogue principale de l’ANCOVA.
Procédure

Procédure

Procédure

Procédure

Analyse de régression multiple
Objectifs
• La régression multiple est une extension de la régression linéaire simple.
• Elle est utilisée lorsque nous voulons prédire la valeur d’une variable en fonction de la valeur de
deux ou plusieurs autres variables.
• La variable que nous voulons prédire est appelée la variable dépendante (ou parfois, la
variable de résultat, de cible ou de critère).
• Les variables que nous utilisons pour prédire la valeur de la variable dépendante sont
appelées variables indépendantes (ou parfois, les variables prédictives, explicatives ou
régressives).
• La régression multiple permet également de déterminer l’ajustement global (variance

expliquée) du modèle et la contribution relative de chacun des prédicteurs à la variance totale
expliquée.

Hypothèses
Huit conditions sont à respecter avant de procéder à la régression multiple :
Hypothèse 1 : Votre variable dépendante doit être mesurée sur une échelle continue c’est-à-dire une
variable d’intervalle ou de ratio.
Hypothèse 2 : Vous avez deux variables indépendantes ou plus, qui peuvent être continues (c.-à-d. une
variable d’intervalle ou de ratio) ou catégorielles (c.-à-d. une variable ordinale ou nominale).
Hypothèse 3 : Vous devez avoir une indépendance des observations (c’est-à-dire l’indépendance
des résidus).
Hypothèse 4 : Il doit y avoir une relation linéaire entre (a) la variable dépendante et chacune de vos
variables indépendantes, et (b) la variable dépendante et les variables indépendantes collectivement.

Hypothèses
Hypothèse 5 : Vos données doivent montrer l’homoscédasticité, c’est-à-dire que les variances le
long de la ligne de meilleur ajustement restent similaires lorsque vous vous déplacez le long de la
ligne.
Hypothèse 6 : Vos données ne doivent pas montrer la multicolinéarité, qui se produit lorsque vous
avez deux variables indépendantes ou plus qui sont fortement corrélées les unes avec les autres.
Hypothèse 7 : Il ne devrait pas y avoir de valeurs aberrantes significatives, ou de points très influents.
Hypothèse 8 : Enfin, vous devez vérifier que les résidus (erreurs) sont à peu près normalement
distribués.

Hypothèses
• Vous pouvez vérifier les hypothèses #3, #4, #5, #6, #7 et #8 à l’aide de SPSS
Statistics.
• Les hypothèses #1 et #2 doivent être vérifiées en premier, avant de passer aux

hypothèses #3, #4, #5, #6, #7 et #8.
• Rappelez-vous simplement que si vous n’exécutez pas correctement les tests

statistiques sur ces hypothèses, les résultats que vous obtenez lors de l’exécution
d’une régression multiple peuvent ne pas être valides.

Procédure

Procédure

Analyses de régression logistique
Objectifs
• La régression logistique propose de tester un modèle de régression dont la variable
dépendante est dichotomique (codée 0-1) et dont les variables indépendantes peuvent
être continues ou catégorielles.
• La régression logistique binomiale s’apparente beaucoup à la régression linéaire.
• Toutefois, elle ne nécessite pas la présence d’une relation linéaire entre les variables
puisque la variable dépendante est dichotomique.
• Un modèle de régression logistique permet aussi de prédire la probabilité qu’un

événement arrive (valeur de 1) ou non (valeur de 0) à partir de l’optimisation des
coefficients de régression. Ce résultat varie toujours entre 0 et 1. Lorsque la valeur prédite
est supérieure à 0,5, l’événement est susceptible de se produire, alors que lorsque cette
valeur est inférieure à 0,5, il ne l’est pas.

Hypothèses
Hypothèse nulle
• L’hypothèse nulle générale est que la combinaison des variables indépendantes

(le modèle) ne parvient pas à mieux expliquer la présence/absence de la variable
dépendante qu’un modèle sans prédicteur.
• Comme c’était le cas pour la régression multiple, la confirmation de cette

hypothèse nulle marque la fin de l’interprétation du modèle.
• Lorsque cette hypothèse nulle est rejetée, ceci signifie qu’il y a au moins un
prédicteur du modèle qui est associé significativement à la variable dépendante. Il
faut alors interpréter les valeurs des coefficients du modèle (b1, b2, b3… bn) et
déterminer lequel ou lesquels sont significatifs.

Hypothèses
1. Les types de variables à utiliser : Indépendantes (prédicteurs) : continues ou catégorielles
dichotomiques Dépendante (prédite) : catégorielle dichotomique. Cette dernière doit être une vraie
variable dichotomique et non une variable continue recodée en 2 groupes, ce qui serait associé à une
importante perte d’information.
2. Inclure les variables pertinentes : toutes les variables pertinentes doivent être comprises dans le
modèle et celles qui ne le sont pas, éliminées.
3. Indépendance des observations de la variable dépendante et des résiduels : un individu ne

peut pas faire partie des deux groupes de la variable dépendante.
4. Relation linéaire entre les variables indépendantes et la transformation logistique de la variable

dépendante

Hypothèses
5. Aucune multicolinéarité parfaite ou élevée : il ne doit pas y avoir de relation linéaire parfaite, ni
très élevée entre deux ou plusieurs prédicteurs. Par conséquent, les corrélations ne doivent pas être
trop fortes entre ceux-ci.
6. Pas de valeurs extrêmes des résiduels : comme dans la régression multiple, des valeurs
résiduelles standardisées plus élevées que 2,58 ou moins élevées que -2,58 influencent les
coefficients du modèle et limitent la qualité de l’ajustement.
7. Taille de l’échantillon : l’échantillon doit être suffisant pour que l’on puisse procéder à l’analyse.
On suggère minimalement 10 observations par variable indépendante (Hosmer et Lemeshow, 1989,
voir également Cohen, 1992).
8. Échantillon adéquat pour les prédicteurs catégoriels : lorsqu’une VI catégorielle est croisée avec
la VD, aucune cellule ne doit avoir moins d’une observation et un maximum de 20 % des cellules
peuvent comprendre 5 observations ou moins.

Procédure

Procédure

Procédure
Dans la procédure de pas à pas : les variables
sont introduites une à une et chaque modèle
ainsi obtenu est évalué jusqu'à parvenir au
modèle final comprenant toutes les variables.
C'est une approche qui se justifie si on fait une
analyse prédictive de corrélation. Mais dans le
cas d'une analyse explicative d'impact, cela
s'appelle du data dredging ou du p-hacking, et le
modèle à estimer doit être spécifié à l’avance
et estimer directement.

La transformation des données
Objectifs
• Fréquemment, les données que nous traitons doivent être transformées
pour les rendre plus facilement observables ou encore pour qu’elles
correspondent aux hypothèses des tests statistiques que nous voulons
appliquer.
• Bien qu'il existe parfois des techniques formelles pour choisir une
transformation, il est plus souvent nécessaire de procéder par la méthode
essai et erreur pour choisir. Une stratégie simple consiste à essayer plusieurs
transformations et valider ensuite les résultats.

Les différentes transformations des données
Les méthodes de transformation des données se déclinent en trois familles :
– la standardisation ou l’action de centrer-réduire les données pour diminuer
l’échelle de dispersion tout en conservant la forme des distributions conjointes.
– la transformation en vecteur de rangs dont l’objectif est de se concentrer sur

l’ordre des valeurs des données et plus sur les valeurs elles-mêmes,
– la normalisation des données qui consistent à rechercher la transformation

adaptée au travers de laquelle elles suivront une loi normale.

– La standardisation
Il s’agit de centrer-réduire la matrice de données en retranchant pour chaque
variable sa moyenne et en divisant par son écart-type.
– La transformation en rangs
Pour chaque variable, il faut ranger les valeurs de par ordre croissant et puis affecter
à chaque valeur classée son rang.
La théorie des tests se divisent en deux familles : les tests paramétriques et les tests
non paramétriques. Lorsque les hypothèses d’utilisation paramétriques ne sont pas
respectées, les alternatives non paramétriques sont souvent utilisés en recourant à la
transformation en rangs.
– La normalisation
Normaliser les données revient à appliquer une fonction f sur la variable X tel
que f(x) suit une loi normale. Plusieurs méthodes simples existent comme,
❑ la transformation logarithmique ;
❑ l’élévation au carré ;
❑ la mise sous racine carré ;
❑ la transformation arc-sinus ;
❑ la mise à l’exponentielle ;
❑ la transformation inverse.

Méthode Fonction mathématique À utiliser pour: À éviter pour:
Données biaisées à droite

log10(x) est efficace lorsque les
ln(x) données sont distribuées sur Valeurs de zéro
Log
log10(x) des valeurs de plusieurs Valeurs négatives
puissances de 10 (100, 1000, 10
000, etc.)
Carré root √x Données biaisées à droite Valeurs négatives
Carré x2 Données biaisées à gauche Valeurs négatives
Données biaisées à droite Pas aussi efficace pour

Racine cubique x1/3
Valeurs négatives normaliser que la fonction log
Rapprocher les valeurs Valeurs de zéro

Inverse 1/x
extrêmes des valeurs moyennes Valeurs négatives

Interprétation des coefficients de régression
• L’analyse de régression génère une équation pour décrire la
relation statistique entre une ou plusieurs variables prédictives et la
variable de réponse.
• Après avoir ajusté un modèle de régression, et vérifié l’ajustement

par l’examen des valeurs résiduelles, vous devez interpréter les
résultats.
• L’interprétation est fonction des formes d’équation et des types de

variables

Valeurs de P et coefficients issus de l’analyse de régression linéaire
Les valeurs P
• La valeur p pour chaque terme teste l’hypothèse nulle que le coefficient est égal à zéro
(aucun effet).
• Une faible valeur p (<0,05) indique que vous pouvez rejeter l’hypothèse nulle. En
d’autres termes, un prédicteur qui a une faible valeur p est susceptible d’être un ajout
significatif à votre modèle parce que les changements dans la valeur du prédicteur sont
liés à des changements dans la variable de réponse.
• Inversement, une valeur p plus importante (non significative) suggère que les
changements dans le prédicteur ne sont pas associés à des changements dans la
réponse.
Les coefficients
• Les coefficients de régression représentent le changement moyen
de la variable de réponse pour une unité de changement dans la
variable prédictive tout en maintenant d’autres prédicteurs dans le
modèle constant.
• Ce contrôle statistique que la régression fournit est importante

parce qu’elle isole le rôle d’une variable de toutes les autres dans le
modèle.

La constante (Y Intercept)
• Le terme constant est en partie estimé par l’omission de prédicteurs dans une
analyse de régression.
• Essentiellement, il sert de poubelle pour tout biais qui n’est pas pris en compte par
les termes du modèle.
• Alors que la valeur est généralement dénuée de sens, il est crucial d’inclure le terme
constant dans la plupart des modèles de régression.
• La constante garantit que les résidus ont une moyenne de zéro. C’est la raison clé
pour laquelle nous devons inclure la constante dans toute régression.

Coefficients et équation de régression logistique binaire
Les coefficients
• Le coefficient de régression logistique binaire permet de déterminer si la variation d'une

variable de prévision augmente ou réduit la probabilité d'occurrence de l'événement.
• Le coefficient estimé associé à un prédicteur représente la variation de la fonction de
liaison pour chaque variation d'une unité du prédicteur quand tous les autres prédicteurs
sont maintenus constants.
• En général, les coefficients positifs augmentent la probabilité de l'événement tandis que les
coefficients négatifs la réduisent.
• Un coefficient estimé proche de 0 implique que l'effet du prédicteur est réduit.

Coefficients dans les cas suivants : log-log, log-lin, lin-log
log-log
• Un modèle log-log ou double log, appelé aussi « modèle à élasticité constante », est
caractérisé par la présence de logarithme dans tous les deux membres du dit modèle.
• Les coefficients dans un modèle log-log représentent l’élasticité de la variable

dépendante (Y) par rapport à la variable indépendante (X).
• En d'autres termes, le coefficient est le changement en points de pourcentage de Y

induit par un changement d’un point de pourcentage de X toute chose égale par
ailleurs.

log-lin
• Dans ces modèles, la variable dépendante est prise en logarithme alors que les
variables explicatives sont simplement linéaires.
• Les coefficients dans un modèle log-lin représentent les taux de croissance de la

variable dépendante (Y) par rapport à la variation absolue de la variable indépendante X,
toute chose égale par ailleurs.
• Si l’on multiplie un coefficient par 100, on obtient une semi-élasticité de Y par rapport à la
variable X concernée.

lin-log
• Dans ces modèles, la variable dépendante est simplement linéaire alors que les variables
explicatives sont prises en logarithme.
• Les coefficients dans un modèle lin-log représentent la variation absolue de Y rapport à la variation
relative de la variable indépendante (X), toute chose égale par ailleurs.
• Pour mieux interpréter ces coefficients une fois estimé, il tient de les diviser par 100, soit les
multiplier par 0,01.
• Une fois fait, ils rendent compte du changement en points de pourcentage de Y induit par un
changement d’un point de pourcentage de X, toute chose égale par ailleurs.

Coefficients dans le cas où il y a terme d'interaction
Interaction entre 2 variables quantitatives (intervalles)
• Le coefficient pour la variable X1 se réfère à la situation où la variable X2 est égale à zéro, toute
chose égale par ailleurs et vice versa.
• Lorsque, la situation à laquelle se réfère le coefficient ne fait pas sens, celui-ci n’est pas interprété
Interaction entre 1 variable quantitative (intervalle) et 1 variable catégorielle
• Quand dans le terme d’interaction figure une variable dummy (i.e dichotomique, binaire), le coefficient
pour la variable quantitative indique son effet sur la variable dépendante pour la catégorie de
référence de la variable dummy, toute chose égale par ailleurs.

Coefficients dans le cas où il y a terme d'interaction
Interaction entre deux variables catégorielles
• Quand dans le terme d’interaction figure deux variables dummy, le coefficient pour
la variable X1 mesure l’écart entre les 2 groupes qui la compose pour les
observations appartenant à la catégorie de référence de la variable X2, toute chose
égale par ailleurs.
• Pour plus de détails voir Jean-François BICKEL, les effets d’interaction ; et Jonas
KIBALA KUMA (2019), Modèles de régressions non linéaires « Eléments de
Théorie et pratiques sur logiciel ».

Analyse multivariée descriptive

Analyse en composantes principales
Objectifs
• L’analyse en composantes principales (ACP) est une technique de réduction
des données
• On cherche à définir k nouvelles variables combinaisons linéaires des p

variables initiales qui feront perdre le moins d’information possible.
• Ces variables seront appelées «composantes principales »,
• Les axes qu’elles déterminent : « axes principaux »
• Les formes linéaires associées : « facteurs principaux »

Objectifs
• L’analyse en composantes principales (ACP) est une technique de réduction
des données
• On cherche à définir k nouvelles variables combinaisons linéaires des p

variables initiales qui feront perdre le moins d’information possible.
• Ces variables seront appelées «composantes principales »,
• Les axes qu’elles déterminent : « axes principaux »
• Les formes linéaires associées : « facteurs principaux »

Objectifs

Procédure

Procédure

Procédure

Analyse factorielle des correspondances
Objectifs
Les techniques d’analyse factorielle, telles que l’ACP, visent trois objectifs principaux :
1. Comprendre la structure d’un ensemble de variables (dans un questionnaire, voir quelles variables sont
associées)
2. Concevoir et raffiner des instruments de mesure comme les tests psychométriques et les questionnaires
basés sur des échelles de type Likert permettant de mesurer des construits latents (qu’il est impossible de
mesurer directement comme le degré de stress ou de bonheur d’une personne).
3. Condenser l’information contenue à l’intérieur d’un grand nombre de variables (d’items d’un questionnaire ou
d’un test, par exemple) en un ensemble restreint de nouvelles dimensions composites tout en assurant une
perte minimale d’informations (Hair et al., 1998). On cherche donc à faire émerger les construits ou les
dimensions sous-jacentes à un ensemble de variables.

Objectifs
Dans le cadre d’une recherche, il nous arrive parfois de vouloir examiner la
covariabilité de variables multiples. C’est-à-dire, la façon dont elles sont reliées les
unes aux autres et de voir si les schémas de relation nous suggèrent quelque
chose d’intéressant et ayant dus sens.
Par exemple, nous sommes souvent intéressés à déterminer l’existence

de facteurs latents sous-jacents à partir des variables observées et mesurées
directement dans notre ensemble de données.
En statistique, les facteurs latents sont des variables cachées qui ne sont pas
directement observées, mais plutôt déduites (par analyse statistique) d’autres
variables qui sont observées (mesurées directement).

Analyse factorielle exploratoire
Objectifs
• L’analyse factorielle exploratoire (AFE) est une technique statistique
permettant de révéler tous les facteurs latents cachés qui peuvent être déduits
de nos données observées.
• Cette technique calcule dans quelle mesure un ensemble de variables

mesurées, par exemple V1, V2, V3, V4 et V5, peut être représenté comme
mesures d’un facteur latent sous-jacent.
• Ce facteur latent ne peut pas être mesuré au moyen d’une seule variable
observée, mais il se manifeste plutôt par les relations qu’il provoque dans un
ensemble de variables observées.

Analyse factorielle exploratoire
Objectifs
Dans la figure ci-contre, chaque variable observée V
est « causée « dans une certaine mesure par le facteur
latent sous-jacent (F), représenté par les coefficients
b1 à b5 (aussi appelés saturations de facteurs).
Chaque variable observée a également un terme

d’erreur associé, e1 à e5.
Chaque terme d’erreur est la variance de la variable

observée associée, Vi, qui est inexpliquée par le
facteur latent sous-jacent.

Analyse factorielle confirmatoire
Objectifs
• L’analyse factorielle confirmatoire (AFC) cherche à vérifier/valider avec

un échantillon une structure factorielle latente préétablie à partir par
exemple de l’analyse factorielle exploratoire.
• En ce sens, nous entreprenons une analyse confirmatoire, pour voir dans

quelle mesure un modèle préétabli est confirmé par les données
observées. Il s’agit d’un contrôle rigoureux.

Procédure

Procédure

Procédure

Analyses de cluster
Objectifs
• L’analyse de classification, connue sous le nom de « cluster analysis », est un terme
générique utilisé pour désigner une variété de techniques d’analyses statistiques
(Scheibler & Schneider, 1985).
• Ces méthodes sont généralement utilisées pour grouper des objets, des personnes,
des concepts ou des stimuli dans des groupes homogènes sur la base de leur
similarité.
• Ces techniques de classification sont particulièrement utiles dans le cadre
d’investigations exploratoires afin de dégager des tendances générales au sein des
données et de suggérer des pistes d’analyses futures (Kos & Psenicka, 2000).

Analyses de cluster
Objectifs
L’objectif global des analyses de classification est d’identifier des classes à
l’intérieur d’un ensemble d’entités mélangées que l’on croit appartenir à des
populations différentes.
Précisément, elles visent à :

1. Construire un schème contextuel pour la classification d’entités,
2. Générer des hypothèses,
3. Tester des classes hypothétiques à l’intérieur d’un échantillon et
4. Identifier des sous-groupes homogènes caractérisés par des tendances utiles
pour des prédictions futures.

Analyses de cluster
Procédures de classification
Vous pouvez effectuer des analyses de cluster à l'aide de la procédure :
• TwoStep,
• hiérarchique,
• nuées dynamiques
• classification mixte.
Chaque procédure utilise un algorithme différent pour la création des clusters, et chacune d'elles
comporte des options qui ne sont pas disponibles dans les autres procédures.
Analyse typologique + analyse factorielle : Lorsque vous traitez un grand nombre de variables,
par exemple lors de l’analyse des résultats d’une enquête longue ou complexe, il peut être utile de
simplifier vos données avant d’effectuer la cluster analysis afin de vous faciliter la tâche.
L’utilisation de facteurs réduit le nombre de dimensions sur lesquelles vous effectuez le clustering et
peut vous permettre de créer des clusters qui reflètent davantage les véritables modèles présents
dans les data.

Analyses discriminante
Objectifs
• L'analyse discriminante crée un modèle de prévision de groupe d'affectation.
• Le modèle est composé d'une fonction discriminante (ou, pour plus de deux
groupes, un ensemble de fonctions discriminantes) basée sur les combinaisons
linéaires des variables de prédicteur qui donnent la meilleure discrimination
entre groupes.
• Les fonctions sont générées à partir d'un échantillon d'observations pour
lesquelles le groupe d'affectation est connu.
• Les fonctions peuvent alors être appliquées aux nouvelles observations avec
des mesures de variables de prédicteur, mais de groupe d'affectation inconnu.
Objectifs
Deux techniques cohabitent sous la même appellation d’analyse discriminante :
Descriptive Décisionnelle
Cette méthode recherche, parmi toutes les ACP Connaissant, pour un individu donné, les valeurs
possibles sur les variables Xj, celle dont les des Yj mais pas la classe d’appartenance, cette
représentations graphiques des individus méthode consiste à affecter cet individu à une
discriminent "au mieux" les m classes du groupe modalité.
d’affectation.
Remarque : Lorsque le nombre et les caractéristiques des classes sont connues, il s’agit d’une
discrimination ; sinon, on parle de classification ou encore, avec des hypothèses sur les distributions,
de reconnaissance de mélanges.

Procédure

Procédure

Centralisé

03 BP 2900 Cotonou
Tél.: +229 21 30 10 87 / +229 21 30 04 10


Document SPSS - 7

Transféré par

Droits d'auteur :

Formats disponibles

Document SPSS - 7

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Document SPSS - 7

Transféré par

Droits d'auteur :

Formats disponibles

Formation « Traitement des données

avec le logiciel statistique SPSS »

Animation : Etienne F. KOUTON

Ce programme est financé par

Ce programme est financé par 2021 2

Thème 1 : L’installation et la prise en main du logiciel SPSS ( Durée : 7h15’, Jour 1)

Thème 2 : Analyse des données (Durée : 18h45’, Jours 2 à 4)

Thème 3 : Présenter et Interpréter les données (Durée : 5h15’, Jour 4)

Thème 4 : Initiation à la programmation sous SPSS, Analyse comparée

Ce programme est financé par 2021 3

Les fichiers constitutifs de la mallette pédagogique :

Ce programme est financé par 2021 4

Ce programme est financé par 2021 5

Ce programme est financé par 2021 6

Ce programme est financé par 2021 7

Ce programme est financé par 2021 8

Ce programme est financé par 2021 9

Ce programme est financé par 2021 10

Ce programme est financé par 2021 11

Ce programme est financé par 2021 12

Les commandes de SPSS se regroupent en cinq catégories :

Ce programme est financé par 2021 13

• Les commandes de manipulation de fichiers permettent d'importer des

Ce programme est financé par 2021 14

• La création de graphiques est une part importante de l'activité

Ce programme est financé par 2021 15

Ce programme est financé par 2021 16

Ce programme est financé par 2021 17

Ce programme est financé par 2021 18

Ce programme est financé par 2021 19

• degré (relation nulle, faible, forte),

Ce programme est financé par 2021 20

Ce programme est financé par 2021 21

• Individus : - Ressemblances ou différences

• Variables : - Liaisons entre variables

Ce programme est financé par 2021 22

2 variables catégorielles ……à 2 dimensions

Continues et/ou discrètes Régression multiple

Plus de 2 catégories …multinomial

Ce programme est financé par 2021 23

Analyse en composantes principales (ACP) pour les

Ce programme est financé par 2021 24

Ministère de l’Agriculture, de l’Elevage et de la Pêche (MAEP)

Ce programme est financé par

Animation : Etienne F. KOUTON

Ce programme est financé par

• Synthèse des points clés de la journée 1 par le rapporteur : ce que je

Ce programme est financé par 2021 2

Type de variables statistiques

Ce programme est financé par 2021 3

Variables quantitatives Variables qualitatives

discrètes continues nominales ordinales

Ce programme est financé par 2021 4

Analyse descriptive ou interprétative.

▪ Descriptive : mettre en évidence les principales constatations,

Ce programme est financé par 2021 5

Quelques types d’analyse

Ce programme est financé par 2021 6

Ce programme est financé par 2021 7