Document SPSS - 7

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 144

Formation « Traitement des données

avec le logiciel statistique SPSS »

Animation : Etienne F. KOUTON


Du 08 au 12/08/2022
Cotonou

Ce programme est financé par


l’Union européenne
Orientation et contenu de l’atelier
Objectifs pédagogiques :
Au cours de l’atelier, les participants apprendront à :
1. Connaître les principales fonctions du logiciel SPSS et son environnement.
2. Créer et lire des bases de données sous SPSS.
3. Préparer et traiter les données sous SPSS.
4. Faire la programmation sous SPSS.
5. Interpréter les résultats des sorties SPSS.
6. Réaliser des graphiques professionnels avec SPSS.
7. Connaître les Interface R et R studio.
8. Connaître les avantages/inconvénients de SPSS comparativement au logiciel R

Ce programme est financé par 2021 2


l’Union européenne
Orientation et contenu de l’atelier
Programme :

Thème 1 : L’installation et la prise en main du logiciel SPSS ( Durée : 7h15’, Jour 1)

Thème 2 : Analyse des données (Durée : 18h45’, Jours 2 à 4)

Thème 3 : Présenter et Interpréter les données (Durée : 5h15’, Jour 4)

Thème 4 : Initiation à la programmation sous SPSS, Analyse comparée


SPSS et R (Durée : 3h00’, Jour 5)

Ce programme est financé par 2021 3


l’Union européenne
Démarche pédagogique & Supports de formation
Démarche pédagogique :
▪ Complémentarité des phases d’échanges, de présentations magistrales et d’ateliers de
mise en pratique.
▪ Alternance : exposé des formateurs, questions-réponses, exercice en commun,
brainstorming, travaux de groupe/exercice individuel, restitution/discussion, et
synthèse des formateurs.

Les fichiers constitutifs de la mallette pédagogique :


▪ Cahier de l’apprenant.
▪ Cahier des travaux pratiques
▪ Bases de données pour les travaux pratiques
▪ Des documents complémentaires (documents de lecture en format PDF, Word),
constitutifs des annexes de la mallette pédagogique.

Ce programme est financé par 2021 4


l’Union européenne
Représentation schématique du logiciel SPSS

Ce programme est financé par 2021 5


l’Union européenne
Les fenêtres et leurs contenus

Ce programme est financé par 2021 6


l’Union européenne
Vocabulaire de base de SPSS

Ce programme est financé par 2021 7


l’Union européenne
L’Editeur de données

Ce programme est financé par 2021 8


l’Union européenne
L’Editeur de syntaxe

Ce programme est financé par 2021 9


l’Union européenne
La page des résultats

Ce programme est financé par 2021 10


l’Union européenne
Les analyses statistiques

Ce programme est financé par 2021 11


l’Union européenne
La selection des variables

Ce programme est financé par 2021 12


l’Union européenne
Les commandes de SPSS

Les commandes de SPSS se regroupent en cinq catégories :


• les commandes de manipulation de fichiers
• les commandes de formatage
• les commandes de manipulation de données
• la commande pour faire des graphiques
• les commandes d'analyses statistiques proprement dites

Ce programme est financé par 2021 13


l’Union européenne
Les commandes de SPSS

• Les commandes de manipulation de fichiers permettent d'importer des


fichiers de données pré existant dans SPSS, où encore (dans le cas de la
commande Aggregate) de produire un nouveau fichier contenant des
données résumées.
• Les commandes de formatage ont pour but d'améliorer l'affichage des
résultats.
• Les commandes de manipulation de données ont pour but de modifier les
données contenues dans le fichier actif.

Ce programme est financé par 2021 14


l’Union européenne
Les commandes de SPSS

• La création de graphiques est une part importante de l'activité


d'analyse des résultats. La commande pour faire des graphiques
permet de réaliser différents types de graphiques.
• Il existe dans SPSS un très grand nombre de commandes
d'analyses statistiques. Après tout, l'objectif final de ce logiciel est
de faire de la statistique. Plusieurs d’entre eux sont présentés dans
le cahier de l’apprenant.

Ce programme est financé par 2021 15


l’Union européenne
Analyse des données
Etapes successives du processus d’analyse des données
• Analyse exploratoire
• Analyse univariée
• Analyse bivariée
• Analyse multivariée

Ce programme est financé par 2021 16


l’Union européenne
Analyse des données
Analyse exploratoire
Explorer permet d'obtenir des statistiques et des affichages pour
toutes vos observations ou pour des groupes d'observations
distincts. Vous pouvez ainsi obtenir des box plots, des graphiques
tiges et feuilles, des histogrammes, des tests de normalité, des
estimations de position robustes, des tableaux de fréquences,
ainsi que d'autres statistiques et graphiques explicatifs.

Ce programme est financé par 2021 17


l’Union européenne
Analyse des données
Analyse univariée
L’analyse univariée permet :
• d’une part d’identifier les variables à variation nulle ou très faible
et qui n’offrent donc pas d’intérêt pour l’analyse statistique sauf si
on s’arrête au niveau descriptif le plus bas et,
• d’autre part, de vérifier si les variables dont on dispose répondent
bien à la condition de normalité sur laquelle sont basées beaucoup
de techniques statistiques.

Ce programme est financé par 2021 18


l’Union européenne
Analyse des données
Analyse bivariée
• Permet de mettre en évidence les éventuelles associations
(simple covariation ou dépendance causale) entre deux
variables.
• Passage obligé vers une analyse plus complexe, car bon
nombre des techniques multivariées s’appuient sur la matrice
de relation calculée par paire de variables.

Ce programme est financé par 2021 19


l’Union européenne
Analyse des données
Analyse bivariée
Points importants à ce stade :
• L’association est-elle symétrique (pas d’hypothèse de dépendance ou de prédiction entre variables)
ou asymétrique (dépendance causale/prédiction) ;
• Tenir le plus possible compte des principales caractéristiques de l’association :

• degré (relation nulle, faible, forte),


• direction – pour des variables de niveau ordinal au moins – (relation négative ou positive),
• forme (relation monotone pour les variables ordinales, relation linéaire ou curvilinéaire pour
des variables qui impliquent au moins la propriété de distance), et
• niveau de signification statistique (relation non significative, significative ou très significative).
Ce travail préliminaire est indispensable avant toute analyse multivariée.

Ce programme est financé par 2021 20


l’Union européenne
Analyse des données
Analyse multivariée
Ensemble des méthodes traitant simultanément plus d'une variable.
On y recourt notamment pour :
• Mesurer le degré d'association entre deux ou plusieurs variables.
• Estimer les paramètres d'une relation entre deux ou plusieurs
variables.
• Evaluer à quel point les différences entre deux ou plusieurs
groupes d'observations sont significatives.
• Tenter de prédire à quel groupe appartient un individu, à partir de
ses autres caractéristiques.
• Essayer de discerner une structure dans un ensemble de données.

Ce programme est financé par 2021 21


l’Union européenne
Analyse des données
Analyse multivariée
L’analyse multivariée peut être menée du point de vue des
individus ou du point de vue des variables :
Deux points de vue :

• Individus : - Ressemblances ou différences


- Recherche de groupes homogènes

• Variables : - Liaisons entre variables


- Recherche d’une explication d’une variable par les autres

Ce programme est financé par 2021 22


l’Union européenne
Analyse multivariée
Classement des méthodes selon les types de variables
Variable dépendante Variables indépendantes Méthode

2 variables catégorielles ……à 2 dimensions


Analyse de tableau de
Aucune
Plus de 2 variables contingence
…à plus de 2 dimensions
catégorielles

Analyse de variance
Discrètes (catégorielles) OU
Continue Régression multiple

Continues et/ou discrètes Régression multiple

2 catégories ….binomial
Catégorielle Continues et/ou discrètes Logit ou probit

Plus de 2 catégories …multinomial

Ce programme est financé par 2021 23


l’Union européenne
Analyse multivariée
Classement des méthodes selon l’objectif poursuivi :
Objectif poursuivi But Famille de méthodes Méthodes

Analyse en composantes principales (ACP) pour les


variables quantitatives
Analyse factorielle des correspondances simples (AFC) pour
Factorielles : Réduction du nombre de variables en les
2 variables qualitatives
résumant par un petit nombre de composantes
Analyse des correspondances multiples (ACM) pour
Comprendre au synthétiques appelés facteurs
plusieurs variables qualitatives
mieux les données
Extension : non linéaire, MDS, données mixtes, évolutives,
grâce à une
tableaux…
description Méthodes
Description
simplifiée aussi exploratoires Méthodes de partitionnement en un nombre fixé de classes
proche que a priori : méthode des centres mobiles, nuées dynamiques
possible de la
réalité Méthodes hiérarchiques - suite de partitions emboîtées :
Classification : Réduction du nombre d'individus par la
méthodes de classification ascendante hiérarchique
formation de groupes homogènes
(CAH)….
Extension : classification de variables (méthodes divisives),
méthodes probabilistes modèles de mélanges (non
géométriques)

Numériques : Régression
Expliquer et Modèle linéaire général : Recherche d'une relation entre
Méthodes Qualitatives : Analyse de la variance
prévoir une ou une variable numériques et plusieurs autres :
explicatives, Mixtes : Analyse de la covariance = Régression + Analyse de
Explication et prévision plusieurs variables
décisionnelles ou la variance
en fonction
inférentielles
d'autres variables Analyse discriminante : prédiction d'une variable qualitative à l'aide de plusieurs prédicteurs en général numériques

Extension : Disqual, PLS, ridge, régression logistique, arbre de décision, non linéaire, réseaux de neurones…

Ce programme est financé par 2021 24


l’Union européenne
Assistance Technique- Appui Complémentaire
Centralisé
Programme d’Appui au Développement Durable du
Secteur Agricole (PADDSA)

Ministère de l’Agriculture, de l’Elevage et de la Pêche (MAEP)


Secrétariat Général du MAEP
03 BP 2900 Cotonou
Tél.: +229 21 30 10 87 / +229 21 30 04 10
Courriel : formation_acc@paddsa.bj

Ce programme est financé par


l’Union européenne
Formation « Traitement des données
avec le logiciel statistique SPSS »

Animation : Etienne F. KOUTON


Jour 2: 09/08/2022
Cotonou

Ce programme est financé par


l’Union européenne
Retour sur la journée 1

• Synthèse des points clés de la journée 1 par le rapporteur : ce que je


peux appliquer concrètement et dans quelle situation.

Ce programme est financé par 2021 2


l’Union européenne
Analyse des données

Type de variables statistiques

Discrète

Quantitative

Continue
Variable
statistique
Nominale

Qualitative

Ordinale

Ce programme est financé par 2021 3


l’Union européenne
Analyse des données

Peut-on
additionner deux
oui observations ? non

Variables quantitatives Variables qualitatives

discrètes continues nominales ordinales

Valeurs numériques Nombreuses valeurs Pas d’ordre entre les Ordre entre les
peu nombreuses, numériques modalités modalités
dénombrables comprises dans des
intervalles Sexe, catégorie Degré de
socio- satisfaction, etc.
professionnelle, etc.
Age, nombre de Poids, taille, etc..
frères et soeurs,
nombre de formés,
etc.

Ce programme est financé par 2021 4


l’Union européenne
Analyse des données

Analyse descriptive ou interprétative.

▪ Descriptive : mettre en évidence les principales constatations,


situations, états et circonstances dévoilés par les données collectées
➔ axée sur ce qui s’est passé.
▪ Interprétative : donner un sens et une explication aux constatations et
à établir entre elles une relation de cause à effet ➔ explique
pourquoi cela s’est passé, quelle(s) peu(ven)t être la/les cause(s).

Ce programme est financé par 2021 5


l’Union européenne
Analyse des données

Quelques types d’analyse


▪ Comparaison entre le prévu et le réel (temporel) : différence entre les cibles
identifiées et les résultats réels. Il faut expliquer pourquoi il y a eu une variance.
▪ Comparaison démographique (données ventilées par sexe, âge ou origine ethnique)
afin de comparer la prestation de services à des groupes vulnérables spécifiques.
▪ Comparaison géographique (données par quartier, ou milieu urbain par opposition à
milieu rural).
▪ Comparaison thématique (données sur les interventions en matière de logement
menées sur l’initiative des donateurs par opposition aux interventions engagées sur
l’initiative des propriétaires) pour comparer les approches dans le cadre d’un
programme de reconstruction de logements.
▪ Comparaison technique : matériau, technologie, etc.

Ce programme est financé par 2021 6


l’Union européenne
Analyse des données
De la constatation aux mesures
Terme Définitions Exemples

Constatation ➔ Une déclaration factuelle • Des membres de la communauté ont déclaré (enquête) que
fondée sur des données leur revenu quotidien était inférieur à 1 USD.
primaires et secondaires • Les participants aux discussions de groupe communautaires
ont déclaré qu’ils voulaient trouver un emploi.
Conclusion ➔ Une synthèse (combinée) de • Des membres de la communauté vivent dans la pauvreté en
l’interprétation des résultats raison du manque d’activités créatrices de revenus.
Recommandation ➔ Une consigne basée sur des • Créer des possibilités de microfinance et de microentreprise
conclusions pour que les membres des communautés puissent démarrer
des activités créatrices de revenus culturellement adaptées et
économiquement viables.
Mesure ➔ Une action spécifique visant à • D’ici à décembre 2021, créer 6 groupes pilotes de solidarité
mettre une recommandation en chargés de recenser les possibilités de micro-entreprises et les
pratique bénéficiaires éventuels de prêts.
• D’ici à janvier 2022, mener une étude de marché pour
déterminer la viabilité des possibilités de micro-entreprises.
• Etc.

Ce programme est financé par 2021 7


l’Union européenne
Analyse des données

Les techniques de traitement statistique des données

• Statistiques descriptives : résumé des caractéristiques des données


recueillies sous forme d’une description et d’une présentation chiffrée
simple
• Statistiques inférentielles : mise en évidence des relations entretenues
par des variables, recherche une corrélation et/ou compare des
populations et met à l’épreuve la ou les hypothèses. Permet de
confirmer ou d’infirmer, par des lois de probabilité, si les relations
observées au sein d’un échantillon peuvent être généralisées et donc
s’appliquer à l’ensemble de la population.

Ce programme est financé par 2021 8


l’Union européenne
Analyse descriptive des données

L’analyse descriptive des données

▪ Description d’une variable (univarié)


– Effectif
– Fréquence, pourcentage
– Tendance centrale (mode, médiane, moyenne)
– Dispersion

▪ Descriptions croisées entre 2 variables


– Relation entre deux variables : corrélation

Ce programme est financé par 2021 9


l’Union européenne
Analyse descriptive des données

L’analyse descriptive des données

▪ simple à mettre en œuvre

▪ permet :
• de procéder à une première évaluation de la validité des données
• de déterminer et d’analyser les principales caractéristiques
• de produire des rapports (tableaux, graphiques)
▪ particulièrement adaptée aux données du S&E (traitement
systématique et réponses rapides)

Ce programme est financé par 2021 10


l’Union européenne
Analyse descriptive des données

Analyse descriptives des variables

Traitement des données en utilisant les fonctions


▪ NB(), NBVAL(), NBVIDE(), NB.SI( )
▪ SOMME
▪ POURCENTAGES
▪ MOYENNE, MEDIANE, MODE
▪ MIN, MAX, ECARTYPE, etc.

Ce programme est financé par 2021 11


l’Union européenne
Analyse initiale/exploratoire des données
Fonctions SPSS

Menu : [Analyse /Statistiques descriptives/ Fréquences]


Langage de commandes : Frequencies

Distribuer les fréquences des données

• Sélectionnez [Statistiques] pour demander des statistiques univariées.


• Sélectionnez [Diagrammes] pour demander des diagrammes en barres ou des
histogrammes.
• Sélectionnez [Format] pour gérer l'ordre des valeurs dans le tableau, la disposition de
celui-ci sur la page, l'affichage d'un index, et l'affichage des étiquettes de valeur.

Ce programme est financé par 2021 12


l’Union européenne
Analyse initiale/exploratoire des données
Fonctions SPSS
Menu : [Analyse /Statistiques descriptives/ Explorer]
Langage de commandes : EXAMINE

[Diagrammes] Gérer les résultats sous forme


de graphiques.
[Statistiques] Demander des caractéristiques
[Options] Déterminer le traitement des valeurs
manquantes.
Explorer les données

La procédure Explorer produit des résumés statistiques et des affichages graphiques.

Ce programme est financé par 2021 13


l’Union européenne
Analyse initiale/exploratoire des données
Fonctions SPSS
Plusieurs raisons pour utiliser la procédure Explorer :

• Elle indique les valeurs inhabituelles, les valeurs extrêmes, les trous dans les données ou
d'autres particularités.

• Elle aide à déterminer si les techniques statistiques envisagées pour l'analyse de vos données sont
appropriées (Vérifications des hypothèses)

• Elle informe sur le besoin de transformer les données si la technique d’analyse envisagée nécessite
une répartition gaussienne.

• Elle offre la possibilité de choisir d'utiliser des tests non paramétriques.

Ce programme est financé par 2021 14


l’Union européenne
Analyse initiale/exploratoire des données
Fonctions SPSS
Menu : [Analyse /Statistiques descriptives/ Tableaux croisés...]
Langage de commandes : CROSSTABS

[Statistiques] vous permet de demander des statistiques


bivariées.

[Cellules] vous permet de gérer le contenu des cellules


constituant le tableau. .

Tableaux croisés
Sélectionnez [Supprimer les tableaux] pour voir uniquement les
statistiques, sans les tableaux proprement dits.

Ce programme est financé par 2021 15


l’Union européenne
Analyse des données
Analyse univariée
L’analyse univariée permet :
• d’une part d’identifier les variables à variation nulle ou très faible
et qui n’offrent donc pas d’intérêt pour l’analyse statistique sauf si
on s’arrête au niveau descriptif le plus bas et,
• d’autre part, de vérifier si les variables dont on dispose répondent
bien à la condition de normalité sur laquelle sont basées beaucoup
de techniques statistiques.

Ce programme est financé par 2021 16


l’Union européenne
Analyse univariée des données

Principe de l’analyse univariée


Étape Nominale Ordonnée Discrète Continue
1. Effectifs A faire A faire A faire Inutile
2. Centralité Mode Médiane Moyenne et Moyenne et
Médiane Médiane
3. Dispersion N’existe pas Quartile Écart type et Écart type et
quartiles quartiles
4. Graphique Histogramme Histogram Histogramme Distribution
des effectifs me des des effectifs, et Graph Zone
effectifs Graph Zone & & Valeur
Valeur

Ce programme est financé par 2021 17


l’Union européenne
Analyse univariée des données
Fonctions SPSS

Ce programme est financé par 2021 18


l’Union européenne
Analyse univariée des données
Fonctions SPSS

Ce programme est financé par 2021 19


l’Union européenne
Analyse univariée des données
Sorties SPSS

Ce programme est financé par 2021 20


l’Union européenne
Analyse univariée des données
Sorties SPSS

Ce programme est financé par 2021 21


l’Union européenne
Analyse univariée des données
Variables Modalités
Le profil des enquêtées
Fréquences Pourcentage

Sorties SPSS Tranche d'age


moins de 18 ans

18 à 25 ans
3

17
5

11,7

28,3
26 à 40 ans

41 à 60 ans 28 46,7

plus de 60 ans 5 8,3

Total 60 100

aucun 7 11,7

primaire 12 20

Niveau d'étude secondaire 14 23,3

graduat 17 28,3

licence et plus 4 6,7

brevet de formation 6 10

Total 60 100

mariée 21 35

divorcée 7 11,7
état civil
veuve 21 35

célibataire 11 18,3

Total 60 100

maraichage 14 23,3

transformation 12 20

commerce 17 28,3

secteur d’activité 17 28,3


élevage

Total 60 100

patronne 31 51,7

statut professionnel employée 12 20

indépendante 17 28,3

Total 60 100

Ce programme est financé par 2021 22


l’Union européenne
Analyse des données
Analyse bivariée
• Permet de mettre en évidence les éventuelles associations
(simple covariation ou dépendance causale) entre deux
variables.
• Passage obligé vers une analyse plus complexe, car bon
nombre des techniques multivariées s’appuient sur la matrice
de relation calculée par paire de variables.

Ce programme est financé par 2021 23


l’Union européenne
Analyse de deux variables
Type de Représentation Indications
graphique

En secteurs
Affichage des proportions ou des pourcentages d’un
ensemble de données.
En anneau

Comparaison de valeurs de catégories différentes.


En barres
Comparaison entre catégories.
En bâtons
Représentation d’une durée.
Représentation de catégories différentes.
En courbes Représentation d’une évolution ou tendance dans le
temps.
Représentation d’une évolution ou tendance dans le
temps.
En aires
Mise en évidence d’un changement d’une ampleur
importante.
En Représentation de la répartition d'une variable continue
histogramme avec des colonnes.

Ce programme est financé par 2021 24


l’Union européenne
Analyse des données
Analyse bivariée
Savoir si le comportement d'une variable est influencé par
la valeur d'une autre variable :

▪ Corrélation : étudier des relations ou corrélations entre


deux variables statistiques
▪ Régression : résumer la relation entre deux variables
par une fonction simple (ici une droite de type Y = aX + b)

Ce programme est financé par 2021 25


l’Union européenne
Analyse bivariée des données
Corrélation

Ce programme est financé par 2021 26


l’Union européenne
Analyse des données
Analyse bivariée
Points importants à ce stade :
• L’association est-elle symétrique (pas d’hypothèse de dépendance ou de prédiction entre variables)
ou asymétrique (dépendance causale/prédiction) ;
• Tenir le plus possible compte des principales caractéristiques de l’association :

• degré (relation nulle, faible, forte),

• direction – pour des variables de niveau ordinal au moins – (relation négative ou positive),
• forme (relation monotone pour les variables ordinales, relation linéaire ou curvilinéaire pour
des variables qui impliquent au moins la propriété de distance), et
• niveau de signification statistique (relation non significative, significative ou très significative).
Ce travail préliminaire est indispensable avant toute analyse multivariée.

Ce programme est financé par 2021 27


l’Union européenne
Analyse bivariée des données

Type de variables statistiques

Discrète

Quantitative

Continue
Variable
statistique
Nominale

Qualitative

Ordinale

Ce programme est financé par 2021 28


l’Union européenne
Analyse bivariée des données
Fonctions SPSS/X et Y deux variables qualitatives

Ce programme est financé par 2021 29


l’Union européenne
Analyse bivariée des données
Fonctions SPSS/X et Y deux variables qualitatives

Ce programme est financé par 2021 30


l’Union européenne
Analyse bivariée des données
Fonctions SPSS/X qualitative et Y quantitative
Etude de cas : Analyse des disparités régionales dans la superficie totale des
exploitations agricoles au Congo.
On utilise l’analyse de la variance avec un seul facteur (ONEWAY, SUMMARIZE,
MEANS) et le test de Fisher.
*H0 : La superficie des exploitations agricoles ne varie pas selon les régions.
*H1 : La superficie des exploitations agricoles varie selon les régions.

On obtient le tableau des résultats et le seuil de signification du Fisher par la


syntaxe suivante :

Ce programme est financé par 2021 31


l’Union européenne
Analyse bivariée des données
Fonctions SPSS/X qualitative et Y quantitative

Ce programme est financé par 2021 32


l’Union européenne
Analyse bivariée des données
Fonctions SPSS/X qualitative et Y quantitative

Ce programme est financé par 2021 33


l’Union européenne
Analyse bivariée des données
Fonctions SPSS/X qualitative et Y quantitative
Descriptives

(64). Superficie totale estimée de l'exploitation (Ha)

Intervalle de confiance à 95 % pour la


moyenne
Variance
intercom-
N Moyenne Ecart type Erreur standard Borne inférieure Borne supérieure Min Max posantes
Kouilou 13458 2.55508 13.512061 .116475 2.32677 2.78338 .000 950.000

Niari 33718 1.54705 11.980026 .065242 1.41917 1.67493 .000 900.000

Lekoumou 15377 1.83767 10.016597 .080776 1.67934 1.99601 .000 500.000

Bouenza 49059 1.10684 5.237948 .023648 1.06049 1.15319 .000 500.750

Pool 45136 2.75509 16.303366 .076739 2.60468 2.90550 .000 800.000

Plateaux 28013 1.37648 6.196696 .037024 1.30391 1.44905 .000 600.200

Cuvette 20426 .93116 7.261432 .050808 .83157 1.03075 .000 500.000

Cuvette Ouest 10409 1.58339 3.335573 .032694 1.51930 1.64747 .000 305.000

Sangha 10628 1.74496 3.489357 .033847 1.67861 1.81130 .000 100.000

Likouala 22576 1.44797 5.950467 .039603 1.37035 1.52560 .000 815.815

Brazzaville 9843 .17468 2.063543 .020799 .13391 .21545 .000 187.000

Pointe-Noire 6131 .31869 1.035537 .013225 .29277 .34462 .000 32.000

Total 264774 1.59544 9.824080 .019092 1.55802 1.63286 .000 950.000

Modèle Effets fixes 9.799892 .019045 1.55811 1.63277

Effets aléatoires .249148 1.04707 2.14381 .536374

Ce programme est financé par 2021 34


l’Union européenne
Analyse bivariée des données
Fonctions SPSS/X qualitative et Y quantitative
Tests d'homogénéité des variances
Statistique de
Levene df1 df2 Sig.
(64). Superficie totale estimée de Basé sur la moyenne 243,874 11 264762 ,000
l'exploitation (Ha) Basé sur la médiane 103,931 11 264762 <,001
Basé sur la médiane avec ddl ajusté 103,931 11 138217,436 <,001
Basé sur la moyenne tronquée 104,310 11 264762 <,001

ANOVA

(64). Superficie totale estimée de l'exploitation (Ha)

Somme des carrés df Carré moyen F Sig.


Entre groupes 126734,597 11 11521,327 119,966 <,001

Intra-groupes 25427181,849 264762 96,038

Total 25553916,446 264773

Au regard de la statistique de Fisher (Prob=0,000 > 0,05), on rejette l’hypothèse H0 c’est-à-dire il existe une relation
entre la région et la superficie des exploitations agricoles.

Ce programme est financé par 2021 35


l’Union européenne
Analyse bivariée des données
X et Y deux variables quantitatives
La relation entre deux variables numériques peut être visualisée à l’aide d’un nuage de points.

À première vue, il semble y avoir une tendance à dormir moins longtemps chez les plus grands
mammifères.

Ce programme est financé par 2021 36


l’Union européenne
Analyse de deux variables
Traitement bivarié de variables

Corrélation entre les variables X et Y

Corrélation Corrélation
positive négative

Absence de
corrélation

Ce programme est financé par 2021 37


l’Union européenne
Analyse de deux variables
Corrélation entre les variables X et Y
La qualité de la corrélation entre deux variables peut se mesurer par la dispersion des
points autour de la relation moyenne.
Un coefficient proche de 1 est significatif d’une forte corrélation.

Corrélation parfaite Bonne corrélation Mauvaise corrélation


(corrélation forte) (corrélation faible)

L'existence d'une corrélation, aussi bonne soit elle, n'est jamais la preuve
d'une relation de cause à effet.

Ce programme est financé par 2021 38


l’Union européenne
Analyse de deux variables
Traitement bivarié de variables quantitatives

Calcul de la pente de la droite de régression :


méthode des moindres carrés

Droite telle que la somme


des carrés des écarts d1,
d2,... soit minimale:

Ce programme est financé par 2021 39


l’Union européenne
Analyse de deux variables
Traitement bivarié de variables quantitatives

Calcul de la pente de la droite de régression :


méthode des moindres carrés

Droite Y=aX+b telle que la


somme des carrés des
écarts d1, d2,... soit
minimale:

Le signe de la pente donne le sens de la corrélation (mais pas


sa qualité) :
a > 0 corrélation positive
a < 0 corrélation négative
a = 0 pas de corrélation
Ce programme est financé par 2021 40
l’Union européenne
Analyse de deux variables
Corrélation entre les variables X et Y

D’après ces graphiques, le modèle qui présente clairement la relation la plus linéaire, avec une variance à
peu près constante pour toutes les valeurs de la variable durée de gestion est le :

Ce programme est financé par 2021 41


l’Union européenne
Analyse de deux variables
Droite de régression : coefficient de corrélation
La qualité de la corrélation peut être mesurée par un coefficient de
corrélation r. Le coefficient de corrélation est compris entre -1 et +1.

Plus il s'éloigne de zéro, meilleure est la corrélation.


r = +1 corrélation positive parfaite
r = -1 corrélation négative parfaite
r = 0 absence totale de corrélation

Ce programme est financé par 2021 42


l’Union européenne
Analyse bivariée des données
Fonctions SPSS/X qualitative et Y quantitative

Ce programme est financé par 2021 43


l’Union européenne
Analyse bivariée des données
Fonctions SPSS/X et Y deux variables quantitatives

Ce programme est financé par 2021 44


l’Union européenne
Analyse bivariée des données
Sorties SPSS/X et Y deux variables quantitatives
Statistiques descriptives
Moyenne Ecart type N
(64). Superficie totale estimée de l'exploitation (Ha) 1.59544 9.824080 264774
Nombre total d'actifs dans le ménage agricole 1,9212 1,17122 264774

Corrélations
(64). Superficie totale Nombre total d'actifs
estimée de dans le ménage
l'exploitation (Ha) agricole
Corrélation de Pearson (64). Superficie totale estimée de l'exploitation (Ha) 1,000 ,000
Nombre total d'actifs dans le ménage agricole ,000 1,000
Sig. (unilatéral) (64). Superficie totale estimée de l'exploitation (Ha) . ,445
Nombre total d'actifs dans le ménage agricole ,445 .
N (64). Superficie totale estimée de l'exploitation (Ha) 264774 264774
Nombre total d'actifs dans le ménage agricole 264774 264774

Variables introduites/éliminéesa
Modèle Variables introduites Variables éliminées Méthode
1 Nombre total d'actifs dans le ménage agricoleb . Introduire
a. Variable dépendante : (64). Superficie totale estimée de l'exploitation (Ha)
b. Toutes les variables demandées ont été introduites.

Ce programme est financé par 2021 45


l’Union européenne
Analyse bivariée des données
Sorties SPSS/X et Y deux variables quantitatives
Récapitulatif des modèles

Modèle R R-deux R-deux ajusté Erreur standard de l'estimation


1 ,000a ,000 ,000 9.824098

a. Prédicteurs : (Constante), Nombre total d'actifs dans le ménage agricole

ANOVAa

Somme des
Modèle carrés ddl Carré moyen F Sig.
1 Régression 1,856 1 1,856 ,019 ,890b
de Student 25553914,591 264772 96,513
Total 25553916,446 264773
a. Variable dépendante : (64). Superficie totale estimée de l'exploitation (Ha)
b. Prédicteurs : (Constante), Nombre total d'actifs dans le ménage agricole

Ce programme est financé par 2021 46


l’Union européenne
Analyse bivariée des données
Sorties SPSS/X et Y deux variables quantitatives
Coefficientsa
Coefficients Intervalle de confiance
Coefficients non standardisés standardisés t Sig. à 95,0% pour B
Borne Borne
Modèle B Erreur standard Bêta inférieure supérieure
1 (Constante) 1,591 ,037 43,379 ,000 1,519 1,663
Nombre total d'actifs ,002 ,016 ,000 ,139 ,890 -,030 ,034
dans le ménage agricole
a. Variable dépendante : (64). Superficie totale estimée de l'exploitation (Ha)

Les résultats (R²= 0, Bêta=0 et non significatif) indiquent qu’il n’y a aucun lien entre le nombre d’actifs agricoles dans le ménage et
la superficie totale estimée de son exploitation.

Ce programme est financé par 2021 47


l’Union européenne
Assistance Technique- Appui Complémentaire
Centralisé
Programme d’Appui au Développement Durable du
Secteur Agricole (PADDSA)

Ministère de l’Agriculture, de l’Elevage et de la Pêche (MAEP)


Secrétariat Général du MAEP
03 BP 2900 Cotonou
Tél.: +229 21 30 10 87 / +229 21 30 04 10
Courriel : formation_acc@paddsa.bj

Ce programme est financé par


l’Union européenne
Formation « Traitement des données
avec le logiciel statistique SPSS »

Animation : Etienne F. KOUTON


Jour 3: 09/08/2022
Cotonou

Ce programme est financé par


l’Union européenne
Retour sur la journée 2

• Synthèse des points clés de la journée 3 par le rapporteur : ce que je


peux appliquer concrètement et dans quelle situation.

Ce programme est financé par 2021 2


l’Union européenne
Analyse des données

Analyse descriptive ou interprétative.

▪ Descriptive : mettre en évidence les principales constatations,


situations, états et circonstances dévoilés par les données collectées
➔ axée sur ce qui s’est passé.
▪ Interprétative : donner un sens et une explication aux constatations et
à établir entre elles une relation de cause à effet ➔ explique
pourquoi cela s’est passé, quelle(s) peu(ven)t être la/les cause(s).

Ce programme est financé par 2021 3


l’Union européenne
Analyse des données

Les techniques de traitement statistique des données

• Statistiques descriptives : résumé des caractéristiques des données


recueillies sous forme d’une description et d’une présentation chiffrée
simple
• Statistiques inférentielles : mise en évidence des relations entretenues
par des variables, recherche une corrélation et/ou compare des
populations et met à l’épreuve la ou les hypothèses. Permet de
confirmer ou d’infirmer, par des lois de probabilité, si les relations
observées au sein d’un échantillon peuvent être généralisées et donc
s’appliquer à l’ensemble de la population.

Ce programme est financé par 2021 4


l’Union européenne
Analyse des données
Analyse multivariée
Ensemble des méthodes traitant simultanément plus d'une variable.
On y recourt notamment pour :
• Mesurer le degré d'association entre deux ou plusieurs variables.
• Estimer les paramètres d'une relation entre deux ou plusieurs
variables.
• Evaluer à quel point les différences entre deux ou plusieurs
groupes d'observations sont significatives.
• Tenter de prédire à quel groupe appartient un individu, à partir de
ses autres caractéristiques.
• Essayer de discerner une structure dans un ensemble de données.

Ce programme est financé par 2021 5


l’Union européenne
Analyse des données
Analyse multivariée
L’analyse multivariée peut être menée du point de vue des
individus ou du point de vue des variables :
Deux points de vue :

• Individus : - Ressemblances ou différences


- Recherche de groupes homogènes

• Variables : - Liaisons entre variables


- Recherche d’une explication d’une variable par les autres

Ce programme est financé par 2021 6


l’Union européenne
Analyse multivariée
Classement des méthodes selon les types de variables
Variable dépendante Variables indépendantes Méthode

2 variables catégorielles ……à 2 dimensions


Analyse de tableau de
Aucune
Plus de 2 variables contingence
…à plus de 2 dimensions
catégorielles

Analyse de variance
Discrètes (catégorielles) OU
Continue Régression multiple

Continues et/ou discrètes Régression multiple

2 catégories ….binomial
Catégorielle Continues et/ou discrètes Logit ou probit

Plus de 2 catégories …multinomial

Ce programme est financé par 2021 7


l’Union européenne
Analyse multivariée
Classement des méthodes selon l’objectif poursuivi :
Objectif poursuivi But Famille de méthodes Méthodes

Analyse en composantes principales (ACP) pour les


variables quantitatives
Analyse factorielle des correspondances simples (AFC) pour
Factorielles : Réduction du nombre de variables en les
2 variables qualitatives
résumant par un petit nombre de composantes
Analyse des correspondances multiples (ACM) pour
Comprendre au synthétiques appelés facteurs
plusieurs variables qualitatives
mieux les données
Extension : non linéaire, MDS, données mixtes, évolutives,
grâce à une
tableaux…
description Méthodes
Description
simplifiée aussi exploratoires Méthodes de partitionnement en un nombre fixé de classes
proche que a priori : méthode des centres mobiles, nuées dynamiques
possible de la
réalité Méthodes hiérarchiques - suite de partitions emboîtées :
Classification : Réduction du nombre d'individus par la
méthodes de classification ascendante hiérarchique
formation de groupes homogènes
(CAH)….
Extension : classification de variables (méthodes divisives),
méthodes probabilistes modèles de mélanges (non
géométriques)

Numériques : Régression
Expliquer et Modèle linéaire général : Recherche d'une relation entre
Méthodes Qualitatives : Analyse de la variance
prévoir une ou une variable numériques et plusieurs autres :
explicatives, Mixtes : Analyse de la covariance = Régression + Analyse de
Explication et prévision plusieurs variables
décisionnelles ou la variance
en fonction
inférentielles
d'autres variables Analyse discriminante : prédiction d'une variable qualitative à l'aide de plusieurs prédicteurs en général numériques

Extension : Disqual, PLS, ridge, régression logistique, arbre de décision, non linéaire, réseaux de neurones…

Ce programme est financé par 2021 8


l’Union européenne
Analyse de la variance à plan factoriel (ANOVA)
Objectifs
• Tester l’effet de deux ou de plusieurs variables indépendantes
catégorielles (facteurs) sur une variable dépendante quantitative à
l’intérieur d’une seule analyse (d’un seul modèle).
• Calculer l’effet simple de chaque variable indépendante ainsi que leur
interaction.

NB: En raison de la complexité de l’interprétation des interactions


multiples, les modèles factoriels incluent rarement plus de trois facteurs

Ce programme est financé par 2021 9


l’Union européenne
Analyse de la variance à plan factoriel (ANOVA)
Hypothèses
• Hypothèse 1 : Indépendance des observations : Pas de relation entre les
observations à l’intérieur d’un groupe, ni relation entre les observations
entre les groupes.
• Hypothèse 3 : Normalité des observations au sein des groupes / ou des
résidus du modèle.
• ANOVA n’est pas très sensible aux écarts de la normalité. Il est donc possible de procéder sans avoir une
normalité parfaite. Par contre, avec un petit échantillon, il faut faire attention à l’impact des valeurs
extrêmes (on peut faire le test avec et sans les valeurs extrêmes)
• Hypothèse 3 : Homogénéité des variances.
• Hypothèse peut être vérifiée par l’examen visuel des graphiques boites à moustaches ou encore par le
test de Levene qui est disponible dans les options de l’analyse. Si les groupes sont de tailles identiques,
on peut passer outre cette prémisse. De plus, il est bon de mentionner que ce test est moins sensible
aux variances qui ne sont pas égales que l’ANOVA à 1 facteur.

Ce programme est financé par 2021 10


l’Union européenne
Analyse de la variance à plan factoriel (ANOVA)
Procédure

Ce programme est financé par 2021 11


l’Union européenne
Analyse de la variance à plan factoriel (ANOVA)
Procédure

Ce programme est financé par 2021 12


l’Union européenne
Analyse de la variance à plan factoriel (ANOVA)
Procédure

Ce programme est financé par 2021 13


l’Union européenne
Analyse de la covariance (ANCOVA)
Objectifs
Tout comme l’ANOVA, la procédure ANCOVA vise à déterminer l’effet d’une variable catégorielle
(indépendante) sur une variable continue (dépendante).

La particularité de l’ANCOVA est de calculer cet effet en contrôlant l’effet d’une autre variable continue
qui a un impact présumé sur la relation initiale. Cette variable contrôlée est appelée « covariable ».

La covariable est nommée ainsi, car on la suspecte de covarier avec la variable dépendante et
d’affecter indirectement la relation qui existe entre la variable indépendante et la variable dépendante.

Le but de l’ANCOVA est de tester la relation initiale en supprimant statistiquement l’effet indirect de la
covariable. Ceci revient à tester l’effet de la variable indépendante (catégorielle) sur la variable
dépendante (continue) une fois que l’effet de la covariable sur la variable dépendante est enlevé.

Ce programme est financé par 2021 14


l’Union européenne
Analyse de la covariance (ANCOVA)
Hypothèses
Hypothèse nulle

Dans l’ANCOVA, nous testons l’hypothèse nulle de l’absence de différence


entre les moyennes des groupes une fois que l’effet de la covariable est retiré.

L’hypothèse alternative est donc que les moyennes des groupes se distinguent.

Hypothèses de l’ANCOVA

Les trois premières hypothèses sont les mêmes que pour l’ANOVA :

Ce programme est financé par 2021 15


l’Union européenne
Analyse de la covariance (ANCOVA)
Hypothèses
Les trois premières hypothèses sont les mêmes que pour l’ANOVA :

Hypothèse 1 : Indépendance des observations : Pas de relation entre les observations à l’intérieur d’un groupe,
ni relation entre les observations entre les groupes.
Hypothèse 3 : Normalité des observations au sein des groupes / ou des résidus du modèle.
Hypothèse 3 : Homogénéité des variances.

Nous devons toutefois respecter une quatrième condition avant de procéder à l’ANCOVA :

Hypothèse 4 : Les droites de régressions sont homogènes

• Pour comprendre cette hypothèse, imaginons que nous réalisons un nuage de points avec la covariable et les
valeurs de la variable dépendante pour chacun des groupes créés par la variable catégorielle. S’il existe une relation
linéaire positive entre la variable dépendante pour un groupe et la covariable, nous espérons que la relation ira dans
le même sens pour les autres groupes. Vous pouvez tester cette prémisse à partir du bouton Model de la boîte de
dialogue principale de l’ANCOVA.
Ce programme est financé par 2021 16
l’Union européenne
Analyse de la covariance (ANCOVA)
Procédure

Ce programme est financé par 2021 17


l’Union européenne
Analyse de la covariance (ANCOVA)
Procédure

Ce programme est financé par 2021 18


l’Union européenne
Analyse de la covariance (ANCOVA)
Procédure

Ce programme est financé par 2021 19


l’Union européenne
Analyse de la covariance (ANCOVA)
Procédure

Ce programme est financé par 2021 20


l’Union européenne
Analyse de régression multiple
Objectifs
• La régression multiple est une extension de la régression linéaire simple.

• Elle est utilisée lorsque nous voulons prédire la valeur d’une variable en fonction de la valeur de
deux ou plusieurs autres variables.

• La variable que nous voulons prédire est appelée la variable dépendante (ou parfois, la
variable de résultat, de cible ou de critère).

• Les variables que nous utilisons pour prédire la valeur de la variable dépendante sont
appelées variables indépendantes (ou parfois, les variables prédictives, explicatives ou
régressives).

• La régression multiple permet également de déterminer l’ajustement global (variance


expliquée) du modèle et la contribution relative de chacun des prédicteurs à la variance totale
expliquée.

Ce programme est financé par 2021 21


l’Union européenne
Analyse de régression multiple
Hypothèses
Huit conditions sont à respecter avant de procéder à la régression multiple :

Hypothèse 1 : Votre variable dépendante doit être mesurée sur une échelle continue c’est-à-dire une
variable d’intervalle ou de ratio.

Hypothèse 2 : Vous avez deux variables indépendantes ou plus, qui peuvent être continues (c.-à-d. une
variable d’intervalle ou de ratio) ou catégorielles (c.-à-d. une variable ordinale ou nominale).

Hypothèse 3 : Vous devez avoir une indépendance des observations (c’est-à-dire l’indépendance
des résidus).

Hypothèse 4 : Il doit y avoir une relation linéaire entre (a) la variable dépendante et chacune de vos
variables indépendantes, et (b) la variable dépendante et les variables indépendantes collectivement.

Ce programme est financé par 2021 22


l’Union européenne
Analyse de régression multiple
Hypothèses
Hypothèse 5 : Vos données doivent montrer l’homoscédasticité, c’est-à-dire que les variances le
long de la ligne de meilleur ajustement restent similaires lorsque vous vous déplacez le long de la
ligne.

Hypothèse 6 : Vos données ne doivent pas montrer la multicolinéarité, qui se produit lorsque vous
avez deux variables indépendantes ou plus qui sont fortement corrélées les unes avec les autres.

Hypothèse 7 : Il ne devrait pas y avoir de valeurs aberrantes significatives, ou de points très influents.

Hypothèse 8 : Enfin, vous devez vérifier que les résidus (erreurs) sont à peu près normalement
distribués.

Ce programme est financé par 2021 23


l’Union européenne
Analyse de régression multiple
Hypothèses

• Vous pouvez vérifier les hypothèses #3, #4, #5, #6, #7 et #8 à l’aide de SPSS
Statistics.

• Les hypothèses #1 et #2 doivent être vérifiées en premier, avant de passer aux


hypothèses #3, #4, #5, #6, #7 et #8.

• Rappelez-vous simplement que si vous n’exécutez pas correctement les tests


statistiques sur ces hypothèses, les résultats que vous obtenez lors de l’exécution
d’une régression multiple peuvent ne pas être valides.

Ce programme est financé par 2021 24


l’Union européenne
Analyse de régression multiple
Procédure

Ce programme est financé par 2021 25


l’Union européenne
Analyse de régression multiple
Procédure

Ce programme est financé par 2021 26


l’Union européenne
Analyses de régression logistique
Objectifs
• La régression logistique propose de tester un modèle de régression dont la variable
dépendante est dichotomique (codée 0-1) et dont les variables indépendantes peuvent
être continues ou catégorielles.

• La régression logistique binomiale s’apparente beaucoup à la régression linéaire.

• Toutefois, elle ne nécessite pas la présence d’une relation linéaire entre les variables
puisque la variable dépendante est dichotomique.

• Un modèle de régression logistique permet aussi de prédire la probabilité qu’un


événement arrive (valeur de 1) ou non (valeur de 0) à partir de l’optimisation des
coefficients de régression. Ce résultat varie toujours entre 0 et 1. Lorsque la valeur prédite
est supérieure à 0,5, l’événement est susceptible de se produire, alors que lorsque cette
valeur est inférieure à 0,5, il ne l’est pas.

Ce programme est financé par 2021 27


l’Union européenne
Analyses de régression logistique
Hypothèses
Hypothèse nulle

• L’hypothèse nulle générale est que la combinaison des variables indépendantes


(le modèle) ne parvient pas à mieux expliquer la présence/absence de la variable
dépendante qu’un modèle sans prédicteur.

• Comme c’était le cas pour la régression multiple, la confirmation de cette


hypothèse nulle marque la fin de l’interprétation du modèle.

• Lorsque cette hypothèse nulle est rejetée, ceci signifie qu’il y a au moins un
prédicteur du modèle qui est associé significativement à la variable dépendante. Il
faut alors interpréter les valeurs des coefficients du modèle (b1, b2, b3… bn) et
déterminer lequel ou lesquels sont significatifs.

Ce programme est financé par 2021 28


l’Union européenne
Analyses de régression logistique
Hypothèses
1. Les types de variables à utiliser : Indépendantes (prédicteurs) : continues ou catégorielles
dichotomiques Dépendante (prédite) : catégorielle dichotomique. Cette dernière doit être une vraie
variable dichotomique et non une variable continue recodée en 2 groupes, ce qui serait associé à une
importante perte d’information.

2. Inclure les variables pertinentes : toutes les variables pertinentes doivent être comprises dans le
modèle et celles qui ne le sont pas, éliminées.

3. Indépendance des observations de la variable dépendante et des résiduels : un individu ne


peut pas faire partie des deux groupes de la variable dépendante.

4. Relation linéaire entre les variables indépendantes et la transformation logistique de la variable


dépendante

Ce programme est financé par 2021 29


l’Union européenne
Analyses de régression logistique
Hypothèses
5. Aucune multicolinéarité parfaite ou élevée : il ne doit pas y avoir de relation linéaire parfaite, ni
très élevée entre deux ou plusieurs prédicteurs. Par conséquent, les corrélations ne doivent pas être
trop fortes entre ceux-ci.

6. Pas de valeurs extrêmes des résiduels : comme dans la régression multiple, des valeurs
résiduelles standardisées plus élevées que 2,58 ou moins élevées que -2,58 influencent les
coefficients du modèle et limitent la qualité de l’ajustement.

7. Taille de l’échantillon : l’échantillon doit être suffisant pour que l’on puisse procéder à l’analyse.
On suggère minimalement 10 observations par variable indépendante (Hosmer et Lemeshow, 1989,
voir également Cohen, 1992).

8. Échantillon adéquat pour les prédicteurs catégoriels : lorsqu’une VI catégorielle est croisée avec
la VD, aucune cellule ne doit avoir moins d’une observation et un maximum de 20 % des cellules
peuvent comprendre 5 observations ou moins.

Ce programme est financé par 2021 30


l’Union européenne
Analyses de régression logistique
Procédure

Ce programme est financé par 2021 31


l’Union européenne
Analyses de régression logistique
Procédure

Ce programme est financé par 2021 32


l’Union européenne
Analyses de régression logistique
Procédure
Dans la procédure de pas à pas : les variables
sont introduites une à une et chaque modèle
ainsi obtenu est évalué jusqu'à parvenir au
modèle final comprenant toutes les variables.
C'est une approche qui se justifie si on fait une
analyse prédictive de corrélation. Mais dans le
cas d'une analyse explicative d'impact, cela
s'appelle du data dredging ou du p-hacking, et le
modèle à estimer doit être spécifié à l’avance
et estimer directement.

Ce programme est financé par 2021 33


l’Union européenne
La transformation des données
Objectifs
• Fréquemment, les données que nous traitons doivent être transformées
pour les rendre plus facilement observables ou encore pour qu’elles
correspondent aux hypothèses des tests statistiques que nous voulons
appliquer.

• Bien qu'il existe parfois des techniques formelles pour choisir une
transformation, il est plus souvent nécessaire de procéder par la méthode
essai et erreur pour choisir. Une stratégie simple consiste à essayer plusieurs
transformations et valider ensuite les résultats.

Ce programme est financé par 2021 34


l’Union européenne
Les différentes transformations des données
Les méthodes de transformation des données se déclinent en trois familles :
– la standardisation ou l’action de centrer-réduire les données pour diminuer
l’échelle de dispersion tout en conservant la forme des distributions conjointes.

– la transformation en vecteur de rangs dont l’objectif est de se concentrer sur


l’ordre des valeurs des données et plus sur les valeurs elles-mêmes,

– la normalisation des données qui consistent à rechercher la transformation


adaptée au travers de laquelle elles suivront une loi normale.

Ce programme est financé par 2021 35


l’Union européenne
Les différentes transformations des données
– La standardisation
Il s’agit de centrer-réduire la matrice de données en retranchant pour chaque
variable sa moyenne et en divisant par son écart-type.

– La transformation en rangs
Pour chaque variable, il faut ranger les valeurs de par ordre croissant et puis affecter
à chaque valeur classée son rang.

La théorie des tests se divisent en deux familles : les tests paramétriques et les tests
non paramétriques. Lorsque les hypothèses d’utilisation paramétriques ne sont pas
respectées, les alternatives non paramétriques sont souvent utilisés en recourant à la
transformation en rangs.
Ce programme est financé par 2021 36
l’Union européenne
Les différentes transformations des données
– La normalisation
Normaliser les données revient à appliquer une fonction f sur la variable X tel
que f(x) suit une loi normale. Plusieurs méthodes simples existent comme,
❑ la transformation logarithmique ;
❑ l’élévation au carré ;
❑ la mise sous racine carré ;
❑ la transformation arc-sinus ;
❑ la mise à l’exponentielle ;
❑ la transformation inverse.

Ce programme est financé par 2021 37


l’Union européenne
Les différentes transformations des données
Méthode Fonction mathématique À utiliser pour: À éviter pour:

Données biaisées à droite


log10(x) est efficace lorsque les
ln(x) données sont distribuées sur Valeurs de zéro
Log
log10(x) des valeurs de plusieurs Valeurs négatives
puissances de 10 (100, 1000, 10
000, etc.)

Carré root √x Données biaisées à droite Valeurs négatives

Carré x2 Données biaisées à gauche Valeurs négatives

Données biaisées à droite Pas aussi efficace pour


Racine cubique x1/3
Valeurs négatives normaliser que la fonction log

Rapprocher les valeurs Valeurs de zéro


Inverse 1/x
extrêmes des valeurs moyennes Valeurs négatives

Ce programme est financé par 2021 38


l’Union européenne
Interprétation des coefficients de régression
• L’analyse de régression génère une équation pour décrire la
relation statistique entre une ou plusieurs variables prédictives et la
variable de réponse.

• Après avoir ajusté un modèle de régression, et vérifié l’ajustement


par l’examen des valeurs résiduelles, vous devez interpréter les
résultats.

• L’interprétation est fonction des formes d’équation et des types de


variables

Ce programme est financé par 2021 39


l’Union européenne
Interprétation des coefficients de régression
Valeurs de P et coefficients issus de l’analyse de régression linéaire
Les valeurs P
• La valeur p pour chaque terme teste l’hypothèse nulle que le coefficient est égal à zéro
(aucun effet).
• Une faible valeur p (<0,05) indique que vous pouvez rejeter l’hypothèse nulle. En
d’autres termes, un prédicteur qui a une faible valeur p est susceptible d’être un ajout
significatif à votre modèle parce que les changements dans la valeur du prédicteur sont
liés à des changements dans la variable de réponse.
• Inversement, une valeur p plus importante (non significative) suggère que les
changements dans le prédicteur ne sont pas associés à des changements dans la
réponse.
Ce programme est financé par 2021 40
l’Union européenne
Interprétation des coefficients de régression
Valeurs de P et coefficients issus de l’analyse de régression linéaire

Les coefficients
• Les coefficients de régression représentent le changement moyen
de la variable de réponse pour une unité de changement dans la
variable prédictive tout en maintenant d’autres prédicteurs dans le
modèle constant.

• Ce contrôle statistique que la régression fournit est importante


parce qu’elle isole le rôle d’une variable de toutes les autres dans le
modèle.

Ce programme est financé par 2021 41


l’Union européenne
Interprétation des coefficients de régression
Valeurs de P et coefficients issus de l’analyse de régression linéaire
La constante (Y Intercept)

• Le terme constant est en partie estimé par l’omission de prédicteurs dans une
analyse de régression.
• Essentiellement, il sert de poubelle pour tout biais qui n’est pas pris en compte par
les termes du modèle.
• Alors que la valeur est généralement dénuée de sens, il est crucial d’inclure le terme
constant dans la plupart des modèles de régression.
• La constante garantit que les résidus ont une moyenne de zéro. C’est la raison clé
pour laquelle nous devons inclure la constante dans toute régression.

Ce programme est financé par 2021 42


l’Union européenne
Interprétation des coefficients de régression
Coefficients et équation de régression logistique binaire
Les coefficients

• Le coefficient de régression logistique binaire permet de déterminer si la variation d'une


variable de prévision augmente ou réduit la probabilité d'occurrence de l'événement.
• Le coefficient estimé associé à un prédicteur représente la variation de la fonction de
liaison pour chaque variation d'une unité du prédicteur quand tous les autres prédicteurs
sont maintenus constants.
• En général, les coefficients positifs augmentent la probabilité de l'événement tandis que les
coefficients négatifs la réduisent.
• Un coefficient estimé proche de 0 implique que l'effet du prédicteur est réduit.

Ce programme est financé par 2021 43


l’Union européenne
Interprétation des coefficients de régression
Coefficients dans les cas suivants : log-log, log-lin, lin-log
log-log

• Un modèle log-log ou double log, appelé aussi « modèle à élasticité constante », est
caractérisé par la présence de logarithme dans tous les deux membres du dit modèle.

• Les coefficients dans un modèle log-log représentent l’élasticité de la variable


dépendante (Y) par rapport à la variable indépendante (X).

• En d'autres termes, le coefficient est le changement en points de pourcentage de Y


induit par un changement d’un point de pourcentage de X toute chose égale par
ailleurs.

Ce programme est financé par 2021 44


l’Union européenne
Interprétation des coefficients de régression
Coefficients dans les cas suivants : log-log, log-lin, lin-log

log-lin

• Dans ces modèles, la variable dépendante est prise en logarithme alors que les
variables explicatives sont simplement linéaires.

• Les coefficients dans un modèle log-lin représentent les taux de croissance de la


variable dépendante (Y) par rapport à la variation absolue de la variable indépendante X,
toute chose égale par ailleurs.

• Si l’on multiplie un coefficient par 100, on obtient une semi-élasticité de Y par rapport à la
variable X concernée.

Ce programme est financé par 2021 45


l’Union européenne
Interprétation des coefficients de régression
Coefficients dans les cas suivants : log-log, log-lin, lin-log
lin-log

• Dans ces modèles, la variable dépendante est simplement linéaire alors que les variables
explicatives sont prises en logarithme.

• Les coefficients dans un modèle lin-log représentent la variation absolue de Y rapport à la variation
relative de la variable indépendante (X), toute chose égale par ailleurs.

• Pour mieux interpréter ces coefficients une fois estimé, il tient de les diviser par 100, soit les
multiplier par 0,01.

• Une fois fait, ils rendent compte du changement en points de pourcentage de Y induit par un
changement d’un point de pourcentage de X, toute chose égale par ailleurs.

Ce programme est financé par 2021 46


l’Union européenne
Interprétation des coefficients de régression
Coefficients dans le cas où il y a terme d'interaction
Interaction entre 2 variables quantitatives (intervalles)

• Le coefficient pour la variable X1 se réfère à la situation où la variable X2 est égale à zéro, toute
chose égale par ailleurs et vice versa.

• Lorsque, la situation à laquelle se réfère le coefficient ne fait pas sens, celui-ci n’est pas interprété

Interaction entre 1 variable quantitative (intervalle) et 1 variable catégorielle

• Quand dans le terme d’interaction figure une variable dummy (i.e dichotomique, binaire), le coefficient
pour la variable quantitative indique son effet sur la variable dépendante pour la catégorie de
référence de la variable dummy, toute chose égale par ailleurs.

Ce programme est financé par 2021 47


l’Union européenne
Interprétation des coefficients de régression
Coefficients dans le cas où il y a terme d'interaction
Interaction entre deux variables catégorielles

• Quand dans le terme d’interaction figure deux variables dummy, le coefficient pour
la variable X1 mesure l’écart entre les 2 groupes qui la compose pour les
observations appartenant à la catégorie de référence de la variable X2, toute chose
égale par ailleurs.

• Pour plus de détails voir Jean-François BICKEL, les effets d’interaction ; et Jonas
KIBALA KUMA (2019), Modèles de régressions non linéaires « Eléments de
Théorie et pratiques sur logiciel ».

Ce programme est financé par 2021 48


l’Union européenne
Analyse multivariée descriptive

Ce programme est financé par 2021 49


l’Union européenne
Analyse en composantes principales
Objectifs
• L’analyse en composantes principales (ACP) est une technique de réduction
des données

• On cherche à définir k nouvelles variables combinaisons linéaires des p


variables initiales qui feront perdre le moins d’information possible.

• Ces variables seront appelées «composantes principales »,

• Les axes qu’elles déterminent : « axes principaux »

• Les formes linéaires associées : « facteurs principaux »

Ce programme est financé par 2021 50


l’Union européenne
Analyse en composantes principales
Objectifs
• L’analyse en composantes principales (ACP) est une technique de réduction
des données

• On cherche à définir k nouvelles variables combinaisons linéaires des p


variables initiales qui feront perdre le moins d’information possible.

• Ces variables seront appelées «composantes principales »,

• Les axes qu’elles déterminent : « axes principaux »

• Les formes linéaires associées : « facteurs principaux »

Ce programme est financé par 2021 51


l’Union européenne
Analyse en composantes principales
Objectifs

Ce programme est financé par 2021 52


l’Union européenne
Analyse en composantes principales
Procédure

Ce programme est financé par 2021 53


l’Union européenne
Analyse en composantes principales
Procédure

Ce programme est financé par 2021 54


l’Union européenne
Analyse en composantes principales
Procédure

Ce programme est financé par 2021 55


l’Union européenne
Analyse factorielle des correspondances
Objectifs
Les techniques d’analyse factorielle, telles que l’ACP, visent trois objectifs principaux :

1. Comprendre la structure d’un ensemble de variables (dans un questionnaire, voir quelles variables sont
associées)

2. Concevoir et raffiner des instruments de mesure comme les tests psychométriques et les questionnaires
basés sur des échelles de type Likert permettant de mesurer des construits latents (qu’il est impossible de
mesurer directement comme le degré de stress ou de bonheur d’une personne).

3. Condenser l’information contenue à l’intérieur d’un grand nombre de variables (d’items d’un questionnaire ou
d’un test, par exemple) en un ensemble restreint de nouvelles dimensions composites tout en assurant une
perte minimale d’informations (Hair et al., 1998). On cherche donc à faire émerger les construits ou les
dimensions sous-jacentes à un ensemble de variables.

Ce programme est financé par 2021 56


l’Union européenne
Analyse factorielle des correspondances
Objectifs
Dans le cadre d’une recherche, il nous arrive parfois de vouloir examiner la
covariabilité de variables multiples. C’est-à-dire, la façon dont elles sont reliées les
unes aux autres et de voir si les schémas de relation nous suggèrent quelque
chose d’intéressant et ayant dus sens.

Par exemple, nous sommes souvent intéressés à déterminer l’existence


de facteurs latents sous-jacents à partir des variables observées et mesurées
directement dans notre ensemble de données.

En statistique, les facteurs latents sont des variables cachées qui ne sont pas
directement observées, mais plutôt déduites (par analyse statistique) d’autres
variables qui sont observées (mesurées directement).

Ce programme est financé par 2021 57


l’Union européenne
Analyse factorielle exploratoire
Objectifs
• L’analyse factorielle exploratoire (AFE) est une technique statistique
permettant de révéler tous les facteurs latents cachés qui peuvent être déduits
de nos données observées.

• Cette technique calcule dans quelle mesure un ensemble de variables


mesurées, par exemple V1, V2, V3, V4 et V5, peut être représenté comme
mesures d’un facteur latent sous-jacent.

• Ce facteur latent ne peut pas être mesuré au moyen d’une seule variable
observée, mais il se manifeste plutôt par les relations qu’il provoque dans un
ensemble de variables observées.

Ce programme est financé par 2021 58


l’Union européenne
Analyse factorielle exploratoire
Objectifs
Dans la figure ci-contre, chaque variable observée V
est « causée « dans une certaine mesure par le facteur
latent sous-jacent (F), représenté par les coefficients
b1 à b5 (aussi appelés saturations de facteurs).

Chaque variable observée a également un terme


d’erreur associé, e1 à e5.

Chaque terme d’erreur est la variance de la variable


observée associée, Vi, qui est inexpliquée par le
facteur latent sous-jacent.

Ce programme est financé par 2021 59


l’Union européenne
Analyse factorielle confirmatoire
Objectifs

• L’analyse factorielle confirmatoire (AFC) cherche à vérifier/valider avec


un échantillon une structure factorielle latente préétablie à partir par
exemple de l’analyse factorielle exploratoire.

• En ce sens, nous entreprenons une analyse confirmatoire, pour voir dans


quelle mesure un modèle préétabli est confirmé par les données
observées. Il s’agit d’un contrôle rigoureux.

Ce programme est financé par 2021 60


l’Union européenne
Analyse factorielle des correspondances
Procédure

Ce programme est financé par 2021 61


l’Union européenne
Analyse factorielle des correspondances
Procédure

Ce programme est financé par 2021 62


l’Union européenne
Analyse factorielle des correspondances
Procédure

Ce programme est financé par 2021 63


l’Union européenne
Analyses de cluster
Objectifs
• L’analyse de classification, connue sous le nom de « cluster analysis », est un terme
générique utilisé pour désigner une variété de techniques d’analyses statistiques
(Scheibler & Schneider, 1985).
• Ces méthodes sont généralement utilisées pour grouper des objets, des personnes,
des concepts ou des stimuli dans des groupes homogènes sur la base de leur
similarité.
• Ces techniques de classification sont particulièrement utiles dans le cadre
d’investigations exploratoires afin de dégager des tendances générales au sein des
données et de suggérer des pistes d’analyses futures (Kos & Psenicka, 2000).

Ce programme est financé par 2021 64


l’Union européenne
Analyses de cluster
Objectifs
L’objectif global des analyses de classification est d’identifier des classes à
l’intérieur d’un ensemble d’entités mélangées que l’on croit appartenir à des
populations différentes.

Précisément, elles visent à :


1. Construire un schème contextuel pour la classification d’entités,
2. Générer des hypothèses,
3. Tester des classes hypothétiques à l’intérieur d’un échantillon et
4. Identifier des sous-groupes homogènes caractérisés par des tendances utiles
pour des prédictions futures.

Ce programme est financé par 2021 65


l’Union européenne
Analyses de cluster
Procédures de classification
Vous pouvez effectuer des analyses de cluster à l'aide de la procédure :
• TwoStep,
• hiérarchique,
• nuées dynamiques
• classification mixte.

Chaque procédure utilise un algorithme différent pour la création des clusters, et chacune d'elles
comporte des options qui ne sont pas disponibles dans les autres procédures.

Analyse typologique + analyse factorielle : Lorsque vous traitez un grand nombre de variables,
par exemple lors de l’analyse des résultats d’une enquête longue ou complexe, il peut être utile de
simplifier vos données avant d’effectuer la cluster analysis afin de vous faciliter la tâche.

L’utilisation de facteurs réduit le nombre de dimensions sur lesquelles vous effectuez le clustering et
peut vous permettre de créer des clusters qui reflètent davantage les véritables modèles présents
dans les data.

Ce programme est financé par 2021 66


l’Union européenne
Analyses discriminante
Objectifs
• L'analyse discriminante crée un modèle de prévision de groupe d'affectation.
• Le modèle est composé d'une fonction discriminante (ou, pour plus de deux
groupes, un ensemble de fonctions discriminantes) basée sur les combinaisons
linéaires des variables de prédicteur qui donnent la meilleure discrimination
entre groupes.
• Les fonctions sont générées à partir d'un échantillon d'observations pour
lesquelles le groupe d'affectation est connu.
• Les fonctions peuvent alors être appliquées aux nouvelles observations avec
des mesures de variables de prédicteur, mais de groupe d'affectation inconnu.
Ce programme est financé par 2021 67
l’Union européenne
Analyses discriminante
Objectifs
Deux techniques cohabitent sous la même appellation d’analyse discriminante :

Descriptive Décisionnelle
Cette méthode recherche, parmi toutes les ACP Connaissant, pour un individu donné, les valeurs
possibles sur les variables Xj, celle dont les des Yj mais pas la classe d’appartenance, cette
représentations graphiques des individus méthode consiste à affecter cet individu à une
discriminent "au mieux" les m classes du groupe modalité.
d’affectation.
Remarque : Lorsque le nombre et les caractéristiques des classes sont connues, il s’agit d’une
discrimination ; sinon, on parle de classification ou encore, avec des hypothèses sur les distributions,
de reconnaissance de mélanges.

Ce programme est financé par 2021 68


l’Union européenne
Analyses discriminante
Procédure

Ce programme est financé par 2021 69


l’Union européenne
Analyses discriminante
Procédure

Ce programme est financé par 2021 70


l’Union européenne
Assistance Technique- Appui Complémentaire
Centralisé
Programme d’Appui au Développement Durable du
Secteur Agricole (PADDSA)

Ministère de l’Agriculture, de l’Elevage et de la Pêche (MAEP)


Secrétariat Général du MAEP
03 BP 2900 Cotonou
Tél.: +229 21 30 10 87 / +229 21 30 04 10
Courriel : formation_acc@paddsa.bj

Ce programme est financé par


l’Union européenne

Vous aimerez peut-être aussi