Document SPSS - 7
Document SPSS - 7
Document SPSS - 7
Analyse de variance
Discrètes (catégorielles) OU
Continue Régression multiple
2 catégories ….binomial
Catégorielle Continues et/ou discrètes Logit ou probit
Numériques : Régression
Expliquer et Modèle linéaire général : Recherche d'une relation entre
Méthodes Qualitatives : Analyse de la variance
prévoir une ou une variable numériques et plusieurs autres :
explicatives, Mixtes : Analyse de la covariance = Régression + Analyse de
Explication et prévision plusieurs variables
décisionnelles ou la variance
en fonction
inférentielles
d'autres variables Analyse discriminante : prédiction d'une variable qualitative à l'aide de plusieurs prédicteurs en général numériques
Extension : Disqual, PLS, ridge, régression logistique, arbre de décision, non linéaire, réseaux de neurones…
Discrète
Quantitative
Continue
Variable
statistique
Nominale
Qualitative
Ordinale
Peut-on
additionner deux
oui observations ? non
Valeurs numériques Nombreuses valeurs Pas d’ordre entre les Ordre entre les
peu nombreuses, numériques modalités modalités
dénombrables comprises dans des
intervalles Sexe, catégorie Degré de
socio- satisfaction, etc.
professionnelle, etc.
Age, nombre de Poids, taille, etc..
frères et soeurs,
nombre de formés,
etc.
Constatation ➔ Une déclaration factuelle • Des membres de la communauté ont déclaré (enquête) que
fondée sur des données leur revenu quotidien était inférieur à 1 USD.
primaires et secondaires • Les participants aux discussions de groupe communautaires
ont déclaré qu’ils voulaient trouver un emploi.
Conclusion ➔ Une synthèse (combinée) de • Des membres de la communauté vivent dans la pauvreté en
l’interprétation des résultats raison du manque d’activités créatrices de revenus.
Recommandation ➔ Une consigne basée sur des • Créer des possibilités de microfinance et de microentreprise
conclusions pour que les membres des communautés puissent démarrer
des activités créatrices de revenus culturellement adaptées et
économiquement viables.
Mesure ➔ Une action spécifique visant à • D’ici à décembre 2021, créer 6 groupes pilotes de solidarité
mettre une recommandation en chargés de recenser les possibilités de micro-entreprises et les
pratique bénéficiaires éventuels de prêts.
• D’ici à janvier 2022, mener une étude de marché pour
déterminer la viabilité des possibilités de micro-entreprises.
• Etc.
▪ permet :
• de procéder à une première évaluation de la validité des données
• de déterminer et d’analyser les principales caractéristiques
• de produire des rapports (tableaux, graphiques)
▪ particulièrement adaptée aux données du S&E (traitement
systématique et réponses rapides)
• Elle indique les valeurs inhabituelles, les valeurs extrêmes, les trous dans les données ou
d'autres particularités.
• Elle aide à déterminer si les techniques statistiques envisagées pour l'analyse de vos données sont
appropriées (Vérifications des hypothèses)
• Elle informe sur le besoin de transformer les données si la technique d’analyse envisagée nécessite
une répartition gaussienne.
Tableaux croisés
Sélectionnez [Supprimer les tableaux] pour voir uniquement les
statistiques, sans les tableaux proprement dits.
18 à 25 ans
3
17
5
11,7
28,3
26 à 40 ans
41 à 60 ans 28 46,7
Total 60 100
aucun 7 11,7
primaire 12 20
graduat 17 28,3
brevet de formation 6 10
Total 60 100
mariée 21 35
divorcée 7 11,7
état civil
veuve 21 35
célibataire 11 18,3
Total 60 100
maraichage 14 23,3
transformation 12 20
commerce 17 28,3
Total 60 100
patronne 31 51,7
indépendante 17 28,3
Total 60 100
En secteurs
Affichage des proportions ou des pourcentages d’un
ensemble de données.
En anneau
• direction – pour des variables de niveau ordinal au moins – (relation négative ou positive),
• forme (relation monotone pour les variables ordinales, relation linéaire ou curvilinéaire pour
des variables qui impliquent au moins la propriété de distance), et
• niveau de signification statistique (relation non significative, significative ou très significative).
Ce travail préliminaire est indispensable avant toute analyse multivariée.
Discrète
Quantitative
Continue
Variable
statistique
Nominale
Qualitative
Ordinale
Cuvette Ouest 10409 1.58339 3.335573 .032694 1.51930 1.64747 .000 305.000
ANOVA
Au regard de la statistique de Fisher (Prob=0,000 > 0,05), on rejette l’hypothèse H0 c’est-à-dire il existe une relation
entre la région et la superficie des exploitations agricoles.
À première vue, il semble y avoir une tendance à dormir moins longtemps chez les plus grands
mammifères.
Corrélation Corrélation
positive négative
Absence de
corrélation
L'existence d'une corrélation, aussi bonne soit elle, n'est jamais la preuve
d'une relation de cause à effet.
D’après ces graphiques, le modèle qui présente clairement la relation la plus linéaire, avec une variance à
peu près constante pour toutes les valeurs de la variable durée de gestion est le :
Corrélations
(64). Superficie totale Nombre total d'actifs
estimée de dans le ménage
l'exploitation (Ha) agricole
Corrélation de Pearson (64). Superficie totale estimée de l'exploitation (Ha) 1,000 ,000
Nombre total d'actifs dans le ménage agricole ,000 1,000
Sig. (unilatéral) (64). Superficie totale estimée de l'exploitation (Ha) . ,445
Nombre total d'actifs dans le ménage agricole ,445 .
N (64). Superficie totale estimée de l'exploitation (Ha) 264774 264774
Nombre total d'actifs dans le ménage agricole 264774 264774
Variables introduites/éliminéesa
Modèle Variables introduites Variables éliminées Méthode
1 Nombre total d'actifs dans le ménage agricoleb . Introduire
a. Variable dépendante : (64). Superficie totale estimée de l'exploitation (Ha)
b. Toutes les variables demandées ont été introduites.
ANOVAa
Somme des
Modèle carrés ddl Carré moyen F Sig.
1 Régression 1,856 1 1,856 ,019 ,890b
de Student 25553914,591 264772 96,513
Total 25553916,446 264773
a. Variable dépendante : (64). Superficie totale estimée de l'exploitation (Ha)
b. Prédicteurs : (Constante), Nombre total d'actifs dans le ménage agricole
Les résultats (R²= 0, Bêta=0 et non significatif) indiquent qu’il n’y a aucun lien entre le nombre d’actifs agricoles dans le ménage et
la superficie totale estimée de son exploitation.
Analyse de variance
Discrètes (catégorielles) OU
Continue Régression multiple
2 catégories ….binomial
Catégorielle Continues et/ou discrètes Logit ou probit
Numériques : Régression
Expliquer et Modèle linéaire général : Recherche d'une relation entre
Méthodes Qualitatives : Analyse de la variance
prévoir une ou une variable numériques et plusieurs autres :
explicatives, Mixtes : Analyse de la covariance = Régression + Analyse de
Explication et prévision plusieurs variables
décisionnelles ou la variance
en fonction
inférentielles
d'autres variables Analyse discriminante : prédiction d'une variable qualitative à l'aide de plusieurs prédicteurs en général numériques
Extension : Disqual, PLS, ridge, régression logistique, arbre de décision, non linéaire, réseaux de neurones…
La particularité de l’ANCOVA est de calculer cet effet en contrôlant l’effet d’une autre variable continue
qui a un impact présumé sur la relation initiale. Cette variable contrôlée est appelée « covariable ».
La covariable est nommée ainsi, car on la suspecte de covarier avec la variable dépendante et
d’affecter indirectement la relation qui existe entre la variable indépendante et la variable dépendante.
Le but de l’ANCOVA est de tester la relation initiale en supprimant statistiquement l’effet indirect de la
covariable. Ceci revient à tester l’effet de la variable indépendante (catégorielle) sur la variable
dépendante (continue) une fois que l’effet de la covariable sur la variable dépendante est enlevé.
L’hypothèse alternative est donc que les moyennes des groupes se distinguent.
Hypothèses de l’ANCOVA
Les trois premières hypothèses sont les mêmes que pour l’ANOVA :
Hypothèse 1 : Indépendance des observations : Pas de relation entre les observations à l’intérieur d’un groupe,
ni relation entre les observations entre les groupes.
Hypothèse 3 : Normalité des observations au sein des groupes / ou des résidus du modèle.
Hypothèse 3 : Homogénéité des variances.
Nous devons toutefois respecter une quatrième condition avant de procéder à l’ANCOVA :
• Pour comprendre cette hypothèse, imaginons que nous réalisons un nuage de points avec la covariable et les
valeurs de la variable dépendante pour chacun des groupes créés par la variable catégorielle. S’il existe une relation
linéaire positive entre la variable dépendante pour un groupe et la covariable, nous espérons que la relation ira dans
le même sens pour les autres groupes. Vous pouvez tester cette prémisse à partir du bouton Model de la boîte de
dialogue principale de l’ANCOVA.
Ce programme est financé par 2021 16
l’Union européenne
Analyse de la covariance (ANCOVA)
Procédure
• Elle est utilisée lorsque nous voulons prédire la valeur d’une variable en fonction de la valeur de
deux ou plusieurs autres variables.
• La variable que nous voulons prédire est appelée la variable dépendante (ou parfois, la
variable de résultat, de cible ou de critère).
• Les variables que nous utilisons pour prédire la valeur de la variable dépendante sont
appelées variables indépendantes (ou parfois, les variables prédictives, explicatives ou
régressives).
Hypothèse 1 : Votre variable dépendante doit être mesurée sur une échelle continue c’est-à-dire une
variable d’intervalle ou de ratio.
Hypothèse 2 : Vous avez deux variables indépendantes ou plus, qui peuvent être continues (c.-à-d. une
variable d’intervalle ou de ratio) ou catégorielles (c.-à-d. une variable ordinale ou nominale).
Hypothèse 3 : Vous devez avoir une indépendance des observations (c’est-à-dire l’indépendance
des résidus).
Hypothèse 4 : Il doit y avoir une relation linéaire entre (a) la variable dépendante et chacune de vos
variables indépendantes, et (b) la variable dépendante et les variables indépendantes collectivement.
Hypothèse 6 : Vos données ne doivent pas montrer la multicolinéarité, qui se produit lorsque vous
avez deux variables indépendantes ou plus qui sont fortement corrélées les unes avec les autres.
Hypothèse 7 : Il ne devrait pas y avoir de valeurs aberrantes significatives, ou de points très influents.
Hypothèse 8 : Enfin, vous devez vérifier que les résidus (erreurs) sont à peu près normalement
distribués.
• Vous pouvez vérifier les hypothèses #3, #4, #5, #6, #7 et #8 à l’aide de SPSS
Statistics.
• Toutefois, elle ne nécessite pas la présence d’une relation linéaire entre les variables
puisque la variable dépendante est dichotomique.
• Lorsque cette hypothèse nulle est rejetée, ceci signifie qu’il y a au moins un
prédicteur du modèle qui est associé significativement à la variable dépendante. Il
faut alors interpréter les valeurs des coefficients du modèle (b1, b2, b3… bn) et
déterminer lequel ou lesquels sont significatifs.
2. Inclure les variables pertinentes : toutes les variables pertinentes doivent être comprises dans le
modèle et celles qui ne le sont pas, éliminées.
6. Pas de valeurs extrêmes des résiduels : comme dans la régression multiple, des valeurs
résiduelles standardisées plus élevées que 2,58 ou moins élevées que -2,58 influencent les
coefficients du modèle et limitent la qualité de l’ajustement.
7. Taille de l’échantillon : l’échantillon doit être suffisant pour que l’on puisse procéder à l’analyse.
On suggère minimalement 10 observations par variable indépendante (Hosmer et Lemeshow, 1989,
voir également Cohen, 1992).
8. Échantillon adéquat pour les prédicteurs catégoriels : lorsqu’une VI catégorielle est croisée avec
la VD, aucune cellule ne doit avoir moins d’une observation et un maximum de 20 % des cellules
peuvent comprendre 5 observations ou moins.
• Bien qu'il existe parfois des techniques formelles pour choisir une
transformation, il est plus souvent nécessaire de procéder par la méthode
essai et erreur pour choisir. Une stratégie simple consiste à essayer plusieurs
transformations et valider ensuite les résultats.
– La transformation en rangs
Pour chaque variable, il faut ranger les valeurs de par ordre croissant et puis affecter
à chaque valeur classée son rang.
La théorie des tests se divisent en deux familles : les tests paramétriques et les tests
non paramétriques. Lorsque les hypothèses d’utilisation paramétriques ne sont pas
respectées, les alternatives non paramétriques sont souvent utilisés en recourant à la
transformation en rangs.
Ce programme est financé par 2021 36
l’Union européenne
Les différentes transformations des données
– La normalisation
Normaliser les données revient à appliquer une fonction f sur la variable X tel
que f(x) suit une loi normale. Plusieurs méthodes simples existent comme,
❑ la transformation logarithmique ;
❑ l’élévation au carré ;
❑ la mise sous racine carré ;
❑ la transformation arc-sinus ;
❑ la mise à l’exponentielle ;
❑ la transformation inverse.
Les coefficients
• Les coefficients de régression représentent le changement moyen
de la variable de réponse pour une unité de changement dans la
variable prédictive tout en maintenant d’autres prédicteurs dans le
modèle constant.
• Le terme constant est en partie estimé par l’omission de prédicteurs dans une
analyse de régression.
• Essentiellement, il sert de poubelle pour tout biais qui n’est pas pris en compte par
les termes du modèle.
• Alors que la valeur est généralement dénuée de sens, il est crucial d’inclure le terme
constant dans la plupart des modèles de régression.
• La constante garantit que les résidus ont une moyenne de zéro. C’est la raison clé
pour laquelle nous devons inclure la constante dans toute régression.
• Un modèle log-log ou double log, appelé aussi « modèle à élasticité constante », est
caractérisé par la présence de logarithme dans tous les deux membres du dit modèle.
log-lin
• Dans ces modèles, la variable dépendante est prise en logarithme alors que les
variables explicatives sont simplement linéaires.
• Si l’on multiplie un coefficient par 100, on obtient une semi-élasticité de Y par rapport à la
variable X concernée.
• Dans ces modèles, la variable dépendante est simplement linéaire alors que les variables
explicatives sont prises en logarithme.
• Les coefficients dans un modèle lin-log représentent la variation absolue de Y rapport à la variation
relative de la variable indépendante (X), toute chose égale par ailleurs.
• Pour mieux interpréter ces coefficients une fois estimé, il tient de les diviser par 100, soit les
multiplier par 0,01.
• Une fois fait, ils rendent compte du changement en points de pourcentage de Y induit par un
changement d’un point de pourcentage de X, toute chose égale par ailleurs.
• Le coefficient pour la variable X1 se réfère à la situation où la variable X2 est égale à zéro, toute
chose égale par ailleurs et vice versa.
• Lorsque, la situation à laquelle se réfère le coefficient ne fait pas sens, celui-ci n’est pas interprété
• Quand dans le terme d’interaction figure une variable dummy (i.e dichotomique, binaire), le coefficient
pour la variable quantitative indique son effet sur la variable dépendante pour la catégorie de
référence de la variable dummy, toute chose égale par ailleurs.
• Quand dans le terme d’interaction figure deux variables dummy, le coefficient pour
la variable X1 mesure l’écart entre les 2 groupes qui la compose pour les
observations appartenant à la catégorie de référence de la variable X2, toute chose
égale par ailleurs.
• Pour plus de détails voir Jean-François BICKEL, les effets d’interaction ; et Jonas
KIBALA KUMA (2019), Modèles de régressions non linéaires « Eléments de
Théorie et pratiques sur logiciel ».
1. Comprendre la structure d’un ensemble de variables (dans un questionnaire, voir quelles variables sont
associées)
2. Concevoir et raffiner des instruments de mesure comme les tests psychométriques et les questionnaires
basés sur des échelles de type Likert permettant de mesurer des construits latents (qu’il est impossible de
mesurer directement comme le degré de stress ou de bonheur d’une personne).
3. Condenser l’information contenue à l’intérieur d’un grand nombre de variables (d’items d’un questionnaire ou
d’un test, par exemple) en un ensemble restreint de nouvelles dimensions composites tout en assurant une
perte minimale d’informations (Hair et al., 1998). On cherche donc à faire émerger les construits ou les
dimensions sous-jacentes à un ensemble de variables.
En statistique, les facteurs latents sont des variables cachées qui ne sont pas
directement observées, mais plutôt déduites (par analyse statistique) d’autres
variables qui sont observées (mesurées directement).
• Ce facteur latent ne peut pas être mesuré au moyen d’une seule variable
observée, mais il se manifeste plutôt par les relations qu’il provoque dans un
ensemble de variables observées.
Chaque procédure utilise un algorithme différent pour la création des clusters, et chacune d'elles
comporte des options qui ne sont pas disponibles dans les autres procédures.
Analyse typologique + analyse factorielle : Lorsque vous traitez un grand nombre de variables,
par exemple lors de l’analyse des résultats d’une enquête longue ou complexe, il peut être utile de
simplifier vos données avant d’effectuer la cluster analysis afin de vous faciliter la tâche.
L’utilisation de facteurs réduit le nombre de dimensions sur lesquelles vous effectuez le clustering et
peut vous permettre de créer des clusters qui reflètent davantage les véritables modèles présents
dans les data.
Descriptive Décisionnelle
Cette méthode recherche, parmi toutes les ACP Connaissant, pour un individu donné, les valeurs
possibles sur les variables Xj, celle dont les des Yj mais pas la classe d’appartenance, cette
représentations graphiques des individus méthode consiste à affecter cet individu à une
discriminent "au mieux" les m classes du groupe modalité.
d’affectation.
Remarque : Lorsque le nombre et les caractéristiques des classes sont connues, il s’agit d’une
discrimination ; sinon, on parle de classification ou encore, avec des hypothèses sur les distributions,
de reconnaissance de mélanges.