Report DATA A
Report DATA A
Report DATA A
Présenté par
Nour Sfar
Explorer La Dépression
Encadrant :
#Camembert Homme/Femme
df['genre'] %>%
group_by(genre) %>%
summarize(count = n()) -> d
pct = d$count / sum(d$count) * 100
p2 <- pie(d$count, labels = paste(d$genre,' ', round(pct, 2), '%' ), col =
c('cornflowerblue', 'indianred1'),
main = 'Distribution des Genres')
Interprétation :
• A l’issue de ce questionnaire, on a 60.32% des réponses sont des femmes (76 femmes),
39.68% sont des Hommes (50 hommes).
#Camembert âges
df['âge'] %>%
group_by(âge) %>%
summarize(count = n()) -> d
pct = d$count / sum(d$count) * 100
p4 <- pie(d$count, labels = paste(d$âge,' ', round(pct, 2), '%' ), col =
c('moccasin', 'olivedrab2', 'lightgoldenrod4','lightsalmon4'),
main = 'Distribution des âges')
Interprétation :
• On remarque que la tranche d’âge majoritaire dans notre échantillon est du 20 ans à 25 ans.
Interprétation :
• Les Etudiants sont les majoritaires dans notre échantillon avec un ratio qui dépasse les 80%
des individus le l’échantillon.
Interprétation :
• On remarque que la filière qui persiste dans notre échantillon c’est le cycle ingénieur
(Préparatoire + Ecole d’ING) avec un ratio qui dépasse les 60% de l’échantillon.
• 15.87% des individus de notre échantillon ne sont pas des étudiants.
2.5. Quelques Comportement des individus :
l1 <- list(medium = rep(c("Dépression_ressentie", "Dépression_diagnostiquée",
"Consultation_dépression", "Antécédents_familiaux_dépression",
"Maladie_physique","Antécédents_stress"),
each = length(df[,1])), res = c(df$Dépression_ressentie,
df$Dépression_diagnostiquée, df$Consultation_dépression,
1. But de l’ACP :
• Variables : Regrouper les variables corrélées et les remplacer par un petit nombre de
nouvelles variables qui sont les composantes principales décrivant symptômes ou les causes
de la dépression.
• Individus : Regrouper les individus qui ont les mêmes symptômes ou mêmes habituent et
indiquer les symptômes et les habitudes qui les caractérisent.
Remarque :
• On va ajouter les variables “sexe” et “âge” comme variables qualitatives supplémentaires.
Les variables illustratives n’influencent pas la construction des composantes principales de
l’analyse.
2. Pertinence de l’ACP :
2.1. Critère 1 : Le Corrplot :
• Le corrgram donné ci-dessous permet d’étudier les corrélations entre les variables
quantitatives.
m1<-cor(bloc1)
Interprétation :
• Il est clair qu’il existe des corrélations importantes entre des groupes de variables ce qui
suggère la pertinence de cette ACP.
Interprétation :
• Une valeur très élevée a été obtenue pour la première valeur propre.
Interprétation :
• On remarque que le taux d'inertie cumulé des deux premiers axes est de 57.06943% qui
est un taux importantcompte tenu du fait que nous avons 20 variables : on va donc, d’parès
le critère du taux d’inertie cumulé, rtenir les 2 premiers axes.
Interprétation :
• On remarque que le coude se trouve au nivaux du du deuxième axe, d’après le Critère du
Coude, on devrait retenir les 2 premiers axes.
• L’objet cos2 dans var est une matrice dont les lignes représentent le cos carrés de la variable
(soit le carrée des coordonnées puisque l’ACP est normée).
res.pca$var$cos2[,1:3]
Interprétation :
• Les variables à faible valeur de cos2 seront colorées en “blanc”.
• Les variables avec les valeurs moyennes de cos2 seront colorées en “Blue”.
• Les variables avec des valeurs élevées de cos2 seront colorées en “rouge”.
• Exemple : Les cos² de « Sentiments_désespoir » et « Perte_confiance-Soi » sont élevés ce
qui indique une bonne représentation des deux variables sur les axes principaux. Dans ce
cas, ces variables sont positionnées à proximité de la circonférence du cercle de corrélation
tandis que le cos² de « Idées_Suicidaires » est faible par rapport aux autres variables, d’où
la variable est un peu proche du centre du cercle.
• « Sentiments_désespoir » est la variable qui contribue le plus dans la définition des axes
principaux.
• Dans notre contexte, l’objectif de l’Analyse en Composantes Multiples (ACM) pourrait être
d’explorer les relations entre nos plusieurs variables catégorielles liées à la dépression,
telles que l’âge, le sexe, le niveau d’éducation, la CSP, etc. En appliquant l’ACM, nous pouvons
identifier les combinaisons de variables qui sont les plus fréquentes et voir comment elles
sont associées à la dépression. Cela peut nous aider à mieux comprendre les facteurs de
risque et les symptômes de la dépression chez différents groupes de personnes, ainsi qu’à
identifier les tendances et les schémas généraux liés à la dépression.
1. But de l’ACM :
Résumer et visualiser le tableau de données contenant 6 tranches d’âge, 2 sexes et 6 types de CSP.
L’objectif est d’identifier : * Un groupe de personnes ayant un profil similaire dans leurs réponses
aux questions. * Les associations entre les catégories des variables.
bloc3<-df[,7:12]
bloc3
## # A tibble: 126 × 6
## Dépression_ressentie Dépression_diagnostiquée Consu…¹ Antéc…² Malad…³ Antéc…⁴
## <chr> <chr> <chr> <chr> <chr> <chr>
## 1 Oui Non Non Non Non Non
## 2 Oui Non Non Non Non Non
## 3 Oui Non Non Non Non Oui
## 4 Non Non Non Non Non Oui
## 5 Non Non Non Non Non Non
## 6 Oui Oui Oui Non Oui Oui
## 7 Non Non Non Non Non Non
## 8 Oui Non Non Oui Non Oui
## 9 Oui Non Non Non Non Oui
## 10 Oui Oui Non Oui Non Oui
## # … with 116 more rows, and abbreviated variable names
## # ¹Consultation_dépression, ²Antécédents_familiaux_dépression,
## # ³Maladie_physique, ⁴Antécédents_stress
2. Visualisation et interprétation :
res.mca$eig
3.2. Critère 2 :
• Tracer le graphique des valeurs propres et noter que le coude se trouve au niveau du 2ème
axe.
fviz_screeplot(res.mca)
3.2. Critère 3 :
• Raisonner sur le taux d’inertie cumulé et retenir les 2 premiers axes qui, sur les 9 axes de
l’ACM, accumulent quasi la moitié de l’inertie.
En conclusion, le choix des 2 premiers axes serait justifié.
Interprétation :
• Il suffit d’identifier les groupes de modalités qui sont proches sur la carte.
• On a un premier groupe de modalités à gauche de la carte, constitué des modalités suivantes:
Dépression_ressentie_Non et Antécédents_stress_Non. Ces modalités peuvent être
interprétées comme indiquant les individus qui ne souffrent pas de dépression.
• Un deuxième groupe de modalités se trouve à droite de la carte et est constitué des
modalités suivantes : Dépression_diagnostiquée_oui, antécédent_Stress_oui,
dépression_ressentie_oui. Ces modalités peuvent être interprétées comme indiquant les
individus qui souffrent de dépression.
• Un troisième groupe se trouve en haut de la carte et est constitué des modalités suivantes :
Maladie_physique et Consultation_dépression. Ces modalités peuvent être interprétées
comme indiquant les individus qui souffrent d’une maladie physique et ont tendance à
consulter un psychiatre pour évaluer leur situation psychique, peut-être en raison de
l’impact de la maladie physique sur leur santé mentale ou de la prise de médicaments
associés à cette maladie.
dimdesc(res.mca, axes=1:2, proba=0.05)$`Dim 1`
V. Classification :
1. Méthode Hiérarchique :
• Les méthodes non hiérarchiques permettent de traiter des populations importantes (même
1000 et plus) à des coûts raisonnables. Ces méthodes visent à constituer directement k types
à partir de n objets en essayant d’optimiser un indice global mesurant la qualité de la
classification.
4. Classification Automatique :
4.1. Silhouette :
fviz_silhouette(res.km)