Régression Logistique
Régression Logistique
Régression Logistique
Présenter par :
ARAR Ishak
LAHDJEL Zakaria
2022/2023
Sommaire :
Introduction :
La maladie cardiovasculaire est l'une des principales causes de mortalité dans le monde
entier, représentant près de 18 millions de décès chaque année. Elle se caractérise par un
ensemble de maladies affectant le cœur et les vaisseaux sanguins, notamment l'insuffisance
cardiaque, les maladies coronariennes, l'angine de poitrine, l'hypertension artérielle, l'AVC et
bien d'autres. La maladie cardiovasculaire affecte les personnes de tous les âges, mais elle
est plus fréquente chez les personnes âgées et celles qui ont des antécédents familiaux de
cette maladie. Les facteurs de risque de la maladie cardiovasculaire sont nombreux,
notamment l'hypertension artérielle, le tabagisme, l'obésité, la sédentarité, le diabète,
l'hypercholestérolémie, la consommation excessive d'alcool et le stress.
Dans cette étude, nous avons utilisé une base de données contenant des informations sur la
maladie cardiovasculaire pour développer un modèle de prévision de cette maladie à l'aide
d'un modèle de régression logistique. Le modèle développé permettra d'identifier les
facteurs de risque les plus importants pour la maladie cardiovasculaire, ce qui pourrait aider
les professionnels de santé à identifier les personnes à risque de cette maladie et à mettre
en place des stratégies de prévention appropriées.
Dans la suite de ce rapport, nous décrirons les méthodes utilisées pour collecter les données,
développer le modèle de régression logistique et évaluer les performances du modèle. Nous
présenterons ensuite les résultats obtenus et discuterons des implications de ces résultats
pour la prévision et la prévention de la maladie cardiovasculaire.
Méthodologie : Nous avons utilisé une base de données contenant des informations sur 609
patients, comprenant leur âge, le niveau de catécholamine, leur taux de cholestérol, s'ils
fumaient ou non. Nous avons divisé la base de données en un ensemble d'apprentissage et
un ensemble de test pour évaluer les performances du modèle.
Nous avons utilisé une régression logistique pour créer un modèle qui prédit si un individu
est atteint ou non de maladie cardio-vasculaire en fonction des variables de la base de
données. Nous avons utilisé une approche descendante stepwise pour sélectionner les
variables les plus importantes dans le modèle.
Etape 01 : Importation de la base de données
Tout à fait, la première étape pour commencer votre analyse de données avec le langage R
est d'importer les librairies dont vous aurez besoin pour effectuer les différentes analyses.
Vous pouvez utiliser la fonction library() pour charger les packages dans R.
Voici une liste de quelques-unes des librairies les plus couramment utilisées pour l'analyse
de données en R :
Il est très important de vérifier la cohérence des types et des classes de variables lors de
l'analyse de données pour s'assurer que les données sont correctement interprétées et
traitées. Pour ce faire, la fonction str() est souvent utilisée car elle permet de vérifier la
structure des données, y compris les types et les classes des variables.
Si vous avez utilisé la fonction str() pour examiner la structure de la base de données
MaladieCardio et que vous avez trouvé des incohérences entre la nature des variables et
leur type ou classe, il est important d'examiner ces variables de plus près et de déterminer
comment les corriger.
Figure 04 : la suppression des variables synthèses de la data frame utiliser pour la construction du modelé
En utilisant les fonctions nrow() et ncol(), nous avons constaté que la base de données
contient 609 observations et 10 variables, ce qui nous donne suffisamment de données pour
effectuer notre analyse de régression logistique et évaluer la relation entre les variables et la
maladie cardiovasculaire.
Figure 05 : des statiques globales sur les données présenter dans la base de données
La figure présentée ci-dessus montre un aperçu des variables de la base de données. Nous
avons 10 variables au total, dont une variable d'identification (id), neuf variables explicatives
(cat, age, chl, smk, ecg, dbp, sbp, hpt et classe_age), et une variable cible binaire (chd) qui
indique si le patient est atteint d'une maladie cardiovasculaire ou non. Les variables
catégorielles sont représentées par des nombres entiers correspondant aux différentes
catégories. La variable d'âge a été transformée en une variable catégorielle nommée
classe_age, qui divise les patients en différentes tranches d'âge. Les statistiques descriptives
telles que la moyenne, la médiane, le minimum, le maximum et les quartiles sont également
fournies pour chaque variable numérique.
Figure 06 : le nombre des malades et le nombre des gens saint et la proportion des individus malades
Ce code R dans la figure 06 permet de calculer le nombre de personnes malades dans la base
de données, ainsi que le nombre de personnes non malades. Ensuite, il calcule la proportion
de personnes malades en utilisant ces deux nombres. On obtient ainsi 71 personnes malades
et 538 personnes non malades. La proportion de personnes malades est de 12%.
Figure 07 : présentation graphique de la variable chd par rapport à la variable age
En effet, le graphique montre deux lignes de points parallèles. Cela est dû au fait que la
variable explicative "chd" est une variable catégorielle avec seulement deux valeurs : 0 et 1.
Les points représentent les observations en fonction de leur âge.
Ainsi, pour chaque âge, il y a deux groupes de points, un groupe représentant les personnes
non malades et un autre groupe représentant les personnes malades. Les deux groupes sont
parallèles car les deux valeurs possibles de la variable "chd" sont mutuellement exclusives :
une personne ne peut être à la fois malade et non malade.