Régression Logistique

Régression Logistique
Cas : Maladie cardio-vasculaire
Présenter par :
ARAR Ishak
LAHDJEL Zakaria
2022/2023
Sommaire :
Introduction :
La maladie cardiovasculaire est l'une des principales causes de mortalité dans le monde
entier, représentant près de 18 millions de décès chaque année. Elle se caractérise par un
ensemble de maladies affectant le cœur et les vaisseaux sanguins, notamment l'insuffisance
cardiaque, les maladies coronariennes, l'angine de poitrine, l'hypertension artérielle, l'AVC et
bien d'autres. La maladie cardiovasculaire affecte les personnes de tous les âges, mais elle
est plus fréquente chez les personnes âgées et celles qui ont des antécédents familiaux de
cette maladie. Les facteurs de risque de la maladie cardiovasculaire sont nombreux,
notamment l'hypertension artérielle, le tabagisme, l'obésité, la sédentarité, le diabète,
l'hypercholestérolémie, la consommation excessive d'alcool et le stress.
Dans ce contexte, l'identification précoce des personnes à risque de maladie cardiovasculaire

est essentielle pour prévenir et traiter cette maladie. Les bases de données de santé
constituent une source d'informations précieuse pour la recherche en santé publique, en
particulier pour la prévision et la prévention de la maladie cardiovasculaire. Ces bases de
données contiennent des informations sur les antécédents médicaux, les habitudes de vie et
les facteurs de risque des patients atteints de maladie cardiovasculaire.
Dans cette étude, nous avons utilisé une base de données contenant des informations sur la
maladie cardiovasculaire pour développer un modèle de prévision de cette maladie à l'aide
d'un modèle de régression logistique. Le modèle développé permettra d'identifier les
facteurs de risque les plus importants pour la maladie cardiovasculaire, ce qui pourrait aider
les professionnels de santé à identifier les personnes à risque de cette maladie et à mettre
en place des stratégies de prévention appropriées.
Dans la suite de ce rapport, nous décrirons les méthodes utilisées pour collecter les données,
développer le modèle de régression logistique et évaluer les performances du modèle. Nous
présenterons ensuite les résultats obtenus et discuterons des implications de ces résultats
pour la prévision et la prévention de la maladie cardiovasculaire.
Méthodologie : Nous avons utilisé une base de données contenant des informations sur 609
patients, comprenant leur âge, le niveau de catécholamine, leur taux de cholestérol, s'ils
fumaient ou non. Nous avons divisé la base de données en un ensemble d'apprentissage et
un ensemble de test pour évaluer les performances du modèle.
Nous avons utilisé une régression logistique pour créer un modèle qui prédit si un individu
est atteint ou non de maladie cardio-vasculaire en fonction des variables de la base de
données. Nous avons utilisé une approche descendante stepwise pour sélectionner les
variables les plus importantes dans le modèle.
Etape 01 : Importation de la base de données
Tout à fait, la première étape pour commencer votre analyse de données avec le langage R
est d'importer les librairies dont vous aurez besoin pour effectuer les différentes analyses.
Vous pouvez utiliser la fonction library() pour charger les packages dans R.
Voici une liste de quelques-unes des librairies les plus couramment utilisées pour l'analyse
de données en R :
Figure 01 : les bibliothèques utiliser dans l’étude
La base de données a été importée en utilisant la fonction read_delim() en spécifiant le

chemin d'accès du fichier CSV contenant les données. Dans ce cas, le fichier CSV contenant
les données de la maladie cardiovasculaire a été stocké dans une variable nommée
MaladieCardio. Il est à noter que le paramètre " ;" a été utilisé pour indiquer que les valeurs
sont séparées par des points-virgules.
Il est très important de vérifier la cohérence des types et des classes de variables lors de
l'analyse de données pour s'assurer que les données sont correctement interprétées et
traitées. Pour ce faire, la fonction str() est souvent utilisée car elle permet de vérifier la
structure des données, y compris les types et les classes des variables.
Si vous avez utilisé la fonction str() pour examiner la structure de la base de données
MaladieCardio et que vous avez trouvé des incohérences entre la nature des variables et
leur type ou classe, il est important d'examiner ces variables de plus près et de déterminer
comment les corriger.
Figure 02 : Les classes des variables

Etape 02 : Le prétraitement des données
Nous avons utilisé la fonction as.factor() pour transformer les variables numériques en
variables catégorielles. Cette transformation est utile dans certaines analyses telles que la
régression logistique ou l'analyse de variance (ANOVA). Le code ci-dessous transforme des
variables numériques en variables catégorielles :
Figure 03 : transformation des variables numériques a des variables catégorielles
Au début de l'analyse, nous avons remarqué la présence de variables synthétisées dans la

base de données. Après avoir examiné leur nature et leur pertinence pour notre étude sur
les maladies cardiovasculaires, nous avons décidé de les éliminer de l'analyse. Cette décision
a été prise pour améliorer la qualité de notre analyse et nous concentrer sur les variables les
plus importantes pour notre modèle de régression logistique.
Figure 04 : la suppression des variables synthèses de la data frame utiliser pour la construction du modelé
En utilisant les fonctions nrow() et ncol(), nous avons constaté que la base de données
contient 609 observations et 10 variables, ce qui nous donne suffisamment de données pour
effectuer notre analyse de régression logistique et évaluer la relation entre les variables et la
maladie cardiovasculaire.
Figure 05 : des statiques globales sur les données présenter dans la base de données
La figure présentée ci-dessus montre un aperçu des variables de la base de données. Nous
avons 10 variables au total, dont une variable d'identification (id), neuf variables explicatives
(cat, age, chl, smk, ecg, dbp, sbp, hpt et classe_age), et une variable cible binaire (chd) qui
indique si le patient est atteint d'une maladie cardiovasculaire ou non. Les variables
catégorielles sont représentées par des nombres entiers correspondant aux différentes
catégories. La variable d'âge a été transformée en une variable catégorielle nommée
classe_age, qui divise les patients en différentes tranches d'âge. Les statistiques descriptives
telles que la moyenne, la médiane, le minimum, le maximum et les quartiles sont également
fournies pour chaque variable numérique.
Figure 06 : le nombre des malades et le nombre des gens saint et la proportion des individus malades
Ce code R dans la figure 06 permet de calculer le nombre de personnes malades dans la base
de données, ainsi que le nombre de personnes non malades. Ensuite, il calcule la proportion
de personnes malades en utilisant ces deux nombres. On obtient ainsi 71 personnes malades
et 538 personnes non malades. La proportion de personnes malades est de 12%.
Figure 07 : présentation graphique de la variable chd par rapport à la variable age
En effet, le graphique montre deux lignes de points parallèles. Cela est dû au fait que la
variable explicative "chd" est une variable catégorielle avec seulement deux valeurs : 0 et 1.
Les points représentent les observations en fonction de leur âge.
Ainsi, pour chaque âge, il y a deux groupes de points, un groupe représentant les personnes
non malades et un autre groupe représentant les personnes malades. Les deux groupes sont
parallèles car les deux valeurs possibles de la variable "chd" sont mutuellement exclusives :
une personne ne peut être à la fois malade et non malade.
Ce graphique permet donc de visualiser la répartition des personnes malades et non

malades en fonction de leur âge. On peut observer que les personnes malades ont tendance
à être plus âgées que les personnes non malades on peut voir ça dans la figure qui suit.
Figure 08 : proportion de malades selon groupes d’âge
Etape 03 : Création de modelé de régression logistique

Régression Logistique

Transféré par

Droits d'auteur :

Formats disponibles

Régression Logistique

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Régression Logistique

Transféré par

Droits d'auteur :

Formats disponibles

Régression Logistique

Cas : Maladie cardio-vasculaire

Dans ce contexte, l'identification précoce des personnes à risque de maladie cardiovasculaire

Figure 01 : les bibliothèques utiliser dans l’étude

La base de données a été importée en utilisant la fonction read_delim() en spécifiant le

Figure 02 : Les classes des variables

Figure 03 : transformation des variables numériques a des variables catégorielles

Au début de l'analyse, nous avons remarqué la présence de variables synthétisées dans la

Ce graphique permet donc de visualiser la répartition des personnes malades et non

Etape 03 : Création de modelé de régression logistique

Vous aimerez peut-être aussi