0% ont trouvé ce document utile (0 vote)

45 vues16 pages

Rapport Stage Dété 2021

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

45 vues16 pages

Rapport Stage Dété 2021

Transféré par

eya chaouechi

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Vous êtes sur la page 1/ 16

Ministère de l’Enseignement Supérieur, de la Recherche Scientifique et des Technologies de

l'Information et de la Communication

Université de la Manouba

Institut Supérieur des Arts Multimédias

Projet : Développement des modèles Ml

Réalisé par :

Wiem BEN GAMRA

Dans le cadre du Stage d’été

Au Sein du labo « RIADI »

Encadrée par

M.Imed Riath Farah

M.Ali Ben Abbes

M.Noureddine Jarray

Année Universitaire 2021-2022

1
Plan

1. Introduction
2. Machine Learning Vs Deep Learning
3. Environnement du travail
4. Développement des modèle RandomForest
5. Développement des modèle Xgboost
6. L’environnement du travail
7. Conclusion

2
1 .Introduction

Face à l’augmentation en hausse du volume de données et à leur diversification, principalement liée

aux réseaux sociaux et à l’internet des objets. Le concept de Big Data est apparu qui fait référence aux
technologies mises en œuvre pour gérer ce type de données. La migration vers le cloud accélère
l’utilisation des données et la collaboration, En s’appuyant sur des méthodes scientifiques Collecte,
préparation, importation, analyse & Traitement, et interprétation.
Aujourd’hui la plupart des secteurs à ne pas avoir franchi le pas de l’intelligence artificielle cette
technologie décuple ses capacités au contact du Big data et représente des possibilités infinies

L’IA comprend de nombreux sous-domaines, Le machine learning est une application de l’IA qui
permet aux ordinateurs d'apprendre à partir de l’expérience et d'améliorer l’exécution de tâches
spécifiques. Il permet aux ordinateurs d'analyser des données et d’employer des techniques statistiques
pour apprendre à partir de ces données afin d'améliorer leur capacité à exécuter une tâche donnée. Ces
algorithmes sont souvent classés en deux catégories : supervisés et non supervisés, semi-supervisé.
Aussi L'apprentissage profond est une branche du machine learning qui imite le cerveau humain
aussi fidèlement que possible. Il utilise généralement un modèle fondé sur la structure du cerveau,
appelé réseau neuronal profond.

Figure 1:AI vs ML vs Dl

3
2. La différence entre l’apprentissage automatique et l’apprentissage profond

L'apprentissage profond (DL) et l'apprentissage automatique (ML) sont deux sous-ensembles de

l'intelligence artificielle (IA).
ML :

 Consiste à ce que les ordinateurs soient capables de penser et d'agir avec moins d'intervention
humaine
 Nécessite des données structurées et utilise des algorithmes traditionnels comme la régression
linéaire.
 Algorithmes d'extraction des caractéristiques
DL :

 Concerne les ordinateurs qui apprennent à penser à l'aide de structures calquées sur le cerveau
humain
 Nécessite des ressources beaucoup plus puissantes. Cette demande de puissance a entraîné une
utilisation accrue des unités de traitement graphique.
 ANN* (Artificiel Neural Network) pour extraire les caractéristiques sans algorithmes
d'extraction
 Utilise des réseaux de neurones et est conçu pour accueillir de gros volumes de données non
structurées

ANN: Réseau de neurones artificiels , systèmes informatiques inspirés des réseaux de

neurones biologiques qui constituent le cerveau des humains tous les neurones sont connectés
entre eux

Figure 2 :ANN

Figure 3:ML VS DL

4
3. L’environnement du travail

Anaconda :
Anaconda est une distribution libre et open source des langages de programmation Python et R appliqué au
développement d'applications dédiées à la science des données et à l'apprentissage automatique, qui vise à
simplifier la gestion des paquets et de déploiement.

Figure 4:Anaconda plateform

TenserFlow :

TensorFlow est un outil open source d'apprentissage automatique développé par Google,est une
bibliothèque de logiciels open source pour le calcul numérique à l'aide de graphes de flux de données.
Les nœuds du graphique représentent des opérations mathématiques

Figure 5 tenserflow library

Python :
Python est un langage de programmation interprété, multi-paradigme et multiplateformes. Il favorise
la programmation impérative structurée, fonctionnelle et orientée objet

Les bibiliothèques utilisées :

Scikit-learn : Outil simple et efficace d'analyse prédictive de données la bibliothèque la plus utile pour
le machine learning en Python,contient de nombreux outils efficaces pour l'apprentissage automatique
et la modélisation statistique, notamment la classification, la régression, le regroupement et la réduction
de la dimensionnalité
Mathplotlib : visualiser les données sous forme des graphiques

Numpy : destinée à manipuler des matrices ou tableaux multidimensionnels

Panda : bibiliothèque permet la manipulation et l'analyse des données.

Seaborn : est une bibliothèque de visualisation de données Python basée sur matplotlib. Il fournit une
interface de haut niveau pour dessiner des statistiques attrayantes et informatives

5
4 RandomForest model

1 Définition du model :

Les algorithmes d'apprentissage automatique traditionnels donnent généralement une faible précision
de classificateur et un surajustement facile. Pour améliorer la précision, de nombreuses personnes
effectuent des recherches sur l'algorithme de combinaison de classificateurs
-L’algorithme des « forêts aléatoires »: un algorithme de classification qui réduit la variance des
prévisions d’un arbre de décision seul, améliorant ainsi leurs performances.il combine de nombreux
arbres de décisions dans une approche de type bagging.
Bagging: est une technique utilisée pour améliorer la classification notamment celle des arbres de
décision pour corriger l’instabilité des arbres de décision (le fait que de petites modifications dans
l’ensemble d’apprentissage entraînent des arbres très différents).
Cet algorithme sert à développement rapide et largement utilisé dans de nombreux domaines, ( bio-
informatique, la médecine(En médecine, utilisation de la technologie RF telle que Lee pour aider les
images CT pulmonaires des nodules pulmonaires à la détection automatique), les sciences de la
gestion, l'économie.)

Figure 6:RandomForest shéma

6
Figure 7 resultat du RandomForest

Majority voting/average : Le résultat peut être la prédiction la plus existante(données binaires) ,ou la
moyenne des prédictions

2 Simulation sur python

A . RandomForest for Regression :

Le problème ici est de prédire la consommation de gaz dans 48 des États américains sur la base de la
taxe sur l’essence, du revenu par habitant, des autoroutes pavées, et de la proportion de la population
avec le permis de conduire.

Figure 8 :input dataset (petrolcomsumption.csv)

7
Figure 9:data preparation

Figure 10 Training algorithm

Figure 11 fonction cout

8
B .RandomForest for Classification

La tâche ici est de prédire si un billet de banque est authentique ou non sur la base de quatre attributs,
à savoir la variance de l'image transformée en ondelettes d'image, l'asymétrie, l'entropie et la curtosis
de l'image ,il s'agit d'un problème de classification binaire et nous utiliserons un classificateur de forêt
aléatoire pour résoudre ce problème

Figure 12:Loading data

9
Applications: Customer segmentation, Grouping experiment outcomes
● Calculer une matrice de confusion pour évaluer l'exactitude d'une classification.
Accuracy est la proximité des mesures par rapport à une valeur spécifique / tandis que la précision est
la proximité des mesures les unes par rapport aux autres

 Pour conclure Random Forest est une technique de mise en sac qui contient un certain nombre
d'arbres de décision sur divers sous-ensembles de l'ensemble de données donné et prend la
moyenne pour améliorer la précision prédictive de cet ensemble de données. Au lieu de
s'appuyer sur un arbre de décision, la forêt aléatoire prend la prédiction de chaque arbre et sur
la base des votes majoritaires des prédictions, et elle prédit la sortie finale. Le plus grand
nombre d'arbres dans la forêt conduit à une plus grande précision et évite le problème de
surajustement.

10
5 XGboost model

1 Définition du model :

XGBoost, qui signifie Extreme Gradient Boosting, est une bibliothèque d'apprentissage automatique
évolutive et distribuée à arbre de décision boosté par gradient (GBDT). Il fournit une amplification
d'arbre parallèle et est la principale bibliothèque d'apprentissage automatique pour les problèmes de
régression, de classification et de classement. C’est un algorithme d'apprentissage basé sur un arbre de
décision qui utilise un cadre d'amplification de gradient.
Le boosting est une technique d'ensemble où de nouveaux modèles sont ajoutés pour corriger les
erreurs commises par les modèles existants. Les modèles sont ajoutés séquentiellement jusqu'à ce
qu'aucune autre amélioration ne puisse être apportée.
Dans les problèmes de prédiction impliquant des données non structurées (images, texte, etc.)
(ensembles de données volumineux + compliqués)
+Vitesse et performances : Initialement écrit en C++, il est comparativement plus rapide que les autres
classificateurs d'ensembles.
+ L'algorithme de base est parallélisable : comme l'algorithme de base XGBoost est parallélisable, il
peut exploiter la puissance des ordinateurs multicœurs.
Il est également parallélisable sur les GPU et sur les réseaux d'ordinateurs, ce qui permet également
de s'entraîner sur de très grands ensembles de données.
+ Surpasse systématiquement les autres méthodes d'algorithme : il a montré de meilleures
performances sur une variété d'ensembles de données de référence en apprentissage automatique.
Exemple :

Figure 13 input de l'algorithme :les gens de différents âge

11
Figure 14 :Un ensemble de plus d'un arbre, les prédictions combinés pour obtenir une prédiction plus forte.

2 Simulation python (XGboost for regression)

Figure 15 loading data

Nous allons diviser les données en ensembles d'entraînement et de test, ajuster un petit modèle xgboost
sur l'ensemble d'entraînement et évaluer ses performances sur l'ensemble de test en calculant sa
précision.

12
13
14
Les résultats des problèmes de régression sont des valeurs continues ou réelles. Certains algorithmes
de régression couramment utilisés sont la régression linéaire et les arbres de décision. Il existe
plusieurs métriques impliquées dans la régression comme l'erreur quadratique moyenne (RMSE) et
L’erreur absolue moyenne (MAE). Ce sont quelques membres clés des modèles XGBoost, chacun
joue son rôle important.

Figure 16:formule RMSE

Figure 17Formule MSE

Figure 18:Formule MAE

 RMSE : la racine carrée de l'erreur quadratique moyenne pour évaluer la qualité des
prédictions. Il montre à quel point les prédictions s'éloignent des vraies valeurs mesurées en
utilisant la distance euclidienne.
 MAE : C'est une somme absolue des différences réelles et prédites
 MSE : L’écart quadratique moyen, la moyenne des carrés des erreurs c’est la différence
quadratique moyenne entre les valeurs estimées et la valeur réelle

15
6 Conclusion

En machine learning, on traite principalement deux types de problèmes que sont la classification et la
régression. Il existe plusieurs types d'algorithmes différents pour les deux tâches. Mais nous devons
choisir cet algorithme dont les performances sont bonnes sur les données respectives. Les méthodes
d'ensemble comme les algorithmes Random Forest,, XGboost Généralement les deux modeles
XgBoost et RandomForest sont basés sur l’algorithme de l’arbre de décision, Si nous travaillons
davantage sur l'ingénierie des données et des fonctionnalités(feature engineering), cette précision peut
être encore améliorée

Vous aimerez peut-être aussi

Machine Learning Avec Python - Guide Pratique
100% (1)
Machine Learning Avec Python - Guide Pratique
24 pages
Ia Framework Machines Deep Learning dl4j Tfjs
Pas encore d'évaluation
Ia Framework Machines Deep Learning dl4j Tfjs
258 pages
Concour OFPPT
Pas encore d'évaluation
Concour OFPPT
46 pages
Cours ML Mounira
100% (1)
Cours ML Mounira
131 pages
Machine Learning
Pas encore d'évaluation
Machine Learning
89 pages
Résumé Deep Learning
Pas encore d'évaluation
Résumé Deep Learning
15 pages
Cours - Article Machine Learning
Pas encore d'évaluation
Cours - Article Machine Learning
102 pages
Catalogue SODIM
Pas encore d'évaluation
Catalogue SODIM
132 pages
Cours Sur Les Généralités Du Machine Learning
Pas encore d'évaluation
Cours Sur Les Généralités Du Machine Learning
12 pages
Support de Cours MS Excel
100% (1)
Support de Cours MS Excel
84 pages
Cours Machine Learning
Pas encore d'évaluation
Cours Machine Learning
90 pages
Apprentissage Machine
100% (1)
Apprentissage Machine
97 pages
Intelligence Artificielle: Pr. Hiba Chougrad Année-Universitaire: 2021-2022
Pas encore d'évaluation
Intelligence Artificielle: Pr. Hiba Chougrad Année-Universitaire: 2021-2022
63 pages
Machine Learning Process
Pas encore d'évaluation
Machine Learning Process
10 pages
Cahier D'activité 9ème de Base
100% (4)
Cahier D'activité 9ème de Base
34 pages
Introduction Data Mining
Pas encore d'évaluation
Introduction Data Mining
96 pages
Algorithme Random Forest
Pas encore d'évaluation
Algorithme Random Forest
32 pages
Compte Rendu Tp1
100% (1)
Compte Rendu Tp1
3 pages
Introduction Au Deep Learning
Pas encore d'évaluation
Introduction Au Deep Learning
17 pages
Machine Learning FR
Pas encore d'évaluation
Machine Learning FR
75 pages
Techniques et Outils pour L'intelligence Artificielle via Python. Apprentissage Supervisé : Machine à Vecteur de Support, Assemblage de Modèles et Réseaux Neuronaux
D'Everand
Techniques et Outils pour L'intelligence Artificielle via Python. Apprentissage Supervisé : Machine à Vecteur de Support, Assemblage de Modèles et Réseaux Neuronaux
César Pérez López
Pas encore d'évaluation
Le GÉNÉRAL des Cours de l'ordinateur: GENERAL, #1
D'Everand
Le GÉNÉRAL des Cours de l'ordinateur: GENERAL, #1
XL DANSMICH
Pas encore d'évaluation
Akretche Merah M Moire
Pas encore d'évaluation
Akretche Merah M Moire
78 pages
Chapitre Apache Mahout & Machine Learning
Pas encore d'évaluation
Chapitre Apache Mahout & Machine Learning
85 pages
Cours Article
Pas encore d'évaluation
Cours Article
84 pages
Resumé de Cours Et Questionnaires
Pas encore d'évaluation
Resumé de Cours Et Questionnaires
14 pages
IA SE3 Chapter1
Pas encore d'évaluation
IA SE3 Chapter1
63 pages
Formation Hyper-V VFINAL 1
Pas encore d'évaluation
Formation Hyper-V VFINAL 1
410 pages
Apprentissage Machine ML 2
Pas encore d'évaluation
Apprentissage Machine ML 2
46 pages
Classification 1
Pas encore d'évaluation
Classification 1
29 pages
Chap1-Introduction Au ML
Pas encore d'évaluation
Chap1-Introduction Au ML
41 pages
Chap02 Frameworks
Pas encore d'évaluation
Chap02 Frameworks
51 pages
Rapport de Stage PFE Semah BELHADJ DIT MDALSI
Pas encore d'évaluation
Rapport de Stage PFE Semah BELHADJ DIT MDALSI
83 pages
Chap2 Machine Learning Et Outils IA
Pas encore d'évaluation
Chap2 Machine Learning Et Outils IA
6 pages
Résumé Machine Learning
Pas encore d'évaluation
Résumé Machine Learning
19 pages
Bord Inspecteur Police 104 - PDF
Pas encore d'évaluation
Bord Inspecteur Police 104 - PDF
109 pages
Interpretabilite Du ML Nexialog Consulting
Pas encore d'évaluation
Interpretabilite Du ML Nexialog Consulting
11 pages
Rapportv 3
Pas encore d'évaluation
Rapportv 3
98 pages
Representing Data Presentation in Blue Green Flat Graphic Style
Pas encore d'évaluation
Representing Data Presentation in Blue Green Flat Graphic Style
17 pages
TD Math
Pas encore d'évaluation
TD Math
5 pages
Analyse Et Prédiction Des Crises Cardiaques
Pas encore d'évaluation
Analyse Et Prédiction Des Crises Cardiaques
30 pages
IA Reformuler
Pas encore d'évaluation
IA Reformuler
19 pages
Chapit 1 ML L3 IRS
Pas encore d'évaluation
Chapit 1 ML L3 IRS
38 pages
Études Des Principaux Algorithmes de Data Mining
Pas encore d'évaluation
Études Des Principaux Algorithmes de Data Mining
20 pages
Chap 1 Installation Et Configuration Odoo
Pas encore d'évaluation
Chap 1 Installation Et Configuration Odoo
31 pages
Partie 1
Pas encore d'évaluation
Partie 1
28 pages
1 Intro ML
Pas encore d'évaluation
1 Intro ML
18 pages
1 Machine Learning (Intro)
Pas encore d'évaluation
1 Machine Learning (Intro)
25 pages
QT Designer Pour Windows Et Mac
Pas encore d'évaluation
QT Designer Pour Windows Et Mac
6 pages
Formation Illustrator
Pas encore d'évaluation
Formation Illustrator
42 pages
Qu
Pas encore d'évaluation
Qu
11 pages
Chargement Des Données
Pas encore d'évaluation
Chargement Des Données
7 pages
DM Algos
Pas encore d'évaluation
DM Algos
20 pages
Support de Cours 4
Pas encore d'évaluation
Support de Cours 4
12 pages
Cloud Partie Prati Que
Pas encore d'évaluation
Cloud Partie Prati Que
19 pages
1 - Introduction Au Machine Learning
Pas encore d'évaluation
1 - Introduction Au Machine Learning
15 pages
Projet IA MameCheikhSylla - IbraKoundoul
Pas encore d'évaluation
Projet IA MameCheikhSylla - IbraKoundoul
19 pages
Conference Entreprenariale
Pas encore d'évaluation
Conference Entreprenariale
9 pages
Chapitre 4 Le Langage JavaScript PDF
Pas encore d'évaluation
Chapitre 4 Le Langage JavaScript PDF
9 pages
T Dev 810
Pas encore d'évaluation
T Dev 810
10 pages
Apprentissage Automatique
Pas encore d'évaluation
Apprentissage Automatique
5 pages
ML Modèles
Pas encore d'évaluation
ML Modèles
9 pages
Pfa 1
Pas encore d'évaluation
Pfa 1
22 pages
Vocabulaire
Pas encore d'évaluation
Vocabulaire
4 pages
Annale Info Tle ESG PDF
Pas encore d'évaluation
Annale Info Tle ESG PDF
54 pages
Machine Learning
Pas encore d'évaluation
Machine Learning
6 pages
Maquette EuraTech Trends N8 V3 201602
Pas encore d'évaluation
Maquette EuraTech Trends N8 V3 201602
4 pages
FR Tanagra Tensorflow Keras Python PDF
Pas encore d'évaluation
FR Tanagra Tensorflow Keras Python PDF
15 pages
Compte Rendu Tp1
Pas encore d'évaluation
Compte Rendu Tp1
3 pages
Compte Rendu Tp1
Pas encore d'évaluation
Compte Rendu Tp1
3 pages
Memento Génie Logisiel
Pas encore d'évaluation
Memento Génie Logisiel
35 pages
Rapport Projet IA
Pas encore d'évaluation
Rapport Projet IA
6 pages
Cours QGIS
Pas encore d'évaluation
Cours QGIS
12 pages
700D 700D 700D 700D 700D 700D: Vincent Burgeon Philippe Chaudré
Pas encore d'évaluation
700D 700D 700D 700D 700D 700D: Vincent Burgeon Philippe Chaudré
25 pages
Complitation de Moyau - UBUNTU
Pas encore d'évaluation
Complitation de Moyau - UBUNTU
11 pages
Raccourcis ILLUSTRATOR CS3
Pas encore d'évaluation
Raccourcis ILLUSTRATOR CS3
15 pages
Nour Sfar
Pas encore d'évaluation
Nour Sfar
1 page
006-Didacticiel Stylet Surface Excel
Pas encore d'évaluation
006-Didacticiel Stylet Surface Excel
22 pages
Cours Cao ISIMA 0910v1
Pas encore d'évaluation
Cours Cao ISIMA 0910v1
32 pages
Id 10781 PDF
Pas encore d'évaluation
Id 10781 PDF
18 pages
Les Fichiers
Pas encore d'évaluation
Les Fichiers
32 pages
TP Ecore
Pas encore d'évaluation
TP Ecore
27 pages
Cahier de Charge Yassine
Pas encore d'évaluation
Cahier de Charge Yassine
17 pages
Guide AUTOMGEN 7.015
100% (1)
Guide AUTOMGEN 7.015
7 pages
TD2 2019
Pas encore d'évaluation
TD2 2019
15 pages
Chapitre 1 - Introduction À Linformatique IUC 2024-2025
Pas encore d'évaluation
Chapitre 1 - Introduction À Linformatique IUC 2024-2025
10 pages
Introduction Aux Systèmes D'exploitation Pour Serveurs
Pas encore d'évaluation
Introduction Aux Systèmes D'exploitation Pour Serveurs
5 pages
Correction-TD2 INREV
Pas encore d'évaluation
Correction-TD2 INREV
4 pages
2023 08 11 CP LUIB Confirme Le Maintien de La Certification AML30000 Pour Le 2eme Cycle Consecutif
Pas encore d'évaluation
2023 08 11 CP LUIB Confirme Le Maintien de La Certification AML30000 Pour Le 2eme Cycle Consecutif
2 pages
Controle Corrigé l3
100% (1)
Controle Corrigé l3
2 pages
TD1 2023 24
Pas encore d'évaluation
TD1 2023 24
4 pages
Activité N2 Du Projet Non Présentiel
Pas encore d'évaluation
Activité N2 Du Projet Non Présentiel
2 pages
Détection des piétons: S'il vous plaît, suggérez un sous-titre pour un livre intitulé « Détection des piétons » dans le domaine de la « Vision par ordinateur ». Le sous-titre suggéré ne doit pas contenir de ':'.
D'Everand
Détection des piétons: S'il vous plaît, suggérez un sous-titre pour un livre intitulé « Détection des piétons » dans le domaine de la « Vision par ordinateur ». Le sous-titre suggéré ne doit pas contenir de ':'.
Fouad Sabry
Pas encore d'évaluation
Canon MF 421 DW
Pas encore d'évaluation
Canon MF 421 DW
4 pages
Article 413007
Pas encore d'évaluation
Article 413007
3 pages
Technique de Conception D'application
Pas encore d'évaluation
Technique de Conception D'application
3 pages
Atelier 1
Pas encore d'évaluation
Atelier 1
1 page