SIO 6003 Pres 00

Télécharger au format pptx, pdf ou txt
Télécharger au format pptx, pdf ou txt
Vous êtes sur la page 1sur 26

SIO-6003

Techniques de forage de données

Séance 1 : Syllabus du cours


Plan de la présentation
• Introduction
• Objectif général
• Objectifs spécifiques
• Contenu du cours
• Matériel didactique
• Formule pédagogique
• Mode d'évaluation

SIO-6003 2
Introduction
• Nous sommes inondés de données dans la plupart des domaines.
• Malheureusement, ces données précieuses, dont la collecte est
souvent coûteuse, se languissent  dans des entrepôts de données.
• Le problème est de traduire toutes ces données en connaissances,
puis en sagesse. C'est pourquoi "le forage de données".
• Forage des données - data mining (DM).
• La métaphore du data mining signifie qu'il y a des trésors ou pépites
cachés sous des montagnes de données que l'on peut découvrir
avec des outils spécialisés [C.-Habart, et al, 2017].
• Ce cours revient sur ces outils de forage de données.
Fayyad U. M., et al., From data mining to knowledge discovery : An overview, 1996. SIO-6003 3
Corlosquet-Habart, M. et al.. Le big data pour les compagnies d'assurance, 2017.
Introduction -                                          Pourquoi ce cours ?
• Les frameworks font tout pour moi, alors pourquoi ce cours ?
• Vous prenez ce cours pour les raisons suivantes :
o Comprendre ce qui se passe sous le capot.
o Vous saurez quoi faire si quelque chose ne va pas.
o Éviter d'utiliser les techniques inappropriées.
o Tirer les bonnes conclusions.
o Passer d'une approche "black-box" à une méthodologie "white-box"
qui met l'accent sur la compréhension des modèles algorithmiques et
statistiques utilisés par les logiciels.

Fayyad U. M., et al., From data mining to knowledge discovery : an overview, (1996).
SIO-6003 4
Corlosquet-Habart, M. et al.. Le big data pour les compagnies d'assurance, (2017).
Objectif général
• Ce cours est une introduction au domaine du forage de données qui
permet aux étudiants de bien mener un projet de DM.
• Il introduit les différentes étapes du processus de DM et présente
les différentes techniques d'exploration de données.
• Les connaissances à acquérir permettront de bien identifier les
besoins d'un projet de DM, de choisir les techniques adéquates pour
ce projet et de justifier ces choix.
• Le cours présente les approches nécessaires pour tester et valider
les modèles de DM conçus et d'interpréter les résultats obtenus.

SIO-6003 5
Objectif général
• Le cours met l'accent aussi sur l'utilisation des outils informatiques
pour le DM (logiciel R/Excel/SPSS).
• Plusieurs exemples traités dans ce cours sont pris du monde réel des
affaires. Ceci permettra aux étudiants de confronter les aspects
théoriques du cours avec les aspects pratiques.

SIO-6003 6
Objectifs spécifiques
• Au terme de ce cours, l'étudiant(e) devrait être capable de :
• Comprendre le processus d'exploration des données (CRISP-DM) dans
toutes ses phases.
• Comprendre le problème à résoudre et identifier ses besoins.
• Comprendre les données disponibles et les préparer.
• Sélectionner les méthodes de DM appropriées et justifier leur choix.
• Créer les modèles de DM adéquats et utiliser des outils informatiques pour
les mettre en œuvre.
• Évaluer les modèles créés et valider les connaissances extraites.
• Se familiariser avec les outils informatiques (Excel, R, SPSS).

SIO-6003 7
Plan du cours
• Séance 01 – Introduction au forage des données
o Présentation du syllabus du cours
o Qu'est-ce que le data mining ?
o Erreurs de jugement dans le data mining
o Le modèle CRISP-DM
o Quelles sont les tâches que le forage des données peut accomplir ?

SIO-6003 8
Plan du cours
• Séance 02 – Pré-traitement des données (1/2)
o Pourquoi le pré-traitement ?
o Manipulation des données manquantes
o Identification des erreurs dans les données
o Méthodes graphiques pour l'identification des valeurs aberrantes
o Transformation des données
o Normalisation min-max
o Standardisation z-score
o Mise à l'échelle décimale
          Utilisation d'Excel

SIO-6003 9
Plan du cours
• Séance 03 – Pré-traitement des données (2/2)
o Normalisation (loi normale) des données
o Méthodes numériques pour identifier les valeurs aberrantes
o Transformation des variables catégorielles en variables numériques
o Binning des variables numériques
o Reclassification des variables catégorielles
o Ajout du champ d'index
o Suppression des variables inutiles

          Utilisation d'Excel

SIO-6003 10
Plan du cours
• Séance 04 – Analyse exploratoire des données
o Test d'hypothèses vs analyse exploratoire des données
o Exploration des variables catégorielles, numériques
o Exploration des relations multivariées
o Utilisation de l'EDA pour découvrir les champs anormaux
o Classement par catégories en fonction de la valeur prédictive

          Utilisation de R

          Utilisation de JASP

SIO-6003 11
Plan du cours
• Séance 05 – Statistiques univariées et multivariées
o Inférence statistique
o Estimation ponctuelle
o Estimation par intervalle de confiance
o Test d'hypothèse

          Utilisation de R

          Utilisation de JASP

SIO-6003 12
Plan du cours
• Séance 06 – Régression linéaire
o Régression linéaire simple
o Régression linéaire multiple
o Test d'hypothèse
o Intervalles et ellipses de confiance
o Coefficient de détermination
o Analyse des résidus
o Régression logistique
          Utilisation de R

          Utilisation de JASP

SIO-6003 13
Plan du cours
• Séance 07 – Machine learning : modèles et validation
o Méthodes supervisées et non supervisées
o Méthodologie statistique et méthodologie d'exploration de données
o Validation croisée
o Sur-ajustement et sous-ajustement
o Compromis biais-variance
o Équilibrage de l'ensemble des données d'apprentissage
o Établissement des performances de base

          Utilisation de SPSS

SIO-6003 14
Plan du cours
• Séance 08 – Classification K-plus proches voisins
o Classification
o Algorithme k-plus proches voisins
o La fonction distance
o Le choix de k
o Évaluation de la classification - matrice de confusion – rappel, spécificité et
précision (Section 14.3 du livre)

          Utilisation de SPSS

SIO-6003 15
Plan du cours
• Séance 09 – Arbres de décision
o Définition
o Arbres de classification et de régression (CART)
o Algorithme C4.5
o Règle de décision
o Différence entre C4.5 et CART

          Utilisation de SPSS

SIO-6003 16
Plan du cours
• Séance 10 – Réseaux de neurones
o Définition
o Encodage d'entrées et de sorties
o Réseaux de neurones pour l'estimation et la classification
o Exemple simple de réseaux de neurones
o Fonction d'activation en sigmoïde
o Critères de résiliation
o Taux d'apprentissage
o Analyse de sensibilité
o Application           Utilisation de SPSS

SIO-6003 17
Plan du cours
• Séance 11 – Regroupement et règles d'association
o Regroupement
 Méthodes de classification hiérarchique
 Regroupement à lien unique
 Classification par liens complets
 Le regroupement k-means
o Règles d'association
 Définition
 Analyse d'affinité et analyse du panier
 Support, confiance, ensembles fréquents et propriété a priori 
          Utilisation de SPSS

SIO-6003 18
Plan du cours
• Séance 12 – Conclusion
o Retour sur la matière
o Projet final

SIO-6003 19
Matériel didactique
• Livre obligatoire
Discovering knowledge in data : An introduction to data mining, Daniel T. Larose,
2ème édition, Wiley-Blackwell , 2014.
ISBN : 9780470908747.
Version électronique disponible (voir mon portail).

• Outils informatiques
o Excel
o R          – JASP
o SPSS

SIO-6003 20
Formule Pédagogique
• Toutes les séances sont en ligne.
• Cours magistral / Exemples avec logiciels informatiques.
• Présentations, enregistrements des séances en ligne, vidéos, etc.

SIO-6003 21
Formule Pédagogique

SIO-6003 22
Les aspects du cours 
• Le MD est une discipline située au croisement des statistiques,
des mathématiques, de l'informatique (programmation) et
des technologies de l'information (bases de données,
machine learning).
• L'exploration de données n'est pas de la programmation. L'objectif
principal de l'exploration de données est de résoudre les problèmes.
Les outils informatiques vous aident à résoudre un problème. 
• Ce cours n'est pas un cours de programmation.
• Programmation minimale ou nulle.
• Notions mathématiques simplifiées.
SIO-6003 23
Les aspects du cours 
• Chaque semaine, nous discuterons des concepts du DM à
travers des exemples du monde réel.
• Ensuite, nous apprendrons à utiliser des outils pour appliquer
des concepts.
• Outils : Excel, R, SPSS.
• Chaque outil a ses propres avantages.

SIO-6003 24
Mode d'évaluation
• Six (6) Quiz (45 %). 
• Projet de mi-session : application des techniques apprises lors des six
premières séances sur des données réelles (25 %).
• Projet final  : application des techniques de l'apprentissage
automatique sur des données réelles (à partir de la séance 07) (30 %).

SIO-6003 25
Conclusion
• Question ?
• Bonne session

SIO-6003 26

Vous aimerez peut-être aussi