Data Mining

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 25

Institut de Maintenance et Sécurité Industrielle

Le Data mining
ZOUAIRI Saim
De quoi s’agit il ?
• Une masse importante d’informations et en données Vs des
difficultés d’accés et de traitement à cette informations disponibles
• C'est pourquoi nous abordons aujourd'hui la question de l'exploration
des données. Nous explorerons tous les aspects du data mining, y
compris sa signification, ses étapes, ses techniques, les avantages qu'il
offre, les outils de data mining, etc. Commençons par une définition
du data mining, puis abordons les concepts et les techniques du data
mining.
Avant Propos
• La fouille de données (Data mining in English) consiste à trouver des anomalies,
des modèles et des corrélations dans de vastes ensembles de données afin de
prédire les résultats.
• Grâce à un large éventail de techniques, on peut utiliser ces informations pour
augmenter les revenus, réduire les coûts, améliorer les relations avec les clients,
réduire les risques, etc.
LE DATA MINING-- définition
• Le terme de data mining signifie littéralement forage de données. Comme dans
tout forage, son but est de pouvoir extraire un élément : ici, la connaissance. Ces
concepts s’appuient sur le constat qu’il existe au sein de chaque entreprise des
informations cachées dans le gisement de données.
• une définition philosophique qui explique que le data mining permet de “ trouver
des réponses aux questions que l’on ne pose pas ! ”.
• Le data mining peut ainsi être défini comme l’ensemble des procédés visant à
analyser de grands ensembles de données pour y découvrir des relations et des
structures utiles dans un processus de décision.
• Le data mining est un processus vaste et varié qui comprend de
nombreux composants différents, dont certains sont même
confondus avec le data mining lui-même. Par exemple, les statistiques
sont une partie du processus global de data mining

• En outre, le data mining et l'apprentissage automatique relèvent tous


deux de la science des données et, bien qu'ils présentent certaines
similitudes, chaque processus utilise les données d'une manière
différente.
Les étapes du data mining
Les étapes du data mining
• 1 Collecte des données. Les données pertinentes pour une
application analytique sont identifiées et rassemblées. Les données
peuvent se trouver dans différents sources, dans un entrepôt de
données ou dans un lac de données, un dépôt de plus en plus courant
dans les environnements big data qui contiennent un mélange de
données structurées et non structurées. Des sources de données
externes peuvent également être utilisées..
Les étapes du data mining
• 2. Préparation des données. Cette étape comprend une série de
mesures visant à préparer les données à être exploitées. Elle
commence par l'exploration, le profilage et le prétraitement des
données, suivis d'un travail de nettoyage des données pour corriger
les erreurs et autres problèmes de qualité des données. La
transformation des données est également effectuée pour rendre les
ensembles de données cohérents.
Les étapes du data mining
• 3. Extraction des données. Une fois les données préparées, le data
scientist choisit la technique d'exploration de données appropriée et
met en œuvre un ou plusieurs algorithmes pour effectuer
l'exploration. Dans les applications d'apprentissage automatique, les
algorithmes doivent généralement être entraînés sur des échantillons
de données pour rechercher les informations souhaitées avant d'être
exécutés sur l'ensemble des données.
Les étapes du data mining
• 4. Analyse et interprétation des données. Les résultats de
l'exploration des données sont utilisés pour créer des modèles
analytiques qui peuvent contribuer à la prise de décision et à d'autres
actions de l'entreprise. Le data scientist ou un autre membre de
l'équipe de data science doit également communiquer les résultats
aux dirigeants de l'entreprise et aux utilisateurs, souvent par le biais
de la visualisation des données et de l'utilisation de techniques de
narration des données.
Techniques du data mining
Classification

• Cette technique est utilisée pour obtenir des informations


importantes et pertinentes sur les données et les métadonnées. Cette
technique d'exploration de données permet de classer les données
dans différentes catégories.Les techniques d'exploration de données
peuvent être classées selon différents critères, comme suit :
Classification
• i. Classification des structures d'exploration de données en
fonction du type de sources de données exploitées :
• Cette classification est fonction du type de données traitées. Par
exemple, les données multimédias, les données spatiales, les données
textuelles, les données chronologiques, le World Wide Web, etc.
• ii. Classification des structures d'exploration de données en
fonction de la base de données concernée :
• Cette classification est basée sur le modèle de données utilisé. Par
exemple. Base de données orientée objet, base de données
transactionnelle, base de données relationnelle, etc.
Classification
• iii. Classification des structures d'exploration de données en
fonction du type de connaissances découvertes :
• Cette classification dépend des types de connaissances découvertes
ou des fonctionnalités d'exploration de données. Par exemple, la
discrimination, la classification, le regroupement, la caractérisation,
etc. Certains cadres tendent à être des cadres étendus offrant
quelques fonctionnalités d'exploration de données ensemble...
Classification
• L’échantillonnage :
• C’est est une division de l'information en groupes d'objets connectés. En
décrivant les données par quelques groupes, on perd principalement
certains détails confidentiels, mais on obtient des améliorations.
• D'un point de vue pratique, l’échantillonnage joue un rôle extraordinaire
dans les applications d'exploration de données. Par exemple, l'exploration
de données scientifiques, l'exploration de textes, la recherche
d'informations, les applications de bases de données spatiales, la gestion
de la relation client, l'analyse du web, la biologie informatique, les
diagnostics médicaux, et bien d'autres encore.
Classification
• En d'autres termes, nous pouvons dire que l'analyse de
l’échantillonnage est une technique d'exploration de données qui
permet d'identifier les données similaires.
• Cette technique permet de reconnaître les différences et les
similitudes entre les données.
Classification
Regression
L'analyse de régression est le processus d'exploration des données
utilisé pour identifier et analyser la relation entre les variables en raison
de la présence d'un autre facteur.
Elle est utilisée pour définir la probabilité de la variable spécifique. La
régression est avant tout une forme de planification et de modélisation.
Par exemple, nous pourrions l'utiliser pour prévoir certains coûts, en
fonction d'autres facteurs tels que la disponibilité, la demande des
consommateurs et la concurrence. Elle donne principalement la
relation exacte entre deux ou plusieurs variables dans l'ensemble de
données donné.
Règles d'association
• Cette technique d'exploration de données permet de découvrir un lien
entre deux ou plusieurs éléments. Elle permet de trouver un modèle caché
dans l'ensemble des données.

• Les règles d'association sont des énoncés de type "si-alors" qui permettent
de montrer la probabilité d'interactions entre des éléments de données au
sein de grands ensembles de données dans différents types de bases de
données.
• L'algorithme fonctionne de la manière suivante : vous disposez de diverses
données, par exemple une liste de pièces que vous avez achetés au cours
des six derniers mois. L'algorithme calcule un pourcentage des pièces
achetés ensemble.
Règles d'association
• A titre d'exemple,

• Achète (x, « pièce1") -> achète(x, « pièce2") [support = 1%, confiance =


50%]

• Ici, x représente un client qui achète la pièce1 et des pièces2 ensemble.


• La confiance indique avec certitude que si un client achète la pièce1, il y a
50 % de chances qu'il accepte également les pièces2.
• La probabilité signifie que 1 % de toutes les transactions analysées
montrent que la pièces1 et les pièces2 ont été achetées ensemble.
Détection extérieure
Ce type de technique d'exploration de données se rapporte à l'observation
d'éléments de données dans l'ensemble de données, qui ne correspondent pas à
un modèle ou à un comportement attendu.
Cette technique peut être utilisée dans divers domaines tels que la détection des
intrusions, la détection des fraudes, etc. Elle est également connue sous le nom
d'analyse des valeurs aberrantes ou d'exploration des valeurs aberrantes.
La valeur aberrante est un point de données qui diverge trop du reste de
l'ensemble de données. La majorité des ensembles de données du monde réel
comportent une valeur aberrante. La détection des valeurs aberrantes joue un rôle
important dans le domaine de l'exploration des données.
La détection des valeurs aberrantes est précieuse dans de nombreux domaines tels
que l'identification des interruptions de réseau, la détection des fraudes à la carte
de crédit ou de débit, la détection des valeurs aberrantes dans les données des
réseaux de capteurs sans fil, etc.
Détection extérieure
Modèles séquentiels
• Le modèle séquentiel est une technique d'exploration de données
spécialisée dans l'évaluation de données séquentielles afin de
découvrir des modèles séquentiels.
• Elle consiste à trouver des sous-séquences intéressantes dans un
ensemble de séquences, l'intérêt d'une séquence pouvant être
mesuré en fonction de différents critères tels que la longueur, la
fréquence d'apparition, etc.

• En d'autres termes, cette technique d'exploration de données permet


de découvrir ou de reconnaître des modèles similaires dans les
données de transaction sur une certaine période.
Prédiction
• La prédiction est une combinaison d'autres techniques d'exploration
de données telles que les tendances, le regroupement, la
classification, etc. Elle analyse les événements ou instances passés
dans la bonne séquence pour prédire un événement futur.
Data Mining Implementation Process

Vous aimerez peut-être aussi