Chapitre 1 SAD
Chapitre 1 SAD
Chapitre 1 SAD
Analyse de données
Prof. BARAKA Achraf Chakir
baraka.achraf.chakir@gmail.com
1
Objectifs
• Introduction des différentes méthodes d’analyse de données.
• Apprendre à mettre en œuvre des méthodes d’analyse des
données.
• Comprendre les principes de l'analyse de données et la réduction
de la dimensionnalité selon le type de données.
• Acquérir les notions nécessaires pour la projection des données
issues d'un espace de grande dimension dans un espace de plus
petite dimension.
• Pouvoir représenter de grands ensemble de données par peu de
variables.
2
Objectifs
• Comprendre le sens mathématique de l’analyse multivariée.
• Utiliser l’analyse en composantes principales pour réduire le
nombre de dimensions.
• Analyser les liens entre les variables qualitatives à l’aide d’une
analyse des correspondances.
• Classer les observations dans des groupes à l’aide de l’analyse
discriminante.
• Expliquer des différences entre groupes selon les différentes
variables explicatives.
• Pouvoir étudier et interpréter les différents résultats de l’Analyse
Multivariée.
3
Prérequis
• Mathématique pour l'Ingénieur
• Algorithmique et Programmation
• Statistiques et Probabilité
• Bases de données
4
Les notions de base de l’ADD
5
Introduction
• L'analyse des données est une technique relativement ancienne 1930. Elle a
connu cependant des développements récents depuis 1960 du fait de
l'expansion de l'informatique.
• Il n’y a pas très longtemps, on ne pouvait pas traiter un tableau de 3000
lignes et 300 colonnes. Mais via les méthodes d’analyse des données il est
possible de découvrir la structure d’un tableau de données à plusieurs
dimensions et de la résumer à une structure plus simple.
• Cette technique nécessite le brassage de beaucoup de données par beaucoup
de calculs pour en tirer des représentations graphiques afin d’apporter la
rapidité et la fiabilité.
6
Définition et Objectifs
8
Définition et Objectifs
Les principaux objectifs de l’Analyse des données :
Répondre aux problèmes posés par des tableaux de grandes
dimensions.
Synthétiser et résumer les informations contenues dans un
grand tableau sous forme d’une matrice .
Structurer, organiser et visualiser l'information contenue
dans des données multi-dimentionnelles (n individus, p
variables).
9
Définition et Objectifs
• Le développement des outils informatiques a fortement
contribué au développement de nombreuses méthodes
statistiques
• Ce qui permet de traiter sans difficultés de vastes données
des enquêtes et des investigations (grands tableaux de
milliers de lignes et milliers de colonnes)
• Exemple : SPSS, EVIEWS, Matlab, Python, R…
10
Définition et Objectifs
• Actuellement, les données sont collecter en permanence
chaque jour, chaque heure, chaque minute et chaque
seconde mais sous une forme brute et ils n'ont plus ou moins
aucun sens.
• Et c'est là qu'intervient l'Analyse de données qui permet
d'extraire et de synthétiser les données, afin de permettre
aux décideurs de tirer des enseignements et de prendre des
décisions plus éclairées pour leurs prochaines actions
stratégiques.
12
Sous domaines de l’Analyse Statistique
18
Limites de l’Analyse Descriptive
• L’Analyse descriptive étudie une, deux ou trois variables.
• S’intéresse aux caractéristiques de tendance centrale, de
dispersion, de forme, les liaisons entre deux variables.
• Cependant, un Analyste peut se trouver devant un tableau
contenant plusieurs variables et individus.
• Dans ce tableau, il cherche à dégager la tendance globale des
données.
19
Statistique Uni-variée
Vocabulaire de base
23
I. Généralités
Définition de la statistique:
27
II. Rappel sur le signe de sommation « Σ »
•
III. Vocabulaire statistique
• Unité statistique :
Caractère
Qualitatif
Quantitatif
Si il ne peut être
représenté par un nombre Si il est représenté par un
nombre
(la couleur des yeux, la
nationalité, le niveau (un âge, une distance, une
d’éducation ou de durée, une note… )
satisfaction…)
III. Vocabulaire statistique
• Modalité :
On appelle modalité l’aspect du caractère retenu dans le cadre de l’analyse.
Exemple :
Si la caractéristique étudiée est la couleur des téléphones portables d’un
groupe d’étudiants présent dans un cours, les variables pourront être les
couleurs envisageables soit : rouge, noir, vert, fleurit, blanc, etc.
Parmi ces variables certaines seront retenues et forment les modalités par
exemple : fleurit, rouge et noir.
III. Vocabulaire statistique
•
III. Vocabulaire statistique
Classification des variables statistiques:
Variable quantitative Variable qualitative
Discrète Continue Ordinale Nominale
Définition Possède des Peut prendre une Une relation d’ordre Aucune relation
valeurs finies. Il infinité de valeurs, existe entre les d’ordre ne peut être
est possible de formant un différentes modalités établie sur l’ensemble
les énumérer ensemble continu des variables. des modalités.
(1,2,3…)
Exemple Nombre de Le temps de Niveau de Sexe, couleur des
personnes dans réalisation d’un satisfaction (pas du yeux, unité d’emploi…
une salle travail, la taille, le tout satisfait,
poids, l’âge d’une satisfait, très
personne … satisfait...)
III. Vocabulaire statistique
•
I. Le dépouillement
38
Natures des Données
39
Données Structurées
40
I. Représentation graphique d’une variable qualitative
• Le diagramme en bâtons (ou tuyaux d’orgue) :
C 9 0,45
M 7 0,35
V 2 0,10
D 2 0,10
Total N = 20 1
II. Représentation graphique d’une variable qualitative
• Exemple (suite) :
II. Représentation graphique d’une variable qualitative
• Le diagramme en secteurs (ou en camembert) :
• Remarque :
Pour construire le graphique en camembert, il faut calculer la
part que chaque modalité représente dans 360°
II. Représentation graphique d’une variable qualitative
• Exemple :
% Degrés
C 9 0,45 45%
M 7 0,35 35%
V 2 0,10 10%
D 2 0,10 10%
50
La Moyenne Arithmétique
Exemple :
Calculer la moyenne de la série statistique
suivante :
8 – 10 – 13 – 8 – 10 – 8.
𝑋 =(8+10+13+8+10+8)/6 = 9,5.
La présentation statistique de cette série est :
Remarque :
- Parce qu’elle tient compte de toutes les valeurs de la
variable, la moyenne est une caractéristique attrayante.
- Elle subit malheureusement l’influence de valeurs
extrêmes considérées comme aberrantes.
Remarque :
Cette définition implique le classement préalable des
variables de la série, en ordre croissant ou décroissant.
La Moyenne
Si jamais on veut ajouter d'autres observations ??
1 2 3 4 5 6 7
12 13 16 17 20 22 22
EXEMPLE
La série statistique suivante a pour effectif total
1 2 3 4 5 6
12 13 16 17 20 22
La médiane en série continue :
Dans le cas d’une série, on recherchera l’intervalle sur lequel se
trouve la médiane (l’intervalle médian). Le calcul se fera par
interpolation linéaire.
La médiane, Me, est la valeur du caractère pour laquelle la
fréquence cumulée est égale à 0,5 ou 50%. Elle correspond donc
au centre de la série statistique classée par ordre croissant, ou à
la valeur pour laquelle 50% des valeurs observées sont supérieures
et 50% sont inférieures.
Exemple:
Les écarts interquartile et interdécile :
61
La Variance
• Sert à mesurer aussi la dispersion autour de leur moyenne.
• Mesure la variabilité qui existe dans une variable.
• Si l'Ecart-Type est plus petit tend vers zéro, la variance qui
est l'Ecart-type au carré va aussi tendre plus rapidement à
zéro et on va dire qu'il n'y a pas d'information à étudier.
• Alors si on a des variables dont les valeurs sont presque les
mêmes il n'y aura pas de variation, c.-à-d. y aura pas
d'information à étudier.
62
La Variance (v)
• C’est la moyenne arithmétique du carré des écarts à la moyenne.
L’Ecart-type
• Exemple : On a deux variables, une avec des observations en
couleur orange et l'autre en couleur bleu :
64
Application 1
Application 1
Remarque :
Les valeurs ainsi calculées peuvent parfois avoir peu de
signification car exprimée au carré.
Par exemple, une dispersion portant sur le nombre d’enfants à
charge s’exprimerait en enfants carré.
La nécessité de revenir à une unité plus ‘compréhensible’
conduit à utiliser
L’écart type
C’est la racine carré de la variance.
Exemple :
Sur les bases de la série précédente, il est possible de
donner l’écart type suivante :
𝜎 = 9,096 = 3,016
Remarque : L’écart type étant d’un calcul aisé, il est
fréquemment utilisé dans des problèmes de dispersion.
Le coefficient de variation :
Les caractéristiques analysées ne permettent pas une
comparaison parfaite de la dispersion.
En effet, l’utilisation d’une unité de mesure K fois plus grande
débouche sur une dispersion K fois plus grande pour une
même série, d’où la nécessité d’utiliser une autre
caractéristique : le coefficient de variation.
Le coefficient de variation :
Le coefficient de variation :
72
Application 1
Dans le cas précédent on obtient :
• Coefficient de variation =
Application 2
Calculer l’écart type et la variation de la série suivante :
Réponse
• Etablissons les extensions nécessaires au calcul de l’écart
type et de la variance
Calcul de la moyenne :
Calcul de la variance :
Coefficient de variation =
La Corrélation
• C’est une notion de relation qui explique la dépendance ou
l'indépendance entre deux variables.
• On peut trouver deux variables une qui influe sur l'autre, une
influence ça veut dire que s’il y a un changement ou une
perturbation dans la première variable, il y aura aussi une
perturbation sur la variable deux parce qu'ils sont liées.
• Alors soit que les deux variables sont liées donc il y aura une
dépendance soit les deux variables sont libres ça veut dire il n'y a
pas de relation (pas de dépendance).
77
Le Coefficient de Corrélation
• D'abord il faut calculer la covariance, en changeant éventuellement
d'unité et d'origine;
• Ensuite on peut calculer le coefficient de corrélation (r, nombre sans
unité; compris entre -1 et +1.
Si proche de 1, association linéaire positive
Si = 0, pas d'association
Si < 1, association linéaire négative.
78
La Corrélation
79
Remarque :
81
Taxonomies d’Analyse
82
L’Analyse Bi-variée
• La qualité de la corrélation peut être mesurée par le coefficient de
corrélation r.
• Le coefficient de corrélation est compris entre -1 et +1. Plus il s’éloigne de
zéro, meilleure est la corrélation.
• Exemples de corrélation :
83
Travaux Dirigés
84
TD1: Exercices d’applications
- Exercice : Heures Note
• On dispose de deux variables: Heures de révision et révision obtenue
Note obtenue (voir tableau ci-contre) : 5 8
1. Représenter le nuage de points. 10 9
2. Calculer la moyenne, le mode, la variance, l’écart-type 12 11
et la médiane.
16 15
3. Calculer le coefficient de corrélation. 20 16
4. Interpréter le coefficient de corrélation. 24 18
85
Exercice 1 - Correction
86
TD1: Exercices d’applications
- Exercice 2: Prix Nb victime
Carburant UK (milles)
• On dispose de deux variables: Prix carburant et Nombre
victimes d’Ukraine (voir tableau ci-contre) : 10 30
1. Représenter le nuage de points. 12,5 20
2. Calculer la moyenne, le mode, la variance, l’écart-type 14 5
et la médiane. 14,5 35
3. Calculer le coefficient de corrélation. 15 40
4. Interpréter le coefficient de corrélation. 15,5 6
16 12
87
Les Modèles de
Régression Linéaires
88
I. Le Modèle
II. Estimation des paramètres β0, β1 et σ2
III. Test d’hypothèses et intervalle de confiance pour β1
IV. Coefficient de détermination
APPLICATIONS
Application sur les rendements des sociétés de la Bourse de Paris
104
Application sur les rendements des sociétés de la Bourse de Paris
Résultat : la valeur d'erreur est en moyenne de 0,0025 et varie entre 0 et 0,067 comme 105
valeur minimale et maximale respectivement.
Application sur les rendements des sociétés de la Bourse de Paris
108
Le modèles de régression multiple
109
Chapitre 2: Statistique inférentielle
110
Les lois usuelles
111
La Méthode du maximum de vraisemblance
La Méthode du maximum de vraisemblance
La Méthode du maximum de vraisemblance
Introduction au problème
Exercices :
Exercices :
Test d’Hypothèse
120
Types de tests
EXEMPLE