0% ont trouvé ce document utile (0 vote)
17 vues120 pages

Chapitre 1 SAD

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1/ 120

Statistiques et

Analyse de données
Prof. BARAKA Achraf Chakir
baraka.achraf.chakir@gmail.com

1
Objectifs
• Introduction des différentes méthodes d’analyse de données.
• Apprendre à mettre en œuvre des méthodes d’analyse des
données.
• Comprendre les principes de l'analyse de données et la réduction
de la dimensionnalité selon le type de données.
• Acquérir les notions nécessaires pour la projection des données
issues d'un espace de grande dimension dans un espace de plus
petite dimension.
• Pouvoir représenter de grands ensemble de données par peu de
variables.

2
Objectifs
• Comprendre le sens mathématique de l’analyse multivariée.
• Utiliser l’analyse en composantes principales pour réduire le
nombre de dimensions.
• Analyser les liens entre les variables qualitatives à l’aide d’une
analyse des correspondances.
• Classer les observations dans des groupes à l’aide de l’analyse
discriminante.
• Expliquer des différences entre groupes selon les différentes
variables explicatives.
• Pouvoir étudier et interpréter les différents résultats de l’Analyse
Multivariée.

3
Prérequis
• Mathématique pour l'Ingénieur
• Algorithmique et Programmation
• Statistiques et Probabilité
• Bases de données

4
Les notions de base de l’ADD

5
Introduction
• L'analyse des données est une technique relativement ancienne 1930. Elle a
connu cependant des développements récents depuis 1960 du fait de
l'expansion de l'informatique.
• Il n’y a pas très longtemps, on ne pouvait pas traiter un tableau de 3000
lignes et 300 colonnes. Mais via les méthodes d’analyse des données il est
possible de découvrir la structure d’un tableau de données à plusieurs
dimensions et de la résumer à une structure plus simple.
• Cette technique nécessite le brassage de beaucoup de données par beaucoup
de calculs pour en tirer des représentations graphiques afin d’apporter la
rapidité et la fiabilité.

6
Définition et Objectifs

« L’analyse des données est un ensemble de


techniques pour découvrir la structure,
éventuellement compliquée, d’un tableau de
nombres à plusieurs dimensions et de traduire par
une structure plus simple et qui la résume au
mieux. Cette structure peut le plus souvent, être
représentée graphiquement »
Jean-Pierre Fenelon

8
Définition et Objectifs
Les principaux objectifs de l’Analyse des données :
Répondre aux problèmes posés par des tableaux de grandes
dimensions.
Synthétiser et résumer les informations contenues dans un
grand tableau sous forme d’une matrice .
Structurer, organiser et visualiser l'information contenue
dans des données multi-dimentionnelles (n individus, p
variables).

9
Définition et Objectifs
• Le développement des outils informatiques a fortement
contribué au développement de nombreuses méthodes
statistiques
• Ce qui permet de traiter sans difficultés de vastes données
des enquêtes et des investigations (grands tableaux de
milliers de lignes et milliers de colonnes)
• Exemple : SPSS, EVIEWS, Matlab, Python, R…

10
Définition et Objectifs
• Actuellement, les données sont collecter en permanence
chaque jour, chaque heure, chaque minute et chaque
seconde mais sous une forme brute et ils n'ont plus ou moins
aucun sens.
• Et c'est là qu'intervient l'Analyse de données qui permet
d'extraire et de synthétiser les données, afin de permettre
aux décideurs de tirer des enseignements et de prendre des
décisions plus éclairées pour leurs prochaines actions
stratégiques.

12
Sous domaines de l’Analyse Statistique

18
Limites de l’Analyse Descriptive
• L’Analyse descriptive étudie une, deux ou trois variables.
• S’intéresse aux caractéristiques de tendance centrale, de
dispersion, de forme, les liaisons entre deux variables.
• Cependant, un Analyste peut se trouver devant un tableau
contenant plusieurs variables et individus.
• Dans ce tableau, il cherche à dégager la tendance globale des
données.

19
Statistique Uni-variée
Vocabulaire de base

23
I. Généralités
 Définition de la statistique:

«L'étude de la collecte de données, leur analyse, leur


traitement, l'interprétation des résultats et leur présentation afin
de rendre les données compréhensibles par tous. C'est à la fois
une science, une méthode et un ensemble de techniques.»
Vocabulaire de base
• Échantillon : sous-ensemble de la population sur lequel sont
effectivement réalisées les observations.
• Taille de l'échantillon n : cardinal du sous-ensemble
correspondant.
• Enquête : opération consistant à observer (ou mesurer, ou
questionner. . . ) l'ensemble des individus d'un échantillon.
• Recensement : enquête dans laquelle l'échantillon observé est
la population tout entière (enquête exhaustive).
• Sondage : enquête dans laquelle l'échantillon observé est un
sous-ensemble strict de la population (enquête non exhaustive).
25
I. Généralités
• Définition de la statistique :

Un ensemble de méthodes (tableaux, graphiques, statistiques


résumées, recherche de corrélation… ) permettant de décrire
les unités statistiques qui composent une population
Vocabulaire de base

27
II. Rappel sur le signe de sommation « Σ »

III. Vocabulaire statistique
• Unité statistique :

L’élément de l’ensemble que l’on veut étudier.


III. Vocabulaire statistique
• Population :

L’ensemble des unités statistiques.


III. Vocabulaire statistique
• Caractère statistique :

L’objet de notre étude sur une population donnée.


Remarque

Caractère

Qualitatif
Quantitatif
Si il ne peut être
représenté par un nombre Si il est représenté par un
nombre
(la couleur des yeux, la
nationalité, le niveau (un âge, une distance, une
d’éducation ou de durée, une note… )
satisfaction…)
III. Vocabulaire statistique
• Modalité :
On appelle modalité l’aspect du caractère retenu dans le cadre de l’analyse.

Exemple :
Si la caractéristique étudiée est la couleur des téléphones portables d’un
groupe d’étudiants présent dans un cours, les variables pourront être les
couleurs envisageables soit : rouge, noir, vert, fleurit, blanc, etc.
Parmi ces variables certaines seront retenues et forment les modalités par
exemple : fleurit, rouge et noir.
III. Vocabulaire statistique


III. Vocabulaire statistique
Classification des variables statistiques:
Variable quantitative Variable qualitative
Discrète Continue Ordinale Nominale
Définition Possède des Peut prendre une Une relation d’ordre Aucune relation
valeurs finies. Il infinité de valeurs, existe entre les d’ordre ne peut être
est possible de formant un différentes modalités établie sur l’ensemble
les énumérer ensemble continu des variables. des modalités.
(1,2,3…)
Exemple Nombre de Le temps de Niveau de Sexe, couleur des
personnes dans réalisation d’un satisfaction (pas du yeux, unité d’emploi…
une salle travail, la taille, le tout satisfait,
poids, l’âge d’une satisfait, très
personne … satisfait...)
III. Vocabulaire statistique

I. Le dépouillement

C’est l’action qui consiste à recenser, mettre en ordre croissant ou


décroissant les données résumées d’une distribution.
Natures des Données

38
Natures des Données

39
Données Structurées

40
I. Représentation graphique d’une variable qualitative
• Le diagramme en bâtons (ou tuyaux d’orgue) :

Il est constitué d’une suite de rectangles à hauteurs proportionnelles


à l’effectif (ou à la fréquence) de la variable, et dont les bases sont
identiques.
I. Représentation graphique d’une variable qualitative
• Exemple :
On s'intéresse à la variable « état-civil » notée X et à la série
statistique des valeurs prises par X sur 20 personnes.
La codification est :

C 9 0,45
M 7 0,35
V 2 0,10
D 2 0,10
Total N = 20 1
II. Représentation graphique d’une variable qualitative
• Exemple (suite) :
II. Représentation graphique d’une variable qualitative
• Le diagramme en secteurs (ou en camembert) :

Il permet de représenter un petit nombre de valeurs par des


angles proportionnels à ces valeurs.

• Remarque :
Pour construire le graphique en camembert, il faut calculer la
part que chaque modalité représente dans 360°
II. Représentation graphique d’une variable qualitative
• Exemple :

% Degrés
C 9 0,45 45%

M 7 0,35 35%

V 2 0,10 10%

D 2 0,10 10%

Total N = 20 1 100% 360°


II. Représentation graphique d’une variable qualitative
• Exemple (suite) :
II. Représentation graphique d’une variable
quantitative discrète

• Diagramme différentiel : diagramme en bâtons, des effectifs


ou des fréquences. La différence avec le cas qualitatif consiste
en ce que les abscisses ici soient les valeurs de la variable
statistique.

• Diagramme intégral : courbe en escaliers des effectifs


cumulés ou des fréquences cumulées.
II. Représentation graphique d’une variable
quantitative continue

• Histogramme des densités (graphique différentiel):

En abscisse : les classes représentant les modalités,


En ordonnées : des rectangles dont la longueur est
proportionnelle à la densité d'effectif ou à la densité de
fréquence.
L'aire d'un rectangle de cet histogramme est proportionnelle à
l'effectif ou à la fréquence de la classe.
Représentation graphique des variables

50
La Moyenne Arithmétique

Exemple :
Calculer la moyenne de la série statistique
suivante :
8 – 10 – 13 – 8 – 10 – 8.

𝑋 =(8+10+13+8+10+8)/6 = 9,5.
La présentation statistique de cette série est :
Remarque :
- Parce qu’elle tient compte de toutes les valeurs de la
variable, la moyenne est une caractéristique attrayante.
- Elle subit malheureusement l’influence de valeurs
extrêmes considérées comme aberrantes.

Remarque :
Cette définition implique le classement préalable des
variables de la série, en ordre croissant ou décroissant.
La Moyenne
Si jamais on veut ajouter d'autres observations ??

• Dans cet exemple l'étoile rouge sera la nouvelle moyenne en prenant en


considération ces valeurs qui ont été ajouté à nos observations.
• Par définition la moyenne c'est le point le plus proche de l'ensemble des 54
observations.
La Médiane
Définition :
On appelle médiane la valeur du caractère qui sépare
l’effectif en deux parties égales.
• Remarque :

Cette définition implique le classement préalable des


variables de la série, en ordre croissant ou décroissant
La Médiane en série discrète :
Deux cas peuvent être retenus.

La série est impaire :


• Dans ce cas, il existe une valeur répondant
parfaitement à la définition, et le rang de la
• médiane est obtenu par la formule :
EXEMPLE

1 2 3 4 5 6 7
12 13 16 17 20 22 22
EXEMPLE
La série statistique suivante a pour effectif total

1 2 3 4 5 6
12 13 16 17 20 22
La médiane en série continue :
Dans le cas d’une série, on recherchera l’intervalle sur lequel se
trouve la médiane (l’intervalle médian). Le calcul se fera par
interpolation linéaire.
La médiane, Me, est la valeur du caractère pour laquelle la
fréquence cumulée est égale à 0,5 ou 50%. Elle correspond donc
au centre de la série statistique classée par ordre croissant, ou à
la valeur pour laquelle 50% des valeurs observées sont supérieures
et 50% sont inférieures.
Exemple:
Les écarts interquartile et interdécile :

61
La Variance
• Sert à mesurer aussi la dispersion autour de leur moyenne.
• Mesure la variabilité qui existe dans une variable.
• Si l'Ecart-Type est plus petit tend vers zéro, la variance qui
est l'Ecart-type au carré va aussi tendre plus rapidement à
zéro et on va dire qu'il n'y a pas d'information à étudier.
• Alors si on a des variables dont les valeurs sont presque les
mêmes il n'y aura pas de variation, c.-à-d. y aura pas
d'information à étudier.

62
La Variance (v)
• C’est la moyenne arithmétique du carré des écarts à la moyenne.
L’Ecart-type
• Exemple : On a deux variables, une avec des observations en
couleur orange et l'autre en couleur bleu :

64
Application 1
Application 1
Remarque :
Les valeurs ainsi calculées peuvent parfois avoir peu de
signification car exprimée au carré.
Par exemple, une dispersion portant sur le nombre d’enfants à
charge s’exprimerait en enfants carré.
La nécessité de revenir à une unité plus ‘compréhensible’
conduit à utiliser
L’écart type
C’est la racine carré de la variance.

Exemple :
Sur les bases de la série précédente, il est possible de
donner l’écart type suivante :
𝜎 = 9,096 = 3,016
Remarque : L’écart type étant d’un calcul aisé, il est
fréquemment utilisé dans des problèmes de dispersion.
Le coefficient de variation :
Les caractéristiques analysées ne permettent pas une
comparaison parfaite de la dispersion.
En effet, l’utilisation d’une unité de mesure K fois plus grande
débouche sur une dispersion K fois plus grande pour une
même série, d’où la nécessité d’utiliser une autre
caractéristique : le coefficient de variation.
Le coefficient de variation :
Le coefficient de variation :

72
Application 1
Dans le cas précédent on obtient :
• Coefficient de variation =
Application 2
Calculer l’écart type et la variation de la série suivante :
Réponse
• Etablissons les extensions nécessaires au calcul de l’écart
type et de la variance

Calcul de la moyenne :
Calcul de la variance :

D’où l’écart type suivant :

Le coefficient de variation est le suivant :

Coefficient de variation =
La Corrélation
• C’est une notion de relation qui explique la dépendance ou
l'indépendance entre deux variables.
• On peut trouver deux variables une qui influe sur l'autre, une
influence ça veut dire que s’il y a un changement ou une
perturbation dans la première variable, il y aura aussi une
perturbation sur la variable deux parce qu'ils sont liées.
• Alors soit que les deux variables sont liées donc il y aura une
dépendance soit les deux variables sont libres ça veut dire il n'y a
pas de relation (pas de dépendance).

77
Le Coefficient de Corrélation
• D'abord il faut calculer la covariance, en changeant éventuellement
d'unité et d'origine;
• Ensuite on peut calculer le coefficient de corrélation (r, nombre sans
unité; compris entre -1 et +1.
Si proche de 1, association linéaire positive
Si = 0, pas d'association
Si < 1, association linéaire négative.

78
La Corrélation

79
Remarque :

Les valeurs ainsi calculées peuvent parfois avoir peu de


signification car exprimée au carré.
Par exemple, une dispersion portant sur le nombre
d’enfants à charge s’exprimerait en enfants carré.
La nécessité de revenir à une unité plus ‘compréhensible’
conduit à utiliser l’écart-type.
La Corrélation – en image

81
Taxonomies d’Analyse

• L’analyse uni-variée: répartition d’une population selon


une variable (la taille, le poids…)
• L’analyse bi-variée: étudie la relation qui peut exister entre
deux variables (entre la taille et le poids, par exemple…)
• L’analyse multi-variée: étudie les relations entre plusieurs
variables.

82
L’Analyse Bi-variée
• La qualité de la corrélation peut être mesurée par le coefficient de
corrélation r.
• Le coefficient de corrélation est compris entre -1 et +1. Plus il s’éloigne de
zéro, meilleure est la corrélation.
• Exemples de corrélation :

83
Travaux Dirigés

84
TD1: Exercices d’applications
- Exercice : Heures Note
• On dispose de deux variables: Heures de révision et révision obtenue
Note obtenue (voir tableau ci-contre) : 5 8
1. Représenter le nuage de points. 10 9
2. Calculer la moyenne, le mode, la variance, l’écart-type 12 11
et la médiane.
16 15
3. Calculer le coefficient de corrélation. 20 16
4. Interpréter le coefficient de corrélation. 24 18

85
Exercice 1 - Correction

86
TD1: Exercices d’applications
- Exercice 2: Prix Nb victime
Carburant UK (milles)
• On dispose de deux variables: Prix carburant et Nombre
victimes d’Ukraine (voir tableau ci-contre) : 10 30
1. Représenter le nuage de points. 12,5 20
2. Calculer la moyenne, le mode, la variance, l’écart-type 14 5
et la médiane. 14,5 35
3. Calculer le coefficient de corrélation. 15 40
4. Interpréter le coefficient de corrélation. 15,5 6
16 12

87
Les Modèles de
Régression Linéaires

88
I. Le Modèle
II. Estimation des paramètres β0, β1 et σ2
III. Test d’hypothèses et intervalle de confiance pour β1
IV. Coefficient de détermination
APPLICATIONS
Application sur les rendements des sociétés de la Bourse de Paris

104
Application sur les rendements des sociétés de la Bourse de Paris

La distribution des erreurs des valeurs propres.

Résultat : la valeur d'erreur est en moyenne de 0,0025 et varie entre 0 et 0,067 comme 105
valeur minimale et maximale respectivement.
Application sur les rendements des sociétés de la Bourse de Paris

Les valeurs propres de Les valeurs propres de


Les valeurs propres Les valeurs propres de
la matrice de Erreurs la matrice de Erreurs
de la matrice T
covariance la matrice ωT
covariance

26,86891998 26,93625938 -0,008371

22,37461772 22,4306932 0,056075482

19,69431738 19,74367598 0,049358598

17,28684182 17,33016674 0,043324914

13,15306969 13,18603466 0,032964977

12,30515864 12,33599841 0,030839773

11,70937134 11,73871753 0,029346189

10,51174627 10,5380915 0,026345224

9,311546171 9,33488317 -0,023336999

9,132473458 9,155361754 0,022888296

Comparaison entre les 10 dernières et les 10 premières valeurs propres de


106
la matrice de covariance et de la matrice T .
Le modèles de régression multiple
Le modèles de régression multiple

108
Le modèles de régression multiple

109
Chapitre 2: Statistique inférentielle

110
Les lois usuelles

111
La Méthode du maximum de vraisemblance
La Méthode du maximum de vraisemblance
La Méthode du maximum de vraisemblance
Introduction au problème
Exercices :
Exercices :
Test d’Hypothèse

120
Types de tests
EXEMPLE

Vous aimerez peut-être aussi