Abd-Basid ADAN
Abd-Basid ADAN
Abd-Basid ADAN
*****************************
_____________________________________
___
Projet Econométrique :
***********
Analyse de la puissance des véhicules:
(cas de la Suisse).
Realisé par :
✓ Abdi-Basid
Abdi-Basid Ibrahim Adan
ADAN
✓ MahadMahamoudWaiss
1
Mars 2016
Tables des Matières
Introduction……………………………………………………………………2
I- Construction du Modèle…………………………………………………….……..4
Conclusion…………….…………….…………….…………….…………….………….23
Annexe…………….…………….…………….…………….…………….…………….24
2
Introduction
Dans ce cas, comment allons nous s’y prendre cette rèlation fonctionnelle pour la
modélisée?
Néanmoins une fois modélisée, comment allons-nous, par la suite, tester notre
modèle, estimé et finalement validé, afin de pouvoir entamer l’interprétation du
phénomène que l’on étudie ?
3
I- Construction du Modèle
Une hypothèse est une proposition ou une explication que l'on se contente d'énoncer sans
prendre position sur son caractère véridique, c'est-à-dire sans l'affirmer ou la nier. Il s'agit
donc d'une simple supposition, appartenant au domaine du possible ou du probable. Une fois
énoncée, une hypothèse peut être étudiée, confrontée, utilisée, discutée ou traitée de toute
autre façon jugée nécessaire, par exemple dans le cadre d'une démarche expérimentale.
En effet, établissant les hypothèses sur la puissance d’une voiture :
La puissance d’une voiture, qui est en effet, la capacité motrice qui fait rouler la voiture
dépend essentiellement de son poids.
La puissance d’une voiture, serait plutôt, en fonction de la consommation et du poids de
celle-ci.
Plus une voiture est puissante plus son cylindre est volumineux.
La voiture la plus chère est inévitablement la voiture la plus puissante.
La puissance d’une voiture ne dépend ni de sa consommation ni de son poids, mais
plutôt, de son prix et de son cylindrée.
4
2- Formalisation du modèle
La modélisation est définie comme étant une formalisation ou une représentation formalisée
d’un phénomène sous forme d’équation dont les variables sont des grandeurs économiques.
Dans notre cadre, il est question de formalisé la puissance d’une véhicule en fonction de sa
consommation, de son poids, de son prix et de son cylindrée.
Dans cette condition, nous avons à faire à une modélisation linéaire généralisée, qui se
formalise sous la forme ci-dessous :
Etant donné un échantillon (Yi, X{i1}, X{ip}), tel que i = {1,…, 31}, nous cherchons à
expliquer, avec le plus de précision possible, les valeurs prises par Yi (Puissance) , dite
variable endogène, (à expliqué ou dépendante), à partir d'une série de variables explicatives
(X{i1},….., X{ip}), il s’agit : le poids, le prix , le cylindrée et la consommation, avec p = 4,
car il ya quatre variable explicatives.
Le modèle théorique, formulé en termes de variables aléatoires, prend la forme :
Yi = a0 + a1 Xi1 + a2 Xi2 + a3 Xi3 + a4 Xi4 + Ei, (i = 1… 31) et (p = 1… 4).
OùEiest l'erreur du modèle qui exprime, ou résume, l'information manquante dans l'explication
linéaire des valeurs de Yi à partir des (X {i1},…..., X {ip}) ( dû à des problèmes de
spécifications, variables non prises en compte, etc.) ; et a0,…, ap sont les paramètres à estimer.
3- Estimations du modèle
L’estimation du modèle consiste à calculer la valeur prédite de la puissance par la méthode de
moindre carré généralisé (MCG).
Elle est une phase non négligeable dans l’analyse économétrique, car c’est à partirdu quel on
construit le tableau d’ANOVA (la somme carré résiduels, la somme carré de la régression les
moyens des carrés).
Nous constatons aussi bien que la puissance prédite, ici en rouge,surpasse presque
parfaitement la puissance du phénomène observé, colorié en bleu. Obtenue en estimant les
paramètres du modèle par la méthode de moindre carré généralisé.
On constate d’autre part, un pic de puissance pour les voitures Mercedes s 6000, Opel Astra 1
61 16v et Toyota Corolla.
Cependant, nous cherchons àcomprendre les éléments en fonction de la puissance, autre ente
les éléments dont la puissance dépend.
5
4- Validation du modèle
En effet, nous aurons l’occasion de vérifier ces postulats dans la quatrième partie de ce
rapport de l’analyse de l’économétrie.
La première technique des analystes statistiques s’attache à une seule série d'une variable ou à
une seule mesure (même s’il y a plusieurs échantillons) et offre le plus de possibilités de
représentations graphiques et des calcules des indicateurs.
Dans notre cadre, nous serons en mesure d’étudier les calculs des indicateurs, les box plots et
les densités des variables.
6
1. Calcul des indicateurs
Les calculs des indicateurs statistiques se subdivisent, généralement, en trois grande famille
de tendances à savoir : les tendances centrale (la moyenne, la médiane,…) ; les tendances de
dispersions (la variance, l’ecartype,…) et enfin les tendances d’asymétriques et
d’aplatissements (coefficient d’aplatissement et d’asymétrique,…).
Le tableau ci-dessous décrit statistiquement nos variables sur 31 observations. On voit que le
prix de(s) véhicule(s) le plus élevé(s) coût 285000 francs contre 10450francs, la voiture(s) la
moins chère. D’autre part le(s) prix est plus dispersé(s),car sa moyenne ne varie pas autour de
sa variance. Elle est due essentiellement à la présence des valeurs aberrantes ou atypique que
nous allons voir dans la représentation de Box plot.
De même, le cylindre de véhicule(s) le plus volumineux mesure 5987 cm3 contre 658 cm3,
la voiture, la moins volumineux en termes de cylindre, la variable cylindre est plus dispersée,
car sa moyenne n’est pas autour de sa variance.
En effet, la(es) voiture(s) la plus puissante(s) à une capacité de 325 KW contre 29 KW, la
variable puissance est aussi dispersée, car sa moyenne ne varie autour de sa variance.
Effectivement, le poids de véhicule(s) le plus lourd mesure 2250kg contre 650kg la(es)
voiture(s) la plus légère(s), cette variables est aussi plus dispersé, car sa moyenne ne varie pas
autour de sa variance.
En fin, la(es) voiture(s) qui consomme le plus d’essence est de 21.3 l/km, contre 5.7l/km, la
(es) voiture (s) qui consomme le moins d’essence possible, sa variance est également dispersé,
parce que sa moyenne est considérablement élève par rapport a sa variance.
7
2.1.1 Boite à moustache
On identifiant la plus petite et la plus grande observation comprise entre ces bornes. Ces
observations sont appelés “valeurs adjacentes”, les valeurs au delà du borne sont appelés des
valeurs extrêmes.
Les bornes de la boîte à moustache de variable par variable est plus intéressante cette fois ci
pour décrire chaque variables graphiquement et déterminer les valeurs extrêmes.
Dans notre cadre, nous obtenons les boites à moustaches représenté ci-dessous :
6000
250000
2000
5000
4000
150000
1500
3000
2000
1000
50000
1000
0
Consommation Puissance
300
20
250
15
200
150
10
100
50
La représentation graphique des variables ci-dessus, illustre d’une part, l’existence des
valeursextrêmes décrit par ici avec la présence de pointéau dessous de box plot.
Il se pourrait l’existence des valeurs au delà de la réalité du phénomène observé. Les bornes
de la boîte à moustache de la variable prix s’étendent du premier quartile (19820) au
troisième quartile (3939) en passant par la médiane (28750), avec l’existence de trois valeurs
extrêmes.Les valeurs adjacentes de la variable Poids sont comprises entre le premier quartile
(1042) et le troisième quartile (1525)en passant par la médiane (1155), cette variable présente
une valeur aberrante. Les bornes de la boite à moustache de la variable Cylindre est comprise
entre le premier quartile (1390) au troisième quartile (2456) en passant par la médiane (1984),
avec l’existence de deux valeurs extrêmes. Les valeurs adjacentes de la variable Puissance
sont comprises entre le premier quartile (55.0) et le troisième quartile (106.5)en passant par la
médiane (85.0), cette variable présente trois valeurs extrêmes. Les bornes de la boite à
moustache de la variable Consommation est comprise entre le premier quartile (7.250) au
troisième quartile (11.650) en passant par la médiane (19.300), avec l’existence de deux
valeurs extrêmes.
8
2.2.2Densité des variables
Le graphique de densité est un outil « visuel » qui permet de détecter certaines anomalies ou
de faire un diagnostic avant d’engager une démarche d’amélioration. Utilisé dans ce cadre, il
est un outil « qualitatif ». Pour pouvoir bien mener l’étude de la dispersion d’une variable à
l’aide d’un ou de plusieurs histogrammes, il faut avoir une bonne connaissance de la variable
étudiée. De même, il faut connaître les conditions de collecte des données : fréquence de
mesure, outil de mesure utilisé, possibilité de mélange de lots, possibilité de tri etc.
0.010
1.5e-05
0.008
0.0010
1.0e-05
0.006
Density
Density
Density
0.004
0.0005
5.0e-06
0.002
0.0e+00
0.0000
0.000
0 50000 100000 150000 200000 250000 300000 1000 1500 2000 0 50 100 150 200 250 300 350
Cylindrée Consommation
0.15
0e+00 1e-04 2e-04 3e-04 4e-04 5e-04
0.10
Density
Density
0.05
0.00
d$Cylindrée d$Consommation
9
III- Analyses descriptives bivariées (conjointe)
L’analyse bi variée est une technique d’analyse statistique des données, consistant à découvrir
les relations qui peuvent exister entre les variables prises deux par deux et utilise les mesures
d'association entre deux variables à différents niveaux de mesure (X² coefficient de
contingence, coefficients j et l de Guttman, coefficient de différenciation, coefficient de
corrélation de rang de Spearman, le t de Kendall, le g de Goodman-Krushal, le coefficient point
bisérial et multisérial, le coefficient de corrélation de Pearson...).
Dans notre cadre, nous allons appréhender les relations éventuels qui existent entre les variable
du quantitative prisent deux à deux en utilisant le test de khi-deux et le coefficient de cramer.
puissance=f(Cylindrée) puissance=f(Consommation)
150 250
150 250
Puissance
Puissance
50
50
Cylindrée Consommation
puissance=f(Poids) puissance=f(Prix)
150 250
150 250
Puissance
Puissance
50
50
Proids Prix
Sources : R, 2016
10
Graphique 5: Matrice de régression linéaire simple
0 150000
Prix
1000 4000
Cy lindrée
50 150 300
Puis s anc e
1000 2000
Poids
10 15 20
Cons ommation
Sources : R, 2016
Autre perception de nuages des points, celle de matrice de nuage des points, qui illustre les
liaisons linéaires, fonctionnelle entre les variables.
11
Tableau2 : Matrice de corrélation
La matrice de corrélation, nous traduit le degré de liaison entre deux variables quantitatives, on
remarque, par ailleurs, différents degrés de corrélations entre plusieurs variables, il s’agit :
Dans ce cas, vérifions la significativité des corrélations entre las variables fortement
corrélés.
Sources : R, 2016
On confrontant le p-value au seuil de risque alpha à 5%, nous constatons que le p-value est
inferieur a 5%, alors on rejette l’hypothèse nulle, la corrélation entre Puissance et poids est
significativement différentes de zéro. Par ailleurs, il existe 95% de chance que la vraie valeur
la valeur testé de coefficient de corrélation se trouve dans l’intervalle de confiance :
[0.587,0888]
12
Test de corrélation de Pearson entre Puissance et consommation
Sources : R, 2016
On confrontant le p-value au seuil de risque alpha à 5%, nous constatons que le p-value est
inferieur a 5%, alors on rejette l’hypothèse nulle, la corrélation entre Puissance et
consommation est significativement différentes de zéro. Par ailleurs, il existe 95% de chance
que la vraie valeur la valeur testé de coefficient de corrélation se trouve dans l’intervalle de
confiance : [0.903 ; 0.977]
Sources : R, 2016
On confrontant le p-value au seuil de risque alpha à 5%, nous constatons que le p-value est
inferieur a 5%, alors on rejette l’hypothèse nulle, la corrélation entre Puissance et Prix est
significativement différentes de zéro. Par ailleurs, il existe 95% de chance que la vraie valeur
la valeur testé de coefficient de corrélation se trouve dans l’intervalle de confiance : [0.8686;
0.968]
13
Test de corrélation de Pearson entre puissance et Cylindré
Sources : R, 2016
On confrontant le p-value au seuil de risque alpha à 5%, nous constatons que le p-value est
inferieur a 5%, alors on rejette l’hypothèse nulle, la corrélation entre Puissance et Cylindré est
significativement différentes de zéro. Par ailleurs, il existe 95% de chance que la vraie valeur
la valeur testé de coefficient de corrélation se trouve dans l’intervalle de confiance : [0.9229;
0.981].
Ensuite, vient l’avant dernier phase, en occurrence la validation du pour pouvoir passer
finalement à l’interprétation du modèle.
14
Tableau 3 : résumé de la régression
Il y’a 99% de chance que la vraie valeur de ces coefficients appartient à leurs intervalles
respectives.
Par ailleurs, si nous vérifions la significativité de ces coefficients, on constate que seuls
cylindre, consommation et le terme constant sont significatifs, vérifions les hypothèses du
modèle de régression linéaire multiple sont respectés.
15
Tableau5 : test Shapiro wilk normalité des erreurs
H0 : Normalisation de donnée
H1 : Le donnée ne suit pas une loi normale
Il y’a 99% de chance que la vraie valeur de ces coefficients estimés par la moindre carré
généralisés appartient à leurs intervalles de confiances respectives.
Par ailleurs, si nous vérifions la significativité de ces coefficients, on constate que seuls Prix
et consommation sont significatifs, vérifions les hypothèses du modèle de régression linéaire
multiple sont respectés.
16
3. Normalité des résidus
H0 : Normalisation de donnée
H1 : Le donnée ne suit pas une loi normale
17
Tableau 9: Test student de comparaison de moyenne pour vérifier si la moyenne est nulle :
18
Tableau 11 :Test de white homocédasticité de variance de résidus
H0 : Homocédasticité
H1 : Heterodasticité
19
Tableau 13 :TestBreusch Godfrey d’autocorrélation entre résidus d'ordre 1 :
20
Tableau 15;Test Cumby-Huizinga for autocorrelation (Breusch-Godfrey)
La colinéarité entre variables explicatives advient lorsque celles-ci sont liées entre elles.
Il existe deux types de colinéarité :
La colinéarité parfaite : au moins une des variables explicatives peut s'écrire comme une
combinaison linéaire d'une ou de plusieurs variables explicatives. Dans ce cas, l'estimation par
les MCO est impossible.
La colinéarité partielle : les variables sont fortement mais non parfaitement corrélation, dans
ce cas, l'estimation des MCO demeure possible mais on a un problème de précision statistique
(au niveau des coefficients estimés, des p-value, des écarts-types,etc.). On considère
généralement que lorsque le 1/VIF est inferieur à 0,1 il faut mener des investigations
supplémentaires.
21
7. Tableau 16 :Tableau de Facteur d’écart d’inflation
En effet, on supprimant la variable prix, le problème de multi colinéarité semble être résolu,
car l’inverse des facteurs des écarts des inflations sont strictement supérieur à 0,1.
En conséquence de quoi il nous reste à valider notre modèle pour pouvoir passer à
l’interprétation.
22
2
8. Validation du modèle
Selon le test de Ramsey Reset, on confrontant le p-value au seuil de risque alpha 5%, nous
parvenons à accepter l’hypothèse H0, donc notre modèle est bien spécifiés, dans ce cas nous
pouvons passer à l’interprétation du modèle.
9. Interprétation du modèle
Graphique de regression
Standardized residuals
0 1 2 3
Standardized residuals
0.0 0.5 1.0 1.5
Mas erat
Opel Ciors
Ghibli GT
a 1. 2i Ec o
Mas erat i Ghibli GT
H y undai Sonat a 3000 1
0. 5
Subaru Viv io 4W D
0. 5
Toy ot a Prev ia s alon
-2
1
Cook's distance
3.5 4.0 4.5 5.0 5.5 0.0 0.1 0.2 0.3 0.4 0.5
23
Conclusion
En conclusion, nous pouvons valider les hypothèses établies préalablement, en d’autre terme,
avec conviction, la puissance d’un véhicule est en fonction de son poids, son cylindre et sa
consommation, plus une voiture est puissant est plus il dépend de son poids en kg, de cylindre
en cm3 et de son consommation en l/km.
ANNEXE
24