Hyd-Stat Ababou Jan07v1pub
Hyd-Stat Ababou Jan07v1pub
Hyd-Stat Ababou Jan07v1pub
STATISTIQUE
Eléments d’Hydrologie Statistique par R.Ababou,
d’après le cours professé à l’INP-ENSEEIHT (Toulouse),
Département de Formation « Hydraulique & Mécanique des Fluides ».
R. ABABOU
R. Ababou
Sommaire
Décembre 2006 / Janvier 2007 (version v1)
REFERENCES
ANNEXES
i
HYDROLOGIE STATISTIQUE
R. Ababou
ii
Ch.1-B. Analyse univariée (suite) Î Crues annuelles et
valeurs extrêmes ; crues rares et loi de Poisson.
1-B.♦Notion de « crue »
1-B.♦Crues annuelles et loi(s) des valeurs extrêmes
1-B.♦Evènements rares et loi de Poisson
Définition axiomatique de la loi de Poisson
Application de la loi de Poisson à l’estimation de crues « rares »
Note sur la fiabilité de l’estimation d’une crue « décennale »
1-B.♦ANNEXE : « Crues, temps de retour, évènements rares et loi de Poisson ».
TD 1. CRUES GARONNE (LOI DE GUMBEL & LOI DE POISSON)
CH.2. ANALYSE STATISTIQUE MULTIVARIEE EN HYDROLOGIE
2.0. Introduction, objectifs, méthodes
2.1. Loi de proba multivariée d’un vecteur de v.a.’s (X1, X2,…)
Fonction de Répartition & Densité de Proba multivariées (jointes)
Loi de Gauss multivariée : cas d’un vecteur aléatoire gaussien de taille N
2.1. Cas de 2 v.a.’s : covariance, corrélation, et régression linéaire
2.2. Utilisation de la régression linéaire pour la critique de données
EXERCICE/EXEMPLE : « Reconstitution de données par régression linéaire :
pluies mensuelles en deux stations alpines ».
Test d’homogénénéité par la méthode des résidus cumulés (ellipse de
confiance) : exemple de trois stations pluviométriques au Sri Lanka.
2.3. Généralisations Î analyses statistiques multi-stations :
analyse corrélatoire multivariée, régression multiple, et A.C.P.
Matrice de covariance à K+1 variables (K explicatives, 1 expliquée)
Exercice sur une matrice de covariance 3x3 (exemple de piège à éviter)
Régression linéaire multiple à K+1 variables (K explicatives, 1 expliquée)
Analyse en Composantes Principales (A.C.P) : Î cf. TD2…
TD 2. COVARIANCES, REGRESSION, ACP (6 stations pyrénées)
CH.3. ANALYSE STATISTIQUE DE PROCESSUS HYDROLOGIQUES
Ch.3-A. Chroniques hydrologiques & Processus aléatoires (Bases)
3-A.♦ Structure temporelle des chroniques hydrologiques (exemples)
3-A.♦ Les processus aléatoires auto-corrélés (t-continu ; t-discret)
Introduction aux fonctions aléatoires X(t)
Processus aléatoire X(t), stationnarité, ergodicité
Fonctions d’auto-corrélation de processus stationaires
iii
Interprétations de fonctions d’auto-corrélations
(exemples : chroniques de débits journaliers et bi-mensuels au Sri Lanka)
3-A.♦ Modélisation et reconstruction de chroniques hydrologiques :
étude du modèle AR1 (Auto-Régressif du 1er ordre).
Les équations du modèle AR1 pour un processus X(t(n))
Relation d’équivalence entre X(t)-Langevin et X(t(n))-AR1
Extension : le modèle « AR1 saisonnier » de Thomas-Fiering
Identification statistique des paramètres du processus AR1 (stationnaire)
Exercice de cours : pour une séquence d’observations X(t(n))…en déduire un
critère et une méthode d’ajustement des paramètres du modèle AR1.
Ch.3-B. Analyse croisée de chroniques hydrologiques (pluie-débit)
.♦ Théorie des modèles de convolution pluie-débit (P(t)⇒Q(t)) :
cf.TABLEAU SYNOPTIQUE
Déterministe vs. Statistique
Causal vs. Non-causal
Temps continu Î Temps discret
TD3 IDENTIFICATION STATISTIQUE D’UNE FONCTION DE TRANSFERT
PLUIE P(t) ⇒ DEBIT Q(t) : HYDROGRAMME UNITAIRE
(avec ≠ jeux de données : pluies-débits bassins karstiques, etc…)
REFERENCES
ANNEXES
♦ Lois de probabilité univariées :
relations moments-paramètres et méthodes d’ajustement.
NB : d’autres annexes sont insérées directement dans chaque chapître
iv
Cours « Hyd.Stat. » 3Hy 2005-06
Identifiant = HY3ASE303
Titre : Hydrologie Statistique
Sous-titre :
Traitements de données hydrologiques :
analyses univariées, temps de retour, évènements extrêmes,
évènements rares, analyses corrélatoires multivariées et
ACP, chroniques hydrologiques et processus aléatoires,
données spatialisées et géostatistique.
R. Ababou : ababou@imft.fr
7
CHAP. 0
(INTRO)
Cours « Hyd.Stat. » 3Hy 2005-06
Identifiant = HY3ASE303
Titre : Hydrologie Statistique
Sous-titre :
Traitements de données hydrologiques :
analyses univariées, temps de retour, évènements extrêmes,
évènements rares, analyses corrélatoires multivariées et
ACP, chroniques hydrologiques et processus aléatoires,
données spatialisées et géostatistique.
R. Ababou : ababou@imft.fr
(*) Terminologie. « Statistique" se réfère au traitement statistique de données (construction d'une fonction de
répartition empirique, estimation de moments sur échantillons de taille finie, etc). "Probabiliste" se réfère à la
modélisation d'une variable hydrologique vue comme une variable aléatoire (loi de probabilité). "Stochastique"
se réfère plutôt à la modélisation probabiliste de processus temporels (chroniques hydrologiques).
"Géostatistique" se référère à la modélisation de variables hydrologiques spatialement distribuées: théorie de
Matheron (variables régionalisées); théorie Bayesienne de l'estimation (fonctions aléatoires).
Fonction de Regimes
transfert pluie-débit hydrologiques et
pour de sources régionalisation des
karstiques (Midi- débits (Sri Lanka)
Pyrénées).
( \\CRI\spi_com\be\hy\... )
P(Ω)=1,
P(ωA∪ωB)=P(ωA)+P(ωB),
ΣP(ωi) = P(∪ωi) = P(Ω) = 1,
Exemple Par exemple, pour le jeu de pile ou face non truqué, on a pour chaque jet :
A B AB
PO PA PB PAB
A B AB
PO PA PB PAB
Réponse. La réponse est obtenue par les probabilités conditionnelles (théorème de Bayes) :
Pr oba{A I B}
Pr oba {A B} =
Pr oba{B}
Pr oba{AB} PAB
⇒ Pr oba {A B} = =
Pr oba{B ou AB} PB + PAB
où Proba{A|B} dénote la probabilité conditionnelle que A se produise si B s’est produit (de façon
déterministe, sans incertitude). Le signe ∩ signifie «et», «AND». Le signe ∪ signifie «ou»
non exclusif («OR») – à ne pas confondre avec le «ou» exclusif («XOR»).
X 1 + ... + X N
lim =m
N →∞ N
Théorème central limite (convergence additive vers la loi de Gauss):
lim
N →∞
X 1 + ... + X N
N X ( )
= Z où Z : Ν 0, σ 2 suit une loi de Gauss…
La somme d’un grand nombre de V.A.’s réelles Xi a donc tendance à suivre une loi de Gauss.
Remarque sur les processus multiplicatifs (à partir des processus additifs ci-dessus) :
Il suffit de poser Xi = ln(Yi), avec Yi positive, pour voir apparaître le produit des Yi (Yi=exp(Xi)) au
lieu de la somme des Xi. Noter que, si Z est gaussienne, la variable exp(Z) est dite log-normale. Le
produit d’un grand nombre de VA’s Yi réelles positives a donc tendance à suivre une loi log-normale.
(
X (i ) = FX−1 U (i ) ) f X ( x) =
1
β
e
−x
β
FX ( x) =1 − e
−x
β
(
X (i ) = − β ln 1 − U (i ) )
Désavantages : la fonction réciproque FX-1(u) peut être difficile à expliciter : par ex., pour la gaussienne, FX(x)
s’écrit en termes d’une fonction spéciale, erf(x), dont il faut obtenir la réciproque (tables numériques, ou
approximations rationnelles – cf. Abramowitz et Stegun).
Générateurs disponibles dans les logiciels
Voir par exemple les librairies et les fonctions Fortran, ou encore, les fonctions disponibles dans MATLAB ™ :
la fonction « rand » de MATLAB génère une V.A. uniforme U[0,1] ;
la fonction « randn » de MATLAB génère une V.A. normale N(0,1), i.e., loi gaussienne centrée réduite.
DdP: f FdR: Σf
0.8
naturel (t) reclassé données classées classées
0.7
t1 tc1 = t7 jc1 = 7 xc1 = x7
Fonction de Répartition F(x)
0.6
0.4
0.1
0
100 200 300 400 500
x
600 700 800 900 1000
t25 tc25= t11 jc25 = 11 xc25 = x1
Courbe empirique F(xj) par points (Q crues Mdez) ZOOM Exemple fictif: xMIN=x7 ≤ x18 ≤ x4…≤ x11=xMAX
j− 1
Fˆ (x ) = 2 , ( j = 1,..., N )
2. Appliquer la formule de Hazen point par point : X j
N
NB. Intuitivement, cela donne bien : FX (x j ) ≈ Pr ( X ≤ x j ) , ( j = 1,..., N ) .
ˆ
0.9
0.8
0.7
Fonction de Répartition F(x)
0.6
0.5
0.4
0.3
0.2
0.1
0
100 200 300 400 500 600 700 800 900 1000
x
1 i= N
• Estimation : mˆ X = ∑ xi
N i =1
«RMS»=«Root-Mean-Square» = Erreur Quadratique Moyenne
σX σˆ X
• Erreur d’estimation : ε RMS (mˆ X ) = ≈
où (par définition) : ε
RMS ( m
ˆ X ) ≡ Var(mˆ X )
N N
Estimateur de la variance d’une V.A. réelle à partir d’un échantillon de taille fini N
(estimateur sans biais, en supposant la moyenne connue, pour N grand >>1) :
1 i= N 1 i= N
• Estimation :
σ X2 = ∑
N − 1 i =1
( xi − mˆ X )2 d’où : σˆ X = ∑
N − 1 i =1
( xi − mˆ X )2 (…).
σX σˆ X
• Erreur d’estimation : ε RMS (σˆ X ) = ≈ Ex : X ∼ N(0,1) : si N=50, ε RMS (σˆ X ) ≈ 1 10.
R.Ababou 2etNal., INP/ENSEEIHT:
2N 22
Hydrologie Statistique 2005-06
Cours Hydro.Stat. 3Hy : Séance 3
1. ANALYSE STATISTIQUE UNIVARIEE : 1.0. BASES -- SUITE
LOI DE PROBA D’UNE V.A CONTINUE RÉELLE : FdR, DdP, & estimations empiriques
o Estimateurs statistiques de moments (moyenne, variance,…)
Exemple. Précipitation annuelles à Agadir (semi-aride) de 1914/15 à 1974/75 (N = 58 observations)
1 i= N 1 i= N
Moyenne:
mˆ X = ∑
N i =1
xi = 230.5 mm
Ecart-type : σˆ X = ∑ ( xi − mˆ X )2 = 111.9 mm
N − 1 i =1
NB : l’écart-type est estimé ici en prenant la racine carrée de l’estimateur sans biais de la variance.
σˆ
Coeff. de Variation estimé :
Cˆ X ≈ X = 0.48 = 48%. .
mˆ X
Le coeff de variation des pluies annuelles est ∼50% (forte variabilité interannuelle, climat semi-aride).
σˆ
I 80% (m X ) = [mˆ X ± 1.28 × ε mˆ ] = mˆ X ± 1.28 × X = 230.5 ± 19.0 mm.
N
A partir des moments centrés d’ordre 3 et 4, on définit les coefficients d'asymétrie (skewness) et
d'aplatissement (kurtosis), ou coefficients de Fisher (Ventsel 1973, Tassi 1989) :
µ3
γ = 3 : coefficient d' asymétrie (Skewness).
σ
(8) κ = µ 4 − 3 : coefficient d' aplatissement (Kurtosis) .
σ4
γ : On montre que γ = 0 pour une distribution symétrique, puisque les moments d'ordre impairs sont
alors nuls. Le coefficient γ est positif pour une loi asymétrique comme la loi log-normale ou la loi
exponentielle (γ>0: queue de distribution persistante vers les x >> mX). Il est négatif dans le cas contraire
(exemple : loi suivie par y = x0-x, où x suit une loi exponentielle ou log-normale).
κ : Le coefficient d’aplatissement κ = 0 par construction pour une loi de Gauss ; on a κ > 0 pour une
densité de probabilité plus « pointue » que la loi normale, et négatif pour une densité plus "aplatie".
Exemple : la loi de Laplace à densité exponentielle symétrique est très « pointue » car elle présente un
point de rebroussement à l'origine ; son coefficient d'aplatissement est fortement positif (κ = +6).
Loi normale:
La loi normale ou gaussienne est une loi à deux paramètres (m,σ).
( x − m) 2
1 −
f X ( x) = e 2σ 2 pour x ∈ R
Densité de probabilité gaussienne: (10) σ 2π
Tous les moments d’ordre impairs sont nuls (loi symétrique) µ3 = 0
Les moments d’ordre pair de la loi normale (centrée réduite) sont (voir par exemple Tassi 1989) :
Γ( p + 1 / 2 )
x 2 p = µ2 p = 2 p = 1× 3 × (...) × (2 p − 1) µ4 = 3 .
(9) Γ(1 / 2)
Les coefficients d'asymétrie γ et d'aplatissement κ (définis + loin) sont donc nuls : (11) γ = 0 ; κ = 0.
La fonction de répartition (FdR) FX(x) de la loi de gauss, intégrale de fX(x), est une fonction spéciale :
1 x
FX ( x ) = 1 + erf
x
2 −u 2
erf ( x ) ≡ ∫e du ; erfc( x ) ≡ 1 − erf ( x ) .
2 2 π 0
Loi de Rayleigh
SUITE :
Densités de Proba Empirique & Gaussienne ajustée par les moments F.d.Répartition Empirique & Gaussienne ajustée par les moments (bis)
1
0.9
0.6
0.8
Densité de Probabilité f(x), en unités de 1/x
0.5
0.7
Fonction de Répartition F(x)
0.6
0.4
0.5
0.3
0.4
0.2 0.3
0.2
0.1
0.1
0 0
3 3.5 4 4.5 5 5.5 6 6.5 7 7.5 3 3.5 4 4.5 5 5.5 6 6.5 7 7.5
x x
Q(t) lnQ(t)
x (non classées).
6.5
5.5
x
5
4.5
4
1958 1960 1962 1964 1966 1968 1970 1972 1974 1976 1978
t
...en construction...
ANNEXES du CH.1-A
>> Exécuter alors le programme STAT_PDF.m … dont voici des extraits ci-dessous…
% PARAMETRES A REGLER EN FONCTION DE L'APPLICATION (ici, cas des données crues Mdez)
> Tmin=1955;Tmax=1980;
> Xmin=0; Xmax=1200;
> Xlabel='Crues Annuelles Oued Mdez (m3/s)';
> Tlabel='Années';
DXbin=input('ENTRER `DXbin`, la largeur des intervalles de l`histogramme : ');
% TX = Matrice Nx2 des dates "t" et des observations "x".
% t = DATES OU LABELS DES OBSERVATIONS (non classées)
% x = OBSERVATIONS (non classées)
% Noter l’organisation des données en 2 vecteurs colonnes :
% t x
% 1956.5 125 1ère ligne
%(1957.5) (----) (année manquante éliminée)
% 1958.5 52.7 2ème ligne
% ...... …...
% 1978.5 85 22ème ligne
% 1979.5 1077 23ème ligne.
Question 1.
En utilisant une table de la loi normale centrée réduite1, exprimer pour une
variable aléatoire "Z" de loi gaussienne N(mZ,σZ2) les intervalles de confiance à
80% et à 98% centrés sur mZ (qui est à la fois la moyenne, médiane, et valeur la
plus probable de "Z").
Table sommaire :
Question 2.
Soit une régression linéaire Y=aX+b+ε entre variables gaussiennes (X,Y).
Obtenir les intervalles de confiance à 80% et 98% de Y autour de la droite de
régression Y=aX+b, connaissant les écarts-types : σX ≈ 1, σY ≈ 2, et le
coefficient de corrélation : ρ ≈ -0.5 .
1 On peut consulter une table de la loi normale, ou bien utiliser le tableau sommaire ci-inclus.
Réponse / 1. Intervalle de confiance (gauss)
L'objectif est de caractériser une région (intervalle) t.q. la V.A. ait une
probabilité "P" d'appartenir à cette région (intervalle). Dans la plupart des
applications, il s'agit de déterminer un intervalle de confiance autour de la
moyenne : c'est ce qu'on demande ici. La procédure est illustrée graphiquement
pour l'intervalle I80% (de probabilité P=80%) 2 :
2 On a utilisé la fonction erreur erf(x) de MATLAB pour tracer la FdR de la loi normale: F(x) = 0.5*(1+erf(x/√2)).
Réponse / 2. Bande de confiance (erreur gaussienne de régression linéaire)
Dans le cas d'une régression linéaire Y=aX+b+ε, la question précédente revient
à estimer une bande de confiance autour de la droite de régression [cf. schéma
ci-dessous].
L'écart-type (σε ) du résidu (ε) donne la largeur de la bande de confiance dans la
direction des ordonnées (Y). En notant I (YX) l'intervalle de confiance pour la
regression de Y par rapport à X, on obtient par exemple, à 80%:
Î I80%(YX) = [aX+b ± 1.28 σε ] (etc…)
Or : σε2 = σY2 (1 - ρ2) ⇒ σε2 = (2)2 (1 - (-0.5)2) = 4×3/4 = 3 ⇒ σε = √3.
D'où: I80%(YX) = [aX+b ± 1.28×√3] ≈ [aX+b ± 2.22]
De même: I98%(YX) = [aX+b ± 2.32×√3] ≈ [aX+b ± 4.02]
Î ( \\CRI\spi_com\be\hy\... )
Débits
6 6
5 5
4
4
3
3
2
2
1
1987
1993
1983
1985
1989
1991
1981
1770
1900
1905
1941
1949
1979
1815
1850
1876
1916
1923
1932
1943
1945
1947
1951
1
1977
1955
1963
1965
1971
1953
1957
1959
1961
1967
1969
1973
1975
0
0
Années
1 an
(365j)
X − α
F ( X ) = exp − exp −
β
Relation Paramètres-Moments
et ajustement par les moments •Méthode des moments
αˆ = mˆ X − 0.45 σˆ X
βˆ = σˆ X / 1.28
Ajustement graphique de la FdR •Méthode d’ajustement graphique
sur papier spécial Gumbel (-log(-log)) (papier graphique double log)
On décide d’ajuster la FdR empirique de Q (m3/s) à la loi de Gumbel, i.e., la FdR double-exponentielle :
FQ (q ) = exp{− exp{− a(q − q0 )}}
Voir aussi le TD1 : Etude des probabilités d’occurrences des crues rares de la
Garonne à Toulouse (données modernes et « historiques », sur plus de deux siècles).
ANNEXE
CRUES ANNUELLES, TEMPS DE RETOUR,
EVENEMENTS RARES & LOI DE POISSON
Notations.
TR Temps de retour moyen (par exemple, TR = 100 ans pour une crue centennale)
TD Durée d’observation (pour le nombre d’occurrences…sur une durée donnée TD)
n Nombre d’occurrences, nombre de dépassements (i.e., nombre d’évènements)
µ Densité de la loi de Poisson (nombre moyen d’évènements par unité de temps)
Pn Loi de Poisson : probabilité d’observer exactement n évènements sur une durée TD fixée.
Q Débit de crue annuelle (variable aléatoire de fonction de répartition FQ(q))
QTR Débit de crue de temps de retour TR (par exemple, Q100 = débit de la crue centennale)
τ1 Temps de 1ère arrivée de l’évènement (i.e., du dépassement d’un débit QTR).
Crues biennales (TR = 2ans), décennales (TR = 10ans), centennales (TR = 100ans), millennales (TR = 1000ans)…
-1-
R.Ababou - Annexe Hydro.Stat. (Ch.1.B) – 2005/06
Formulation du problème
¾ On a étudié la loi de probabilité de la variable aléatoire « crue annuelle » Q. On
connaît sa fonction de répartition FQ(q) empirique, et on dispose d’une loi théorique
ajustée à celle-ci, par exemple la loi de Gumbel ajustée par la méthode des moments.
¾ On peut donc utiliser la loi modèle FQ(q) pour obtenir la valeur du débit de crue
annuelle ayant par exemple une probabilité 0.90 de ne pas être dépassée :
[ ]
FQ (q10 ) = Pr(Q ≤ q10 ) = 0.90 ⇒ q10 m 3 / s Í Débit de crue décennale
¾ Le « débit de crue décennale », q10 , a donc 1 chance sur 10 d’être dépassé, car sa
probabilité de dépassement est 1-F = 1-0.90 = 0.10. Les évènements « dépassements
du débit q10 » ont donc en moyenne un fréquence de retour d’1 année sur 10. Comme
il s’agit de débits annuels (∆t=1 an), ces dépassements ont donc un temps de retour
de 10 ans, en moyenne sur une très longue période, théoriquement infinie.
1 1
TR = =
¾ Plus généralement… Temps de retour: 1 − FQ (qTR ) 1 − Pr (Q ≤ qTR )
1 −1 1
FQ (qTR ) =1− ⇒ qTR = FQ 1−
Débit « TR-ennal » qTR : TR TR
-2-
R.Ababou - Annexe Hydro.Stat. (Ch.1.B) – 2005/06
QCRUES
-3-
R.Ababou - Annexe Hydro.Stat. (Ch.1.B) – 2005/06
¾ Théorie. Les résultats de la théorie de Rice pour les processus saléatoires tationnaires
gaussiens indiquent que les excursions d’un processus aléatoire Y(t) au-dessus d’un seuil
donné YSEUIL, tendent à devenir des évènements ponctuels lorsque le seuil est suffisamment
élevé. Les zones d’excursion tendent vers des points. Les valeurs du processus au-dessus du
seuil coïncident avec des maxima locaux isolés de Y(t), avec un seul maximum par intervalle
d’excursion. La distribution des points-excursions (dépassements) suit un processus temporel
de Poisson, ou de façon équivalente, le nombre de dépassements ponctuels sur une durée
d’observation donnée (TD) suit une loi de Poisson. Enfin, la densité de la loi de Poisson est
donnée par µ = 1-F(YSEUIL), µ étant le nombre d’évènements / unité de temps.
¾ En appliquant ceci aux débits de crues annuelles Q(ti), on obtient donc le résultat théorique :
-4-
R.Ababou - Annexe Hydro.Stat. (Ch.1.B) – 2005/06
-5-
R.Ababou - Annexe Hydro.Stat. (Ch.1.B) – 2005/06
-6-
TD1
Univar :
lois de proba
Gumbel+Poisson:
crues Garonne
ENONCE DU TD 1 :
On propose d'étudier la Fonction de Répartition (FdR) empirique des
crues de la Garonne à Toulouse (Pont-Neuf), en termes de hauteurs H,
comprenant une série "scientifique" contemporaine (1940-1994), et une
série "historique" plus ancienne (1770-1940) qui permet de compléter la
FdR empirique vers les valeurs extrêmes.
Voir la Figure ci-jointe (C.Thirriot 1995), où sont représentées la FdR
empirique (point par point) et une FdR ajustée (trait continu). Des
explications supplémentaires sur la méthode utilisée pour construire
ces FdR pourront être fournies en salle. Une courbe de tarage
approchée est fournie.
Répondre aux questions suivantes (y compris graphiquement si
nécessaire).
1
HYDROLOGIE STATISTIQUE – TD1: ANANLYSE UNIVARIEE – GUMBEL & POISSON :
CRUES ANNUELLE & CRUES EXTREMES DE LA GARONNE A TOULOUSE
2
TD Hydrologie Statistique
Hydrologie Statistique
TD 1
Crues annuelles, évènements rares,
et loi de Poisson
Ahmad Al-Bitar
TD Hydrologie Statistique
Pont-Neuf
onne
Gar
TD Hydrologie Statistique
7000
Courbe de tarage récente de la
Garonne au niveau du Pont-Neuf 6000
pour des hauteur H>2 m.
5000
Cette courbe n’est pas disponible
pour la période historique (1770- 4000
Q (m3/s)
1941).
3000
La courbe est faiblement quadratique,
presque linéaire. 2000
1000
0
0 2 4 6 8 10
H (m)
TD Hydrologie Statistique
0,6
F
0,5
série scientifique
0,4
0,3
0,2
0,1
2 2,5 3 3,5 4 4,5 5 5,5 6 6,5 7 7,5 8 8,5
hauteur (m)
TD Hydrologie Statistique
H − α
F ( H ) = exp − exp −
β
Évaluation de l’ajustement
-Test du Khi-Deux Χ²
TD Hydrologie Statistique
Test Khi-Deux Χ²
Tableau Χ²
TD Hydrologie Statistique
Question 2
Î ( \\CRI\spi_com\be\hy\... )
R : loi de Rayleigh : () (
f R r = r × exp − r 2 / 2 )
θ : loi uniforme dans [0,2π] : f Θ (θ ) = U [0,2π ] .
Comment générer une paire de V.A.’s gaussiennes intercorrélées ?
En partant de G1 et G2, deux V.A.’s gaussiennes N(0,1) non corrélées, on obtient comme suit
2 nouvelles VA’s gaussiennes (X,Y) corrélées, d’écarts-types (σX,σY) et de coeff de corrélation ρ :
X = m X + σ X .G1
{
Y = mY + σ Y . ρ G1 + 1 − ρ 2 G2 }
Comment diagonaliser la matrice de covariance d’une paire de V.A.’s gaussiennes ?
Exécuter le programme MATLAB « Ex_Stat4ACP2000.m » (A.C.P. simplifiée à 2 variables!)
ou encore, ouvrir le document PDF « _Ex_mbook_Stat4ACP2000.pdf » (listing+input/outputs)
Pluies Mensuelles en 2 stations d'un Bassin Versant du Drac (de 1928 à 1947, et en 1976)
S1 - MENS S2 - ROISSARD
Années Mars Avril Mars Avril
1928 61 84 44 132
1929 7 65 3 79
1930 109 53 135 115
1931 90 40 116 57
1932 59 67 101 89
1933 33 21 83 44
1934 74 135 88 130
1935 41 18 91 131
1936 56 132 64 132
1937 143 56 188 78
1938 3 19 3 7
1939 53 91 86 92
1940 X X 50 112
1941 45 83 55 117
1942 19 23 40 42
1943 8 25 12 35
1944 19 30 20 30
1945 19 17 18 18
1946 X X 60 44
1947 103 35 134 31
1976 57 60 62 65
R.Ababou et al., INP/ENSEEIHT: 13
Hydrologie Statistique 2005-06
Principe de la méthode.
¾ Soit un réseau de N stations (pluviométriques ou autres). On considère les stations 2
par 2, et on effectue pour chaque paire de stations une régression linéaire Y|X.
¾ Le test utilise la somme partielle Z(k) des résidus de la régression, tracée en fonction
de l’indice k (nombre de résidus cumulés) depuis k=1 jusqu’à k=N (nombre total de
points). Noter que le cumul commence à 0 pour k=0 et se termine à 0 pour k=N à cause
de la condition de non biais (moyenne du résidu nulle).
¾ On montre théoriquement (voir théorie ci-dessous) que la courbe ainsi tracée, Z(k),
doit être comprise dans une certaine ellipse de confiance. Si la courbe sort de l’ellipse,
c’est que l’une au moins des deux variables (X,Y) n’est pas homogène : défaillance
d’instrument ? biais persistant ? sabotage des mesures ? dérive thermique ? changement
de courbe de tarage à cause de modifications du lit du cours d’eau ? etc…).
¾ Voir exemple ci-dessous (pluies Sri Lanka).
Cours Hydro.Stat. 3Hy :
Séance 5: Ch.2 – Hyd.Stat.Multivariée
THÉORIE – Test d’homogénéité « résidus cumulés » : démonstration de l’ellipse de confiance
Yi = a* Xi + b* + Ei (i=1,…,N) (Ei = résidus de régression linéaire)
i=k
Z k = ∑ Ei (ΣEi = résidus cumulés à analyser)
i =1
Les Ei ont tous les mêmes moments univariés : ∀i ce sont des vars gaussiennes de moyenne nulle et d'écart-type σE :
<Ei> = 0 ∀i et <Ei2> = σE2 ∀i
De même les (Ei,Ej) ont des moments croisés tous égaux ∀(i,j) avec (i≠j), mais l'espérance <Ei.Ej> n'est pas nulle car les
(Ei,Ej) ne sont pas indépendants à cause de la contrainte:
i= N
Z N = ∑ Ei = 0 (la moyenne empirique des résidus de régression est nulle)
i =1
[R + (1 − R)δ ]
i =k j =k i =k j =k i =k i =k j =k
Mais on sait par ailleurs que ZN=0 ("contrainte"), d'où σZN2 = 0, ce qui permet de déterminer le coefficient de corrélation
croisé des résidus (R) : σZN2 = 1.N.σE2 + R.N.(N-1).σE2 = 0 ⇒ R = -1 / (N-1).
k −1
D'où finalement le résultat : σZk2 = k [ 1 - (k-1) / (N-1) ] σE2 ⇒ σ Zk = k 1 − σE .
N −1
Conclusions : l'écart-type σZk (k) décrit une ellipse ; de plus, si les (Xi,Yi) sont gaussiens, les résidus Ei aussi; et les résidus
cumulés Zk aussi ; on a donc : Zk = N(0,σR.Ababou
Zk).
et al., INP/ENSEEIHT: [d’après R.Ababou, 2000] 19
Hydrologie Statistique 2005-06
En écrivant ceci pour toutes les observations dont on dispose cela donne :
Y = a0 . 1 + X . a +ε
1 N (i ) 1 T
0 = mε = ∑ ε = N 1 .ε
N i =1 ⇒ a0 = mY − m X a (2 )
1 T
= 1 .{Y − a0 .1 − X .a} En insérant cette équation dans l’équation (1.a)
N on obtient, en variables centrées :
1 a 1
= 1T .Y − 0 1T .1 − 1T . X .a
N N N
y = x.a + ε (3) variables centrées
= m Y − a0 − m x .a
σ ε2 = σ y2 − 2 C y x .a + aT .C x x .a
2 ∂σ ε2
Condition d’optimalité du 1er ordre Î Grad a (σ ε ) = L L = 0
∂a j
− 2 C xy + 2 C x x .a = 0
D’où, après calculs : Î
a = C x x −1 . C y x T (4)
(p,1) (p, p) × (p,1)
ε T ε = ( y − x a )T ( y − x a ) = y T y − y T x a − a T x T y + a T x T x a
T ∂ (ε T ε )
er
La condition d’optimalité du 1 ordre se traduit par :
Grad a (ε ε ) = L L = 0
∂a j
− 2 xT y + 2 xT xa = 0
D’où :
(p, N)(N,1) (p, p) × (p,1) Î a = ( x T x )-1 x T y (5)
Pentes de la régression multiple.
Equivalence entre les deux approches
Les 2 approches ↑↑ sont équivalentes si on estime les covariances C x x & Cy x ainsi :
1 T 1 T
Cx x = x .x et Cy x = y x (6)
N N
R.Ababou et al., INP/ENSEEIHT: 25
Hydrologie Statistique 2005-06
Var (ε ) =
N
1 T
{ }
ε ε =
1 T
N
{
y y − y T x a − a T x T y + a T xT x a }
1
= y T y − y T x( xT x) −1 xT y − y T x( xT x) −1 xT y + yT x(( xT x) −1 )T xT x( xT x) −1 xT y
N 144244 3 14243
1 a
Î σ ε2 =
1 T
N
{ }1
N
1
N
1
N
1
ε ε = y T y − y T x( xT x) −1 xT y
N
Cette formule donne directement la variance d’erreur (minimale) en fonction des données
empiriques. De façon équivalente on peut écrire :
σ ε2 = σ y2 − C y x C x−x1C y x T σ ε2 = σ 2y( 1 − R 2 )
R = R y x Rx x −1 R y x T
σ ε2 = σ 2y 1 − R y x −1
Rx x R y x T
…où le scalaire « R » représente le coefficient de corrélation multiple.
Enoncé :
2
Total size of gaussian data vectors [x1],[x2]: ...
N= 1000
Input correl coeff of gaussian vectors [x1],[x2]:
rho = -0.5000
Computed correl coefficient of gaussian vectors:
rho = -0.5072
Input means of gaussian vectors [x1],[x2]:
Mu1 = 0 Mu2 = 0
Computed means of gaussian vectors :
mu1 = -0.0138 mu2 = 0.0037
Input std.dev. of gaussian vectors:
Sigma1 = 1.0 sigma2 = 2.0
Computed std.dev. of gaussian vectors:..,
sigma1 = 1.0311 sigma2 = 2.0234
Covariance matrix of raw data [x1 x2] :
CX = 1.0632 -1.0581
-1.0581 4.0943
Covariance matrix of normalized data [x1 x2] : ...
CY = 1.0000 -0.5072
-0.5072 1.0000
Raw data : Rotation matrix=eigenvectors [v1 v2]: ..
VX = -0.9539 -0.3001
-0.3001 0.9539
Norm.data: Rotation matrix=eigenvectors [u1 u2]: ..
UY = -0.7071 -0.7071
-0.7071 0.7071
Raw data: Covar matrix of principal compon.[z1 z2]:
CZ = 0.7303 0.0000
0.0000 4.4271
NormData: Covar matrix of principal compon.[w1 w2]:
CW = 0.4928 -0.0000
-0.0000 1.5072
Pentes des régressions linéaires:
Pente de régression x2/x1 :(a21) = -0.9952
Pente de régression x1/x2 :(aa21=1/a12)= -3.8694
3
CP2
X2| X1
CP1
X1| X2
4
DIAGONALISATION (2x2) EN MATLAB
(cf. programme STAT4ACP2000.M)
5
HYDROLOGIE STATISTIQUE : TD2(2)
TD2-Exo.2 : A.C.P.
(Analyse en Composantes Principales)
Objectifs:
L’objectif est d’utiliser des données réelles pour s’initier à
l’Analyse en Composantes Principales, et réfléchir aux
utilisations possibles de l’ACP. L’exercice proposé permet
d’illustrer la théorie et d’apercevoir les possibilités de l’ACP –
mais on ne cherche pas ici à faire un développement exhaustif,
ni de la théorie de l’ACP, ni de ses nombreuses modalités
d’applications pratiques.
Données:
On dispose de données hydrométriques en 6 stations
Pyrénéennes : « écoulement mensuel » (mm), pour le mois de
mai, entre les années 1950 à 1972.
Ces données sont (judicieusement) présentées sous la forme
d’une matrice rectangulaire « X », appelée la matrice
« observations-variables » (23 lignes × 6 colonnes). Ici, les
observations sont les années {i = 1,…, N}, et les variables sont
les stations de jaugeage {j =1,…, P}, avec N = 23 et P = 6.
1
Questions
1. Calculs
1.1 Question préalable : quelle est la signification de la variable
hydrologique analysée (débit « Q » -- ou débit spécifique « q ») ? A
quel type de normalisation des débits cela correspond-il ?
1.2 Moments simples. Calculer la moyenne, la variance et l’écart-type
de chaque variable (en utilisant directement les données, ou bien
encore, les sommes Σ données en annexe).
1.3 Matrice de corrélation. Calculer la matrice de corrélation (i.e., la
matrice de covariance des variables réduites). Remarques ?
1.4 Diagonalisation de la matrice de corrélation. Afin d’alléger les
calculs, on donne en annexe la matrice diagonale D et la matrice de
passage P. En déduire les valeurs propres, ainsi que les vecteurs
propres ou « composantes principales ».
Note. Par définition, la matrice P transforme le repère initial en un
repère principal, dans lequel la matrice de corrélation devient
diagonale. Les variables hydrologiques transformées, i.e., exprimées
dans le nouveau repère dit « principal », y sont donc non corrélées.
2. Analyses et applications
2.1 Montrer que, dans le cas présent, la CP1 représente les six
variables avec un poids à peu prés égal pour toutes.
Note. On peut en conclure que la CP1 n’a pas donc de caractère
discriminant très marqué. De ce fait, bien que son poids explicatif soit
important, on étudiera plutôt le comportement et le rôle hydrologique
des autres CP à condition cependant qu’elles aient un poids suffisant.
2.2 Calculer le % de variance expliquée par les K premières CP, en
faisant varier K de 1 à 6. En déduire que l’on ne perd que quelques %
d’information en éliminant les CP4, CP5 et CP6.
2.3 La figure 1 représente les 6 stations de jaugeage de débits
(variables 1,…,6) dans le plan des (CP2,CP3). Y a-t-il des
regroupements possibles ? Que pouvez en déduire ?
2
TABLEAU 1. Ecoulement de Mai (mm) en 6 stations des Pyrénées pour les années 1950-1972
Année Observation Naguilhes Lanoux Izourt Gnioure Caillaouas Bleu
N°(j) X1(j) X2(j) X3(j) X4(j) X5(j) X6(j)
3
ANNEXE : Résultats statistiques intermédiaires
(pour faciliter les calculs de moments le cas échéant)
0.021 0 0 0 0 0
0 0.025 0 0 0 0
0 0 0.07 0 0 0
0 0 0 0.554 0 0
0 0 0 0 1.123 0
0 0 0 0 0 4.208
La matrice de passage P est :
4
ACP : ORGANIGRAMME METHODOLOGIQUE (version préliminaire) 1
1
NB : A gauche : variables centrées réduites (moyenne nulle et variance unité) ; et à droite : variables centrées mais pas réduites (variances brutes).
CHAP. 3
Cours « Hyd.Stat. » 3Hy 2005-06
Identifiant = HY3ASE303
Hydrologie Statistique
Chapître 3 (A):
PROCESSUS HYDROLOGIQUES
(Chroniques Hydrologiques et
Processus Aléatoires Autocorrélés)
R. Ababou : ababou@imft.fr
Hydrologie Statistique
Chapître 3 (A):
PROCESSUS HYDROLOGIQUES
(Chroniques Hydrologiques et
Processus Aléatoires Autocorrélés)
R. Ababou : ababou@imft.fr
40
20
0
0 500 1000 1500 2000 2500 3000 3500 4000
time in hours
Runoff Rates (Aliou)
0
0 500 1000 1500 2000 2500 3000 3500 4000
time in hours
Remarques / Rappels:
Moments d’ordre 2 :
Var(x)=E((x-mx)2),
Cov(x,y)=E((x-mx)(y-my)) Î CXX(t,t) = σX2(t).
Moments d’ordre > 2 :
Les prochains moments à définir sont ceux d'ordre 3 [en 1, 2, et 3 points].
Pour un processus gaussien, il suffit de connaître les moments jusqu'à l'ordre 2.
Même si le processus n'est pas gaussien, on se contente souvent de l’ordre 2.
Le moment d'ordre 3 en 1 point, normalisé par σX3, donne le coeff. d'asymétrie γ
qui quantifie l'asymétrie de la d.d.p en 1 point (fX) de X(t). Le processus X(t) peut
être gaussien si |γ| <<1 (condition nécessaire, non suffisante).
Processus stationnaire
Un processus aléatoire X(t) est dit "stationnaire" ou encore "homogène"
(statistiquement) si ses moments sont invariants par translation du temps
(invariance / t Î t+to)…
Stationnarité stricte
Tous les moments d'ordre 1,2,…,N (∀N fini) sont invariants…
Stationnarité d'ordre 2
On se contente souvent de supposer l'invariance (stationnarité) des moments d'ordre 1 et 2.
La stationnarité d'ordre 2 implique :
¾ Moyenne : E(X(t)) = mX constante (∀t)
¾ Variance : Var(X(t)) = σX2 constante (∀t)
¾ Auto-Covariance : Cov(X(t'),X(t")) = CXX(t"-t') = CXX(τ) , (∀t', ∀t", t"-t'=τ)
Ainsi, pour un processus stationnaire d'ordre 2… :
¾ L'autocovariance en 2 instants (t',t") ne dépend que du délai τ = t"-t'.
¾ Au délai nul τ = 0, l’autocovariance se réduit à la variance : CXX(0) = σX2 constante.
¾ Enfin, si X(t) est gaussien, la stationnarité d'ordre 2 implique la stationnarité stricte.
Si le processus YS(t) est stationnaire de moyenne nulle, les processus X(t) ci-
dessous sont non-stationnaires :
X(t) = m0 + e-bt×YS(eat) ; Í…
Cependant, dans l’exemple ci-dessus, les processus X(t) peuvent être ramenés à
des processus stationnaires par un démoyennage ou un filtrage approprié…
Hypothèse d'ergodicité
Pour un processus stationnaire, l'hypothèse d'ergodicité pose l'équivalence entre
moyenne d'ensemble (espérance math.) et moyenne temporelle (ou spatiale)
sur un domaine infini, soit :
T
1
¾ m X ≡ E ( X (t )) m =
⇔ X Tlim
→∞ T
∫0 X (s )ds = constante
Plus précisément, l'équivalence doit être postulée pour chaque moment "utile"
(selon les applications envisagées) : ergodicité pour la moyenne mX (ci-dessus),
mais aussi ergodicité pour la variance σX2 :
( )
T
1
σ ≡ E ( X (t ) − m X ) ⇔ σ X = Tlim ∫ ( X (s ) − m )
2 2 2
¾
2
X ds = constante
X →∞ T
0
¾ C XX (τ ) ≡ E (( X (t ) − m X )( X (t + τ ) − m X )) ⇔
T −τ
1
C XX (τ ) = lim ∫ ( X (s ) − m )( X (s + τ ) − m ) ds = fonction du délai(τ).
T →∞ T − τ
X X
0
Fonctions d'auto-corrélation
Fonction d'autocorrélation RXX : définition
¾ RXX(τ) = CXX(τ) / σX2
Propriétés de RXX(τ)
¾ -1 ≤ RXX(τ) ≤ +1 , ∀τ ∈ IR
¾ RXX(τ) est paire : RXX(-τ) = RXX(+τ)
¾ RXX(0)=1 et RXX(±∞)→0
τ* = τ0
On voit que le temps caractéristique τ0 représente dans ce cas l’échelle intégrale
d’autocorrélation du processus X(t).
50 jours = 2 mois
50 quinzaines = 2 ans
50 quinzaines = 2 ans
50 jours = 2 mois
X n +1 = ρ1 X n + sε n +1 X n = X (t n );
t = 0 : X = X 0 ε n = ε (t n );
ε = 0; ε ε = δ t = n∆t
n m n mn n
C XX (τ ) C XX (τ )
ρ1 = RXX (τ 1 ) avec τ 1 = 1× ∆t ; R XX (τ ) = =
C XX ( 0 ) σ X2
s = σ X 1− ρ 2
σ = Var ( X ) = × ∑i =1 ( X i − X
1
)
i= N 2
2
1 X
N
En construction….
Processus purement aléatoire en temps discret : le bruit blanc en temps discret (rappels - voir bruit
blanc en temps continu)…
Une classe de processus en temps discret : les processus ARMA. Application au traitement du
signal en électronique et télécommunications, géophysique du globe, hydro-météorologie, etc.
Théorie des systèmes dynamiques linéaires stochastiques : en temps continu ; en temps discret.
Choix des exemples : le processus AR d’ordre 1…, et le processus MA…
Combinaisons AR-MA et généralisations : les processus de classe ARMA, ARIMA, ARMAX…
Approfondissements : voir références (Box & Jenkins ; Gelb ; Bras & Rodriguez-Iturbe ; R.A.).
Le modèle AR1 est développé ci-dessous (analysé plus en détail en classe : Cours ou TD).
1 − φ12 ,
Z
Ceci est tout à fait analogue au cas du processus AR1 en temps discret.
ρ1 =
( 2)
1 − λ∆t
1 + (λ∆t )
s = c0 ∆t
2
Remarques : (∀∆t) le paramètre ρ1 est toujours compris dans l’intervalle [-1,+1].
Ainsi, ρ1 peut être interprété comme un « lag-one correlation » (∀∆t) ; de plus, cette
corrélation ρ1 peut être positive ou négative, selon le pas de temps ∆t utilisé.
A l’inverse… en faisant maintenant tendre ∆t → 0, on voit que le processus AR1 tend
bien vers un processus de Langevin (C.Q.F.D).
Hydrologie Statistique 2005-06 (R.Ababou, A. Al-Bitar) 25
t = n.∆t
X t , j − m j = ρ1, j .(X t , j −1 − m j −1 ) + σ j . 1 − ρ12, j .Wt , j j = 1,..., J
Le paramètre (ρ1,j) est l’autocorrélation « lag-one » entre saisons (j-1) et (j).
Le processus (Xt,j) représente le débit au temps discret (t) dans la saison (j).
Si J est la dernière saison de l’année (J=4), on pose : Xt,J+1 = Xt+1,1.
Année (t-1) Année (t) …
Saison j=1 Saison j=2 Saison j=3 Saison j=4 Saison j=1 Saison j=2 Saison j=3 Saison j=4 …
X n +1 = ρ1 X n + s ε n +1
X n +1 = ρ1 X n + 0
Moyenne :
X n +1 = (ρ1 )
n +1
X0
X0 = 0 ⇒ Xn = 0 (∀n )
Covariance : X n X m = ...
Î Si m > n, posons m = n+k avec k = m-n > 0 :
X n X m = X n X n+k
j =k
j =1
k j =k
X n X n+k = X n ρ X n + s.∑ ρ j −1ε n + k − j +1
j =1
j =k
X n X n + k = ρ k X n X n + s.∑ ρ j −1 X nε n + k − j +1
j =1
X nε n + k − j +1 = 0 ∀(k − j + 1) ≥ 1
En effet, les Xn ne dépendent pas des εm futurs (m>n)
X n X n + k = ρ k X n X n ⇒ X n X m = ρ m − n X n X n ∀m > n
2
k j =n
Var ( X n ) = X n X n = ρ X 0 + s.∑ ρ j −1ε n − j +1
j =1
j =n i =n j =n
... = ρ 2n
X 0 X 0 + 2 ρ s.∑ ρ
n j −1
X 0ε n − j +1 + s .∑∑ ρ i −1 ρ j −1 ε n −i +1ε n − j +1
2
j =1 i =1 j =1
σ Xo
2
= X0X0
i =1 1 − ρ 2 , on obtient :
1 − ρ 2n
Var ( X n ) = ρ σ2n 2
+s 2
1− ρ 2
Xo
Synoptique Abrégé
(A) (B)
MODÈLE PLUIE-DÉBIT MODÈLE PLUIE-DÉBIT
DÉTERMINISTE STATISTIQUE
HYPOTHÈSES COMMUNES :
Equation causale
en temps continu τ∈[0,T]
(équation de Wiener-Hopf) :
T
RPQ (τ ) = ∫0 h( s ) RPP (τ − s )ds , 0<τ<T,
où T ≤ durée des observations de P(t),Q(t).
Equation non-causale
en temps continu τ ∈[-T,+T] :
+T
RPQ (τ ) = ∫−T h( s) RPP (τ − s)ds , -T<τ<T,
où T ≤ durée des observations de P(t),Q(t).
Synoptique Détaillé
(A) (B)
Modèle Pluie-Débit Modèle Pluie-Débit
déterministe statistique
HYPOTHÈSES COMMUNES AUX DEUX MODÈLES
La relation pluie-débit est une intégrale de convolution causale
Le système est linéaire
Le système est invariant ou stationnaire
Le système est causal
A0) TYPES DE DONNÉES B0) TYPES DE DONNÉES
1 Evènement averse-crue isolé et 1. Série chronologique comportant un certain
simple, tel que les causes et les effets nombre d'évènements averses-crues assez
sont clairement discernables. complexes, toute relation causale devenant
indiscernable
2 Faible nombre de données, chronique
courte permettant une résolution 2. Grand nombre de données et longues
rapide du système linéaire séries chronologiques favorisant une
approche statistique
Solution causale en temps discret (ti ) i) Solution causale, temps continu τ∈[0,T]
Minimisation de la variance d'erreur;
⇒ Discrétisation de l'équation de application du principe d'orthogonalité entre
convolution avec ti =(i-1)∆t (i=1,...,N) inputs (P) et erreur (ε):
⇒ Problème d'algèbre linéaire: système T
matriciel carré P H = Q, où la matrice RPQ (τ ) =
0 ∫
h( s ) RPP (τ − s )ds , 0<τ<T
des pluies est triangulaire inférieure
(causale) où T ≤ durée totale des observations (P,Q).
1 S PQ (ω )
H (ω ) =
2π S PP (ω )
où H(ω) représente la TdF de h(τ), et S(ω) la
TdF ou densité spectrale de R(τ). Il ne reste
plus alors qu'à obtenir h(τ) par TdF inverse.
0.025
0.02
0.015
0.01
0.005
-0.005
-0.01
-100 -80 -60 -40 -20 0 20 40 60 80 100
Delai discret (discrete lag)
1
Aliou semi-horaire w/HU-STAT-5_V2.m (R.Ababou, Fev.2006)
« HU5_Aliou93_QobsQsim_M337ZOOM3.emf » (etc.)
Output Y(t) simulé (trait fin en rouge) et observé (trait gras en noir) -- Y(t) non centré; temps discret.
5
-1
5500 5600 5700 5800 5900 6000 6100 6200 6300 6400 6500
ZOOM 3
8
REFERENCES
X.X. LISTE DE REFERENCES (en construction)
POLYCOPIES D’HYDROLOGIE STATISTIQUE
¾ ABABOU R.(2004+): Hydrologie Statistique. Polycopié électronique –
éléments de cours et exercices. Documents électroniques sur le site web :
http://rachid.ababou.free.fr
¾ GAUDU R.: Cours d'Hydrologie 1 : éléments de polycopié pour
l’« Hydrologie Statistique » (ENSEEIHT, circa 1990).
DUBAND D., 1972: Hydrologie statistique approfondie.
Cours polycopié (EDF-DER & ENS d'Hydraulique de Grenoble).
OUVRAGES D’HYDROLOGIE STATISTIQUE
BOX, G.E.P. & G.M. JENKINS. 1976. Time Series Analysis, Forecasting,
and Control. Revised Edition. San Francisco, CA: Holden-Day Publishers.
¾ BRAS R., I.RODRIGUEZ-ITURBE : Random Functions in Hydrology,
Dover, New York.
¾ CHOW V.T., MAIDMENT D.R., MAYS L.W. Applied Hydrology. Mc
Graw-Hill International Editions, Civil Engineering Series, 572 pp.,1988.
¾ DELLEUR:…
¾ GELHAR L.W. Stochastic Subsurface Hydrology. Prentice Hall, Englewood
Cliffs, New Jersey, 390 pp., 1993.
¾ REMENIERAS G., 1965 & 1976 : Hydrologie de l'ingénieur. Eyrolles
(Collection EDF-DER), 456pp., 1976.
YEVJEVICH:…
OUVRAGES DE GEOSTATISTIQUE
ISAAKS, E. H., R. M. SRIVASTAVA. 1989. An Introduction to Applied
Geostatistics. Oxford: Oxford University Press: 561pp.
GSLIB : Geostatistical Library (….)
JOURNEL, A. G., C. J. HUIJBREGTS. 1978. Mining Geostatistics. New
York: Academic Press: 600pp.
MARSILY, de , G., 1986. Quantitative Hydrogeology (Groundwater
Hydrology for Engineers). Academic Press. New York. 440 pp.
OUVRAGES PROBABILITÉ-STATISTIQUE
BAIN L.J. Statistical Analysis of Reliability and Life-Testing Models
(Theory and Methods). Marcel Dekker Inc. New-York and Basel. 19xx.
BASS J.: Eléments de calcul des proba…
BLANC-LAPIERRE : (Théorie des focntions aléatoires)…
CHEENEY, R.F. 1983. Statistical Methods in Geology. George Allen &
Unwin. London.
¾ CAUTROT B., et al.: Les méthodes de prévision. PUF "Que Sais-Je?".
FELLER W.: An introduction to probability theory and applications.
GASQUET C., P.WITOMSKI, 1990, Analyse de Fourier et Applications
(filtrage, calcul numérique, ondelettes), Masson, Paris, 354 pp.
JENKINS G.M., WATTS D.G., 1968. Spectral analysis ant its applications.
Holden Day. 525 p.
KENDALL M.G., A. STUART A., (1977), "The Advanced Theory of
Statistics", Vol. 1, Distribution Theory, MacMillan, New York, 472 pp.
KENDALL M.G. …(1977), "The Advanced Theory of Statistics", Vol. 2,…
KENKEL, J.L. Introductory Statistics for Management and Economics. 2nd
Edition. Boston, Massachusetts, Duxbury Press. 1984.
LOÈVE M., (1963,1978), Probability Theory, Vol. II; Springer-Verlag, 1978.
MAX J., 1980. Méthodes et techniques de traitement du signal et applications
aux mesures physiques, Masson Paris, 379 p. (2 vols.)…
MONIN A.S., YAGLOM A.M., (1965), Statistical Fluid Mechanics:
Mechanics of Turbulence (Volume 2), Ed. J. L. Lumley, The MIT Press,
Cambridge, Mass. (874 pp). [Contient un exposé détaillé de la théorie des
fonctions aléatoires…].
PAPOULIS A., 1965 : Probability, Random Variables, and Stochastic
Processes. Mc Graw-Hill Book Company, New York. 1965.
¾ PAPOULIS A., et al. (idem - nouvelle édition augmentée)…
PRIESTLEY M.B.1981. Spectral analysis and time series. Acad. Press, 890p.
PRIESTLEY M.B., 1988. Non-linear and non-stationnary time series
analysis. Academic Press, 237 p.
¾ TASSI Ph., 1989 : Méthodes statistiques, Economica.
VANMARCKE, E. 1983. Random Fields: Analysis and Synthesis.
Cambridge, Mass.: Massachusetts Institute of Technology Press: 382pp.
¾ VENTSEL H., 1973 : Théorie des probabilités. Editions Mir, Moscou.
[French translation, from Russian, by A. Sokova, MIR, Moscow, USSR]
YAGLOM, A. M. 1962. Stationary Random Functions. R. A. Silverman,
trans. & ed. New York: Dover: 235pp.
ARTICLES & RECHERCHES
ABABOU R., A.C. BAGTZOGLOU, E.F. WOOD, On the Condition
Number of Covariance Matrices Arising in Kriging, Estimation, and
Simulation of Random Fields. Math. Geol., Vol.26, No.1, pp. 99-133, 1994.
ABABOU R., L.W. GELHAR, Self-Similar Randomness and Spectral
Conditioning : Analysis of Scale Effects in Subsurface Hydrology,
Chapter XIV in Dynamics of Fluids in Hierarchical Porous Media,
J. Cushman editor, Academic Press, New York, pp. 393-428, 1990.
DELHOMME, J. P. 1979. Spatial variability and uncertainty in groundwater
flow parameters: a geostatistical approach. Water Resou.Res. 15(2):269-280.
FREEZE, R.A., A stochastic-conceptual analysis of one-dimensional
groundwater flow in nonuniform homogeneous media, Water Resour. Res.,
11, 725-741, 1975.
GELHAR L. W., (1986), "Stochastic Subsurface Hydrology (from Theory to
Applications)", Water. Res. Res., 22(99), 135-145 pp.
LABAT D., R. ABABOU, A. MANGIN, 1999 : Linear and Nonlinear
Models Accuracy in Karstic Springflow Prediction at Different Time Scales.
SERRA - Stochastic Environmental Research & Risk Assessment,
13(1999):337-364, Springer-Verlag.
LABAT, R. ABABOU, A. MANGIN, 2000: Rainfall-runoff relations for
karstic springs – Part I : Convolution and spectral analyses. Journal of
Hydrology, 238, Issues 3-4, 5 Dec.2000, pp.123-148.
SHINOZUKA M., C. M. JAN, (1972), "Digital Simulation of Random
Processes and its Applications". J. Sound Vib., 25 (1), p. 111.
ENCYCLOPEDIES, GUIDES, HANDBOOKS
¾ CEMAGREF (O.Gilard, P.Givone, G.Oberlin, N.Gendreau et al.) : Guide
pratique de la méthode « inondabilité ». Agence de l’Eau Rhône-
Méditerranée-Corse, 1998.
¾ CHOCAT B., Encyclopédie de l’Hydrologie Urbaine. Coordonnateur
B.Chocat. Ed. Lavoisier, Collection Tec et Doc.
¾ MIQUEL J. : Guide pratique d'estimation des probabilités de crues.
Eyrolles (EDF-DER), 1984, 160 pp.
OMM : Guide de l’OMM (…)
¾ PRESS W.H., B.P. FLANNERY, S.A. TENKOLSKY, W.T.
VETTERLONG, 1986 (& 1990), Numerical Recipes : The Art of Scientific
Computing. Cambridge Univ. Press. [with programs in Fortran, Pascal, or C].
SITES, RESEAUX, DONNEES, BASSINS HYDROLOGIQUES
SMEPAG – Garonne, 1989 : « Monographie des crues de la Garonne -- du
Pont du Roy au Bec d'Ambès ». (Schéma de protection contre les eaux de la
Garonne, Tome 1). SMEPAG-Syndicat Mixte d'Etude et de Programmation
pour l'Aménagement de la Garonne (CACG, CARA, UTM, UB). Fév. 1989.
……
…
ANNEXE
1
PdF(V) Î Stat-iii_pdf.doc Î Proba_PDF-Moments.doc Î VUG
On utilisera ici les quatre premiers moments statistiques, ou certains coefficients obtenus à partir de ces quatre premiers
moments : coefficients de variation, d'asymétrie, et d'aplatissement. On peut par exemple, pour une loi à deux paramètres,
fixer les deux premiers moments, ou la moyenne et le coefficient de variation, pour essayer de prédire/ajuster les moments
d'ordre 3 et 4, ou les coefficients d'asymétrie et d'aplatissement. On présentera sous forme de tableaux les comparaisons
entre les moments empiriques d'ordre 3 et 4 obtenus pour certains jeux de données, et les moments théoriques
correspondants prédits par les modèles (les "modèles" étant les lois théoriques à tester). Le calcul des moments théoriques
(prédits) se fait, si possible, grâce à des formules analytiques closes, de la forme:
(1) µ 3thou
.
4 = f (m
emp.
, σ emp. )
On peut alors calculer une erreur relative, ou écart relatif, défini par :
µnth. − µnemp.
(2) ε=
µnth.
Ce critère permet d'évaluer l'adéquation des modèles théoriques à la loi empirique, ainsi que la marge de confiance associée.
2
PdF(V) Î Stat-iii_pdf.doc Î Proba_PDF-Moments.doc Î VUG
(3) µn=<(x-m)n>,
où <> représente l'opérateur d'espérance mathématique et m la moyenne, qui est aussi le moment non centré d'ordre 1. Nous
nous intéresserons plus particulièrement ici, outre la moyenne, aux moments centrés d'ordre 2, 3 et 4, ainsi qu'à divers
coefficients adimensionnels pouvant être formés à partir de ces moments.
Le moment centré d'ordre 2 (µ2) est représente la variance, encore notée plus couramment σ2 . On a donc :
A partir de la moyenne (m) et de l'écart-type (σ), on peut définir un coefficient de variation noté "CV" ou simplement "C".
Le coefficient de variation est particulièrement utile pour quantifier le degré de variabilité d'une variable aléatoire positive.
Il est défini par la relation :
(5) C = σ/m.
Les moments centrés d'ordre 3 et 4, et. Les moments centrés d'ordre 3 et 4 sont définis par :
(6) µ3=<(x-m)3>.
(7) µ4=<(x-m)4>
3
PdF(V) Î Stat-iii_pdf.doc Î Proba_PDF-Moments.doc Î VUG
A partir de ces deux derniers moments centrés, on définit les coefficients d'asymétrie et d'aplatissement, ou coefficients de
Fisher (Ventsel 1973, Tassi 1989) :
µ3
γ = 3
: coefficient d' asymétrie (Skewness).
σ
(8)
κ = µ 4 − 3 : coefficient d' aplatissement (Kurtosis) .
σ4
Il est facile de montrer que γ = 0 pour une distribution symétrique, puisque les moments d'ordre impairs sont alors nuls. Le
coefficient γ est un bon indicateur de symétrie de la loi considérée. Ce coefficient est positif pour une loi asymétrique telle
que la loi log-normale, la loi exponentielle, etc. Il serait négatif, par exemple, pour une variable aléatoire x < x0 telle que
(x0-x) suit une loi exponentielle ou log-normale.
La définition du coefficient κ fait référence à la forme de la loi normale N(0,1). En effet, on obtient pour la loi normale
(voir par exemple Tassi 1989) :
1 5
Γ( p + ) Γ( )
x2p = 2p 2 ⇒µ =4 2 =3
(9) 4
1 1
Γ( ) Γ( )
2 2
On en déduit que κ = 0 pour une loi normale. Plus généralement, κ est positif pour une densité de probabilité "pointue"
(plus pointue que la loi normale), et négatif pour une densité de probabilité "aplatie" (plus aplatie que la loi normale). La loi
de Laplace, exponentielle symétrique avec un point de rebroussement à l'origine, a un coeff. d'aplatissement positif (κ = +6).
On retiendra que les coefficients γ et κ sont définis de telle manière que la loi de probabilité empirique s'approche d'une loi
normale, du moins en ce qui concerne les moments jusqu'à l'ordre 4, dès lors que |γ| et |κ| sont très inférieurs à l'unité.
4
PdF(V) Î Stat-iii_pdf.doc Î Proba_PDF-Moments.doc Î VUG
La loi normale, ou gaussienne, est une loi à deux paramètres (m,σ). Sa densité de probabilité est donnée par :
( x − m) 2
1 −
f X ( x) = e 2σ 2 pour x ∈ R
(10)
σ 2π
Les coefficients d'asymétrie et d'aplatissement de la loi normale sont nuls, soit :
γ = 0
(11)
κ = 0
b. Loi log-normale :
On considère ici la loi log-normale à deux paramètres (m,σ). Il s'agit d'une loi de probabilité à support positif, dont la
densité de probabilité est donnée par :
( Ln ( x ) − m ) 2
1 −
f X ( x) = e 2σ 2 pour x ∈ R +
(12)
xσ 2π
5
PdF(V) Î Stat-iii_pdf.doc Î Proba_PDF-Moments.doc Î VUG
où m et σ2 représentent la moyenne et la variance du logarithme de x. La loi lognormale est directement liée à la loi
normale. En effet, si la variable y = ln(x) suit une loi normale N(m,σ), alors la variable x = exp(y) suit une loi log-normale
donnée par l'équation ci-dessus.
Désignons plus précisément par mx et my les moyennes de x et y, et par σx2 et σy2 les variances de x et y. On a alors les
relations suivantes, extraites de Ababou et Wood (1990), Tassi (1989), et Vanmarcke (1983).
(13) 〈 x〉 = m x = x g ⋅ e 2
,
my
(14) x g = e 〈 ln( x )〉 = e .
D'où la relation :
σ y2
(my + )
(15) mx = e 2
.
σ y2 (σ y2 −1)
(16) σ x2 = xg2 ⋅e ⋅e
6
PdF(V) Î Stat-iii_pdf.doc Î Proba_PDF-Moments.doc Î VUG
1
σ y2 σ y2
(17) σ x2 = mx2 ⋅ (e − 1) ⇒ Cx = (e − 1) 2
Cette dernière équation donne la variance, et le coefficient de variation, de la variable lognormale x en fonction des deux
premiers moments de la variable normale y = ln(x). On peut montrer que :
(18) γx = 3 Cx + Cx 3
(19) κx = Cx 8 + 6 Cx 6 + 15 Cx 4 + 16 Cx 2
Ces deux dernières équations donnent les coefficients d'asymétrie et d'aplatissement d'une variable lognormale x en fonction
de son coefficient de variation.
Lorsque σy est faible ou au plus de l'ordre de l'unité, on peut en déduire par développement de Taylor que Cx ~ σy. En
d'autres termes, on obtient pour une variable lognormale x la relation approchée:
(20) Cx ~ σln(x) ,
Considérons le cas des variables hydrologiques K positives, strictement ou non (débits Q, précipitations P, mais aussi
paramètres physiques tels que perméabilité, etc). Le dernier résultat ci-dessus montre que σlnK est un bon indicateur
adimensionnel du degré de variabilité du phénomène lorsque K est supposée distribuée suivant une loi lognormale.
7
PdF(V) Î Stat-iii_pdf.doc Î Proba_PDF-Moments.doc Î VUG
c. Loi exponentielle :.
Cette loi est à support positif, et sa densité de probabilité est donnée par.
x
−
1 β
(21) f X ( x) = e pour x ∈ R +
β
(22) CX = 1.
(23) γ = 2.
(24) κ = 6.
Notons que le coefficient de variation d'un variable à loi exponentielle est toujours égal à un, ce qui permet de décider
rapidement si une variable est susceptible ou non de suivre cette loi.
Comme cette loi n’est qu’à un seul paramètre, elle n’est pas très flexible. Elle est cependant liée à une loi très intéressante,
la loi de Poisson, dite « loi des évènements rares » (voir la section consacrée à la loi de Poisson). Elle constitue aussi un cas
particulier de la loi Gamma Incomplète (voir ci-dessous).
8
PdF(V) Î Stat-iii_pdf.doc Î Proba_PDF-Moments.doc Î VUG
On considère ici une loi exponentielle symétrique, centrée autour de l'origine, et à un seul paramètre (β). Sa densité de
probabilité est donnée par :
x
−
1 β
(25) f X ( x) = e pour x ∈ R .
2β
Pour cette loi symétrique et centrée à l'origine, on a évidemment m = 0 et γ = 0. On peut également montrer que
(Abramovitz et Stegun 1965; Tassi 1989) :
(26a) σ = √2 β
(26b) κ = 3.
x λ −1
1 −ρ x 1
(27) f X ( x) = e pour x ∈ R + .
Γ (λ ) ρ ρ
9
PdF(V) Î Stat-iii_pdf.doc Î Proba_PDF-Moments.doc Î VUG
f. Loi de Weibull :
On présente également la loi de Weibull à deux paramètres (α,θ), qui sera utilisée plus loin (cf. test du Khi 2).
La densité de probabilité de la loi de Weibull est donnée par :
α −1 −θxα
(31) f X ( x) = αθ x e pour x ∈ R + .
Pour une telle loi on a (Tassi 1989)
1 2 1
Γ(1 + ) Γ(1 + ) − Γ 2 (1 + )
m= α 2
;σ = α α
(32) 1 2
θα θα
On en déduit la relation suivante entre le paramètre α et le coefficient de variation C:
1
2 2 1 2
Γ (1 + ) − Γ (1 + )
σ α α
(33) C= = = f (α )
m 1
Γ(1 + )
α
Cette relation permet de calculer α connaissant le coefficient de variation (C), en résolvant l'équation f(α)-C = 0
numériquement, par une méthode de dichotomie. On peut ensuite obtenir le paramètre θ à partir de la relation sur m, en
identifiant m à la moyenne empirique connue, soit :
(34) θ =
(
Γ 1 + 1
α .
α
)
m
Cette procédure permet donc finalement de calculer les deux paramètres (α,θ) de la loi de Weibull en fonction des moments
empiriques m et σ. Elle peut être utile lors de l'application du test du Khi 2.
11
PdF(V) Î Stat-iii_pdf.doc Î Proba_PDF-Moments.doc Î VUG
Ces tableaux sont directement utilisables pour une analyse de la loi de probabilité univariée de la variable étudiée. Ils
contiennent les valeurs des moments et coefficients empiriques, ainsi que les valeurs théoriques calculées grâce aux relations
ci-dessus, et enfin les valeurs des indicateurs d'erreurs définis plus haut.
Les indicateurs d’erreur n'étant pas toujours applicables, par exemple lorsque le moment testé s'annulle ( µth = 0 ), on
applique alors un critère qualitatif du type : " µth << 1 ? " Si la réponse à cette question est positive, on inscrit OUI (admis)
dans le tableau; si la réponse est négative, on inscrit NON (refusé).
12
PdF(V) Î Stat-iii_pdf.doc Î Proba_PDF-Moments.doc Î VUG
Pour ceci, nous allons calculer à l'aide des formules théoriques données plus haut les coefficients entrants dans les
expressions des diverses densités de probabilités. Ceci fait, nous effectuerons un test du χ2 afin de déterminer si les densités
de probabilités empiriques peuvent être déduites des modèles avec une faible probabilité d'erreur.
Pour l'application pratique du test du Khi 2, voir Press et al. 1986 ("Numerical Recipes" version Fortran : subroutine
CHSONE). On notera également, comme alternative possible au test du Khi 2, le test de Kolmogorov-Smirnov ou "K-S"
(Press et al. 1986 : subroutine KSONE). C'est exclusivement le test du Khi 2 qui sera utilisé ici.
Les FIGURES(...) permettent d'appréhender les résultats qu’on peut obtenir par simple comparaison graphique des densités
de probabilités empiriques (observées) avec les densités de probabilités théoriques (modèles) :
Dans les pages suivantes, on expliquera plus en détail la procédure suivie, et on présentera à la fin les résultats quantitatifs
des tests statistiques. Ceux-ci conduisent à décider de l'acceptation ou le rejet de telle loi de probabilité pour une marge
d'erreur donnée (par exemple 5%). Les figures(...) ci-dessus en donnent une vue graphique plus parlante, mais qualitative.
13
PdF(V) Î Stat-iii_pdf.doc Î Proba_PDF-Moments.doc Î VUG
Ainsi, la loi normale est une loi à deux paramètres (m,σ), dont la densité de probabilité a été donnée plus haut. Les deux
paramètres à utiliser sont donc tout simplement la moyenne empirique (m), et l'écart-type empirique (σ).
La loi lognormale est une loi à deux paramètres (m,σ), et à support positif, dont la densité de probabilité a été donnée plus
haut. Ici, les paramètres (m,σ) sont la moyenne et l'écart-type de y=ln(x), où x est la variable lognormale en question. Ces
paramètres peuvent être calculés en fonction de la moyenne empirique mx et du coefficient de variation empirique Cx de la
variable lognormale x, par résolution du système suivant [ voir équations (12)-(20) ]:
[ ]
1
2
σ = ln(C x + 1) 2
(35) σ 2
m = ln(m x ) −
2
* Une procédure plus sophistiquée, mais pas nécessairement plus performante, consisterait à ajuster automatiquement les paramètres de la loi modèle de façon à minimiser les
écarts avec la loi empirique, avant d'appliquer le test du Khi 2 proprement dit.
14
PdF(V) Î Stat-iii_pdf.doc Î Proba_PDF-Moments.doc Î VUG
La loi exponentielle est une loi à un seul paramètre (β), et à support positif, dont la densité de probabilité a été donnée plus
haut. Rappelons que le paramètre β est à la fois égal à la moyenne et à l'écart-type. On choisit ici de caler β par rapport à la
moyenne empirique, soit : β = m.
La loi de Laplace, ou exponentielle symétrique centrée à l'origine, est une loi à un paramètre (β). Sa densité de probabilité a
été donnée plus haut. On utilise ici la relation β = σ/√2 [équations (21)-(26)].
La loi Γ-incomplète est une loi à deux paramètres (λ,ρ), et à support positif. La densité de probabilité et les relations entre
paramètres et moments ont été données plus haut [ voir équations (27)-(30) ].
On examinera également la loi de Weibull à deux paramètres (α,θ), non encore utilisée. La densité de probabilité de la loi
de Weibull a été donnée plus haut, et l'on a également décrit une procédure de calcul des paramètres de cette loi en fonction
des moments [ voir équations (31)-(34) ]. Cette procédure nous permet ici de calculer les deux paramètres (α,θ) de la loi de
Weibull en fonction des moments empiriques m et σ, et d'appliquer le test du khi 2.
15
PdF(V) Î Stat-iii_pdf.doc Î Proba_PDF-Moments.doc Î VUG
Le test du χ2 va nous permettre d'évaluer l'importance de l'écart entre les lois modèles (théoriques) et les lois empiriques,
une fois donnés les paramètres des lois modèles. Ce test est pratiqué sur les valeurs (discrètes) de la fonction de répartition
empirique et les valeurs (discrétisées) de la fonction de répartition théorique. Rappelons que les fonctions de répartitions
sont les densités de probabilités intégrées; ou, en version discrète, les fréquences cumulées. La statistique du χ2 (dite aussi
"distance du χ2") est une mesure de la "distance" entre deux fonctions de répartitions discrètes (ou discrétisées) que l'on
souhaite comparer.
où Ni est le nombre d'évènements observés dans le ième intervalle et ni le nombre prévu d'évènements selon la loi modèle.
La fonction de probabilité du χ2, notée :
χ2
(37) Q( ) ,
ν
16
PdF(V) Î Stat-iii_pdf.doc Î Proba_PDF-Moments.doc Î VUG
(29a) γ=2C,
(29b) κ = 6 C2 .
Finalement, en "inversant" les relations précédentes, nous obtenons les paramètres de la loi gamma incomplète en fonction
de ses deux premiers moments :
1
λ =
C2
(30)
ρ = mC 2
10
PdF(V) Î Stat-iii_pdf.doc Î Proba_PDF-Moments.doc Î VUG
est une fonction gamma-incomplète (résultat théorique classique en statistique). Le paramètre ν est le degré de liberté de
la loi du χ2. Pour les cas qui nous intéressent -- soit l'évaluation de lois dont certains paramètres ont étés préalablement
estimés -- le nombre de degrés de liberté de la loi du χ2 est donné par:
(38) ν = Ntot-k-1 ,
si l'on a estimé k paramètres de la loi. Dans notre cas (...), le nombre de paramètres estimés est variable mais très inférieur à
Ntot (k est faible, égal à un, deux, ou trois au plus).
Interprétation. A proprement parler, Q(χ2/ν) représente la probabilité pour que la somme des carrés de ν variables
aléatoires normales de variance unité soit plus grand que χ2 . Or, les termes entrants dans la somme du χ2 [équation (36) ci-
dessus] ne sont pas individuellement normaux. Cependant, si l'on considère à la fois un nombre élevé (>>1) d'intervalles, et
un nombre élevé (>>1) d'évènements observés dans chaque intervalle, alors la fonction de probabilité Q(χ2/ν) est une bonne
approximation de la vraie distribution de χ2.
Utilisation. La fonction Q(χ2/ν) peut donc être utilisée pour estimer si le test est significatif ou non, puisque cette
statistique représente à peu près la probabilité pour que la somme des carrés des écarts entre la loi empirique et la loi modèle
ait la valeur χ2 observée.
Implémentation numérique. Pour l'application pratique, on a utilisé la procédure décrite dans l'ouvrage "Numerical
Recipes" de PRESS et al. (1986), et en particulier la subroutine Fortran CHSONE.
R.ABABOU
Circa 1994
Partiellement retapé en 2004 (eqs.)
17