Hyd-Stat Ababou Jan07v1pub

HYDROLOGIE
STATISTIQUE
Eléments d’Hydrologie Statistique par R.Ababou,
d’après le cours professé à l’INP-ENSEEIHT (Toulouse),
Département de Formation « Hydraulique & Mécanique des Fluides ».
R. ABABOU
Document « PDF » en couleur disponible sur site web.
Décembre 2006 / Janvier 2007 (version v1)

HYDROLOGIE STATISTIQUE
R. Ababou
Sommaire
CH.0. INTRODUCTION, BIBLIO, DONNEES HYDROLOGIQUES

CH.1. ANALYSE STATISTIQUE UNIVARIEE EN HYDROLOGIE
Ch.1-A. Analyse univariée Î Moments et lois de probabilité
Ch.1-B. Analyse univariée (suite) Î Crues annuelles et
valeurs extrêmes ; crues rares et loi de Poisson.
TD 1. CRUES GARONNE (LOI DE GUMBEL & LOI DE POISSON)
CH.2. ANALYSE STATISTIQUE MULTIVARIEE EN HYDROLOGIE
TD 2. COVARIANCES, REGRESSION, ACP (6 stations pyrénées)
CH.3. ANALYSE STATISTIQUE DE PROCESSUS HYDROLOGIQUES
Ch.3-A. Chroniques hydrologiques & Processus aléatoires (Bases)
Ch.3-B. Analyse croisée de chroniques hydrologiques (pluie-débit)
TD3 IDENTIFICATION STATISTIQUE D’UNE FONCTION DE TRANSFERT
PLUIE P(t) ⇒ DEBIT Q(t) : HYDROGRAMME UNITAIRE
(avec ≠ jeux de données : pluies-débits bassins karstiques, etc…)
REFERENCES
ANNEXES
i
HYDROLOGIE STATISTIQUE
R. Ababou
Table des Matières

♦ Plan du Cours et des Travaux Dirigés

CH.0. INTRODUCTION, BIBLIO, DONNEES HYDROLOGIQUES
0.0. Bibliographie (voir liste des références)
0.1. Données hydrologiques (bases de données, illustrations)
0.2. Objectifs, méthodes et « modèles » en hydrologie statistique
0.3. Objectifs Î types d’applications de l’hydrologie statistique
CH.1. ANALYSE STATISTIQUE UNIVARIEE EN HYDROLOGIE
Ch.1-A. Analyse univariée Î Moments et lois de probabilité
1A.0. Bases élémentaires de probabilité(s) et statistique(s)
Probabilité « axiomatique », theorème de Bayes, exemples
Génération de variables (pseudo)-aléatoires
Densité de Proba & Fonction de Répartition (v.a. continues)
Estimateurs statistiques (DdP, FdR, Moments)
1A.1. Lois de proba classiques, moments, et ajustements
Cf. ANNEXE « Lois de proba univariées : relations moments-paramètres ».
1A.2. Exemples d’ajustements de lois de proba (pluies, débits)
1A.3. Types de lois de proba (pluies, débits) selon le pas de temps ∆t
1A.♦ ANNEXES…
Histogrammes de fréquences liés à la morphologie des bassins
Algorithmes de calcul d’une Fonction de Répartition empirique
Intervalle de confiance et bande de confiance (« erreurs » gaussiennes)
ii
Ch.1-B. Analyse univariée (suite) Î Crues annuelles et
valeurs extrêmes ; crues rares et loi de Poisson.
1-B.♦Notion de « crue »
1-B.♦Crues annuelles et loi(s) des valeurs extrêmes
1-B.♦Evènements rares et loi de Poisson
Définition axiomatique de la loi de Poisson
Application de la loi de Poisson à l’estimation de crues « rares »
Note sur la fiabilité de l’estimation d’une crue « décennale »
1-B.♦ANNEXE : « Crues, temps de retour, évènements rares et loi de Poisson ».
TD 1. CRUES GARONNE (LOI DE GUMBEL & LOI DE POISSON)
CH.2. ANALYSE STATISTIQUE MULTIVARIEE EN HYDROLOGIE
2.0. Introduction, objectifs, méthodes
2.1. Loi de proba multivariée d’un vecteur de v.a.’s (X1, X2,…)
Fonction de Répartition & Densité de Proba multivariées (jointes)
Loi de Gauss multivariée : cas d’un vecteur aléatoire gaussien de taille N
2.1. Cas de 2 v.a.’s : covariance, corrélation, et régression linéaire
2.2. Utilisation de la régression linéaire pour la critique de données
EXERCICE/EXEMPLE : « Reconstitution de données par régression linéaire :
pluies mensuelles en deux stations alpines ».
Test d’homogénénéité par la méthode des résidus cumulés (ellipse de
confiance) : exemple de trois stations pluviométriques au Sri Lanka.
2.3. Généralisations Î analyses statistiques multi-stations :
analyse corrélatoire multivariée, régression multiple, et A.C.P.
Matrice de covariance à K+1 variables (K explicatives, 1 expliquée)
Exercice sur une matrice de covariance 3x3 (exemple de piège à éviter)
Régression linéaire multiple à K+1 variables (K explicatives, 1 expliquée)
Analyse en Composantes Principales (A.C.P) : Î cf. TD2…
TD 2. COVARIANCES, REGRESSION, ACP (6 stations pyrénées)
CH.3. ANALYSE STATISTIQUE DE PROCESSUS HYDROLOGIQUES
Ch.3-A. Chroniques hydrologiques & Processus aléatoires (Bases)
3-A.♦ Structure temporelle des chroniques hydrologiques (exemples)
3-A.♦ Les processus aléatoires auto-corrélés (t-continu ; t-discret)
Introduction aux fonctions aléatoires X(t)
Processus aléatoire X(t), stationnarité, ergodicité
Fonctions d’auto-corrélation de processus stationaires
iii
Interprétations de fonctions d’auto-corrélations
(exemples : chroniques de débits journaliers et bi-mensuels au Sri Lanka)
3-A.♦ Modélisation et reconstruction de chroniques hydrologiques :
étude du modèle AR1 (Auto-Régressif du 1er ordre).
Les équations du modèle AR1 pour un processus X(t(n))
Relation d’équivalence entre X(t)-Langevin et X(t(n))-AR1
Extension : le modèle « AR1 saisonnier » de Thomas-Fiering
Identification statistique des paramètres du processus AR1 (stationnaire)
Exercice de cours : pour une séquence d’observations X(t(n))…en déduire un
critère et une méthode d’ajustement des paramètres du modèle AR1.
Ch.3-B. Analyse croisée de chroniques hydrologiques (pluie-débit)
.♦ Théorie des modèles de convolution pluie-débit (P(t)⇒Q(t)) :
cf.TABLEAU SYNOPTIQUE
Déterministe vs. Statistique
Causal vs. Non-causal
Temps continu Î Temps discret
TD3 IDENTIFICATION STATISTIQUE D’UNE FONCTION DE TRANSFERT
PLUIE P(t) ⇒ DEBIT Q(t) : HYDROGRAMME UNITAIRE
(avec ≠ jeux de données : pluies-débits bassins karstiques, etc…)
REFERENCES
ANNEXES
♦ Lois de probabilité univariées :
relations moments-paramètres et méthodes d’ajustement.
NB : d’autres annexes sont insérées directement dans chaque chapître
iv
Cours « Hyd.Stat. » 3Hy 2005-06
Identifiant = HY3ASE303
Titre : Hydrologie Statistique
Sous-titre :
Traitements de données hydrologiques :
analyses univariées, temps de retour, évènements extrêmes,
évènements rares, analyses corrélatoires multivariées et
ACP, chroniques hydrologiques et processus aléatoires,
données spatialisées et géostatistique.
R. Ababou : ababou@imft.fr
Enseignants 2005-06 : R.Ababou, A. Al-Bitar. 1

Documents en ligne:
Î http://rachid.ababou.free.fr/
Î ( \\CRI\spi_com\be\hy\... )
Documents polycopiés imprimés:

Î Pour les bases statistiques, voir le polycopié intitulé :
« Cours d’Hydrologie 1 : Statistique » (R.Gaudu).

Cours Hydro.Stat. 3Hy : Plan / Syllabus
PLAN / SYLLABUS « HYDRO. STAT. »
ID : HY3ASE303 DATE DE MISE À JOUR : 27/06/2005
TITRE : HYDROLOGIE STATISTIQUE (STOCHASTIC HYDROLOGY)
COURS : 12 H TD : 8 H TP : H TRAVAIL PERSONNEL : H
OBJECTIFS
Approfondir le cours d'hydrologie générale à l'aide d'une approche
statistique et probabiliste des processus pluies-débits, avec des
méthodes de traitement de données spatio-temporelles adaptées aux
problèmes de l'hydrologie.

PROGRAMME (COURS & TD)
¾ Introduction, données, et modélisation statistique en hydrologie;
1. A. Analyse statistique univariée, moments et lois de probabilité ;
B. Evènements rares, loi de Poisson, estimation de crue de projet.
2. Analyse statistique multivariée : régression linéaire, régression
multiple généralisée, corrélation multiple, et analyse en
composantes principales (ACP). Applications à la critique,
reconstitution, et/ou cartographie de données hydrologiques.
3. Analyses statistiques de séries chronologiques provenant de
réseaux de mesures hydro-météorologiques et hydro-géologiques.
Analyse et reconstruction de chroniques pluies-débits ;
hydrogramme unitaire statistique. [Estimation géostatistique (x,y)].
NB : Une étude de cas sera traitée dans le cadre d’un « projet » (selon les années), soit sur
une problème d’estimation géostatistique (variables régionalisées), soit sur la
modélisation ou la reconstruction de chroniques hydrologiques (processus aléatoires).
4
Enseignants 2005-06 : R.Ababou, A. Al-Bitar.
PLANNING DES TRAVAUX DIRIGÉS (À TITRE INDICATIF)
Date No. TD Chapître Intitulé & contenu du TD
TD 1/4 I.A & I.B Crues annuelles, crues rares, temps de retour
(Garonne ; Oued Mdez).
TD 2/4 II. Reconstitution et critique de données
pluviométriques par corrélation et
régression entre stations ; et/ou :
Corrélations multiples & Analyse en
Composantes Principales pour l’étude des
redondances entre stations hydrologiques.
TD 3/4 III. Identification statistique de la fonction de
transfert pluie-débit en temps discret, durée
finie (formulation algébrique et application
de la théorie développée en cours).
TD 4/4 III. Mini Bureau d’Etude. Utilisation de
programmes Matlab en salle informatique
pour la déconvolution numérique pluie-débit
(Hydrogramme Unitaire statistique).
5
RAPPEL : Une étude de cas sera traitée en « projet » (selon les années), soit sur une problème d’estimation géostatistique
(variables régionalisées), soit sur la reconstruction de chroniques hydrologiques (processus aléatoires).
Cours Hydro.Stat. 3Hy: Plan / Syllabus

BIBLIOGRAPHIE :
¾ Bras R. et I.Rodriguez-Iturbe:
«Random Functions in Hydrology», Dover, NY.
¾ Chow, Maidment, et al : « Applied Hydrology », 1988.
SUPPORTS DE COURS :
Polycopiés et documents en ligne :
(\\CRI\spi_com\be\hy\...) ; http://rachid.ababou.free.fr/
Polycopié imprimé :
Pour les bases statistiques, cf. le polycopié intitulé :
Autres documents :
Diapositives de cours distribués chaque année.
Documents de TD et Projet distribués chaque année. 6
Cours Hydro.Stat. 3Hy: Plan / Syllabus
DÉTAILS ORGANISATIONNELS :
Evaluation 1 : Ecrit : BE : Oral :
Evaluation 2 : Ecrit : 2 h ou BE : week-end Oral :
Enseignants :
R. Ababou Cours : 12 h TD : TP : h
A. Al-Bitar Cours : TD : 8 h TP : h
Semestre : 3 Hy Semestre E
Chronologie: 1ère séance 22 Nov.2005 / dernière séance 24 Jan.2006
7
CHAP. 0
(INTRO)
Sous-titre :
R.Ababou et al., INP/ENSEEIHT: 1

Hydrologie Statistique 2005-06

Documents en ligne:

R.Ababou et al., INP/ENSEEIHT:Web local R.A. free 2

Cours Hydro.Stat. 3Hy : Séance 1
1. A. Analyse statistique univariée, moments et lois de probabilité ;
Cours Hydro.Stat. 3Hy : Séance 1 (Ch.0)

0. INTRODUCTION
Contenu: bibliographie, données hydrologiques, modélisation statistique, exemples…
0.0. BIBLIOGRAPHIE (EN CONSTRUCTION)
R.Ababou 2004: Hydrologie Statistique - Cours et exercices (éléments) :
documents électroniques sur le site web : http://rachid.ababou.free.fr
Gaudu R.: Cours d'Hydrologie 1 : Hydrologie Statistique (Polycopié, circa 1990).
Chow V.T., Maidment, Mays : Applied Hydrology, 1988.
Bras R., I.Rodriguez-Iturbe : Random Functions in Hydrology, Dover, New York.
Miquel J. : Guide pratique d'estimation des probabilités de crues.
Eyrolles (EDF-DER), 1984, 160 pp.
Réméniéras G., 1965 : Hydrologie de l'ingénieur. Eyrolles (EDF-DER).
Duband D., 1972: Hydrologie statistique approfondie.
Cours polycopié (EDF-DER & ENS d'Hydraulique de Grenoble).
Yevjevich:…
Delleur:…
Guides de l’OMM…
♦ B.Cautrot et al.: Les méthodes de prévision. PUF "Que Sais-Je?".
¾ H.Ventsel : Théorie des probabilités. Editions Mir, Moscou.
¾ Ph.Tassi : (Proba-stat)…
¾ J.Bass: Eléments de calcul des proba…
¾ Blanc-Lapierre : (Théorie des focntions aléatoires)
¾ W.Feller: An introduction to probability theory and applications.
¾ M.Kendall: Advanced theory of statistics (2 vols.)
0.0. BIBLIOGRAPHIE (EN CONSTRUCTION)
Contenu: Etude bibliographique : les données hydrologiques,
la modélisation statistique, les études et applications. Voir
liste de références (préliminaire) à la fin de ce document…
0. INTRODUCTION
Contenu: bibliographie, données hydrologiques + exemples, modélisation statistique…
0.1. DONNÉES HYDROLOGIQUES
Sources de données (« BD »=Banque de Données)
¾ RNDE : Réseau National des Données sur l’Eau : http://www.rnde.tm.fr/
¾ BD HYDRO : Banque HYDRO, SCHAPI, Avenue Gaspar Coriolis, 31057 TOULOUSE. Tél.:
+33 (0)5.34.63.85.57. Email: hydro@environnement.gouv.fr Web : http://hydro.rnde.tm.fr
¾ Etc…
Types de données
¾ Chroniques hydrologiques… horaires, journalières, mensuelles, annuelles.
Exemples : précipitations P(t) mm/h avec ∆t = 1 h; débit Q(t) m3/s avec ∆t =1 j.
¾ Régimes hydrologiques : débits de la 1ère décade du mois de Juin des années 1981-2005.
¾ Données spatialement distribuées : pluies en 23 stations pluviométriques…
Exemples de données et de réseaux de mesures
¾ Voir figures suivantes Î
R.Ababou et al., INP/ENSEEIHT:

Bulletin Hydro… Détails: BD Hydro 5

Exemples de données (et réseaux de mesures)
Voir figures suivantes Î Î Î Î Î Î Î Î Î Î Î Î Î Î Î Î Î Î
¾ Réseau de mesure pluviométriques dans le bassin versant d’Eel River…
¾ Dérive des précipitations annuelles sur 80 ans (Tabucaya, D.F., Mexique)
¾ Reconstitution de précipitations sur plus de 2000 ans (Mexique) : « dendro-hydrologie ».
¾ Observations sur les crues historiques toulousaines sur 700 ans…
¾ Débits de crues annuelles du Rhône…
¾ Débits de crues annuelles de l’Oued Mdez (Moyen Atlas)…
¾ Module annuel de la Loire à Blois
¾ Régime de débits mensuels - cartographie par régions (U.S.A)
¾ Régime des pluies et débits par quinzaine – traitement statistique (Gin Ganga, Sri Lanka)
¾ Chroniques pluies-débits semi-horaires et journalières (sources karstiques)
¾ Etc…

Bulletin Hydro… Détails: BD Hydro 6
Figures: exemples de données & réseaux de mesures



Facteur de fluctuations climatiques a

l’échelleR.Ababou
pluri-annuelle: El Nino South
et al., INP/ENSEEIHT: 9
Pacific Oscillation…

Précipitations extrêmes dans le monde (P

R.Ababou et en
al.,mm) en fonction de la durée D (h ou mn):
INP/ENSEEIHT: 10
P(mm) ≈ 388.6*D0.486(h) . NB: Hydrologie Statistique
sur le graphique 2005-06
log-log, P est en mm et D en mn.



Source: C Thirriot d’après R Lambert et al (cf Atlas Hydraulique Garonne)

Source karstique d’Aliou (Pyrénées):
Hydrologie pluie 2005-06
Statistique et débit semi-horaires (∆t=0.5h).


Pluie P(t) et débits Q(t) journaliers
Hydrologie pour2005-06
Statistique 3 source karstiques (Pyrénées).
Régime des débits spécifiques bimensuels

R.Ababou (∆t=15j) à la station d’Agaliya (Sri Lanka): analyse 15
et al., INP/ENSEEIHT:
Hydrologie
statistique des données interannuelles Statistique
par quantiles, 2005-06
et courbe du débit moyen interannuel.

Comparaison de 2 années de chroniques deet

R.Ababou pluie (histogramme bleu) et de débit spécifique
al., INP/ENSEEIHT: 16
(courbe rouge) agrégées sur ∆t=15j
Hydrologie Statistique
(bimensuelles) 2005-06 / Q-Jesmin (Sri Lanka).
: P-Talawama
Comparaison de 2 années de chroniques de et

R.Ababou pluie
al., (histogramme
INP/ENSEEIHT:bleu) et de débit spécifique 17
(courbe rouge) agrégées sur ∆t=15j
(bimensuelles) 2005-06
: P-Anningkanda / Q-Jesmin (Sri Lanka).

Stations pluviométriques en bleu;R.Ababou et jaugeage

stations de al., INP/ENSEEIHT:
de débits en rouge. Bassin versant 18
de la Gin Ganga (Sri Lanka). Etude D.E.A. de Karine DESNOS 2001 (IMFT/R.Ababou).


The PDSI is obtained

from precipitation, air
The animation [shown to the left]
temperature, and local
demonstrates the distribution of drought
soil moisture, along with
from instrumental data for the…
prior values of these
-1933-1940 Dust Bowl Drought (top),
measures.
-1951-1956 Drought (bottom).
Both droughts affected much of the U.S.
PDSI values range from
Southwest & Southern Great Plains.
-6.0 (extreme drought) to
+6.0 (extreme wet
Red indicates areas of extreme drought,
conditions), and have
while blue indicates very wet conditions.
been standardized to
facilitate comparisons
Notice how extensive an area is under
from region to region
severe drought as the 1930’s decade
(USA).
progresses. Texas is a key area for the
1950’s drought.
This drought index has
been used to evaluate
drought impact on Cartographie animéee du PDSI Source: USGS (légendes
agriculture. (Palmer Drough Severity Index) modifiées -- R.A.)
0. INTRODUCTION
Bibliographie, données hydrologiques (exemples),
modélisation statistique en hydrologie (exemples)…
0.2. OBJECTIFS, MÉTHODES & MODÈLES STATISTIQUES EN HYDROLOGIE
Etape 0: Choix d'une approche de type statistique
Supposons que nous ayons à traiter un problème hydrologique tel que :
¾ prédire le régime des débits en différents points d'un bassin,
pour l'implantation de microcentrales hydro-électriques,
¾ prédire les crues extrêmes sur le futur site de construction d'un barrage (par exemple en Asie).
Après examen du problème posé, des données et des moyens disponibles, l'hydrologue peut avoir à
reconnaître l'utilité (ou même la nécessité) d'une description probabiliste / statistique des
phénomènes. La raison en est l’extrême complexité des situations et mécanismes physiques :
¾ processus hydro-météorologiques et hydrodynamiques spatio-temporels (précipitations, débits
de ruissellements,…);
¾ les milieux géophysiques hétérogènes (propriétés de surface des bassins hydrologiques:
perméabilité, topographie, végétation, sols,…).
Par exemple, il peut sembler très difficile de proposer une modélisation purement hydrodynamique
pour estimer les chroniques de débits en un point d'un cours d'eau non jaugé (…). Une "modélisation
statistique" est alors proposée, en adaptant celle-ci étroitement aux données et moyens disponibles.


0. INTRODUCTION
Exemples:
Le terme "modélisation" s'applique aussi bien à l'approche statistique que mécaniste. Dans les deux
cas, la modélisation est utilisée pour la prédiction, l'interpolation, ou l'extrapolation, par exemple
lorsqu'il s'agit de connaître les débits non observés (scénarios climatiques; crues de projet; etc).
Voici 2 exemples spécifiques justifiant le terme "modélisation" dans l'approche statistique.
¾ Ex.1 : Interpolation d'un modèle statistique : régression linéaire simple (donc corrélation)
permettant d'estimer ou reconstituer une donnée (débit de Mai 1976 à la station S6), une série de
données (débits mensuels de 1976 à la station S6), ou même une variable ("débit mensuel de Mai
à la station S6"), non directement observée.
¾ Ex.2 : Extrapolation d'un modèle statistique : estimation du débit d'une crue extrême non observée
(e.g. crue déca-millénale) par extrapolation de sa loi de probabilité, estimée par ajustement des
données crues annuelles.

0. INTRODUCTION
Etape 1: Mise en forme et critique des données
¾ Choix des variables hydrologiques pertinentes.
¾ Formattage, numérisation (analogique → digitale) et condensation de l'information.
¾ Choix d'un pas de temps ou, plus généralement, tests de résolution spatio-temporelle.
¾ Transformations préalables des données (log, puissance) : e.g., log-débits Y=ln(Q).
¾ Relations déterministes ou mécanistes entre variables : courbe de tarage Q=T(H).
¾ Visualisations graphiques préliminaires : chroniques X(t), nuages de poinst (X,Y), etc.
¾ Analyses statistiques préliminaires : moyennes, écarts-types, coefficients de variation.
¾ Reconstitution statistique de données manquantes : par régression linéaire.*
¾ Critique de données aberrantes : élimination des "horsins" (anglais : outliers).*
*Remarque : En fait, les étapes « reconstitution de données manquantes » et « critique de données aberrantes »
peuvent être considérées comme analyses statistiques à part entière, faisant partie intégrante du modèle statistique.


0. INTRODUCTION
Etape 2: Analyse statistique des données / modélisation des variables
Cette étape consiste en l'application d'une analyse statistique aux données disponibles, ou même,
l'application d'un modèle probabiliste vis-à-vis des variables inconnues ou incertaines (les variables à
"expliquer", à modéliser).
Le modèle probabiliste formalise l'information contenue dans les données (cf. Duband 1982), mais
aussi, le modèle probabiliste propose une estimation prédictive de variables/données non directement
observées (c'est le point de vue adopté ici).
Exemples:
¾ Ajustement d'une fonction de répartition au données de pluies annuelles à Agadir: application pour
prédire les "sécheresses" de temps de retour décennal et centennal.
¾ Régression linéaire entre deux variables hydrologiques: la variable à expliquer est Y=Q2, le débit
mensuel de Mars à la station S2; la variable explicative est X=Q1, le débit mensuel de Mars à la station
S1 dans le même (petit) bassin versant. La modélisation porte sur l'estimation de Y connaissant X. Ce
peut être un problème de reconstitution de données manquantes en S2.
¾ Plus généralement, la corrélation multiple et l'ACP (Analyse en Composantes Principales) est utilisée
pour analyser les relations entre variables hydrologiques observées en plusieurs stations de mesures.

0. INTRODUCTION
Etape 3: Exploitation du modèle statistique (modélisation, estimation, interprétation)

Après des tests de validation éventuels du modèle statistique, la dernière étape consiste en l'exploitation du
modèle (avec au préalable des tâches de post-traitement), en vue de répondre aux objectifs (questions posées
par les "décideurs").
Exemples (questions posées):
¾ quelles stations de mesures sont redondantes?
¾ quel est le débit de la crue de projet déca-millénale?
¾ générer une chronique de débits journaliers ou horaires, et sa bande de confiance,
sur le site S d'une rivière non jaugée;
¾ proposer une cartographie optimale de la pluviométrie sur le bassin versant B;
¾ etc…


0.3. EXEMPLES D’APPLICATIONS DE L’HYDROLOGIE STATISTIQUE,
Rationalisation, optimisation, redondances d'un réseau de stations de mesures
Reconstitution totale ou partielle d'une série de données manquantes
Prédiction statistique de débits d'étiage (en liaison avec le Débit Objectif d’Etiage)
Prédiction statistique de débits de crues extrêmes (déca-millénal)
Par exemple, estimer le débit de la crue de projet déca-millénale (Q10 000). Celle-ci peut être définie
comme le débit journalier (moyenne ou pointe journalière) de la crue annuelle (maximum des 365
débits journaliers sur l'année calendaire) de temps de retour dix mille ans. Par définition, la
probabilité de retour d'une crue annuelle plus forte que Q10 000 est seulement de 1/10 000ème; la
probabilité de dépassement de la crue déca-millénale est donc de 10-4 seulement. Application à la
protection d'ouvrages d'art tels que ponts, digues de protection, barrages (évacuateurs de crues).
Gestion de retenues à usages multiples
Gestion de réservoirs en tenant compte des inputs ("offre"), des outputs ("demande") des
contraintes (e.g. Débit Objectif d'Etiage), et de fonctions objectifs, tenant compte de tarifications
en vigueur (eau irrigation, eau potable, électricité). Les inputs de la retenue peuvent être modélisés
par une approche stochastique / processus aléatoires (e.g. processus ARMA : cf. Box & Jenkins).
Prévision hydrométéo et alerte de crues en temps réel
Protection de l'environnement, études d'impact, études de risques
Inondations (altitudes, pentes). Pollution distribuée agricole : « non point source »
Erosion (géomorpho, pentes). Pollution accidentelle, industrielle : « point source ».

_ETUDE_PQ_BV-GinGanga-Sri_7pp.pdf
0.4. EXEMPLES DE MODÈLES STATISTIQUES EN HYDROLOGIE
¾ Types de modèles statistiques (ou probabilistes, stochastiques, géostatistiques…)
Tout d'abord, voir la remarque ci-dessous sur la terminologie(*).
Ici, on a choisi de regrouper les différents types de modèles en trois grands groupes, qui
correspondent grosso modo au plan d'ensemble de ce cours:
i. Les modèles statistiques univariés (une seule variable hydrologique)
ii. Les modèles statistiques multivariés (plusieurs variables multi-corrélées)
iii. Les modèles statistiques spatio-temporels (processus hydrologiques, etc)
Voici, dans chaque cas, un exemple d'utilisation possible du modèle statistique:
♦ Modèle univarié: Ajustement et extrapolation d'une loi de probabilité
♦ Modèle multivarié: Corrélations multiples et ACP; régression multiple
♦ Modèle (spatio)temporel: Identification statistique d'un HU(t) pluie→débit.
(*) Terminologie. « Statistique" se réfère au traitement statistique de données (construction d'une fonction de
répartition empirique, estimation de moments sur échantillons de taille finie, etc). "Probabiliste" se réfère à la
modélisation d'une variable hydrologique vue comme une variable aléatoire (loi de probabilité). "Stochastique"
se réfère plutôt à la modélisation probabiliste de processus temporels (chroniques hydrologiques).
"Géostatistique" se référère à la modélisation de variables hydrologiques spatialement distribuées: théorie de
Matheron (variables régionalisées); théorie Bayesienne de l'estimation (fonctions aléatoires).
¾ Autre exemple : un modèle d’intensité de pluies P(t) mi-statistique, mi-mécaniste :

Le modèle d’impulsions rectangulaires de Neyman-Scott génère un processus d’intensité de
précipitations P(t) (mm/h) qui peut être ajusté de façon à satisfaire certaines propriétés observées
(intensités, intermittences, durées des averses…).
Modele P(t) Neyman-Scott Hydrologie Statistique 2005-06

0. INTRODUCTION
Données hydrologiques, modélisation statistique en hydrologie, exemples…
0.3. EXEMPLES D’ETUDES D’HYDOLOGIE STATISTIQUE
¾ Régimes hydrologiques.
Exemple : régime intra-annuel des pluies et des débits dans un bassin du Sri Lanka…
¾ Problème de la « régionalisation » des débits.
Exemple : extrapolation spatiale des débits à partir de données pluies & débits au Sri Lanka.
¾ Identification de la fonction de transfert pluie-débit (hydrogramme unitaire statistique)
Exemple : identification de la fonction de transfert pluie-débit par déconvolution pour des
sources karstiques. Application à la reconstitution des débits, analyse des structures
temporelles des débits et fonctionnement hydraulique des massifs karstiques.
Fonction de Regimes
transfert pluie-débit hydrologiques et
pour de sources régionalisation des
karstiques (Midi- débits (Sri Lanka)
Pyrénées).

FIN DU CHAP.0 « INTRODUCTION »

CHAP.1-A
Cours Hydro.Stat. 3Hy : Séance 2+3
Sous-titre :

Enseignants 2005-06 : R.Ababou,
Hydrologie Statistique 2005-06 A. Al-Bitar.

Documents en ligne:
http://rachid.ababou.free.fr/
Web local R.A. free
( \\CRI\spi_com\be\hy\... )

Pour les bases statistiques, voir le polycopié intitulé :

Introduction, données, et modélisation statistique en hydrologie;
1. A. Analyse statistique univariée, moments, lois de probabilité

1. ANALYSE STATISTIQUE UNIVARIEE
0. BASES ELEMENTAIRES DE PROBABILITÉS ET STATISTIQUES
Variables aléatoires, lois de probabilité, moments… (rappels)
Voir introduction et exercices de bases du cours « Probabilité et Statistique » (R.Ababou)
sur le site web http://rachid.ababou.free.fr
Voir le polycopié « Hydrologie : Tome 1 :…Statistique » (R.Gaudu) :
o pp.1-3 : (I.I à I.IV) Fonctions de Répartition
o pp.7-9 : (II.III) Moments
o p.12 : (II.VII) Coeff. de corrélation (voir aussi VI)
o pp.13-31 : (III.II) Lois de probabilité Normale, etc (cf. Tableau p.31)
Estimations et ajustements (moments et loi de probabilité)
Voir la « méthode des moments » dans le cours « Probabilité et Statistique » (R.Ababou)
sur le site web http://rachid.ababou.free.fr
Voir le polycopié « Hydrologie : Tome 1 :…Statistique » (R.Gaudu) :
o pp.33-36 : (IV.I à IV.III) Estimateurs statistiques des moments
o pp.41-45 : (IV.VIII et V.I-V.II) Estimation d’une fonction de répartition
(Méthode des moments) (Formule de Hazen)

HYD STAT 2005-06 : PLAN DES SEANCE 2+3 (à titre indicatif)
1-A. ANALYSE STATISTIQUE UNIVARIEE (A)
1.0. Bases élémentaires de « Proba-Stat »... :
Probabilité, V.A.'s, F. d. Répartition, Moments, Estimateurs
1.1. Lois de proba classiques & ajustements (moments; Khi2)
Loi(s) des valeurs extrêmes de type « crues » (Gumbel...)
1.2. Exemple d'analyse, ajustement &utilisation de lois de proba:
débits de crues annuelles (Oued Mdez)
1.x. Les lois des pluies et débits à différentes échelles de temps;
1-B. ANALYSE STATISTIQUE UNIVARIEE (B) :

EVENEMENTS RARES & LOI DE POISSON
1.3. Loi(s) des valeurs extrêmes de type « crues » (Gumbel...)
1.4.a Evènements rares : dépassements de seuils; crues de projet
1.4.b Evènements rares : loi de Poisson (définition; propriétés)
1.5. Exemples d'applications : estimation d'une crue de projet
(le temps de retour; les probabilités d'occurence...) => cf.TD1


HYD STAT 2005-06 : PLAN DE LA SEANCE 2+ (détails)
Plan Détaillé de la Section 1.0: Bases « Proba-Stat. »...

1.0. BASES ÉLÉMENTAIRES DE « PROBA-STAT »... :
PROBABILITÉ, V.A.'S, F. D. RÉPARTITION, MOMENTS, ESTIMATEURS
• Notions de probabilités, fréquences, incertitudes, th. de Bayes
(axiomatique des probabilités; interprétation; exemples...)

• Générateurs de Nombres Aléatoires & Variables Aléatoires...
• Définition d'une loi de proba pour une V.A continue: FdR/DdP
• Estimation d'une Densité de Proba (histogramme fréquences)
• Estimation d'une Fonction de Répartition :
1) par histogramme 2) par points (Hazen)

• Estimateurs statistiques de moments (*)
moyenne; variance; covariance; coefficient de corrélation...

(*) NB: On trouvera des aspects de la théorie de l'estimation (Bayesienne) dans les Chap.2 "Analyse
Multivariée" et Chap.3 « Processus Hydrologiques ». Voir par ex. les modèles de régression linéaire simple
et multiple, dont diverses généralisations pourront être utilisées en TD : estimation Bayesienne d'un vecteur
d'état représentant un processus aléatoire; estimation géo-statistique d'une variable spatialisée 2D...

Introduction proba-stat. et axiomatique des probabilités :
probabilités «ensemblistes», interprétation fréquentiste, incertitudes, Bayes…
Exemple 1
Un ensemble discret infini (dénombrable) d’évènements dans un jeu de pile ou face non truqué,
de durée infinie :
Ω = {Réalisation d’une séquence de n «piles» successifs, n∈IN}

Exemple 2
Hydrométéorologie – un « ensemble continu » d’évènements à valeurs sur IR+ ; voici un exemple
d’évènement :
Ω = {« La lame d’eau précipitée à Toulouse le 21 Mars (∀ année) à Toulouse est P (mm) »}
…étant entendu que P ∈ IR+…


Introduction proba-stat….
Soit maintenant A une « tribu » de parties de Ω : A ⊂ ℘(Ω ) .
Définition Une tribu est un ensemble de parties de Ω stable par les opérations de passage au
complémentaire, de réunion, et d’intersection dénombrable. Une tribu A peut être en particulier
(mais pas nécessairement) constituée de l’ensemble de toutes les parties de Ω, soit A = ℘(Ω ) .
Exemple Dans l’exemple de pile ou face simple, on obtient la tribu engendrée par Ω :
A = {∅, pile, face, pile ou face}.
La tribu A engendrée par Ω={pile, face} est constituée de 4 évènements. Le premier
est « vide », et le dernier, (pile ou face), est un évènement composite constitué de
l’union de deux évènements élémentaires, ce qui équivaut ici à l’ensemble Ω tout
entier.
Enfin, une loi de probabilité est définie par une mesure de probabilité, qui est une mesure
positive P sur l’espace probabilisable (Ω, A), telle que la mesure de l’ensemble Ω tout entier est
l’unité. Celà se traduit formellement par les propriétés suivantes (mesure de probabilité) :
P(Ω)=1,
P(ωA∪ωB)=P(ωA)+P(ωB),
pour tout couple d’évènements (ωA,ωB) mutuellement exclusifs ou incompatibles, c’est-à-dire
encore disjoints, tels que ωA ∩ ωB = ∅. Comme tous les évènements élémentaires sont par
définition disjoints (mutuellement exclusifs deux à deux) on a donc aussi :
ΣP(ωi) = P(∪ωi) = P(Ω) = 1,
pour tout ensemble fini, ou infini dénombrable, d’évènements élémentaires ωi.
Introduction proba-stat…
P(Ω)=1,
P(ωA∪ωB)=P(ωA)+P(ωB),
ΣP(ωi) = P(∪ωi) = P(Ω) = 1,
Exemple Par exemple, pour le jeu de pile ou face non truqué, on a pour chaque jet :
Proba{∅} = 0 ↔ Proba de n’avoir aucun événement (ni pile ni face)

Proba{pile} = 1/2 ↔ Proba du premier événement élémentaire (pile)
Proba{face} = 1/2 ↔ Proba du second événement élémentaire (face)
Proba{pile ou face} = 1 ↔ Proba d’avoir l’un des évènements (soit pile soit face)


Exemple - un problème de probabilité « fréquentiste » :
tirage de boules & application du théorème de Bayes.
A B AB
PO PA PB PAB
Figure Tirage de boules avec remise & probabilités conditionnelles de Bayes

Un sac contient quatre types de boules : non marquées, marquées A, marquées B, marquées AB. La
proportion du nombre de boules de chaque type est donnée par P0, PA, PB, PAB. Ces proportions sont
interprétées comme des probabilités. Lorsqu’on puise des boules dans le sac, on identifie chaque
boule tirée du sac et on la replace dans le sac avant de tirer la boule suivante. Il s’agit d’un tirage
avec remplacement : il y a bien « répétition », les répliques multiples sont toutes tirées de la même
« population ». Et l’on a P0+PA+PB+PAB = 1 comme il se doit.
Question. Dans cette interprétation « fréquentiste » des probabilités, quelle est la probabilité de
tirer une boule contenant la marque « A » si on sait que la boule tirée contient la marque « B » ?

Exemple - un problème de probabilité « fréquentiste » :
tirage de boules & application du théorème de Bayes.
A B AB
PO PA PB PAB
Figure. Tirage de boules avec remise & probabilités conditionnelles de Bayes
Réponse. La réponse est obtenue par les probabilités conditionnelles (théorème de Bayes) :
Pr oba{A I B}
Pr oba {A B} =
Pr oba{B}
Pr oba{AB} PAB
⇒ Pr oba {A B} = =
Pr oba{B ou AB} PB + PAB
où Proba{A|B} dénote la probabilité conditionnelle que A se produise si B s’est produit (de façon
déterministe, sans incertitude). Le signe ∩ signifie «et», «AND». Le signe ∪ signifie «ou»
non exclusif («OR») – à ne pas confondre avec le «ou» exclusif («XOR»).


Introduction proba-stat. et axiomatique des probabilités :
probabilités «ensemblistes», interprétation fréquentiste, incertitudes, Bayes…
Quelques théorèmes de convergence (NB : les Xi sont N v.a.’s «i.i.d.»)

Loi additive des grands nombres (convergence vers la moyenne) :
X 1 + ... + X N
lim =m
N →∞ N
Théorème central limite (convergence additive vers la loi de Gauss):
lim
N →∞
X 1 + ... + X N
N X ( )
= Z où Z : Ν 0, σ 2 suit une loi de Gauss…
La somme d’un grand nombre de V.A.’s réelles Xi a donc tendance à suivre une loi de Gauss.
Remarque sur les processus multiplicatifs (à partir des processus additifs ci-dessus) :
Il suffit de poser Xi = ln(Yi), avec Yi positive, pour voir apparaître le produit des Yi (Yi=exp(Xi)) au
lieu de la somme des Xi. Noter que, si Z est gaussienne, la variable exp(Z) est dite log-normale. Le
produit d’un grand nombre de VA’s Yi réelles positives a donc tendance à suivre une loi log-normale.

0. BASES ELEMENTAIRES DE PROBABILITÉS ET STATISTIQUES -- SUITE
GÉNÉRATEURS DE NOMBRES ALÉATOIRES & VARIABLES ALÉATOIRES...
Générateurs d’entiers aléatoires.
Générateurs entiers multiplicatifs congruentiels. Ceux-ci permettent de générer une séquence de nombres
entiers Ni purement aléatoires entre [0,M], ce qui permettra ensuite de générer une séquences de v.a. réelles
uniformément distribuée dans l’intervalle [0,1].
Générateurs recommandés. Exemples de « bons » générateurs d’entiers 32 bits [et 64 bits] bien testés.
Problèmes et pièges. Cycle du générateur. Sous-cycles, auto-corrélations, et autres propriétés indésirables.
Un générateur particulier d’entiers aléatoires (entiers 32 bits, avec un cycle de 2**18 ≈ ¼ million).
Spécifier un grain (seed) « N0 » : N0 doit être ici un entier positif de la forme 4k+1(ex : N0 = 1).
Calculer le produit modulo M : N i = ( L * N i −1 + C ) mod( M ) ,

avec ici : Multiplicateur : L = 3+(2**10) (Noter: 2**10 = 1024)
Constante entière : C=0
Module : M = 2**20
Génération d’une variable aléatoire réelle uniforme dans [0,1] : U i = float ( N i / M )


GÉNÉRATEURS DE NOMBRES ALÉATOIRES & VARIABLES ALÉATOIRES...(SUITE)
Génération de variables aléatoires non-uniformes
Objectif. Générer une V.A. « X » ayant une fonction de répartition FX(x) quelconque donnée, par exemple
binaire, exponentielle, gaussienne, ou autre. La plupart des méthodes utilisent les répliques d’une V.A.
uniforme U[0,1], que l’on sait générer par la méthode vue plus haut.
Différentes méthodes…. Méthode de la FdR inverse.
Méthode du cercle (Box-Muller).
Méthode(s) de rejet (Von Neuman).
La méthode de la FdR inverse
On obtient les répliques désirées X(i) à partir des répliques de la VA uniforme U(i), comme suit :
THÉORIE (CF. SCHÉMA) EXEMPLE : Loi Exponentielle pour x ≥ 0 (avec β = mX =σX )
(
X (i ) = FX−1 U (i ) ) f X ( x) =
1
β
e
−x
β
FX ( x) =1 − e
−x
β
(
X (i ) = − β ln 1 − U (i ) )
Désavantages : la fonction réciproque FX-1(u) peut être difficile à expliciter : par ex., pour la gaussienne, FX(x)
s’écrit en termes d’une fonction spéciale, erf(x), dont il faut obtenir la réciproque (tables numériques, ou
approximations rationnelles – cf. Abramowitz et Stegun).
Générateurs disponibles dans les logiciels
Voir par exemple les librairies et les fonctions Fortran, ou encore, les fonctions disponibles dans MATLAB ™ :
la fonction « rand » de MATLAB génère une V.A. uniforme U[0,1] ;
la fonction « randn » de MATLAB génère une V.A. normale N(0,1), i.e., loi gaussienne centrée réduite.

LOI DE PROBA D’UNE V.A CONTINUE RÉELLE :
FdR, DdP, & estimations empiriques
Soit une VA (Variable Aléatoire) « X » à valeurs dans IR ou IR+.
o Fonction de Répartition (FdR) – Cumulated Distribution Function (CDF)

FdR : FX ( x ) = Pr ( X ≤ x ) ,
où «X» est la VA elle-même, et «x» une valeur qu’elle peut prendre.
o Densité de Probabilité (DdP) – Probability Density Function (PDF)

= dFX ( x )
dFX ( x ) = FX ( x + dx ) − FX ( x )
f X ( x) = ⇒ f X ( x )dx =
DdP : dx = Pr ( X ≤ x + dx ) − Pr ( X ≤ x ) .
= Pr ( x ≤ X ≤ x + dx )
o Note : fX(x)dx représente un incrément de probabilité [adimensionnel], tandis que fX(x) est une
densité de probabilité en unités inverses de x : [unités de x-1]. La relation entre la densité fX(x) et
la fréquence « f% » d’un histogramme de fréquences est : f% ≈ 100 fX(x) ∆x. Utiliser cette
relation pour comparer sur un même graphe l’histogramme de fréquences à la densité de proba.


1. ANALYSE STATISTIQUE UNIVARIEE : 1.0. BASES…
LOI DE PROBA D’UNE V.A CONTINUE RÉELLE : FdR, DdP, & estimations empiriques
Voir algorithmes extraits du programme Matlab « STAT_PDF.m »
o Estimation empirique d'une Densité de Proba (histogramme de fréquences)
1. Choisir une résolution ∆x (largeur des bâtonnets d’histogramme) telle que :
Taille ∆x suffisante Min x j +1 − x j << ∆x << xMAX − xMIN Taille ∆x pas trop grande pour
pour éviter les «bruits» éviter un excès de lissage (biais).
2. Compter le nombre de valeurs de la VA « X » comprises dans chaque intervalle Ij-1/2 :
• Soit les intervalles définis par : Ij-1/2 = [(j-1).∆x , j. ∆x]
• Soit xj-1/2 = (j-1/2).∆x , le centroïde de l’intervalle Ij-1/2
• Soit nj-1/2 le nombre d’observations X(i) ∈ [(j-1).∆x , j. ∆x]
• Soit fj-1/2 = nj-1/2 /N , la fréquence empirique pour l’intervalle Ij-1/2 centré sur xj-1/2
3. L’histogramme des fréquences et la DdP empirique s’obtiennent alors comme suit :
n j −1/ 2
• Histogramme des fréquences : f j −1/ 2 = (et : f% = 100×f).
N
f j −1/ 2
• Densité de proba empirique : fˆX ( x ) ≈ , ∀x ∈ [x j −1 , x j ]
∆x
j=N
1  x − x j −1/ 2  n j −1/ 2
ˆ
NB : Ceci peut encore s’écrire formellement : f ( x ) = ∑ ∆x × Π ∆x 
×
N , où Π(x) est la
j =1 
fonction créneau unitaire (box function) centrée sur l’origine, de largeur unité et hauteur unité.
1. ANALYSE STATISTIQUE UNIVARIEE : 1.0. BASES…
Densité de Proba (Q crues Mdez
o Estimation empirique d'une en m3/s)
Densité de Probabilité (histogramme) :
Nbre d’occurences (Q crues

Mdez en m3/s)
Histo de fréquences (Q crues

Mdez en m3/s)
NB: Choix de la largeur des

histogrammes (ici): ∆Q=50m3/s.

1. ANALYSE STATISTIQUE UNIVARIEE : 1.0. BASES Note. Dans cet
exemple (voir
o Estimation empirique d'une Fonction de Répartition : (1) par histogramme… figures), le ∆x
Voir plus haut l’histogramme des fréquences : il suffit de le cumuler… d’histogramme
On obtient la courbe des fréquences cumulées, qui est aussi la FdR empirique est trop petit,
estimée, soit : et/ou… il n’y a
k= j k= j
nk −1/ 2 pas assez
F j −1/ 2 = ∑ f k −1/ 2 = ∑
• Fréquences cumulées :
k =1 k =1 N (F% = 100×F). d’observations
ˆ [
• F. de Répartition empirique : FX ( x ) ≈ F j −1 / 2 , ∀x ∈ x j −1 , x j ] (N trop petit).
DdP: f FdR: Σf

1. ANALYSE STATISTIQUE UNIVARIEE : 1.0. BASES
o Estimation empirique d'une Fonction de Répartition :
(2) méthode par points (Hazen)…explication de la méthode
NB. Le pb de l’estimation d’une FdR empirique est distinct du pb de l’ajustement d’une loi de probabilité
théorique à cette FdR empirique. On doit d’abord disposer d’une estimation de la FdR empirique, avant
de proposer l’ajustement d’une FdR « modèle » théorique donnée (gaussienne, exponentielle, etc).
La procédure d’estimation de la FdR par points est décrite ci-dessous (variante dite méthode de Hazen):
1. Classer les N observations {x1, x2, xN} par ordre croissant (voir algorithme en annexe) :
1
Fonction de Répartition Empirique (Formule de Hazen)
Ordre Temps t Indices des Données
0.9
0.8
naturel (t) reclassé données classées classées
0.7
t1 tc1 = t7 jc1 = 7 xc1 = x7
Fonction de Répartition F(x)
0.6
t2 tc2 = t18 jc2 = 18 xc2 = x18

ZOOM
0.5
0.4
0.3 t3 tc3 = t4 jc3 = 4 xc3 = x4

…… …… …… ……
0.2
0.1
0
100 200 300 400 500
x
600 700 800 900 1000
t25 tc25= t11 jc25 = 11 xc25 = x1
Courbe empirique F(xj) par points (Q crues Mdez) ZOOM Exemple fictif: xMIN=x7 ≤ x18 ≤ x4…≤ x11=xMAX
j− 1
Fˆ (x ) = 2 , ( j = 1,..., N )
2. Appliquer la formule de Hazen point par point : X j
N
NB. Intuitivement, cela donne bien : FX (x j ) ≈ Pr ( X ≤ x j ) , ( j = 1,..., N ) .
ˆ


o Estimation empirique d'une Fonction de Répartition :
(2) méthode par points (Hazen)…exemple des crues de l’Oued Mdez sur 23 ans (Q m3/s)
Fonction de Répartition Empirique (Formule de Hazen)
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
100 200 300 400 500 600 700 800 900 1000
x

o Estimation empirique d'une Fonction de Répartition : (2) par points (Hazen)…
Exemple de comparaison Hazen / histogramme (données = débits spécifiques……)


1.0. BASES ELEMENTAIRES DE PROBABILITÉS ET STATISTIQUES -- SUITE
o Théorie de l'estimation. On trouvera des aspects de la théorie Bayesienne de l’estimation Ch.2 "Analyse
Multivariée" et Ch.3 « Processus Hydrologiques ». Voir les modèles de régression linéaire simple et multiple, et le
modèle de convolution pluie-débit, dont diverses généralisations pourront faire l’objet de Bureaux d’Etudes :
estimation Bayesienne d'un vecteur d'état, d’un processus aléatoire; d'une variable spatialisée 2D (géostatistique)…
o Estimateurs statistiques de moments : moyenne; variance (et : covar.; coeff de corrél. ; etc…)
Soit une VA réelle « X » : on observe N réalisations de X, qu’on notera : {x1, x2, …, xN }. On suppose ici
que la « population » (le nombre de répliques théoriquement disponibles) est infinie. On dispose donc de
N réalisations (observations) tirées d’une population théoriquement infinie.
Estimateur de la moyenne d’une V.A. réelle à partir d’un échantillon de taille fini N
1 i= N
• Estimation : mˆ X = ∑ xi
N i =1
«RMS»=«Root-Mean-Square» = Erreur Quadratique Moyenne
σX σˆ X
• Erreur d’estimation : ε RMS (mˆ X ) = ≈
où (par définition) : ε
RMS ( m
ˆ X ) ≡ Var(mˆ X )
N N
Estimateur de la variance d’une V.A. réelle à partir d’un échantillon de taille fini N
(estimateur sans biais, en supposant la moyenne connue, pour N grand >>1) :
1 i= N 1 i= N
• Estimation :
σ X2 = ∑
N − 1 i =1
( xi − mˆ X )2 d’où : σˆ X = ∑
N − 1 i =1
( xi − mˆ X )2 (…).
σX σˆ X
• Erreur d’estimation : ε RMS (σˆ X ) = ≈ Ex : X ∼ N(0,1) : si N=50, ε RMS (σˆ X ) ≈ 1 10.
R.Ababou 2etNal., INP/ENSEEIHT:
2N 22
1. ANALYSE STATISTIQUE UNIVARIEE : 1.0. BASES -- SUITE
o Estimateurs statistiques de moments (moyenne, variance,…)
Exemple. Précipitation annuelles à Agadir (semi-aride) de 1914/15 à 1974/75 (N = 58 observations)
1 i= N 1 i= N
Moyenne:
mˆ X = ∑
N i =1
xi = 230.5 mm
Ecart-type : σˆ X = ∑ ( xi − mˆ X )2 = 111.9 mm
N − 1 i =1
NB : l’écart-type est estimé ici en prenant la racine carrée de l’estimateur sans biais de la variance.
σˆ
Coeff. de Variation estimé :
Cˆ X ≈ X = 0.48 = 48%. .
mˆ X
Le coeff de variation des pluies annuelles est ∼50% (forte variabilité interannuelle, climat semi-aride).
Intervalle de confiance à 80% de la vraie moyenne interannuelle ?

On cherche l’intervalle de confiance à 80% de la vraie moyenne interannuelle m (inconnue) autour de
moyenne estimée m̂ (connue). On utilise pour cela le résultat suivant. Pour N suffisamment gra
(supposons ici que N=58 est suffisamment grand), la variable m̂ suit une loi gaussienne N(m,ε2) où ε
l’écart-type d’erreur d’échantillonnage, ou erreur εRMS , donnée plus haut. On en déduit que :
 σˆ 
I 80% (m X ) = [mˆ X ± 1.28 × ε mˆ ] = mˆ X ± 1.28 × X  = 230.5 ± 19.0 mm.
 N


1.1 LOIS DE PROBA CLASSIQUES, MOMENTS, AJUSTEMENTS…
Moments (univariés) Notations : E(x) = < x > = mX.
Les moments centrés d'ordre n sont définis par la relation :

(3) µn=<(x-m)n>,
Le moment centré d'ordre 2, « µ2 », représente la variance σ2 :
(4’) µ2 =σ2 =<(x-m)2>. Unités physiques de σ2 = unités de [x2]

d’où l’on déduit l’écart-type σ (c’est la racine carrée de la variance) :
(4’’) σ = √µ2 Unités physiques de σ = unités de [x].
Le coefficient de variation est quantifie le degré de variabilité d'une variable aléatoire positive :
(5) CV ou C = σ/m.
Enfin, les moments centrés d'ordre 3 et 4 sont aussi utiles pour les ajustements ; ils sont définis par :
(6) µ3=<(x-m)3>.
(7) µ4=<(x-m)4>

1.1 LOIS DE PROBA CLASSIQUES, MOMENTS, AJUSTEMENTS…(SUITE)
Moments (univariés) – suite : moments d’ordre « élevé »…
A partir des moments centrés d’ordre 3 et 4, on définit les coefficients d'asymétrie (skewness) et
d'aplatissement (kurtosis), ou coefficients de Fisher (Ventsel 1973, Tassi 1989) :
 µ3
γ = 3 : coefficient d' asymétrie (Skewness).
 σ

(8) κ = µ 4 − 3 : coefficient d' aplatissement (Kurtosis) .
 σ4
γ : On montre que γ = 0 pour une distribution symétrique, puisque les moments d'ordre impairs sont
alors nuls. Le coefficient γ est positif pour une loi asymétrique comme la loi log-normale ou la loi
exponentielle (γ>0: queue de distribution persistante vers les x >> mX). Il est négatif dans le cas contraire
(exemple : loi suivie par y = x0-x, où x suit une loi exponentielle ou log-normale).
κ : Le coefficient d’aplatissement κ = 0 par construction pour une loi de Gauss ; on a κ > 0 pour une
densité de probabilité plus « pointue » que la loi normale, et négatif pour une densité plus "aplatie".
Exemple : la loi de Laplace à densité exponentielle symétrique est très « pointue » car elle présente un
point de rebroussement à l'origine ; son coefficient d'aplatissement est fortement positif (κ = +6).


Lois de proba univariées classiques (et ajustements par les moments)
Loi normale:
La loi normale ou gaussienne est une loi à deux paramètres (m,σ).
( x − m) 2
1 −
f X ( x) = e 2σ 2 pour x ∈ R
Densité de probabilité gaussienne: (10) σ 2π
Tous les moments d’ordre impairs sont nuls (loi symétrique) µ3 = 0
Les moments d’ordre pair de la loi normale (centrée réduite) sont (voir par exemple Tassi 1989) :
Γ( p + 1 / 2 )
x 2 p = µ2 p = 2 p = 1× 3 × (...) × (2 p − 1) µ4 = 3 .
(9) Γ(1 / 2)
Les coefficients d'asymétrie γ et d'aplatissement κ (définis + loin) sont donc nuls : (11) γ = 0 ; κ = 0.
La fonction de répartition (FdR) FX(x) de la loi de gauss, intégrale de fX(x), est une fonction spéciale :
1 x 
FX ( x ) = 1 + erf 
x
2 −u 2
 erf ( x ) ≡ ∫e du ; erfc( x ) ≡ 1 − erf ( x ) .
2  2  π 0

Lois de proba univariées classiques (et ajustements par les moments)
Loi de Rayleigh


Lois de proba univariées classiques et ajustements par les moments
SUITE :
Détails dans fichier PDF

« MOMENTS »
Voir ANNEXE :
Lois de Proba Univariées :
Relations Moments/Paramètres...

1.2 EXEMPLES D’AJUSTEMENTS DE LOIS DE PROBA
Ajustements par les moments
DEBITS DE CRUES ANNUELLES DU « MDEZ »…/ GAUSS


Ajustements par les moments
DEBITS DE CRUES DU «MDEZ» / LOG-NORMALE … ☺

(EQUIVALENT A UNE LOI DE GAUSS POUR LES LOG-DEBITS)
Densités de Proba Empirique & Gaussienne ajustée par les moments F.d.Répartition Empirique & Gaussienne ajustée par les moments (bis)
1
0.9
0.6
0.8
Densité de Probabilité f(x), en unités de 1/x
0.5
0.7
0.6
0.4
0.5
0.3
0.4
0.2 0.3
0.2
0.1
0.1
0 0
3 3.5 4 4.5 5 5.5 6 6.5 7 7.5 3 3.5 4 4.5 5 5.5 6 6.5 7 7.5
x x

DEBITS DE CRUES DU «MDEZ» : COMPARAISON DES GRAPHES DE Q(T) ET DE LN Q(T)
Q(t) lnQ(t)
x (non classées).
6.5
5.5
x
5
4.5
4
1958 1960 1962 1964 1966 1968 1970 1972 1974 1976 1978
t


1.3. TYPES DE LOIS DE PROBABILITÉ SELON LE TYPE DE DONNÉES
(VARIABLES PLUIES OU DÉBITS) ET SELON LE PAS DE TEMPS (∆T)
…
...en construction...

ANNEXES du CH.1-A


AUTRES EXEMPLES D’HISTOGRAMMES DE FRÉQUENCES EN HYDROLOGIE
Courbe hypsométrique et courbe de fréquences altimétriques d’un bassin.
Cas du BV de l’Oued Ikkem
(Maroc, côte atlantique nord).
Ci-contre, la courbe
hypsométrique et
l’ histogramme de fréquences
altimétriques, superposés sur un
même graphe avec aires en
abscisse, altitudes en ordonnées.
NB : comparer au rectangle
équivalent ci-dessous…
Représentation du même bassin

sous forme d’un rectangle
équivalent, avec des courbes de
niveau équivalentes qui sont,
dans cette représentation
simplifiée, orthogonales au grand
axe du rectangle. NB : la courbe
hypsométrique du rectangle
équivalent est identique à celle du
« vrai » bassin versant.

AUTRES EXEMPLES D’HISTOGRAMMES DE FRÉQUENCES EN HYDROLOGIE
Concept d’isochrones et histogramme Time Area (TA) en hydrologie des bassins

Une ligne isochrone est un contour reliant les points du bassin caractérisés par un même
temps de transfert (τ) de l’écoulements de surface (ruissellement net) jusqu’à un point
exutoire donné. L’exutoire peut être par exemple une station de jaugeage d’un cours
d‘eau. A partir du tracé de différentes courbes isochrones, correspondant à des délais de
transferts τn = n.∆τ, on définit des tranches de bassins supposées contribuer
uniformément au débit à l’exutoire avec un délai connu (le « temps » τn de l’isochrone
correspondante). On peut alors construire l’histogramme Time Area (TA) qui est la
représentation graphique des contributions successives de ces tranches, en reportant la
surface comprise entre deux lignes isochrones adjacentes en fonction du temps sur un
graphique. [Voir applications dans le cours d’hydrologie des bassins.]


ALGORITHME DE CONSTRUCTION D’UNE FdR EMPIRIQUE : p.1/2
exemple en langage MATLAB, tiré du programme Stat_PDF.m (R.Ababou)
% On suppose que les dates "t" et les observations "x" sont déjà disponibles
% et sont stockées dans une matrice TX=[t x] à N lignes et 2 colonnes
% (1ère colonne = "t" ; 2ème colonne = "x").
% Le 1er vecteur colonne (t) contient les dates des observations,
% ou encore un label numérique associé aux observations, tandis que
% le 2ème vecteur colonne x contient les valeurs des observations.
% Voici un exemple pour les crues annuelles de l'Oued Mdez (m3/s):
>>load Q_MDEZ_IN_NOHEADER.txt (ce fichier contient les 2 colonnes “t” et “x”)
>> q_mdez = Q_MDEZ_IN_NOHEADER (ceci pour simplifier le nom…)
>> TX = q_mdez (autre alias de q_mdez ; rappel : ce tableau contient les 2 colonnes [t x])
>> Exécuter alors le programme STAT_PDF.m … dont voici des extraits ci-dessous…
% PARAMETRES A REGLER EN FONCTION DE L'APPLICATION (ici, cas des données crues Mdez)
> Tmin=1955;Tmax=1980;
> Xmin=0; Xmax=1200;
> Xlabel='Crues Annuelles Oued Mdez (m3/s)';
> Tlabel='Années';
DXbin=input('ENTRER `DXbin`, la largeur des intervalles de l`histogramme : ');
% TX = Matrice Nx2 des dates "t" et des observations "x".
% t = DATES OU LABELS DES OBSERVATIONS (non classées)
% x = OBSERVATIONS (non classées)
% Noter l’organisation des données en 2 vecteurs colonnes :
% t x
% 1956.5 125 1ère ligne
%(1957.5) (----) (année manquante éliminée)
% 1958.5 52.7 2ème ligne
% ...... …...
% 1978.5 85 22ème ligne
% 1979.5 1077 23ème ligne.

ALGORITHME DE CONSTRUCTION D’UNE FdR EMPIRIQUE (p.2/2)
% Tailles des vecteurs et tableaux :
N=size(TX); N=N(1); t(:)=TX(:,1); x(:)=TX(:,2);
% Calcul des valeurs min, max, et premiers moments de la distribution de x (calculs non détaillé ici)…
% xc = OBSERVATIONS CLASSEES PAR ORDRE ASCENDANT
% ic = INDICES CLASSES ou TABLE DE CORRESPONDANCE xc(:)=x(ic(:))
% tc= DATES ou LABELS CORRESPONDANTS AUX OBSERVATIONS CLASSEES
[xc ic]=sort(x); CLASSEMENT DES DONNEES «x» PAR ORDRE CROISSANT («c» = «classée»),
tc=t(ic); …en ré-ordonnant aussi les étiquettes temporelles « t » par souci de cohérence.
% Fonction de repartition empirique Fx point par point (empirical CDF, computed pointwise)
% Fx = (i-0.5)/N (formule par points de Hazen)
Fx=(0.5/N:1/N:1-0.5/N);
figure; plot(xc,Fx,Style1,xc,Fx,Style2); grid; axis([Xmin Xmax 0 1]);
xlabel(Xlabel);ylabel('Fonction de Répartition F(x)');
title('Fonction de Répartition Empirique (Formule de Hazen)');
% Calculs de différents histogrammes : nombre d’occurrences (ni), fréquence (fri=ni/N),
% et fréquences cumulées (Fi), cette dernière étant également la fonction de répartition.
figure; xbins=[Xmin+(DXbin/2):DXbin:Xmax-(DXbin/2)]; hist(xc,xbins);
title('Histogramme du nombre d`occurrences, ni (adimensionnel).');
figure; fri=hist(xc,xbins)/N; bar(xbins,fri);
title('Histogramme des fréquences, fri=ni/N (adimensionnel).');
figure; fi=fri/DXbin; bar(xbins,fi);
title('Histogramme de densité de proba, fi=ni/N/DXbin (unités=1/x).');
figure; Fi=cumsum(fri); axis([Xmin Xmax 0 1]); bar(xbins,Fi);
title('Histogramme des fréquences cumulées ou f. de répartition, Fi (adim.)');
R.Ababou et al., INP/ENSEEIHT: RETOUR 37

ADDENDUM (3 pages)
Intervalle de confiance (« erreur » gaussienne)
Bande de confiance (régression linéaire)
Question 1.
En utilisant une table de la loi normale centrée réduite1, exprimer pour une
variable aléatoire "Z" de loi gaussienne N(mZ,σZ2) les intervalles de confiance à
80% et à 98% centrés sur mZ (qui est à la fois la moyenne, médiane, et valeur la
plus probable de "Z").
Table sommaire :
Fonction de répartition F(u) d'une variable gaussienne centrée réduite ( N(0,1) )

F(0)= F(0.25)= F(0.52)= F(0.84)= F(1.28)= F(1.64)= F(2.32)= F(2.57)=
0.50 0.60 0.70 0.80 0.90 0.95 0.99 0.995
Question 2.
Soit une régression linéaire Y=aX+b+ε entre variables gaussiennes (X,Y).
Obtenir les intervalles de confiance à 80% et 98% de Y autour de la droite de
régression Y=aX+b, connaissant les écarts-types : σX ≈ 1, σY ≈ 2, et le
coefficient de corrélation : ρ ≈ -0.5 .
1 On peut consulter une table de la loi normale, ou bien utiliser le tableau sommaire ci-inclus.
Réponse / 1. Intervalle de confiance (gauss)
L'objectif est de caractériser une région (intervalle) t.q. la V.A. ait une
probabilité "P" d'appartenir à cette région (intervalle). Dans la plupart des
applications, il s'agit de déterminer un intervalle de confiance autour de la
moyenne : c'est ce qu'on demande ici. La procédure est illustrée graphiquement
pour l'intervalle I80% (de probabilité P=80%) 2 :
Analytiquement, la procédure à suivre peut être résumée comme suit.

Utiliser la table donnant la FdR normale FU(u) pour U gaussienne centrée réduite:
La table donne : FU(u) = Proba(U ≤ u) pour une v.a. U de loi normale N(0,1)
Par ailleurs X = mX + σX u pour une v.a. X gaussienne de moments (mX , σX2).
Déterminer l'intervalle à 80% de probabilité (I80%):
Proba(U ≤ +1.28) = 0.90 d'après la table
Proba(U ≥ -1.28) = 0.10 par symétrie de la loi
Î Proba(-1.28 ≤ U ≤ +1.28) = 0.80
Résultat : I80% = [-1.28,+1.28] pour la v.a. U centrée réduite N(0,1).
Or on a : X = mX + σX u. On obtient donc, pour la v.a. X gaussienne N(mX,σX2) :
Î I80% = [mX -1.28 σX , mX +1.28 σX ]

(et de même) : I98% = [mX -2.32 σX , mX +2.32 σX ]
2 On a utilisé la fonction erreur erf(x) de MATLAB pour tracer la FdR de la loi normale: F(x) = 0.5*(1+erf(x/√2)).
Réponse / 2. Bande de confiance (erreur gaussienne de régression linéaire)
Dans le cas d'une régression linéaire Y=aX+b+ε, la question précédente revient
à estimer une bande de confiance autour de la droite de régression [cf. schéma
ci-dessous].
L'écart-type (σε ) du résidu (ε) donne la largeur de la bande de confiance dans la
direction des ordonnées (Y). En notant I (YX) l'intervalle de confiance pour la
regression de Y par rapport à X, on obtient par exemple, à 80%:
Î I80%(YX) = [aX+b ± 1.28 σε ] (etc…)
Or : σε2 = σY2 (1 - ρ2) ⇒ σε2 = (2)2 (1 - (-0.5)2) = 4×3/4 = 3 ⇒ σε = √3.
D'où: I80%(YX) = [aX+b ± 1.28×√3] ≈ [aX+b ± 2.22]
De même: I98%(YX) = [aX+b ± 2.32×√3] ≈ [aX+b ± 4.02]
Schéma : bande de confiance d'une régression

CHAP.1-BB
Cours Hydro.Stat. 3Hy : Séance 3+cf.TD1
Sous-titre :


Documents en ligne:
Web local R.A. free


1. A. Analyse statistique univariée, moments, lois de probabilité
B. Evènements rares, loi de Poisson, crue de projet (cf.TD1)
modélisation ou la reconstructionR.Ababou
de chroniques hydrologiques (processus aléatoires).
et al., INP/ENSEEIHT: 3

1. ANALYSE STATISTIQUE UNIVARIEE :
B. VALEURS EXTREMES (GUMBEL) & EVENEMENTS RARES (POISSON)
PLAN
¾ Notions de «crues» (G.Réméniéras, Hydrologie de l’Ingénieur, Ch.IX: Etude des crues).
¾ Crues annuelles, prise de maximum, lois de proba suivies par les V.A. « extrêmes » de
type « crues annuelles » : 1. Gumbel (double-exponentielle) ; 2. Fréchet ; 3. Weibull
¾ Dépassements de seuils ; excursions d’une chronique aléatoire Y(t) au-dessus d’un
seuil >> mY ; émergence du processus de Poisson pour le nombre d’évènements
« dépassement du seuil » ; et application de la loi de Poisson pour l’estimation des
probabilités de crues « rares », dépassant un seuil élevé (temps de retour T >> 1 an).
¾ Définition axiomatique de la loi de Poisson et/ou du processus discret de Poisson.
¾ Application : estimation d’une crue de projet « décennale » et fiabilité de
l’estimation. Ref. : « Guide Pratique de la Méthode Inondabilité », Agences de l’Eau,
1998 (Agence Rhône-Méditerranée-Corse / Etude CEMAGREF : O.Gilard, P.Givone,
G.Oberlin, N.Gendreau et al.).
¾ Etude des crues annuelles de l’Oued Mdez : analyse des crues rares observées parmi
les 23 années de données disponibles…(application des lois de Gumbel & de Poisson).
¾ TD1 : Etude des probas de retour des crues «historiques» de la Garonne à Toulouse.

PLAN
¾ Notion(s) de « crues » : voir par exemple G.Réméniéras (Hydrologie de l’Ingénieur :
Chap.IX : Etude des crues…).
¾ Crues annuelles, prise de maximum, lois de proba suivies par les V.A. « extrêmes » de
type « crues annuelles » : 1. Gumbel (double-exponentielle) ; 2. Fréchet ; 3. Weibull
¾ Dépassements de seuils ; excursions d’une chronique aléatoire Y(t) au-dessus d’un
seuil >> mY ; émergence du processus de Poisson pour le nombre d’évènements
« dépassement du seuil » ; et application de la loi de Poisson pour l’estimation des
probabilités de crues « rares », dépassant un seuil élevé (temps de retour T >> 1 an).
¾ Définition axiomatique de la loi de Poisson et/ou du processus discret de Poisson.
¾ Application : estimation d’une crue de projet « décennale », et fiabilité de
l’estimation (cf. Guide Pratique de la Méthode Inondabilité », Agences de l’Eau, 1998).
¾ Etude des crues annuelles de l’Oued Mdez : analyse des crues rares observées parmi
les 23 années de données disponibles…(application des lois de Gumbel & de Poisson).
¾ TD1 : Etude des probas de retour des crues «historiques» de la Garonne à Toulouse.


1.B. VALEURS EXTRÊMES (GUMBEL) & ÉVÈNEMENTS RARES (POISSON)
¾Notion(s) de « crues »
NB : Remarques reprises en partie de G.Réméniéras (Hydrologie de l’Ingénieur, Chap.IX : Etude des crues…).
Un hydrogramme de crue est une chronique de débits en forme de montée-descente (crue-décrue).
Mais le terme « crue » peut être associé, plus simplement, à un débit en rivière particulièrement
élevé, maximum, ou de faible fréquence. Cependant, le terme débit de crue est ambigü ;…est-ce (?):
• le débit de pointe instantané d’un hydrogramme Q(t), e.g., obtenu à partir de relevés
limnigraphiques (H(t)) convertis en débits par une courbe de tarage;
• le maximum des 365 débits moyens journaliers de chaque année hydrologique (ces débits journaliers
résultants parfois d’une seule ou de quelques lectures de H à l’échelle limnimétrique);
• ou un débit de faible fréquence de dépassement (fixée selon l’application, e.g. 5%) ?
Noter que la hauteur d’eau en rivière (H) est plus facile à mesurer que le débit (Q). Pourtant, dans
bien des applications, c’est le débit de crue qui est requis, et H(t) sert alors uniquement à obtenir
Q(t) par une courbe de tarage pré-ajustée Q=f(H). Dans d’autres applications, cependant, la hauteur
d’eau elle-même peut jouer un rôle direct dans les calculs (protections / plaines d’inondations).
De plus, la variable « débit » ne suffit pas à caractériser le phénomène physique « crue ». Ainsi, si
l’on peut considérer chaque « crue » comme un processus hydrologique clairement identifiable,
alors l’hydrogramme de crue est caractérisé non seulement par le débit de pointe, mais aussi par le
volume net de la crue (V) et par sa durée (différents temps caractéristiques : de concentration, de
base, de réponse ou de pointe). Pour un évacuateur de crue, les pointes sont très importantes (mais le
volume aussi) ; et pour un réservoir de protection contre les crues, le volume de crue est essentiel.
Exemples de records d’intensités de pluies et de débits spécifiques (Pyrénées Orientales):
i = 4 mm/mn en 1 h ; q = Q/A ≈ 25000 l/s/km2 .
¾ Crues annuelles et lois des valeurs extrêmes
Débits de crues annuelles : par prise du maximum des 365 débits journaliers, chaque année.
Débits journaliers Q(tJOUR) 10 Débits de crues annuelles Q(tANS)

9
9
8
8
7 7
Débits
6 6
5 5
4
4
3
3
2
2
1
1987
1993
1983
1985
1989
1991
1981
1770
1900
1905
1941
1949
1979
1815
1850
1876
1916
1923
1932
1943
1945
1947
1951
1
1977
1955
1963
1965
1971
1953
1957
1959
1961
1967
1969
1973
1975
0
0
Années
1 an
(365j)


¾ Crues annuelles et lois des valeurs extrêmes (suite)
Théorie proba-stat des valeurs extrêmes:
Définition. Une V.A. extrême Y résulte d’une prise de maximum : Y = jMax
=1,..., N
{X j }
Exemple. Le débit de crue annuel est défini, chaque année, par : QCRUE = j =Max
1,..., 365
{QJOUR ( j )}
Résultat théorique. Lorsque N → ∞ (ici on a N=365 >> 1) la V.A. extrême (Y) ne dépend
que faiblement de la loi de proba de (Xj), et on sait que (dans des conditions assez
générales) la loi de (Y) tend vers une des trois lois de probabilité suivantes :
1. Gumbel (double-exponentielle) Í
2. Fréchet
3. Weibull

¾ Crues annuelles et lois des valeurs extrêmes (suite)
Une loi des valeurs extrêmes : la loi de Gumbel (double exponentielle).
Définition de la loi de Gumbel •Loi de Gumbel (Fonction de Répartition)
  X − α 
F ( X ) = exp − exp − 
  β  
Relation Paramètres-Moments
et ajustement par les moments •Méthode des moments
αˆ = mˆ X − 0.45 σˆ X
βˆ = σˆ X / 1.28
Ajustement graphique de la FdR •Méthode d’ajustement graphique
sur papier spécial Gumbel (-log(-log)) (papier graphique double log)


¾ Crues annuelles et lois des valeurs extrêmes (exemple :crues de l’Oued Mdez)
On considère à nouveau les débits de crue annuelle Q de l'Oued Mdez sur 23 années.
Voici certains des moments empiriques qui ont été obtenus pour Q (m3/s) :
QMIN QMEDIANE QMAX mQ σQ CVQ γQ κQ

Min:52.7 Med:XXXX Max:1070 Mean:271.3 Sigm:XXXX CV:0.9977 Asym:1.699 Apla:1.881
On décide d’ajuster la FdR empirique de Q (m3/s) à la loi de Gumbel, i.e., la FdR double-exponentielle :
FQ (q ) = exp{− exp{− a(q − q0 )}}
1. Obtenir d’abord « a » et « q0 » en utilisant la relation paramètres/moments de la loi de Gumbel vue en

cours (voir vos notes de cours et/ou le polycopié).
2. Calculer, à partir de la loi de Gumbel, la valeur de FQ(1070 m3/s), qui représente la probabilité de non-
dépassement de la crue annuelle de Juin 1965.
3. Calculez le débit de crue annuelle de temps de retour TR=25 ans (on choisit exprès ici un TR du même
ordre que la durée d’observation). Exprimer d’abord le résultat en fonction des paramètres (a,q0,TR) avant
de passer à l’application numérique.
NB: Le débit Q=1070 m3/s correspond à la crue de Juin 1965, qui est la plus grande crue annuelle observée sur 23 ans.

1. ANALYSE UNIVARIEE : B. VALEURS EXTREMES, EVENEMENTS RARES
¾ Crues annuelles et lois des valeurs extrêmes : crues de l’Oued MdezÎréponses
1. Les relations moments/paramètres de la loi de Gumbel FX(x) sont :
π 1 γ EULER
a= ≈ x0 = m X − ≈ m X − 0.450σ X γ EULER ≈ 0.577...
6σX 0.780 σ X a
En appliquant ceci aux débits de crues Q, avec les moments empiriques mQ≈271.3 m3/s et
σQ≈270.7 m3/s, on obtient :
a ≈ 0.00473606 (m3/s)-1 , qo ≈ 149.485 m3/s.
2. Calculons FQ(1070) :
FQ (1070) = exp{− exp{− a(q − q0 )}} = 0.987298
La probabilité de non-dépassement de Q=1070m3/s est donc environ 0.987 .
A l’inverse, la crue annuelle Q=1070m3/s n’avait que 13 chances sur 1000 d’être dépassée.
3. Relation entre le temps de retour (TR) et la F.d.R (F) :
1
FQ (q ) = 1−
1
TR =
1 − FQ (q ) , TR (TR exprimé en années pour des crues annuelles)
1   1 
En insérant la F.d.R double-exponentielle (loi de Gumbel) on obtient : q = q0 − a ln − ln1 − T  
 R  
1   1  
Application (TR=25ans) : q = 149.5 − 0.00473606 ln − ln1 − 25   (m3/s) Î q = 824.857 ≈ 825 m3/s.
 


1 ANALYSE STATISTIQUE UNIVARIEE :
B. VALEURS EXTRÊMES (GUMBEL) & ÉVÈNEMENTS RARES (POISSON)
Considérons dans tout ce qui suit la chronique des débits de crues annuelles QCRUE(ti) en
fonction du temps discret ti [années].
Dépassements de seuils.
Excursions d’une chronique aléatoire Y(t) au-dessus d’un seuil donné bY >> mY.
Emergence du processus de Poisson et de la loi de Poisson
Le processus de Poisson est la séquence des temps discrets d’occurrences des évènements
(dépassements du seuil). La loi de Poisson exprime la probabilité d’observer un nombre
« n » d’évènements (dépassements du seuil) pendant une durée donnée TD.
…
Suivre le lien vers document annexe :
« CRUES ANNUELLES, TEMPS DE RETOUR,
EVENEMENTS RARES & LOI DE POISSON »
…
Une définition « axiomatique » de la loi de Poisson est présentée dans la diapo qui suit…

1.B. VALEURS EXTRÊMES (GUMBEL) & ÉVÈNEMENTS RARES (POISSON)
Définition axiomatique de la loi de Poisson et du processus discret de Poisson.
Let n(t) designate the random number of occurences of a discrete event within a time interval [0,t], with n(0)=0.
The integer variable n(t) is a random variable for each fixed value of t, and it describes a random point process (or
counting process) as a function of time. A stationary increment point process is one for which the statistical
properties of the number of events nT within [t,t+T] are the same for all intervals [t,t+T] of length T…(∀t).
A Poisson point process can be defined by three axioms [modified from H.A.Taha, Operations research,
Chap.13: Queueing theory, McMillan Publishing Co., New York, 1976] as follows :
1. The number of events n(t) occuring in [0,t] is a random point process with stationary & independent increments.
Stationary increments: The increments n(t2)-n(t1) and n(τ+t2)-n(τ+t1) are identically distributed for all values of τ.
In other words, the increments depend only on the size of the interval (T=t2-t1), so we can write nT for the
increment n(t2)-n(t1). Note: t1 ≤ t2.
Independent increments: Non-overlapping increments are statistically independent. In other words, n(t2)-n(t1) is
independent of n(τ+t2)-n(τ+t1) if τ ≥ (t2-t1). For instance, the number of events in [t1,t2] is independent of the
number of events in [t2,t3]. Note: t1 ≤ t2 ≤ t3.
2. ∀ T (0 < T < ∞) : 0 < Prob{nT = 1} < 1
In other words, for any given interval [t,t+T] of finite non zero size T, there is a non zero (but less than 100%)
probability of having exactly one event… within that interval.
3. Tlim Pr{nT ≥ 2} = 0
→0 +
That is, in a sufficiently small/infinitesimal time interval, there cannot be more than one occurrence of the random event.
NB: Axiom 1 is used in Axiom 2 and Axiom 3. In particular, we used the fact that Prob{n(t+T)-n(t)=k} does not depend on t, and can be
expressed as Prob{nT = k}, which is is the usual definition of Poisson’s law (probability of observing k events in time interval of size T).


Utilisation de la loi de Poisson pour l’estimation des
probabilités de crues «rares» (TRETOUR≥10 ans)
Une crue « rare » est une crue annuelle dont le débit atteint ou dépasse un débit « seuil »
relativement élevé, de temps de retour TR >> 1 an (par exemple TR = 10 ans au moins).
….
Exemple (crues de l’Oued Mdez)
Toujours pour les données de crues du Mdez, on veut évaluer maintenant la probabilité d’observer au
moins deux dépassements de la crue 25-ennale (temps de retour TR = 25 ans) sur une durée d’environ
25 ans (soit TD ≈ 25 ans).
k
 TD 
 T 
P ≡ Pr {K = k } ≡  R
exp − TD 
Réponse : Loi de Poisson des évènements rares : k k!  TR 
Pk est la proba d’observer exactement k évènements
(k dépassements de la crue TR-ennale sur une durée de TD années).
La probabilité d’observer au moins 2 dépassements est égale à la proba de ne pas en observer 0 ou 1 (ni 0 ni 1):
Pr(au moins 2) = 1 - P0 - P1 = 1 – exp(-1) – exp(-1) = 1 – 2*exp(-1) = 0.264
Il y a donc en gros 26% de chances d’observer au moins 2 dépassements de la crue 25-ennale sur une
durée de 25 ans. Voir résultats précédents… la crue 25-ennale du Mdez est de 825 m3/s ; les données brutes
(non montrées ici) indiquent que ce débit a été réellement dépassé 2 fois sur la durée d’observation de 23 ans.

Estimation d’une crue de projet « décennale », et fiabilité de l’estimation.
¾ Procédure pour l’estimation d’une crue de projet décennale
…
¾ Fiabilité de l’estimation de la crue de projet (décennale)

Référence : « Guide Pratique de la Méthode Inondabilité », Agences de l’Eau, 1998 (Agence
Rhône-Méditerranée-Corse / CEMAGREF : O.Gilard, P.Givone, G.Oberlin, N.Gendreau et al.).
Dans cette étude, il est suggéré qu’une estimation fiable du débit de la crue décennale
requiert N >> 5 années d’observations de crues annuelles.
De façon plus générale, N >> T/2 années d’observations seraient nécessaires pour
l’estimation d’une crue de temps de retour T années… mais noter que l’application de
ce critère à l’estimation d’une crue de projet déca-millennale conduirait à requérir plus
de cinquante siècles de données de crues [le contexte applicatif est alors sans doute
très différent, dans ce cas, de celui envisagé par les auteurs de l’étude pré-citée].


Etude des crues de l’Oued Mdez : analyse des crues rares sur 23 années de crues
annuelles disponibles (application des lois de Gumbel & de Poisson).
Voir aussi le TD1 : Etude des probabilités d’occurrences des crues rares de la
Garonne à Toulouse (données modernes et « historiques », sur plus de deux siècles).
FIN DES DIAPOS DU CHAP.1 (1A+1B)

R.Ababou - Annexe Hydro.Stat. (Ch.1.B) – 2005/06
ANNEXE
CRUES ANNUELLES, TEMPS DE RETOUR,
EVENEMENTS RARES & LOI DE POISSON
Notations.
TR Temps de retour moyen (par exemple, TR = 100 ans pour une crue centennale)
TD Durée d’observation (pour le nombre d’occurrences…sur une durée donnée TD)
n Nombre d’occurrences, nombre de dépassements (i.e., nombre d’évènements)
µ Densité de la loi de Poisson (nombre moyen d’évènements par unité de temps)
Pn Loi de Poisson : probabilité d’observer exactement n évènements sur une durée TD fixée.
Q Débit de crue annuelle (variable aléatoire de fonction de répartition FQ(q))
QTR Débit de crue de temps de retour TR (par exemple, Q100 = débit de la crue centennale)
τ1 Temps de 1ère arrivée de l’évènement (i.e., du dépassement d’un débit QTR).
Crues biennales (TR = 2ans), décennales (TR = 10ans), centennales (TR = 100ans), millennales (TR = 1000ans)…
-1-
Formulation du problème
¾ On a étudié la loi de probabilité de la variable aléatoire « crue annuelle » Q. On
connaît sa fonction de répartition FQ(q) empirique, et on dispose d’une loi théorique
ajustée à celle-ci, par exemple la loi de Gumbel ajustée par la méthode des moments.
¾ On peut donc utiliser la loi modèle FQ(q) pour obtenir la valeur du débit de crue
annuelle ayant par exemple une probabilité 0.90 de ne pas être dépassée :
[ ]
FQ (q10 ) = Pr(Q ≤ q10 ) = 0.90 ⇒ q10 m 3 / s Í Débit de crue décennale
¾ Le « débit de crue décennale », q10 , a donc 1 chance sur 10 d’être dépassé, car sa
probabilité de dépassement est 1-F = 1-0.90 = 0.10. Les évènements « dépassements
du débit q10 » ont donc en moyenne un fréquence de retour d’1 année sur 10. Comme
il s’agit de débits annuels (∆t=1 an), ces dépassements ont donc un temps de retour
de 10 ans, en moyenne sur une très longue période, théoriquement infinie.
1 1
TR = =
¾ Plus généralement… Temps de retour: 1 − FQ (qTR ) 1 − Pr (Q ≤ qTR )
1 −1 1
FQ (qTR ) =1− ⇒ qTR = FQ 1− 
Débit « TR-ennal » qTR : TR  TR 
-2-
Dépassements de seuils de débits (crues rares)

¾ Considérons maintenant la séquence des débits de crues annuelles Q(ti) avec ti = 1ère
année, t2 = 2ème année, …, tN = Nième et dernière année d’observation. On définit,
pour ce processus temporel, l’évènement « dépassement » d’un seuil de débit élevé
tel que le débit de temps de retour 100 ans (q100) ou plus généralement qTR.
QCRUES
L’évènement «dépassement» SEUIL

q100
se réalise chaque fois que
Q(ti) ≥ qTR = q100
NB. Ces dépassements sont aussi

appelé, en théorie des processus
aléatoires, les « excursions » du tANS
processus aléatoire Q(t) au-
dessus du seuil spécifié.
-3-
¾ Théorie. Les résultats de la théorie de Rice pour les processus saléatoires tationnaires
gaussiens indiquent que les excursions d’un processus aléatoire Y(t) au-dessus d’un seuil
donné YSEUIL, tendent à devenir des évènements ponctuels lorsque le seuil est suffisamment
élevé. Les zones d’excursion tendent vers des points. Les valeurs du processus au-dessus du
seuil coïncident avec des maxima locaux isolés de Y(t), avec un seul maximum par intervalle
d’excursion. La distribution des points-excursions (dépassements) suit un processus temporel
de Poisson, ou de façon équivalente, le nombre de dépassements ponctuels sur une durée
d’observation donnée (TD) suit une loi de Poisson. Enfin, la densité de la loi de Poisson est
donnée par µ = 1-F(YSEUIL), µ étant le nombre d’évènements / unité de temps.
¾ En appliquant ceci aux débits de crues annuelles Q(ti), on obtient donc le résultat théorique :
La probabilité d’avoir « n » dépassements de la crue TR-ennale (crue de temps de

retour TR) pendant une durée fixée de TD années, est donnée par la loi de Poisson
de densité µ = 1/TR Î nombre moyen d’évènements <n> = µ.TD = TD/TR.
La loi de Poisson (loi des évènements rares) permet donc d’estimer les
probabilités de dépassement des crues rares (décennales, centennales,…)
-4-
¾ Loi de Poisson (avec les notations présentes) :

( µTD )n
Pn ≡ Pr{k = n} ≡ exp(− µTD )
n!
Mais, sachant que la densité de la loi de Poisson (nombre moyen d’évènements par
unité de temps) est donnée par µ = 1/TR, la loi s’écrit aussi,
n
T
 D 
TR 
Pn ≡ Pr{k = n} ≡ 
T
exp − D  ,
n!  TR  …ce qui donne la probabilité d’avoir
« n » dépassements de la crue TR-ennale (de temps de retour TR) sur une durée donnée TD.
¾ Moments de la loi de Poisson (et du processus associé)
• Nombre moyen d’occurrences (sur la durée TD): n = µ.TD
• Ecart-type du nombre d’occurrences (sur la durée TD) : σ n = Var(n) = µ.TD
− µτ
• Densité de proba du temps t1 de 1ère
arrivée (1ère
occurrence) f( )
: t1 τ = µ .e ;
c’est une loi exponentielle, de moyenne <t1> = 1/µ = TR et d’écart-type σt1 = <t1> = TR.
Le temps de retour TR est donc, aussi, le temps moyen de 1ère occurrence (d’un dépassement).
-5-
¾ Exemple 1. Probabilités de dépassements du débit de crue décennale sur une durée

de dix ans (TR = TD = 10 ans) Î la loi de Poisson s’écrit, dans ce cas particulier :
1
Pn ≡ Pr{k = n} ≡ exp(− 1)
n! D’où les résultats suivants :
1 −1
P0 ≡ Pr{k = 0} ≡ e = (2.718) −1 ≈ 0.368
0!
1 Pr{k ≥ 1} ≡ 1 − P0 = 1 − 0.368 ≈ 0.632 Í
P1 ≡ Pr{k = 1} ≡ e −1 ≈ 0.368
1!
1 Pr{k ≥ 2} ≡ 1 − P0 − P1 = 1 − 2 × 0.368 ≈ 0.264
P2 ≡ Pr{k = 2} ≡ e −1 ≈ 0.184
2!
Remarque : la probabilité d’avoir au moins une crue décennale en dix ans est de 0.632, soit
environ 63% (ce n’est ni 50%, ni 100% comme on pourrait peut-être le croire) !
¾ Exemple 2. Quelle est la probabilité d’observer au moins une crue supérieure ou
égale à la crue millennale (TR =1000 ans) sur une durée d’un siècle (TD = 100 ans) ?
On obtient P = 1-exp(-0.1) = 0.0952 ≈ 10%, ce qui est loin d’être négligeable…
-6-
TD1
Univar :
lois de proba
Gumbel+Poisson:
crues Garonne
(sujet & indications)

HYDROLOGIE STATISTIQUE – TD1: ANANLYSE UNIVARIEE – GUMBEL & POISSON :
CRUES ANNUELLE & CRUES EXTREMES DE LA GARONNE A TOULOUSE
SUJET TD1 + INDICATIONS + SUJET DU PARTIEL…

HYDROLOGIE STATISTIQUE – TD1:
ANALYSE UNIVARIEE – GUMBEL & POISSON :
ENONCE DU TD 1 :
On propose d'étudier la Fonction de Répartition (FdR) empirique des
crues de la Garonne à Toulouse (Pont-Neuf), en termes de hauteurs H,
comprenant une série "scientifique" contemporaine (1940-1994), et une
série "historique" plus ancienne (1770-1940) qui permet de compléter la
FdR empirique vers les valeurs extrêmes.
Voir la Figure ci-jointe (C.Thirriot 1995), où sont représentées la FdR
empirique (point par point) et une FdR ajustée (trait continu). Des
explications supplémentaires sur la méthode utilisée pour construire
ces FdR pourront être fournies en salle. Une courbe de tarage
approchée est fournie.
Répondre aux questions suivantes (y compris graphiquement si
nécessaire).
QUESTIONS. (+ VOIR INDICATIONS PLUS LOIN…)

1. Quelle est la variable hydrologique étudiée (expliquez le terme crue) ?
2. Utilisez la FdR proposée pour obtenir la crue annuelle centennale
(expliquez). Question subsidiaire: est-ce une loi de Gumbel ?
(paramètres=?)
3. Calculez la probabilité d'observer au moins 1, au moins 2, et au moins 3
crues supérieures à la crue centennale pendant une période
d'observation de 225 années.
4. A quoi pouvez-vous comparer ces probabilités, et qu'en concluez-vous ?
5. Question supplémentaire autour de l’évaluation des temps
d’arrivée…(en salle).
1
HYDROLOGIE STATISTIQUE – TD1: ANANLYSE UNIVARIEE – GUMBEL & POISSON :
ANNEXE : Courbe de tarage Q(H)

La courbe de tarage Q=f(H) permettant de passer des hauteurs d'eau H [m] aux débits Q [m3/s]
au Pont-Neuf n'est pas disponible pour la période "historique", mais voici quelques ordres de
grandeurs "contemporains" (valeurs indicatives, pour H ≥ 2m) :
H≈2m Q ≈ 1000 m3/s 7000

6000
3 5000
H≈3m Q ≈ 2000 m /s
4000
Tarage Q=f(H)
3000
H≈5m Q ≈ 4000 m3/s (±) 2000
1000
0
H≈8m Q ≈ 6500 m3/s (±)? 0 2 3 5 8
ANNEXE : Fonction de répartition empirique des crues annuelles F(H)
2
TD Hydrologie Statistique
TD 1
Crues annuelles, évènements rares,
et loi de Poisson
Ahmad Al-Bitar
Mesure de hauteur d’eau : la Garonne à Toulouse (Pont-Neuf)
Pont-Neuf
onne
Gar
Courbe de tarage Q=f(H)
7000
Courbe de tarage récente de la
Garonne au niveau du Pont-Neuf 6000
pour des hauteur H>2 m.
5000
Cette courbe n’est pas disponible
pour la période historique (1770- 4000
Q (m3/s)
1941).
3000
La courbe est faiblement quadratique,
presque linéaire. 2000
1000
0
0 2 4 6 8 10
H (m)
Fonction de Répartition FdP(H)

Comment obtenir la FdR ? 1,1
-Ranger les valeur de la plus 1

forte à la plus faible
0,9
valeurs;
-Calculer la fréquence. 0,8 série historique
0,7
0,6
F
0,5
série scientifique
0,4
0,3
0,2
0,1
2 2,5 3 3,5 4 4,5 5 5,5 6 6,5 7 7,5 8 8,5
hauteur (m)
Ajustement d’une loi de probabilité théorique
Loi de Gumbel (valeurs extrêmes)
  H − α 
F ( H ) = exp − exp − 
  β  
Méthode des moments

αˆ = mH − 0.45 σ H
βˆ = σ H / 1.28
Méthode d’ajustement graphique
-graphique en double log
Évaluation de l’ajustement
-Test du Khi-Deux Χ²
Test Khi-Deux Χ²
d’après Jaque Miquel 2004, Hyd.Stat. ENPC

Tableau Χ²
Question 2
• Utilisez la FdR proposée pour obtenir la crue annuelle

centennale
CHAP. 2
Cours Hydro.Stat. 3Hy :
Séance 5: Ch.2 – Hyd.Stat.Multivariée
3Hy 2005-06 (ID = HY3ASE303)
Sous-titre :


3Hy 2005-06 (ID = HY3ASE303)
Documents en ligne:
Web local R.A. free


CHAPÎTRE 2 DU COURS :
Analyse statistique multivariée : régression linéaire,
régression multiple généralisée, corrélation multiple, et
analyse en composantes principales (ACP). Applications à la
critique, reconstitution, et/ou cartographie de données
hydrologiques.
VOIR AUSSI LE TD 2 :
Reconstitution et critique de données pluviométriques par corrélation et
régression entre stations ; et/ou (selon les années) :
Corrélations multiples & Analyse en Composantes Principales (ACP) :
étude des redondances entre 6 stations hydrométriques (Pyrénées).


PLAN DU CHAP.2 «HYDROLOGIE STATISTIQUE MULTIVARIÉE» (2005-06)
¾ Introduction, objectifs, méthodes. [cf. intro générale du cours].
¾ Lois de probabilités multivariées :
• FdR et DdP multivariées ;
• loi multivariée gaussienne (variables conjointement gaussiennes) ;
• matrices de covariance et de corrélation.
¾ Rappels de régression linéaire simple (2 variables X,Y).
¾ Utilisation de la régression linéaire pour la critique des données
• Utilisation de la régression linéaire avec résidus gaussiens pour la critique de
données «aberrantes» et la reconstitution de données manquantes.
Exemple/Exo : pluies mensuelles en 2 stations alpines [TD ou exo selon année].
• Test d’homogénéité : méthode des résidus cumulés et ellipse de confiance.
Exemple : Pluies Gin Ganga (Sri Lanka).
• Test d’homogénéité : méthode des doubles cumuls. Ex : Pluies Sebou (Maroc).

PLAN DU CHAPÎTRE 2 (SUITE)
¾ Généralisation : analyse corrélatoire multi-variée (multi-stations) à K+1 variables
• Corrélation multiple avec K+1 variables
• Régression multi-linéaire avec K+1 variables :
o Formulation / « variables » (le vecteur [Xk])
o Formulation / « variables-observations » (matrice rectangulaire [Xk(i)])
• Principes de l’ACP (Analyse en Composantes Principales). Í voir TD2.
• Estimation linéaire de vecteurs d’états (estimation optimale Bayesienne)
¾ Exemples d’applications (Bureaux d’Etudes, T.D., etc)
• TD2. Corrélations multiples & Analyse en Composantes Principales (ACP) :
étude des redondances entre 6 stations hydrométriques (Pyrénées).
• ETUDE. Corrélations pluies-débits et « régionalisation » des débits au Sri Lanka.
• …


Lois de probabilités multivariées (FdR et DdP jointes)
Résumé - cas de 2 V.A.’s (X,Y) :
FdR jointe FX,Y : FX ,Y ( x, y ) = Pr ( X ≤ x, Y ≤ y )
∂ 2 FX ,Y f X ,Y ( x, y )dxdy = dFX ,Y ( x, y )
DdP jointe fX,Y : f X ,Y ( x, y ) = ∂x∂y
= Pr ( x ≤ X ≤ x + dx, y ≤ Y ≤ y + dy )
DdP marginale fX : f X ( x) = ∫ f X ,Y ( x, y )dy
IR
fY|X(y|x) est la densité de proba de la V.A. « Y »
conditionnée ( | ) par la connaissance de « X », i.e.,
DdP conditionnelle fY|X : après observation de X (« a posteriori »).
Théorème / proba conditionnelle Bayes f X ,Y ( x, y )
fY X ( y x ) =
f X ( x)
Théorème bis / proba condit. Bayes f X ,Y ( x, y ) = fY X ( y x ) f X ( x ) = f X Y ( x y ) fY ( y )
Notations. FdR = Fonction de Répartition ; DdP = Densité de Probabilité ; V.A.=Var.Aléatoire.

Lois de probabilités multivariées (exemples)
Etant données deux variables aléatoires gaussiennes indépendantes et identiquement
distribuées, de même variance et de moyenne nulle, la densité de probabilité jointe fXY(x,y) est
une « colline gaussienne » de section circulaire, représentée Figure X. On peut dire aussi que
[X Y]T est vecteur aléatoire gaussien isotrope, et que fXY(x,y) est la densité de probabilité
bivariée gaussienne qui représente la loi conjointe de toutes les composantes de ce vecteur.
NB. On sait par ailleurs que la densité de probabilité du module R = (X2+Y2)1/2 est une loi de
Rayleigh : voir Chap.1, courbe et histogramme de la loi de Rayleigh fR(r).
Densité de la loi bivariée gaussienne fXY Densité de la loi de Rayleigh f R (r ) =

1  1 r 2 
r exp−
2 
σ  2 σ 2 

Loi de probabilité bivariée gaussienne (propriétés)
Soient (X,Y) deux v.a.’s gaussiennes centrées (de moyennes nulles). Si (X,Y) sont indépendantes
(non corrélées) et de variance unité (normalisées), leur densité jointe est :
exp− (x 2 + y 2 )
1 1
f X ,Y ( x, y ) =
2π  2 
2 2
Si l’on a X : N(0,σX ) et Y : N(0,σY ), avec (X,Y) indépendantes, leur densité jointe est :
1  1  x 2 y 2 
f X ,Y ( x, y ) = exp−  2 + 2 
2πσ X σ Y  2  σ X σ Y 
Enfin, si (X,Y) sont plus généralement conjointement gaussienne mais corrélées, on a :
1  1   x 2  x  y   y  
2
f X ,Y ( x, y ) = exp−   − 2ρ   +  
2πσ X σ Y  2 1 (
− ρ2 )  σ X 
  σ X  σ Y   σ Y  
NB. Voir plus loin la loi de probabilité gaussienne multivariée générale : vecteur multivarié gaussien de taille N :
N(mX,Cxx), où mX est le vecteur « moyenne » de taille (N) et Cxx la « matrice de covariance » de taille (N×N).
Matrice de covariance et matrice de corrélation.
Cov ( X , Y )
Covariance : Cov ( X , Y ) = ( X − m X )(Y − mY ) Coeff de corrél. : ρ X ,Y = σ XσY
Matrice de covariance 2×2 Matrice de corrélation 2×2
 σ X2 Cov( X , Y ) 1 ρ
C X ,Y =   R X ,Y = 
Cov( X , Y ) σ Y2  ρ 1  8
Comment générer une paire de V.A.’s gaussiennes identiques et indépendantes ?
Soient G1 et G2 deux variables aléatoires indépendantes gaussiennes N(0,1). Poser G1 = R.cosθ et
G2 = R.sinθ. On montre alors que R et θ sont 2 V.A.’s indépendantes de densités de probabilité :
R : loi de Rayleigh : () (
f R r = r × exp − r 2 / 2 )
θ : loi uniforme dans [0,2π] : f Θ (θ ) = U [0,2π ] .
Comment générer une paire de V.A.’s gaussiennes intercorrélées ?
En partant de G1 et G2, deux V.A.’s gaussiennes N(0,1) non corrélées, on obtient comme suit
2 nouvelles VA’s gaussiennes (X,Y) corrélées, d’écarts-types (σX,σY) et de coeff de corrélation ρ :
X = m X + σ X .G1
{
Y = mY + σ Y . ρ G1 + 1 − ρ 2 G2 }
Comment diagonaliser la matrice de covariance d’une paire de V.A.’s gaussiennes ?
Exécuter le programme MATLAB « Ex_Stat4ACP2000.m » (A.C.P. simplifiée à 2 variables!)
ou encore, ouvrir le document PDF « _Ex_mbook_Stat4ACP2000.pdf » (listing+input/outputs)


Rappels de régression linéaire simple (2 variables X,Y).
Le point de vue adopté dans cet exposé tient compte du fait que la régression linéaire est un
modèle d’estimation optimale et sans biais d’une v.a. gaussienne (Y) dite variable expliquée
(« à expliquer »), en fonction d’une autre v.a. gaussienne (X) considérée comme fixée lors de
l’estimation, dite variable explicative. Dans un modèle de régression linéaire, la relation entre
les variables aléatoires Y et X peut s'écrire :
Y = a.X+b+e ⇔ e = Y-a.X-b
Cette dernière équation définit du même coup l'erreur "e", qui est aussi une variable
aléatoire. Les coeffs de régression sont calculés de façon que "e" soit de variance minimale, et
de moyenne nulle ( <e> = 0 ). L'erreur étant sans biais, l'estimation est donc sans biais.
La régression linéaire classique est donc une estimation linéaire (optimale et sans biais) de la
variable Y (expliquée), en fonction de la variable explicative X, qui est alors considérée
comme fixée (déterministe).

Rappels de régression linéaire simple (2 variables X,Y) …[SUITE]…
Soit Y* l’estimation linéaire optimale sans biais de Y.
On montre que Y* est l'espérance mathématique de Y conditionnée par X (qui est alors
considérée comme donnée), et que Y* s’exprime linéairement en fonction de X :
Variable à expliquer : Y = a X +b + e
Estimation optimale de Y : Y* = <Y|X> = a X +b
Erreur commise sur Y : e = Y - Y*
Formules classiques d’optimalité & non biais : a = ρ σY/σX ;
b = <Y> - a <X> ;
σe2 = (1-ρ2) σY2 .
Remarques et conclusions :
¾ La relation Y = aX+b+e est aléatoire, tandis que l’estimation Y* = aX+b est déterministe.
¾ Le modèle de régression linéaire permet non seulement d'estimer Y, mais aussi de
quantifier statistiquement l'erreur d'estimation (variance σE2).
¾ L'estimation Y* calculée par régression linéaire représente la valeur la plus probable de Y
étant données les observations de X (théorie Bayesienne).
¾ Tout ceci n'est vrai, en toute rigueur, que si (X,Y) sont conjointement gaussiennes.

¾ Utilisation de la régression linéaire pour la critique des données
Utilisation de la régression linéaire avec résidus gaussiens pour la critique de données
«aberrantes» et/ou la reconstitution de données manquantes.
EXO/EXEMPLE - Reconstitution de données par régression linéaire :
pluies mensuelles en 2 stations alpines (Mens et Roissard).
Question
Reconstituer les pluies mensuelles de mars 1940 et 1946 à Mens (P1)…,
à partir des pluies de mars à Roissard (P2).
Indications
On utilise la régression linéaire √P1√P2, en racines de pluies mensuelles (mm1/2), qui est préférée à
une régression directe en terme des pluies (mm), car on pense ici que √P est «plus» gaussienne que P.
Données Î voir TABLEAU ci-joint
Voici les statistiques suffisantes pour traiter le problème (pluviométries du mois de mars) :
Moments de √P1 (Mens) en mars : m1 ≈ 6.7 mm1/2 ; σ1 ≈ 2.9 mm1/2
Moments de √P2 (Roissard) en mars : m2 ≈ 7.7 mm1/2; σ2 ≈ 2.8 mm1/2
Corrélation croisée (√P1,√P2) en mars: ρ ≈ 0.94

TABLEAU DES PLUIES MENSUELLES DE MARS-AVRIL À MENS & ROISSARD (BV DU DRAC, ALPES)
Pluies Mensuelles en 2 stations d'un Bassin Versant du Drac (de 1928 à 1947, et en 1976)
S1 - MENS S2 - ROISSARD
Années Mars Avril Mars Avril
1928 61 84 44 132
1929 7 65 3 79
1930 109 53 135 115
1931 90 40 116 57
1932 59 67 101 89
1933 33 21 83 44
1934 74 135 88 130
1935 41 18 91 131
1936 56 132 64 132
1937 143 56 188 78
1938 3 19 3 7
1939 53 91 86 92
1940 X X 50 112
1941 45 83 55 117
1942 19 23 40 42
1943 8 25 12 35
1944 19 30 20 30
1945 19 17 18 18
1946 X X 60 44
1947 103 35 134 31
1976 57 60 62 65

Exo/Exemple - Reconstitution de données par régression linéaire :
pluies mensuelles en 2 stations alpines (Mens et Roissard).
Statistiques utiles (cf. tableau de données)
Moments de √P1 (Mens) en mars : m1 ≈ 6.7 mm1/2 ; σ1 ≈ 2.9 mm1/2
Moments de √P2 (Roissard) en mars : m2 ≈ 7.7 mm1/2; σ2 ≈ 2.8 mm1/2
Corrélation croisée (√P1,√P2) en mars: ρ ≈ 0.94
Eléments de réponses.
On utilise la régression YX avec Y=√P1 et X=√P2.
Les données de l’énoncé devraient permettre de calculer (pour les racines de pluies) :
a = ρ σY/σX = ρ σ1/σ2 = 0.974 ;
b = (mY-a.mX) = (m1-a.m2) = -0.80 √mm ;
σε = 0.992 √mm
Mars 1946 :
Connaissant P2 = 60 mm en Mars 1946 (à Roissard), on cherche donc à reconstituer P1 en
Mars 1946 (à Mens).
La régression linéaire de √P1√P2 (YX) sert d’estimateur de √P1 connaissant
√P2 = √60 = 7.746 mm1/2 . La régression Y = aX+b s’écrit, ici :
√P1 = a √P2 + b Î finalement : P1 ≈ 45.5 mm.
Mars 1940 :
Même procédure…. R.Ababou et al., INP/ENSEEIHT: 14
¾ Utilisation de la régression linéaire pour la critique des données (SUITE)
Test d’homogénéité basé sur la régression linéaire entre stations :
la méthode des résidus cumulés (ellipse de confiance ; « pont brownien »).
Principe de la méthode.
¾ Soit un réseau de N stations (pluviométriques ou autres). On considère les stations 2
par 2, et on effectue pour chaque paire de stations une régression linéaire Y|X.
¾ Le test utilise la somme partielle Z(k) des résidus de la régression, tracée en fonction
de l’indice k (nombre de résidus cumulés) depuis k=1 jusqu’à k=N (nombre total de
points). Noter que le cumul commence à 0 pour k=0 et se termine à 0 pour k=N à cause
de la condition de non biais (moyenne du résidu nulle).
¾ On montre théoriquement (voir théorie ci-dessous) que la courbe ainsi tracée, Z(k),
doit être comprise dans une certaine ellipse de confiance. Si la courbe sort de l’ellipse,
c’est que l’une au moins des deux variables (X,Y) n’est pas homogène : défaillance
d’instrument ? biais persistant ? sabotage des mesures ? dérive thermique ? changement
de courbe de tarage à cause de modifications du lit du cours d’eau ? etc…).
¾ Voir exemple ci-dessous (pluies Sri Lanka).
THÉORIE – Test d’homogénéité « résidus cumulés » : démonstration de l’ellipse de confiance
Yi = a* Xi + b* + Ei (i=1,…,N) (Ei = résidus de régression linéaire)
i=k
Z k = ∑ Ei (ΣEi = résidus cumulés à analyser)
i =1
Les Ei ont tous les mêmes moments univariés : ∀i ce sont des vars gaussiennes de moyenne nulle et d'écart-type σE :
<Ei> = 0 ∀i et <Ei2> = σE2 ∀i
De même les (Ei,Ej) ont des moments croisés tous égaux ∀(i,j) avec (i≠j), mais l'espérance <Ei.Ej> n'est pas nulle car les
(Ei,Ej) ne sont pas indépendants à cause de la contrainte:
i= N
Z N = ∑ Ei = 0 (la moyenne empirique des résidus de régression est nulle)
i =1
On peut cependant supposer que <Ei.Ej> est de la forme :

σ E2 si i = j
<Ei.Ej> = ou encore <Ei.Ej> = σE2 [R+(1-R)δij ] ,
Rσ E2 si i ≠ j
où R est le coeff. de corrélation croisé (Ei,Ej) dû à la contrainte ZN=0. On obtient alors, successivement :
i=k i=k
<Zk> = ∑ < Ei >= ∑ 0 = 0

i =1 i =1
[R + (1 − R)δ ]
i =k j =k i =k j =k i =k i =k j =k
σZk = Var(Zk) = <Zk > = ∑∑ < Ei E j > =

2 2
∑∑ ij σ E2 = ∑ σ E2 + ∑ ∑ R σ E2 = 1.k.σE2+ R.k.(k-1).σE2
i =1 j =1 i =1 j =1 i =1 i =1 j =1( j ≠ i )
Mais on sait par ailleurs que ZN=0 ("contrainte"), d'où σZN2 = 0, ce qui permet de déterminer le coefficient de corrélation
croisé des résidus (R) : σZN2 = 1.N.σE2 + R.N.(N-1).σE2 = 0 ⇒ R = -1 / (N-1).
 k −1 
D'où finalement le résultat : σZk2 = k [ 1 - (k-1) / (N-1) ] σE2 ⇒ σ Zk = k 1 −  σE .
 N −1
Conclusions : l'écart-type σZk (k) décrit une ellipse ; de plus, si les (Xi,Yi) sont gaussiens, les résidus Ei aussi; et les résidus
cumulés Zk aussi ; on a donc : Zk = N(0,σR.Ababou
Zk).
et al., INP/ENSEEIHT: [d’après R.Ababou, 2000] 19

Généralisations : analyses corrélatoires multi-variées (multi-stations)
• Matrice de covariance et corrélation multiple avec K+1 variables
……
…
…
Exo. Matrice de covariance 3x3

Soit un vecteur aléatoire (X1,X2,X3) et sa matrice de covariances Cij = Covar(Xi , Xj ).
Un auteur (anonyme) fournit, dans un document technique, la « matrice de covariance »:
1 − 0.5 − 0.5
C= 0.30 0.10 
 
 0.30 
Question. Quelles réflexions inspirent cette « matrice de covariance » ?
Indications. En fait, cette matrice n’est pas une matrice de covariance ! Rappeler les propriétés
d'une matrice de covariance. Calculer Var(X1+X2) et Var(X1+X2+X3). Conclusions ?

• Régression multi-linéaire avec K+1 variables
Formulation / « variables » (le vecteur [Xk])
Formulation / « variables-observations » (matrice rectangulaire [Xk(i)])
ORGANISATION DES DONNÉES
Soit Y la variable expliquée (ou endogène).
Y (1) 
 
M 
 (i ) 
Y = Y 
On dispose du vecteur de taille (N,1) des N observations de la variable : M 
 
(
Y  N )
 
Soient X1,..., Xi ,...X p les p variables explicatives (ou exogènes).

On dispose de la matrice rectangle de taille (N,p) des observations de chaque variable :
X (1) K X (1) 
p
 1 
M M 
 ( N) 
Xet1 al., K
R.Ababou X (N)
p 
INP/ENSEEIHT: 21

CENTRAGE DES VARIABLES (EN UTILISANT LES MOYENNES ESTIMÉES)
1
mX j =
N
∑ X (ji ) ⇒ x j = X j − mX j
i
1
mY =
N
∑ Y (i ) ⇒ y = Y − mY
i
FORMULATION DE LA REGRESSION MULTILINÉAIRE

On cherche une relation multilinéaire entre Y et X = [X1,..., X p ] de la forme :
a1 
 
p Y = a 0 + X.a + ε avec a =  M 
Y = a 0 + ∑ a jX j + ε Î a  (1.a) Vars brutes
j=1  p
(1,1) (1,1) (1, p) × (p,1) (1,1)
En écrivant ceci pour toutes les observations dont on dispose cela donne :
Y = a0 . 1 + X . a +ε
Y (1)   (1) (1) 

1 X1 K X p  a1  ε 
(1)
      
M  = a 0 .M  + M .M  + M  (1.b) Variables-Observations
 ( N)   ( N)     
1 X K X (N) a et al., INP/ENSEEIHT:
( N ) 22
p   p  ε
R.Ababou
Y   1 
SOLUTION DU PROBLEME DE REGRESSION MULTIPLE (OPTIMALITÉ & NON BIAIS)
On applique d’abord la condition de non-biais à savoir que la moyenne estimée du résidu
est nulle : m ε = 0 . Or, par définition, on obtient ainsi :
1 N (i ) 1 T
0 = mε = ∑ ε = N 1 .ε
N i =1 ⇒ a0 = mY − m X a (2 )
1 T
= 1 .{Y − a0 .1 − X .a} En insérant cette équation dans l’équation (1.a)
N on obtient, en variables centrées :
1 a 1
= 1T .Y − 0 1T .1 − 1T . X .a
N N N
y = x.a + ε (3) variables centrées
= m Y − a0 − m x .a
Le coefficient a 0 étant maintenant « éliminé », il reste à déterminer a en

minimisant la variance estimée du résidu ε soit :
Mina Var(ε ) ← ε = y - x.a (1ère approche)
ou bien
Min a ε T ε ← ε = y − x.a ( 2ème approche)

SOLUTION DU PROBLEME DE REGRESSION MULTIPLE (…SUITE…)
Première approche : minimisation de variance probabiliste (ensembliste)
Mina Var(ε ) ← ε = y - x.a (1ère approche)
Approche probabiliste / calcul d’espérances mathématiques ⇔ moyennes d’ensemble.

Var (ε ) = ε 2 = ( y − x.a ) 2 = y 2 − 2 y x.a + ( x.a ) 2 = y 2 − 2 y x a + aT xT x
σ ε2 = σ y2 − 2 C y x .a + aT .C x x .a
2  ∂σ ε2 
Condition d’optimalité du 1er ordre Î Grad a (σ ε ) = L L = 0
 ∂a j 
− 2 C xy + 2 C x x .a = 0
D’où, après calculs : Î
a = C x x −1 . C y x T (4)
(p,1) (p, p) × (p,1)

SOLUTION DU PROBLEME DE REGRESSION MULTIPLE (…SUITE…)
Seconde approche : Minimisation de l’écart quadratique moyen (empirique)
Min a ε T ε ← ε = y − x.a ( 2ème approche)
ε T ε = ( y − x a )T ( y − x a ) = y T y − y T x a − a T x T y + a T x T x a
T  ∂ (ε T ε ) 
er
La condition d’optimalité du 1 ordre se traduit par :
Grad a (ε ε ) = L L = 0
 ∂a j 
− 2 xT y + 2 xT xa = 0
D’où :
(p, N)(N,1) (p, p) × (p,1) Î a = ( x T x )-1 x T y (5)
Pentes de la régression multiple.
Equivalence entre les deux approches
Les 2 approches ↑↑ sont équivalentes si on estime les covariances C x x & Cy x ainsi :
1 T 1 T
Cx x = x .x et Cy x = y x (6)
N N

CALCUL DE LA VARIANCE D’ERREUR (MINIMALE)
Une fois choisie ces estimateurs des matrices de covariance, on peut calculer, par n’importe
laquelle des deux approches, la variance de l’erreur comme suit :
Var (ε ) =
N
1 T
{ }
ε ε =
1 T
N
{
y y − y T x a − a T x T y + a T xT x a }
 
1 
=  y T y − y T x( xT x) −1 xT y − y T x( xT x) −1 xT y + yT x(( xT x) −1 )T xT x( xT x) −1 xT y 
N 144244 3 14243 
 1 a 
Î σ ε2 =
1 T
N
{ }1
N
1
N
1
N
1
ε ε = y T y − y T x( xT x) −1 xT y
N
Cette formule donne directement la variance d’erreur (minimale) en fonction des données
empiriques. De façon équivalente on peut écrire :
σ ε2 = σ y2 − C y x C x−x1C y x T σ ε2 = σ 2y( 1 − R 2 )
R = R y x Rx x −1 R y x T
σ ε2 = σ 2y 1 − R y x −1
Rx x R y x T 
 
…où le scalaire « R » représente le coefficient de corrélation multiple.

VÉRIFICATION SUR UN CAS PARTICULIER
On retrouve en particulier, comme il se doit, les résultats classiques de la régression simple
à une seule variable explicative « x » (prendre le cas p = 1) :
1 ρσy
a = C xx −1C yxT = cov( x, y ) = (4)
σ x2 σx
σ ε2 = σ y2 (1 − ρ 2 ) (7)
✪
RÉSUMÉ SYNOPTIQUE (RÉGRESSION MULTI-LINÉAIRE)
Y = a0 + X • a + ε
Ordonnée à l’origine : a0 = mY − m X • a
Vecteur des pentes :

a = C X X −1. CY X T
( p ,1) ( p, p ) ( p ,1)
Variance d’erreur : (
σ ε2 = σY2 1 − R 2 )
Coefficient de corrélation multiple :
R = RY X RX X −1 RY X T
(1,1) (1, p ) ( p, p ) ( p,1)


• Principes de l’ACP (Analyse en Composantes Principales). Í TD2.

TD2
Matrice covar,
regression, ACP
(sujet & indications)

HYDROLOGIE STATISTIQUE : TD2(1)
TD2-Exo.1 : Analyse Statistique Bivariée
Enoncé :
Pour tester un programme d'analyse statistique

multivariée débouchant sur de l'AC.P, on étudie la
structure de corrélation de 2 vecteurs d'observations
(x1 , x2) représentant 2 variables distinctes (non
précisées). Les résultats de cette analyse sont joints à
ce document, et sont décrits ci-dessous.
• On donne ci-joint les valeurs numériques des
matrices/vecteurs représentant les Covariances des
observations, et les Composantes Principales (CP),
pour N=1000 paires d' « observations » de deux
variables (x1,x2) générées numériquement à l’aide d’un
un générateur de nombres aléatoires gaussien.
Plus précisément : on a généré 1000 répliques d’un
vecteur aléatoire gaussien bivarié de moyenne nulle et
comportant une corrélation croisée R(x1,x2) non nulle.
On pourra constater que les moments empiriques
obtenus sont relativement proches des moments
théoriques (e.g., les moyennes empiriques sont
relativement proches de zéro, comme il se doit).
• Une visualisation du nuage de points dans le plan
(x1,x2), graphique cijoint, illustre les résultats obtenus
pour un sous-ensemble des 1000 paires d’observations.
Cependant : les axes (x1) et (x2) sont-ils représentés à
la même échelle sur ce graphique ? ( !).
• Les calculs statistiques et algébriques (diagonalisation)
ainsi que les graphiques ont été programmés en langage
Matlab. On trouvera en annexe un exemple de mini-
programme Matlab permettant de diagonaliser la
matrice de covariance et de calculer les Composantes
Principales…dans ce cas ultra-simplifié à 2 variables.
1
Questions (à titre indicatif) :
Expliquez, commentez et exploitez brièvement les

résultats présentés, comme suit (questions 1 à 8) :
1. Retrouver les écarts-types (σ1 , σ2) des 2 variables,
ainsi que leur coefficient de corrélation « ρ ».
2. Commentez la différence entre "variables brutes" et
"variables normalisées" - quelles seraient les
conséquences d’une normalisation ?
3. Que représente la matrice de covariance des
Composantes Principales (CP) ? Pourquoi est-elle
diagonale ? Autres propriétés ?
4. Quelle est la différence entre CP "brutes" et
"normalisées"?
5. Ecrire explicitement le système de relations entre les
CP et les variables "brutes"
6. Représenter graphiquement les axes des CP « brutes »
dans le plan (x1,x2). [*]
7. Exprimer les régressions linéaires de x1│x2 et de
x1│x2, respectivement.
8. Tracer les deux droites de régression dans le plan
(x1,x2). Sont-elles confondues ? (et pourquoi ?).
[*] NB : dans le cas réel, on analyse le nuage de points-observations

dans le plan des premières CP : (CP1,CP2) ou (CP2,CP3)…
2
Total size of gaussian data vectors [x1],[x2]: ...
N= 1000
Input correl coeff of gaussian vectors [x1],[x2]:
rho = -0.5000
Computed correl coefficient of gaussian vectors:
rho = -0.5072
Input means of gaussian vectors [x1],[x2]:
Mu1 = 0 Mu2 = 0
Computed means of gaussian vectors :
mu1 = -0.0138 mu2 = 0.0037
Input std.dev. of gaussian vectors:
Sigma1 = 1.0 sigma2 = 2.0
Computed std.dev. of gaussian vectors:..,
sigma1 = 1.0311 sigma2 = 2.0234
Covariance matrix of raw data [x1 x2] :
CX = 1.0632 -1.0581
-1.0581 4.0943
Covariance matrix of normalized data [x1 x2] : ...
CY = 1.0000 -0.5072
-0.5072 1.0000
Raw data : Rotation matrix=eigenvectors [v1 v2]: ..
VX = -0.9539 -0.3001
-0.3001 0.9539
Norm.data: Rotation matrix=eigenvectors [u1 u2]: ..
UY = -0.7071 -0.7071
-0.7071 0.7071
Raw data: Covar matrix of principal compon.[z1 z2]:
CZ = 0.7303 0.0000
0.0000 4.4271
NormData: Covar matrix of principal compon.[w1 w2]:
CW = 0.4928 -0.0000
-0.0000 1.5072
Pentes des régressions linéaires:
Pente de régression x2/x1 :(a21) = -0.9952
Pente de régression x1/x2 :(aa21=1/a12)= -3.8694
3
CP2
X2| X1
CP1
X1| X2
Nombre total de points utilisés statistiquement : Ntotal=1000 ;

nombre de points tracés ici (symboles « o ») : Nplot=100.
4
DIAGONALISATION (2x2) EN MATLAB
(cf. programme STAT4ACP2000.M)
% Données bi-variées en 2 vecteurs colonnes

X=[x1 x2];
% Estimated means and standard deviations
mu1=mean(x1);
sigma1=std(x1);
mu2=mean(x2);
sigma2=std(x2);
% Cxx = 2x2 covariance matrix
Cxx=cov(X);
% Estimated correlation coefficient
rho=(Cxx(1,2)/sigma1)/sigma2;
% Eigenvectors & eigenvalues of Cxx
[Pxx,Dxx]=eig(Cxx);
% Extraction & normalisation
des vecteurs propres :Pxx
v1=Pxx(:,1);
v2=Pxx(:,2);
v1=v1./norm(v1);
v2=v2./norm(v2);
Pxx=[v1 v2];
% Les valeurs propres « Lambda(i) » sont
stockées dans la diagonale de la matrice Dxx.
% Il reste à ré-ordonner les valeurs propres, et les
vecteurs propres associés, par ordre de valeurs
propres décroissantes…
5
HYDROLOGIE STATISTIQUE : TD2(2)
TD2-Exo.2 : A.C.P.
(Analyse en Composantes Principales)
Objectifs:
L’objectif est d’utiliser des données réelles pour s’initier à
l’Analyse en Composantes Principales, et réfléchir aux
utilisations possibles de l’ACP. L’exercice proposé permet
d’illustrer la théorie et d’apercevoir les possibilités de l’ACP –
mais on ne cherche pas ici à faire un développement exhaustif,
ni de la théorie de l’ACP, ni de ses nombreuses modalités
d’applications pratiques.
Données:
On dispose de données hydrométriques en 6 stations
Pyrénéennes : « écoulement mensuel » (mm), pour le mois de
mai, entre les années 1950 à 1972.
Ces données sont (judicieusement) présentées sous la forme
d’une matrice rectangulaire « X », appelée la matrice
« observations-variables » (23 lignes × 6 colonnes). Ici, les
observations sont les années {i = 1,…, N}, et les variables sont
les stations de jaugeage {j =1,…, P}, avec N = 23 et P = 6.
1
Questions
1. Calculs
1.1 Question préalable : quelle est la signification de la variable
hydrologique analysée (débit « Q » -- ou débit spécifique « q ») ? A
quel type de normalisation des débits cela correspond-il ?
1.2 Moments simples. Calculer la moyenne, la variance et l’écart-type
de chaque variable (en utilisant directement les données, ou bien
encore, les sommes Σ données en annexe).
1.3 Matrice de corrélation. Calculer la matrice de corrélation (i.e., la
matrice de covariance des variables réduites). Remarques ?
1.4 Diagonalisation de la matrice de corrélation. Afin d’alléger les
calculs, on donne en annexe la matrice diagonale D et la matrice de
passage P. En déduire les valeurs propres, ainsi que les vecteurs
propres ou « composantes principales ».
Note. Par définition, la matrice P transforme le repère initial en un
repère principal, dans lequel la matrice de corrélation devient
diagonale. Les variables hydrologiques transformées, i.e., exprimées
dans le nouveau repère dit « principal », y sont donc non corrélées.
2. Analyses et applications
2.1 Montrer que, dans le cas présent, la CP1 représente les six
variables avec un poids à peu prés égal pour toutes.
Note. On peut en conclure que la CP1 n’a pas donc de caractère
discriminant très marqué. De ce fait, bien que son poids explicatif soit
important, on étudiera plutôt le comportement et le rôle hydrologique
des autres CP à condition cependant qu’elles aient un poids suffisant.
2.2 Calculer le % de variance expliquée par les K premières CP, en
faisant varier K de 1 à 6. En déduire que l’on ne perd que quelques %
d’information en éliminant les CP4, CP5 et CP6.
2.3 La figure 1 représente les 6 stations de jaugeage de débits
(variables 1,…,6) dans le plan des (CP2,CP3). Y a-t-il des
regroupements possibles ? Que pouvez en déduire ?
2
TABLEAU 1. Ecoulement de Mai (mm) en 6 stations des Pyrénées pour les années 1950-1972
Année Observation Naguilhes Lanoux Izourt Gnioure Caillaouas Bleu
N°(j) X1(j) X2(j) X3(j) X4(j) X5(j) X6(j)
1950 1 232 180 450 450 391 163

1951 2 228 155 355 337 271 110
1952 3 416 344 391 376 306 125
1953 4 479 370 503 490 387 234
1954 5 323 250 358 334 293 162
1955 6 379 260 288 269 432 351
1956 7 423 325 476 505 380 144
1957 8 154 141 215 197 137 37
1958 9 523 400 567 590 516 337
1959 10 440 340 337 364 318 137
1960 11 478 370 412 441 518 314
1961 12 431 329 365 386 313 241
1962 13 359 294 313 358 274 160
1963 14 295 271 318 305 208 104
1964 15 464 360 381 415 597 406
1965 16 366 285 451 428 228 139
1966 17 472 353 478 489 377 223
1967 18 383 310 396 404 215 66
1968 19 370 320 423 449 242 95
1969 20 417 359 403 447 372 181
1970 21 334 238 393 400 197 87
1971 22 447 370 471 459 348 170
1972 23 273 242 322 335 205 78
3
ANNEXE : Résultats statistiques intermédiaires
(pour faciliter les calculs de moments le cas échéant)
Nombre d’observation N=23 (nombre de variables P=6)

Σ X1= 8686 Σ (X1-m1)²= 1.9132e+005 (mi est la moyenne de Xi)
Σ X2= 6866 Σ (X2-m2)²= 1.1316e+005
Σ X3= 9066 Σ (X3-m3)²= 1.3704e+005
Σ X4= 9228 Σ (X4-m4)²= 1.6019e+005
Σ X5= 7525 Σ (X5-m5)²= 2.9103e+005
Σ X6= 4064 Σ (X6-m6)²= 2.1052e+005
Soit Yi la variable réduite de Xi, on donne les sommes suivants :
Σ (Y1 Y2)= 21.1795 Σ (Y3 Y4)= 21.2313
Σ (Y1 Y3)= 13.9988 Σ (Y3 Y5)= 10.4109
Σ (Y1 Y4)= 15.4661 Σ (Y3 Y6)= 6.8623
Σ (Y1 Y5)= 14.7579 Σ (Y4 Y5)= 11.7626
Σ (Y1 Y6)= 14.2007 Σ (Y4 Y6)= 7.8448
Σ (Y2 Y3)= 13.1963 Σ (Y5 Y6)= 20.2260
Σ (Y2 Y4)= 14.9980 Σ (Y2 Y5)= 12.7056 Σ (Y2 Y6)= 11.6087
Soit CY la matrice de covariance de Y.
La matrice diagonale de CY est :
0.021 0 0 0 0 0
0 0.025 0 0 0 0
0 0 0.07 0 0 0
0 0 0 0.554 0 0
0 0 0 0 1.123 0
0 0 0 0 0 4.208
La matrice de passage P est :
0.646 -0.317 0.232 -0.473 0.013 0.452
-0.585 0.167 -0.238 -0.621 -0.066 0.428
-0.340 -0.492 0.325 0.383 -0.489 0.388
0.312 0.648 -0.188 0.283 -0.443 0.414
0.045 -0.313 -0.646 0.350 0.447 0.401
-0.158 0.335 0.575 0.203 0.601 0.360
4
ACP : ORGANIGRAMME METHODOLOGIQUE (version préliminaire) 1
1
NB : A gauche : variables centrées réduites (moyenne nulle et variance unité) ; et à droite : variables centrées mais pas réduites (variances brutes).
CHAP. 3
Chapître 3 (A):
PROCESSUS HYDROLOGIQUES
(Chroniques Hydrologiques et
Processus Aléatoires Autocorrélés)
Hydrologie Statistique 2005-06 (R.Ababou, A. Al-Bitar) 1
PLAN du CHAPITRE 3 (PROCESSUS HYDROLOGIQUES)

¾ 3.A. Bases de l’analyse statistique des séries chronologiques
considérées comme des processus aléatoires temporels
autocorrélés ; exemples de chroniques issues de mesures hydro-
météorologiques (et hydrogéologiques) ; modélisation de sries
autocorrélées (processus AR1, ARMA,…).
¾ 3.B. Analyse corrélatoire croisée, systèmes entrée/sortie, modèle de
convolution statistique, et application à l’analyse et à la
reconstruction de chroniques pluies-débits ; voir Travaux Dirigés :
identification statistique d’une fonction de transfert pluie-débit
(Hydrogramme Unitaire Statistique). [Estimation géostatistique
(x,y) : selon les années(*)].
NB(*) : Selon les années, on pourra étudier en « projet » un problème
d’estimation géostatistique (variables régionalisées), ou encore, de modélisation et
reconstruction de chroniques hydro(géo)logiques (pluies, débits,…).
BIBLIO./DOCS :
¾ Bras R. et I.Rodriguez-Iturbe: «Random Functions in Hydrology», Dover, NY.
¾ http://rachid.ababou.free.fr Î Hydro.Stat Î Proba.Stat.
PLANNING DES TRAVAUX DIRIGES (A TITRE INDICATIF)
Date No. TD Chap. Intitulé & contenu du TD
TD 1/4 I.A ; Crues annuelles, crues rares, temps de retour
I.B (Garonne ; Oued Mdez).
TD 2/4 II. Reconstitution et critique de données
pluviométriques par corrélation et régression
entre stations ; et/ou :
Corrélations multiples & Analyse en
Composantes Principales pour l’étude des
redondances entre stations hydrologiques.
Chap.3Î TD 3/4 III. Identification (déconvolution) statistique de
la fonction de transfert pluie-débit en temps
discret, durée finie : formulation algébrique
et application de la théorie...
Chap.3Î TD 4/4 III. Mini Bureau d’Etude. Utilisation de
programmes MATLAB en salle informatique
(Hydrogramme Unitaire Statistique) avec des
données réelles.
RAPPEL : Une étude de cas sera traitée en « projet » (selon les années), soit sur un problème d’estimation géostatistique
(variables régionalisées), soit sur la reconstruction de chroniques hydrologiques (processus aléatoires, HU statistique…).
CHRONOLOGIE COURS/TD POUR 2005-06 (m.à.jour : 29 Nov.05 + 9 Jan.06)

Séance=«S» ; Cours=«C» ; Travaux Dirigés=«TD», Bureau d’Etude=«BE»
S1 : C1 : 22 Nov.2005 : RA : Intro. hydro. stat : données; modèles stat.
S2 : C2 : RA : Ch.0 : Bases proba-stat & Ch.1 : Analyse Univar.
S3 : C3 : RA : Ch.1 suite/fin: Analyse Univariée + loi Poisson
S4 : TD1 : AA : Crues historiques Garonne (H) : Gumbel, Poisson
S5 : C4 : RA : Ch.2 : Analyse Multivariée (tout)
S6 : TD2 : AA : Analyse multivar & ACP / Q mensuels en 6 stations
S7 : C5 : Mar10JAN06 10-12h : RA : Ch.3 : Bases / Process.Aléat. ; Autorégress.
S8 : C6 : Mar17JAN06 10-12h : RA :Ch.3 fin : Covar.croisée ; H.U.stat. P(t)ÎQ(t)
S9 : TD3 : Mer18JAN06 8h-10h : AA(RA): Identif HU P(t)ÎQ(t): calculs algébriques
S10: TD4+BE (*): Mar24JAN06 8h-10h : RA&AA : Implémentation numérique en
MATLAB : ident. HU stat. P(t)ÎQ(t) & reconstitutions de chroniques de débits.
(*) Le dernier TD du 24 Janvier se déroulera en salle machine C106, et fera l’objet d’un
compte-rendu de BE, à titre de contrôle, à remettre au secrétariat Hydraulique au 31 Janv. 2006.

Chapître 3 (A):
PROCESSUS HYDROLOGIQUES
(Chroniques Hydrologiques et
Processus Aléatoires Autocorrélés)
CHAPITRE 3 : PROCESSUS HYDROLOGIQUES

3.A. CHRONIQUES HYDROLOGIQUES, PROCESSUS AUTOCORRELES (BASES)
¾ Exemples de chroniques hydrologiques, météorologiques,
hydrogéologiques : pluies ; débits ; niveaux d’eau ; piézométries ;
pression atmosphérique ; température ;…
¾ Bases statistiques et probabilistes (théorie) : analyse de processus
physiques temporels comme des processus aléatoires autocorrélés
(en temps continu ; en temps discret)…
¾ Modélisation de séries autocorrélées : les processus modèles de
type AR, ARMA, etc. Cas particulier : formulation et identification
d’un processus AR1 (Auto-Régressif d’Ordre 1) en temps discret.
¾ Biblio de base :
Bras R. et I.Rodriguez-Iturbe: «Random Functions in Hydrology», Dover, NY.
http://rachid.ababou.free.fr Î Hydro.Stat Î Proba.Stat.

COMPARAISON DE CHRONIQUES PLUIES – DEBITS AU SRI LANKA :
Précipitation (mm) et débit spécifique (mm) sur 4 années (1974-77) ; les
chroniques journalières ont été agrégées par quinzaine (∆t = 15 j)
Exemples de Chroniques Hydrologiques
(rappels : revoir introduction du cours – Ch.0)
Résumé. Cette section….
Rainfall Rates (Aliou)

60
40
20
0
0 500 1000 1500 2000 2500 3000 3500 4000
time in hours
Runoff Rates (Aliou)
0
0 500 1000 1500 2000 2500 3000 3500 4000
time in hours
Pluies & débits semi-horaires (Aliou)


Introduction aux Processus Aléatoires X(t) ou X(tn)
Résumé. Cette section comporte des schémas et graphiques illustrant qualitativement le

concept de Fonction Aléatoire (FA), et les propriétés importantes de stationnarité et
d’ergodicité, à travers le cas particulier des processus aléatoires, ou processus stochastiques
X(t). Toutes ces définitions et propriétés seront reprises plus précisément par la suite.

Introduction aux Processus Aléatoires X(t) – suite…
Processus aléatoire X(t) : définition

Soit une fonction X(t) (t∈IR ou IR+) : X(t) est une fonction ou processus aléatoire
si pour chaque temps t1 fixé X(t1) est une variable aléatoire.
Le processus X(t) est entièrement caractérisée (en probabilité) si l'on connaît la
densité de probabilité (d.d.p) jointe multivariée de toute collection finie (vecteur)
X = {X(t1), X(t2),…, X(ti),…, X(tN)}, ceci ∀ le choix des {ti} et ∀ N fini.
Processus gaussien : définition

Un processus aléatoire X(t) est dit gaussien si toute collection finie X = {X(t1),
X(t2),…, X(ti),…, X(tN)} forme un vecteur aléatoire gaussien, ceci ∀ le choix des
{ti} et ∀ N fini. Le vecteur X a donc une d.d.p (PDF) multivariée gaussienne.
Dans ce cas, le processus est complètement caractérisé par sa moyenne et sa
fonction d'autocovariance (voir plus loin).

Moments d'un processus X(t)
Moment d'ordre 1 en 1 point : Moyenne E(X(t)) = mX(t)
Moment d'ordre 2 en 1 point : Variance Var(X(t)) = σX2(t)
Moment d'ordre 2 en 2 points: Auto-Covar CXX(t',t") = Cov(X(t'),X(t"))
Remarques / Rappels:
Moments d’ordre 2 :
Var(x)=E((x-mx)2),
Cov(x,y)=E((x-mx)(y-my)) Î CXX(t,t) = σX2(t).
Moments d’ordre > 2 :
Les prochains moments à définir sont ceux d'ordre 3 [en 1, 2, et 3 points].
Pour un processus gaussien, il suffit de connaître les moments jusqu'à l'ordre 2.
Même si le processus n'est pas gaussien, on se contente souvent de l’ordre 2.
Le moment d'ordre 3 en 1 point, normalisé par σX3, donne le coeff. d'asymétrie γ
qui quantifie l'asymétrie de la d.d.p en 1 point (fX) de X(t). Le processus X(t) peut
être gaussien si |γ| <<1 (condition nécessaire, non suffisante).
Processus stationnaire
Un processus aléatoire X(t) est dit "stationnaire" ou encore "homogène"
(statistiquement) si ses moments sont invariants par translation du temps
(invariance / t Î t+to)…
Stationnarité stricte
Tous les moments d'ordre 1,2,…,N (∀N fini) sont invariants…
Stationnarité d'ordre 2
On se contente souvent de supposer l'invariance (stationnarité) des moments d'ordre 1 et 2.
La stationnarité d'ordre 2 implique :
¾ Moyenne : E(X(t)) = mX constante (∀t)
¾ Variance : Var(X(t)) = σX2 constante (∀t)
¾ Auto-Covariance : Cov(X(t'),X(t")) = CXX(t"-t') = CXX(τ) , (∀t', ∀t", t"-t'=τ)
Ainsi, pour un processus stationnaire d'ordre 2… :
¾ L'autocovariance en 2 instants (t',t") ne dépend que du délai τ = t"-t'.
¾ Au délai nul τ = 0, l’autocovariance se réduit à la variance : CXX(0) = σX2 constante.
¾ Enfin, si X(t) est gaussien, la stationnarité d'ordre 2 implique la stationnarité stricte.

Non-stationnarité : exemples de processus non-stationnaires
Si le processus YS(t) est stationnaire de moyenne nulle, les processus X(t) ci-
dessous sont non-stationnaires :
X(t) = a0 + b0×t + YS(t) ; Í dérive linéaire en moyenne
X(t) = m0 + √t × YS(t) ; Í variance croissant linéairement
X(t) = m0 + e-bt×YS(eat) ; Í…
Cependant, dans l’exemple ci-dessus, les processus X(t) peuvent être ramenés à
des processus stationnaires par un démoyennage ou un filtrage approprié…
Hypothèse d'ergodicité
Pour un processus stationnaire, l'hypothèse d'ergodicité pose l'équivalence entre
moyenne d'ensemble (espérance math.) et moyenne temporelle (ou spatiale)
sur un domaine infini, soit :
T
1
¾ m X ≡ E ( X (t )) m =
⇔ X Tlim
→∞ T
∫0 X (s )ds = constante
Plus précisément, l'équivalence doit être postulée pour chaque moment "utile"
(selon les applications envisagées) : ergodicité pour la moyenne mX (ci-dessus),
mais aussi ergodicité pour la variance σX2 :
( )
T
1
σ ≡ E ( X (t ) − m X ) ⇔ σ X = Tlim ∫ ( X (s ) − m )
2 2 2
¾
2
X ds = constante
X →∞ T
0
et ergodicité pour l'auto-covariance CXX(τ) (fonction du délai τ) :
¾ C XX (τ ) ≡ E (( X (t ) − m X )( X (t + τ ) − m X )) ⇔
T −τ
1
C XX (τ ) = lim ∫ ( X (s ) − m )( X (s + τ ) − m ) ds = fonction du délai(τ).
T →∞ T − τ
X X
0

Echantillonage d’un processus ergodique
Si le processus X(t) est stationnaire et ergodique, les moments peuvent
donc être estimés « sans biais » à partir de prises de moyennes temporelles
sur une réalisation unique du processus - à condition de disposer d'une
plage d'observation T suffisamment longue (T→∞) !
En pratique, c’est ce qu’on fait souvent en hydrologie (moyenne temporelle,
variance temporelle, etc)…
Limitations de l’hypothèse d’ergodicité / processus réels

Pour pouvoir appliquer l'hypothèse d'ergodicité, il faut que T >> τ0 , où τ0
est une échelle caractéristique de fluctuation telle que la longueur
intégrale d'autocorrélation (ci-dessous...).
Enfin, pour tester la validité de l'hypothèse d'ergodicité, il faudrait
d'abord générer ou disposer de multiples réalisations du processus X(t)…
Fonctions d'auto-corrélation
Fonction d'autocorrélation RXX : définition
¾ RXX(τ) = CXX(τ) / σX2
Propriétés de RXX(τ)
¾ -1 ≤ RXX(τ) ≤ +1 , ∀τ ∈ IR
¾ RXX(τ) est paire : RXX(-τ) = RXX(+τ)
¾ RXX(0)=1 et RXX(±∞)→0
Exemples de fonctions d'autocorrélation

Exponentielle : RXX(τ) = exp(-|τ|/τo) [irrégulier, non différentiable]
Gaussienne : RXX(τ) = exp(-(τ/τ0)2) [très régulier & différentiable tant qu’on veut]
Bruit blanc : RXX(τ) = c0 δ(τ) [pathologique…mais très utile ! voir plus loin]

Fonctions d'auto-corrélation (suite)…
Echelle intégrale d'autocorrélation (τ*)

∞
τ * = ∫ R XX (τ )dτ
0
Exemple – cas d’un processus X(t) à autocorrélation exponentielle
Pour la fonction d'autocorrélation exponentielle RXX(τ)=exp(-τ/τ0), on obtient :
τ* = τ0
On voit que le temps caractéristique τ0 représente dans ce cas l’échelle intégrale
d’autocorrélation du processus X(t).
Autres échelles de fluctuation

On peut définir d’autres échelles de fluctuation (voir les processus anti-corrélés :
cas de l'autocorrélation gaussienne à trou)…
Processus X(t) en temps continu / Processus X(tn) en temps discret
On a choisi jusqu’ici de présenter les caractéristiques des processus

autocorrélés en temps continus, plutôt qu’en temps discret…
Pour un processus aléatoire à temps discret, remplacer toutes les
intégrales temporelles par des sommes discrètes.
Il est cependant parfois très commode de continuer à raisonner en temps
continu avant de passer in fine à la formulation en temps discret (…).

Auto-corrélations de débits spécifiques journaliers :
station de Jesmin, Gin Ganga, Sri Lanka.
Etude : R.Ababou & K.Desnos, 2000.
50 jours = 2 mois
Auto-corrélations de débits spécifiques bi-mensuels

(débits journaliers agrégés sur des quinzaines) :
station de Jesmin, Gin Ganga, Sri Lanka.
Etude : R.Ababou & K.Desnos, 2000.
50 quinzaines = 2 ans

Interprétation de fonctions d’autocorrélation (débits Sri Lanka)
Les figures ci-dessous représentent les fonctions d’autocorrélation des débits journaliers
(∆t=1j) et des débits bi-mensuels (∆t=15 j) en une même station, les débits bimensuels étant
obtenus par intégration des débits journaliers sur des périodes successives de 15 jours.
Cette analyse statistique a été effectuée dans le cadre d’une étude sur la régionalisation des
débits dans un bassin versant du Sri Lanka (ici la station de jaugeage de Jesmin).
1. Commenter et interpréter la fonction ρQQ(τ) journalière
2. Commenter et interpréter la fonction ρQQ(τ) bi-mensuelle
3. Comparer journalière/bimensuelle ; remarques ; conclusions.
NB : Cf. questions de contrôle 2004-05.
50 quinzaines = 2 ans
50 jours = 2 mois
Echelle des délais : -50 à +50 quinzaines

Echelle des délais : -50 à +50 jours
Interprétation de fonctions d’autocorrélation (débits Sri Lanka)

Le graphe (xx) montre la fonction d’auto-corrélation des débits agrégés à 15 jours (débits
”bimensuels”) pour un fleuve du Sri-Lanka. Le pas de temps utilisé est égal à la période
d’agrégation (∆t = 15j = 1 quinzaine). On a reproduit ici la fonction d’autocorrélation des
débits sur un délai total de ±50 quinzaines (environ deux années).
On note que les autocorrélations positives alternent avec les autocorrélations négatives
(anticorrélation). En fait, la périodicité de la fonction d’autocorrélation reflète les
périodicités de la chronique à différentes échelles de temps (seules les échelles de temps
comprises entre 15 jours et 2 ans sont ”visibles” ici): autocorrélation périodique
intersaison (semestrielle) et interannuelle (annuelle).
Ces périodicités sont imparfaites (car ρ n’oscille pas entre -1 et +1), mais elles sont
statistiquement significatives : de l’ordre de ±30% annuellement, et de l’ordre de ±15%
en périodicité semi-annuelle (semestrielle). Ces deux périodicités sont dues au régime à
deux moussons qui caractérise la région étudiée.
En dehors de ces deux périodicités remarquables, on remarque que la corrélation entre
deux délais successifs (deux quinzaines successives) est relativement forte (ρ ≈+0.5) mais
diminue très nettement au troisième délai : ρ ≈ 0 (ou faible) pour un délai τ ≈ 3×15 jours
(un mois et demi). Les débits agrégés bimensuels sont donc peu corrélés au pas de temps
15 jours, leur autocorrélation devenant quasi-nulle pour un délai supérieur ou égal à un
mois et 1/2 – ceci à condition de séparer l’effet périodique des moussons discuté + haut.
NB: Cette analyse a aussi été appliquée aux stations pluviométriques de la même région; elle
permet de tirer des conclusions similaires concernant les pluies agrégées bimensuelles.
Modèle de processus aléatoire
autorégressif du 1er ordre (AR1)
 X n +1 = ρ1 X n + sε n +1  X n = X (t n );
 
t = 0 : X = X 0 ε n = ε (t n );
 ε = 0; ε ε = δ t = n∆t
 n m n mn n
C XX (τ ) C XX (τ )
ρ1 = RXX (τ 1 ) avec τ 1 = 1× ∆t ; R XX (τ ) = =
C XX ( 0 ) σ X2
s = σ X 1− ρ 2
σ = Var ( X ) = × ∑i =1 ( X i − X
1
)
i= N 2
2
1 X
N
Applications possibles : prédictions à court terme (alerte crues/inondations); génération

de chroniques (débits); reconstitutions de données (comblement de lacunes)…
Processus aléatoires en temps discret :
modèles de processus de type « ARMA »
(auto-régressif AR, moving average MA)
Introduction – différents modèles de processus aléatoires
En construction….
Processus purement aléatoire en temps discret : le bruit blanc en temps discret (rappels - voir bruit
blanc en temps continu)…
Une classe de processus en temps discret : les processus ARMA. Application au traitement du
signal en électronique et télécommunications, géophysique du globe, hydro-météorologie, etc.
Théorie des systèmes dynamiques linéaires stochastiques : en temps continu ; en temps discret.
Choix des exemples : le processus AR d’ordre 1…, et le processus MA…
Combinaisons AR-MA et généralisations : les processus de classe ARMA, ARIMA, ARMAX…
Approfondissements : voir références (Box & Jenkins ; Gelb ; Bras & Rodriguez-Iturbe ; R.A.).
Etude du modèle AR1 : processus Auto-Régressif d’ordre 1
Le modèle AR1 est développé ci-dessous (analysé plus en détail en classe : Cours ou TD).
Etude du modèle AR1 : processus Auto-Régressif d’ordre 1

Le modèle AR1 est développé ci-dessous (analysé plus en détail en classe : Cours ou TD).
Introduction. Le modèle auto-régressif d’ordre 1 (AR1) consiste à supposer que
le processus étudié (par exemple une chronique de débit ou de hauteur d’eau) est
régi en temps discret par une équation de la forme :
X n +1 = ρ1 X n + s ε n +1
(« n » étant le nombre de pas de temps),
ou encore (notation de Box et Jenkins reprise par Bras et Rodriguez-Iturbe) :
Z t = φ1 Z t −1 + at (« t » étant alors ici le temps discret…).
Ce modèle génère un processus Zt qui peut être stationnaire ou non. Cependant, il
existe une condition initiale telle que le processus soit stationnaire. Dans ce ca, la
variance du processus est nécessairement constante et égale à :
σ a2
σ =2
1 − φ12 ,
Z
et de plus, on montre également que le paramètre φ1 est égal à l‘autocorrélation ρ1

du processus pour un délai unitaire (τ = 1×∆t) :
Cov(Z (t + ∆t ), Z (t )) CZZ (∆t )
φ1 = ρ1 où, par définition : ρ1 = = = ρ ZZ (∆t ) .
σ 2
Z σ Z2
Noter que ρ1 est encore appelée « one-lag correlation ».
Etude du modèle AR1 : processus Auto-Régressif d’ordre 1 (SUITE)
AR1 : Relation t-discret (AR1) ↔ t-continu (Langevin)
Rappelons que le modèle auto-régressif d’ordre 1 (AR1) est en temps discret (tn=n∆t).
On peut montrer (*) en passant à la limite ∆t → 0, que le processus AR1 est équivalent
au modèle de Langevin, selon lequel le processus X(t) est régi en temps continu a
l’équation différentielle stochastique :
dX
« Langevin » : dt + λ0 X (t ) = σ 0 f (t ) pour t ≥ 0 ; et X(0) = 0.
Le forçage f(t) est un bruit blanc unitaire gaussien d’autocovariance : Cff(τ) = δ(τ).
Et g(t)=σ0 f(t) est un bruit blanc non-unitaire d’intensité c0 = σ02 : Cgg(τ) = c0 δ(τ).
La condition initiale déterministe X(0) = Xo = 0 fait que X(t) n’est pas stationnaire
aux temps courts ; mais pour t→∝, X(t) tend quand même vers un processus
stationnaire de moyenne nulle et de covariance :
CXX(t,t+τ) ≈ (σ02 / 2λ0) exp(-λo.|τ|) …si t >> τo , avec τo =1/λo ,
où τo =1/λo est le temps d’autocorrélation du processus de Langevin X(t).
Si l’on prend comme condition initiale une variable aléatoire Xo de moyenne nulle et
de variance (σ0 / 2λ0), le processus de Langevin est alors stationnaire (∀t).
2
Ceci est tout à fait analogue au cas du processus AR1 en temps discret.

dX
« Langevin » : dt + λ0 X (t ) = σ 0 f (t ) pour t ≥ 0 ; et X(0) = 0.

AR1 : Relation t-discret (AR1) ↔ t-continu (Langevin) (SUITE)
Démonstration abrégée de l’équivalence AR1/Langevin.
Partons d’un processus de Langevin en temps continu, et voyons ce qu’il devient après
discrétisation temporelle (intégration de Langevin sur des pas de temps ∆t finis) :
dX
+λ0 X (t )=σ 0 f (t ) ? ⇒ ? X n+1 = ρ1 X n + s ε n+1
dt PROCESSUS de LANGEVIN
PROCESSUS << AR1>>
En intégrant donc l’éq. de Langevin entre t(n) et t(n+1), on aboutit à un schéma de

type différences finies explicites (schéma d’Euler « avant ») : …
On peut calculer la variance du 2nd membre de cette équation discrète (le 2nd membre
est le bruit blanc intégré entre t(n) et t(n+1)) : …cette variance est égale co/∆t.
En remaniant l’équation aux différences obtenue, on voit finalement qu’elle est bien
de la forme de l’équation autoregressive AR1 en temps discret, avec les paramètres :
ρ1 =
( 2)
1 − λ∆t
1 + (λ∆t )
s = c0 ∆t
2
Remarques : (∀∆t) le paramètre ρ1 est toujours compris dans l’intervalle [-1,+1].
Ainsi, ρ1 peut être interprété comme un « lag-one correlation » (∀∆t) ; de plus, cette
corrélation ρ1 peut être positive ou négative, selon le pas de temps ∆t utilisé.
A l’inverse… en faisant maintenant tendre ∆t → 0, on voit que le processus AR1 tend
bien vers un processus de Langevin (C.Q.F.D).

Extensions (en construction)…
Formulation AR1 / Thomas-Fiering. Le modèle de Thomas-Fiering est, simplement, le
modèle AR1 formulé comme suit (formulation équivalente aux précédentes, sauf que le
processus peut avoir plus généralement une moyenne µ non nulle) :
X t − µ = ρ1.( X t −1 − µ ) + σ X . 1 − ρ12 .Wt (t est ici le temps discret)
Modèle non-stationnaire saisonnier de Thomas-Fiering. Cette généralisation du modèle

AR1 consiste à rendre la moyenne, la variance et la corrélation lag-one (ρ1) dépendantes
de la « saison » : le modèle est alors non-stationnaire de type saisonnier.
L’autocorrélation du processus dépend non seulement du délai τ (lag-one : τ = 1×∆t)
mais aussi de la saison (j-ème saison de l’année). Ce modèle AR1-saisonnier s’écrit :
 t = n.∆t 
X t , j − m j = ρ1, j .(X t , j −1 − m j −1 ) + σ j . 1 − ρ12, j .Wt , j  j = 1,..., J 
 
Le paramètre (ρ1,j) est l’autocorrélation « lag-one » entre saisons (j-1) et (j).
Le processus (Xt,j) représente le débit au temps discret (t) dans la saison (j).
Si J est la dernière saison de l’année (J=4), on pose : Xt,J+1 = Xt+1,1.
Année (t-1) Année (t) …
Saison j=1 Saison j=2 Saison j=3 Saison j=4 Saison j=1 Saison j=2 Saison j=3 Saison j=4 …

Caractérisation et identification statistique du processus AR1
On étudie ici les propriétés statistiques du modèle auto-régressif d’ordre 1 (AR1),
ce qui mène à démontrer une condition de stationnarité, et à obtenir ses propriétés
stationnaires (variance, autocovariance). Une fois connue cette caractérisation
théorique, il devient possible, par comparaison/ajustement, d’essayer d’identifier
une chronique hydrologique réelle à un processus de type AR1.
 X n +1 = ρ1 X n + s ε n +1
Equation du processus AR1 :  t = 0: X = X0

Notations : X n = X (t n ); ε n = ε (t n ); t n = n.∆t
X n +1 = ρ1 X n + s ε n +1
X n +1 = ρ1 X n + 0
Moyenne :
X n +1 = (ρ1 )
n +1
X0
X0 = 0 ⇒ Xn = 0 (∀n )

Caractérisation et identification statistique du processus AR1 (SUITE)
Covariance : X n X m = ...
Î Si m > n, posons m = n+k avec k = m-n > 0 :
X n X m = X n X n+k
j =k
Calcul auxiliaire : X n + k = ρ X n + s.∑ ρ j −1ε n + k − j +1

k
j =1
 k j =k

X n X n+k = X n  ρ X n + s.∑ ρ j −1ε n + k − j +1 

 j =1 
j =k
X n X n + k = ρ k X n X n + s.∑ ρ j −1 X nε n + k − j +1
j =1
X nε n + k − j +1 = 0 ∀(k − j + 1) ≥ 1
En effet, les Xn ne dépendent pas des εm futurs (m>n)
X n X n + k = ρ k X n X n ⇒ X n X m = ρ m − n X n X n ∀m > n

Covariance (suite): X n X m = ...

Î Si m < n, posons m = n-k avec k = n-m > 0 :
On obtient de même après calculs……….
X n X n + k = ρ k X n X n ⇒ X n X m = ρ m − n X n X n ∀m< n
Covariance (fin) : On obtient donc finalement :
∀(m< n) : X n X m = ρ × Var ( X (min(t n , t m )))

n−m
Variance. Il reste à calculer la variance de Xn.

j =n
X n = ρ X 0 + s.∑ ρ j −1ε n − j +1
k
Ré-utilisons la formule : j =1
2
 j =n

Var ( X n ) = X n X n =  ρ k X 0 + s.∑ ρ j −1ε n − j +1 
 j =1 
j =n
= ρ 2 n X 0 X 0 + 2 ρ n s.∑ ρ j −1 X 0ε n − j +1
j =1 (R.Ababou, A. Al-Bitar) 29

Variance. Il reste finalement à calculer la variance de Xn.
j =n
X n = ρ X 0 + s.∑ ρ j −1ε n − j +1
k
Ré-utilisons la formule : j =1
2
 k j =n

Var ( X n ) = X n X n =  ρ X 0 + s.∑ ρ j −1ε n − j +1 
 j =1 
j =n i =n j =n
... = ρ 2n
X 0 X 0 + 2 ρ s.∑ ρ
n j −1
X 0ε n − j +1 + s .∑∑ ρ i −1 ρ j −1 ε n −i +1ε n − j +1
2
j =1 i =1 j =1
σ Xo
2
= X0X0
X 0ε n − j +1 = 0 …car Xo ne dépend pas des ε futurs…
ε n −i +1ε n − j +1 = δ i , j …par construction (δij = symbole de Kroneker)

Variance (suite).
Avec ε n −i +1ε n − j +1 = δ i , j , la double somme se réduit à une simple somme (série
géométrique), et tous les autres termes disparaissent.
i=n 1 − ρ 2n
En utilisant alors l’identité ∑ ρ = ρ
2i 2
i =1 1 − ρ 2 , on obtient :
1 − ρ 2n
Var ( X n ) = ρ σ2n 2
+s 2
1− ρ 2
Xo
Condition de stationnarité sur la variance.

On voit que la variance du processus AR1 est en génral no-stationnaire…sauf si
l’on chosit la variance initiale (σXo2) telle que le processus soit stationnaire. Ce
choix existe ; on peut le voir en cherchant à annuler le terme qui dépend de (ρ2n) :
 2 1  2 1 1
Var ( X n ) = ρ 2 n ×  σ Xo − s2 + s ⇒ σ 2
= s 2
 1 − ρ 2  1− ρ 2 Xo
1− ρ 2 .

s2
Var ( X n ) = σ 2
=
1− ρ 2
Xo
La variance du processus est alors bien cstante :
Exercice de cours : identification d’un modèle AR1 (AutoRégressif d’Ordre 1)

Rappels. Définition d’un processus AR1 (cf. cours) :
X n +1 = ρ1 X n + s ε n +1 .
Ce modèle génère un processus Xn stationnaire de moyenne nulle, si on prend pour
condition initiale X0 une variable aléatoire de moyenne nulle et de variance
σXo2 = s2/(1-ρ12). On obtient alors un processus Xn ayant une variance stationnaire
σXn2 = s2/(1-ρ12), ∀ n ≥ 0, et une autocorrélation stationnaire : ρ XX (n, m ) = (ρ1 )
n−m
,
où n et m représentent des temps discrets (ici exprimés en nombres de pas de temps).
On veut utiliser un modèle AR1 pour générer des chroniques de débits (Qn)
journaliers, mensuels, ou même annuels, en prenant par exemple Xn ≡ Qn-mQ. La
1ère étape indispensable est l’identification des paramètres du modèle AR1.
1. Proposer une procédure simple pour identifier « s » et « ρ1 » à partir des
moments empiriques de Qn .
2. Représenter graphiquement ρ XX (n, m) dans 2 cas : ρ1 positif, ρ1 négatif
3. Examiner les chroniques de débits du Sri Lanka (voir figures plus haut) :
peuvent-elles correspondre à un modèle de type AR1 ? Argumenter la réponse
dans les deux cas présentés : (i) débits journaliers ; (ii) débits bi-mensuels.

Suite du CHAPITRE 3 (PROCESSUS HYDROLOGIQUES)
¾ 3.A. Bases de l’analyse statistique des séries chronologiques
considérées comme des processus aléatoires temporels
autocorrélés ; exemples de chroniques issues de mesures hydro-
météorologiques (et hydrogéologiques) ; modélisation de sries
autocorrélées (processus AR1, ARMA,…).
¾ 3.B. Analyse corrélatoire croisée, systèmes entrée/sortie, modèle
de convolution statistique, et application à l’analyse et à la
reconstruction de chroniques pluies-débits… Î voir :
Travaux Dirigés : identification statistique d’une fonction de
transfert pluie-débit (« Hydrogramme Unitaire statistique »).
[Estimation géostatistique (x,y) : selon les années(*)].
NB(*) : Selon les années, on pourra étudier en « projet » un problème
d’estimation géostatistique (variables régionalisées), ou encore, de modélisation et
reconstruction de chroniques hydro(géo)logiques (pluies, débits,…).
BIBLIO./DOCS :
¾ Bras R. et I.Rodriguez-Iturbe: «Random Functions in Hydrology», Dover, NY.
¾ http://rachid.ababou.free.fr Î Hydro.Stat Î Proba.Stat.
CHAP.3 : TRAVAUX DIRIGES SUT L’ANALYSE CROISEE PLUIE-DEBIT

Date No. TD Chap. Intitulé & contenu du TD
TD 1/4 I.A ; Crues annuelles, crues rares, temps de retour
I.B (Garonne ; Oued Mdez).
TD 2/4 II. Reconstitution et critique de données pluviométriques
par corrélation et régression entre stations ; et/ou :
Corrélations multiples & Analyse en Composantes
Principales pour l’étude des redondances entre
stations hydrologiques.
Chap.3Î TD 3/4 III. Identification (déconvolution) statistique de
la fonction de transfert pluie-débit en temps
discret, durée finie : formulation algébrique
et application de la théorie...
Chap.3Î TD 4/4 III. Mini Bureau d’Etude. Utilisation de
programmes MATLAB en salle informatique
(Hydrogramme Unitaire Statistique) avec des
données réelles.
RAPPEL : Une étude de cas sera traitée en « projet » (selon les années), soit sur un problème d’estimation géostatistique
(variables régionalisées), soit sur la reconstruction de chroniques hydrologiques (processus aléatoires, HU statistique…).

MODÈLES PLUIE→DÉBIT :
Identification de Fonction de Transfert - Approches Déterministe et Statistique
Synoptique Abrégé
(A) (B)
MODÈLE PLUIE-DÉBIT MODÈLE PLUIE-DÉBIT
DÉTERMINISTE STATISTIQUE
HYPOTHÈSES COMMUNES :
Intégrale de convolution causale.

Système linéaire, causal, invariant (stationnaire).
A0) TYPES DE DONNÉES B0) TYPES DE DONNÉES
Evènement averse-crue Evènements averses-crues

Isolé, bien défini. composites, complexes.
A1) MODÈLE CAUSAL, B1) MODÈLE CAUSAL,

FORMULATION « FORTE » FORMULATION « FAIBLE »
Convolution causale P(t) → Q(t), Convolution causale P(t) → Q(t),

n'admettant pas d'erreur (ε = 0) : admettant une certaine erreur ε(t) :
t t
Q (t ) = ∫0 h (t − s ) P ( s )ds Q (t ) = ∫0 h(t − s ) P( s )ds + ε (t )
= Qˆ (t ) + ε (t )
Solution: Inverser le système Solution : Minimiser l’erreur :
⇒ Noyau « exact » h(t) Min Var (ε (t )) = E Q (t ) − Qˆ (t )
2
{[ ]}
(solution forte). ⇒ Noyau « optimal » h(t) (sol.faible)
A2)INTERPRÉTATION DÉTERMINISTE B2) INTERPRÉTATION STATISTIQUE
• P(t),Q(t) processus déterministes • P(t),Q(t) process. aléatoires stationnaires
• h(t) solution déterministe d'un • h(t) solution déterministe d'un problème
système linéaire exactement d'optimisation statistique : minimisation
déterminé (l’erreur est nulle). de variance d'erreur (qui reste non nulle).
Hydrologie Générale et Hydrologie Statistique / R.Ababou / Jan.1998

A3) RÉSOLUTION DÉTERMINISTE B3) RÉSOLUTION STATISTIQUE
Equation causale
en temps continu τ∈[0,T]
(équation de Wiener-Hopf) :
T
RPQ (τ ) = ∫0 h( s ) RPP (τ − s )ds , 0<τ<T,
où T ≤ durée des observations de P(t),Q(t).
Equation non-causale
en temps continu τ ∈[-T,+T] :
+T
RPQ (τ ) = ∫−T h( s) RPP (τ − s)ds , -T<τ<T,
où T ≤ durée des observations de P(t),Q(t).
Solution de l'équation causale Solution de l'équation non-causale

en temps discret (ti ) en temps discret (τi ))
⇒ Discrétisation de l'équation de ⇒ On discrétise l'intégrale de convolution ci-

convolution avec ti =(i-1)∆t (i=1,...,N) dessus par sj=(j-1).∆t, τi=(i-1).∆t, et
⇒ Problème d'algèbre linéaire: T=K.∆t.
système matriciel carré P H = Q, où ⇒ On obtient un système matriciel carré
la matrice des pluies est triangulaire symétrique de taille (2K+1)x(2K+1).
inférieure (causale)
⇒ La matrice du système contient les
⇒ Solution directe H = P-1 Q par autocovariances des pluies RPP(τ-s).
substitution (algorithme récursif).
⇒ Résoudre par une méthode appropriée.
AVANTAGES ET INCONVÉNIENTS AVANTAGES ET INCONVÉNIENTS
• Solution très simple à mettre en • Solution assez simple, bien que le

oeuvre : système triangulaire système soit non triangulaire et dense.
• Méthode peu robuste : mauvais • Méthode assez robuste, applicable à
conditionnement, fonctions de des évènements complexes et à des
transfert divergentes ou négatives. chroniques longues de pluies-débits.

Synoptique Détaillé
(A) (B)
Modèle Pluie-Débit Modèle Pluie-Débit
déterministe statistique
HYPOTHÈSES COMMUNES AUX DEUX MODÈLES
La relation pluie-débit est une intégrale de convolution causale
Le système est linéaire
Le système est invariant ou stationnaire
Le système est causal
A0) TYPES DE DONNÉES B0) TYPES DE DONNÉES
1 Evènement averse-crue isolé et 1. Série chronologique comportant un certain
simple, tel que les causes et les effets nombre d'évènements averses-crues assez
sont clairement discernables. complexes, toute relation causale devenant
indiscernable
2 Faible nombre de données, chronique
courte permettant une résolution 2. Grand nombre de données et longues
rapide du système linéaire séries chronologiques favorisant une
approche statistique
A1) MODÈLE CAUSAL, B1) MODÈLE CAUSAL,

FORMULATION "FORTE": FORMULATION "FAIBLE":
Convolution causale P(t) → Q(t), Convolution causale P(t) → Q(t),
n'admettant pas d'erreur (ε = 0) : admettant une certaine erreur ε(t) :
t t
Q (t ) = ∫0 h(t − s ) P ( s )ds Q( t ) =
∫0
h(t − s) P( s)ds + ε (t ) = Q$ (t ) + ε (t )
On cherche à satisfaire "au mieux" l'équation

On impose de satisfaire exactement cette de convolution ⇒ on cherche à minimiser la
équation pour le jeu de données dont on norme quadratique ou la variance de l'erreur :
dispose ⇒ on doit inverser l'opérateur
intégral ou la matrice correspondante Var (ε ( t )) = E Q (t ) − Q
pour trouver le noyau h(t).
ˆ (t ) 2 , {[ ]}
d'où finalement le noyau optimal h(t).
A2)INTERPRÉTATION DÉTERMINISTE B2) INTERPRÉTATION STOCHASTIQUE
• P(t),Q(t) sont 2 signaux déterministes • P(t) et Q(t) sont deux processus aléatoires
correspondant à un évènement corrélés et stationnaires (statistiquement
averse-crue unique et bien identifié. invariants par translation).
• h(t) est une fonction de transfert • h(t) est une fonction de transfert
déterministe, solution d'un système déterministe, solution d'un problème
linéaire (égalité stricte: solution forte). d'optimisation (min. erreur: solution faible)
A3) SOLUTION DÉTERMINISTE : B3) SOLUTION STATISTIQUE :

Solution causale en temps discret (ti ) i) Solution causale, temps continu τ∈[0,T]
Minimisation de la variance d'erreur;
⇒ Discrétisation de l'équation de application du principe d'orthogonalité entre
convolution avec ti =(i-1)∆t (i=1,...,N) inputs (P) et erreur (ε):
⇒ Problème d'algèbre linéaire: système T
matriciel carré P H = Q, où la matrice RPQ (τ ) =
0 ∫
h( s ) RPP (τ − s )ds , 0<τ<T
des pluies est triangulaire inférieure
(causale) où T ≤ durée totale des observations (P,Q).
⇒ Solution directe H = P Q obtenue L'équation en temps continu et sa résolution

-1
par substitution (algorithme récursif). par transformée de Laplace sont connues

sous le nom de Wiener-Hopf. La solution est
compliquée par la contrainte de causalité. (voir
Papoulis 1964).
ii) Solution non-causale, τ ∈[-T,+T]

Si on relaxe la contrainte de causalité dans
l'expression statistique du problème, on
obtient la même équation mais avec intégrale
de s=-T à s=+T, et τ ∈ [-T,+T] :
+T
RPQ (τ ) = ∫−T h( s) RPP (τ − s)ds , -T<τ<+T
où T ≤ durée totale des observations (P,Q).
ii) Solution non-causale en temps discret τi

⇒ On discrétise l'intégrale de convolution ci-
dessus par sj=(j-1).∆t, τi=(i-1).∆t, et T=K.∆t.
⇒ On obtient un système matriciel carré
symétrique de taille (2K+1)x(2K+1).
⇒ La matrice du système contient les
autocovariances des pluies RPP(τ-s).
⇒ Résoudre par une méthode appropriée.
iv) Solution non-causale, τ ∈[-∞,+∞]

On peut simplifier encore en faisant tendre la
taille du domaine d'observation vers l'infini,
d'où l'équation équation RPQ(τ) ci-dessus avec
intégrale de s=-∞ à s=+∞, et τ ∈ [-∞,+∞].
On obtient alors la solution h(τ) par

Transformée de Fourier en domaine infini :

1 S PQ (ω )
H (ω ) =
2π S PP (ω )
où H(ω) représente la TdF de h(τ), et S(ω) la
TdF ou densité spectrale de R(τ). Il ne reste
plus alors qu'à obtenir h(τ) par TdF inverse.
AVANTAGES ET INCONVÉNIENTS AVANTAGES ET INCONVÉNIENTS

Solution simple à mettre en Solution assez simple, bien que le
oeuvre : résolution directe d'un système linéaire obtenu soit en général
système triangulaire inférieur (causal) dense, et non-triangulaire même si le
par subsitution avant. modèle P(t)→Q(t) est causal.
Méthode peu robuste. En effet : Méthode relativement robuste,
⇒ Mauvais conditionnement du système, applicable à des évènements composites
d'où impossibilité d'obtenir une solution ou complexes et (donc) à des chroniques
numérique dans les cas suivants: longues.
averse non isolée, non impulsionnelle, La fonction de transfert résulte d'une sorte
chroniques de pluies (débits) longues, de prise de moyenne statistique et ne rend
complexes, multimodales, bruitées,
non-causales...
pas compte en général des évènements
extrêmes et/ou fortement non-linéaires
⇒ Dans certains des cas précédents, par (crues-étiages).
exemple averse non-impulsionnelle, on
peut avoir une fonction de transfert La fonction de transfert peut prendre en
convergente mais comportant des compte la causalité de façon statistique,
fluctuations négatives non physiques. mais elle n'est pas strictement causale au
sens classique (déterministe).
Enfin, la fonction de transfert obtenue
est relative à l'averse étudiée, et le
procédé doit être itéré afin de prendre
en compte d'autres averses isolées (la
méthode ne dit pas comment).

TD 3/4 “HU“
F.d.Transfert
P(t)ÎQ(t)
Données pluies-débits semi-horaires (source karstique d’Aliou)
Aliou semi-horaire w/HU-STAT-5_V2.m (R.Ababou, Fev.2006)
« HU5_Aliou93_QobsQsim_M337ZOOM3.emf » (etc.)

Noms des fichiers images : « HU5_Aliou93_QobsQsim_M337ZOOM3.emf » (etc…)
ALIOU SEMI-HORAIRE 1993 (Pluie-Débit)

Fonction de transfert H non-causale (non-causal deconvolution) : delais positifs et negatifs)
0.03
0.025
0.02
0.015
0.01
0.005
-0.005
-0.01
-100 -80 -60 -40 -20 0 20 40 60 80 100
Delai discret (discrete lag)
Cut-off : M = 100 (demi-heures)
1
« HU5_Aliou93_QobsQsim_M337ZOOM3.emf » (etc.)
Output Y(t) simulé (trait fin en rouge) et observé (trait gras en noir) -- Y(t) non centré; temps discret.
5
-1
5500 5600 5700 5800 5900 6000 6100 6200 6300 6400 6500
ZOOM 3
8
REFERENCES
X.X. LISTE DE REFERENCES (en construction)
POLYCOPIES D’HYDROLOGIE STATISTIQUE
¾ ABABOU R.(2004+): Hydrologie Statistique. Polycopié électronique –
éléments de cours et exercices. Documents électroniques sur le site web :
http://rachid.ababou.free.fr
¾ GAUDU R.: Cours d'Hydrologie 1 : éléments de polycopié pour
l’« Hydrologie Statistique » (ENSEEIHT, circa 1990).
DUBAND D., 1972: Hydrologie statistique approfondie.
Cours polycopié (EDF-DER & ENS d'Hydraulique de Grenoble).
OUVRAGES D’HYDROLOGIE STATISTIQUE
BOX, G.E.P. & G.M. JENKINS. 1976. Time Series Analysis, Forecasting,
and Control. Revised Edition. San Francisco, CA: Holden-Day Publishers.
¾ BRAS R., I.RODRIGUEZ-ITURBE : Random Functions in Hydrology,
Dover, New York.
¾ CHOW V.T., MAIDMENT D.R., MAYS L.W. Applied Hydrology. Mc
Graw-Hill International Editions, Civil Engineering Series, 572 pp.,1988.
¾ DELLEUR:…
¾ GELHAR L.W. Stochastic Subsurface Hydrology. Prentice Hall, Englewood
Cliffs, New Jersey, 390 pp., 1993.
¾ REMENIERAS G., 1965 & 1976 : Hydrologie de l'ingénieur. Eyrolles
(Collection EDF-DER), 456pp., 1976.
YEVJEVICH:…
OUVRAGES DE GEOSTATISTIQUE
ISAAKS, E. H., R. M. SRIVASTAVA. 1989. An Introduction to Applied
Geostatistics. Oxford: Oxford University Press: 561pp.
GSLIB : Geostatistical Library (….)
JOURNEL, A. G., C. J. HUIJBREGTS. 1978. Mining Geostatistics. New
York: Academic Press: 600pp.
MARSILY, de , G., 1986. Quantitative Hydrogeology (Groundwater
Hydrology for Engineers). Academic Press. New York. 440 pp.
OUVRAGES PROBABILITÉ-STATISTIQUE
BAIN L.J. Statistical Analysis of Reliability and Life-Testing Models
(Theory and Methods). Marcel Dekker Inc. New-York and Basel. 19xx.
BASS J.: Eléments de calcul des proba…
BLANC-LAPIERRE : (Théorie des focntions aléatoires)…
CHEENEY, R.F. 1983. Statistical Methods in Geology. George Allen &
Unwin. London.
¾ CAUTROT B., et al.: Les méthodes de prévision. PUF "Que Sais-Je?".
FELLER W.: An introduction to probability theory and applications.
GASQUET C., P.WITOMSKI, 1990, Analyse de Fourier et Applications
(filtrage, calcul numérique, ondelettes), Masson, Paris, 354 pp.
JENKINS G.M., WATTS D.G., 1968. Spectral analysis ant its applications.
Holden Day. 525 p.
KENDALL M.G., A. STUART A., (1977), "The Advanced Theory of
Statistics", Vol. 1, Distribution Theory, MacMillan, New York, 472 pp.
KENDALL M.G. …(1977), "The Advanced Theory of Statistics", Vol. 2,…
KENKEL, J.L. Introductory Statistics for Management and Economics. 2nd
Edition. Boston, Massachusetts, Duxbury Press. 1984.
LOÈVE M., (1963,1978), Probability Theory, Vol. II; Springer-Verlag, 1978.
MAX J., 1980. Méthodes et techniques de traitement du signal et applications
aux mesures physiques, Masson Paris, 379 p. (2 vols.)…
MONIN A.S., YAGLOM A.M., (1965), Statistical Fluid Mechanics:
Mechanics of Turbulence (Volume 2), Ed. J. L. Lumley, The MIT Press,
Cambridge, Mass. (874 pp). [Contient un exposé détaillé de la théorie des
fonctions aléatoires…].
PAPOULIS A., 1965 : Probability, Random Variables, and Stochastic
Processes. Mc Graw-Hill Book Company, New York. 1965.
¾ PAPOULIS A., et al. (idem - nouvelle édition augmentée)…
PRIESTLEY M.B.1981. Spectral analysis and time series. Acad. Press, 890p.
PRIESTLEY M.B., 1988. Non-linear and non-stationnary time series
analysis. Academic Press, 237 p.
¾ TASSI Ph., 1989 : Méthodes statistiques, Economica.
VANMARCKE, E. 1983. Random Fields: Analysis and Synthesis.
Cambridge, Mass.: Massachusetts Institute of Technology Press: 382pp.
¾ VENTSEL H., 1973 : Théorie des probabilités. Editions Mir, Moscou.
[French translation, from Russian, by A. Sokova, MIR, Moscow, USSR]
YAGLOM, A. M. 1962. Stationary Random Functions. R. A. Silverman,
trans. & ed. New York: Dover: 235pp.
ARTICLES & RECHERCHES
ABABOU R., A.C. BAGTZOGLOU, E.F. WOOD, On the Condition
Number of Covariance Matrices Arising in Kriging, Estimation, and
Simulation of Random Fields. Math. Geol., Vol.26, No.1, pp. 99-133, 1994.
ABABOU R., L.W. GELHAR, Self-Similar Randomness and Spectral
Conditioning : Analysis of Scale Effects in Subsurface Hydrology,
Chapter XIV in Dynamics of Fluids in Hierarchical Porous Media,
J. Cushman editor, Academic Press, New York, pp. 393-428, 1990.
DELHOMME, J. P. 1979. Spatial variability and uncertainty in groundwater
flow parameters: a geostatistical approach. Water Resou.Res. 15(2):269-280.
FREEZE, R.A., A stochastic-conceptual analysis of one-dimensional
groundwater flow in nonuniform homogeneous media, Water Resour. Res.,
11, 725-741, 1975.
GELHAR L. W., (1986), "Stochastic Subsurface Hydrology (from Theory to
Applications)", Water. Res. Res., 22(99), 135-145 pp.
LABAT D., R. ABABOU, A. MANGIN, 1999 : Linear and Nonlinear
Models Accuracy in Karstic Springflow Prediction at Different Time Scales.
SERRA - Stochastic Environmental Research & Risk Assessment,
13(1999):337-364, Springer-Verlag.
LABAT, R. ABABOU, A. MANGIN, 2000: Rainfall-runoff relations for
karstic springs – Part I : Convolution and spectral analyses. Journal of
Hydrology, 238, Issues 3-4, 5 Dec.2000, pp.123-148.
SHINOZUKA M., C. M. JAN, (1972), "Digital Simulation of Random
Processes and its Applications". J. Sound Vib., 25 (1), p. 111.
ENCYCLOPEDIES, GUIDES, HANDBOOKS
¾ CEMAGREF (O.Gilard, P.Givone, G.Oberlin, N.Gendreau et al.) : Guide
pratique de la méthode « inondabilité ». Agence de l’Eau Rhône-
Méditerranée-Corse, 1998.
¾ CHOCAT B., Encyclopédie de l’Hydrologie Urbaine. Coordonnateur
B.Chocat. Ed. Lavoisier, Collection Tec et Doc.
¾ MIQUEL J. : Guide pratique d'estimation des probabilités de crues.
Eyrolles (EDF-DER), 1984, 160 pp.
OMM : Guide de l’OMM (…)
¾ PRESS W.H., B.P. FLANNERY, S.A. TENKOLSKY, W.T.
VETTERLONG, 1986 (& 1990), Numerical Recipes : The Art of Scientific
Computing. Cambridge Univ. Press. [with programs in Fortran, Pascal, or C].
SITES, RESEAUX, DONNEES, BASSINS HYDROLOGIQUES
SMEPAG – Garonne, 1989 : « Monographie des crues de la Garonne -- du
Pont du Roy au Bec d'Ambès ». (Schéma de protection contre les eaux de la
Garonne, Tome 1). SMEPAG-Syndicat Mixte d'Etude et de Programmation
pour l'Aménagement de la Garonne (CACG, CARA, UTM, UB). Fév. 1989.
……
…
HYDROGEOLOGIE STOCHASTIQUE & GEOSTATISTIQUE

DAGAN, G., Flow and Transport in Porous Formations, Springer-Verlag,
465 p., 1989.
GELHAR, L.W., Stochastic Subsurface Hydrology, Prentice Hall, 390 p.,
1994.
KITANIDIS, P.K., Introduction to Geostatistics, Cambridge University
Press, 249 p., 1997.
MARSILY (de) G., Quantitative Hydrogeology. (…….)
MATHERON, G., Elements pour une theorie des milieux poreux , Masson et
Cie, Paris, 1967.
RUBIN, Y., Applied stochastic hydrology, Oxford University Press. (∼2000)
SHVIDLER, M.I., Flow in heterogeneous media (in Russian), Izv. Akad.
Nauk USSR Mekh. Zhidk. Gaza, 3, 185, 1962.
ZHANG, D., Stochastic methods for flow in porous media : coping with
uncertainties, Academic Press, 350 p., 2002.
ANNEXES
PdF(V) Î Stat-iii_pdf.doc Î Proba_PDF-Moments.doc Î VUG
ANNEXE
LOIS DE PROBABILITÉS UNIVARIÉES:

Relations Moments/Paramètres et
Méthodes d’Identification
1
1. IDENTIFICATION (AJUSTEMENT) D'UNE DENSITÉ DE PROBABILITÉ

PAR LA "MÉTHODE DES MOMENTS"
1.1. Méthode des moments

La "méthode des moments" consiste à comparer, pour une loi de probabilité théorique donnée, les moments théoriques aux
moments empiriques d'ordres élevés, ceci en attribuant aux moments théoriques d'ordre moins élevés leurs valeurs
empiriques (rappelons que les moments "empiriques" sont issus du dépouillement statistique des simulations numériques).
On utilisera ici les quatre premiers moments statistiques, ou certains coefficients obtenus à partir de ces quatre premiers
moments : coefficients de variation, d'asymétrie, et d'aplatissement. On peut par exemple, pour une loi à deux paramètres,
fixer les deux premiers moments, ou la moyenne et le coefficient de variation, pour essayer de prédire/ajuster les moments
d'ordre 3 et 4, ou les coefficients d'asymétrie et d'aplatissement. On présentera sous forme de tableaux les comparaisons
entre les moments empiriques d'ordre 3 et 4 obtenus pour certains jeux de données, et les moments théoriques
correspondants prédits par les modèles (les "modèles" étant les lois théoriques à tester). Le calcul des moments théoriques
(prédits) se fait, si possible, grâce à des formules analytiques closes, de la forme:
(1) µ 3thou
.
4 = f (m
emp.
, σ emp. )
On peut alors calculer une erreur relative, ou écart relatif, défini par :
µnth. − µnemp.
(2) ε=
µnth.
Ce critère permet d'évaluer l'adéquation des modèles théoriques à la loi empirique, ainsi que la marge de confiance associée.
2
1.2. Définitions des moments et des coefficients associés

Les moments centrés d'ordre n sont définis par la relation :
(3) µn=<(x-m)n>,
où <> représente l'opérateur d'espérance mathématique et m la moyenne, qui est aussi le moment non centré d'ordre 1. Nous
nous intéresserons plus particulièrement ici, outre la moyenne, aux moments centrés d'ordre 2, 3 et 4, ainsi qu'à divers
coefficients adimensionnels pouvant être formés à partir de ces moments.
Le moment centré d'ordre 2 (µ2) est représente la variance, encore notée plus couramment σ2 . On a donc :
(4) µ2 =σ2 =<(x-m)2>.
A partir de la moyenne (m) et de l'écart-type (σ), on peut définir un coefficient de variation noté "CV" ou simplement "C".
Le coefficient de variation est particulièrement utile pour quantifier le degré de variabilité d'une variable aléatoire positive.
Il est défini par la relation :
(5) C = σ/m.
Les moments centrés d'ordre 3 et 4, et. Les moments centrés d'ordre 3 et 4 sont définis par :
(6) µ3=<(x-m)3>.
(7) µ4=<(x-m)4>
3
A partir de ces deux derniers moments centrés, on définit les coefficients d'asymétrie et d'aplatissement, ou coefficients de
Fisher (Ventsel 1973, Tassi 1989) :
 µ3
 γ = 3
: coefficient d' asymétrie (Skewness).
σ
(8) 
κ = µ 4 − 3 : coefficient d' aplatissement (Kurtosis) .
 σ4
Il est facile de montrer que γ = 0 pour une distribution symétrique, puisque les moments d'ordre impairs sont alors nuls. Le
coefficient γ est un bon indicateur de symétrie de la loi considérée. Ce coefficient est positif pour une loi asymétrique telle
que la loi log-normale, la loi exponentielle, etc. Il serait négatif, par exemple, pour une variable aléatoire x < x0 telle que
(x0-x) suit une loi exponentielle ou log-normale.
La définition du coefficient κ fait référence à la forme de la loi normale N(0,1). En effet, on obtient pour la loi normale
(voir par exemple Tassi 1989) :
1 5
Γ( p + ) Γ( )
x2p = 2p 2 ⇒µ =4 2 =3
(9) 4
1 1
Γ( ) Γ( )
2 2
On en déduit que κ = 0 pour une loi normale. Plus généralement, κ est positif pour une densité de probabilité "pointue"
(plus pointue que la loi normale), et négatif pour une densité de probabilité "aplatie" (plus aplatie que la loi normale). La loi
de Laplace, exponentielle symétrique avec un point de rebroussement à l'origine, a un coeff. d'aplatissement positif (κ = +6).
On retiendra que les coefficients γ et κ sont définis de telle manière que la loi de probabilité empirique s'approche d'une loi
normale, du moins en ce qui concerne les moments jusqu'à l'ordre 4, dès lors que |γ| et |κ| sont très inférieurs à l'unité.
4
1.3. Relations entre paramètres et moments de quelques lois

a. Loi normale:
La loi normale, ou gaussienne, est une loi à deux paramètres (m,σ). Sa densité de probabilité est donnée par :
( x − m) 2
1 −
f X ( x) = e 2σ 2 pour x ∈ R
(10)
σ 2π
Les coefficients d'asymétrie et d'aplatissement de la loi normale sont nuls, soit :
γ = 0
(11) 
κ = 0
b. Loi log-normale :
On considère ici la loi log-normale à deux paramètres (m,σ). Il s'agit d'une loi de probabilité à support positif, dont la
densité de probabilité est donnée par :
( Ln ( x ) − m ) 2
1 −
f X ( x) = e 2σ 2 pour x ∈ R +
(12)
xσ 2π
5
où m et σ2 représentent la moyenne et la variance du logarithme de x. La loi lognormale est directement liée à la loi
normale. En effet, si la variable y = ln(x) suit une loi normale N(m,σ), alors la variable x = exp(y) suit une loi log-normale
donnée par l'équation ci-dessus.
Désignons plus précisément par mx et my les moyennes de x et y, et par σx2 et σy2 les variances de x et y. On a alors les
relations suivantes, extraites de Ababou et Wood (1990), Tassi (1989), et Vanmarcke (1983).
La moyenne (arithmétique) de la variable lognormale x satisfait la relation :

σ y2
(13) 〈 x〉 = m x = x g ⋅ e 2
,
où xg est la moyenne géométrique de x, définie par
my
(14) x g = e 〈 ln( x )〉 = e .
D'où la relation :
σ y2
(my + )
(15) mx = e 2
.
De plus, la variance de la variable lognormale x satisfait la relation :
σ y2 (σ y2 −1)
(16) σ x2 = xg2 ⋅e ⋅e
6
En combinant ces relations, on obtient alors :
1
σ y2 σ y2
(17) σ x2 = mx2 ⋅ (e − 1) ⇒ Cx = (e − 1) 2
Cette dernière équation donne la variance, et le coefficient de variation, de la variable lognormale x en fonction des deux
premiers moments de la variable normale y = ln(x). On peut montrer que :
(18) γx = 3 Cx + Cx 3
(19) κx = Cx 8 + 6 Cx 6 + 15 Cx 4 + 16 Cx 2
Ces deux dernières équations donnent les coefficients d'asymétrie et d'aplatissement d'une variable lognormale x en fonction
de son coefficient de variation.
Lorsque σy est faible ou au plus de l'ordre de l'unité, on peut en déduire par développement de Taylor que Cx ~ σy. En
d'autres termes, on obtient pour une variable lognormale x la relation approchée:
(20) Cx ~ σln(x) ,
Considérons le cas des variables hydrologiques K positives, strictement ou non (débits Q, précipitations P, mais aussi
paramètres physiques tels que perméabilité, etc). Le dernier résultat ci-dessus montre que σlnK est un bon indicateur
adimensionnel du degré de variabilité du phénomène lorsque K est supposée distribuée suivant une loi lognormale.
7
c. Loi exponentielle :.
On considère ici la loi exponentielle à un seul paramètre (β).
Cette loi est à support positif, et sa densité de probabilité est donnée par.
x
−
1 β
(21) f X ( x) = e pour x ∈ R +
β
Pour cette loi, il y a identité entre écart-type et moyenne, i.e. σ = m, d'où :
(22) CX = 1.
On peut également montrer les relations suivantes (Tassi 1989) :
(23) γ = 2.
(24) κ = 6.
Notons que le coefficient de variation d'un variable à loi exponentielle est toujours égal à un, ce qui permet de décider
rapidement si une variable est susceptible ou non de suivre cette loi.
Comme cette loi n’est qu’à un seul paramètre, elle n’est pas très flexible. Elle est cependant liée à une loi très intéressante,
la loi de Poisson, dite « loi des évènements rares » (voir la section consacrée à la loi de Poisson). Elle constitue aussi un cas
particulier de la loi Gamma Incomplète (voir ci-dessous).
8
d. Loi exponentielle-symétrique (loi de Laplace centrée à l'origine)
On considère ici une loi exponentielle symétrique, centrée autour de l'origine, et à un seul paramètre (β). Sa densité de
probabilité est donnée par :
x
−
1 β
(25) f X ( x) = e pour x ∈ R .
2β
Pour cette loi symétrique et centrée à l'origine, on a évidemment m = 0 et γ = 0. On peut également montrer que
(Abramovitz et Stegun 1965; Tassi 1989) :
(26a) σ = √2 β
(26b) κ = 3.
En général, la loi de Laplace symétrique à un seul paramètre est peu flexible.
e. Loi Γ-incomplète (loi gamma incomplète)
Il s'agit de la loi gamma incomplète à deux paramètres (λ,ρ) et à support positif.
Sa densité de probabilité est donnée par :
x λ −1
1 −ρ  x  1
(27) f X ( x) = e   pour x ∈ R + .
Γ (λ ) ρ ρ
Pour une telle loi, on obtient (Tassi 1989) :
9
f. Loi de Weibull :
On présente également la loi de Weibull à deux paramètres (α,θ), qui sera utilisée plus loin (cf. test du Khi 2).
La densité de probabilité de la loi de Weibull est donnée par :
α −1 −θxα
(31) f X ( x) = αθ x e pour x ∈ R + .
Pour une telle loi on a (Tassi 1989)
1 2 1
Γ(1 + ) Γ(1 + ) − Γ 2 (1 + )
m= α 2
;σ = α α
(32) 1 2
θα θα
On en déduit la relation suivante entre le paramètre α et le coefficient de variation C:
1
 2 2 1 2
Γ (1 + ) − Γ (1 + )
σ  α α 
(33) C= = = f (α )
m 1
Γ(1 + )
α
Cette relation permet de calculer α connaissant le coefficient de variation (C), en résolvant l'équation f(α)-C = 0
numériquement, par une méthode de dichotomie. On peut ensuite obtenir le paramètre θ à partir de la relation sur m, en
identifiant m à la moyenne empirique connue, soit :
(34) θ =
(
Γ 1 + 1 
α  .
α
)
 m

Cette procédure permet donc finalement de calculer les deux paramètres (α,θ) de la loi de Weibull en fonction des moments
empiriques m et σ. Elle peut être utile lors de l'application du test du Khi 2.
11
1.4. Exemples de résultats d’ajustements par les moments

Les résultats de la méthode des moments sont présentés dans les TABLEAUX (...).
Ces tableaux sont directement utilisables pour une analyse de la loi de probabilité univariée de la variable étudiée. Ils
contiennent les valeurs des moments et coefficients empiriques, ainsi que les valeurs théoriques calculées grâce aux relations
ci-dessus, et enfin les valeurs des indicateurs d'erreurs définis plus haut.
Les indicateurs d’erreur n'étant pas toujours applicables, par exemple lorsque le moment testé s'annulle ( µth = 0 ), on
applique alors un critère qualitatif du type : " µth << 1 ? " Si la réponse à cette question est positive, on inscrit OUI (admis)
dans le tableau; si la réponse est négative, on inscrit NON (refusé).
12
2. IDENTIFICATION D’UNE DENSITÉ P(X) PAR TEST STATISTIQUE : LE TEST DU χ2

L'objet de cette section est de compléter et de vérifier d'une façon plus rigoureuse les résultats obtenus précédemment par la
méthode des moments.
Pour ceci, nous allons calculer à l'aide des formules théoriques données plus haut les coefficients entrants dans les
expressions des diverses densités de probabilités. Ceci fait, nous effectuerons un test du χ2 afin de déterminer si les densités
de probabilités empiriques peuvent être déduites des modèles avec une faible probabilité d'erreur.
Pour l'application pratique du test du Khi 2, voir Press et al. 1986 ("Numerical Recipes" version Fortran : subroutine
CHSONE). On notera également, comme alternative possible au test du Khi 2, le test de Kolmogorov-Smirnov ou "K-S"
(Press et al. 1986 : subroutine KSONE). C'est exclusivement le test du Khi 2 qui sera utilisé ici.
Les FIGURES(...) permettent d'appréhender les résultats qu’on peut obtenir par simple comparaison graphique des densités
de probabilités empiriques (observées) avec les densités de probabilités théoriques (modèles) :
Dans les pages suivantes, on expliquera plus en détail la procédure suivie, et on présentera à la fin les résultats quantitatifs
des tests statistiques. Ceux-ci conduisent à décider de l'acceptation ou le rejet de telle loi de probabilité pour une marge
d'erreur donnée (par exemple 5%). Les figures(...) ci-dessus en donnent une vue graphique plus parlante, mais qualitative.
13
2.1. Calage des paramètres par les moments empiriques

On a déjà identifié plus haut les densités de probabilité théoriques des diverses lois proposées comme modèles (cf. méthode
des moments). Le test du χ2 est utilisé ici pour comparer les lois empiriques aux lois théoriques, les paramètres de ces
dernières lois étant calculés à partir des valeurs des moments empiriques. *
Ainsi, la loi normale est une loi à deux paramètres (m,σ), dont la densité de probabilité a été donnée plus haut. Les deux
paramètres à utiliser sont donc tout simplement la moyenne empirique (m), et l'écart-type empirique (σ).
La loi lognormale est une loi à deux paramètres (m,σ), et à support positif, dont la densité de probabilité a été donnée plus
haut. Ici, les paramètres (m,σ) sont la moyenne et l'écart-type de y=ln(x), où x est la variable lognormale en question. Ces
paramètres peuvent être calculés en fonction de la moyenne empirique mx et du coefficient de variation empirique Cx de la
variable lognormale x, par résolution du système suivant [ voir équations (12)-(20) ]:

[ ]
1
2
σ = ln(C x + 1) 2

(35)   σ 2
m = ln(m x ) − 
  2 
* Une procédure plus sophistiquée, mais pas nécessairement plus performante, consisterait à ajuster automatiquement les paramètres de la loi modèle de façon à minimiser les
écarts avec la loi empirique, avant d'appliquer le test du Khi 2 proprement dit.
14
La loi exponentielle est une loi à un seul paramètre (β), et à support positif, dont la densité de probabilité a été donnée plus
haut. Rappelons que le paramètre β est à la fois égal à la moyenne et à l'écart-type. On choisit ici de caler β par rapport à la
moyenne empirique, soit : β = m.
La loi de Laplace, ou exponentielle symétrique centrée à l'origine, est une loi à un paramètre (β). Sa densité de probabilité a
été donnée plus haut. On utilise ici la relation β = σ/√2 [équations (21)-(26)].
La loi Γ-incomplète est une loi à deux paramètres (λ,ρ), et à support positif. La densité de probabilité et les relations entre
paramètres et moments ont été données plus haut [ voir équations (27)-(30) ].
On examinera également la loi de Weibull à deux paramètres (α,θ), non encore utilisée. La densité de probabilité de la loi
de Weibull a été donnée plus haut, et l'on a également décrit une procédure de calcul des paramètres de cette loi en fonction
des moments [ voir équations (31)-(34) ]. Cette procédure nous permet ici de calculer les deux paramètres (α,θ) de la loi de
Weibull en fonction des moments empiriques m et σ, et d'appliquer le test du khi 2.
15
2.2. Application du test statistique (le test du khi-2)

Rappelons que deux tests statistiques ont été considérés initialement : le test du χ2 (khi-deux), et le test de Kolmogorov-
Smirnov (ou test de "K-S"). C'est le test du χ2 que nous avons retenu dans cet exposé.
Le test du χ2 va nous permettre d'évaluer l'importance de l'écart entre les lois modèles (théoriques) et les lois empiriques,
une fois donnés les paramètres des lois modèles. Ce test est pratiqué sur les valeurs (discrètes) de la fonction de répartition
empirique et les valeurs (discrétisées) de la fonction de répartition théorique. Rappelons que les fonctions de répartitions
sont les densités de probabilités intégrées; ou, en version discrète, les fréquences cumulées. La statistique du χ2 (dite aussi
"distance du χ2") est une mesure de la "distance" entre deux fonctions de répartitions discrètes (ou discrétisées) que l'on
souhaite comparer.
Cette statistique du χ2 ou distance du χ2 est donnée par :

Ntot ( N i − ni ) 2
(36)
2
χ = ∑ ni
,
i =1
où Ni est le nombre d'évènements observés dans le ième intervalle et ni le nombre prévu d'évènements selon la loi modèle.
La fonction de probabilité du χ2, notée :
χ2
(37) Q( ) ,
ν
16
[NB: Corrections de certains symboles spéciaux :

revoir les 4 relations ci-dessous avec le signe × :
vérifier qu'il s'agit bien de multiplication…]
(28a) m = λ×ρ ;
(28b) σ2 = λ×ρ2 ;
(28c) µ3 = 2×λ×ρ3;
(28d) µ4 = 3×λ×(λ+2)×ρ4 ,
Nous en avons déduit les identités suivantes :
(29a) γ=2C,
(29b) κ = 6 C2 .
Finalement, en "inversant" les relations précédentes, nous obtenons les paramètres de la loi gamma incomplète en fonction
de ses deux premiers moments :
 1
λ =
 C2
(30)
 ρ = mC 2

10
est une fonction gamma-incomplète (résultat théorique classique en statistique). Le paramètre ν est le degré de liberté de
la loi du χ2. Pour les cas qui nous intéressent -- soit l'évaluation de lois dont certains paramètres ont étés préalablement
estimés -- le nombre de degrés de liberté de la loi du χ2 est donné par:
(38) ν = Ntot-k-1 ,
si l'on a estimé k paramètres de la loi. Dans notre cas (...), le nombre de paramètres estimés est variable mais très inférieur à
Ntot (k est faible, égal à un, deux, ou trois au plus).
Interprétation. A proprement parler, Q(χ2/ν) représente la probabilité pour que la somme des carrés de ν variables
aléatoires normales de variance unité soit plus grand que χ2 . Or, les termes entrants dans la somme du χ2 [équation (36) ci-
dessus] ne sont pas individuellement normaux. Cependant, si l'on considère à la fois un nombre élevé (>>1) d'intervalles, et
un nombre élevé (>>1) d'évènements observés dans chaque intervalle, alors la fonction de probabilité Q(χ2/ν) est une bonne
approximation de la vraie distribution de χ2.
Utilisation. La fonction Q(χ2/ν) peut donc être utilisée pour estimer si le test est significatif ou non, puisque cette
statistique représente à peu près la probabilité pour que la somme des carrés des écarts entre la loi empirique et la loi modèle
ait la valeur χ2 observée.
Implémentation numérique. Pour l'application pratique, on a utilisé la procédure décrite dans l'ouvrage "Numerical
Recipes" de PRESS et al. (1986), et en particulier la subroutine Fortran CHSONE.
R.ABABOU
Circa 1994
Partiellement retapé en 2004 (eqs.)
17

Hyd-Stat Ababou Jan07v1pub

Transféré par

Droits d'auteur :

Formats disponibles

Hyd-Stat Ababou Jan07v1pub

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Hyd-Stat Ababou Jan07v1pub

Transféré par

Droits d'auteur :

Formats disponibles

HYDROLOGIE

Document « PDF » en couleur disponible sur site web.

Décembre 2006 / Janvier 2007 (version v1)

CH.0. INTRODUCTION, BIBLIO, DONNEES HYDROLOGIQUES

Table des Matières

♦ Plan du Cours et des Travaux Dirigés

Enseignants 2005-06 : R.Ababou, A. Al-Bitar. 1

Cours « Hyd.Stat. » 3Hy 2005-06

Documents polycopiés imprimés:

Enseignants 2005-06 : R.Ababou, A. Al-Bitar. 2

Enseignants 2005-06 : R.Ababou, A. Al-Bitar. 3

Cours Hydro.Stat. 3Hy : Plan / Syllabus

Cours Hydro.Stat. 3Hy: Plan / Syllabus

R.Ababou et al., INP/ENSEEIHT: 1

Cours « Hyd.Stat. » 3Hy 2005-06

Documents polycopiés imprimés:

R.Ababou et al., INP/ENSEEIHT:Web local R.A. free 2

Cours Hydro.Stat. 3Hy : Séance 1 (Ch.0)

R.Ababou et al., INP/ENSEEIHT:

Cours Hydro.Stat. 3Hy : Séance 1 (Ch.0)

R.Ababou et al., INP/ENSEEIHT:

R.Ababou et al., INP/ENSEEIHT: 7

Cours Hydro.Stat. 3Hy : Séance 1 (Ch.0)

R.Ababou et al., INP/ENSEEIHT: 8

Facteur de fluctuations climatiques a

Cours Hydro.Stat. 3Hy : Séance 1 (Ch.0)

Précipitations extrêmes dans le monde (P

R.Ababou et al., INP/ENSEEIHT: 11

Cours Hydro.Stat. 3Hy : Séance 1 (Ch.0)

R.Ababou et al., INP/ENSEEIHT: 12

R.Ababou et al., INP/ENSEEIHT: 13

Cours Hydro.Stat. 3Hy : Séance 1 (Ch.0)

R.Ababou et al., INP/ENSEEIHT: 14

Régime des débits spécifiques bimensuels

Cours Hydro.Stat. 3Hy : Séance 1 (Ch.0)

Comparaison de 2 années de chroniques deet

Comparaison de 2 années de chroniques de et

Cours Hydro.Stat. 3Hy : Séance 1 (Ch.0)

Stations pluviométriques en bleu;R.Ababou et jaugeage

R.Ababou et al., INP/ENSEEIHT: 19

Cours Hydro.Stat. 3Hy : Séance 1 (Ch.0)

The PDSI is obtained

R.Ababou et al., INP/ENSEEIHT: 21

Cours Hydro.Stat. 3Hy : Séance 1 (Ch.0)

R.Ababou et al., INP/ENSEEIHT: 22

R.Ababou et al., INP/ENSEEIHT: 23

Cours Hydro.Stat. 3Hy : Séance 1 (Ch.0)

R.Ababou et al., INP/ENSEEIHT: 24

 Etape 3: Exploitation du modèle statistique (modélisation, estimation, interprétation)

R.Ababou et al., INP/ENSEEIHT: 25

Cours Hydro.Stat. 3Hy : Séance 1 (Ch.0)

R.Ababou et al., INP/ENSEEIHT: 26

¾ Autre exemple : un modèle d’intensité de pluies P(t) mi-statistique, mi-mécaniste :

Cours Hydro.Stat. 3Hy : Séance 1 (Ch.0)

R.Ababou et al., INP/ENSEEIHT: 28

FIN DU CHAP.0 « INTRODUCTION »

R.Ababou et al., INP/ENSEEIHT: 29

R.Ababou et al., INP/ENSEEIHT: 1

Cours Hydro.Stat. 3Hy : Séance 2+3

Etape 3: Exploitation du modèle statistique (modélisation, estimation, interprétation)