COURS7
COURS7
COURS7
et cela peut se faire de façon tout-à-fait générale pour toute fonction y = f (x). Cette méthode
présente cependant des défauts graves. Le premier, qui n’est pas le plus sérieux, est que l’on ne
dispose plus, en général, de formules permettant de calculer les coefficients inconnusqui minimise
E et qu’on a donc recours à des calculs approchés dont la qualité n’est pas toujours garantie. Mais
c’est le choix de la fonction f qui pose le plus sérieux problème. En effet, chercher parmi toutes
les fonctions possibles et imaginables une fonction qui réaliserait le minimum de la somme des
carrés des écarts est une question sans intérêt car on sait qu’il existe au moins une fonction qui
rende E = 0, c’est-à-dire une fonction dont le graphe passe par tous les points du nuage : si le
nuage a n points, il existe un polynome de degré n pour lequel E = 0 qui s’appelle le polynôme
d’interpolation de Lagrange. Mais ce polynôme n’ayant rien à voir avec les données formant le nuage,
est ici absoluement sans intérêt. La difficulté n’est donc pas d’ajuster une fonction plus ou moins
arbitraire qui minimise E mais plutôt de trouver une fonction f qui soit un modèle pertinent des
données et qui fournisse en quelque sorte la loi du phénomène étudié, que l’on serait ainsi parvenu à
séparer du bruit inclu dans les données. Il est alors évident que le choix de f n’est pas une question
purement mathématique.
Régression non linéaire par linéarisation de la dépendance Une autre façon de choisir un modèle
de dépendance y=f(x) non linéaire est d’effectuer une transformation des variables (x, y) en (x̃, ỹ)
qui rende linéaire la dépendance entre les nouvelles variables x̃ et ỹ. On peut alors déterminer cette
dépendance par simple régression linéaire.
Le tableau suivant (emprunté à l’ouvrage “Computer simulation in Biology : a basic introduction”,
de R.E. Kean et J.D. Spain) indique quelques une des transformations parmi les plus utilisées en
biologie. La figure ci-dessous indique l’allure des courbes concernées qui fournissent une sorte de
menu auquel on peut comparer le nuage de données étudié afin de choisir la transformation la plus
raisonable. Quoiqu’il en soit, on n’oubliera pas qu’un calcul du R2 (ou du coefficient de corrélation
linéaire) accompagné d’un examen soigneux des résidus εi est indispensable avant toute validation
du modèle.
Type de courbes Fonction Transformation Forme affine
droite y = A + Bx - y = A + Bx
Ax
hyperbole y = B+x ỹ = xy ỹ = B 1
A + Ax
A
inverse modifié y = B+x ỹ = x1 ỹ = A + A1 x
B
Variable aléatoire distribuée selon une loi normale (ou gaussienne) : On appelle courbe de Gauss
x 2
(ou cloche de Gauss) le graphe de la fonction g(x) = √1 e− 2
. Cette fonction est paire (graphe
2π
R +∞
symétrique par rapport à l’axe des y) et on peut montrer que l’on a −∞ g(x)dx = 1. On dit qu’une
v.a. d’expérance 0 et de variance 1 a une distribution normale (ou gausienne), ou encore qu’elle est
distribuée selon une loi normale, si pour tout x, on a :
Z x
P (X ≤ x) = g(u)du.
−∞
1
0.4
0.3
0.2
0.1
-4 -2 0 2 4
x
En pratique, les v.a. que l’on étudie prenant en général un nombre fini de valeurs, elles ne peuvent
vérifier cette équation exactement. Cette propriété se traduit alors par le fait que leur histogramme
a une allure de cloche de Gauss. Nous allons voir ci-dessous comment déterminer, pour un his-
togramme donné si son approximation par une cloche de Gauss est acceptable ou non.
On appelle quartiles d’une v.a. X distribuée selon une loi normale les trois nombres q1 , q2 et q3
vérifiant :
P (X ≤ q1 ) = 0, 25 , P (X ≤ q2 ) = 0, 50 , P (X ≤ q3 ) = 0, 75
le quartile q2 étant aussi appelé médiane. Ce sont les 3 valeurs de x qui permettent de découper
la cloche de gauss en 4 parties de même surface. On définit de la même façon les déciles qui sont
les 9 valeurs de x qui permettent de découper la cloche de gauss en 10 parties de mˆme surface,
et on définirait de même les 99 centiles. L’ensemble de ces nombres sont désignés sous le nom de
quantiles de la v.a. X.
Ajustement par quantiles : l’exemple de la droite de Henri
Exercices : 1.
2.