COURS7

Université de Nice SV1, année 2004-2005
Département de Mathématiques Mathématiques Appliquées à la Biologie

Leçon 7 : Régression non linéaire et ajustement par quantiles
Régression non linéaire par MCO La méthode des MC0 qui a été utilisée pour calculer l’équation
de la droite des moindres carrés peut s’étendre théoriquement à la recherche d’autres courbes, non
nécessairement linéaires qui s’ajusteraient mieux au nuage de points considéré. Ainsi pour ajuster
une courbe exponentielle y(x) = AeBx (si le nuage a une allure exponentielle), il suffit de calculer
les nombre A et B qui rendent minimale la somme E des carrés des écarts
n
X n
X
E= ε2i = (yi − (AeBxi ))2
i=0 i=0
et cela peut se faire de façon tout-à-fait générale pour toute fonction y = f (x). Cette méthode
présente cependant des défauts graves. Le premier, qui n’est pas le plus sérieux, est que l’on ne
dispose plus, en général, de formules permettant de calculer les coefficients inconnusqui minimise
E et qu’on a donc recours à des calculs approchés dont la qualité n’est pas toujours garantie. Mais
c’est le choix de la fonction f qui pose le plus sérieux problème. En effet, chercher parmi toutes
les fonctions possibles et imaginables une fonction qui réaliserait le minimum de la somme des
carrés des écarts est une question sans intérêt car on sait qu’il existe au moins une fonction qui
rende E = 0, c’est-à-dire une fonction dont le graphe passe par tous les points du nuage : si le
nuage a n points, il existe un polynome de degré n pour lequel E = 0 qui s’appelle le polynôme
d’interpolation de Lagrange. Mais ce polynôme n’ayant rien à voir avec les données formant le nuage,
est ici absoluement sans intérêt. La difficulté n’est donc pas d’ajuster une fonction plus ou moins
arbitraire qui minimise E mais plutôt de trouver une fonction f qui soit un modèle pertinent des
données et qui fournisse en quelque sorte la loi du phénomène étudié, que l’on serait ainsi parvenu à
séparer du bruit inclu dans les données. Il est alors évident que le choix de f n’est pas une question
purement mathématique.
Régression non linéaire par linéarisation de la dépendance Une autre façon de choisir un modèle
de dépendance y=f(x) non linéaire est d’effectuer une transformation des variables (x, y) en (x̃, ỹ)
qui rende linéaire la dépendance entre les nouvelles variables x̃ et ỹ. On peut alors déterminer cette
dépendance par simple régression linéaire.
Le tableau suivant (emprunté à l’ouvrage “Computer simulation in Biology : a basic introduction”,
de R.E. Kean et J.D. Spain) indique quelques une des transformations parmi les plus utilisées en
biologie. La figure ci-dessous indique l’allure des courbes concernées qui fournissent une sorte de
menu auquel on peut comparer le nuage de données étudié afin de choisir la transformation la plus
raisonable. Quoiqu’il en soit, on n’oubliera pas qu’un calcul du R2 (ou du coefficient de corrélation
linéaire) accompagné d’un examen soigneux des résidus εi est indispensable avant toute validation
du modèle.
Type de courbes Fonction Transformation Forme affine
droite y = A + Bx - y = A + Bx
Ax
hyperbole y = B+x ỹ = xy ỹ = B 1
A + Ax
A
inverse modifié y = B+x ỹ = x1 ỹ = A + A1 x
B
exponentiel y = AeBx ỹ = ln(y) ỹ = ln(A) + Bx

B
exponentiel réciproque y = Ae x ỹ = ln(y) x̃ = x1 ỹ = ln(A) + B x̃
maxima y = AxeBx ỹ = ln( yx ) ỹ = ln(A) + Bx
exponentiel saturé y = A(1 − eBx ) ỹ = ln(A − y) ỹ = ln(A) + Bx
K K
logistique y = 1+Ae Bx ỹ = ln( y−1 ) ỹ = ln(A) + Bx
logarithmique y = K + AxB ỹ = ln(y) x̃ = ln(x) ỹ = ln(A) + B x̃
K K
Sigmoı̈de y = 1+Ax B ỹ = ln( y−1 ) x̃ = ln(x) ỹ = ln(A) + B x̃
Variable aléatoire distribuée selon une loi normale (ou gaussienne) : On appelle courbe de Gauss
x 2
(ou cloche de Gauss) le graphe de la fonction g(x) = √1 e− 2
. Cette fonction est paire (graphe
2π
R +∞
symétrique par rapport à l’axe des y) et on peut montrer que l’on a −∞ g(x)dx = 1. On dit qu’une
v.a. d’expérance 0 et de variance 1 a une distribution normale (ou gausienne), ou encore qu’elle est
distribuée selon une loi normale, si pour tout x, on a :
Z x
P (X ≤ x) = g(u)du.
−∞
1
0.4
0.3
0.2
0.1
-4 -2 0 2 4
x
Fig. 1 – La cloche de Gauss : densité d’une loi normale
Fig. 2 – Papier gausso-arithmétique
En pratique, les v.a. que l’on étudie prenant en général un nombre fini de valeurs, elles ne peuvent
vérifier cette équation exactement. Cette propriété se traduit alors par le fait que leur histogramme
a une allure de cloche de Gauss. Nous allons voir ci-dessous comment déterminer, pour un his-
togramme donné si son approximation par une cloche de Gauss est acceptable ou non.
On appelle quartiles d’une v.a. X distribuée selon une loi normale les trois nombres q1 , q2 et q3
vérifiant :
P (X ≤ q1 ) = 0, 25 , P (X ≤ q2 ) = 0, 50 , P (X ≤ q3 ) = 0, 75
le quartile q2 étant aussi appelé médiane. Ce sont les 3 valeurs de x qui permettent de découper
la cloche de gauss en 4 parties de même surface. On définit de la même façon les déciles qui sont
les 9 valeurs de x qui permettent de découper la cloche de gauss en 10 parties de mˆme surface,
et on définirait de même les 99 centiles. L’ensemble de ces nombres sont désignés sous le nom de
quantiles de la v.a. X.
Ajustement par quantiles : l’exemple de la droite de Henri
Exercices : 1.
2.

COURS7

Transféré par

Droits d'auteur :

Formats disponibles

COURS7

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

COURS7

Transféré par

Droits d'auteur :

Formats disponibles

Université de Nice SV1, année 2004-2005

Département de Mathématiques Mathématiques Appliquées à la Biologie

exponentiel y = AeBx ỹ = ln(y) ỹ = ln(A) + Bx

Fig. 1 – La cloche de Gauss : densité d’une loi normale

Fig. 2 – Papier gausso-arithmétique

Vous aimerez peut-être aussi