Apprentissage 1516 Lasso
Apprentissage 1516 Lasso
Apprentissage 1516 Lasso
3 Variantes du LASSO
3 Variantes du LASSO
où
β0 , β1 , . . . , βp sont les paramètres du modèle (à estimer),
les variables εi vérifient :
E[εi ] = 0, cov(εi , εj ) = 0 ∀i 6= j, var(εi ) = σ 2 ,
les variables sont supposées gaussiennes pour l’inférence statistique
(intervalles de confiance, tests, p valeurs...)
Y = Xβ + ε,
où
β0 ε1
x10 x11 x12 x1p
. β1 ε2
x20 . x21 x22 x2p
, β = . , ε = . ,
X=
. . . . .
.
.
xn0 xn1 xn2 . xnp
βp εn
0 j
x1 1 x1
x20 1 j
x2
x0 = x j = . (j = 1 . . . p).
. = . ,
. . .
xn0 1 xnj
Définition
L’erreur quadratique
h moyenne iassociée à (Mξ ) est définie par
EQM(ξ) = E kX β − Xξ βbξ k2 .
Proposition
h i
EQM(ξ) = kX β − E[Xξ βbξ ]k2 + E kXξ βbξ − E[Xξ βbξ ]k2
= k(I − ΠXξ )X βk2 + |ξ|σ 2 .
Définition
L’erreur quadratique
h moyenne de prédiction
i associée à (Mξ ) est définie par
EQMP(ξ) = E (Yn+1 − xn+1,ξ βξ ) .
b 2
Proposition
Si ξ − ⊂ ξ, tous deux contenant ou pas l’indice de la constante, alors
R 2 (ξ) ≥ R 2 (ξ − )
Définition
Le cœfficient de détermination ajusté de (Mξ ) est défini par
Ra2 (ξ) = 1 − SCR(ξ)/(n−|ξ|) n−1 2
SCT /(n−1) = 1 − n−|ξ| 1 − R (ξ) .
Remarque : Ra2 (ξ) < R 2 (ξ) dès que |ξ| ≥ 2 (Ra2 (ξ) peut même être
négatif).
Critère du Cp de Mallows
EQM(ξ) = E[SCR(ξ)] − nσ 2 + 2|ξ|σ 2 .
Proposition
c2 Cp (ξ) estime sans biais EQM(ξ).
Si ξ ne dépend pas de Y , σ
Définition
L’estimateur de EQMP(ξ) par validation Leave One Out est défini par
P 2
PRESS= ni=1 Yi − xi,ξ βbξ (i) , où βbξ (i) est l’estimateur des MCO de βξ
obtenu après suppression de la ième donnée.
Critère du Cp
Si F̃ (Y ) est la statistique de test de validité de sous-modèle variante
(réduction par σ c2 ), Cp (ξ − ) > Cp (ξ) ⇔ F̃ (Y ) > 2.
3 Variantes du LASSO
q = 2 ⇒ régression ridge
q = 1 ⇒ régression LASSO
Proposition
Minimiser kY − Xβk22 + λkβk22 en β ∈ Rp est équivalent à minimiser
kY − Xβk22 sous la contrainte kβk22 ≤ r (λ), où r est bijective.
La matrice (X0 X + λIp ) est toujours définie positive, donc inversible,
et β̂λridge = (X0 X + λIp )−1 X0 Y .
L’estimateur ridge est biaisé, son biais est égal à −λ(X0 X + λIp )−1 β, sa
variance à σ 2 (X0 X + λIp )−1 X0 X(X0 X + λIp )−1 .
Noter que les valeurs propres de (X0 X + λIp ) sont plus élevées que celles de
X0 X, donc la variance de β̂λridge sera plus faible que celle de β̂.
Magalie Fromont (Université Rennes 2) Apprentissage Statistique - Partie III 22 / 46
Régression ridge
Ajustement du paramètre de régularisation
Ajustement de λ
Proposition
Minimiser kY − Xβk22 + λkβk1 en β ∈ Rp est équivalent à minimiser
kY − Xβk22 sous une contrainte de la forme kβk1 ≤ R̂λ
(R̂λ = kβ̂λlasso k1 ).
Proposition
Si les x j sont orthonormés, β̂λlasso j = (x j )0 Y 1 − λ/ 2(x j )0 Y
.
+
Théorème
j sont normés, et ε ∼ N (0, σ 2 I ). Pour tout L > 0, si
Si les x p n
λ = 3σ 2 ln p + 2L, avec probabilité au moins égale à 1 − e −L ,
2 p
X β̂ lasso − β
2 ≤ infβ 0 6=0 kX β 0 − β
2 + 18σ (L + ln p)
1
X
λ β 0 6=0 ,
2 2 κ2 (β 0 ) j
j=1
Ajustement de λ
Le chemin de régularisation de la régression lasso est linéaire par morceaux
(c.f. Condition d’optimalité du premier ordre), avec changements en un
nombre fini de points : les points de transition.
,→ Choix pour un nombre donné de cœfficients non nuls souhaités.
,→ Prédiction : choix sur les points de transition ? Choix usuel par
validation croisée V fold sur une grille finie de valeurs de λ > 0.
,→ Base de l’algorithme LARS (package R lars), qui calcule les
estimateurs LASSO en les points de transition et qui interpole linéairement
ensuite.
Magalie Fromont (Université Rennes 2) Apprentissage Statistique - Partie III 31 / 46
Régression LASSO
Algorithmes de calcul
Descente de coordonnées
Algorithme Coordinates descent
Variable
X, Y , λ:matrice n × p, vecteur de taille n, réel > 0
Début
Initialiser β = βin
Répéter
Pour j variant de 1 à p
Calculer Rj = (x j )0 (Y − k6=j βk x k )
P
Calculer βj = Rj 1 − λ/(2|Rj |) +
FinPour
Jusque Convergence de β
Retourner β
Fin
Proposition
La fonction βj 7→ L(β) est minimum en βj = Rj 1 − λ/(2|Rj |) +
avec
Rj = (x j )0 (Y − k6=j βk x k ).
P
Pour une évaluation sur une grille Λ = {λ1 , . . . , λT } de valeurs rangées par
ordre décroissant, calculer β̂λlasso
1
avec βin = 0, puis β̂λlasso
2
avec
lasso
βin = β̂λ1 ...
Le coin du UseR : package glmnet
fit=glmnet(x,y)
plot(fit)
coef(fit,s=1) # affiche les coefficients pour un λ
predict(fit,newx=x[1:10,],s=1) # prédiction
Magalie Fromont (Université Rennes 2) Apprentissage Statistique - Partie III 33 / 46
Elastic Net
β̂λEN
1 ,λ2
∈ argminβ∈Rp kY − Xβk22 + λ1 kβk1 + λ2 kβk22 .
3 Variantes du LASSO
Dantzig Selector
Adaptive LASSO
Group LASSO
Sparse-Group LASSO
Fused LASSO
Régression logistique (Group) LASSO
Le Dantzig Selector (Candès, Tao 2007) est défini pour λ > 0 par
L’estimateur adaptive LASSO (Zou 2006) est défini pour λ, ν > 0 par
p
X |βj |
β̂λa−lasso ∈ argminβ∈Rp kY − Xβk22 +λ Gauss−lasso ,
β̂ν
j=1 j
L’estimateur Group LASSO (Yuan, Lin 2007) est défini pour λ > 0 et
K1 , . . . , KL matrices définies positives nl × nl , par
L q
β̂λgrp−lasso ∈ argminβ∈Rp kY − Xβk22 + λ
X
βl0 Kl βl .
l=1
√
βl0 Kl βl =
p
Cas particulier : Kl = nl Inl , nl kβl k2 .
Pour appliquer l’algorithme de descente de coordonnées, les Xl doivent être
orthonormales : condition restrictive.
Le coin du UseR : algorithme LARS implémenté dans lassogrp,
algorithme Blockwise-Majorization-Descent implémenté dans gglasso.
Magalie Fromont (Université Rennes 2) Apprentissage Statistique - Partie III 38 / 46
Sparse-Group LASSO
Sparse-Group sparsity
Variation sparsity
L’estimateur Fused LASSO (Tibshirani et al. 2005) est défini pour λ > 0
par
p−1
X
f −lasso 2
β̂λ ∈ argminβ∈Rp kY − Xβk2 + λ |βj+1 − βj |.
j=1
Pp
,→ Idem au LASSO après un changement de variables : Z j = k=j Xk.
π(xi )
ln = β0 + β1 xi1 + . . . + βp xip , 1 ≤ i ≤ n.
1 − π(xi )
3 Variantes du LASSO