4 - Deep Learning - FR

Introduction à
profond
apprentissage
Cours 4
Aperçu du cours
1. Introduction (Cours 1) 3. Réglage des réseaux profonds (Cours 5)
Qu'est-ce que l'intelligence artificielle? Introduction
Concevoir une architecture réseau profond
2. Fondations Autres facteurs de conception réseau profond
2.1. Fondations de l'apprentissage automatique (Cours 1) Détecter les problèmes de formation
Qu'est-ce que l'apprentissage automatique?
Régression linéaire 4. Architectures d'apprentissage profond (Cours 5)
Régression logistique Modèles d'images
2.2. Fondations des réseaux neuronaux (Cours 2) Modèles de séquence
Le Perceptron Modèles génératifs
Réseaux neuronaux peu profonds Modèles de renforcement profond
2.3. Fondations de l'apprentissage profond (Cours 3,4) 5. Modèles d'image
Qu'est-ce que l'apprentissage profond? 5.1. Réseaux neuronaux convolutionnels (Cours 6)
Validation du modèle Éléments fondamentaux des blocs de construction
Normalisation des entrées Couches réseau
Surajustement et Sous-ajustement Réseaux célèbres
Régularisation Techniques de formation
Initialisation du poids
5.2. Applications CNN (Cours 7)
Fonctions d'activation
Détection d'objets
Fonctions de perte
Reconnaissance faciale
Algorithmes d'optimisation
Génération d'œuvres d'art
Normalisation des lots
Aperçu du cours
6. Modèles séquence 7. Modèles génératifs (Cours 10)
6.1. Neural récurrent Réseaux (Cours 8) Introduction
Réseaux neuronaux récurrents en avant AutoEncodeurs
Réseaux contradictoires génératifs
Unités récurrentes fermées
Applications de réseaux contradictoires génératifs
Mémoire à long terme
Réseaux neuronaux récurrents bidirectionnels 8. Modèles de renforcement profond (Cours 11)
Réseaux neuronaux récurrents profonds Principes fondamentaux de l'apprentissage par
renforcement
6.2. Incorporations de mots (Cours 9) Processus de décision Markov
Principes de base des incorporations de mots Q-Apprentissage
L'apprentissage de l’incorporations de mots Gradient de politique
Algorithme Word2Vec Applications d'apprentissage de renforcement profond
Algorithme GloVe
Applications de l’incorporations de mots 9. Limitations et de nouveaux Frontières (Cours 12)
6.3. Modèles séquence à séquence (Cours 9) Limitations de l'apprentissage en profondeur
Apprentissage profond Bayesian
Introduction
Apprendre à apprendre
Modèle de traduction automatique
Évaluation de la traduction automatique
Modèle d'attention pour la traduction
automatique
Ce cours comprend du matériel de :

• MIT "6.S191: Introduction à Deep Apprendre"
• Stanford "CS230: profond Apprendre"
Fondements de l'apprentissage
en profondeur
Fonctions d'activation
Fonctions d'activation dans l'apprentissage en profondeur
Combinaison
𝜃0 linéaire
𝑚 d'entrées
sortie bias
𝜃1
𝑦ො = 𝑔(𝜃0 + ෍ 𝑥𝑖 𝜃𝑖 )
𝜃2
𝑖=1
activation
𝜃𝑚
non linéaire
Entrées poids somme activation sortie

non linéaire
 Les fonctions d’activation servent à propager la sortie des nœuds
d’une couche vers la couche suivante (y compris la couche de sortie).
 Nous utilisons des fonctions d'activation pour les neurones cachés dans un
réseau de neurones
Importance des fonctions d'activation
Les fonctions d'activation linéaire Les non-linéarités nous permettent

produisent des décisions linéaires d'approcher des fonctions
quelle que soit la taille du réseau arbitrairement complexes
 Le but des fonctions d'activation est d'introduire des non-linéarités dans le réseau
Fonctions d'activation dans l'apprentissage en
profondeur
𝑔 𝑧 =𝑧
 La fonction laisse le signal

inchangé
 Sorties dans la plage (−∞, ∞)
 Utilisé dans la couche d'entrée
des réseaux de neurones
Fonction linéaire
profondeur
1
𝑔 𝑧 =
1 + exp(−𝑧)
 Convertit les variables indépendantes

de la plage quasi infinie en
probabilités dans la plage (0,1)
 Utilisé pour la classification binaire
 A le problème des "gradients en voie
de disparition".
Fonction sigmoïde (logistique)  Sa sortie n’est pas centrée à zéro.
profondeur
sinh(𝑧) exp(𝑧) − exp(−𝑧)
𝑔 𝑧 = =
cosh(𝑧) exp 𝑧 + exp(−𝑧)
Sorties dans la plage (−1,1)

 Le principal avantage est qu'il
permet de traiter plus facilement
les nombres négatifs.
 Sa sortie est centrée sur zéro.
 Mieux que Sigmoid
 A le problème des "gradients en
Fonction Tanh voie de disparition".
profondeur
𝑔 𝑧 = max(0, 𝑧)
 Evite et corrige le problème de gradient en

voie de disparition.
 Moins coûteux en calcul que le tanh et le
sigmoïde
 Ne devrait être utilisé que dans des couches
cachées
 Sorties dans la plage [0, ∞)
 A le problème mourant de ReLU
 Pour les activations dans la région (x <0),
gradient = 0 à cause duquel les poids ne seront
pas ajustés. Les neurones qui entrent dans cet
Fonction linéaire rectifiée (ReLU) état cesseront de répondre aux variations
d'erreur / d'entrée
profondeur
𝑧, 𝑧>0
𝑔 𝑧 = max 𝑎𝑧, 𝑧 = ቊ
𝑎𝑧, 𝑧≤0
A une petite pente négative 𝑎 = 0,01

 Il corrige le problème de ReLU en
train de mourir, car il n’a pas de pièces
à pente nulle
 Lorsque 𝑎 n'est pas 0,01, on l'appelle
Randomized ReLU.
 Sorties dans la plage (−∞, ∞)
Fonction ReLU qui fuit  Parfois pire que le sigmoïde et le tanh
Fonctions d'activation dans l'apprentissage en profondeur
𝑔 𝑧 = 𝑙𝑜𝑔𝑒 (1 + exp(𝑧))
 Version lisse de ReLU

 Contrairement à ReLU, vous avez une
dérivabilité différente et une dérivée
non nulle partout
Fonction Softplus
profondeur
exp(𝑧𝑗 )
 Exemple: 𝑔 𝑧𝑗 =
σ𝑖 exp(𝑧𝑖 )
 Renvoie la distribution de
probabilité sur des classes de
sortie mutuellement exclusives.
 Utilisé à la couche de sortie
d'un classificateur
 Normaliser les activations à la
somme 1
Fonction Softmax
en profondeur
Fonctions de perte
Perte dans les réseaux de neurones
 La perte de notre réseau mesure le coût des prévisions erronées

Perte empirique dans les réseaux de neurones
 La perte empirique mesure la perte totale sur l'ensemble de notre ensemble de données.
 Également connu sous le nom de fonction de coût, fonction d'objectif, risque empirique
Fonctions de perte empirique pour la régression
Erreur quadratique moyenne (MSE)

1
L 𝑦,
ො 𝑦 = σ𝑚 𝑦ො𝑖 − 𝑦𝑖 2
2𝑚 𝑖=1
 Lors de l'utilisation de sigmoid comme fonction d'activation, la fonction de perte
MSE souffre du problème de la convergence lente (vitesse d'apprentissage)
 Pour d'autres fonctions d'activation, n'a pas ce problème
Erreur logarithmique quadratique moyenne (MSLE)

1
L 𝑦,
ො 𝑦 = σ𝑚 log(𝑦ො𝑖 ) − log(𝑦𝑖 ) 2
2𝑚 𝑖=1
 Utilisé lorsque nous ne voulons pas pénaliser les différences énormes entre
les valeurs prédites et les valeurs réelles lorsque les valeurs prédites et les
valeurs vraies sont des nombres énormes.
 MSLE pénalise davantage les sous-estimations que les surestimations.
Erreur absolue moyenne (MAE)

1
L 𝑦,
ො 𝑦 = σ𝑚 𝑦ො𝑖 − 𝑦𝑖
2𝑚 𝑖=1
 MAE est plus robuste aux valeurs aberrantes que MSE.

 MSE est plus utile si nous nous inquiétons des grosses erreurs dont les
conséquences sont beaucoup plus grandes que les plus petites
Erreur de pourcentage absolu moyen (MAPE)

1 100∗ 𝑦ො 𝑖 −𝑦𝑖
L 𝑦,
ො 𝑦 = σ𝑚
2𝑚 𝑖=1 𝑦𝑖
 Ne peut pas être utilisé s'il existe une valeur zéro due à la division par 0
 Pour les prévisions trop faibles, le pourcentage d'erreur ne peut pas dépasser 100, mais pour
les prévisions trop élevées, il n'y a pas de limite supérieure au pourcentage d'erreur.
 Lorsqu'il est utilisé pour comparer la précision des méthodes de prévision, il est biaisé en ce
qu'il choisira systématiquement une méthode dont les prévisions sont trop basses.
Erreur L2
ො 𝑦 = σ𝑚
L 𝑦, 𝑖=1 𝑦
ො𝑖 − 𝑦𝑖 2
 Identique à MSE sauf qu'elle n'exprime pas de moyenne (ne comporte pas
de division par m)
Erreur L1
ො 𝑦 = σ𝑚
L 𝑦, 𝑖=1 𝑦
ො𝑖 − 𝑦𝑖
 Identique à MAE sauf qu'elle n'exprime pas de moyenne (ne comporte pas
de division par m)
Fonctions de perte empirique pour la classification
Kullback Leibler (KL) Divergence

1 1
L 𝑦,
ො 𝑦 = σ𝑚
𝑖=1 𝑦𝑖 × log 𝑦𝑖 − σ𝑚
𝑖=1 𝑦𝑖 × log 𝑦ො𝑖
2𝑚 2𝑚
Entropie Entropie croisée
 Aussi appelée entropie relative, divergence / gain d'information
 Mesure comment une distribution de probabilité diverge d'une seconde
distribution attendue
Entropie Croisée
1
L 𝑦,
ො 𝑦 = − σ𝑚 𝑦 × log 𝑦ො𝑖 + (1 − 𝑦𝑖 ) × (1 − log(𝑦ො𝑖 ))
2𝑚 𝑖=1 𝑖
 Mesure la divergence entre deux distributions de probabilité

 Utilisé dans la classification binaire
 Pour la classification multiple, utilisez l'entropie croisée multi-classes
Negative Log Likelihood

1
L 𝑦,
ො 𝑦 = − σ𝑚 log(𝑦ො𝑖 )
2𝑚 𝑖=1
 Utilisé lorsque le modèle génère une probabilité pour chaque classe,

plutôt que seulement la classe la plus probable.
 Similaire à l'entropie croisée et à l'entropie croisée multi-classes
Poisson
1
L 𝑦,
ො 𝑦 = σ𝑚 𝑦ො − 𝑦𝑖 × log 𝑦ො𝑖
2𝑚 𝑖=1 𝑖
 Est-ce une mesure de la façon dont la distribution prévue diverge de la

distribution attendue
Hinge
𝑚
1
𝐿 𝑦,
ො 𝑦 = ෍ max(0,1 − 𝑦ො𝑖 ∗ 𝑦𝑖 )
2𝑚
𝑖=1
 Aussi appelé objectif max-margin

 Utilisé pour la classification «marge maximale», notamment pour les
machines à vecteurs de support (SVM)
Hinge carrée
𝑚
1
𝐿 𝑦,
ො 𝑦 = ෍(max(0,1 − 𝑦ො𝑖 ∗ 𝑦𝑖 ))2
2𝑚
𝑖=1
 Résout un problème de discontinuité dans la dérivée de la perte Hinge

en profondeur
Algorithmes d'optimisation
Optimiser les fonctions de perte
𝜕𝐽(𝑾)
𝑾←𝑾−𝛼
𝜕𝑾
Optimiser la fonction de perte par descente de gradient
 Comment choisir le bon taux d'apprentissage 𝛼?
Choisir le taux d'apprentissage
Estimation initiale
 Le taux faible d'apprentissage converge lentement et reste bloqué dans de faux

minima locaux
Estimation initiale
 Des taux d'apprentissage élevés dépassent les objectifs, deviennent instables et

divergent
Estimation initiale
 Des taux d’apprentissage stables convergent sans à-coups et évitent les minima
locaux
Choiser le taux d'apprentissage
 Solution naïve:
 Essayez beaucoup de taux d'apprentissage et voyez lequel est «juste comme il faut»
 Solution élégante:
 Concevoir un taux d'apprentissage adaptatif qui «s'adapte» au paysage
 Taux d'apprentissage adaptatif

 Les taux d'apprentissage ne sont plus fixes
 Peut être agrandi ou réduit en fonction de:
 quelle est l'ampleur du gradient
 à quelle vitesse l'apprentissage se passe
 taille de poids particuliers
Algorithmes d'optimisation dans l'apprentissage
en profondeur
 Les réseaux de neurones peuvent être formés à l'aide d'une série
d'algorithmes d'optimisation:
 Algorithmes de taux d'apprentissage fixes
 Descente de gradient par lots (Batch Gradient Descent)
 Descente de gradient stochastique (SGD)
 Descente de gradient en mini-lot (Mini-batch Gradient Descent)
 Algorithmes de taux d'apprentissage adaptatif
 Momentum (Élan)
 RMSprop Généralement utilisé en
combinaison avec une descente
 Adam de gradient min-batch
 Adagrad
 Adadelta
 Horaires d'apprentissage (learning rate schedules)
Descente de gradient par lots
 Un epoch signifie un passage dans l'ensemble de données
For 𝑒𝑝𝑜𝑐ℎ = 1 … #𝑒𝑝𝑜𝑐ℎ𝑠
Forward Propagation on 𝑋
1 𝑙 𝜆 2
Compute cost function 𝐽 = σ𝑖=1 𝐿(𝑦ො 𝑖 − 𝑦 (𝑖) ) + σ𝑙 𝑊 (𝑙)
𝑁 2∗𝑁 𝐹
Backward Propagation to compute derivatives 𝑑𝑊 (𝑙)

Update weights 𝑊 (𝑙) = 𝑊 (𝑙) − α𝑑𝑊 (𝑙) , 𝑏 (𝑙) = 𝑏 (𝑙) − α𝑑𝑏 (𝑙)
Descente de gradient en mini-lot
𝑋 {1} 𝑋 {2} 𝑋 {𝑡} 𝑋 {𝐵}
𝑋 = 𝑋 (1) , 𝑋 (2) , 𝑋 (3) … 𝑋 1000 ,𝑋 1001 ,…𝑋 2000 , … … … … … … … … … … … … … … … … … … … … … … … … … . 𝑋 (𝑁)
𝑌 {1} 𝑌 {2} 𝑌 {𝑡} 𝑌 {𝐵}
𝑌 = 𝑌 (1) , 𝑌 (2) , 𝑌 (3) … 𝑌 1000 ,𝑌 1001 ,…𝑌 2000 , … … … … … … … … … … … … … … … … … … … … … … … … … . 𝑌 (𝑁)
 Divisez le lot entier de N éléments en B mini-lots (𝑋 {𝑡} , 𝑌 {𝑡} ) de N / B

éléments chacun
 Un epoch signifie un passage dans l'ensemble de données
For 𝑒𝑝𝑜𝑐ℎ = 1 … #𝑒𝑝𝑜𝑐ℎ𝑠
For 𝑡 = 1 . . 𝐵
Forward Propagation on 𝑋 {𝑡}
1 𝜆 2
Compute cost function 𝐽{𝑡} = σ𝑙𝑖=1 𝐿(𝑦ො 𝑖 − 𝑦 (𝑖) ) + σ𝑙 𝑊 (𝑙)
𝑁/𝐵 2∗𝑁/𝐵 𝐹
Backward Propagation to compute derivatives 𝑑𝑊 (𝑙)

Update weights 𝑊 (𝑙) = 𝑊 (𝑙) − α𝑑𝑊 (𝑙) , 𝑏 (𝑙) = 𝑏 (𝑙) − α𝑑𝑏 (𝑙)
Différence entre l'entraînement avec descente de
gradient par lot et descente de gradient par mini-lot
 La descente de gradient par lots met à jour les poids à la fin d'un passage
dans l'ensemble de données, donc 𝐽 diminue après chaque époque.
 La descente de gradient par mini-lots met à jour les poids à la fin d'un
passage dans chaque mini-lot, donc 𝐽{𝑡} varie après chaque époque.
Descente de gradient par lots Descente de gradient en mini-lot
𝐽 𝐽{𝑡}
Choisir la taille du mini-lot
mini_batch_size Nom Comportement
𝑡 = 𝑏𝑎𝑡𝑐ℎ_𝑠𝑖𝑧𝑒 Batch Gradient Un ensemble de données énorme
Descente de gradient stochastique Descent rend une itération trop longue
𝑡=1 Stochastic Perdez toute la vitesse que vous auriez
Gradient Descent tirée de la vectorisation
1 ≤ 𝑡 ≤ 𝑏𝑎𝑡𝑐ℎ_𝑠𝑖𝑧𝑒 Mini-batch Apprentissage le plus rapide grâce à la
Gradient Descent vectorisation
Peut progresser sans parcourir
l'intégralité du l’ensemble de données
Tailles de mini-lots typiques: 64, 128, 256, 512

Descente de gradient par lots
Descente de gradient en mini-lot avec momentum (élan)
Moyennes pondérées exponentiellement
𝛽 = 0.9 (10 𝑗𝑜𝑢𝑟𝑠)
𝛽 = 0.98 (50 𝑗𝑜𝑢𝑟𝑠)
Avec correction de biais:

𝑣𝑡
𝑣𝑡 →
1 − 𝛽𝑡
𝛽 = 0.5 (2 𝑗𝑜𝑢𝑟𝑠)
Descente de gradient en mini-lot avec momentum (élan)
Descente de gradient sans élan Descente de gradient avec élan
Nous voulons réduire

les oscillations sur
l'axe vertical
On iteration 𝑡
Compute 𝑑𝑊, 𝑑𝑏 on current mini-batch
𝑣𝑑𝑊 = 𝛽𝑣𝑑𝑊 + 1 − 𝛽 𝑑𝑊  La descente de gradient avec élan
𝑣𝑑𝑏 = 𝛽𝑣𝑑𝑏 + (1 − 𝛽)𝑑𝑏 peut être considérée comme une
𝑊 = 𝑊 −∝ 𝑣𝑑𝑊 , 𝑏 = 𝑏 −∝ 𝑣𝑑𝑏 balle qui glisse dans la descente et
qui gagne de la vitesse
 Hyperparamètres: 𝑣𝑑𝑊 = 𝛽𝑣𝑑𝑊 + 1 − 𝛽 𝑑𝑊
 Taux d’apprentissage ∝ friction rapidité accélération
 𝛽 = 0.9
Descente de gradient en mini-lot avec RMSprop
 Utilisé pour réduire les oscillations, tout comme Momentum
 RMSprop = “racine moyenne carrée” prop (Root Mean Square prop)
On iteration 𝑡
𝑠𝑑𝑊 = 𝛽𝑠𝑑𝑊 + 1 − 𝛽 𝑑𝑊 2
𝑠𝑑𝑏 = 𝛽𝑠𝑑𝑏 + (1 − 𝛽)𝑑𝑏 2
𝑑𝑊 𝑑𝑏
𝑊 = 𝑊 −∝ , 𝑏 = 𝑏 −∝
𝑠𝑑𝑊 +𝜀 𝑠𝑑𝑏 +𝜀
 Hyperparameters:
 Taux d’apprentissage ∝
 𝛽 = 0.9
 Pour éviter la division par zéro 𝜀 = 10−8
Descente de gradient en mini-lot avec Adam
On iteration 𝑡
𝑣𝑑𝑊 = 𝛽1 𝑣𝑑𝑊 + 1 − 𝛽1 𝑑𝑊, 𝑣𝑑𝑏 = 𝛽1 𝑣𝑑𝑏 + (1 − 𝛽1 )𝑑𝑏 (momentum)
𝑠𝑑𝑊 = 𝛽2 𝑠𝑑𝑊 + 1 − 𝛽2 𝑑𝑊 2 , 𝑠𝑑𝑏 = 𝛽2 𝑠𝑑𝑏 + 1 − 𝛽2 𝑑𝑏 2 (RMSprop)
𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝑒𝑑 𝑣 𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝑒𝑑 𝑣
𝑣𝑑𝑊 = 𝑑𝑊𝑡 , 𝑣𝑑𝑏 = 𝑑𝑏𝑡 (bias correction)
1−𝛽1 1−𝛽1
𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝑒𝑑 𝑠𝑑𝑊 𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝑒𝑑 𝑠𝑑𝑏
𝑠𝑑𝑊 = , 𝑠𝑑𝑏 = (bias correction)
1−𝛽2𝑡 1−𝛽2𝑡
𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝑒𝑑 𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝑒𝑑
𝑣𝑑𝑊 𝑣𝑑𝑏
𝑊 = 𝑊 −∝ , 𝑏 = 𝑏 −∝
𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝑒𝑑 +𝜀
𝑠𝑑𝑊 𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝑒𝑑 +𝜀
𝑠𝑑𝑏
 Hyperparameters:  Adam = "estimation du moment adaptatif“

 Taux d’apprentissage ∝ (Adaptive Momentum)
 𝛽1 = 0.9, 𝛽2 = 0.999, 𝜀 = 10−8
Horaires d'apprentissage (learning rate schedules)
Nom Decay formula
Optimisation du même taux Constant learning rate ∝ =∝0
Time-based decay 1
∝= ∝
(decay = détériorer) 1 + 𝑑𝑒𝑐𝑎𝑦_𝑟𝑎𝑡𝑒 ∗ 𝑒𝑝𝑜𝑐ℎ_𝑛𝑢𝑚 0
Optimisation du taux de décroissance Exponential decay ∝ = 0.95𝑒𝑝𝑜𝑐ℎ_𝑛𝑢𝑚 ∝0
Step decay 𝑐𝑢𝑟𝑟𝑒𝑛𝑡_𝑒𝑝𝑜𝑐ℎ
∝ = 𝑑𝑒𝑐𝑎𝑦_𝑑𝑟𝑜𝑝 ∝0
𝑒𝑝𝑜𝑐ℎ_𝑑𝑟𝑜𝑝
𝑘
 En pratique, il est recommandé de ∝= ∝0
𝑒𝑝𝑜𝑐ℎ_𝑛𝑢𝑚
réduire la valeur du taux
𝑘
d’apprentissage à l’approche du ∝= ∝0
minimum requis. 𝑐𝑢𝑟𝑟𝑒𝑛𝑡_𝑒𝑝𝑜𝑐ℎ
en profondeur
 Utilisé pour accélérer l'apprentissage
 La normalisation par lots normalisera les activations, de la même
manière que nous normalisons les entrées.
 En pratique, nous normalisons 𝑧 (𝑙) au lieu de 𝑎(𝑙) :
Entraînement avec normalisation par lots
 Normalisation des lots
𝑋 𝑧 (1) 𝑧ǁ (1) 𝑎(1) = 𝑔(𝑧ǁ (1) ) 𝑧 (2) 𝑧ǁ (2) 𝑎(2) = 𝑔(𝑧ǁ (2) )
 Paramètres à calculer avec descente de gradient:

 𝑊 (1) , 𝑏 (1) , … . 𝑊 𝐿 , 𝑊 (𝐿)
 𝛾 (1) , 𝛽(1) , … . 𝛾 𝐿 , 𝛽 𝐿
 Normalisation des mini-lots
𝑋 {𝑡} 𝑧 (1) 𝑧ǁ (1) 𝑎(1) = 𝑔(𝑧ǁ (1) ) 𝑧 (2) 𝑧ǁ (2) 𝑎(2) = 𝑔(𝑧ǁ (2) )
 Paramètres à calculer avec descente de gradient:

 𝑊 (1) , 𝑏 (1) , … . 𝑊 𝐿 , 𝑊 (𝐿)
 𝛾 (1) , 𝛽(1) , … . 𝛾 (𝐿) , 𝛽(𝐿)
Test avec normalisation par lots
 Pour un seul élément de test, vous devez les calculer mais n’avoir
qu’un seul point (l’élément de test):
 Solution: calculez 𝜇, 𝜎 2 sous forme de moyennes pondérées de

manière exponentielle des 𝜇 {𝑡} , (𝜎 2 ){𝑡} dans tous les mini-lots
Matériel de lecture
 Momentum: “Sur le terme de moment dans les algorithmes

d'apprentissage de descente de gradient”
 http://www.columbia.edu/~nq6/publications/momentum.pdf
 Adagrad: “Méthodes adaptatives de sous-gradients pour l'apprentissage
en ligne et l'optimisation stochastique”
 http://www.jmlr.org/papers/volume12/duchi11a/duchi11a.pdf
 Adadelta: “ADADELTA: une méthode du taux d'apprentissage adaptatif”
 https://arxiv.org/pdf/1212.5701.pdf
 Adam: «Adam: une méthode d'optimisation stochastique»
 https://arxiv.org/pdf/1412.6980.pdf

4 - Deep Learning - FR

Transféré par

Droits d'auteur :

Formats disponibles

4 - Deep Learning - FR

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

4 - Deep Learning - FR

Transféré par

Droits d'auteur :

Formats disponibles

Introduction à

Ce cours comprend du matériel de :

Entrées poids somme activation sortie

Les fonctions d'activation linéaire Les non-linéarités nous permettent

 La fonction laisse le signal

 Convertit les variables indépendantes

Sorties dans la plage (−1,1)

 Evite et corrige le problème de gradient en

A une petite pente négative 𝑎 = 0,01

 Version lisse de ReLU

 La perte de notre réseau mesure le coût des prévisions erronées

Erreur quadratique moyenne (MSE)

Erreur logarithmique quadratique moyenne (MSLE)

Erreur absolue moyenne (MAE)

 MAE est plus robuste aux valeurs aberrantes que MSE.

Erreur de pourcentage absolu moyen (MAPE)

Kullback Leibler (KL) Divergence

 Mesure la divergence entre deux distributions de probabilité

Negative Log Likelihood

 Utilisé lorsque le modèle génère une probabilité pour chaque classe,

 Est-ce une mesure de la façon dont la distribution prévue diverge de la

 Aussi appelé objectif max-margin

 Résout un problème de discontinuité dans la dérivée de la perte Hinge

 Le taux faible d'apprentissage converge lentement et reste bloqué dans de faux

 Des taux d'apprentissage élevés dépassent les objectifs, deviennent instables et

 Taux d'apprentissage adaptatif

For 𝑒𝑝𝑜𝑐ℎ = 1 … #𝑒𝑝𝑜𝑐ℎ𝑠

Backward Propagation to compute derivatives 𝑑𝑊 (𝑙)

𝑋 = 𝑋 (1) , 𝑋 (2) , 𝑋 (3) … 𝑋 1000 ,𝑋 1001 ,…𝑋 2000 , … … … … … … … … … … … … … … … … … … … … … … … … … . 𝑋 (𝑁)

𝑌 {1} 𝑌 {2} 𝑌 {𝑡} 𝑌 {𝐵}

𝑌 = 𝑌 (1) , 𝑌 (2) , 𝑌 (3) … 𝑌 1000 ,𝑌 1001 ,…𝑌 2000 , … … … … … … … … … … … … … … … … … … … … … … … … … . 𝑌 (𝑁)

 Divisez le lot entier de N éléments en B mini-lots (𝑋 {𝑡} , 𝑌 {𝑡} ) de N / B

For 𝑒𝑝𝑜𝑐ℎ = 1 … #𝑒𝑝𝑜𝑐ℎ𝑠

Backward Propagation to compute derivatives 𝑑𝑊 (𝑙)

Tailles de mini-lots typiques: 64, 128, 256, 512

𝛽 = 0.98 (50 𝑗𝑜𝑢𝑟𝑠)

Avec correction de biais:

Nous voulons réduire

 Hyperparameters:  Adam = "estimation du moment adaptatif“

 Paramètres à calculer avec descente de gradient:

 Paramètres à calculer avec descente de gradient:

 Solution: calculez 𝜇, 𝜎 2 sous forme de moyennes pondérées de

 Momentum: “Sur le terme de moment dans les algorithmes

Vous aimerez peut-être aussi