SlideShare a Scribd company logo
自然言語処理のための
Deep Learning
東京工業大学 奥村・高村研究室
D1 菊池悠太 @kiyukuta
at
2013/09/11
Deep Learning for Natural Language Processing
13年9月28日土曜日
13年9月28日土曜日
2つのモチベーション
 - NLPでニューラルネットを
 - 言語の意味的な特徴を
NN→多層×→pretraining→breakthrough !!
焦って早口過ぎてたら
教えて下さい
A yet another brief introduction to neural networks
http://www.slideshare.net/yutakikuchi927/a-yet-another-brief-introduction-to-neural-
networks-26023639
13年9月28日土曜日
Neural networkベースの話
RBMとか苦しい
13年9月28日土曜日
Deep Learning
for NLP
13年9月28日土曜日
Deep Learning
Deep Learning概要
Neural Networkふんわり
Deepへの難しさ
Pretrainingの光
Stacked Autoencoder , DBN
for NLP
13年9月28日土曜日
Deep Learning
for NLP
13年9月28日土曜日
Deep Learning
Deep Learning概要
Neural Networkふんわり
Deepへの難しさ
Pretrainingの光
Stacked Autoencoder , DBN
13年9月28日土曜日
Deep Learning
Unsupervised Representation Learning
生データ
生データ
特徴抽出
学習器- 特徴抽出器
- 人手設計
答え!
答え!Deep Learning
従来
Deep Learning
13年9月28日土曜日
Deep Learning
結論からいうと
Deep Learningとは
良い初期値を(手に入れる方法を)
手に入れた
多層Neural Networkです
13年9月28日土曜日
Deep Learning
⽣生画像から階層毎に階層的な特徴を
ラベル無しデータから教師なしで学習
13年9月28日土曜日
生画像
高次な特徴は,より低次な特徴
の組み合わせで表現
13年9月28日土曜日
= = =
低次レベルの特徴は共有可能
将来のタスクが未知でも
起こる世界は今と同じ
13年9月28日土曜日
Deep Learning
Deep Learning概要
Neural Networkふんわり
Deepへの難しさ
Pretrainingの光
Stacked Autoencoder , DBN
13年9月28日土曜日
A yet another
brief introduction to
Neural Networks
菊池 悠太
13年9月28日土曜日
Neural Network
入力層x
隠れ層z
出力層y
13年9月28日土曜日
入力層x
隠れ層z
出力層y
生データ,抽出した素性
予測
Neural Network
13年9月28日土曜日
入力層x
隠れ層z
出力層y
例えば,手書き数字認識
784次元
10次元
MNIST (28*28の画像)
3!!
[0.05, 0.05, 0.05, 0.40, 0.05, 0.05, 0.15, 0.05, 0.15, 0.05] 10次元の確率分布
(左から,入力画像が,
  0である確率,
   1である確率
   ...
   9である確率)
28*28=
784次元の数値ベクトル
13年9月28日土曜日
入力層x
隠れ層z
出力層y
Neuron
隠れユニットjの
入力層に対する重み
W1
隠れユニットj
13年9月28日土曜日
隠れユニットjの
入力層に対する重み
W1
隠れユニットj
出力ユニットk
出力ユニットkの
隠れ層に対する重みW2
入力層x
隠れ層z
出力層y
Neuron
13年9月28日土曜日
入力層x
隠れ層z
出力層y
W1
W2
行列で表現
層間の重みを行列で表現
13年9月28日土曜日
Neural Networkの処理
- Forward propagation
- Back propagation
- Parameter update
13年9月28日土曜日
Neural Networkの処理
- Forward propagation
- Back propagation
- Parameter update
13年9月28日土曜日
Forward Propagation
入力層x
隠れ層z
出力層y
入力に対し出力を出す
input x
output y
13年9月28日土曜日
入力層x
隠れ層z
出力層y
z = f(W1x + b1)
入力層から隠れ層への情報の伝播
非線形活性化関数f( )
tanh とか
sigmoid とか
f(x0)
f(x1)
f(x2)
f(x3)
f(x) =
13年9月28日土曜日
入力層x
隠れ層z
出力層y
z = f(W1x + b1)
入力層から隠れ層への情報の伝播
非線形活性化関数f( )
tanh,sigmoid
reLU, maxout...
f(x0)
f(x1)
f(x2)
f(x3)
f(x) =
f( )
13年9月28日土曜日
入力層x
隠れ層z
出力層y
z = f(W1x + b1)
f( )
入力層から隠れ層への情報の伝播
⼊入⼒力力の情報を
重み付きで受け取る
隠れユニットが出す
出⼒力力値が決まる
13年9月28日土曜日
入力層x
隠れ層z
出力層y
z = f(W1x + b1)
入力層から隠れ層への情報の伝播
f( )
非線形活性化関数f( )
tanh,sigmoid
reLU, maxout...
f(x0)
f(x1)
f(x2)
f(x3)
f(x) =
13年9月28日土曜日
入力層x
隠れ層z
出力層y
出⼒力力層⽤用の
非線形活性化関数σ( )
   タスク依存
隠れ層から出力層への情報の伝播
y = (W2z + b2)
13年9月28日土曜日
入力層x
隠れ層z
出力層y
出⼒力力層⽤用の
非線形活性化関数σ( )
   タスク依存
隠れ層から出力層への情報の伝播
y = (W2z + b2)
13年9月28日土曜日
入力層x
隠れ層z
出力層y
タスク依存の出力層
解きたいタスクによって
σが変わる
- 回帰
- 二値分類
- 多値分類
- マルチラベリング
y = (W2z + b2)
13年9月28日土曜日
実数
入力層x
隠れ層z
出力層y
回帰のケース
出力に値域はいらない
恒等写像でそのまま出力
(a) = a
y = (W2z + b2)
13年9月28日土曜日
[0:1]
二値分類のケース
出力層は確率
σは0.0~1.0であって欲しい
(a) = 1
1+exp( a)
Sigmoid関数入力層x
隠れ層z
出力層y
y = (W2z + b2)
13年9月28日土曜日
入力層x
隠れ層z
出力層y
多値分類のケース
出力は確率分布
各ノード0以上,総和が1
Softmax関数
sum( 0.2 0.7 0.1 )=1.0
(a) = exp(a)
exp(a)
y = (W2z + b2)
13年9月28日土曜日
入力層x
隠れ層z
出力層y
マルチラベリングのケース
各々が独立に二値分類
(a) = 1
1+exp( a)
element-wiseで
Sigmoid関数
[0:1] [0:1] [0:1] y = (W2z + b2)
13年9月28日土曜日
ちなみに多層になった場合
...
出力層だけタスク依存
隠れ層はぜんぶ同じ
出力層
隠れ層1
隠れ層N
...
13年9月28日土曜日
Forward Propagation
入力層x
隠れ層z
出力層y
z = f(W1x + b1)
y = (W2z + b2)
13年9月28日土曜日
Neural Networkの処理
- Forward propagation
- Back propagation
- Parameter update
13年9月28日土曜日
Back Propagation
入力層x
隠れ層z
出力層y
正解t
NNが入力に対する出力の
予測を間違えた場合
正解するように修正したい
13年9月28日土曜日
Back Propagation
入力層x
隠れ層z
出力層y
正解t
NNが入力に対する出力の
予測を間違えた場合
正解するように修正したい
修正対象: 層間の重み
z = f(W1x + b1)
↑と,バイアス
y = (W2z + b2)
13年9月28日土曜日
Back Propagation
入力層x
隠れ層z
出力層y
正解t
誤差関数を最⼩小化するよう修正
E( ) = 1
2 y( ) t 2
E =
K
k=1 tk log yk
E = t log y (1 t) log(1 y)
E =
K
k=1 t log y + (1 t) log(1 y)
いずれも予測と正解が
違うほど⼤大きくなる
13年9月28日土曜日
Back Propagation
入力層x
隠れ層z
出力層y
正解t
 出力ラベルと正解の差
ノードの誤差を計算
y = y t
13年9月28日土曜日
Back Propagation
入力層x
隠れ層z
出力層y
正解t
ノードの誤差を計算
 出力ラベルと正解の差
自分が情報を伝えた先の
誤差が伝播してくる
z = WT
2 yf (az)
y = y t
13年9月28日土曜日
Back Propagation
入力層x
隠れ層z
出力層y
正解t
y = y t
z = WT
2 yf (az)
 出力ラベルと正解の差
ノードの誤差を計算
自分の影響で上で発生した誤差
13年9月28日土曜日
Back Propagation
入力層x
隠れ層z
出力層y
正解t
重みの勾配を計算
⾃自分が上に伝えた
情報で発⽣生した誤差
En
W2
= yzT
En
W1
= zxT
13年9月28日土曜日
Back Propagation
入力層x
隠れ層z
出力層y
正解t
重みの勾配を計算
⾃自分が上に伝えた
情報で発⽣生した誤差
En
W2
= yzT
En
W1
= zxT
13年9月28日土曜日
Neural Networkの処理
- Forward propagation
- Back propagation
- Parameter update
13年9月28日土曜日
Update parameters
入力層x
隠れ層z
出力層y
正解t 重みの更新
W1 = W1
En
W1
W2 = W2
En
W2
13年9月28日土曜日
Update parameters
入力層x
隠れ層z
出力層y
正解t 重みの更新
W1 = W1
En
W1
W2 = W2
En
W2
-Gradient Descent
-Stochastic Gradient Descent
-SGD with mini-batch
  修正するタイミングの違い
13年9月28日土曜日
Neural Network
の処理まとめ
13年9月28日土曜日
Forward Propagation
入力層x
隠れ層z
出力層y
z = f(W1x + b1)
y = (W2z + b2)
入力から予測
input x
output y
13年9月28日土曜日
Back Propagation
入力層x
隠れ層z
出力層y
正解t 誤差と勾配を計算
z = WT
2 yf (az)
y = y t
En
W2
= yzT
En
W1
= zxT
13年9月28日土曜日
Update parameters
入力層x
隠れ層z
出力層y
正解t 勾配方向へ重み更新
W1 = W1
En
W1
W2 = W2
En
W2
13年9月28日土曜日
ちなみにAutoencoder
Neural Networkの特殊系
1. 入力と出力の次元が同じ
2. 教師信号が入力そのもの
入力を圧縮※1して復元
※1 圧縮(隠れ層が入力層より少ない)でなくても,適切に正則化すればうまくいく
13年9月28日土曜日
Neural Networkの特殊系
Autoencoder
z = f(W1x + b1)
y = (W2z + b2)
13年9月28日土曜日
Neural Networkの特殊系
Autoencoder
y = (W2z + b2)
(a) = 1
1+exp( a)
element-wiseで
Sigmoid関数
マルチラベリングのケースに該当
画像の場合,各画素(ユニット)ごとに
明るさ(0.0:黒, 1.0:白)を判定するため
13年9月28日土曜日
Autoencoderの学習するもの
13年9月28日土曜日
Denoising Autoencoder
add noise
denoise
正則化法の一つ,再構築+ノイズの除去
13年9月28日土曜日
Deep Learning
Deep Learning概要
Neural Networkふんわり
Deepへの難しさ
Pretrainingの光
Stacked Autoencoder , DBN
13年9月28日土曜日
Deepになると?
many figures from
http://www.cs.toronto.edu/~fleet/courses/cifarSchool09/slidesBengio.pdf
13年9月28日土曜日
仕組み的には同じ
隠れ層が増えただけ
13年9月28日土曜日
問題は初期化
NNのパラメータ
初期値は乱数
多層(Deep)になってもOK?
13年9月28日土曜日
乱数だとうまくいかない
NNはかなり複雑な変化をする関数なので
悪い局所解にいっちゃう
Learning Deep Architectures for AI (2009)
13年9月28日土曜日
乱数だとうまくいかない
NN自体が表現力高いので
上位二層分のNNだけで訓練データを
再現するには事足りちゃう
ただしそれは汎化能力なし
過学習
inputのランダムな写像だが,
inputの情報は保存している
Greedy Layer-Wise Training of Deep Networks [Bengio+, 2007]
13年9月28日土曜日
Deep Learning
Deep Learning概要
Neural Networkふんわり
Deepへの難しさ
Pretrainingの光
Stacked Autoencoder , DBN
13年9月28日土曜日
2006年,ブレークスルー(Hinton+,2006)
Greedy Layer-wise
unsupervised pretraining
13年9月28日土曜日
層ごとにまずパラメータを更新
層ごとに学習
13年9月28日土曜日
層ごとにまずパラメータを更新
どうやって?
Autoencoder !!
RBMも
[Bengio,2007]
[Hinton,2006]
13年9月28日土曜日
層ごとにまずパラメータを更新
どうなるの?
良い初期値を
得られるようになりました!
Why does Unsupervised Pre-training Help Deep Learning ? [Erhan+, 2010]
[Bengio+, 2007]
なぜpre-trainingが良いのか,諸説あり
13年9月28日土曜日
Deep Learningとは
良い初期値を(手に入れる方法を)
手に入れた※1
Neural Network※2
つまり
※1 諸説あり Why does Unsupervised Pre-training Help Deep Learning ? [Erhan+, 2010]
※2 stacked autoencoderの場合
13年9月28日土曜日
Deep Learning
Deep Learning概要
Neural Networkふんわり
Deepへの難しさ
Pretrainingの光
Stacked Autoencoder , DBN
13年9月28日土曜日
Autoencoder
Neural Networkの特殊系
1. 入力と出力の次元が同じ
2. 教師信号が入力そのもの
訓練データ中の
本質的な情報を捉える
入力を圧縮して復元
13年9月28日土曜日
Neural Networkの特殊系
圧縮ということは隠れ層は
少なくないといけないの?
そうでなくても,
正則化などでうまくいく
Autoencoder
13年9月28日土曜日
Autoencoderの学習するもの
これは,正確にはdenoising autoencoderの図
http://kiyukuta.github.io/2013/08/20/hello_autoencoder.html
13年9月28日土曜日
Stacked Autoencoder
13年9月28日土曜日
このNNの各層を,
その層への⼊入⼒力力を再構築するAutoencoder
として,事前学習
Stacked Autoencoder
13年9月28日土曜日
Deep Learning
Deep Learning概要
Neural Networkふんわり
Deepへの難しさ
Pretrainingの光
Stacked Autoencoder , DBN
13年9月28日土曜日
Deep Learning
for NLP
13年9月28日土曜日
画像処理のように
Deeeeeeepって感じではない
Neural Network-based
くらいのつもりで
13年9月28日土曜日
Deep Learning for
NLP
13年9月28日土曜日
Hello world.
My name is Tom.
2
4
MNIST
784
(28 x 28)
28 x 28= ???
size
Input size
...
...
......
Image Sentence
...
...
...
...
任意の⻑⾧長さの⽂文を⼊入⼒力力とするには??
単語(句句や⽂文も)をどうやって表現する??
13年9月28日土曜日
Hello world.
My name is Tom.
2
4
MNIST
784
(28 x 28)
28 x 28= ???
size
Input representation
...
...
......
Image Sentence
...
...
...
...
任意の⻑⾧長さの⽂文を⼊入⼒力力とするには??
単語(句句や⽂文も)をどうやって表現する??
13年9月28日土曜日
言い換えると
任意の⻑⾧長さの⽂文を⼊入⼒力力とするには??
単語(句句や⽂文も)をどうやって表現する??
NLPでNNを使いたい
単語の特徴をうまく捉えた表現の学習
13年9月28日土曜日
Keywords
任意の⻑⾧長さの⽂文を⼊入⼒力力とするには??
単語(句句や⽂文も)をどうやって表現する??
Distributed  word  
representation
-‐‑‒  convolutional-‐‑‒way
-‐‑‒  recursive-‐‑‒way
Neural  language  
model
phrase,  sentence-‐‑‒level
representation
13年9月28日土曜日
任意の⻑⾧長さの⽂文を⼊入⼒力力とするには??
単語(句句や⽂文も)をどうやって表現する??
Distributed  word  
representation
-‐‑‒  convolutional-‐‑‒way
-‐‑‒  recursive-‐‑‒way
Neural  language  
model
phrase,  sentence-‐‑‒level
representation
Keywords
13年9月28日土曜日
任意の⻑⾧長さの⽂文を⼊入⼒力力とするには??
単語(句句や⽂文も)をどうやって表現する??
Distributed  word  
representation
-‐‑‒  convolutional-‐‑‒way
-‐‑‒  recursive-‐‑‒way
Neural  language  
model
phrase,  sentence-‐‑‒level
representation
Keywords
13年9月28日土曜日
任意の⻑⾧長さの⽂文を⼊入⼒力力とするには??
単語(句句や⽂文も)をどうやって表現する??
Distributed  word  
representation
-‐‑‒  convolutional-‐‑‒way
-‐‑‒  recursive-‐‑‒way
Neural  language  
model
phrase,  sentence-‐‑‒level
representation
Keywords
13年9月28日土曜日
Keywords
任意の⻑⾧長さの⽂文を⼊入⼒力力とするには??
単語(句句や⽂文も)をどうやって表現する??
Distributed  word  
representation
-‐‑‒  convolutional-‐‑‒way
-‐‑‒  recursive-‐‑‒way
Neural  language  
model
phrase,  sentence-‐‑‒level
representation
13年9月28日土曜日
Word representation
自然言語処理における
単語の表現方法
ベクトル
(Vector Space Model, VSM)
13年9月28日土曜日
単語の意味をベクトルで表現
単語 → ベクトル
dog
いろいろな方法
- One-hot
- Distributional
- Distributed
... 本題
Word representation
13年9月28日土曜日
One-hot representation
各単語に個別IDを割り当て表現
dog
辞書V
0
1
2
236
237
3043
: the
: a
: of
: dog
: sky
: cat
.........
.........
cat
0 |V|
1 00... ...000... 0
1 00... 000... 0
スパースすぎて訓練厳しい
汎化能力なくて未知語扱えず
13年9月28日土曜日
Distributional representation
単語の意味は,周りの文脈によって決まる
Standardな方法
13年9月28日土曜日
Distributed representation
dense, low-dimensional, real-valued
dog k
k
|V|
...
Neural Language Model
により学習
= Word embedding
構文的,意味的な情報
を埋め込む
13年9月28日土曜日
Distributed Word representation
Distributed Phrase representation
Distributed Sentence representation
Distributed Document representation
recursive勢の一強?
さて...
13年9月28日土曜日
Neural Language Model
Distributed Word
Representation
の学習
13年9月28日土曜日
Neural Language Model
言語モデルとは
P(“私の耳が昨日からじんじん痛む”)
P(“私を耳が高くに拡散して草地”) はぁ?
うむ
与えられた文字列の
生成確率を出力するモデル
13年9月28日土曜日
Neural Language Model
N-gram言語モデル
単語列の出現確率を N-gram ずつに分解して近似
次元の呪いを回避
13年9月28日土曜日
Neural Language Model
N-gram言語モデルの課題
1. 実質的には長い文脈は活用できない
  せいぜいN=1,2
2. “似ている単語”を扱えない
  
P(house|green)
13年9月28日土曜日
Neural Language Model
とは
Neural Networkベースの言語モデル
 - 言語モデルの学習
 - Word Embeddingsの学習
同時に学習する
13年9月28日土曜日
Neural Language Model
単語そのもの
その単語のembedding
|辞書|次元の確率分布
どの単語が次に
出てくるかを予測
A Neural Probabilistic Language Model (bengio+, 2003)
13年9月28日土曜日
Neural Language Model
n語の文脈が与えられた時
次にどの単語がどのく
らいの確率でくるか
13年9月28日土曜日
Neural Language Model
似ている単語に似たembeddingを与えられれば,
NN的には似た出力を出すはず
   語の類似度を考慮した言語モデルができる
13年9月28日土曜日
Ranking language model[Collobert & Weston,2008]
仮名
単語列に対しスコアを出すNN
正しい単語列 最後の単語をランダムに入れ替え
>
となるように学習
他の主なアプローチ
13年9月28日土曜日
Recurrent Neural Network [Mikolov+, 2010]
t番⽬目の単語の⼊入⼒力力時に
同時にt-‐‑‒1番⽬目の内部状態を⽂文脈として⼊入⼒力力
1単語ずつ⼊入⼒力力 出⼒力力は同じく
語彙上の確率率率分布
word2vecの人
他の主なアプローチ
13年9月28日土曜日
Recurrent Neural Network [Mikolov+, 2010]
t番⽬目の単語の⼊入⼒力力時に
同時にt-‐‑‒1番⽬目の内部状態を⽂文脈として⼊入⼒力力
1単語ずつ⼊入⼒力力 出⼒力力は同じく
語彙上の確率率率分布
word2vecの人
他の主なアプローチ
13年9月28日土曜日
word2vec
https://code.google.com/p/word2vec/
研究 進展 人生 → 苦悩
人生 恋愛 研究 → 進展
他に...
13年9月28日土曜日
word2vec
https://code.google.com/p/word2vec/
単語間の関係のoffsetを捉えている仮定
king - man + woman ≒ queen
単語の意味についてのしっかりした分析
13年9月28日土曜日
Keywords
任意の⻑⾧長さの⽂文を⼊入⼒力力とするには??
単語(句句や⽂文も)をどうやって表現する??
Distributed  word  
representation
-‐‑‒  convolutional-‐‑‒way
-‐‑‒  recursive-‐‑‒way
Neural  language  
model
phrase,  sentence-‐‑‒level
representation
13年9月28日土曜日
先ほどは,単語表現を学習するためのモデル
(Bengio’s, C&W’s, Mikolov’s)
以降は,NNで言語処理のタスクに
取り組むためのモデル
(結果的に単語ベクトルは学習されるが
   おそらくタスク依存なものになっている)
13年9月28日土曜日
Keywords
任意の⻑⾧長さの⽂文を⼊入⼒力力とするには??
単語(句句や⽂文も)をどうやって表現する??
Distributed  word  
representation
-‐‑‒  convolutional-‐‑‒way
-‐‑‒  recursive-‐‑‒way
Neural  language  
model
phrase,  sentence-‐‑‒level
representation
13年9月28日土曜日
Collobert & Weston[2008]
convolutional-‐‑‒way
はじめに
2008年の論文
文レベルの話のとこだけ
他に
Multi-task learning
Language model
の話題がある
13年9月28日土曜日
Collobert & Weston[2008]
convolutional-‐‑‒way
はじめに
ここは
2層Neural Network
入力
隠れ層
出力層
13年9月28日土曜日
convolutional-‐‑‒way
はじめに
Neural Networkに
入力するために
どうやって
固定次元に変換するか
任意の長さの文
Collobert & Weston[2008]
13年9月28日土曜日
convolutional-‐‑‒way
Collobert & Weston[2008]
13年9月28日土曜日
convolutional-‐‑‒way
単語をd次元ベクトルに
(word embedding + α)
Collobert & Weston[2008]
13年9月28日土曜日
convolutional-‐‑‒way
3単語をConvolutionして
localな特徴を得る
Collobert & Weston[2008]
13年9月28日土曜日
convolutional-‐‑‒way
共通の重み( )
Collobert & Weston[2008]
13年9月28日土曜日
max(       )
convolutional-‐‑‒way
各次元の最大値を取得
max(       )
max(       )
次元固定のキモ
Collobert & Weston[2008]
13年9月28日土曜日
convolutional-‐‑‒way
固定次元の入力
任意サイズの入力
Neural Networkで学習
Collobert & Weston[2008]
13年9月28日土曜日
Keywords
任意の⻑⾧長さの⽂文を⼊入⼒力力とするには??
単語(句句や⽂文も)をどうやって表現する??
Distributed  word  
representation
-‐‑‒  convolutional-‐‑‒way
-‐‑‒  recursive-‐‑‒way
Neural  language  
model
phrase,  sentence-‐‑‒level
representation
13年9月28日土曜日
Keywords
任意の⻑⾧長さの⽂文を⼊入⼒力力とするには??
単語(句句や⽂文も)をどうやって表現する??
Distributed  word  
representation
-‐‑‒  convolutional-‐‑‒way
-‐‑‒  recursive-‐‑‒way
Neural  language  
model
phrase,  sentence-‐‑‒level
representation
13年9月28日土曜日
Richard Socher一派
recursive-‐‑‒way
Recursive Neural Network
Recursive Autoencoder
Parsing Natural Scenes and Natural Language with Recursive Neural Networks (ICML2011)
Semi-Supervised Recursive Autoencoders for Predicting Sentiment Distributions (EMNLP2011)
13年9月28日土曜日
Richard Socher一派
recursive-‐‑‒way
Recursive Neural Network
Recursive Autoencoder
Parsing Natural Scenes and Natural Language with Recursive Neural Networks (ICML2011)
Semi-Supervised Recursive Autoencoders for Predicting Sentiment Distributions (EMNLP2011)
13年9月28日土曜日
recursive-‐‑‒way
Recursive Autoencoder
感情分布の推定
Semi-Supervised Recursive Autoencoders for Predicting Sentiment Distributions (EMNLP2011)
13年9月28日土曜日
recursive-‐‑‒way
Recursive Autoencoder
Distributed
Representation
Autoencoder
感情分布の推定
Semi-Supervised Recursive Autoencoders for Predicting Sentiment Distributions (EMNLP2011)
13年9月28日土曜日
recursive-‐‑‒way
Recursive Autoencoder
2つを1つに圧縮用の共通の
Autoencoderを再帰的に適用
Stacked Autoencoderは
階層毎に別のものを訓練
Semi-Supervised Recursive Autoencoders for Predicting Sentiment Distributions (EMNLP2011)
13年9月28日土曜日
recursive-‐‑‒way
Recursive Autoencoder
感情分布の推定
Semi-Supervised Recursive Autoencoders for Predicting Sentiment Distributions (EMNLP2011)
13年9月28日土曜日
Richard Socher一派
recursive-‐‑‒way
Recursive Neural Network
Recursive Autoencoder
Parsing Natural Scenes and Natural Language with Recursive Neural Networks (ICML2011)
Semi-Supervised Recursive Autoencoders for Predicting Sentiment Distributions (EMNLP2011)
13年9月28日土曜日
recursive-‐‑‒way
Recursive Neural Network
Parsing
Parsing Natural Scenes and Natural Language with Recursive Neural Networks (ICML2011)
13年9月28日土曜日
recursive-‐‑‒way
Recursive Neural Network
Neural Network
Parsing
Parsing Natural Scenes and Natural Language with Recursive Neural Networks (ICML2011)
13年9月28日土曜日
recursive-‐‑‒way
Recursive Neural Network
Parsing Natural Scenes and Natural Language with Recursive Neural Networks (ICML2011)
:モデル出力の最大スコア
:正解構文木のスコア
Parsing
構文木中の全非終端ノードのsの総和
13年9月28日土曜日
Socher+’s
ほかの
13年9月28日土曜日
Compositional semantics
Semantic Compositionality through Recursive Matrix-Vector Spaces (EMNLP2012)
各単語にベクトルと行列を割り当て
意味 隣接語への影響
not, very ...
13年9月28日土曜日
Paraphrase
入力: 二つの文
出力: 二つの文が同じ意味か否か
Dynamic Pooling and Unfolding Recursive Autoencoders for Paraphrase Detection (NIPS2011)
- Unfolding RAEで文の意味
- Dynamic poolingで任意の長さの2文を比べる
13年9月28日土曜日
Keywords
任意の⻑⾧長さの⽂文を⼊入⼒力力とするには??
単語(句句や⽂文も)をどうやって表現する??
Distributed  word  
representation
-‐‑‒  convolutional-‐‑‒way
-‐‑‒  recursive-‐‑‒way
Neural  language  
model
phrase,  sentence-‐‑‒level
representation
単語の表現⽅方法としての
密で低次元な連続値ベクトル(word  embedding)
13年9月28日土曜日
Keywords
Distributed  word  
representation
-‐‑‒  convolutional-‐‑‒way
-‐‑‒  recursive-‐‑‒way
Neural  language  
model
phrase,  sentence-‐‑‒level
representation
word  embeddingsを学習するためのアプローチ
ex) Bengio’s, recurrent, ranking
任意の⻑⾧長さの⽂文を⼊入⼒力力とするには??
単語(句句や⽂文も)をどうやって表現する??
13年9月28日土曜日
Keywords
任意の⻑⾧長さの⽂文を⼊入⼒力力とするには??
単語(句句や⽂文も)をどうやって表現する??
Distributed  word  
representation
-‐‑‒  convolutional-‐‑‒way
-‐‑‒  recursive-‐‑‒way
Neural  language  
model
phrase,  sentence-‐‑‒level
representation
文ごとに長さが異なるのを扱うアプローチ
13年9月28日土曜日
Keywords
任意の⻑⾧長さの⽂文を⼊入⼒力力とするには??
単語(句句や⽂文も)をどうやって表現する??
Distributed  word  
representation
-‐‑‒  convolutional-‐‑‒way
-‐‑‒  recursive-‐‑‒way
Neural  language  
model
phrase,  sentence-‐‑‒level
representation
Recursiveな方は途中のphraseやsentenceに
おける単語ベクトルも保存
13年9月28日土曜日
2つのモチベーション
 - NLPでニューラルネットを
 - 言語の意味的な特徴を
NN→多層×→pretraining→breakthrough !!
焦って早口過ぎてたら
教えて下さい
具体例の説明が重くなりすぎたかも...
13年9月28日土曜日
2つのモチベーション
 - NLPでニューラルネットを
 - 言語の意味的な特徴を
NN→多層×→pretraining→breakthrough !!
焦って早口過ぎてたら
教えて下さい
具体例の説明が重くなりすぎたかも...
13年9月28日土曜日
Distributed
(Word|Phrase|Sentence|Document)
Representation
Recursive Autoencoder一強
他の枠組みは?
どうする?
よりよい単語の表現
Neural Language Model
意味??
Compositional Semanticsという
タスク自体は,deep learning
以外でも最近盛ん
13年9月28日土曜日
既存タスクへの応用
単語類似度,分類,構造学習...
要約,翻訳,推薦, ...?
- 学習された単語のembeddingを追加素性に使う
他の方法は?
13年9月28日土曜日
おわり
13年9月28日土曜日

More Related Content

自然言語処理のためのDeep Learning