SlideShare a Scribd company logo
影響伝播モデルIDMの線形代数表現
           とTwitter分析への応用




                               1

2010年3月16日火曜日
影響伝播モデル IDM

          •     同一スレッドにおいて、メッセージ x とメッセージ y に
                共通する語数 ¦ mx ∩ my ¦ を、メッセージ x がメッセー
                ジ y に及ぼす影響量 ixy と定義する


                   A                   A               B
                   B                   C               C
                         mx                   my           mz

                                         A (ixy =1)
                                                       C (iyz =1)
                                                       B (ixz =1)
                2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター
                                                                    2

2010年3月16日火曜日
メッセージ・投稿者・語の影響量

          •     メッセージ x の影響量 Ix

                - Ix = Σixy, for y       messages followed by x

          •     投稿者 s の影響量 Jx

                - Jx = ΣIm, for m         messages posted by s

          •     語 w の影響量 Kw

                - Kw = Σixy / ¦ mx ∩ my ¦, for x       messages
                   including w and for    y   messages followed by x


                2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター
                                                                       3

2010年3月16日火曜日
メッセージの影響量

                         A                   A          B
                         B                   C          C
                               mx                my         mz

          •     メッセージ mx , my , mz の影響量 Ix, Iy, Iz はそれぞれ以
                下のように求まる

          •     Ix = ixy + ixz = 1 + 1 = 2

          •     Iy = ixz = 1

          •     Iz = 0


                 2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター
                                                                 4

2010年3月16日火曜日
投稿者の影響量

                       A                 A             B
                       B                 C             C
                              mx             my            mz

          •     投稿者 P が mx と my、投稿者 Q が mz を投稿したとす
                ると、投稿者 P, Q の影響量 Jp, JQ はそれぞれ以下のよ
                うに求まる

          •     Jp = Ix + Iz = 1+1 = 2

          •     JQ = Iy = 1



                2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター
                                                                5

2010年3月16日火曜日
語の影響量

                        A                    A         B
                        B                    C         C
                              mx                 my        mz

          •     語 A, B, C の影響量 Kx, Ky, Kz はそれぞれ以下のように
                求まる

          •     KA = ixy / | mx ∩ my | = 1

          •     KB = ixz / | mx ∩ mz | = 1

          •     KC = iyz / | my ∩ my | = 1


                2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター
                                                                6

2010年3月16日火曜日
影響伝播モデルIDM再考

          •     IDMは、ネットワークの構造に沿って語を重み付けしなが
                ら足し合わせていることに等しく、一種の畳込み演算を
                行っていると見なすことができる

          •     IDMのモデルを、ネットワーク構造に関する行列(再帰構
                造行列)と重みに関する行列(重み行列)に分解し、それ
                ぞれを求めてから、再帰構造行列を重み行列に線形写像す
                ることで影響量を求めることができる




                2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター
                                                       7

2010年3月16日火曜日
再帰構造行列

          •     メッセージ i からメッセージ j への有向リンクの接続関係
                を表す有向接続行列を M∈Rmxm とし、減衰係数をβとす
                ると、再帰構造行列 M* は以下の式より求まる

          •     M* = M+βM2+β2M3+…+βn-1Mn (= M(1-βM)-1)




                2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター
                                                         8

2010年3月16日火曜日
重み行列

          •     ixy = ¦ mx ∩ my ¦ はメッセージ mx, my の特徴ベクト
                ル同士の内積に等しい

          •     メッセージの特徴ベクトルは、メッセージx語からなる行列
                A∈Rmxn の行ベクトルとして表される

          •     したがって、ixy は AAT∈Rmxm の (i,j) 成分として表すこ
                とができる

          •     重み行列 A* は以下の式より求まる

          •     A* = AAT

                2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター
                                                         9

2010年3月16日火曜日
影響量行列

          •     IDMでは、ネットワーク構造に沿って ixy を足し合わせる
                ことで影響量を求める。これは、再帰構造行列 M* の重み
                行列 A* への線形写像(シューア積)として求まる

          •     したがって、メッセージ間の影響量授受関係を表す影響量
                行列 P∈Rmxm は以下の式より求まる

          •     P = M* ○ A*

                - シューア積は M*=(m*ij)
                                 、A*=(a*ij) に対して      
                   M* ○ P*=(m*ij a*ij) で定義される

                2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター
                                                         10

2010年3月16日火曜日
各種影響量

          •     P を使った行列演算により以下の情報が求まる(詳細は予
                稿集を参照してください)

                - メッセージ、投稿者、語の影響量
                - メッセージ、投稿者の被影響量
                - メッセージ、投稿者、語の影響伝播ネットワーク
                - 投稿者のプロファイル



                2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター
                                                       11

2010年3月16日火曜日
影響量の期待値




          •     メッセージ数N、リンク数L、語wの文書頻度 fw が求まれ
                ば、語の影響量の期待値 Ew も求まる(ただし β は減衰係
                数、RwL=(fw/N)(L/(N-1)))




                2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター
                                                       12

2010年3月16日火曜日
影響量のI/E比

          •     出現頻度の高い語は影響量が大きくなる傾向があるので、
                影響量は出現頻度に応じて正規化する必要がある

          •     そこで、語の影響量 Kw とその期待値 Ew を用いて、影響量
                の I/E 比 (influence-to-expectation ratio) を以下のよう
                に定義する

          •     I/E = Kw / Ew

          •     I/E 比は、1より大きくなるほど文脈に乗って語が伝播して
                いることを表している


                2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター
                                                                 13

2010年3月16日火曜日
Twitterの分析事例

          •     Twitterに投稿されたメッセージ (Tweet) のうち、2009年
                11月10日∼2009年11月15日までの「domoco」を含む
                5890件のTweetを分析

          •     NTTドコモは2009年11月10日に新商品発表会を行ったた
                め、新商品についてのTweetが多く含まれている

          •     データは(株)ホットリンクの            
                より提供を受けました。記して感謝します m(_ _)m




                2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター
                                                       14

2010年3月16日火曜日
Tweetの前処理

          •     Tweet同士は、@リンク(アットマーク+ユーザ名)によ
                る返信関係と#リンク(ハッシュタグによる繋がり)を用
                いて構造化

          •     Tweet本文については、形態素解析器MeCabを用いて名詞
                と形容詞とURLを抜き出して、簡単な同義語ファイルとス
                トップリストによるクリーニングを行った上で、頻度10以
                上の語を抜き出した




                2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター
                                                       15

2010年3月16日火曜日
影響量の上位5Tweet

          •     影響量1位のTweetは「スマートフォンの新しい端末がいつ
                でるのか」という質問に対する投稿。影響量2位∼5位の
                TweetもスマートフォンやAndroidを発売するメーカーや
                発売時期に関するものであった




                2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター
                                                       16

2010年3月16日火曜日
影響量の上位5投稿者

          •     投稿数の多いユーザの影響力が必ずしも大きくなるわけで
                はない。上位20ユーザまで見ると、投稿数が5以下(投稿
                数順位では79位以下)のユーザが10名ランクイン




                2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター
                                                       17

2010年3月16日火曜日
影響量の上位10語




                2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター
                                                       18

2010年3月16日火曜日
投稿者のプロファイル




                2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター
                                                       19

2010年3月16日火曜日
Tweet間の影響伝播ネットワーク図

                2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター
                                                       20

2010年3月16日火曜日
投稿者間の影響伝播ネットワーク図

                2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター
                                                          21

2010年3月16日火曜日
語間の影響伝播ネットワーク図




                2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター
                                                       22

2010年3月16日火曜日
計算量

          •     P = M* ○ A* の計算量を見積もる

          •     M* = M+βM2+β2M3+…+βn-1Mn については、平均出
                リンクを k (<<0) とすると、M2 の計算量は O(km)。M
                の累乗についても Mi=Mi-1M の関係を用いれば計算量は
                O(km)。したがって M* の計算量は O(kmn)

          •     A* = AAT は疎行列の内積なので計算量は O(m2)。しか
                し M* の非ゼロ要素数の最大値は (k+k2+k3+...+kn)*m
                =km(1-kn)(1-k) になるので、計算量は O(mkn)

          •     P = M* ○ A* の計算量は O(kmn)+O(mkn) になる

                2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター
                                                       23

2010年3月16日火曜日
まとめ

          •     IDMはネットワークの再帰構造とメッセージの内容を同時
                に利用するので、多様な切り口の分析ができることが特徴

          •     今回、IDMの計算モデルを見直して線形代数表現に拡張す
                ることでIDMの理論的背景を明らかにした

          •     行列演算のみで計算できるので、実装が容易になった

          •     影響量の源泉となる語を取捨選択することで、分析者の問
                題設定に合わせた分析が可能になる




                2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター
                                                       24

2010年3月16日火曜日
感謝




                2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター
                                                       25

2010年3月16日火曜日

More Related Content

影響伝播モデルIDMの線形代数表現とTwitter分析への応用

  • 1. 影響伝播モデルIDMの線形代数表現 とTwitter分析への応用 1 2010年3月16日火曜日
  • 2. 影響伝播モデル IDM • 同一スレッドにおいて、メッセージ x とメッセージ y に 共通する語数 ¦ mx ∩ my ¦ を、メッセージ x がメッセー ジ y に及ぼす影響量 ixy と定義する A A B B C C mx my mz A (ixy =1) C (iyz =1) B (ixz =1) 2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター 2 2010年3月16日火曜日
  • 3. メッセージ・投稿者・語の影響量 • メッセージ x の影響量 Ix - Ix = Σixy, for y messages followed by x • 投稿者 s の影響量 Jx - Jx = ΣIm, for m messages posted by s • 語 w の影響量 Kw - Kw = Σixy / ¦ mx ∩ my ¦, for x messages including w and for y messages followed by x 2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター 3 2010年3月16日火曜日
  • 4. メッセージの影響量 A A B B C C mx my mz • メッセージ mx , my , mz の影響量 Ix, Iy, Iz はそれぞれ以 下のように求まる • Ix = ixy + ixz = 1 + 1 = 2 • Iy = ixz = 1 • Iz = 0 2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター 4 2010年3月16日火曜日
  • 5. 投稿者の影響量 A A B B C C mx my mz • 投稿者 P が mx と my、投稿者 Q が mz を投稿したとす ると、投稿者 P, Q の影響量 Jp, JQ はそれぞれ以下のよ うに求まる • Jp = Ix + Iz = 1+1 = 2 • JQ = Iy = 1 2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター 5 2010年3月16日火曜日
  • 6. 語の影響量 A A B B C C mx my mz • 語 A, B, C の影響量 Kx, Ky, Kz はそれぞれ以下のように 求まる • KA = ixy / | mx ∩ my | = 1 • KB = ixz / | mx ∩ mz | = 1 • KC = iyz / | my ∩ my | = 1 2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター 6 2010年3月16日火曜日
  • 7. 影響伝播モデルIDM再考 • IDMは、ネットワークの構造に沿って語を重み付けしなが ら足し合わせていることに等しく、一種の畳込み演算を 行っていると見なすことができる • IDMのモデルを、ネットワーク構造に関する行列(再帰構 造行列)と重みに関する行列(重み行列)に分解し、それ ぞれを求めてから、再帰構造行列を重み行列に線形写像す ることで影響量を求めることができる 2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター 7 2010年3月16日火曜日
  • 8. 再帰構造行列 • メッセージ i からメッセージ j への有向リンクの接続関係 を表す有向接続行列を M∈Rmxm とし、減衰係数をβとす ると、再帰構造行列 M* は以下の式より求まる • M* = M+βM2+β2M3+…+βn-1Mn (= M(1-βM)-1) 2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター 8 2010年3月16日火曜日
  • 9. 重み行列 • ixy = ¦ mx ∩ my ¦ はメッセージ mx, my の特徴ベクト ル同士の内積に等しい • メッセージの特徴ベクトルは、メッセージx語からなる行列 A∈Rmxn の行ベクトルとして表される • したがって、ixy は AAT∈Rmxm の (i,j) 成分として表すこ とができる • 重み行列 A* は以下の式より求まる • A* = AAT 2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター 9 2010年3月16日火曜日
  • 10. 影響量行列 • IDMでは、ネットワーク構造に沿って ixy を足し合わせる ことで影響量を求める。これは、再帰構造行列 M* の重み 行列 A* への線形写像(シューア積)として求まる • したがって、メッセージ間の影響量授受関係を表す影響量 行列 P∈Rmxm は以下の式より求まる • P = M* ○ A* - シューア積は M*=(m*ij) 、A*=(a*ij) に対して       M* ○ P*=(m*ij a*ij) で定義される 2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター 10 2010年3月16日火曜日
  • 11. 各種影響量 • P を使った行列演算により以下の情報が求まる(詳細は予 稿集を参照してください) - メッセージ、投稿者、語の影響量 - メッセージ、投稿者の被影響量 - メッセージ、投稿者、語の影響伝播ネットワーク - 投稿者のプロファイル 2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター 11 2010年3月16日火曜日
  • 12. 影響量の期待値 • メッセージ数N、リンク数L、語wの文書頻度 fw が求まれ ば、語の影響量の期待値 Ew も求まる(ただし β は減衰係 数、RwL=(fw/N)(L/(N-1))) 2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター 12 2010年3月16日火曜日
  • 13. 影響量のI/E比 • 出現頻度の高い語は影響量が大きくなる傾向があるので、 影響量は出現頻度に応じて正規化する必要がある • そこで、語の影響量 Kw とその期待値 Ew を用いて、影響量 の I/E 比 (influence-to-expectation ratio) を以下のよう に定義する • I/E = Kw / Ew • I/E 比は、1より大きくなるほど文脈に乗って語が伝播して いることを表している 2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター 13 2010年3月16日火曜日
  • 14. Twitterの分析事例 • Twitterに投稿されたメッセージ (Tweet) のうち、2009年 11月10日∼2009年11月15日までの「domoco」を含む 5890件のTweetを分析 • NTTドコモは2009年11月10日に新商品発表会を行ったた め、新商品についてのTweetが多く含まれている • データは(株)ホットリンクの             より提供を受けました。記して感謝します m(_ _)m 2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター 14 2010年3月16日火曜日
  • 15. Tweetの前処理 • Tweet同士は、@リンク(アットマーク+ユーザ名)によ る返信関係と#リンク(ハッシュタグによる繋がり)を用 いて構造化 • Tweet本文については、形態素解析器MeCabを用いて名詞 と形容詞とURLを抜き出して、簡単な同義語ファイルとス トップリストによるクリーニングを行った上で、頻度10以 上の語を抜き出した 2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター 15 2010年3月16日火曜日
  • 16. 影響量の上位5Tweet • 影響量1位のTweetは「スマートフォンの新しい端末がいつ でるのか」という質問に対する投稿。影響量2位∼5位の TweetもスマートフォンやAndroidを発売するメーカーや 発売時期に関するものであった 2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター 16 2010年3月16日火曜日
  • 17. 影響量の上位5投稿者 • 投稿数の多いユーザの影響力が必ずしも大きくなるわけで はない。上位20ユーザまで見ると、投稿数が5以下(投稿 数順位では79位以下)のユーザが10名ランクイン 2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター 17 2010年3月16日火曜日
  • 18. 影響量の上位10語 2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター 18 2010年3月16日火曜日
  • 19. 投稿者のプロファイル 2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター 19 2010年3月16日火曜日
  • 20. Tweet間の影響伝播ネットワーク図 2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター 20 2010年3月16日火曜日
  • 21. 投稿者間の影響伝播ネットワーク図 2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター 21 2010年3月16日火曜日
  • 22. 語間の影響伝播ネットワーク図 2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター 22 2010年3月16日火曜日
  • 23. 計算量 • P = M* ○ A* の計算量を見積もる • M* = M+βM2+β2M3+…+βn-1Mn については、平均出 リンクを k (<<0) とすると、M2 の計算量は O(km)。M の累乗についても Mi=Mi-1M の関係を用いれば計算量は O(km)。したがって M* の計算量は O(kmn) • A* = AAT は疎行列の内積なので計算量は O(m2)。しか し M* の非ゼロ要素数の最大値は (k+k2+k3+...+kn)*m =km(1-kn)(1-k) になるので、計算量は O(mkn) • P = M* ○ A* の計算量は O(kmn)+O(mkn) になる 2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター 23 2010年3月16日火曜日
  • 24. まとめ • IDMはネットワークの再帰構造とメッセージの内容を同時 に利用するので、多様な切り口の分析ができることが特徴 • 今回、IDMの計算モデルを見直して線形代数表現に拡張す ることでIDMの理論的背景を明らかにした • 行列演算のみで計算できるので、実装が容易になった • 影響量の源泉となる語を取捨選択することで、分析者の問 題設定に合わせた分析が可能になる 2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター 24 2010年3月16日火曜日
  • 25. 感謝 2010年3月15日∼16日第17回WI2研究会@大阪大学中之島センター 25 2010年3月16日火曜日