SlideShare a Scribd company logo
2010.6.17国環研生物系若手セミナー*ブログup用改変版*




   なぜベイズ統計は
リスク分析に向いているのか?
 ∼その哲学上および実用上の理由∼
       (ver 2.0)

             林岳彦
  国立環境研究所環境リスク研究センター
    hayashi.takehiko@nies.go.jp
今日の話
       ベイズにまつわる
         エトセトラ

確率概念
        ベイズ
                  仮説検定

  リスク分析
本日のメニュー
                                  概念的
35min           I.「確率」の哲学的諸概念と
                 リスク解釈にとっての意味

                II. 仮説検定の「筋違い」さ   統計的
        30min    とベイズの本質的な利点

25min
                III.デフォルトあるいは糊代 実務的
                 としての事前分布の利用
本日のメニュー
                                  概念的
35min           I.「確率」の哲学的諸概念と
                 リスク解釈にとっての意味

                II. 仮説検定の「筋違い」さ   統計的
        30min    とベイズの本質的な利点

25min
                III.デフォルトあるいは糊代 実務的
                 としての事前分布の利用
I.「確率」の哲学的諸概念と
 リスク解釈にとっての意味
 1-1「確率」とは何か?

 1-2 確率概念とリスクの解釈
I.「確率」の哲学的諸概念と
 リスク解釈にとっての意味
 1-1「確率」とは何か?

 1-2 確率概念とリスクの解釈
I-1.「確率」とは何か?
・コインを投げてオモテが出る確率
・クロロホルムによってガンになる確率
・2050年までに地球の気温が2度以上上昇
 する確率
・人為的な温室効果ガスが温暖化の原因で
 ある確率 (IPCC曰く90%)
・今年広島カープが優勝する確率
・国環研任期付がパーマネントになる確率
I-1.「確率」とは何か?
・コインを投げてオモテが出る確率
・クロロホルムによってガンになる確率
・2050年までに地球の気温が2度以上上昇
 Risk = f(Effect,Probability)
 する確率
・人為的な温室効果ガスが温暖化の原因で
 ある確率 (IPCC曰く90%)
        発がんリスクが
・今年広島カープが優勝する確率
           -6
        10
・国環研任期付がパーマネントになる確率
I-1.「確率」とは何か?

伝統的統計学   ベイズ統計学



頻度型確率    確信度型確率
確率概念の分類
         ・古典確率                     ・確率の公理
                                           頻度説
              頻度型確率                        Frequency theory

              Frequency-type probability
                                           傾向説
                                           Propensity theory
 確率
Probability                                論理説
                                           Logical theory

              確信度型確率                       個人説
              Belief-type probability      Personal theory

                                           間個人説
                                           Inter-personal theory
                                               用語法はHacking (2001)に基づく
確率の公理
    コルモゴルフの確率測度の定義(公理)
                                                             http://ja.wikipedia.org/wiki/確率空間より引用


http://en.wikipedia.org/wiki/Image:Kolmogorov-m.jpg
                                                      第一公理
                                                       全ての事象の起こる確率は
                                                         0と1の間である
                                                      第二公理

                                                      全事象Sの起きる確率は1である

 AN Kolmogolov                                        第三公理
  (1903-1987)
                                                       可算個の排反事象に対する
                                                         和の法則が成り立つ
確率概念の分類
         ・古典確率                     ・確率の公理
                                           頻度説
              頻度型確率                        Frequency theory

              Frequency-type probability
                                           傾向説
                                           Propensity theory
 確率
Probability                                論理説
                                           Logical theory

              確信度型確率                       個人説
              Belief-type probability      Personal theory

                                           間個人説
                                           Inter-personal theory
                                               用語法はHacking (2001)に基づく
古典的確率概念
                        「場合の数の比」としての確率
http://en.wikipedia.org/wiki/File:Pierre-Simon_Laplace.jpg




                                                                  その事柄の起こりうる
                                                                     場合の数
                                                      ある事柄の
                                                      起こる確率   =
                                                                  同程度に起こりうる
                                                                   全体の場合の数

         PS Laplace
        (1749-1827)
古典的確率概念
「場合の数の比」としての確率




  1/52
古典的確率概念
「場合の数の比」としての確率

        理由不十分の原理




            http://bsoza.com/money_02.php
確率概念の分類
         ・古典確率                     ・確率の公理
                                           頻度説
              頻度型確率                        Frequency theory

              Frequency-type probability
                                           傾向説
                                           Propensity theory
 確率
Probability                                論理説
                                           Logical theory

              確信度型確率                       個人説
              Belief-type probability      Personal theory

                                           間個人説
                                           Inter-personal theory
                                               用語法はHacking (2001)に基づく
頻度説
「ある事柄が起こる頻度」としての確率
   http://en.wikipedia.org/wiki/File:Karl_Pearson_2.jpg   http://en.wikipedia.org/wiki/File:R._A._Fischer.jpg




          K Pearson                                            RA Fisher
         (1857-1936)                                          (1890-1962)

例:コインを投げてオモテがでる確率
頻度説
「ある事柄が起こる頻度」としての確率

 オ
 モ
 テ
 が                 p→0.5
 出
 た
 割                 N→
 合
     2/5=0.4?
                形而上学的跳躍

     コイン投げの試行数
頻度説
          「ある事柄が起こる頻度」としての確率

                       オ
http://en.wikipedia.org/wiki/
File:John_Maynard_Keynes.jpg
                                      In a long run,
                       モ             we are all dead
                       テ
                       が                          p→0.5
                       出
                       た
                       割                           N→
                       合
                                2/5=0.4?
                                           形而上学的跳躍

                                コイン投げの試行数
頻度説
 頻度説は繰り返し事象にのみ適用可
・2050年までに地球の気温が2度以上
 上昇する確率
・人為的な温室効果ガスが温暖化の原因で
 ある確率 (IPCC曰く90%)
・今年広島カープが優勝する確率
・容疑者Xが犯人である確率
・コインを投げてオモテが出る確率
確率概念の分類
         ・古典確率                     ・確率の公理
                                           頻度説
              頻度型確率                        Frequency theory

              Frequency-type probability
                                           傾向説
                                           Propensity theory
 確率
Probability                                論理説
                                           Logical theory

              確信度型確率                       個人説
              Belief-type probability      Personal theory

                                           間個人説
                                           Inter-personal theory
                                               用語法はHacking (2001)に基づく
傾向説
              「対象に内在する傾向」としての確率
http://en.wikipedia.org/wiki/File:Karl_Popper.jpg



                                                    コインを投げて表がでる確率
                                                        コインの物理的性質

                                                    ウランの同位体の分裂確率
         K Popper                                       ウランの物理的性質
       (1902-1994)


         あくまでも我々の認識作用に関わらない
         ものとして確率を定義
確率概念の分類
         ・古典確率                     ・確率の公理
                                           頻度説
              頻度型確率                        Frequency theory

              Frequency-type probability
                                           傾向説
                                           Propensity theory
 確率
Probability                                論理説
                                           Logical theory

              確信度型確率                       個人説
              Belief-type probability      Personal theory

                                           間個人説
                                           Inter-personal theory
                                               用語法はHacking (2001)に基づく
論理説
        「合理的信念の度合い」としての確率
http://en.wikipedia.org/wiki/
File:John_Maynard_Keynes.jpg



                                条件E→Xである確率が
                                   50%

                                   E→Xの
              JM Kaynes           確からしさ
              (1983-1946)
                                 の定量的記述
             「確率論」1921
論理説
        「合理的信念の度合い」としての確率
                                  演繹的推論
http://en.wikipedia.org/wiki/
File:John_Maynard_Keynes.jpg




                                前提E→Xである確率が
                                   100%
                                  帰納的推論
              JM Kaynes
              (1983-1946)       条件E→Xである確率が
             「確率論」1921
                                  中間的な%
論理説
        「合理的信念の度合い」としての確率
http://en.wikipedia.org/wiki/


                                 (条件E→Xという)
File:John_Maynard_Keynes.jpg




                                   論理的関係に
                                   内在するもの
                                 主観的なものでは
                                   全くない!
              JM Kaynes           理由不十分の原理
              (1983-1946)
                                あるいは優れた知性による直感
             「確率論」1921
論理説
「合理的信念の度合い」としての確率

    歪んだコインの問題

   オモテ・ウラ・ヨコ?




                http://bsoza.com/money_02.php
確率概念の分類
         ・古典確率                     ・確率の公理
                                           頻度説
              頻度型確率                        Frequency theory

              Frequency-type probability
                                           傾向説
                                           Propensity theory
 確率
Probability                                論理説
                                           Logical theory

              確信度型確率                       個人説
              Belief-type probability      Personal theory

                                           間個人説
                                           Inter-personal theory
                                               用語法はHacking (2001)に基づく
個人説
「個人が持つ信念の度合い」としての確率
   http://sms.cam.ac.uk/institution/PHIL




                                                 (条件E→Xという)
                                                個人的な信念の度合い
     FP Ramsey                                   の記述としての確率
      (1903-1930)
http://it.wikipedia.org/wiki/Bruno_de_Finetti




                                                  異なる個人は
                                                異なる信念の度合いを
                                                   持ちうる
   B de Finetty
      (1906-1985)
個人説
「個人が持つ信念の度合い」としての確率
    うろこ雲→次の日雨


    画像         画像
         30%
 10%            70%

   画像    画像     画像
個人説
 数値化の問題は「賭けの枠組み」で解決

心理学者A             Bさん

   画像
         pを選んで
                   画像    p=0.3

   次の日雨→ p 1000円          個人確率
not次の日雨→ (1-p) 1000円


                 *各種認知バイアスにも注意
個人説
   個人確率の適用範囲は広い

・2050年までに地球の気温が2度以上
 上昇する確率
・人為的な温室効果ガスが温暖化の原因で
 ある確率
・今年広島カープが優勝する確率
・容疑者Xが犯人である確率
・コインを投げてオモテが出る確率
個人説
               個人確率に数学は適用できるの?
 http://sms.cam.ac.uk/institution/PHIL




                                                                      できますとも!
                      http://it.wikipedia.org/wiki/Bruno_de_Finetti




ラムジー=デ・フィネッティの定理 (Dutch book argument)
「必敗の賭け」にはならない合理的な賭け比率の選び方を
する限りその個人確率はコルモゴルフの確率の公理を満たす



                                           確率論数学OK!
確率概念の分類
         ・古典確率                     ・確率の公理
                                           頻度説
              頻度型確率                        Frequency theory

              Frequency-type probability
                                           傾向説
                                           Propensity theory
 確率
Probability                                論理説
                                           Logical theory

              確信度型確率                       個人説
              Belief-type probability      Personal theory

                                           間個人説
                                           Inter-personal theory
                                               用語法はHacking (2001)に基づく
間個人説
「ある集団が持つ信念の度合い」としての確率
     個人           集団

    個人確率          間個人
                   確率
    個人確率

    個人確率
                  間個人
    個人確率           確率
間個人説
「ある集団が持つ信念の度合い」としての確率
     個人           集団

   個人確率           間個人
 人為的な温室効果ガスが温暖化の原因で
  ある確率は90% (IPCC)  確率
   個人確率

    個人確率
                  間個人
    個人確率           確率
確率概念の分類
         ・古典確率                     ・確率の公理
                                           頻度説
              頻度型確率                        Frequency theory

              Frequency-type probability
                                           傾向説
                                           Propensity theory
 確率
Probability                                論理説
                                           Logical theory

              確信度型確率                       個人説
              Belief-type probability      Personal theory

                                           間個人説
                                           Inter-personal theory
                                               用語法はHacking (2001)に基づく
例:ボールが青である 確率
         一個色を見ずに
BOX      取り出す

            Bag



        2/10
例:ボールが青である 確率
              一個色を見ずに
BOX           取り出す

                   Bag



             2/10
もう一個取り出したら
青だった
             1/9
I-Iのまとめ
         ・古典確率                     ・確率の公理
                                           頻度説
              頻度型確率                        Frequency theory

              Frequency-type probability
                                           傾向説
                                           Propensity theory
 確率             Frequency
Probability                                論理説
                                           Logical theory

              確信度型確率                       個人説
              Belief-type probability      Personal theory

                                           間個人説
              Degree of belief             Inter-personal theory
                                               用語法はHacking (2001)に基づく
I-Iのまとめ
         ・古典確率                 ・確率の公理
       ・古典確率
         リスクの解釈に与える影響は?                頻度説
            頻度型確率                      Frequency theory

            Frequency-type probability
                                       傾向説
                                       Propensity theory
 確率           Frequency
Probability                            論理説
                                           Logical theory

               確信度型確率                      個人説
               Belief-type probability     Personal theory

                                           間個人説
                Degree of belief           Inter-personal theory
                                               用語法はHacking (2001)に基づく
I.「確率」の哲学的諸概念と
 リスク解釈にとっての意味
 1-1「確率」とは何か?

 1-2 確率概念とリスクの解釈
I-2.確率概念とリスクの解釈

 単一事象

 リスク認知
         X 4つの例
 交換可能性

  情報量
例をもとに考えてみる1
  サイコロを1000回振ります。
 1の目がでる一回あたりの確率は?



       1/6
頻度説   傾向説   個人説           間個人説

            if rational
例をもとに考えてみる2
room
                  ロシアンルーレット
                   をやってください 画像


       A            実弾は6弾中1弾のみ
                    シリンダーは回す
  頻度説      0or1
  個人説      1/6     Aさんが死ぬ確率は?
例をもとに考えてみる3
room
                   実弾は6弾中1弾のみ
                   シリンダーは固定する
                  A→B→C→D→E→Fの順
 A B C
                  リスク評価者
 D     E    F        K
頻度説        0or1
                  リスクは一人あたり
個人説        1/6        1/6
例をもとに考えてみる4
 room
                         1/2
                          実弾は6弾中1弾のみ
                          シリンダーは固定する
                         A→B→C→D→E→Fの順
メモ                  メモ      0
     A B C
                                1/6
     D   E    F             K
  頻度説        0or1    リスクは一人あたり
  個人説                    1/6
    0,1/6,1/2
ふりかえってみる1
        単一事象
          ロシアン
サイコロ的問題   ルーレット的問題

  頻度説          頻度説


 化学物質のリスクってどっち?
ふりかえってみる2
リスク認知  交換可能性


A B C
            リスク評価者
D   E   F     K

外から見ることが「科学的」なの?
ふりかえってみる3
        情報量
                      1/2
メモ               メモ         0
     A B C
                                1/6
     D   E   F         K         1/6
     どれが 正しい リスク評価なの?
一回まとめてみる
         頻度的確率             個人確率

一義性       一義的            人それぞれも可

情報に      依存しない             依存する
        繰り返し事象にしか
困る点       適用できない         非論理的でありうる

                         リスク認知の問題まで
良い点     科学的   だと思われている
                             扱える

確率的計算     適用可
                    =      適用可

リスク     どっちが向いてるかな?
1 事実上個人確率としかいいようがない

     暴露の分布    感受性の分布

外挿                   外挿
                -6
              10
外挿                     外挿


外挿                     外挿


外挿                   外挿

PRTRデータなど    試験動物の毒性試験
1 事実上個人確率としかいいようがない

     暴露の分布     感受性の分布

外挿                    外挿
                 -6
               10
外挿                      外挿


    計算結果としての「確率論的リスク」は 外挿
外挿
    専門家の合意に基づく一連の推定手順
   により構成された(間)個人確率に基づく
 外挿                   外挿
         リスクの表現だと思う

PRTRデータなど    試験動物の毒性試験
2 いろいろ利点があるから
・繰り返し事象も非繰り返し事象もOK
 (特定個人のリスク評価も可能)

・情報量の違いに対応可
・リスク認知の問題も扱える
                     個人確率
個人確率       間個人               個人
個人確率        確率
                  間個人        個人確率
個人          集団     確率        個人確率

人はfrequencyではなくdegree of beliefで動く
リスク評価が 主観 確率でいいの?


              私はあなたと違って
              客観的に物事を
    画像        見れるんです




  頻度的確率
(a.k.a客観確率)
リスク評価が 主観 確率でいいの?

       客観性の高い
       (間)個人確率

 Evidence   Logic   Transparency
I全体のまとめ
確率概念は大きく分けて確信度型と頻度型
の2つある

頻度型確率は繰り返し事象における比率
 →厳密だが、適用範囲は狭い

個人確率は信念の度合い
 →柔軟であり、適用範囲は広い

化学物質のリスク評価における確率概念は
どっち?→個人確率だと私は思う
IIのpreview

伝統的統計学     ベイズ統計学



頻度型確率     確信度型確率
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
本日のメニュー
                                  概念的
35min           I.「確率」の哲学的諸概念と
                 リスク解釈にとっての意味

                II. 仮説検定の「筋違い」さ   統計的
        30min    とベイズの本質的な利点

25min
                III.デフォルトあるいは糊代 実務的
                 としての事前分布の利用
II.仮説検定の「筋違い」さと
   ベイズの本質的な利点
II-1 仮説検定とは

II-2 仮説検定はなぜ「筋違い」か

II-3 ベイズの本質的な利点
II.仮説検定の「筋違い」さと
   ベイズの本質的な利点
II-1 仮説検定とは

II-2 仮説検定はなぜ「筋違い」か

II-3 ベイズの本質的な利点
そもそも統計とは
     数え上げる ことにより
    現象の法則性を発見する

                 国勢調査
記述統計学   全数調査
               State→statistics


         部分              全体
統計的推測
           帰納的推論
          経験科学の発展の礎
頻度論的な統計的推測の枠組み

           未知ではあるが
母集団         固定された
            パラメータ値

                難
                し
 標本抽出      推測   い
                数   演
                学
                    繹
      標本     モデル
           (母集団は対数正規分布
              するとか)
仮説検定の論理構成
      「2群間に差があるか?」
       差がないと仮定する(帰無仮説)
                          t検定, U検定, F検定,
                           カイ二乗検定, etc...
         データから統計量Xを求める

  「データから求めたX」以上に極端となるXの値が
帰無仮説が正しいという仮定のもとで得られる確率pを計算

     p>有意水準           p<有意水準

  帰無仮説は棄却不可          帰無仮説は棄却
  (差があるとはいえないと判断)   (差があると 判断 )
仮想例:発病率に差があるか?
    発病率     暴露群           1000人中
           ^              16人発病
    θ=0.01 θ=0.016
      (既知)     (n=1000)
  暴露群もθ=0.01だと仮定する(帰無仮説)


      発病者数 (r=16) が統計量


     帰無仮説(θ=0.01)が正しいとき
 n=1000で発病者数rが16以上となる確率を計算
仮想例:発病率に差があるか?

            0.12
 帰
 無          0.10

 仮
            0.08




 説                                   p<0.05
 r.series




 の
            0.06




 基                                   ^
            0.04




 で                                   θ=0.016
 の                                    r=16
            0.02




 確
            0.00




 率                 0   5   10   15    20   25   30

                       発病者数 r(n=1000)
                           Index
仮想例:発病率に差があるか?
帰無仮説のもとでは5%以下の確率で
             0.12
 帰
しか起こらない稀な事象が起こった
 無           0.10

 仮
             0.08




 説             p<0.05
  r.series




 の 暴露群は有意に発病率が高い
             0.06




 基              ^
             0.04




 で              θ=0.016
 の               r=16
             0.02




 確
             0.00




 率   0 5 10 15  20  25 30

                    発病者数 r(n=1000)
                        Index
ちなみに:p値の意味は?
      p<0.05で
     帰無仮説が棄却

   帰無仮説が正しい確率が
       5%以下
   対立仮説が正しい確率が
      95%以上

   帰無仮説が正しいときに
   (全く同じ調査方法で)
今回のデータが得られる確率が5%以下
II.仮説検定の「筋違い」さと
   ベイズの本質的な利点
II-1 仮説検定とは

II-2 仮説検定はなぜ「筋違い」か

II-3 ベイズの本質的な利点
デミングの批判
                http://ja.wikipedia.org/wiki/ファイル:W._Edwards_Deming.jpg




WE Deming
 (1900-1993)
 品質管理の神
日本復興の立役者
デミングの批判
                http://ja.wikipedia.org/wiki/ファイル:W._Edwards_Deming.jpg




WE Deming
 (1900-1993)
 品質管理の神
日本復興の立役者



 実際の問題はAとB、二つの処理の違いが有意か
 どうかなどではない。(両者に)差異があるとす
 ると・・その差異がどんなにわずかなものであっ
 ても実験をかなりの回数くり返せば有意となる。

                       サルツブルグ「統計学を拓いた異才たち」より引用
仮想例:発病率に差があるか?

            0.12
 帰
 無          0.10

 仮
            0.08




 説                                   p<0.05
 r.series




 の
            0.06




 基                                   ^
            0.04




 で                                   θ=0.016
 の                                    r=16
            0.02




 確
            0.00




 率                 0   5   10   15    20   25   30

                   発病者数 (サンプル数1000人中)
                          Index
仮想例:発病率に差があるか?
  暴露群は有意に発病率が高い
             0.12
 帰
 無           0.10

 仮
             0.08




 説            p<0.05
  r.series




 の
             0.06




 基             ^
             0.04




 で             θ=0.016
 の               r=16
             0.02




 確
             0.00




 率  0 5 10 15   20  25 30

                    発病者数 (サンプル数1000人中)
                           Index
仮想例:発病率に差があるか?

 帰
 無              0.15                    p<0.05
 仮
 説
                0.10
     r.series




 の                                      ^
 基                                      θ=0.016
 で                                        r=8
                0.05




 の
 確
                0.00




 率
                       0      5    10       15

                       発病者数   (サンプル数500人中)
                                Index
仮想例:発病率に差があるか?
  暴露群の発病率は有意差なし
 帰
 無           0.15
            p<0.05
 仮
 説
             0.10
  r.series




 の          ^
 基          θ=0.016
 で            r=8
             0.05




 の
 確
             0.00




 率
                    0      5    10   15

                    発病者数   (サンプル数500人中)
                             Index
仮想例:発病率に差があるか?

             0.012
 帰
 無           0.010

 仮
             0.008
                              r=1050
 説                               p<0.05
  r.series

             0.006




 の
 基                                        ^
                                          θ=0.016
             0.004




 で                                         r=1600
 の
             0.002




 確
             0.000




 率
                     800   1000   1200   1400   1600   1800   2000

         発病者数                (サンプル数100000人中)
                                  Index
仮想例:発病率に差があるか?

             0.012
  暴露群は有意に発病率が高い
 帰
 無           0.010

 仮
       r=10500.008



 説        p<0.05
  r.series

             0.006




 の
 基         ^
           θ=0.016
             0.004




 で          r=1600
 の
             0.002




 確
             0.000




 率
                     800   1000   1200   1400   1600   1800   2000

         発病者数                (サンプル数100000人中)
                                  Index
有意差の意味って?
                    有意差   リスク
            ^
n=1000, θ=0.16      あり    あり?
        ^
n=500, θ=0.16       なし    なし??
        ^                 あり?
n=100000, θ=0.16    あり
        ^           あり
n=100000, θ=0.106         あり??

「有意差」はリスクの指標とはならない!
そもそも:目的が違う
       仮説検定               リスク分析

       データ                 データ

帰無仮説 vs 対立仮説          予測・制御
            科学の文法
架空の敵
              K.Pearson
       真理                   実利
 あるいはその近似としての             効用を最大化する
  最も尤もらしい仮説                意思決定の支援
そもそも:目的が違う
リスク解析のゴール     統計的推論の3つのフェーズ
                     定量的推定


        バラメータ値の
         定量的推定




      情報量規準    仮説検定



   データマイニング   探索的データ解析
そもそも:目的が違う
リスク解析のゴール     統計的推論の3つのフェーズ
                     定量的推定


        バラメータ値の
         定量的推定




      情報量規準    仮説検定
    リスク分析の専門書には
 仮説検定の話は殆んど全く出てこない
   データマイニング   探索的データ解析
仮説検定の実害(1)
 不毛かつ非本質的な議論の元凶の一つ

 「有意差なし」と「リスクなし」の混同

   0/1的リスク認識の一つの源

                        薬剤疫学 J nJP ama o pd mil 1()D c20:2
                             p    h r c e ie o, 22 e 07 5

   報告


           特別シンポジウム
                          誰得?
    「インフルエンザ罹患後の異常行動と薬剤疫学」
            開 催 報 告

「ある特定区間における有意差のあるなし」
                特別シンポジウム組織委員会:
        八重ゆかり(東京大学大学院疫学・予防保 学博士後期課程)
        津谷喜一郎(東京大学大学院薬学系研究科医薬政策学)
        大橋 靖雄(東京大学大学院医学系研究科 共 康医学専攻生物統計学)
仮説検定の実害(2)
   筋違いな適用が多すぎ
  データが正規分布に従うか?
    適合度検定しよう
      有意差なし
     正規分布でOK!
  正規分布を仮定したモデル
    でリスクの予測
予測が目的ならモデル選択等を使って!
さよなら仮説検定:生態リスク
                                   ワークショプの結論:
 1. 無影響濃度は毒性試験のサマリー
としては段階的に廃止していくべきである
                          Unclassified                                                     ENV/MC/CHEM(98)18
                          Organisation de Coopération et de Développement Economiques          OLIS : 27-Jan-1998
                          Organisation for Economic Co-operation and Development               Dist.  : 28-Jan-1998
                          __________________________________________________________________________________________
                                                                                                             Or. Eng.
                          ENVIRONMENT DIRECTORATE
      Unclassified
      ENV/MC/CHEM(98)18




                          CHEMICALS GROUP AND MANAGEMENT COMMITTEE


                                                                                              1998
  Report of the OECD Workshop on
Statistical Analysis of Aquatic Toxicity
                          OECD SERIES ON TESTING AND ASSESSMENT
                          Number 10

                          Report of the OECD Workshop on Statistical Analysis of Aquatic Toxicity Data
さよなら仮説検定:生態リスク
  毒性の強さの指標:無影響濃度

                     有意差あり
                                 *
            無影響濃度          *
      対照区            *
死亡率



       0    4   16   64   256   1024
           化学物質濃度(mg/L)
さよなら仮説検定:ヒト健康                                           EPA/630/R-94/007
                                                            February 1995




 無毒性量よりもベンチマーク容量
を毒性指標として使っていくべきである

                                                                EPA/630/R-94/007
                                                                   February 1995



        THE USE OF THE BENCHMARK DOSE APPROACH
                IN HEALTH RISK ASSESSMENT
                                                           1995
THE USE OF THE BENCHMARK DOSE
    APPROACH IN HEALTH RISKTHE USE OF THE BENCHMARK DOSE APPROACH
                                   IN HEALTH RISK ASSESSMENT




                     Risk Assessment Forum
              U.S. Environmental Protection Agency
                     Washington, DC 20460
さよなら仮説検定:保全生態学


          2003
信頼区間を考えよう
暴露群における発病率θの90%信頼区間
      type-I type-II
  n=500                      ●




 n=1000                      ●




 n=100000                    ●



  0.000   0.005   0.010   0.015   0.020   0.025   0.030

                    発病率θ
ちなみに:区間推定の解釈
       90%信頼区間が
    0.013 < θ < 0.029

    θの真の値が0.013∼0.029
     の間にある確率が90%

        全く同じ方法で調査および
     信頼区間の算出を繰り返したときに
100回中90回はθの真の値がそれらの区間に含まれる

      わかりにくい!
頻度論的な統計的推測の枠組み

           未知ではあるが
母集団         固定された
            パラメータ値

                難
                し
 標本抽出      推測   い
                数   演
                学
                    繹
      標本     モデル
           (母集団は対数正規分布
              するとか)
II-2のまとめ
仮説検定とリスク分析はそもそもの
目的が違うので相性が悪い

有意性は誤解の元になりやすい指標

結論:仮説検定は使わないのが吉

区間推定的/モデル選択的な方向で!
頻度主義は区間的推定に向かないと思う
II.仮説検定の「筋違い」さと
   ベイズの本質的な利点
II-1 仮説検定とは

II-2 仮説検定はなぜ「筋違い」か

II-3 ベイズの本質的な利点
頻度論的な統計的推測の枠組み

           未知ではあるが
母集団         固定された
            パラメータ値

                難
                し
 標本抽出      推測   い
                数
                学


      標本     モデル
           (母集団は対数正規分布
              するとか)
ベイズにとってパラメータとは
    未知ではあるが        未知パラメータ
     固定された          は確率的に
     パラメータ値          分布する


      ?
確             確
率             率


    パラメータの値        パラメータの値

     頻度主義         ベイズ主義(個人確率)
ベイズにとってパラメータとは
    未知ではあるが        未知パラメータ
     固定された          は確率的に
     パラメータ値          分布する


      ?                分からなさ

確             確
率             率


    パラメータの値        パラメータの値

     頻度主義         ベイズ主義(個人確率)
ベイズにとってパラメータとは
    未知ではあるが        未知パラメータ
     固定された          は確率的に
     パラメータ値          分布する


      ?            全く分からない
確             確
率             率


    パラメータの値        パラメータの値

     頻度主義         ベイズ主義(個人確率)
ベイズにとってパラメータとは
    未知ではあるが        未知パラメータ
     固定された          は確率的に
     パラメータ値          分布する


      ?           とてもよく分かってます

確             確
率             率


    パラメータの値        パラメータの値

     頻度主義         ベイズ主義(個人確率)
ベイズによる統計的推測の枠組み
    事前分布           事後分布


確
率          + データ
    パラメータの値        パラメータの値


              ベイズの定理
ベイズの定理
       事後分布  尤度*事前分布
                                 f (data | param) p( param)
    p( param | data) =
                         "   f (data | param) p( param)dparam




データを得た後の
!
                                          データを得る前の
 確信の度合い                                    確信の度合い
              パラメータとデータの
              適合ぐあい(モデル)
仮想例:発病率の推定
      暴露群
    ^                   1000人中16人発病
    θ=0.016
      事後分布=尤度*事前分布
                            f (r = 16 | θ ) p(θ )
      p(θ | r = 16) =
                        ∫    f (r = 16 | θ ) p(θ )θ


     p(θ | r = 16) ∝ Be(16 +1,1000 −16 +1)
€
               事後分布!
仮想例:発病率の推定
  暴露群
^                                         1000人中16人発病
θ=0.016
    100




          x <- seq(0, 0.04, length=100)
          y <- dbeta(x,1+16,1000-16+1)
          plot(x, y,type="h")
                                                  事後分布
    80
    60
y

    40
    20
    0




          0.00              0.01           0.02    0.03   0.04



                             発病率θ           x
仮想例:発病率の推定
  暴露群
^                                         1000人中16人発病
θ=0.016
    100




          x <- seq(0, 0.04, length=100)
          y <- dbeta(x,1+16,1000-16+1)
          plot(x, y,type="h")
                                                  事後分布
    80
    60
y




                                                  90%信用
    40




                                                    区間
    20
    0




          0.00              0.01           0.02    0.03   0.04



                             発病率θ           x
ベイズ的な区間推定の解釈
    90%信用区間が
 0.011 < θ < 0.024

 θが0.011∼0.024の間に
   ある確率が90%


  わかりやすい!
ベイズとリスク分析の相性の良さ
    事前分布                                        Probability                  事後分布




                                                       100
                                                       80
    1.4




                 Probability
    1.2




                                                       60
                                              +データ→
                   Effect size
                                                                           Effect Size


                                                   y
    1.0
y




                                                       40
    0.8




                                                       20
    0.6




          0.00    0.01   0.02   0.03   0.04




                                                       0
                          x




     発病率θ                                                    0.00   0.01   0.02   0.03   0.04




                                                                    発病率θ
                                                                            x




                          常にEffect sizeとProbabilityの
                            情報の全体を取り扱う
ベイズとリスク分析の相性の良さ
    事前分布                                        Probability                  事後分布




                                                       100
                                                       80
    1.4




                 Probability
    1.2




                                                       60
                                              +データ→
                   Effect size
                                                                           Effect Size


                                                   y
    1.0
y




                                                       40
    0.8




                                                       20
    0.6




          0.00    0.01   0.02   0.03   0.04




                                                       0
                          x




     発病率θ                                                    0.00   0.01   0.02   0.03   0.04




                                                                    発病率θ
                                                                            x




                         Risk = f(Effect size,Probability)
ベイズとリスク分析の相性の良さ
    事前分布                                           Probability                  事後分布




                                                          100
                                                                       トミー




                                                          80
    1.4




                 Probability
    1.2




                                              マツ




                                                          60
                                              +データ画像
                                                  →
                   Effect size
                                                                              Effect Size


                                                      y
    1.0
y




                                                          40
    0.8




                                                          20
    0.6




          0.00    0.01   0.02   0.03   0.04




                                                          0
                          x




     発病率θ                                                       0.00   0.01   0.02   0.03   0.04




                                                                       発病率θ
                                                                               x




                 ベイズとリスクの相性はばっちり
                  Risk = f(Effect size,Probability)
それぞれの手法の見ているもの
 y

     100
     80
     60
     40
     20
     0
                                       ベイズ




           0.00   0.01   0.02   0.03    0.04



                   発病率θ   x
それぞれの手法の見ているもの
 y

     100
     80
     60
     40
     20
     0
                                       ベイズ




           0.00   0.01   0.02   0.03    0.04



                   発病率θ 区間推定
                          x
それぞれの手法の見ているもの

仮説検定
 y

     100
     80
     60
     40
     20
     0
                                       ベイズ




           0.00   0.01   0.02   0.03    0.04



                   発病率θ 区間推定
                          x
*本質論じゃなくて実用的な話

       100
       80
       60
   y

       40
       20
       0




             0.00   0.01   0.02   0.03   0.04




                    発病率θ
                            x




                    発病率θ
 Bootstrap 最尤法でも良くね?
乱暴に言うと実はbootstrapとMCMCって
                  ユーザー視点から見ると実は似てるかも
                                                                    ベイズ
                 bootstrap                                         (MCMC)
                  データ                  データセットを                         データ                  尤度と事前情報に
                                                                                            応じてパラメータを
                  セット                   乱数的に生成                         セット                   乱数的に生成



    データ
     dd dd
    セット
                                               最尤推定
    100




                                                          100
Probability                     Effect                 Probability                    Effect
    80




                                                          80
    60




                                                          60
y




                                                      y
    40




                                                          40
    20




                                                          20
    0




                                                          0




          0.00    0.01   0.02   0.03    0.04                    0.00   0.01   0.02   0.03    0.04

                          x                                                    x


      パラメータの推定分布                                                パラメータの事後分布
*本質論じゃなくて実用的な話

        100
        80
        60
    y

        40
        20
        0




              0.00   0.01   0.02   0.03   0.04




                     発病率θ
                             x




                     発病率θ
 Bootstrap 最尤法でも良いかも
*ただし事前分布を積極的に利用しない場合に限る
II全体のまとめ
仮説検定の枠組みはリスク分析には向かな
い→区間推定的/モデル選択的方向で

ベイズ推定は常にprobabilityとeffect size全体
の情報を取り扱う→リスク分析に向く!

実用上はbootstrapとベイズは大差ないか
もしれない →事前分布の利用がキモ

                         IIIへ
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
本日のメニュー
                                  概念的
35min           I.「確率」の哲学的諸概念と
                 リスク解釈にとっての意味

                II. 仮説検定の「筋違い」さ   統計的
        30min    とベイズの本質的な利点

25min
                III.デフォルトあるいは糊代 実務的
                 としての事前分布の利用
III.デフォルトあるいは糊代として
      の事前分布の利用
 III-1 リスク分析と事前分布

 III-2 助け合いvia事前分布:階層ベイズ

 III-3 糊代 としての事前分布の利用
III.デフォルトあるいは糊代として
      の事前分布の利用
 III-1 リスク分析と事前分布

 III-2 助け合いvia事前分布:階層ベイズ

 III-3 糊代 としての事前分布の利用
事前分布とは
    データを得る前のパラメータの値に
      関する確信の度合いを示す

    事前分布            事後分布

確
率          + データ
    パラメータの値         パラメータの値
事前分布とは
データを得る前のパラメータの値に
  関する確信の度合いを示す


 データがない場合の推定値


   デフォルト値!
デフォルト値をベイズ的に眺める
                                         よくある
                                       リスク評価手法
 データがない                                                  デフォルト値




                                                         1.0
                                                         0.8
                                                         0.6
                                                     y
            1.4




                                                         0.4
ベイズ解析




                                                         0.2
            1.2




                                                         0.0
                                                               0.00   0.01   0.02   0.03   0.04
            1.0
        y




                                                                              x
            0.8
            0.6




                  0.00   0.01   0.02   0.03   0.04

                                 x




   事前分布                                                           リスク分析
デフォルト値をベイズ的に眺める
                                     よくある
                                   リスク評価手法
 データがない                                              デフォルト値




                                                     1.0
    事前分布はリスク評価において




                                                     0.8
                                                     0.6
      より好ましい性質をもつ



                                                 y
        1.4




                                                     0.4
ベイズ解析




                                                     0.2
        1.2




        デフォルト である



                                                     0.0
                                                           0.00   0.01   0.02   0.03   0.04
        1.0
    y




                                                                          x
        0.8
        0.6




              0.00   0.01   0.02   0.03   0.04

                             x




  事前分布                                                        リスク分析
ちなみに:事前分布とデータの関係

    事前分布                                         データ                                                              事後分布
                                                n=500




                                                                                             80
                                                70




                                                                                             60
                                                60
                                                50




                                                                                             40
                                                                                         y
                                                40
                                            y

                                                30
    40




                                                                                             20
                                                20
                                                10
    30




                                                0




                                                                                             0
                                                      0.00   0.01   0.02   0.03   0.04
                                                                                                                       0.00   0.01   0.02   0.03   0.04
    20
y




                                                                     x

                                                                                                                                      x
    10




                                            n=10000
    0




                                                                                             100 150 200 250 300 350
         0.00   0.01   0.02   0.03   0.04
                                                300




                        x
                                                250
                                                200
                                                150
                                            y




                                                                                         y
                                                100
                                                50




                                                                                             50
                                                0




                                                      0.00   0.01   0.02   0.03   0.04




                                                                                             0
                                                                     x
                                                                                                                       0.00   0.01   0.02   0.03   0.04

                                                                                                                                      x
ちなみに:事前分布とデータの関係

    事前分布                                         データ                                                              事後分布
                                                n=500




                                                                                             80
                                                70




                                                                                             60
                                                60
                       データが多い場合も少ない場合も
                                                50




                                                                                             40
                                                                                         y
                                                40
                                            y

                                                30
    40




                                                                                             20
                         一貫したやり方で対応できる
                                                20
                                                10
    30




                                                0




                                                                                             0
                                                      0.00   0.01   0.02   0.03   0.04
                                                                                                                       0.00   0.01   0.02   0.03   0.04



                        リスク分析の枠組みが構築可能
    20
y




                                                                     x

                                                                                                                                      x
    10




                             n=10000
    0




                                                                                             100 150 200 250 300 350
         0.00   0.01   0.02   0.03   0.04
                                                300




                        x
                                                250
                                                200
                                                150
                                            y




                                                                                         y
                                                100
                                                50




                                                                                             50
                                                0




                                                      0.00   0.01   0.02   0.03   0.04




                                                                                             0
                                                                     x
                                                                                                                       0.00   0.01   0.02   0.03   0.04

                                                                                                                                      x
事前分布はどう決める?
1   無情報分布(平らな分布)
      最尤法とほぼ同等の結果が得られる

2   他のものから決める
     ・過去の研究・知見など
     ・歴史的コンセンサス
     ・専門家へのインタビュー
      猫の手も借りたいときの奥の手

3   データそのものから決める
      階層ベイズモデル
III-1のまとめ
事前分布は柔軟な デフォルト である
 →リスク分析の枠組みと親和性が高い

事前分布の決め方はいろいろある
 →データそのものから決める    III-2へ
III.デフォルトあるいは糊代として
      の事前分布の利用
 III-1 リスク分析と事前分布

 III-2 助け合いvia事前分布:階層ベイズ

 III-3 糊代 としての事前分布の利用
例:地域別発病率仮想データの解析
      仮想データの作成

  発病率一定      2000地域
             人口は100∼10000
  θ=0.0001     人の一様分布




 2000地域の発病率の仮想データを
       乱数的に作成
例:地域別発病率仮想データの解析

           0.0030
                            ●


                        ●

                        ●



 発
                        ●
           0.0020




 病
                        ●
                        ●
  z1.new




                            ●
                                ●


 率
                                ●
           0.0010




                            ●
                            ●
                            ●
                         ●●       ●      ●
                          ●       ●●
                          ●●
                           ●        ●        ●
                            ●
                            ●●        ●●                  ●●                  ●
                             ●●
                              ●          ●●
                                         ●●        ●
                              ●●
                               ●
                               ●●
                                ●                     ●●         ●
                                ●●          ● ●              ● ●●     ●● ●
                                                                      ●●
                                  ●●                          ● ●●          ●
                                  ●●
                                  ●●
                                   ●●
                                     ●●●
                                     ●●
                                     ●●
                                      ●●
                                      ● ●●
                                                ●● ●
                                                 ●● ●
                                                  ●● ●
                                                   ● ●●●●●●
                                                       ● ● ●●       ● ● ● ● ●● ●●
                                                                    ● ●● ●
                                                                         ●
                                                         ●● ● ●
                                                          ●● ● ●
                                        ●●●
                                        ●●●
                                         ●●●●
                                            ●●●●●
                                            ●● ●●●
                                             ●●●●●
                                              ● ●●●●
                                               ●●●●●●             ● ● ●● ●● ● ●●●●
                                                              ● ●●●●●
                                                                ●●●●●●●
                                                                ●● ●●●● ●     ● ●●
                                                                      ● ●●●●●●●●● ●
                                                                          ●●●●●●●● ●
                                                                                    ●
                                                                           ● ● ● ●● ●
                                                  ●●●●●●●●●                  ● ● ●●
                                                                                ● ●
           0.0000




                                                   ●● ●●●●●●
                                                   ● ●●●●●●●
                                                     ●● ● ●●●●●●
                                                       ● ●●● ●●●●●
                                                              ● ●●●●●●●●●●●●●●●
                                                               ● ●●●●● ●●●●●●●●●●
                                                               ●   ●●●●●●●●●●●●●●
                                                                   ●●●●●●●●●●● ●●●
                                                                     ●    ● ●●● ●●
                                                                           ●       ●●
                    ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
                    ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
                    ●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●
                    ●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●
                     ●●●● ●●●●●●●●●●●●●● ●●●●●●●●●●● ●●●● ●● ●● ●●●●●● ●
                     ● ●●●●● ●●●● ● ●●
                       ●●● ●             ●●       ● ●●● ●●●●       ●       ● ● ●● ●



                    0           2000      4000         6000         8000        10000


                                          人口    y.new
例:地域別発病率仮想データの解析

           0.0030
                            ●


                        ●               人口が小さいほど
                                          高リスク?
                        ●



 発
                        ●
           0.0020




 病
                        ●
                        ●
  z1.new




                            ●
                                ●


 率
                                ●
           0.0010




                            ●
                            ●
                            ●
                         ●●       ●      ●
                          ●       ●●
                          ●●
                           ●        ●        ●
                            ●
                            ●●        ●●                  ●●                  ●
                             ●●
                              ●          ●●
                                         ●●        ●
                              ●●
                               ●
                               ●●
                                ●                     ●●         ●
                                ●●          ● ●              ● ●●     ●● ●
                                                                      ●●
                                  ●●                          ● ●●          ●
                                  ●●
                                  ●●
                                   ●●
                                     ●●●
                                     ●●
                                     ●●
                                      ●●
                                      ● ●●
                                                ●● ●
                                                 ●● ●
                                                  ●● ●
                                                   ● ●●●●●●
                                                       ● ● ●●       ● ● ● ● ●● ●●
                                                                    ● ●● ●
                                                                         ●
                                                         ●● ● ●
                                                          ●● ● ●
                                        ●●●
                                        ●●●
                                         ●●●●
                                            ●●●●●
                                            ●● ●●●
                                             ●●●●●
                                              ● ●●●●
                                               ●●●●●●             ● ● ●● ●● ● ●●●●
                                                              ● ●●●●●
                                                                ●●●●●●●
                                                                ●● ●●●● ●     ● ●●
                                                                      ● ●●●●●●●●● ●
                                                                          ●●●●●●●● ●
                                                                                    ●
                                                                           ● ● ● ●● ●
                                                  ●●●●●●●●●                  ● ● ●●
                                                                                ● ●
           0.0000




                                                   ●● ●●●●●●
                                                   ● ●●●●●●●
                                                     ●● ● ●●●●●●
                                                       ● ●●● ●●●●●
                                                              ● ●●●●●●●●●●●●●●●
                                                               ● ●●●●● ●●●●●●●●●●
                                                               ●   ●●●●●●●●●●●●●●
                                                                   ●●●●●●●●●●● ●●●
                                                                     ●    ● ●●● ●●
                                                                           ●       ●●
                    ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
                    ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
                    ●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●
                    ●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●
                     ●●●● ●●●●●●●●●●●●●● ●●●●●●●●●●● ●●●● ●● ●● ●●●●●● ●
                     ● ●●●●● ●●●● ● ●●
                       ●●● ●             ●●       ● ●●● ●●●●       ●       ● ● ●● ●



                    0           2000      4000         6000         8000        10000


                                          人口    y.new
例:地域別発病率仮想データの解析

           0.0030
                                          p=0.002,
                            ●


                        ●

                        ●
                                        有意だ!大変だ!
 発
                        ●
           0.0020




 病
                        ●
                        ●
  z1.new




                            ●
                                ●


 率
                                ●
           0.0010




                            ●
                            ●
                            ●
                         ●●       ●      ●
                          ●       ●●
                          ●●
                           ●        ●        ●
                            ●
                            ●●        ●●                  ●●                  ●
                             ●●
                              ●          ●●
                                         ●●        ●
                              ●●
                               ●
                               ●●
                                ●                     ●●         ●
                                ●●          ● ●              ● ●●     ●● ●
                                                                      ●●
                                  ●●                          ● ●●          ●
                                  ●●
                                  ●●
                                   ●●
                                     ●●●
                                     ●●
                                     ●●
                                      ●●
                                      ● ●●
                                                ●● ●
                                                 ●● ●
                                                  ●● ●
                                                   ● ●●●●●●
                                                       ● ● ●●       ● ● ● ● ●● ●●
                                                                    ● ●● ●
                                                                         ●
                                                         ●● ● ●
                                                          ●● ● ●
                                        ●●●
                                        ●●●
                                         ●●●●
                                            ●●●●●
                                            ●● ●●●
                                             ●●●●●
                                              ● ●●●●
                                               ●●●●●●             ● ● ●● ●● ● ●●●●
                                                              ● ●●●●●
                                                                ●●●●●●●
                                                                ●● ●●●● ●     ● ●●
                                                                      ● ●●●●●●●●● ●
                                                                          ●●●●●●●● ●
                                                                                    ●
                                                                           ● ● ● ●● ●
                                                  ●●●●●●●●●                  ● ● ●●
                                                                                ● ●
           0.0000




                                                   ●● ●●●●●●
                                                   ● ●●●●●●●
                                                     ●● ● ●●●●●●
                                                       ● ●●● ●●●●●
                                                              ● ●●●●●●●●●●●●●●●
                                                               ● ●●●●● ●●●●●●●●●●
                                                               ●   ●●●●●●●●●●●●●●
                                                                   ●●●●●●●●●●● ●●●
                                                                     ●    ● ●●● ●●
                                                                           ●       ●●
                    ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
                    ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
                    ●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●
                    ●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●
                     ●●●● ●●●●●●●●●●●●●● ●●●●●●●●●●● ●●●● ●● ●● ●●●●●● ●
                     ● ●●●●● ●●●● ● ●●
                       ●●● ●             ●●       ● ●●● ●●●●       ●       ● ● ●● ●



                    0           2000      4000         6000         8000        10000


                                          人口    y.new
例:地域別発病率仮想データの解析

           0.0030
                            ●


                        ●

                        ●
                                       バイアスを避けたい!
 発
                        ●
           0.0020




 病                                                    疾病地図における
                        ●
                        ●
  z1.new




                            ●
                                ●
                                                       小地域問題
 率
                                ●
           0.0010




                            ●
                            ●
                            ●
                         ●●       ●      ●
                          ●       ●●
                          ●●
                           ●        ●        ●
                            ●
                            ●●        ●●                  ●●                  ●
                             ●●
                              ●          ●●
                                         ●●        ●
                              ●●
                               ●
                               ●●
                                ●                     ●●         ●
                                ●●          ● ●              ● ●●     ●● ●
                                                                      ●●
                                  ●●                          ● ●●          ●
                                  ●●
                                  ●●
                                   ●●
                                     ●●●
                                     ●●
                                     ●●
                                      ●●
                                      ● ●●
                                                ●● ●
                                                 ●● ●
                                                  ●● ●
                                                   ● ●●●●●●
                                                       ● ● ●●       ● ● ● ● ●● ●●
                                                                    ● ●● ●
                                                                         ●
                                                         ●● ● ●
                                                          ●● ● ●
                                        ●●●
                                        ●●●
                                         ●●●●
                                            ●●●●●
                                            ●● ●●●
                                             ●●●●●
                                              ● ●●●●
                                               ●●●●●●             ● ● ●● ●● ● ●●●●
                                                              ● ●●●●●
                                                                ●●●●●●●
                                                                ●● ●●●● ●     ● ●●
                                                                      ● ●●●●●●●●● ●
                                                                          ●●●●●●●● ●
                                                                                    ●
                                                                           ● ● ● ●● ●
                                                  ●●●●●●●●●                  ● ● ●●
                                                                                ● ●
           0.0000




                                                   ●● ●●●●●●
                                                   ● ●●●●●●●
                                                     ●● ● ●●●●●●
                                                       ● ●●● ●●●●●
                                                              ● ●●●●●●●●●●●●●●●
                                                               ● ●●●●● ●●●●●●●●●●
                                                               ●   ●●●●●●●●●●●●●●
                                                                   ●●●●●●●●●●● ●●●
                                                                     ●    ● ●●● ●●
                                                                           ●       ●●
                    ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
                    ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
                    ●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●
                    ●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●
                     ●●●● ●●●●●●●●●●●●●● ●●●●●●●●●●● ●●●● ●● ●● ●●●●●● ●
                     ● ●●●●● ●●●● ● ●●
                       ●●● ●             ●●       ● ●●● ●●●●       ●       ● ● ●● ●



                    0           2000      4000         6000         8000        10000


                                          人口    y.new
経験ベイズ法を使ってみよう
 地域ごとの発病率 θは連続的
    に分布すると仮定

               地域ごとの
             データそのもの
頻度            から最尤推定


     発病率 θ    事前分布
              として利用
経験ベイズ法を使ってみよう
   地域ごとの発病率 θは連続的
      に分布すると仮定




                            250
 2000地点の



                            200
データそのもの


                            150
                   y.temp
 から最尤推定           頻度

                            100
                            50
                            0
                                  0.000 0.005 0.010 0.015 0.020 0.025 0.030


Gamma(0.1,1115)
                                                      x


                                     発病率 θ
事前分布を使って解析してみる
   事前分布
Gamma(0.1,11                                                                       事後分布
    15)
          250




頻




                                                                             400
          200




                                                             地点ごと
                                                            +のデータ



                                                                             300
          150




度



                                                                    y.temp
 y.temp




                                                                             200
          100




                                                                             100
          50




                                                                             0
          0




                0.000 0.005 0.010 0.015 0.020 0.025 0.030                          0.000 0.005 0.010 0.015 0.020 0.025 0.030

                                    x                                                                  x



                 発病率 θ
                                                               ベイズの定理
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由

More Related Content

なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由

  • 1. 2010.6.17国環研生物系若手セミナー*ブログup用改変版* なぜベイズ統計は リスク分析に向いているのか? ∼その哲学上および実用上の理由∼ (ver 2.0) 林岳彦 国立環境研究所環境リスク研究センター hayashi.takehiko@nies.go.jp
  • 2. 今日の話 ベイズにまつわる エトセトラ 確率概念 ベイズ 仮説検定 リスク分析
  • 3. 本日のメニュー 概念的 35min I.「確率」の哲学的諸概念と  リスク解釈にとっての意味 II. 仮説検定の「筋違い」さ 統計的 30min  とベイズの本質的な利点 25min III.デフォルトあるいは糊代 実務的  としての事前分布の利用
  • 4. 本日のメニュー 概念的 35min I.「確率」の哲学的諸概念と  リスク解釈にとっての意味 II. 仮説検定の「筋違い」さ 統計的 30min  とベイズの本質的な利点 25min III.デフォルトあるいは糊代 実務的  としての事前分布の利用
  • 8. I-1.「確率」とは何か? ・コインを投げてオモテが出る確率 ・クロロホルムによってガンになる確率 ・2050年までに地球の気温が2度以上上昇 Risk = f(Effect,Probability)  する確率 ・人為的な温室効果ガスが温暖化の原因で  ある確率 (IPCC曰く90%) 発がんリスクが ・今年広島カープが優勝する確率 -6 10 ・国環研任期付がパーマネントになる確率
  • 9. I-1.「確率」とは何か? 伝統的統計学 ベイズ統計学 頻度型確率 確信度型確率
  • 10. 確率概念の分類 ・古典確率 ・確率の公理 頻度説 頻度型確率 Frequency theory Frequency-type probability 傾向説 Propensity theory 確率 Probability 論理説 Logical theory 確信度型確率 個人説 Belief-type probability Personal theory 間個人説 Inter-personal theory 用語法はHacking (2001)に基づく
  • 11. 確率の公理 コルモゴルフの確率測度の定義(公理) http://ja.wikipedia.org/wiki/確率空間より引用 http://en.wikipedia.org/wiki/Image:Kolmogorov-m.jpg 第一公理 全ての事象の起こる確率は 0と1の間である 第二公理 全事象Sの起きる確率は1である AN Kolmogolov 第三公理 (1903-1987) 可算個の排反事象に対する 和の法則が成り立つ
  • 12. 確率概念の分類 ・古典確率 ・確率の公理 頻度説 頻度型確率 Frequency theory Frequency-type probability 傾向説 Propensity theory 確率 Probability 論理説 Logical theory 確信度型確率 個人説 Belief-type probability Personal theory 間個人説 Inter-personal theory 用語法はHacking (2001)に基づく
  • 13. 古典的確率概念 「場合の数の比」としての確率 http://en.wikipedia.org/wiki/File:Pierre-Simon_Laplace.jpg その事柄の起こりうる 場合の数 ある事柄の 起こる確率 = 同程度に起こりうる 全体の場合の数 PS Laplace (1749-1827)
  • 15. 古典的確率概念 「場合の数の比」としての確率 理由不十分の原理 http://bsoza.com/money_02.php
  • 16. 確率概念の分類 ・古典確率 ・確率の公理 頻度説 頻度型確率 Frequency theory Frequency-type probability 傾向説 Propensity theory 確率 Probability 論理説 Logical theory 確信度型確率 個人説 Belief-type probability Personal theory 間個人説 Inter-personal theory 用語法はHacking (2001)に基づく
  • 17. 頻度説 「ある事柄が起こる頻度」としての確率 http://en.wikipedia.org/wiki/File:Karl_Pearson_2.jpg http://en.wikipedia.org/wiki/File:R._A._Fischer.jpg K Pearson RA Fisher (1857-1936) (1890-1962) 例:コインを投げてオモテがでる確率
  • 18. 頻度説 「ある事柄が起こる頻度」としての確率 オ モ テ が p→0.5 出 た 割 N→ 合 2/5=0.4? 形而上学的跳躍 コイン投げの試行数
  • 19. 頻度説 「ある事柄が起こる頻度」としての確率 オ http://en.wikipedia.org/wiki/ File:John_Maynard_Keynes.jpg In a long run, モ we are all dead テ が p→0.5 出 た 割 N→ 合 2/5=0.4? 形而上学的跳躍 コイン投げの試行数
  • 21. 確率概念の分類 ・古典確率 ・確率の公理 頻度説 頻度型確率 Frequency theory Frequency-type probability 傾向説 Propensity theory 確率 Probability 論理説 Logical theory 確信度型確率 個人説 Belief-type probability Personal theory 間個人説 Inter-personal theory 用語法はHacking (2001)に基づく
  • 22. 傾向説 「対象に内在する傾向」としての確率 http://en.wikipedia.org/wiki/File:Karl_Popper.jpg コインを投げて表がでる確率 コインの物理的性質 ウランの同位体の分裂確率 K Popper ウランの物理的性質 (1902-1994) あくまでも我々の認識作用に関わらない ものとして確率を定義
  • 23. 確率概念の分類 ・古典確率 ・確率の公理 頻度説 頻度型確率 Frequency theory Frequency-type probability 傾向説 Propensity theory 確率 Probability 論理説 Logical theory 確信度型確率 個人説 Belief-type probability Personal theory 間個人説 Inter-personal theory 用語法はHacking (2001)に基づく
  • 24. 論理説 「合理的信念の度合い」としての確率 http://en.wikipedia.org/wiki/ File:John_Maynard_Keynes.jpg 条件E→Xである確率が 50% E→Xの JM Kaynes 確からしさ (1983-1946) の定量的記述 「確率論」1921
  • 25. 論理説 「合理的信念の度合い」としての確率 演繹的推論 http://en.wikipedia.org/wiki/ File:John_Maynard_Keynes.jpg 前提E→Xである確率が 100% 帰納的推論 JM Kaynes (1983-1946) 条件E→Xである確率が 「確率論」1921 中間的な%
  • 26. 論理説 「合理的信念の度合い」としての確率 http://en.wikipedia.org/wiki/ (条件E→Xという) File:John_Maynard_Keynes.jpg 論理的関係に 内在するもの 主観的なものでは 全くない! JM Kaynes 理由不十分の原理 (1983-1946) あるいは優れた知性による直感 「確率論」1921
  • 27. 論理説 「合理的信念の度合い」としての確率 歪んだコインの問題 オモテ・ウラ・ヨコ? http://bsoza.com/money_02.php
  • 28. 確率概念の分類 ・古典確率 ・確率の公理 頻度説 頻度型確率 Frequency theory Frequency-type probability 傾向説 Propensity theory 確率 Probability 論理説 Logical theory 確信度型確率 個人説 Belief-type probability Personal theory 間個人説 Inter-personal theory 用語法はHacking (2001)に基づく
  • 29. 個人説 「個人が持つ信念の度合い」としての確率 http://sms.cam.ac.uk/institution/PHIL (条件E→Xという) 個人的な信念の度合い FP Ramsey の記述としての確率 (1903-1930) http://it.wikipedia.org/wiki/Bruno_de_Finetti 異なる個人は 異なる信念の度合いを 持ちうる B de Finetty (1906-1985)
  • 30. 個人説 「個人が持つ信念の度合い」としての確率 うろこ雲→次の日雨 画像 画像 30% 10% 70% 画像 画像 画像
  • 31. 個人説 数値化の問題は「賭けの枠組み」で解決 心理学者A Bさん 画像 pを選んで 画像 p=0.3 次の日雨→ p 1000円 個人確率 not次の日雨→ (1-p) 1000円 *各種認知バイアスにも注意
  • 32. 個人説 個人確率の適用範囲は広い ・2050年までに地球の気温が2度以上  上昇する確率 ・人為的な温室効果ガスが温暖化の原因で  ある確率 ・今年広島カープが優勝する確率 ・容疑者Xが犯人である確率 ・コインを投げてオモテが出る確率
  • 33. 個人説 個人確率に数学は適用できるの? http://sms.cam.ac.uk/institution/PHIL できますとも! http://it.wikipedia.org/wiki/Bruno_de_Finetti ラムジー=デ・フィネッティの定理 (Dutch book argument) 「必敗の賭け」にはならない合理的な賭け比率の選び方を する限りその個人確率はコルモゴルフの確率の公理を満たす 確率論数学OK!
  • 34. 確率概念の分類 ・古典確率 ・確率の公理 頻度説 頻度型確率 Frequency theory Frequency-type probability 傾向説 Propensity theory 確率 Probability 論理説 Logical theory 確信度型確率 個人説 Belief-type probability Personal theory 間個人説 Inter-personal theory 用語法はHacking (2001)に基づく
  • 35. 間個人説 「ある集団が持つ信念の度合い」としての確率 個人 集団 個人確率 間個人 確率 個人確率 個人確率 間個人 個人確率 確率
  • 36. 間個人説 「ある集団が持つ信念の度合い」としての確率 個人 集団 個人確率 間個人 人為的な温室効果ガスが温暖化の原因で  ある確率は90% (IPCC) 確率 個人確率 個人確率 間個人 個人確率 確率
  • 37. 確率概念の分類 ・古典確率 ・確率の公理 頻度説 頻度型確率 Frequency theory Frequency-type probability 傾向説 Propensity theory 確率 Probability 論理説 Logical theory 確信度型確率 個人説 Belief-type probability Personal theory 間個人説 Inter-personal theory 用語法はHacking (2001)に基づく
  • 38. 例:ボールが青である 確率 一個色を見ずに BOX 取り出す Bag 2/10
  • 39. 例:ボールが青である 確率 一個色を見ずに BOX 取り出す Bag 2/10 もう一個取り出したら 青だった 1/9
  • 40. I-Iのまとめ ・古典確率 ・確率の公理 頻度説 頻度型確率 Frequency theory Frequency-type probability 傾向説 Propensity theory 確率 Frequency Probability 論理説 Logical theory 確信度型確率 個人説 Belief-type probability Personal theory 間個人説 Degree of belief Inter-personal theory 用語法はHacking (2001)に基づく
  • 41. I-Iのまとめ ・古典確率 ・確率の公理 ・古典確率 リスクの解釈に与える影響は? 頻度説 頻度型確率 Frequency theory Frequency-type probability 傾向説 Propensity theory 確率 Frequency Probability 論理説 Logical theory 確信度型確率 個人説 Belief-type probability Personal theory 間個人説 Degree of belief Inter-personal theory 用語法はHacking (2001)に基づく
  • 44. 例をもとに考えてみる1 サイコロを1000回振ります。 1の目がでる一回あたりの確率は? 1/6 頻度説 傾向説 個人説 間個人説 if rational
  • 45. 例をもとに考えてみる2 room ロシアンルーレット をやってください 画像 A 実弾は6弾中1弾のみ シリンダーは回す 頻度説 0or1 個人説 1/6 Aさんが死ぬ確率は?
  • 46. 例をもとに考えてみる3 room 実弾は6弾中1弾のみ シリンダーは固定する A→B→C→D→E→Fの順 A B C リスク評価者 D E F K 頻度説 0or1 リスクは一人あたり 個人説 1/6 1/6
  • 47. 例をもとに考えてみる4 room 1/2 実弾は6弾中1弾のみ シリンダーは固定する A→B→C→D→E→Fの順 メモ メモ 0 A B C 1/6 D E F K 頻度説 0or1 リスクは一人あたり 個人説 1/6 0,1/6,1/2
  • 48. ふりかえってみる1 単一事象 ロシアン サイコロ的問題 ルーレット的問題 頻度説 頻度説 化学物質のリスクってどっち?
  • 49. ふりかえってみる2 リスク認知 交換可能性 A B C リスク評価者 D E F K 外から見ることが「科学的」なの?
  • 50. ふりかえってみる3 情報量 1/2 メモ メモ 0 A B C 1/6 D E F K 1/6 どれが 正しい リスク評価なの?
  • 51. 一回まとめてみる 頻度的確率 個人確率 一義性 一義的 人それぞれも可 情報に 依存しない 依存する 繰り返し事象にしか 困る点 適用できない 非論理的でありうる リスク認知の問題まで 良い点 科学的 だと思われている 扱える 確率的計算 適用可 = 適用可 リスク どっちが向いてるかな?
  • 52. 1 事実上個人確率としかいいようがない 暴露の分布 感受性の分布 外挿 外挿 -6 10 外挿 外挿 外挿 外挿 外挿 外挿 PRTRデータなど 試験動物の毒性試験
  • 53. 1 事実上個人確率としかいいようがない 暴露の分布 感受性の分布 外挿 外挿 -6 10 外挿 外挿 計算結果としての「確率論的リスク」は 外挿 外挿 専門家の合意に基づく一連の推定手順 により構成された(間)個人確率に基づく 外挿 外挿 リスクの表現だと思う PRTRデータなど 試験動物の毒性試験
  • 54. 2 いろいろ利点があるから ・繰り返し事象も非繰り返し事象もOK  (特定個人のリスク評価も可能) ・情報量の違いに対応可 ・リスク認知の問題も扱える 個人確率 個人確率 間個人 個人 個人確率 確率 間個人 個人確率 個人 集団 確率 個人確率 人はfrequencyではなくdegree of beliefで動く
  • 55. リスク評価が 主観 確率でいいの? 私はあなたと違って 客観的に物事を 画像 見れるんです 頻度的確率 (a.k.a客観確率)
  • 56. リスク評価が 主観 確率でいいの? 客観性の高い (間)個人確率 Evidence Logic Transparency
  • 58. IIのpreview 伝統的統計学 ベイズ統計学 頻度型確率 確信度型確率
  • 60. 本日のメニュー 概念的 35min I.「確率」の哲学的諸概念と  リスク解釈にとっての意味 II. 仮説検定の「筋違い」さ 統計的 30min  とベイズの本質的な利点 25min III.デフォルトあるいは糊代 実務的  としての事前分布の利用
  • 61. II.仮説検定の「筋違い」さと ベイズの本質的な利点 II-1 仮説検定とは II-2 仮説検定はなぜ「筋違い」か II-3 ベイズの本質的な利点
  • 62. II.仮説検定の「筋違い」さと ベイズの本質的な利点 II-1 仮説検定とは II-2 仮説検定はなぜ「筋違い」か II-3 ベイズの本質的な利点
  • 63. そもそも統計とは 数え上げる ことにより 現象の法則性を発見する 国勢調査 記述統計学 全数調査 State→statistics 部分 全体 統計的推測 帰納的推論 経験科学の発展の礎
  • 64. 頻度論的な統計的推測の枠組み 未知ではあるが 母集団 固定された パラメータ値 難 し 標本抽出 推測 い 数 演 学 繹 標本 モデル (母集団は対数正規分布 するとか)
  • 65. 仮説検定の論理構成 「2群間に差があるか?」 差がないと仮定する(帰無仮説) t検定, U検定, F検定, カイ二乗検定, etc... データから統計量Xを求める 「データから求めたX」以上に極端となるXの値が 帰無仮説が正しいという仮定のもとで得られる確率pを計算 p>有意水準 p<有意水準 帰無仮説は棄却不可 帰無仮説は棄却 (差があるとはいえないと判断) (差があると 判断 )
  • 66. 仮想例:発病率に差があるか? 発病率 暴露群 1000人中 ^ 16人発病 θ=0.01 θ=0.016 (既知) (n=1000) 暴露群もθ=0.01だと仮定する(帰無仮説) 発病者数 (r=16) が統計量 帰無仮説(θ=0.01)が正しいとき n=1000で発病者数rが16以上となる確率を計算
  • 67. 仮想例:発病率に差があるか? 0.12 帰 無 0.10 仮 0.08 説 p<0.05 r.series の 0.06 基 ^ 0.04 で θ=0.016 の r=16 0.02 確 0.00 率 0 5 10 15 20 25 30 発病者数 r(n=1000) Index
  • 68. 仮想例:発病率に差があるか? 帰無仮説のもとでは5%以下の確率で 0.12 帰 しか起こらない稀な事象が起こった 無 0.10 仮 0.08 説 p<0.05 r.series の 暴露群は有意に発病率が高い 0.06 基 ^ 0.04 で θ=0.016 の r=16 0.02 確 0.00 率 0 5 10 15 20 25 30 発病者数 r(n=1000) Index
  • 69. ちなみに:p値の意味は? p<0.05で 帰無仮説が棄却 帰無仮説が正しい確率が 5%以下 対立仮説が正しい確率が 95%以上 帰無仮説が正しいときに (全く同じ調査方法で) 今回のデータが得られる確率が5%以下
  • 70. II.仮説検定の「筋違い」さと ベイズの本質的な利点 II-1 仮説検定とは II-2 仮説検定はなぜ「筋違い」か II-3 ベイズの本質的な利点
  • 71. デミングの批判 http://ja.wikipedia.org/wiki/ファイル:W._Edwards_Deming.jpg WE Deming (1900-1993) 品質管理の神 日本復興の立役者
  • 72. デミングの批判 http://ja.wikipedia.org/wiki/ファイル:W._Edwards_Deming.jpg WE Deming (1900-1993) 品質管理の神 日本復興の立役者 実際の問題はAとB、二つの処理の違いが有意か どうかなどではない。(両者に)差異があるとす ると・・その差異がどんなにわずかなものであっ ても実験をかなりの回数くり返せば有意となる。 サルツブルグ「統計学を拓いた異才たち」より引用
  • 73. 仮想例:発病率に差があるか? 0.12 帰 無 0.10 仮 0.08 説 p<0.05 r.series の 0.06 基 ^ 0.04 で θ=0.016 の r=16 0.02 確 0.00 率 0 5 10 15 20 25 30 発病者数 (サンプル数1000人中) Index
  • 74. 仮想例:発病率に差があるか? 暴露群は有意に発病率が高い 0.12 帰 無 0.10 仮 0.08 説 p<0.05 r.series の 0.06 基 ^ 0.04 で θ=0.016 の r=16 0.02 確 0.00 率 0 5 10 15 20 25 30 発病者数 (サンプル数1000人中) Index
  • 75. 仮想例:発病率に差があるか? 帰 無 0.15 p<0.05 仮 説 0.10 r.series の ^ 基 θ=0.016 で r=8 0.05 の 確 0.00 率 0 5 10 15 発病者数 (サンプル数500人中) Index
  • 76. 仮想例:発病率に差があるか? 暴露群の発病率は有意差なし 帰 無 0.15 p<0.05 仮 説 0.10 r.series の ^ 基 θ=0.016 で r=8 0.05 の 確 0.00 率 0 5 10 15 発病者数 (サンプル数500人中) Index
  • 77. 仮想例:発病率に差があるか? 0.012 帰 無 0.010 仮 0.008 r=1050 説 p<0.05 r.series 0.006 の 基 ^ θ=0.016 0.004 で r=1600 の 0.002 確 0.000 率 800 1000 1200 1400 1600 1800 2000 発病者数 (サンプル数100000人中) Index
  • 78. 仮想例:発病率に差があるか? 0.012 暴露群は有意に発病率が高い 帰 無 0.010 仮 r=10500.008 説 p<0.05 r.series 0.006 の 基 ^ θ=0.016 0.004 で r=1600 の 0.002 確 0.000 率 800 1000 1200 1400 1600 1800 2000 発病者数 (サンプル数100000人中) Index
  • 79. 有意差の意味って? 有意差 リスク ^ n=1000, θ=0.16 あり あり? ^ n=500, θ=0.16 なし なし?? ^ あり? n=100000, θ=0.16 あり ^ あり n=100000, θ=0.106 あり?? 「有意差」はリスクの指標とはならない!
  • 80. そもそも:目的が違う 仮説検定 リスク分析 データ データ 帰無仮説 vs 対立仮説 予測・制御 科学の文法 架空の敵 K.Pearson 真理 実利 あるいはその近似としての 効用を最大化する 最も尤もらしい仮説 意思決定の支援
  • 81. そもそも:目的が違う リスク解析のゴール 統計的推論の3つのフェーズ 定量的推定 バラメータ値の 定量的推定 情報量規準 仮説検定 データマイニング 探索的データ解析
  • 82. そもそも:目的が違う リスク解析のゴール 統計的推論の3つのフェーズ 定量的推定 バラメータ値の 定量的推定 情報量規準 仮説検定 リスク分析の専門書には 仮説検定の話は殆んど全く出てこない データマイニング 探索的データ解析
  • 83. 仮説検定の実害(1) 不毛かつ非本質的な議論の元凶の一つ 「有意差なし」と「リスクなし」の混同 0/1的リスク認識の一つの源 薬剤疫学 J nJP ama o pd mil 1()D c20:2 p h r c e ie o, 22 e 07 5 報告 特別シンポジウム 誰得? 「インフルエンザ罹患後の異常行動と薬剤疫学」 開 催 報 告 「ある特定区間における有意差のあるなし」 特別シンポジウム組織委員会: 八重ゆかり(東京大学大学院疫学・予防保 学博士後期課程) 津谷喜一郎(東京大学大学院薬学系研究科医薬政策学) 大橋 靖雄(東京大学大学院医学系研究科 共 康医学専攻生物統計学)
  • 84. 仮説検定の実害(2) 筋違いな適用が多すぎ データが正規分布に従うか? 適合度検定しよう 有意差なし 正規分布でOK! 正規分布を仮定したモデル でリスクの予測 予測が目的ならモデル選択等を使って!
  • 85. さよなら仮説検定:生態リスク ワークショプの結論: 1. 無影響濃度は毒性試験のサマリー としては段階的に廃止していくべきである Unclassified ENV/MC/CHEM(98)18 Organisation de Coopération et de Développement Economiques OLIS : 27-Jan-1998 Organisation for Economic Co-operation and Development Dist. : 28-Jan-1998 __________________________________________________________________________________________ Or. Eng. ENVIRONMENT DIRECTORATE Unclassified ENV/MC/CHEM(98)18 CHEMICALS GROUP AND MANAGEMENT COMMITTEE 1998 Report of the OECD Workshop on Statistical Analysis of Aquatic Toxicity OECD SERIES ON TESTING AND ASSESSMENT Number 10 Report of the OECD Workshop on Statistical Analysis of Aquatic Toxicity Data
  • 86. さよなら仮説検定:生態リスク 毒性の強さの指標:無影響濃度 有意差あり * 無影響濃度 * 対照区 * 死亡率 0 4 16 64 256 1024 化学物質濃度(mg/L)
  • 87. さよなら仮説検定:ヒト健康 EPA/630/R-94/007 February 1995 無毒性量よりもベンチマーク容量 を毒性指標として使っていくべきである EPA/630/R-94/007 February 1995 THE USE OF THE BENCHMARK DOSE APPROACH IN HEALTH RISK ASSESSMENT 1995 THE USE OF THE BENCHMARK DOSE APPROACH IN HEALTH RISKTHE USE OF THE BENCHMARK DOSE APPROACH IN HEALTH RISK ASSESSMENT Risk Assessment Forum U.S. Environmental Protection Agency Washington, DC 20460
  • 89. 信頼区間を考えよう 暴露群における発病率θの90%信頼区間 type-I type-II n=500 ● n=1000 ● n=100000 ● 0.000 0.005 0.010 0.015 0.020 0.025 0.030 発病率θ
  • 90. ちなみに:区間推定の解釈 90%信頼区間が 0.013 < θ < 0.029 θの真の値が0.013∼0.029 の間にある確率が90% 全く同じ方法で調査および 信頼区間の算出を繰り返したときに 100回中90回はθの真の値がそれらの区間に含まれる わかりにくい!
  • 91. 頻度論的な統計的推測の枠組み 未知ではあるが 母集団 固定された パラメータ値 難 し 標本抽出 推測 い 数 演 学 繹 標本 モデル (母集団は対数正規分布 するとか)
  • 93. II.仮説検定の「筋違い」さと ベイズの本質的な利点 II-1 仮説検定とは II-2 仮説検定はなぜ「筋違い」か II-3 ベイズの本質的な利点
  • 94. 頻度論的な統計的推測の枠組み 未知ではあるが 母集団 固定された パラメータ値 難 し 標本抽出 推測 い 数 学 標本 モデル (母集団は対数正規分布 するとか)
  • 95. ベイズにとってパラメータとは 未知ではあるが 未知パラメータ 固定された は確率的に パラメータ値 分布する ? 確 確 率 率 パラメータの値 パラメータの値 頻度主義 ベイズ主義(個人確率)
  • 96. ベイズにとってパラメータとは 未知ではあるが 未知パラメータ 固定された は確率的に パラメータ値 分布する ? 分からなさ 確 確 率 率 パラメータの値 パラメータの値 頻度主義 ベイズ主義(個人確率)
  • 97. ベイズにとってパラメータとは 未知ではあるが 未知パラメータ 固定された は確率的に パラメータ値 分布する ? 全く分からない 確 確 率 率 パラメータの値 パラメータの値 頻度主義 ベイズ主義(個人確率)
  • 98. ベイズにとってパラメータとは 未知ではあるが 未知パラメータ 固定された は確率的に パラメータ値 分布する ? とてもよく分かってます 確 確 率 率 パラメータの値 パラメータの値 頻度主義 ベイズ主義(個人確率)
  • 99. ベイズによる統計的推測の枠組み 事前分布 事後分布 確 率 + データ パラメータの値 パラメータの値 ベイズの定理
  • 100. ベイズの定理 事後分布  尤度*事前分布 f (data | param) p( param) p( param | data) = " f (data | param) p( param)dparam データを得た後の ! データを得る前の 確信の度合い 確信の度合い パラメータとデータの 適合ぐあい(モデル)
  • 101. 仮想例:発病率の推定 暴露群 ^ 1000人中16人発病 θ=0.016 事後分布=尤度*事前分布 f (r = 16 | θ ) p(θ ) p(θ | r = 16) = ∫ f (r = 16 | θ ) p(θ )θ p(θ | r = 16) ∝ Be(16 +1,1000 −16 +1) € 事後分布!
  • 102. 仮想例:発病率の推定 暴露群 ^ 1000人中16人発病 θ=0.016 100 x <- seq(0, 0.04, length=100) y <- dbeta(x,1+16,1000-16+1) plot(x, y,type="h") 事後分布 80 60 y 40 20 0 0.00 0.01 0.02 0.03 0.04 発病率θ x
  • 103. 仮想例:発病率の推定 暴露群 ^ 1000人中16人発病 θ=0.016 100 x <- seq(0, 0.04, length=100) y <- dbeta(x,1+16,1000-16+1) plot(x, y,type="h") 事後分布 80 60 y 90%信用 40 区間 20 0 0.00 0.01 0.02 0.03 0.04 発病率θ x
  • 104. ベイズ的な区間推定の解釈 90%信用区間が 0.011 < θ < 0.024 θが0.011∼0.024の間に ある確率が90% わかりやすい!
  • 105. ベイズとリスク分析の相性の良さ 事前分布 Probability 事後分布 100 80 1.4 Probability 1.2 60 +データ→ Effect size Effect Size y 1.0 y 40 0.8 20 0.6 0.00 0.01 0.02 0.03 0.04 0 x 発病率θ 0.00 0.01 0.02 0.03 0.04 発病率θ x 常にEffect sizeとProbabilityの 情報の全体を取り扱う
  • 106. ベイズとリスク分析の相性の良さ 事前分布 Probability 事後分布 100 80 1.4 Probability 1.2 60 +データ→ Effect size Effect Size y 1.0 y 40 0.8 20 0.6 0.00 0.01 0.02 0.03 0.04 0 x 発病率θ 0.00 0.01 0.02 0.03 0.04 発病率θ x Risk = f(Effect size,Probability)
  • 107. ベイズとリスク分析の相性の良さ 事前分布 Probability 事後分布 100 トミー 80 1.4 Probability 1.2 マツ 60 +データ画像 → Effect size Effect Size y 1.0 y 40 0.8 20 0.6 0.00 0.01 0.02 0.03 0.04 0 x 発病率θ 0.00 0.01 0.02 0.03 0.04 発病率θ x ベイズとリスクの相性はばっちり Risk = f(Effect size,Probability)
  • 108. それぞれの手法の見ているもの y 100 80 60 40 20 0 ベイズ 0.00 0.01 0.02 0.03 0.04 発病率θ x
  • 109. それぞれの手法の見ているもの y 100 80 60 40 20 0 ベイズ 0.00 0.01 0.02 0.03 0.04 発病率θ 区間推定 x
  • 110. それぞれの手法の見ているもの 仮説検定 y 100 80 60 40 20 0 ベイズ 0.00 0.01 0.02 0.03 0.04 発病率θ 区間推定 x
  • 111. *本質論じゃなくて実用的な話 100 80 60 y 40 20 0 0.00 0.01 0.02 0.03 0.04 発病率θ x 発病率θ Bootstrap 最尤法でも良くね?
  • 112. 乱暴に言うと実はbootstrapとMCMCって ユーザー視点から見ると実は似てるかも ベイズ bootstrap (MCMC) データ データセットを データ 尤度と事前情報に 応じてパラメータを セット 乱数的に生成 セット 乱数的に生成 データ dd dd セット 最尤推定 100 100 Probability Effect Probability Effect 80 80 60 60 y y 40 40 20 20 0 0 0.00 0.01 0.02 0.03 0.04 0.00 0.01 0.02 0.03 0.04 x x パラメータの推定分布 パラメータの事後分布
  • 113. *本質論じゃなくて実用的な話 100 80 60 y 40 20 0 0.00 0.01 0.02 0.03 0.04 発病率θ x 発病率θ Bootstrap 最尤法でも良いかも *ただし事前分布を積極的に利用しない場合に限る
  • 116. 本日のメニュー 概念的 35min I.「確率」の哲学的諸概念と  リスク解釈にとっての意味 II. 仮説検定の「筋違い」さ 統計的 30min  とベイズの本質的な利点 25min III.デフォルトあるいは糊代 実務的  としての事前分布の利用
  • 117. III.デフォルトあるいは糊代として の事前分布の利用 III-1 リスク分析と事前分布 III-2 助け合いvia事前分布:階層ベイズ III-3 糊代 としての事前分布の利用
  • 118. III.デフォルトあるいは糊代として の事前分布の利用 III-1 リスク分析と事前分布 III-2 助け合いvia事前分布:階層ベイズ III-3 糊代 としての事前分布の利用
  • 119. 事前分布とは データを得る前のパラメータの値に 関する確信の度合いを示す 事前分布 事後分布 確 率 + データ パラメータの値 パラメータの値
  • 121. デフォルト値をベイズ的に眺める よくある リスク評価手法 データがない デフォルト値 1.0 0.8 0.6 y 1.4 0.4 ベイズ解析 0.2 1.2 0.0 0.00 0.01 0.02 0.03 0.04 1.0 y x 0.8 0.6 0.00 0.01 0.02 0.03 0.04 x 事前分布 リスク分析
  • 122. デフォルト値をベイズ的に眺める よくある リスク評価手法 データがない デフォルト値 1.0 事前分布はリスク評価において 0.8 0.6 より好ましい性質をもつ y 1.4 0.4 ベイズ解析 0.2 1.2 デフォルト である 0.0 0.00 0.01 0.02 0.03 0.04 1.0 y x 0.8 0.6 0.00 0.01 0.02 0.03 0.04 x 事前分布 リスク分析
  • 123. ちなみに:事前分布とデータの関係 事前分布 データ 事後分布 n=500 80 70 60 60 50 40 y 40 y 30 40 20 20 10 30 0 0 0.00 0.01 0.02 0.03 0.04 0.00 0.01 0.02 0.03 0.04 20 y x x 10 n=10000 0 100 150 200 250 300 350 0.00 0.01 0.02 0.03 0.04 300 x 250 200 150 y y 100 50 50 0 0.00 0.01 0.02 0.03 0.04 0 x 0.00 0.01 0.02 0.03 0.04 x
  • 124. ちなみに:事前分布とデータの関係 事前分布 データ 事後分布 n=500 80 70 60 60 データが多い場合も少ない場合も 50 40 y 40 y 30 40 20 一貫したやり方で対応できる 20 10 30 0 0 0.00 0.01 0.02 0.03 0.04 0.00 0.01 0.02 0.03 0.04 リスク分析の枠組みが構築可能 20 y x x 10 n=10000 0 100 150 200 250 300 350 0.00 0.01 0.02 0.03 0.04 300 x 250 200 150 y y 100 50 50 0 0.00 0.01 0.02 0.03 0.04 0 x 0.00 0.01 0.02 0.03 0.04 x
  • 125. 事前分布はどう決める? 1 無情報分布(平らな分布) 最尤法とほぼ同等の結果が得られる 2 他のものから決める ・過去の研究・知見など ・歴史的コンセンサス ・専門家へのインタビュー 猫の手も借りたいときの奥の手 3 データそのものから決める 階層ベイズモデル
  • 127. III.デフォルトあるいは糊代として の事前分布の利用 III-1 リスク分析と事前分布 III-2 助け合いvia事前分布:階層ベイズ III-3 糊代 としての事前分布の利用
  • 128. 例:地域別発病率仮想データの解析 仮想データの作成 発病率一定 2000地域 人口は100∼10000 θ=0.0001 人の一様分布 2000地域の発病率の仮想データを 乱数的に作成
  • 129. 例:地域別発病率仮想データの解析 0.0030 ● ● ● 発 ● 0.0020 病 ● ● z1.new ● ● 率 ● 0.0010 ● ● ● ●● ● ● ● ●● ●● ● ● ● ● ●● ●● ●● ● ●● ● ●● ●● ● ●● ● ●● ● ●● ● ●● ● ● ● ●● ●● ● ●● ●● ● ●● ● ●● ●● ●● ●●● ●● ●● ●● ● ●● ●● ● ●● ● ●● ● ● ●●●●●● ● ● ●● ● ● ● ● ●● ●● ● ●● ● ● ●● ● ● ●● ● ● ●●● ●●● ●●●● ●●●●● ●● ●●● ●●●●● ● ●●●● ●●●●●● ● ● ●● ●● ● ●●●● ● ●●●●● ●●●●●●● ●● ●●●● ● ● ●● ● ●●●●●●●●● ● ●●●●●●●● ● ● ● ● ● ●● ● ●●●●●●●●● ● ● ●● ● ● 0.0000 ●● ●●●●●● ● ●●●●●●● ●● ● ●●●●●● ● ●●● ●●●●● ● ●●●●●●●●●●●●●●● ● ●●●●● ●●●●●●●●●● ● ●●●●●●●●●●●●●● ●●●●●●●●●●● ●●● ● ● ●●● ●● ● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●● ●●●●●●●●●●●●●● ●●●●●●●●●●● ●●●● ●● ●● ●●●●●● ● ● ●●●●● ●●●● ● ●● ●●● ● ●● ● ●●● ●●●● ● ● ● ●● ● 0 2000 4000 6000 8000 10000 人口 y.new
  • 130. 例:地域別発病率仮想データの解析 0.0030 ● ● 人口が小さいほど 高リスク? ● 発 ● 0.0020 病 ● ● z1.new ● ● 率 ● 0.0010 ● ● ● ●● ● ● ● ●● ●● ● ● ● ● ●● ●● ●● ● ●● ● ●● ●● ● ●● ● ●● ● ●● ● ●● ● ● ● ●● ●● ● ●● ●● ● ●● ● ●● ●● ●● ●●● ●● ●● ●● ● ●● ●● ● ●● ● ●● ● ● ●●●●●● ● ● ●● ● ● ● ● ●● ●● ● ●● ● ● ●● ● ● ●● ● ● ●●● ●●● ●●●● ●●●●● ●● ●●● ●●●●● ● ●●●● ●●●●●● ● ● ●● ●● ● ●●●● ● ●●●●● ●●●●●●● ●● ●●●● ● ● ●● ● ●●●●●●●●● ● ●●●●●●●● ● ● ● ● ● ●● ● ●●●●●●●●● ● ● ●● ● ● 0.0000 ●● ●●●●●● ● ●●●●●●● ●● ● ●●●●●● ● ●●● ●●●●● ● ●●●●●●●●●●●●●●● ● ●●●●● ●●●●●●●●●● ● ●●●●●●●●●●●●●● ●●●●●●●●●●● ●●● ● ● ●●● ●● ● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●● ●●●●●●●●●●●●●● ●●●●●●●●●●● ●●●● ●● ●● ●●●●●● ● ● ●●●●● ●●●● ● ●● ●●● ● ●● ● ●●● ●●●● ● ● ● ●● ● 0 2000 4000 6000 8000 10000 人口 y.new
  • 131. 例:地域別発病率仮想データの解析 0.0030 p=0.002, ● ● ● 有意だ!大変だ! 発 ● 0.0020 病 ● ● z1.new ● ● 率 ● 0.0010 ● ● ● ●● ● ● ● ●● ●● ● ● ● ● ●● ●● ●● ● ●● ● ●● ●● ● ●● ● ●● ● ●● ● ●● ● ● ● ●● ●● ● ●● ●● ● ●● ● ●● ●● ●● ●●● ●● ●● ●● ● ●● ●● ● ●● ● ●● ● ● ●●●●●● ● ● ●● ● ● ● ● ●● ●● ● ●● ● ● ●● ● ● ●● ● ● ●●● ●●● ●●●● ●●●●● ●● ●●● ●●●●● ● ●●●● ●●●●●● ● ● ●● ●● ● ●●●● ● ●●●●● ●●●●●●● ●● ●●●● ● ● ●● ● ●●●●●●●●● ● ●●●●●●●● ● ● ● ● ● ●● ● ●●●●●●●●● ● ● ●● ● ● 0.0000 ●● ●●●●●● ● ●●●●●●● ●● ● ●●●●●● ● ●●● ●●●●● ● ●●●●●●●●●●●●●●● ● ●●●●● ●●●●●●●●●● ● ●●●●●●●●●●●●●● ●●●●●●●●●●● ●●● ● ● ●●● ●● ● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●● ●●●●●●●●●●●●●● ●●●●●●●●●●● ●●●● ●● ●● ●●●●●● ● ● ●●●●● ●●●● ● ●● ●●● ● ●● ● ●●● ●●●● ● ● ● ●● ● 0 2000 4000 6000 8000 10000 人口 y.new
  • 132. 例:地域別発病率仮想データの解析 0.0030 ● ● ● バイアスを避けたい! 発 ● 0.0020 病 疾病地図における ● ● z1.new ● ● 小地域問題 率 ● 0.0010 ● ● ● ●● ● ● ● ●● ●● ● ● ● ● ●● ●● ●● ● ●● ● ●● ●● ● ●● ● ●● ● ●● ● ●● ● ● ● ●● ●● ● ●● ●● ● ●● ● ●● ●● ●● ●●● ●● ●● ●● ● ●● ●● ● ●● ● ●● ● ● ●●●●●● ● ● ●● ● ● ● ● ●● ●● ● ●● ● ● ●● ● ● ●● ● ● ●●● ●●● ●●●● ●●●●● ●● ●●● ●●●●● ● ●●●● ●●●●●● ● ● ●● ●● ● ●●●● ● ●●●●● ●●●●●●● ●● ●●●● ● ● ●● ● ●●●●●●●●● ● ●●●●●●●● ● ● ● ● ● ●● ● ●●●●●●●●● ● ● ●● ● ● 0.0000 ●● ●●●●●● ● ●●●●●●● ●● ● ●●●●●● ● ●●● ●●●●● ● ●●●●●●●●●●●●●●● ● ●●●●● ●●●●●●●●●● ● ●●●●●●●●●●●●●● ●●●●●●●●●●● ●●● ● ● ●●● ●● ● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●● ●●●●●●●●●●●●●● ●●●●●●●●●●● ●●●● ●● ●● ●●●●●● ● ● ●●●●● ●●●● ● ●● ●●● ● ●● ● ●●● ●●●● ● ● ● ●● ● 0 2000 4000 6000 8000 10000 人口 y.new
  • 133. 経験ベイズ法を使ってみよう 地域ごとの発病率 θは連続的 に分布すると仮定 地域ごとの データそのもの 頻度 から最尤推定 発病率 θ 事前分布 として利用
  • 134. 経験ベイズ法を使ってみよう 地域ごとの発病率 θは連続的 に分布すると仮定 250 2000地点の 200 データそのもの 150 y.temp から最尤推定 頻度 100 50 0 0.000 0.005 0.010 0.015 0.020 0.025 0.030 Gamma(0.1,1115) x 発病率 θ
  • 135. 事前分布を使って解析してみる 事前分布 Gamma(0.1,11 事後分布 15) 250 頻 400 200 地点ごと +のデータ 300 150 度 y.temp y.temp 200 100 100 50 0 0 0.000 0.005 0.010 0.015 0.020 0.025 0.030 0.000 0.005 0.010 0.015 0.020 0.025 0.030 x x 発病率 θ ベイズの定理