%matplotlib inline import matplotlib.pyplot as plt import matplotlib.cm as cm import numpy as np import seaborn as sns import numpy.random as rd m = 10 s = 3 min_x = m-4*s max_x = m+4*s x = np.linspace(min_x, max_x, 201) y = (1/np.sqrt(2*np.pi*s**2))*np.exp(-0.5*(x-m)**2/s**2) plt.figure(figsize=(8,5)) plt.xlim(min_x, max_x) plt.ylim(0,max(y)*1.1) plt.plot(x,y) plt.show() この図は、平均$\mu$、標準偏差$\sigma$
P値は帰無仮説検定の基本として広く利用されており、統計学的妥当性を見るための「至適基準」と言われてきました。しかし、P値の利用と、<0.05という棄却域(P値が0.05未満の場合、帰無仮説を支持しない強力な証拠と考える)に対して批判的な専門家も多く存在します。値の操作が容易で、脆弱なデータを支持するために利用されているというのがその理由です。P値に否定的な研究者は、P値は「当てにならない」、すなわち再現性が高くないという事実も指摘しています。 議論の余地はあるものの、P値は数多くの研究に利用されてきました。P値の利用に伴う諸問題を考慮した社会心理学系のジャーナル、Basic and Applied Social Psychology(BASP)は、帰無仮説有意性検定およびそれに類する統計学的処理を禁止すると発表しました。この新方針について、同誌編集者のデイビッド・トラフィモー(David
どもっす。林岳彦です。ファミコンソフトの中で一番好きなのは『ソロモンの鍵』です*1。 さて。 今回は、因果関係と相関関係について書いていきたいと思います。「因果関係と相関関係は違う」というのはみなさまご存知かと思われますが、そこをまともに論じていくとけっこう入り組んだ議論となります。 「そもそも因果とは」とか「因果は不可知なのか」のような点について論じるとヒュームから分析哲学(様相論理)へと語る流れ(ここのスライド前半参照)になりますし、統計学的に因果をフォーマルに扱おうとするとRubinの潜在反応モデルやPearlのdo演算子やバックドア基準(ここのスライド後半参照)の説明が必要になってきます。 その辺りのガッツリした説明も徐々に書いていきたいとは考えておりますが(予告)、まあ、その辺りをいちどきに説明しようというのは正直なかなか大変です。 なので今回は、あまり細かくて遭難しそうな話には
安保関連法案に反対のデモ。プラカードを掲げ廃案を訴える人たち=東京・国会前で2015年9月16日、徳野仁子撮影 産経新聞とFNNの合同世論調査にもの申したい 安全保障関連法案の参院採決が迫る中、9月12、13日に実施した調査で「安保法案に反対する集会やデモに参加したことがあるか」と質問し、3.4%が「ある」、96.6%が「ない」と答えたという。これを受けて産経新聞は15日の朝刊で「参加した経験がある人は3.4%にとどまった」と書いた。 安倍政権の応援団として、全国に広がる安保法案反対デモが気に入らないのはよく分かる。「毎日新聞や朝日新聞はデモを大きく扱っているが、デモに参加しているのはたった3.4%にすぎない」と言いたいのだろう。
■どんな場合に使えないのか 統計は今、何度目かのブームにある。「最強」と謳(うた)う本が30万部も売れ、一般の人向けのセミナーも好評のようだ。私も大学では1・2年生向けの統計を担当しているが、4、5年前から学生の数が急増して、教室と教員の手当てに毎年汗をかく。 「統計」の2文字には神秘的な魔力があるらしい。よく知らない人も、いやむしろ知らない人ほど変に持ち上げたりする。 ■ブームの切実さ しかし、今回のブームはもっと切実な中身があるようだ。今の私たちは、良い意味でも悪い意味でも、リスクとつきあって生きていかざるをえない。この数年で、そのことを痛いくらい経験させられた。 金融や市場の開拓だけでない。例えば「原発は絶対安全だ」と信じようとしたり、「減災よりも防災、防災よりも地震予知」と、リスクをリスクとして見ないようにしてきた。それがかえって大きな被害をうむことがある、と気づかされたのだ。そう
豊田秀樹『金鉱を掘り当てる統計学 データマイニング入門』という本から。示唆的なので、長めに引用。「1.1 統計学の憂鬱」より。※小見出しのゴシックはstrongタグで表現。ルビ、注は省略 検定論の憂鬱 統計的検定論の理論的枠組は,アメリカで活躍した数理統計学者のワルドやレーマンの独創的な業績によって,1950年代に完成してしまっている。極論するならば,それ以後は,その理論の精緻化,および具体的な検定法の開発が続いているだけの状態ともいえる。 ただし,検定法の理論研究の枠組みは,優秀な先人達が練りに練り上げたものなので,一朝一夕に参加できる研究課題ではなくなっていた。理論体系が洗練されたことによって,研究に参加するためには,長期にわたる数理統計学的な「修業」を必要とし,皮肉なことに,そのことが検定を作る側と使う側の明確な分離を生じさせ,実質科学的な要請が検定論に反映されにくい下地を作ってしま
バレ、日本新記録まであと3本 “聖域”本当の価値は? 野球解析家・道作氏 夕刊フジ 9月10日(火)16時56分配信 ヤクルトのウラディミール・バレンティン外野手(29)が8日の中日戦(ナゴヤドーム)で53号ソロを放ち、日本新記録のシーズン56本塁打へあと3本と迫った。ボールの飛び方も球場の広さも球団や年代ごとにバラバラのプロ野球において、新記録にはどれほどの価値があるのか。 王貞治(巨人)が1964年に放った55本は、それを上回る日本人選手が出ない状況が長く続いたことで、“聖域”の色合いを強めてきた。 だが野球解析家の道作氏は「野球の数字は常に相対的なもの。難易度の観点から比較すれば、王も64年の55本より、66年の48本のほうが価値がある。最も価値が高いのは2011年の西武・中村剛也の48本です」と世間の認識を根底から覆す。 道作氏が算定に用いたのは統計学の「二項分布」。別表は各
東北楽天の絶対的エース田中将大。 開幕から勝ち続けること実に15連勝の日本記録(タイ)を達成し、チームの首位に大きく貢献しています。名実ともに、現在の日本でナンバーワンピッチャーと言えるでしょう。今年の田中を見ていると、どのチームのファンも、「田中のような絶対的なエースが欲しい」と思うことでしょう。なにせ、チームの18勝の勝ち越しのうち、15勝は田中なのですからね(2013/8/8現在)。 これほど絶対的な存在となると、球場へ訪れるお客さんの観戦行動にも影響を及ぼすと考えられます。例えば、「どうせ観戦に行くなら応援するチームが勝つ試合に行きたいから、田中の投げる試合を見に行こう」と楽天ファンなら考えるのではないでしょうか?となると、なるべく田中の投げる試合を好んで、球場に足を運ぶようになり、田中の登板試合は多くの観客が入ると予想されます。 今回は、楽天がKスタ宮城で主催する試合で、どのよう
はじめに 最近超人気の漫画として私のTwitter TLを賑わす作品、その名も「進撃の巨人」。 これだけ人気なんだからきっと面白いに違いないのですが、 なんか絵が怖そうだし、人がバンバン死んでてグロいっぽいという噂を聞くので、 なんとか漫画を読まずに、それでいて進撃の巨人のキャラについては知りたい、 そう願う潜在的進撃の巨人ファンも全国に70万人くらいいらっしゃると思います。 そこで、データから進撃の巨人にどんなキャラが登場するか推測してみましょう。 扱うデータとして、pixivのタグ情報を利用します。 商品レビューコメントなどとは違い、ファンの創作活動がダイレクトに反映されるサービスなので、 そこに付与されるタグ情報は、ファンの熱(過ぎる)いメッセージが込められているに違いありません。 今回、以下のような縛りを入れています。 1.勿論原作は見ない 2.pixivのタグ情報は参照するけど、
社会学研究者やその近接分野の研究者から、いわゆる「マルチレベル分析」についてよく似た質問をよく受けるようになったので、簡単な見解を示しておくことにする。 心理学や社会学でマルチレベル分析と呼ばれている分析方法は、基本的には変量/混合効果モデルを使った分析のことを指している。この分析モデルの使い道には、以下のようなものがある。 変量効果の推定 観察値がクラスターごとにまとまっているときの誤差の調整 分散成分の推定を通じた要因の探索 1(変量=個体効果の推定)は社会科学ではほとんど用いられない。その理由はすでに別のところ(説明と選抜:統計学における2つの「関心」)に書いた。反復テストや信頼性の検定など、測定に関するさまざまな研究の蓄積はもちろんがあるが、個体効果の推定それ自体を最終的な目的とすることは社会科学ではあまりないだろう。 2(誤差の補正)については説明を省くが、OLS回帰分析における
メモがてら、これまで読んで解りやすかったり明瞭だと思った統計関連の本をご紹介します。精読はしていないけれどこれは良さそうだ、と思ったのも入れます。適当に分類して、カテゴリーごとに。 私自身も勉強中なので、これいいよ、というのがあれば教えてもらえれば幸い。 ※本の画像→説明文 という配置にしてあります ※上下巻ある場合には上巻のみリンクします 準備 少なくとも、中学生で習うくらいの数学は解っていないといかんともしがたいと思います。で、統計を勉強してみたい、でも数学は中学で挫折した、という私みたいな人間も多いだろうな、と。 方程式のはなし―式をたて解くテクニック 作者: 大村平出版社/メーカー: 日科技連出版社発売日: 1977/09メディア: 単行本購入: 7人 クリック: 281回この商品を含むブログを見る関数のはなし〈上〉 作者: 大村平出版社/メーカー: 日科技連出版社発売日: 201
前回の記事では多重検定がキーワードとなりましたが、良い機会なので、今回は例を交えながら多重検定がもつ問題のインパクトについて説明したいと思います。 (*「多重検定って何?」という方はこちら) 結論を先に書くと、多重性を調整しない多重比較がなぜ忌むべきものかというと、それはそのような多重比較を悪用すると「いとも簡単に無から有(意差)を生むことができる」からです。 では、そのことを「マウスへ化学物質を投与して影響を調べる」という仮想実験を例に見てみましょう。 仮想実験:マウスへ5種類の化学物質を投与する 仮想例として、5つの化学物質(物質A, B, C, D, E)をマウスに投与してその影響を調べる実験を考えてみます。 影響のエンドポイントとしては5つの器官(肝臓・腎臓・脳・肺・皮膚)の各細胞における量的なバイオマーカーの変化を用います。 それぞれの「エンドポイント・化学物質」ごとのサンプルサ
国連欧州経済委員会「データを有意義なものとするために」とは? 国連欧州経済委員会(United Nations Economic Commission for Europe:以下「UNECE」)では、統計組織の管理者や広報担当者が、文章、統計表、グラフ、地図等を使って一般の人々に統計を分かりやすく伝えることをサポートするため、「データを有意義なものとするために」(Making Data Meaningful)と題するガイドブックを刊行しています。 上記ガイドブックは主として国の統計組織を念頭に置いた内容となっていますが、統計を一般の人々に分かりやすく伝えたいと考えている組織や担当者の方々であれば、地方公共団体、民間企業、NPOなどの如何を問わず参考になる部分が多いと考えられるため、総務省統計局では、今般、UNECE事務局から承認を得て、その仮訳を作成し、ホームページに掲載することとしました
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く