タグ

統計に関するhazisarashiのブックマーク (9)

  • エンジニアのためのデータ可視化実践入門という本を書いた - あんちべ!

    2014/10/14 追記 書87ページに「母数」という単語が複数回出てきますが、 これは全て「分母」とすべきでした。*1 通常、統計学の文脈では、母数は各確率分布を特徴付ける変数を指す単語であり、 例えば正規分布は平均と分散という二つの母数によって形状が決定されます。 決して母数と分母(あるいは全数)と誤解してはなりません。 しかし母数と分母を混同することは当によくあることで、 書はこのような頻出する誤解を訂正し、 皆様が統計を用いる際の失敗を一つでも減らす という目的で執筆に至ったにも拘らず、 まさか書でこのような重大な失敗をしてしまったことに対し 心からお詫び申し上げ訂正させて頂きます。 なお、問題個所の記述は共著者の森藤氏ではなく 私が記述したものであり、全責任は私にあります。 を書くに当たり、誤字脱字や言い回しの不備は出来る限り無くすべきですが、 人間であるためミスをす

    エンジニアのためのデータ可視化実践入門という本を書いた - あんちべ!
  • 統計的消去で擬似相関を見抜こう!|ガジェット通信 GetNews

    今回はhoxo_mさんのブログ『ほくそ笑む』からご寄稿いただきました。 ※すべての画像が表示されない場合は、https://getnews.jp/archives/381597をごらんください。 今日は初心者向け記事です。 はじめに ある範囲の年齢の小学生32人を無作為に選び、算数のテストを受けてもらい、さらにその身長を測定しました。 身長に対する算数の点数のグラフは次のようになりました。 (画像が見られない方は下記URLからご覧ください) http://px1img.getnews.jp/img/archives/2013/07/24.jpg なんと、身長の高い子供の方が、算数の点数が高いという結果になりました! 身長が算数の能力に関係しているなんて、すごい発見です! しかしながら、結論から言うと、この結果は間違っています。 なぜなら、抽出したのは「ある範囲の年齢の小学生」であり、年齢の

    統計的消去で擬似相関を見抜こう!|ガジェット通信 GetNews
  • データ分析の重要性を理解するための入門書5冊 - UNIX的なアレ

    はじめに 今回紹介するは玄人向けではなく「データ分析が重要そうだけど、なんだかよくわかんないと思っている人」向けです。 昨今ではデータマイニングという単語がエンジニアやマーケティング担当者のものだけでなく、経営レイヤーでも重要視されてきています。 ビッグデータというバズワード的なものも頻繁に言われ始めて、めんどくさい上司とかはとにかく口にし出すような状況ではないでしょうか?(想像です) 勉強しないと!と思いはするものの、統計やらHadoopやらRやら、それにまつわるものが多すぎて何から手をつけていいのかわからないもの。 というわけで、私が最近読んだ中でも「何ができるものなのか」という浅く広いテーマについて触れているをいくつか紹介します。 統計学 統計学が最強の学問である 作者:西内 啓ダイヤモンド社Amazon cakesの連載をまとめたですが、統計学がどういった分野に使われているの

    データ分析の重要性を理解するための入門書5冊 - UNIX的なアレ
  • 小学生、パソコンの利用開始は「入学前から」が最多、8割強が利用……博報堂DYMP調べ | RBB TODAY

    博報堂DYメディアパートナーズのメディア環境研究所は25日、「小学生のメディア接触や生活実態に関する調査」の結果を公表した。1都3県(東京都、神奈川県、千葉県、埼玉県)の小学1~6年生の男女とその保護者が対象。サンプル数は600サンプル。 今回の調査で、小学生のパソコンや携帯電話の利用の低年齢化が一層進み、小学生の8割強がパソコンを利用し、約4割が携帯電話を所有していることが判明したという。 まず、パソコンの利用状況については、小学生の80.8%が、パソコンを利用していた。学年があがるにつれ利用率は高くなり、5~6年生男子・女子では、それぞれ、91.0%、92.0%がパソコンを利用している。また、5~6年生女子では、30.0%が毎日パソコンを利用していた。 「パソコンの開始時期」について尋ねたところ、「小学校入学前」からパソコンを利用しているケースがもっとも高く、31.3%だった。また小学

    小学生、パソコンの利用開始は「入学前から」が最多、8割強が利用……博報堂DYMP調べ | RBB TODAY
  • 女性を無視したマーケティングがどれだけ痛いかがわかるデータたち – TechDoll.

    どんどんパワーアップしていく女性たち。女性の収入はどんどん上がっているし、家庭でお財布の紐を握っているのも女性。そんな女性を理解するためのデータがTheNextWebにあったので紹介するよ。 米国では、購入判断の85%を女性が決めたり影響したりしてるそう。従来の男性商品に関しても、その50%以上を女性が購入している。その一方で、女性の91%が、マーケターや広告主は自分たちを理解していないと回答してる。 収益力 1. 平均的なアメリカ人女性の収入は2028年には男性を上回ると予測されている 2. 米国の私有財産の51%が女性によってコントロールされている 3. 米国の持ち株制度の50%以上が女性によって保持されている 4. 米国の個人資産の60%以上を女性がコントロールしている 女性の購入パワー 5. 自動車からヘルスケアまで、消費者購買の85%は女性によって行われている 6. ヘルスケア関

    女性を無視したマーケティングがどれだけ痛いかがわかるデータたち – TechDoll.
  • 統計学を勉強するときに知っておきたい7つのポイント

    マイクロソフト社が技術分野でもっと熱い専攻の一つとして分析/統計をあげている(Microsoft JobsBlog)。同社以外でも統計学は、今後最も有益なスキルの一つだと考えているようだ(NYT - For Today’s Graduate, Just One Word: Statistics)。しかし、データマイニングの話も一般化しつつあって学習ノウハウなども公開されているが、経験にあわない部分が多い。統計学を初めて勉強するときに知っておいた方が良い7つのポイントをあげてみた。 1. 学習機会やテキストは山のようにあるので利用する 確率・統計の日語テキストは山のようにあり、大学のコースワークを振り返っても、理文問わずにほとんどの学部で確率・統計はあったはずだ。大学院のコースワークでは英語の文献を好む傾向があるが、上級テキストでも日語のものも少なくない。また「マンガでわかる統計学」のよ

    統計学を勉強するときに知っておきたい7つのポイント
  • 世界の幸福度は低下傾向に...全世界のツイートから解析

    世界の幸福度は低下傾向に...全世界のツイートから解析2011.12.26 19:00 mayumine 「世界の幸福度は低下傾向にある」 バーモント大学の研究結果で明らかになりました。ソースは何かって? Twitterです。世界中のTwitterユーザーの言論が世界の幸福度を図る指標だそうです。 過去3年間の約460億ツイートから、Amazon Mechanical Turkのクラウドソーシングを利用してツイートの幸福度を解析し(毒は幸福ではない、ケーキは幸福、など)グラフ化、そして作成されたこのグラフ。全体的にだんだん不幸感が増しているように見えます。大きな落ち込みは無いけれどグラフは次第に右肩下がりに、豚インフルエンザの流行や日の津波災害、俳優パトリックスウェイジの死亡時などは明らかに落ちる傾向が見られます。 これが世界のTwitterユーザーによって作られた幸福度を表した図です。

  • 『急増する20代の就職失敗自殺・生活苦自殺・失業自殺-若者の死因トップが自殺なのは先進国で日本だけ』

    すくらむ国家公務員一般労働組合(国公一般)の仲間のブログ★国公一般は正規でも非正規でも、ひとりでも入れるユニオンです。 古市憲寿著『絶望の国の幸福な若者たち』(講談社)を読みました。古市氏のほかの著書への指摘ですが、紙屋研究所が言及しているように、このも「胸くそ悪いオブザイヤー」 です。「幸福」な日の若者たちの正体を示すものとして、古市氏はいくつかデータを紹介しているのですが、どれも問題の質を突いているものとは私には思えませんでした。 そんなことを考えていると、先日のエントリー「若年層を襲う過労自殺・就活自殺の多発、学生の就活自殺はこの1年で倍増-過労死防止基法の制定を」 で紹介した関西大学・森岡孝二教授のグラフを思い出しましたので、このグラフに関連して、いくつかのデータを紹介したいと思います。私はこうしたデータこそ、いまの若者の「生きづらさ」の質を突くものだと思っています。 上

    『急増する20代の就職失敗自殺・生活苦自殺・失業自殺-若者の死因トップが自殺なのは先進国で日本だけ』
  • データマイニングで使われるトップ10アルゴリズム - データサイエンティスト上がりのDX参謀・起業家

    2006年のデータマイニング学会、IEEE ICDMで選ばれた「データマイニングで使われるトップ10アルゴリズム」に沿って機械学習の手法を紹介します(この論文は@doryokujin君のポストで知りました、ありがとうございます!)。 必ずしも論文の内容には沿っておらず個人的な私見も入っていますので、詳細は原論文をご確認下さい。また、データマイニングの全体観をサーベイしたスライド資料がありますので、こちらも併せてご覧下さい。 データマイニングの基礎 View more presentations from Issei Kurahashi 1. C4.5 C4.5はCLSやID3といったアルゴリズムを改良してできたもので、決定木を使って分類器を作ります。決定木といえばCARTが良く使われますが、CARTとの違いは以下のとおりです。 CARTは2分岐しかできないがC4.5は3分岐以上もできる C

    データマイニングで使われるトップ10アルゴリズム - データサイエンティスト上がりのDX参謀・起業家
  • 1