タグ

統計に関するinnate8のブックマーク (24)

  • データサイエンティストというかデータ分析職に就くための最低限のスキル要件とは - 渋谷駅前で働くデータサイエンティストのブログ

    追記(2017年7月) こちらのスキル要件ですが、2017年版を新たに書きましたので是非そちらをご覧ください。 「データサイエンティストというかデータ分析職に就くためのスキル要件」という話題が某所であったんですが、僕にとって馴染みのあるTokyoR界隈で実際に企業のデータ分析職で活躍している人たちのスキルを眺めてみるに、 みどりぼん程度の統計学の知識 はじパタ程度の機械学習の知識 RかPythonでコードが組める SQLが書ける というのが全員の最大公約数=下限ラインかなぁと。そんなわけで、ちょろっと色々与太話を書いてみます。なお僕の周りの半径5mに限った真実かもしれませんので、皆さん自身がどこかのデータサイエンティスト()募集に応募して蹴られたとしても何の保証もいたしかねますので悪しからず。 統計学の知識は「みどりぼん以上」 データ解析のための統計モデリング入門――一般化線形モデル・階層

    データサイエンティストというかデータ分析職に就くための最低限のスキル要件とは - 渋谷駅前で働くデータサイエンティストのブログ
  • 愛媛・松山に移住して1年経ちました。

    執筆日時: 2015年2月15日18時00分 早いもので、東京を出て愛媛・松山に来て1年が経ちました。 当初、松山にきた目論見は―― 生活費安い + リモートワークで収入は確保できるアテがある 空港が近く(松山駅からバスで15分ほど)、LCC も飛んでいるので、東京に出ようと思えばいつでも出られる(7,000円ぐらい) 東京への一極集中はよくない。地方に住めるものは地方に住むべきという持論の実践 景観・史跡・温泉などが楽しめそう それでいて十分な規模があり生活に困らない。クルマがなくても生活できる街に住みたい ざっとこんな感じでした。ほんとは農業でも何でもよかったのですけど、まぁ、伝手もないし、とりあえず足がかりとしては地方中核都市がいいのかな、と。 事前の調査では、北陸や熊なども候補にしていたのですが、飛行機の便と、なにより移住に際し助けてくれた方々の存在が決定打でした(とくに J さ

    愛媛・松山に移住して1年経ちました。
  • マクドナルドの月次売上・客数・客単価を10年分まとめてみた

    ※ 全て2004年の月次を100とする ※ 既存店の定義は「少なくとも13ヶ月以上開店している店舗」 全店売上高1月2月3月4月5月6月7月8月9月10月11月12月2004年100.0100.0100.0100.0100.0100.0100.0100.0100.0100.0100.0100.02005年112.497.5111.4103.696.3100.1104.1101.099.1104.4108.9108.62006年111.4102.5114.7109.9106.9113.6114.9113.2112.9109.2115.2112.72007年122.6116.8126.4129.4119.6130.7125.0128.5128.6115.4127.9126.32008年126.7123.8134.4129.9124.2137.7126.4134.8130.2124.2148.4

    マクドナルドの月次売上・客数・客単価を10年分まとめてみた
  • 非公開サイト

    サイトの構築。作品の販売。ブログの投稿。この他にもさまざまな機能があります。 ログイン サイトをはじめよう 非公開サイト このサイトは現在プライベート設定になっています。

    非公開サイト
  • 世界の経済的不平等について知っておくべき10のこと - himaginary’s diary

    をKathleen Geierというシカゴ在住のライターが自ブログで挙げている(H/T Economist's View)。 世界経済の不平等を計測するのは非常に困難 各国が実施する国別の調査はあるが、世界規模の統一的な所得に関する家計調査は存在しない。 国別調査は質や質問や手法が標準化されていない。さらに以下の問題がある: 何が所得かという問題。例: 自作農の所得をどう記録するか 医療保険(ある国では無料の皆保険、ある国では被雇用者の民間給付パッケージ)を所得として扱うかどうか 人々は得てして所得を正確に記憶していない。 所得形態が定期的に支払われる賃金でなければ無理からぬこと 富裕層貧困層も正しい値が得られない傾向がある。 多くの調査では開示所得に上限制約を掛けるため(topcoding*1)、富裕層の所得を過小評価する 異なる国の家計調査をつき合わせる際の通貨換算の問題。 経済的不

    世界の経済的不平等について知っておくべき10のこと - himaginary’s diary
  • 面白いデータは転がりまくってるけど転がってるままなので誰か助けてくれろ - あんちべ!

    転職して丁度2年がたちました。 現在はWebベンチャーで統計屋しています。大変楽しい毎日です。 なぜ楽しいかというと勿論リスプを書いているからというのも大きなる理由の一つです*1。 このエントリでは何が楽しいのか近況交えてつらつらまとまりなく書いてます。 あと現職の解決しがたい不満についても書いています。 糞長くなってしまったので要約すると 「今糞面白いけど超えられない壁あるので誰か助けて」 です。 現職面白い理由5個。 1.データが面白い*2 私は経済学科・数理統計の研究室出身で、応用先としてコミュニケーション活性化を目的とした 行動経済学やテキストマイニングをやっていました。 そういう背景があるため、学生時代いつか壮大な社会実験をやりたいと思ってたけど、 それには大変なお金がかかったり大がかりなシステムを構築しないといけなかったりで断念した。 ですが今はSNSやソーシャルゲームや広告の

    面白いデータは転がりまくってるけど転がってるままなので誰か助けてくれろ - あんちべ!
  • 日本心理学会で個人的に興味を引いた研究発表10 - コリログ

    2013-09-29 日心理学会で個人的に興味を引いた研究発表10 小咄 日心理学会の第77回大会が北海道で先日行われました。 それの抄録がラボに置いてあったので退屈しのぎに読んでみると非常におもしろい事を調べて研究している人がいるもんだと少し感動しました。そこで、世の心理研究者はこんな面白い心理学を研究しているということをご紹介させて頂きます。 転生願望法における大学生の対人関係特性 あなたはトリ、犬、ネコ何に生まれ変わりたいですか?という質問に対する大学生の返答を統計処理した結果はネコが一番人気でした。ちなみにネコは自己中心性を表します。最近の大学生は自己中心的な人が増えているのかと言うことが伺われる研究。 青コリのコメント 僕は犬になりたいです。 死別経験と人格発達 動物の死などの死別経験は「つながりを大切にする。」「考え方が柔軟になった」などの人格発達に重要な役割を果たす。また

  • コラム別に読む : 統計学を知る 佐藤俊樹さんが選ぶ本 - 佐藤俊樹(東京大教授・社会学) | BOOK.asahi.com:朝日新聞社の書評サイト

    ■どんな場合に使えないのか 統計は今、何度目かのブームにある。「最強」と謳(うた)うが30万部も売れ、一般の人向けのセミナーも好評のようだ。私も大学では1・2年生向けの統計を担当しているが、4、5年前から学生の数が急増して、教室と教員の手当てに毎年汗をかく。 「統計」の2文字には神秘的な魔力があるらしい。よく知らない人も、いやむしろ知らない人ほど変に持ち上げたりする。 ■ブームの切実さ しかし、今回のブームはもっと切実な中身があるようだ。今の私たちは、良い意味でも悪い意味でも、リスクとつきあって生きていかざるをえない。この数年で、そのことを痛いくらい経験させられた。 金融や市場の開拓だけでない。例えば「原発は絶対安全だ」と信じようとしたり、「減災よりも防災、防災よりも地震予知」と、リスクをリスクとして見ないようにしてきた。それがかえって大きな被害をうむことがある、と気づかされたのだ。そう

    コラム別に読む : 統計学を知る 佐藤俊樹さんが選ぶ本 - 佐藤俊樹(東京大教授・社会学) | BOOK.asahi.com:朝日新聞社の書評サイト
  • 「使い分け」ではなく「妥当かどうか」が大事:重回帰分析&一般化線形モデル選択まわりの再まとめ - 六本木で働くデータサイエンティストのブログ

    先日の記事はおかげさまで好評をいただいたんですが、勉強中の身で教科書を確認せずに書いたこともあり多数ツッコミをいただきました。ツッコミをいただけるというのはもちろん大変良い勉強の機会になるということで*1、今回もひとしきり勉強してみました。 ということで、自戒も込めて備忘録的に勉強したことをまとめておこうと思います。今回はあまり広く読んでもらう内容ではないので、不親切かもしれませんがごめんなさい。ただし、あまりにも理論的側面ばかり色々書いても何なので、インターネット広告業界の言葉で喩えて言うなら「クリック数*2をモデリングしたい場合」と「コンバージョン数*3をモデリングしたい場合」とに分けた、と理解してもらえたら良いかなと思ってます。 今回も参考文献は久保です。一般化線形モデルまわりではこのより分かりやすいは依然としてないと思います。 データ解析のための統計モデリング入門――一般化線

    「使い分け」ではなく「妥当かどうか」が大事:重回帰分析&一般化線形モデル選択まわりの再まとめ - 六本木で働くデータサイエンティストのブログ
  • 都道府県別の大学進学率

    現在では同世代の2人に1人が大学に進学しますが,大学進学率は,この2年間続けて下がっている模様です。2011年春が51.0%,2012年が50.8%,そして2013年が49.9%なり。 これは浪人込みの進学率ですが,浪人込みの率なんて出せるのか,という疑問もあるかと思いますので,当局の計算方法を説明いたしましょう。 大学進学率とは,同世代のうちどれほどが大学に進学したかという指標です。ベースは高卒者ではありません。文科省の『学校基調査』からこの値を計算する場合,当該年に大学に入った者の数を,推定18歳人口(3年前の中学校・中等教育学校前期課程卒業者)で除すことになります。 http://www.mext.go.jp/b_menu/toukei/chousa01/kihon/1267995.htm 分子の大学入学者数には,より上の世代(いわゆる浪人生)も含まれますが,当該年の18歳人口から

    都道府県別の大学進学率
  • 日本人気サイトランキング

    Get started with the free Alexa App. Try saying, " Alexa, help me get started. "

  • DQN、大企業と出会う。 - 漂流する身体。

    アイスケースに入って写真投稿して炎上的なDQNのニュースが続いた。知る限り、ローソン→ミニストップ→バーガーキング→ほっともっと→ミニストップ→ブロンコビリー→丸源ラーメンという、ぷよぷよなら連鎖で一発勝利している位の華麗なる血脈である。これに関して、ネットから可視化されにくい低学歴の世界が拡がってるとか、その世界を社会とを切り離さないでとかの関連エントリを読んでたけど、その中で一番心に残ったフレーズが、これ。 同じ場所でけっこうな期間にわたって店をかまえていて、彼らが高校生のころから見てたりもするんだけど、昔だったら、男は肉体労働、女は水商売っていう上がりのかたちがあったはずなんだけど、受け皿のほうが少ないせいか「どうやって生活してんだろこいつら」と思うようなのが増えてる。 ■出典:「うちら」の世界/24時間残念営業 実感としてはそうなのだろう。でも、データで見ると、若年失業率は横ばい、

    DQN、大企業と出会う。 - 漂流する身体。
  • 【保存版】企画書に使いたい統計データが見つかる、調査レポートサイト厳選9個+α | Find Job ! Startup

    企画書には、市場規模・ユーザーニーズの裏付け等を説明するために調査データは入れたいところ。 ただ、資料作成で焦っている時ほど、検索しても良い情報が見つかりませんよね。そんな時は、今回ご紹介するサイトの中を覗いてみて下さい。スタートアップが投資家の方など社外向けに資料を作る時に、必ずや役に立つデータが見つかるはずです。 目次 【1】政府機関でデータを公開しているサイト(×2サイト) 【2】リサーチ会社の公開調査を横断的に探せるサイト(×3サイト) 【3】公開調査を見れる調査機関のサイト(×4サイト) 【4】自主調査の結果を公開しているリサーチ会社のサイト(+α) 【1】政府機関でデータを公開しているサイト 1.総務省統計局 総務省統計局のサイトでは、「国勢調査」「人口推計」から、「家計消費状況調査」「サービス産業動向調査」など様々な国内統計データが無料で閲覧できます。統計データ一覧はこち

  • いつのまにか、ぼくの本の電子書籍が出たようです - hiroyukikojima’s blog

    ダイヤモンド社の担当編集者から、拙著『完全独習 統計学入門』ダイヤモンド社の電子書籍版が刊行された、という連絡を受けたので、せっかくだから当ブログで宣伝しておこうと思う。キンドル版へのリンクは以下。 完全独習 統計学入門 作者: 小島寛之出版社/メーカー: ダイヤモンド社発売日: 2013/06/17メディア: Kindle版この商品を含むブログ (2件) を見る楽天だと 楽天Kobo電子書籍ストア: 漫画小説がアプリで今すぐ読める! hontoだと、 完全独習 統計学入門の電子書籍 - honto電子書籍ストア このは、今年だけで(まだ6月なのに)すでに3回も増刷がかかった。ダイヤモンド社の西内啓『統計学が最強の学問である』が爆発的に売れていて、そのおこぼれにあずかっているのだと思う。実際、『最強』書評を日経から頼まれて、「今を読み解く」というコーナーで統計学について書いた。この

    いつのまにか、ぼくの本の電子書籍が出たようです - hiroyukikojima’s blog
  • 統計の基本事項

    トップページ→研究分野と周辺→システムの評価→ 基統計量 平均(算術平均)値は、(データ値の総和)÷(データ数)となる。(或るデータの値)-(平均値)を、そのデータの偏差という。偏差の絶対値の大きいデータが多ければ、そのデータ群はばらつきが大きい。データ群のばらつきの大きさを単純に偏差の総和とすると、偏差には正負があるので相殺されてしまう。 そこで、各データの偏差を二乗する(こうすれば必ず正の値になる)。(各データの偏差の二乗の総和)÷(データ数)をそのデータ群の分散と呼び、ばらつきの大きさを表す。また、分散の平方根を標準偏差という。英語では偏差はDeviation、分散はVariance、標準偏差はStandard Deviationとなるので、標準偏差はS.D.と略記される事も多い。 統計の最も基的な量である基統計量としては、他に最大値、最小値、範囲(最大値-最小値)、中央値(デ

  • 統計くん - 国勢調査を簡単にCSV化できる無料Webサービス

    統計情報を簡単にCSV化できる無料Webサービス統計くんは国勢調査を簡単にCSV化できるWebサービスです。 このサービスは、次世代統計利用システムのAPI機能を使用しています。 サービスの内容は総務省統計局又は独立行政法人統計センターによって保証されたものではありません。 運営&開発 satoru.net - お問い合わせ

    innate8
    innate8 2013/06/13
    SQLの勉強に使えそう
  • Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くデータサイエンティストのブログ

    追記 2016年3月に以下の記事によってこの内容はupdateされています。今後はそちらをお読み下さい。 主に自分向けのまとめという意味合いが強いんですが(笑)、僕が実際に2013年6月現在webデータ分析&データサイエンスの実務でツール・ライブラリ・パッケージを利用しているものに限って、統計学・機械学習系の分析手法を10個挙げて紹介してみようと思います。 追記 回帰分析(特に線形重回帰分析) 独立性の検定(カイ二乗検定・フィッシャーの正確確率検定) 主成分分析(PCA) / 因子分析 クラスタリング 決定木 / 回帰木 サポートベクターマシン(SVM) ロジスティック回帰 ランダムフォレスト アソシエーション分析(バスケット分析・相関ルール抽出) 計量時系列分析 おわりに おまけ1:「素性ベクトル+分類ラベル」なるデータ前処理 おまけ2:グラフ理論*10 {igraph}パッケージでグラ

    Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くデータサイエンティストのブログ
  • 無料で利用できるデータベース&レファレンスサービスまとめ

  • 統計力学が初めてわかった! - hiroyukikojima’s blog

    前回の楽しい統計物理 - hiroyukikojimaの日記に書いた、ぼくがモニターをした統計物理のが刊行されたので、満を持して紹介することにしよう。それは、加藤岳生『ゼロから学ぶ 統計力学』講談社というだ。 ゼロから学ぶ統計力学 (KS自然科学書ピ-ス) 作者: 加藤岳生出版社/メーカー: 講談社発売日: 2013/03/16メディア: 単行(ソフトカバー)この商品を含むブログ (1件) を見るこのは、いろいろな点で画期的だと思う。何より、とても良くわかるし、その上、読んでて面白い。とりあえず、章タイトルだけを紹介すると、 第1章 統計力学って何だ? 第2章 温度を定義しよう。 第3章 正準統計でお手軽計算。 第4章 自由エネルギーを使いこなそう。 第5章 グランドカノニカルでグランドフィナーレ というあんばいだ。 大学生で統計物理を勉強したときも、また、卒業後に数学ライターとし

    統計力学が初めてわかった! - hiroyukikojima’s blog
  • 今すぐ使える『明日からつかえるシンプル統計学』

    まちがえるな、統計学は道具だ。統計は学ぶものではなく、使うもの。 これはわたし自身への戒言。だから、使い方を誤らない程度に理解していればいいし、そのために教科書をイチから読み込む必要も、Rをマスターする必要もない。もちろん様々な武器(統計手法)が使えるに越したことはないが、次のような問題と向き合っているなら、書をオススメする。 あと500人お客を呼び込むためには、いくら広告費が必要か? カスタードケーキがチョコパイに勝つには、「味の改良」と「販促キャンペーン強化」のどちらが有効か? クラス全体の成績が低迷している。国語と数学の両方が苦手な生徒だけ補習したほうがいいのか、全員に国語の補習をしたほうがいいのか 前任者から引き継いだデータが大量にあるが、それぞれの関係や着眼点がまとめられてない。どこから手をつければいいか? 社内のKPI(Key Performance Indicator :

    今すぐ使える『明日からつかえるシンプル統計学』