タグ

Qiitaと統計に関するclavierのブックマーク (7)

  • 【機械学習】AUCとGini係数の関係を理解する【評価指標】 - Qiita

    はじめに 二値分類の評価指標について 「AUCとGini係数ってどんな関係だっけ?」 と毎回忘れては調べているので、いい加減覚える意味で体系的にまとめてみる。 この記事では AUCとは何か? Gini係数とは何か 両者はどんな関係があるか? を理解することを目的とする。 最初に結論 AUCとGini係数の間には の関係がある。 AUCは0.5から1の範囲を取るため、Gini係数は0から1までの範囲を取る。 どちらも値が大きいほど分類性能が良いことを表す。 最終的にこの式を理解することを目的としよう。 AUCを理解しよう AUC (Area Under the Curve)は二値分類における有名な評価指標の一つであり、文字通り、「ROC曲線下の面積」を表す。 ROC曲線とは? ROC (Receiver Operating Charastaristic Curve)は受信者操作特性と呼ばれる

    【機械学習】AUCとGini係数の関係を理解する【評価指標】 - Qiita
  • ヤバいデータ分析(書籍・記事であまり扱われてないが重要なこと) - Qiita

    大学ではないが、東京大学エクステンション・データサイエンススクール・技術実務者コースでは 前提知識 高校までの理系数学と大学1・2年生の数学の一部(偏微分、積分、行列) 数学科目 統計学、最適化 ざっとレベル感をまとめますと 高校までの計算主体の数学 計算力があればなんとかなる 理工系大学教養レベルの定義・定理で入ってくる数学 抽象度は上がるがまだ図が描ける 理工系大学専門レベル抽象度の上がった数学 位相とかはイメージしずらい、高次元・無限次元とかはもう図もイメージもできない 数学科 超絶 薄い記事では、これらのうちどこを言っているのかとイメージしていない人が言っているのでしょうが、アカデミアの方やエンジニアでもR&Dで新たなアルゴリズムを開発担当とかでなければ、大体下記をイメージすれば良いのではないかとのところが自論 高校までの数学はほぼ必須 理工系大学教養レベルの数学はできるだけマスタ

    ヤバいデータ分析(書籍・記事であまり扱われてないが重要なこと) - Qiita
  • PythonでTableau風 BIツールによる視覚的データ探索をやってみよう 〜PyGWalker〜 - Qiita

    更新情報 -目次- はやくもUI改善等 Ver.upが図られています。以下内容の記事を追加しました。 1. データフレーム表示 2. ヒストグラムの描き方 3. ダークモード対応 4. オンライン版 5. 海外のデータイノベーション支援団体でも人気 はじめに Tableauはご存じでしょうか? 私は使ったことはありませんが、名前だけはよく耳にします。 これは、専門家でなくてもデータの収集・分析・加工ができるBI(ビジネス・インテリジェンス)ツールのひとつです。 なんと、Jupyter Notebook上(Google ColabもOK)で実行できる Tableau風 BIツール「PyGWalker」が登場しました。 Tableauそのものではありませんが、ドラッグ&ドロップの簡単な操作でデータ分析や視覚的な探索が実行できます。 こんなのが出てくるとは・・・すごい。 しかも、数行のコードで実

    PythonでTableau風 BIツールによる視覚的データ探索をやってみよう 〜PyGWalker〜 - Qiita
  • なぜデータをグラフにするのか? ~ BI の重要な要素 ~ - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに BI では必要なデータをよしなに整形し、モデリングが終わったら、ビジュアライズしていく。これはどんなツールでも同じで、ツールによって、それらの作業をオールインワンでできるものと一部を他のツールに任せるものがある程度の違いしかない。 Excel ユーザーがよく言うことだが、 「Excel と BI の違いは何ですか?」 「Power BI と Excel の違いを教えてください。」 とてもよく聞かれる。そんなとき、最初にこう答える。 俺氏「まず、名称が違いますよね」 だいたいみんな、きょとんとする。 これは別にウケを狙っているわ

    なぜデータをグラフにするのか? ~ BI の重要な要素 ~ - Qiita
  • 統計学・機械学習を自分なりに概観してみた - Qiita

    *この記事は統計学や機械学習を専門としていない学生が書いた主観的なまとめ記事です。間違いが含まれている可能性があります。 統計学・機械学習を学んでいると、たくさんの手法や考えが出てきてよくわからなくなります。 特に自分が何かに取り組んでいるときには、今やっている手法が全体から見てどういうものなのか、より良い手法が無いのかが気になってしまいます。 まるで地図を持たず森の中を彷徨っているような感覚です。 そこで、統計学・機械学習で使われる概念や手法を自分なりにまとめて頭を整理したいと思います。 以下のような図になりました。 以下にそれぞれを説明します。 数理科学 統計学・機械学習のベースとなる学問です。 主に解析学、代数学、幾何学からなります。 微分積分学と線形代数学が基になってるのは言うまでもないと思います。 その他に個人的に関わりが深いと思う分野を3つ挙げます。 確率論 大数の法則(中心

    統計学・機械学習を自分なりに概観してみた - Qiita
  • 比較的少なめのデータで機械学習する時は交差検証 (Cross Validation) をするのです - Qiita

    口上 『ゼロから作る Deep Learning ~ Python で学ぶディープラーニングの理論と実装』というを買って深層学習の勉強をマターリしているのですが、 「そういえば情報検索や自然言語処理の実験でもよくやる交差検証 Cross Validation って意外に気にしてる人いないかも?」 と思ったので、自分でまとめることにしました。 もちろん、今までにも優秀な人達が記事を書いてくださっていますし(しかもググるとイパーイ出てくる)「もう知っているよ!」「やってるし!」っていう方は全く読む必要がないので、華麗にスルーして 1 回でも多く自分の学習のための Epoch を回した方がいいと思うのですが、もしお時間があって「よし粗探しでもしてやるか!」と思った奇特な方がいらっしゃったならばお読みいただいて、妙なところがあれば是非ご指摘・ご指導ください。 m(__)m 誰のための記事か? 「

    比較的少なめのデータで機械学習する時は交差検証 (Cross Validation) をするのです - Qiita
  • 「統計」と「機械学習」の違いの整理で多くの事業会社で「機械学習」が使えない理由が視えてきた! - Qiita

    統計と機械学習って結局何が違うの?なんで今日から機械学習で予測して金儲けできないの? 機械学習を勉強し始めるとおそらく誰もが疑問に思う。そして、なんで事業会社の多くが日々の業務で今日から使えないの?っていう疑問も出てくる。いろいろな文献があるがいまいち理解に困ったので自分なりに整理しなおした資料。情報を組み合わせてかなり自論を入れています。 This article explains why many companies cannot use machine learning approaches to drive business starting today... まずは統計と機械学習の考え方や向き不向きの違いを表にまとめてみた 多くの人が言及しているが互いに関連しているとはいえ、最終目的が異なる。「機械学習」は予測や判断は行うもののなぜそうなったのかは一般的にはブラックボックスだ。「

    「統計」と「機械学習」の違いの整理で多くの事業会社で「機械学習」が使えない理由が視えてきた! - Qiita
  • 1