タグ

機械学習に関するtt_w54sのブックマーク (50)

  • Netflix Update: Try This at Home

    [Followup to this] Ok, so here's where I tell all about how I (now we) got to be tied for third place on the netflix prize. And I don't mean a sordid tale of computing in the jungle, but rather the actual math and methods. So yes, after reading this post, you too should be able to rank in the top ten or so. Ur... yesterday's top ten anyway. My first disclaimer is that our last submission which tie

  • Coursera を利用した機械学習勉強会 - Hatena Developer Blog

    はてなアプリケーションエンジニアの id:takuya-a です。 はてなでは、 BrandSafe はてな や、はてなブックマーク のカテゴリ分類など、様々なところで機械学習を利用していますが、今月の初めより、 Coursera の機械学習のコースを参加者全員が修了する ことを目的とした勉強会を開催しています。 今回は、その機械学習勉強会についてご紹介します。 機械学習の学習をするうえでの課題 機械学習は、独力で勉強するのが難しい分野です。 教科書を一人で読み通すのは大変でしょうし、体系的な知識を得るのはさらに困難です。 各地で機械学習の輪読会が開かれているようですが、 発表の準備が大変 参加者に詳しい人がいないと、わからないまま終わってしまう箇所がある 参加者の理解度を測るのが難しい 発表を聞いているだけだと、身につかない(実体験として) といった課題があります。その点、 Course

    Coursera を利用した機械学習勉強会 - Hatena Developer Blog
  • 統計的学習理論(1): フィッシャー情報量とクラメールラオ下限と最尤法 - アドファイブ日記(ミラー版)

    勉強したことメモ。数式を使わずに書く。 また、行間をスキップせずに、多少くどいかもしれないくらいにきっちり順を追って説明を書いたので長いけどわかりやすくなっているはず。 第一回はベイズの手前まで、最尤法のあたりまでの話をする。 推定量 データを表す確率変数があってその密度関数は何らかのパラメータであらわされているとする。観測したデータから合理的にパラメータを決定するタスクのことを推定という。 推定を世界で最初にガッチリ研究したのはフィッシャーという人で、彼は推定方法の良しあしを判断する基準として、(A)不偏性、(B)有効性、(C)一致性、(D)漸近正規性、(E)十分性、などを考えた。 データからパラメータを推定する手続きは、データの関数として表せる。そういう関数を推定関数、そうやって計算した値を推定量と呼ぶ。 観測されうるデータは確率変数なので、推定量も確率変数となる。 推定量が確率変数だ

    統計的学習理論(1): フィッシャー情報量とクラメールラオ下限と最尤法 - アドファイブ日記(ミラー版)
  • 都立大 自然言語処理研究室 - 自然言語処理を独習したい人のために

    東京都立大学自然言語処理研究室(小町研)に入学する人たちは、入学後に自然言語処理・機械学習・プログラミングの基礎勉強会を行なうため、特に事前に学習することはありませんが、入学前に勉強しておいたほうがよいことはあるか、と問い合わせがあるので、自然言語処理の独習用の情報を書いておきます。(主に情報系以外の学部生を対象にしています。) 近年の深層学習の発展に伴ってニューラル機械翻訳をはじめとした深層学習の研究をしたいという人がうちの受験希望者の大半ですが、深層学習の研究をしたい人はプログラミングと数学英語のすべてがある程度できなければいけません。どれか1つでも足りないものがあれば、ほとんど研究できないと思ってください。これらは現在ほぼ未習の人が入学してから勉強して追いつけるものではないので、深層学習の研究がしたい、という場合はよくよく考えたほうがいいです。東大中山研の深層学習の研究がやりたい人

  • ディープラーニングだけがAIじゃない。トピックモデルの第一人者に聞く機械学習の未来 | TheWave

    ディープラーニングは、人間の脳の中のニューロンとシナプスの回路をコンピューターの電子回路で真似て、それを何層にも重ねた手法。この手法が思いの外、成果を上げているので、人工知能に注目が集まっている。英誌エコノミストも最近の号で人工知能を特集するなど、ビジネスマンの間でも人工知能は今、ちょっとしたブームだ。 ディープラーニングは、人間の脳の中のニューロンとシナプスの回路をコンピューターの電子回路で真似て、それを何層にも重ねた手法。この手法が思いの外、成果を上げているので、人工知能に注目が集まっている。英誌エコノミストも最近の号で人工知能を特集するなど、ビジネスマンの間でも人工知能は今、ちょっとしたブームだ。 しかしディープラーニングのように人間の脳を模倣しなくても、コンピューターを賢くさせる手法はほかにもある。例えば「トピックモデリング」。トピックモデリングは、多数の文書を読み込むことで傾向を

    ディープラーニングだけがAIじゃない。トピックモデルの第一人者に聞く機械学習の未来 | TheWave
  • Deep Learningの過去と未来 ~黒魔術からの脱却へ向けて~

    1. Nakayama Lab. Machine Perception Group The University of Tokyo 東京大学 大学院情報理工学系研究科 創造情報学専攻 講師 中山 英樹 2. Nakayama Lab. Machine Perception Group The University of Tokyo  1.画像認識分野におけるdeep learningの歴史  2.一般画像認識:Deep learning 以前と以後で何が変わったか ◦ Bag-of-visual-words ◦ 畳み込みニューラルネット (ConvNets)  3.Deep learningの数理 ◦ なぜ優れた性能が実現できるのか? ◦ ブレークスルーを生んだ各要素技術  4.実践するにあたって ◦ 適切利用するために必要な知識 ◦ チューニングの勘所  5.今後の展望・研究動

    Deep Learningの過去と未来 ~黒魔術からの脱却へ向けて~
  • 機械学習概論 講義テキスト

    2015/04/14 初期バージョン 2015/04/16 ver1.4(参考資料追加、k平均法の解説追加など) 2015/04/20 ver1.5(最大対数尤度関数の評価、混合分布によるクラスタリングを追加) 2015/04/21 ver1.6(EM法のアルゴリズム説明を追加) 2015/04/24 ver1.7(その他の性能指標を追加) 2015/05/19 ver1.8(ギリシャ文字ベクトルフォントの修正、その他リファクタリング) 2015/05/25 ver1.9(EM法の初期データ画像を追加) 2015/06/07 ver2.1(セミナー用に修正) 2015/06/24 ver2.2(EM法の説明を追加) 2016/09/01 ver2.3(誤字修正) 2016/12/27 ver1.0 タイトルを変更 2016/07/07 ver1.4 UpdateRead less

    機械学習概論 講義テキスト
  • Rでデータ分析・統計学・機械学習・データマイニングを学ぶならこの10冊で(2015年2月版) - 渋谷駅前で働くデータサイエンティストのブログ

    今週はまともなデータ分析やら統計学やら機械学習やらの記事を書くのが面倒になったので*1、しばらくやってなかったお薦め書籍リストでも書こうかと思います。 今回まとめるリストは、ズバリ「Rでデータサイエンス・統計学・機械学習を学ぶための10冊」。Rと言えばこのブログのメイン言語なので特に説明は要さないでしょう。去年1年間は拙著も含めてR絡みのが大豊作で、以前のお薦め書籍リストに比べるとRの良書が増えたという部分もあり、そう言えばRだけでリスト作れるなぁと思ったのでした。 というわけで、主に僕が持っているor読んだことがあるを中心にお薦めリストをまとめてみました。いつも通り独断と偏見まみれなので、他にも良いRは沢山ありますよーという旨予めお断りしておきます。 そうそう、先に書いておきますがこのリストは中級者向けです。でも初学者向けに良いRのってあるのかなぁ。。。初学者はまずはExcel

    Rでデータ分析・統計学・機械学習・データマイニングを学ぶならこの10冊で(2015年2月版) - 渋谷駅前で働くデータサイエンティストのブログ
  • 人工知能はどこへ向かうのか:AIと機械学習の今 | ライフハッカー・ジャパン

    人工知能AI)の技法の1つであるディープ・ラーニング(深層学習)は、現在非常にホットなトピックで、これまでにも数限りなく取り上げられてきました。Google、Facebook、MicrosoftやBaiduといった名だたる企業が、マシンに視覚情報処理能力のある「目」を持たせるコンピュータービジョンや、音声認識、テキスト解析といった分野で技術革新を進めていますが、その多くはこのディープ・ラーニングに支えられたものです。また、多くのハイテク系新興企業の技術的基盤にもなっています(中には製品のリリース前に買収された企業もあります)。機械学習に関して言えば、こうした表に出てきやすい「成功」はメディアの注目を集めがちです。 しかしこうした事象は、地面の下でふつふつとたぎるマグマのように成長を遂げるこの分野の、あくまで表から見える面にすぎません。この手の研究の大部分が行われているのは、実は大手ウェブ

    人工知能はどこへ向かうのか:AIと機械学習の今 | ライフハッカー・ジャパン
  • 数式をnumpyに落としこむコツ

    Tokyo.SciPy #2 にて発表した、数式(あるいは数式入りのアルゴリズム)から実装に落とす場合、何に気をつけるのか、どう考えればいいのか、というお話。 対象は、どうやって数式をプログラムすればいいかよくわからない人、ちょっとややこしい数式になると四苦八苦してしまい、コードに落とすのにすごく時間がかかってしまう人、など。 ここでは実行速度についてはひとまずおいといて、簡潔で間違いにくい、ちゃんと動くコードを書くことを目標にしています。 Read less

    数式をnumpyに落としこむコツ
  • Matrix Factorizationとは - Qiita

    Machine Learning Advent Calendarです。 普段はGunosyという会社で推薦システムを作ってます はじめに 推薦システムに関する最近の文献を読むと結構な割合で出てくるMatrix Factorizartion(MF)と呼ばれる手法があります。 ざっくり言うとこの手法は協調フィルタリングにおける次元削減を行うことでよりよい推薦を行おうという手法であり、 Netflix Prize(100万ドルの賞金が賭けられた推薦システムのコンテスト)で最も成果を上げたモデルの一つでもあります。 記事ではこの手法を紹介していきます。 協調フィルタリング まず協調フィルタリングについておさらいしましょう。 あるサービスで3人のユーザが5つのアイテムに対して5段階評価をしたとき、その評価値を以下のようにベクトルで表すことができます。 \vec{user_{1}} = (4, 5,

    Matrix Factorizationとは - Qiita
  • A Tour of Machine Learning Algorithms

    In this post, we will take a tour of the most popular machine learning algorithms. It is useful to tour the main algorithms in the field to get a feeling of what methods are available. There are so many algorithms that it can feel overwhelming when algorithm names are thrown around and you are expected to just know what they are and where they fit. I want to give you two ways to think about and ca

    A Tour of Machine Learning Algorithms
  • 『MatrixFacorization を使った評価予測 ―アルゴリズムシリーズ 3―』

    お昼は昭和堂 ( 秋葉原 ) の290円弁当がデフォルトの Hattori です。安! 今回は前回に引き続き、推薦の話をしようと思います。 前回はアクセスログを使って関連するアイテム ( 芸能人 ) を推薦するという話だったのですが、今回は明示的な評価データがある場合に、それを使って、ユーザーの未評価アイテムの評価予測をするという話をします。 例えば、世の中の大半のレビューサイトにはユーザーの5つ星評価を投稿できるしくみがあります。Amazonべログ、PlayStation Network ( ゲームレビュー ) などなど例をあげればキリがありませんが、そういったユーザーがつけてくれた5つ星のデータを使って、ユーザーの好みのアイテムを推薦しようという話です。 実はこういった話は学術的には典型的なテーマになっていて、手法もほぼ確立されています。具体的には "協調フィルタリング" という

    『MatrixFacorization を使った評価予測 ―アルゴリズムシリーズ 3―』
  • 不均衡データをSVMでクラス分類するにはどうすれば良いか - 渋谷駅前で働くデータサイエンティストのブログ

    今年のKDD cupが絵に描いたような不均衡データ(正例と負例との数的比率が極端に偏っているデータ)で苦労させられたので、ちょっと調べたら色々と良い方法があるなぁと気が付きましたよということで備忘録的に紹介しておきます。 ちなみにググったら普通に@sfchaosさんのslideshareが出てきたので、僕なんぞの解説よりそちらをどうぞw 不均衡データのクラス分類 なおこちらのスライドの方がSVM以外にもランダムフォレストなどでの対処法も載っているので、汎用的だと思います。。。 クラス重み付けを調整してサンプルサイズが小さい方のクラスの影響力を上げてやる これはRのsvm{e1071}の説明だと割とあっさりとしか書かれてないので、どちらかというとPythonのsklearn.svm.SVCの説明を見た方が分かりやすいかもしれません。 SVM: Separating hyperplane fo

    不均衡データをSVMでクラス分類するにはどうすれば良いか - 渋谷駅前で働くデータサイエンティストのブログ
  • PyCon JP 2014 で「Pythonとscikit-learnではじめる機械学習」と題して発表してきました - Yamakatu as a Service

    PyCon JP 2014 で「Pythonとscikit-learnではじめる機械学習」と題して発表してきました ■発表について @showyou さんが MLCT #1 にて「お前らPyConで機械学習ネタしゃべろや」と言っていたのを思い出して、まさか通ると思わずに応募したら通っちゃったので発表してきました。 笑いが結構とれていたこともあり、調子にのって余計なことを喋りすぎてしまい、時間不足で途中で終わる、という失態を犯しました。みなさん、当に申し訳ありません… 当初、ライブコーディング形式にしようか迷っていたのですが、scikit-learnはあまりにも簡単すぎて、ライブコーディングだとマジで数分で終わってしまうので、機械学習、スパムフィルタ、NaiveBayesの理論的なところも話していたら肝心のscikit-learnの話はちょっとしかできないという… PyCon JPは1万円

  • 機械学習のレベル別学習法 | POSTD

    Metacademyの発足以来、よく聞かれる質問があります。 機械学習について”さらに”詳しくなりたいが、何を学べばよいか分からない場合はどうすればいいですか? このすばらしい質問に対して、私はこう答えます。 一貫してテキストブックから学びましょう。 すると、質問した人たちは顔をしかめます。それはまさに、体形の崩れた人が健康的な友人から「私は事に気をつけて、運動を欠かさないようにしてるからね」と言われた時に見せる表情に似ています。進歩するには、粘り強い鍛錬とやる気、そして自分自身で課題に取り組む能力が必要です。 このことは皆さんもすでにご存じでしょう。 しかし、なぜテキストブックにこだわる必要があるのでしょうか? テキストブックは、当の意味で知識を習得するための数少ない手段の1つです。皆さんは講座を受けたり、MOOCを受講したり、読書会に入ったりして、自分の好きなやり方で学ぶことができ

    機械学習のレベル別学習法 | POSTD
  • 機械学習にまつわる3つの誤解 - 武蔵野日記

    昨晩寝る前に発表タイトルと概要についてコメントをしたのだが、朝の4時にミルクで起きることに成功したので、もう一度コメントを送る。この往復が好きなのだが、往復する度にクオリティが上がっていくのが楽しいからかもしれない。 今日は午前に出かける予定なので朝の散歩は省略。最近は暑いので、たまたま気温が低い日でないと、朝早くに行かないと汗だくになる。今日は特別暑そうだし…… 午前中は、現在第一希望の認証保育園まで見学に行く。以前も1回行っているのだが、妊娠中だったので、娘を連れてもう一度行きたかったのである(雰囲気が合うかどうかもあるし)。外が暑かったし、今日は自分も体調も悪くないので、バスではなく車で行く。タイムズ駐車場を検索したところ、満車かどうかまで教えてくれて、便利。空いている駐車場に車を止めて、保育園に向かう。 先週電話したときは、来年の4月1日から入りたい場合は9月1日の10:45から先

    機械学習にまつわる3つの誤解 - 武蔵野日記
  • 『手を動かしながら学ぶ ビジネスに活かすデータマイニング』(技術評論社)を書くに当たって気を付けたこと&補足など(追記あり) - 渋谷駅前で働くデータサイエンティストのブログ

    追記(2015/03/14) 第7章の決定木のところで取り上げた{mvpart}パッケージのサポートが切れ、CRANから削除されてしまったためinstall.packages関数ではインストールできなくなっています。現在のインストール方法を最後に追記しました。 追記(2014/09/18) 実はGoogleブックスで立ち読み可能です 拙著公式サポートページと相互リンクしています。サンプルデータと正誤表はこちらをご参照ください ということで、以下の通り拙著『手を動かしながら学ぶ ビジネスに活かすデータマイニング』(技術評論社)が日発売と相成りました(都内の大型書店では先週半ばから先行販売している模様です)。 手を動かしながら学ぶ ビジネスに活かすデータマイニング 作者: 尾崎隆出版社/メーカー: 技術評論社発売日: 2014/08/22メディア: 単行(ソフトカバー)この商品を含むブログ

    『手を動かしながら学ぶ ビジネスに活かすデータマイニング』(技術評論社)を書くに当たって気を付けたこと&補足など(追記あり) - 渋谷駅前で働くデータサイエンティストのブログ
    tt_w54s
    tt_w54s 2014/08/24
    札幌の紀伊國屋書店で見かけた時は経済学のカテゴリで実証分析入門の隣に置かれていました。
  • 機械学習を初めて勉強する人におすすめの入門書 - old school magic

    概要 私が機械学習の勉強を始めた頃、何から手を付ければ良いのかよく分からず、とても悩んだ覚えがあります。同じような悩みを抱えている方の参考になればと思い、自分が勉強していった方法を記事にしたいと思います。 目標としては、機械学習全般について、コンパクトなイメージを持てるようになることです。 そのためにも、簡単なから始めて、少しずつ難しいに挑戦して行きましょう。 入門書 何はともあれ、まずは機械学習のイメージを掴むことが大切です。 最初の一冊には、フリーソフトでつくる音声認識システムがおすすめします。 フリーソフトでつくる音声認識システム - パターン認識・機械学習の初歩から対話システムまで 作者: 荒木雅弘出版社/メーカー: 森北出版発売日: 2007/10/17メディア: 単行(ソフトカバー)購入: 45人 クリック: 519回この商品を含むブログ (38件) を見るレビュー :

    機械学習を初めて勉強する人におすすめの入門書 - old school magic
  • 教師付き機械学習を始めるにあたって - ありんこのつぶやき

    2014-08-12 教師付き機械学習を始めるにあたって 教師付き機械学習における憂慮点 ・訓練データとテストデータが異なる規則に従って生成されれば、訓練データからテストデータに関する情報が抽出できない。 →意味のある学習を行うためには訓練データとテストデータが何らかの共通点を持つ必要がある。 http://sugiyama-www.cs.titech.ac.jp/~sugi/2007/covariate-shift2-jp.pdf ・識別器の学習に必要なテストデータの数は次元数の増加と共に急激に増加する(次元の呪い) →一般にデータ集めは難しいため、その分次元を圧縮する必要がある。次元圧縮は正則化や主成分分析が挙げられる。(最適なバランスはトライ&エラーで求めるしかない?) http://roadtomachinelearning.blogspot.jp/2012/10/blog-pos