タグ

machine-learningに関するkimutanskのブックマーク (35)

  • SAMOA: A Platform for Mining Big Data Streams (Apache BigData Europe 2015)

    kimutansk
    kimutansk 2017/01/04
    ストリーム処理上のマイニング基盤SAMOA、APIを用いてJVM言語コード書いて、ビルドする時に実行基盤選択できるタイプですか。こういうのもありますか。
  • Retty流『2200万ユーザを支える機械学習基盤』の作り方 - Qiita

    みなさん、こんにちは。Retty CTO の樽石です。 この記事は Retty Advent Calendar 25日目です。メリークリスマス。 昨日は @ttakeoka の『MFIにむけてRettyの取り組み』でした。 今年も残りわずかになりました。いかがお過ごしですか? Retty はこの 1 年でエンジニアがほぼ倍増しました。それによって、情報発信者が増え、Advent Calendar に参加出来るようになりました。みんな楽しそうにしていて、うれしいです。 Retty Inc. Advent Calendar 2016 - Qiita さて、今年最後の Retty Advent Calendar 記事を書くということで、はじめは 1年のまとめ的内容にしようかと思いましたが、それでは平凡で面白くありません。そこで、ネタになりそうなマニアックな技術的記事で締めくくりたいと思います。

    Retty流『2200万ユーザを支える機械学習基盤』の作り方 - Qiita
    kimutansk
    kimutansk 2016/12/25
    ここまで組みあがっているのと環境の手作り感のギャップが何とも言えず、面白い。
  • 機械学習をプロダクトに入れる際に考える採用基準について - yasuhisa's blog

    サービスに機械学習技術(例えばSVM)を入れる際に、「この機械学習技術番サービスに投入しても大丈夫なものか?」を考える基準がまとまっていると人に説明するときに便利だなとふと思ったのでまとめてみました。散々言われ尽くされている話だとは思います。 前提 考慮に入る採用基準 予測精度 (コードの)メンテナンスの容易性 計算オーダー 学習時 予測時 挙動のコントロールのしやすさ/予測説明性の容易さ チューニングの必要性 その他 まとめ 前提 機械学習がプロダクトの主要な武器になる(例えば最近話題になっているGoogle翻訳におけるNMT)ものではなく、サービスにデータがまずあり、機械学習でデータを活用することにより、そのサービスを支えていくようなものを前提に考えています(例えばCGMサービスのスパム判定)。また、投稿内容は私個人の意見であり、所属組織を代表するものではありませんとお断りしておき

    機械学習をプロダクトに入れる際に考える採用基準について - yasuhisa's blog
    kimutansk
    kimutansk 2016/12/18
    予測精度/コードのメンテナンス性/計算オーダー/挙動のコントロール・説明容易性/チューニング必要性/ライブラリ実装存在と。
  • Girl Friend Factory - 機械学習で彼女を創る - - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 指定した属性を持つ彼女を生成する機械学習を行い、それを使用したデモを開発しました。 初めまして、ドワンゴ2016年新卒の@Hiroshiba です。私は普段、今流行りのディープラーニング技術を使った研究をしています。この技術の表現力は過去の色んな機械学習に比べてとても優秀で、去年の今頃なんかにはDCGANという画像生成系の研究に革命を起こした手法を使って、様々な顔イラストを自動生成する記事が人気を集めました。 DCGANとは 今回作成したデモで用いた技術であるDCGANについて軽く触れておきます(図A)。そもそもDCGANはDeep C

    Girl Friend Factory - 機械学習で彼女を創る - - Qiita
    kimutansk
    kimutansk 2016/12/09
    「名状し難きSAN値を下げてくる"彼女"が生成されることがあります」 相変わらずキレた記事w
  • 高次元ベクトルデータ検索技術「NGT」の性能と使い方の紹介

    この結果を見て単語ベクトルが変わるとNGTの性能が変わってしまうように感じた方がいるかもしれません。しかし、実はこれらの単語ベクトルはデータの次元数や件数が違っているため、それぞれの条件をあわせてみる必要があります。興味がある方は論文を読んで見比べて欲しいと思いますが、ここで重要なことは、NGTが高い精度にも関わらず、せいぜい100ミリ秒程度で検索できるという規模感であるということです。その規模感を感じてもらうために、これらの実験結果をご紹介しました。この実験以外にも論文の中では単語ベクトルの応用としてアナロジーと呼ばれる合成ベクトルでの実験やその他の比較手法の比較、実験結果の考察などもありますが今回は割愛します。 これまで紹介した内容と同じような実験はLinux系のサーバーであれば公開しているExperimental softwareという実験プログラムを使うと簡単に試すことができます。

    高次元ベクトルデータ検索技術「NGT」の性能と使い方の紹介
    kimutansk
    kimutansk 2016/11/25
    特徴量ってたいていベクトルであらわされてるので、そこそこ汎用的に様々な近傍探索に使用できるということなんですかね?
  • 機械学習を利用するプロダクトのテスト - froglog

    このエントリについて 2種類の要件 性能要件のテスト offline と online offline 性能テストの自動化 A/B テストはすぐにほしい 機能要件のテスト 性能テストのみで十分なのでは? テストデータ生成 機能テストをいつ作るか まとめ このエントリについて ポエムです。 11/8(火) に開催された Cloudera World Tokyo 2016 に参加しました。 大規模データに対するデータサイエンスの進め方 #CWT2016 (以下、発表 1) データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016 (以下、発表 2) その中で上記の2つの発表がとてもいい話でした。 多少絡みのある内容として機械学習を利用するプロダクトのテストについて述べたいとちょっと前から考えていたので、いい機会なので

    機械学習を利用するプロダクトのテスト - froglog
    kimutansk
    kimutansk 2016/11/20
    「性能も機能もどちらもテストしましょう」 ですよね。ただ、機能追加型で導入する場合は機能は出来ても、性能はとりあえずやってみてとなるのでそれはそれで厄介・・・
  • Hadoopsummit16 myui

    This document discusses Hivemall, an open source machine learning library for Apache Hive, Spark, and Pig. It provides an overview of Hivemall, describing its key features and algorithms. These include classification, regression, recommendation, and other machine learning methods. The document also outlines Hivemall's integration with technologies like Spark, Hive, and Pig and its use cases in ind

    Hadoopsummit16 myui
    kimutansk
    kimutansk 2016/10/30
    Spark上で動くのは素晴らしいですが、残念ながらXGBoostがMvnCentralやClouderaRepo上に無くてビルドがこける>GitHubのtravis.xml見て解消しました。なるほど・・・
  • メンテナブルな機械学習システムの考察 | 株式会社サイバーエージェント

    執筆者 執筆者:數見拓朗 所属部署:技術部 秋葉原ラボ 業務経歴:トレンド検知システムやスパムフィルタの開発・運用、Amebaと広告配信のデータ分析業務を担当。 概要 機械学習は、データの複雑な関係を明らかにし、未知データの予測や特徴の発見を得るのに有用である。しかし、一般に提供されている機械学習ライブラリは、長期的な運用を目標としてデザインされていない。そのため、高い識別性能を維持するには、通常のソフトウェア開発・運用の知見では不十分である。レポートの目的は、アメーバブログに提供している機械学習フィルタを例として、長期的に運用可能な機械学習システムを考察することである。 目次 1.はじめに アメブロは,アメーバで最も古く,情報発信手段として多くのユーザに利用されているブログサービスである.2015年2月のデータでは,一日当たり約数十万件のエントリーが投稿されている.一方で,一部の悪意

    kimutansk
    kimutansk 2016/10/24
    モジュール分割、モデルのバージョン管理あたりは他のプログラムでもよくある話と。アンチパターンは面白いです。
  • 機械学習アルゴリズムの絵本

    機械学習のアルゴリズムの中には�名前のついていない「素朴な方法」がある。 複数の方法を組み合わせて使っている場合に�素朴な方法を無視して混乱が生まれる。 そこで素朴な方法にライトを当てて、�各種アルゴリズムを図解することで�「あー、こういう組み合わせで動いてんだ」�とわかってもらう。 Read less

    機械学習アルゴリズムの絵本
    kimutansk
    kimutansk 2016/09/05
    こういうのがイメージできないと計算過程はわからないんでしょうけど、コードや数式からぱっと現状結びつかないのも事実。データ加工の過程を示すようなフロー図があればいい?
  • ランダムフォレストの基礎と最新動向

    • – • – • • • – – • – • – – – • • • – • – • – • • • – – – • – – – – • • • • • • • • – – – • – – – – • • • • – – • ∗ , ∗ • ∗ • – • • • – – • ∗ , ∗ • ∗ • – • • – – • • • • – – • ∗ , ∗ • ∗ • – • ∗ ∗ ∗ ∗ arg max • ∈ • ∈ , • • ∗ ∗ ∗ ∗ arg max • • – – • ∗ , ∗ • ∗ • – • • – – – • – – – – • • • • • • • – – • – • – • ∗ – – • – – • • – • – – – • – – – – • • • – – • • • • – – , ∈ 1, … , • • – – • Input depth

    kimutansk
    kimutansk 2016/08/31
    個々の決定木の作り方についても適用計算式で色々あるわけなんですね。用途も面白い。
  • 「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京

    「はじめてでもわかるRandomForest (ランダムフォレスト) 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京 濱田晃一 (hamadakoichi) Read less

    「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京
    kimutansk
    kimutansk 2016/08/30
    分類側が複数木による多数決からの算出で、回帰(平均値か確からしい値?)が平均値からの算出と。ただ数式はこれだけ見ても意味はさっぱりですが。
  • ヒューレットパッカード社の�社員の離職リスク予測 第一回機械学習ビジネス研究会 #ml_business

    第一回機械学習ビジネス研究会で話した内容です http://ml-business.connpass.com/event/36234/Read less

    ヒューレットパッカード社の�社員の離職リスク予測 第一回機械学習ビジネス研究会 #ml_business
    kimutansk
    kimutansk 2016/08/30
    離職リスクを算出して扱う訓練を受けて対処すると。面白い。アルゴリズム自体も特別なものというわけでもないと。
  • 機械学習で泣かないためのコード設計

    28. 28 Appendix: API一覧(1/3) Model • constructor: モデルに必要な構成要素(隠れ層)などの定義 • forward(inference): constructorで定義した構成要素を利用し、入力を出 力にする(伝搬)プロセスを定義する。 • 学習中とそうでない場合で構成が変わる場合(Dropoutなど)、それを引数 に取る。※ここでlossを出さないこと(出してもいいが、outputもちゃんと 返す) ModelAPI • constructor: 最低限Modelのパスを取得し、読み込む • predict: 配列などの一般的な変数から、Modelを利用した予測値を返す 29. 29 Appendix: API一覧(2/3) Trainer • constructor: modelと学習に必要なパラメーターを受け取る。 DataProcess

    機械学習で泣かないためのコード設計
    kimutansk
    kimutansk 2016/08/27
    ロジック部をデータ入出力部と分離、パラメータは外だしでまとめる、モデルにロジック含めない、と。これ普通のプログラムでも重要な話ですね。
  • DeNAにおける機械学習・深層学習活用

    2. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. ⾃⼰紹介 n  藤川和樹 ⁃  所属 •  DeNA システム部 分析推進部 分析基盤グループ ⁃  2014.4 新卒でDeNAへ⼊社(3年⽬) •  これまでの主な業務内容 ⁃  ソーシャルゲームの各種課題分析、それに伴うデータ基盤の整備 ⁃  mobageプラットフォーム・キュレーションサービスにおける パーソナライズ・レコメンドシステムの開発 ⁃  mobageプラットフォーム上における対話型⼈⼯知能システムの開発 n  経歴 ⁃  2014.3 神⼾⼤学⼤学院 システム情報⼯学研究科 修了 •  研究分野 ⁃  深層学習、⾃然⾔語処理 •  テーマ ⁃  深層学習による複数⽂書の圧縮表現の獲得と株価動向推定への応⽤

    DeNAにおける機械学習・深層学習活用
    kimutansk
    kimutansk 2016/08/13
    人の趣味、テイスト、画風の類似からのレコメンデーション、アイテム用画像生成、人間に代わってプレイ&難度判定や対話Botと。
  • GitHub - maropu/hivemall-spark: A Hivemall wrapper for Spark

    kimutansk
    kimutansk 2016/03/31
    なるほど。define-udfs.shにあるように、パッケージに含めていればコンテキストでのUDFロードでロードして使用できると。
  • Elasticsearchと機械学習を実際に連携させる

    2. ⾃自⼰己紹介 l  久保⽥田展⾏行行(@nobu_̲k) –  CTO@Preferred  Networks,  Inc.  (PFN) u  US勤務  (Preferred  Networks  America,  Inc.  in  San  Mateo) –  元々Preferred  Infrastructure  (PFI)のチーフアーキテクト u  分散全⽂文検索索レコメンドエンジンSedueの開発者 l  専⾨門 –  検索索エンジン(作る⽅方の⼈人)、データベース、分散システム l  趣味 –  ⾳音ゲー:beatmania  IIDX  SP/DP皆伝、右⽚片⼿手九段 2

    Elasticsearchと機械学習を実際に連携させる
    kimutansk
    kimutansk 2016/03/17
    小粒で高速なストリーム処理&機械学習適用を行うための存在と。用途的にパーティショニングされた前提で複数プロセス立ち上げてスケールするスタイルですかね。
  • AlphaGo の論文をざっくり紹介 - technocrat

    ある程度機械学習を知ってる人向けです。 わかりやすさ重視でざっくり書くので、詳しいことは論文をあたって下さい。 ちなみに私は囲碁のルールは知りません。 元ネタはNature論文です。 http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html とても読みやすい論文だと思います。 オープンアクセス版もどっかに転がってたと思います。 構成要素 AlphaGOは主に、教師あり方策ネットワークp_\sigma, 強化学習方策ネットワークp_\rho, 状態評価関数ネットワークv(s), からなっており、これらをうまく組み合わせて、モンテカルロ法による指し手評価を効率的に行っているようです。 教師あり方策ネットワークp_\sigma 状態s(盤面の石配置など)を入力とし、次の手a(どこに石を置くか)を確率としてp(a|

    AlphaGo の論文をざっくり紹介 - technocrat
    kimutansk
    kimutansk 2016/03/16
    教師あり学習で作った初期データを基に互いに対戦させて強化させるとともに局面に対する評価関数を磨き、それをモンテカルロ探索でさすべき手を出す、と。
  • 人工知能は WEBサーバの暗闇を救う 松本亮介 #ipsjone / JPSJ-ONE 2016 matsumotory

    Webサービスのシステム管理で疲弊している人々を救いたい話

    人工知能は WEBサーバの暗闇を救う 松本亮介 #ipsjone / JPSJ-ONE 2016 matsumotory
    kimutansk
    kimutansk 2016/03/13
    ChangeFinder、単一の指標から判定するとこの手の用途に上手く扱えなかったんですよね・・・やはり、複数の指標を正規化して落とし込んで扱うしかないですか。
  • Distributed TensorFlowの話 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? Hadoop Conference Japan 2016 もともとは2月8日に開催されるHadoop Conference Japan 2016のセッションとしてこの話を応募したのですが、あえなく落選しました……(;_;) しかし、ありがたいことに復活戦のLightning Talkの投票では5位に選んでいただき、ランチタイムA会場でお話することになりました。ありがとうございます! 今回のスライドはここで公開しています。 とはいえ、5分のLTではこの内容をしっかりと伝えられる自信がないので、以下でスライド内容の詳しい解説をしたいと思いま

    Distributed TensorFlowの話 - Qiita
    kimutansk
    kimutansk 2016/02/08
    Distributed版が公開されたとして、Jupiterネットワークとの両輪がないと分散時のスケールの度合いは下がるんでしょうね。やはり。
  • More modern gpu

    GPUがなぜ速いのか,またその上でどのようなデータ構造やアルゴリズム,ライブラリが使えるのかを説明します。特にMapReduceなどの非均質で,離散的なアルゴリズムがいかに高速に実現されるかを紹介します。 実験に使ったコード https://github.com/hillbig/gpuexperiments セミナーの動画 https://www.youtube.com/watch?v=WmETPBK3MOIRead less

    More modern gpu
    kimutansk
    kimutansk 2015/12/20
    純粋にデータを扱うMapReduceをGPU計算できるように並列化すると。ファイルにはいていた所をGPUのメモリを介すれば一定のサイズ内であれば確かに早そうです