[B! machine-learning] kimutanskのブックマーク

SAMOA: A Platform for Mining Big Data Streams (Apache BigData Europe 2015)

kimutansk 2017/01/04

ストリーム処理上のマイニング基盤SAMOA、APIを用いてJVM言語コード書いて、ビルドする時に実行基盤選択できるタイプですか。こういうのもありますか。

リンク

Retty流『2200万ユーザを支える機械学習基盤』の作り方 - Qiita

みなさん、こんにちは。Retty CTO の樽石です。この記事は Retty Advent Calendar 25日目です。メリークリスマス。昨日は @ttakeoka の『MFIにむけてRettyの取り組み』でした。今年も残りわずかになりました。いかがお過ごしですか？ Retty はこの１年でエンジニアがほぼ倍増しました。それによって、情報発信者が増え、Advent Calendar に参加出来るようになりました。みんな楽しそうにしていて、うれしいです。 Retty Inc. Advent Calendar 2016 - Qiita さて、今年最後の Retty Advent Calendar 記事を書くということで、はじめは１年のまとめ的内容にしようかと思いましたが、それでは平凡で面白くありません。そこで、ネタになりそうなマニアックな技術的記事で締めくくりたいと思います。

kimutansk 2016/12/25

ここまで組みあがっているのと環境の手作り感のギャップが何とも言えず、面白い。

リンク

機械学習をプロダクトに入れる際に考える採用基準について - yasuhisa's blog

サービスに機械学習技術(例えばSVM)を入れる際に、「この機械学習技術は本番サービスに投入しても大丈夫なものか?」を考える基準がまとまっていると人に説明するときに便利だなとふと思ったのでまとめてみました。散々言われ尽くされている話だとは思います。前提考慮に入る採用基準予測精度 (コードの)メンテナンスの容易性計算オーダー学習時予測時挙動のコントロールのしやすさ/予測説明性の容易さチューニングの必要性その他まとめ前提機械学習がプロダクトの主要な武器になる(例えば最近話題になっているGoogle翻訳におけるNMT)ものではなく、サービスにデータがまずあり、機械学習でデータを活用することにより、そのサービスを支えていくようなものを前提に考えています(例えばCGMサービスのスパム判定)。また、投稿内容は私個人の意見であり、所属組織を代表するものではありませんとお断りしておき

kimutansk 2016/12/18

予測精度/コードのメンテナンス性/計算オーダー/挙動のコントロール・説明容易性/チューニング必要性/ライブラリ実装存在と。

machine-learning

リンク

Girl Friend Factory - 機械学習で彼女を創る - - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 指定した属性を持つ彼女を生成する機械学習を行い、それを使用したデモを開発しました。初めまして、ドワンゴ2016年新卒の@Hiroshiba です。私は普段、今流行りのディープラーニング技術を使った研究をしています。この技術の表現力は過去の色んな機械学習に比べてとても優秀で、去年の今頃なんかにはDCGANという画像生成系の研究に革命を起こした手法を使って、様々な顔イラストを自動生成する記事が人気を集めました。 DCGANとは今回作成したデモで用いた技術であるDCGANについて軽く触れておきます（図Ａ）。そもそもDCGANはDeep C

kimutansk 2016/12/09

「名状し難きＳＡＮ値を下げてくる"彼女"が生成されることがあります」　相変わらずキレた記事w

リンク

高次元ベクトルデータ検索技術「NGT」の性能と使い方の紹介

この結果を見て単語ベクトルが変わるとNGTの性能が変わってしまうように感じた方がいるかもしれません。しかし、実はこれらの単語ベクトルはデータの次元数や件数が違っているため、それぞれの条件をあわせてみる必要があります。興味がある方は論文を読んで見比べて欲しいと思いますが、ここで重要なことは、NGTが高い精度にも関わらず、せいぜい100ミリ秒程度で検索できるという規模感であるということです。その規模感を感じてもらうために、これらの実験結果をご紹介しました。この実験以外にも論文の中では単語ベクトルの応用としてアナロジーと呼ばれる合成ベクトルでの実験やその他の比較手法の比較、実験結果の考察などもありますが今回は割愛します。これまで紹介した内容と同じような実験はLinux系のサーバーであれば公開しているExperimental softwareという実験プログラムを使うと簡単に試すことができます。

kimutansk 2016/11/25

特徴量ってたいていベクトルであらわされてるので、そこそこ汎用的に様々な近傍探索に使用できるということなんですかね？

machine-learning

リンク

機械学習を利用するプロダクトのテスト - froglog

このエントリについて 2種類の要件性能要件のテスト offline と online offline 性能テストの自動化 A/B テストはすぐにほしい機能要件のテスト性能テストのみで十分なのでは？テストデータ生成機能テストをいつ作るかまとめこのエントリについてポエムです。 11/8(火) に開催された Cloudera World Tokyo 2016 に参加しました。大規模データに対するデータサイエンスの進め方 #CWT2016 (以下、発表 1) データ分析グループの組織編制とその課題マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016 (以下、発表 2) その中で上記の2つの発表がとてもいい話でした。多少絡みのある内容として機械学習を利用するプロダクトのテストについて述べたいとちょっと前から考えていたので、いい機会なので

kimutansk 2016/11/20

「性能も機能もどちらもテストしましょう」　ですよね。ただ、機能追加型で導入する場合は機能は出来ても、性能はとりあえずやってみてとなるのでそれはそれで厄介・・・

リンク

Hadoopsummit16 myui

This document discusses Hivemall, an open source machine learning library for Apache Hive, Spark, and Pig. It provides an overview of Hivemall, describing its key features and algorithms. These include classification, regression, recommendation, and other machine learning methods. The document also outlines Hivemall's integration with techno logies like Spark, Hive, and Pig and its use cases in ind

kimutansk 2016/10/30

Spark上で動くのは素晴らしいですが、残念ながらXGBoostがMvnCentralやClouderaRepo上に無くてビルドがこける＞GitHubのtravis.xml見て解消しました。なるほど・・・

リンク

メンテナブルな機械学習システムの考察 | 株式会社サイバーエージェント

執筆者執筆者：數見拓朗所属部署：技術本部秋葉原ラボ業務経歴：トレンド検知システムやスパムフィルタの開発・運用、Amebaと広告配信のデータ分析業務を担当。概要機械学習は、データの複雑な関係を明らかにし、未知データの予測や特徴の発見を得るのに有用である。しかし、一般に提供されている機械学習ライブラリは、長期的な運用を目標としてデザインされていない。そのため、高い識別性能を維持するには、通常のソフトウェア開発・運用の知見では不十分である。本レポートの目的は、アメーバブログに提供している機械学習フィルタを例として、長期的に運用可能な機械学習システムを考察することである。目次 1.はじめにアメブロは，アメーバで最も古く，情報発信手段として多くのユーザに利用されているブログサービスである．2015年2月のデータでは，一日当たり約数十万件のエントリーが投稿されている．一方で，一部の悪意

kimutansk 2016/10/24

モジュール分割、モデルのバージョン管理あたりは他のプログラムでもよくある話と。アンチパターンは面白いです。

machine-learning

リンク

機械学習アルゴリズムの絵本

機械学習のアルゴリズムの中には�名前のついていない「素朴な方法」がある。複数の方法を組み合わせて使っている場合に�素朴な方法を無視して混乱が生まれる。そこで素朴な方法にライトを当てて、�各種アルゴリズムを図解することで�「あー、こういう組み合わせで動いてんだ」�とわかってもらう。 Read less

kimutansk 2016/09/05

こういうのがイメージできないと計算過程はわからないんでしょうけど、コードや数式からぱっと現状結びつかないのも事実。データ加工の過程を示すようなフロー図があればいい？

machine-learning

リンク

ランダムフォレストの基礎と最新動向

• – • – • • • – – • – • – – – • • • – • – • – • • • – – – • – – – – • • • • • • • • – – – • – – – – • • • • – – • ∗ , ∗ • ∗ • – • • • – – • ∗ , ∗ • ∗ • – • • – – • • • • – – • ∗ , ∗ • ∗ • – • ∗ ∗ ∗ ∗ arg max • ∈ • ∈ , • • ∗ ∗ ∗ ∗ arg max • • – – • ∗ , ∗ • ∗ • – • • – – – • – – – – • • • • • • • – – • – • – • ∗ – – • – – • • – • – – – • – – – – • • • – – • • • • – – , ∈ 1, … , • • – – • Input depth

kimutansk 2016/08/31

個々の決定木の作り方についても適用計算式で色々あるわけなんですね。用途も面白い。

machine-learning

リンク

「はじめてでもわかる RandomForest 入門－集団学習による分類・予測－」－第７回データマイニング+WEB勉強会＠東京

「はじめてでもわかるRandomForest (ランダムフォレスト) 入門－集団学習による分類・予測－」－第７回データマイニング+WEB勉強会＠東京濱田晃一 (hamadakoichi) Read less

kimutansk 2016/08/30

分類側が複数木による多数決からの算出で、回帰（平均値か確からしい値？）が平均値からの算出と。ただ数式はこれだけ見ても意味はさっぱりですが。

machine-learning

リンク

ヒューレットパッカード社の�社員の離職リスク予測第一回機械学習ビジネス研究会 #ml_business

第一回機械学習ビジネス研究会で話した内容です http://ml-business.connpass.com/event/36234/Read less

kimutansk 2016/08/30

離職リスクを算出して扱う訓練を受けて対処すると。面白い。アルゴリズム自体も特別なものというわけでもないと。

machine-learning

リンク

機械学習で泣かないためのコード設計

28. 28 Appendix: API一覧(1/3) Model • constructor: モデルに必要な構成要素(隠れ層)などの定義 • forward(inference): constructorで定義した構成要素を利用し、入力を出力にする(伝搬)プロセスを定義する。 • 学習中とそうでない場合で構成が変わる場合(Dropoutなど)、それを引数に取る。※ここでlossを出さないこと(出してもいいが、outputもちゃんと返す) ModelAPI • constructor: 最低限Modelのパスを取得し、読み込む • predict: 配列などの一般的な変数から、Modelを利用した予測値を返す 29. 29 Appendix: API一覧(2/3) Trainer • constructor: modelと学習に必要なパラメーターを受け取る。 DataProcess

kimutansk 2016/08/27

ロジック部をデータ入出力部と分離、パラメータは外だしでまとめる、モデルにロジック含めない、と。これ普通のプログラムでも重要な話ですね。

machine-learning

リンク

DeNAにおける機械学習・深層学習活用

2. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. ⾃⼰紹介 n  藤川和樹 ⁃  所属 •  DeNA システム本部分析推進部分析基盤グループ ⁃  2014.4 新卒でDeNAへ⼊社（3年⽬） •  これまでの主な業務内容 ⁃  ソーシャルゲームの各種課題分析、それに伴うデータ基盤の整備 ⁃  mobageプラットフォーム・キュレーションサービスにおけるパーソナライズ・レコメンドシステムの開発 ⁃  mobageプラットフォーム上における対話型⼈⼯知能システムの開発 n  経歴 ⁃  2014.3 神⼾⼤学⼤学院システム情報⼯学研究科修了 •  研究分野 ⁃  深層学習、⾃然⾔語処理 •  テーマ ⁃  深層学習による複数⽂書の圧縮表現の獲得と株価動向推定への応⽤

kimutansk 2016/08/13

人の趣味、テイスト、画風の類似からのレコメンデーション、アイテム用画像生成、人間に代わってプレイ＆難度判定や対話Botと。

machine-learning

リンク

GitHub - maropu/hivemall-spark: A Hivemall wrapper for Spark

kimutansk 2016/03/31

なるほど。define-udfs.shにあるように、パッケージに含めていればコンテキストでのUDFロードでロードして使用できると。

リンク

Elasticsearchと機械学習を実際に連携させる

2. ⾃自⼰己紹介 l  久保⽥田展⾏行行(@nobu_̲k) –  CTO@Preferred Networks, Inc. (PFN) u  US勤務 (Preferred Networks America, Inc. in San Mateo) –  元々Preferred Infrastructure (PFI)のチーフアーキテクト u  分散全⽂文検索索レコメンドエンジンSedueの開発者 l  専⾨門 –  検索索エンジン(作る⽅方の⼈人)、データベース、分散システム l  趣味 –  ⾳音ゲー：beatmania IIDX SP/DP皆伝、右⽚片⼿手九段 2

kimutansk 2016/03/17

小粒で高速なストリーム処理＆機械学習適用を行うための存在と。用途的にパーティショニングされた前提で複数プロセス立ち上げてスケールするスタイルですかね。

リンク

AlphaGo の論文をざっくり紹介 - technocrat

ある程度機械学習を知ってる人向けです。わかりやすさ重視でざっくり書くので、詳しいことは本論文をあたって下さい。ちなみに私は囲碁のルールは知りません。元ネタはNature論文です。 http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html とても読みやすい論文だと思います。オープンアクセス版もどっかに転がってたと思います。構成要素 Alpha GOは主に、教師あり方策ネットワークp_\sigma, 強化学習方策ネットワークp_\rho, 状態評価関数ネットワークv(s), からなっており、これらをうまく組み合わせて、モンテカルロ法による指し手評価を効率的に行っているようです。教師あり方策ネットワークp_\sigma 状態s(盤面の石配置など)を入力とし、次の手a(どこに石を置くか)を確率としてp(a|

kimutansk 2016/03/16

教師あり学習で作った初期データを基に互いに対戦させて強化させるとともに局面に対する評価関数を磨き、それをモンテカルロ探索でさすべき手を出す、と。

リンク

人工知能は WEBサーバの暗闇を救う松本亮介 #ipsjone / JPSJ-ONE 2016 matsumotory

Webサービスのシステム管理で疲弊している人々を救いたい話

kimutansk 2016/03/13

ChangeFinder、単一の指標から判定するとこの手の用途に上手く扱えなかったんですよね・・・やはり、複数の指標を正規化して落とし込んで扱うしかないですか。

machine-learning

リンク

Distributed TensorFlowの話 - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? Hadoop Conference Japan 2016 もともとは2月8日に開催されるHadoop Conference Japan 2016のセッションとしてこの話を応募したのですが、あえなく落選しました……（;_;) しかし、ありがたいことに復活戦のLightning Talkの投票では5位に選んでいただき、ランチタイムA会場でお話することになりました。ありがとうございます！今回のスライドはここで公開しています。とはいえ、5分のLTではこの内容をしっかりと伝えられる自信がないので、以下でスライド内容の詳しい解説をしたいと思いま

kimutansk 2016/02/08

Distributed版が公開されたとして、Jupiterネットワークとの両輪がないと分散時のスケールの度合いは下がるんでしょうね。やはり。

リンク

More modern gpu

GPUがなぜ速いのか，またその上でどのようなデータ構造やアルゴリズム，ライブラリが使えるのかを説明します。特にMapReduceなどの非均質で，離散的なアルゴリズムがいかに高速に実現されるかを紹介します。実験に使ったコード https://github.com/hillbig/gpuexperiments セミナーの動画 https://www.youtube.com/watch?v=WmETPBK3MOIRead less

kimutansk 2015/12/20

純粋にデータを扱うMapReduceをGPU計算できるように並列化すると。ファイルにはいていた所をGPUのメモリを介すれば一定のサイズ内であれば確かに早そうです

リンク

はてなブックマーク

タグ

関連タグで絞り込む (29)

machine-learningに関するkimutanskのブックマーク (35)

お知らせ

今週のはてなブックマーク数ランキング（2025年1月第1週）

今週のはてなブックマーク数ランキング（2024年12月第4週）

「あとで読む」タグで振り返る2024年〜今年の「あとで読む」、今年のうちに〜

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

関連タグで絞り込む (29)

machine-learningに関するkimutanskのブックマーク (35)

お知らせ

今週のはてなブックマーク数ランキング（2025年1月第1週）

今週のはてなブックマーク数ランキング（2024年12月第4週）

「あとで読む」タグで振り返る2024年 〜今年の「あとで読む」、今年のうちに〜

公式Twitter

キーボードショートカット一覧

公式Twitter

はてなのサービス

「あとで読む」タグで振り返る2024年〜今年の「あとで読む」、今年のうちに〜