ランキング参加中プログラミング はじめに この記事では、Immutable Data Modelと呼ばれる設計手法をもとに、リレーショナル・データベースにおける、テーブル設計の話を書いています。また、今回の実践で利用する、別の考え方の背景を理解するために、Out of the tar pitという小論文の内容にも言及します。 「状態とは何か?」というややこしい話がたくさん出てきますし、データベースのテーブル設計についての話であることから、たくさんのSQLが出てきます。なので、データモデリングとか状態管理とか、特にSQLとかに興味がない人には面白くないと思います。 そのあたりに興味ある方は、読んでみて欲しいです。 Immutable Data Modelを、実際のアプリケーションで使うデータベースに採用するにあたり、どういう考え方で、どのようにテーブルを構成したか、自分なりの経験を書いていま
この記事はMLOps Advent Calendar 2021の18日目の記事です。 2016年にもTensorFlowとMLサービスの2016年の布教活動報告を書きましたが、ここ3年くらいはMLOps系の活動をメインにしてきたので、その報告です。COVID後はイベント登壇も減り、ブログ記事の執筆が多くなりました。その裏話的な内容です。 Feature Store のブログ記事 今年5月のGoogle I/OでVertex AIのMLOps系プロダクトがいくつかリリースされたので、その後にフォローアップのブログ記事を出し始めました。まずは6月にPMのAnandと書いた Kickstart your organization’s ML application development flywheel with the Vertex Feature Store(日本語版)です。 このプロダクト
The Rise (and Lessons Learned) of ML Models to Personalize Content on Home (Part I) At Spotify, our goal is to connect listeners with creators, and one way we do that is by recommending quality music and podcasts on the Home page. In this two-part blog series, we will talk about the ML models we build and use to recommend diverse and fulfilling content to our listeners, and the lessons we’ve learn
こんにちは。研究開発部の深澤(@fufufukakaka)です。 本記事では最近面白いなと思って watch しているレコメンド系のプロジェクト RecBole を紹介いたします。また、クックパッドが展開している事業の一つであるクックパッドマートのデータを使って数多くのレコメンドモデルを試す実験も行いました。その結果も合わせて紹介します。 TL;DR: レコメンドモデルは作者実装に安定性がなく、またモデルをどのように評価したかも基準がバラバラで、再現性が難しいとされている(from RecSys 2019 Best Paper) 再現性に取り組むプロジェクトとして 2020年12月に始まった RecBole がある。 RecBole を利用することでなんと 50個以上のレコメンドモデルを大体1コマンドで試せる クックパッドマートでユーザに対してアイテムをレコメンドするシチュエーションを想定
Releasing Pythia for vision and language multimodal AI models What it is: Pythia is a deep learning framework that supports multitasking in the vision and language domain. Built on our open-source PyTorch framework, the modular, plug-and-play design enables researchers to quickly build, reproduce, and benchmark AI models. Pythia is designed for vision and language tasks, such as answering question
Looks a bit like a data lake right? (Tangled wires by Cory Doctorow on Flickr (CC BY-SA 2.0) )Who is this for?Are you a data scientist or data engineer keen to build sustainable and robust data pipelines? Then this article is for you! We’ll walk through a real-world example and by the end of this article you’ll understand why you need a layered data engineering convention to avoid the mistakes we
2020.07.06 ML Pipeline事始め – kedro(+notebook)とMLflow Trackingで始めるpipeline入門 – こんにちは。次世代システム研究室のT.S.です AI/機械学習が不可欠となった昨今、数多くの方がKaggleなどの分析コンペ参加から機械学習モデルの実験、そして本番環境への適用まで色々実施してらっしゃると思います。 私もその一員で、日々モデルの実験から本番機械学習基盤の構築まで色々な分野の機械学習関連業務に従事しております。 そうした中で(皆様も同じ悩みを抱えているかと思いますが)実験->本番適用->運用に渡って、色々な悩みを抱えています。 一例ですが、こん悩みがあります 実験を複数回繰り返した結果、実行結果とハイパパラメータの組み合わせがゴチャゴチャになる 実験時の処理がモジュール化していないため、処理順序の入れ替えや追加が困難 実験時
Many small online retailers and new entrants to the online retail sector are keen to practice data mining and consumer-centric marketing in their businesses yet technically lack the necessary knowledge and expertise to do so. In this article a case study of using data mining techniques in customer-centric business intelligence for an online retailer is presented. The main purpose of this analysis
2021/10/29 に開催されたモデルベースの要件定義手法 RDRA(ラドラ)の現場での実践事例が紹介された勉強会「モデルベースで要件定義をやってみた」の togetter まとめです。 https://modeling-how-to-learn.connpass.com/event/227535/
MLメタデータによる優れたMLエンジニアリング コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。 ペンギンを分類するために本番MLパイプラインを設定するシナリオを想定します。パイプラインはトレーニングデータを取り込み、モデルをトレーニングして評価し、それを本番環境にプッシュします。 ただし、後でさまざまな種類のペンギンを含むより大きなデータセットでこのモデルを使用しようとすると、モデルが期待どおりに動作せず、種の分類が正しく開始されないことがわかります。 この時点で、あなたは知ることに興味があります: 利用可能なアーティファクトが本番環境のモデルのみである場合、モデルをデバッグするための最も効率的な方法は何ですか?モデルのトレーニングに使用されたトレーニングデータセットはどれですか?この誤ったモデルにつながったトレーニングの実行はどれですか?モデルの評価結果
はじめに Pytorchでコードを書き始めるとき、乱数固定やデータローダー、モデルの訓練や学習結果の取得等、毎度色々なサイトを参照するのは面倒だと思い、現時点の個人的ベストプラクティス・テンプレートを作成してみました。 今後のバージョンアップや便利なライブラリの登場で変わるかもしれませんげ、現在はこれで落ち着いています。 個人的な備忘録も兼ねて、前半に簡単な解説付きのコードと最後に全コードを載せています。 もっと便利な書き方やライブラリなどあれば、コメントいただけると嬉しいです。 テンプレート(解説付き) 1. ライブラリインポートと初期設定 torchやよく利用するライブラリ(numpy, matplotlib)のインポート モデルの訓練時(for文)の進捗を表示するtqdmライブラリ(jupyter notebookとコマンドライン版) 進捗表示は待ち時間の見積もりやエラーに気づくこと
The first major AI event of 2020 is already here! Hope you had a nice holiday break 🎄, or happy New Year if your scientific calendar starts with a conference (which means NY comes from NYC). AAAI 2020 brought us a new line-up of Knowledge Graph-related papers, in other words, AAA-class papers from AAAI 😉 Okay, enough feeble jokes, let’s get started! This year AAAI got 1591 accepted papers among
Authors: Vinay Kakade, Shiraz Zaman IntroductionIn a previous blog post, we discussed the architecture of Feature Service, which manages Machine Learning (ML) feature storage and access at Lyft. In this post, we’ll discuss the architecture of LyftLearn, a system built on Kubernetes, which manages ML model training as well as batch predictions. ML forms the backbone of the Lyft app and is used in d
皆さんこんにちは。 お元気でしょうか。GoogleQA20thで悔しいけど楽しかったです。 自然言語処理のみのコンペを真面目に挑んだのは初で、勉強になることが多かったです。 今回は実験管理ツールの紹介と比較をします。 特徴がわかる範囲で簡単に実装も書いているので、参考にしてみてください。 実験管理ツール 実験管理の必要性 実験管理ツールの要件 実験管理ツールの紹介 Excel Excelとは 良い点 欠点 mag magとは サンプル実装 良い点 ここが少し残念 Weights and Biases Weights and Biasesとは サンプル実装 良い点 ここが少し残念 MLFlow サンプル実装 良い点 ここが少し残念 まとめ 最後に 実験管理ツール 実験管理の必要性 コンペティションや研究では多くのハイパーパラメータや構造などに対して様々な変更を加えます。 私の場合の例ですが、
TLDR; Most machine learning models are trained using data from files. This post is a guide to the popular file formats used in open source frameworks for machine learning in Python, including TensorFlow/Keras, PyTorch, Scikit-Learn, and PySpark. We will also describe how a Feature Store can make the Data Scientist’s life easier by generating training/test data in a file format of choice on a file
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く