データマネジメントなき経営は、破綻する。 〜2つのデータ分析プロジェクトに学ぶ「残酷な真実」〜 第1回 DLG Cross (データマネジメントとデータパイプライン) の発表資料です。 https://data-learning-guild.connpass.com/event/17017…
はじめに 数か月ほど前、住所の正規化が話題になりました。こちらの記事が特に有名ですね。 関連して、こちらの記事も話題になりました。 当時はほかにも色々な人が日本のヤバい住所の例をあげてくれて、とても楽しかったです。 実は弊社でもAddressianという住所正規化サービスを提供しています。初めて目にする変わった住所を見かけたら、とりあえず自社のAPIに投げてみて「おお、正規化できた」「すごい!」などといいながら遊んで働いています。 サービスは無料で利用できますが、今までは利用の手順が面倒でした。 ユーザー登録する APIキーを発行する 住所正規化APIを呼び出すプログラムを用意する(サンプルコードあり) プログラムを実行して住所を正規化する そこで、もっと気軽に住所正規化を試してもらえるように、ユーザー登録しなくても使えるデモ機能を作ってみました。 デモ機能の概要 住所正規化デモ画面 こち
前提と想定読者 本記事の私見以外の情報に関しては、一般に公開されている資料のリンク集のようになっています。 取り組んでいる内容は、私が現在勤務している会社に関連していますが、その詳細には触れません。 以下に類する方は参考になるかもしれません。 データエンジニアやBIエンジニアのように、データ基盤を構築しようとしている方 データアナリスト、データサイエンティスト、マーケッターなど、データ基盤を利用する方々で、なぜそのシステムが選ばれているのか考えられるようになりたい方 データエンジニアリングチームをマネジメントしており、チームメンバーのスキル向上のための教材を探している方 背景 WEB業界で新卒からデータエンジニアとしてキャリアをスタートし、現在はデータストラテジスト/BIエンジニアとして活動中のやすです。 現在、私は5-10名規模のチームをマネジメントしており、チームメンバーのほとんどは2
ストリートファイター6 格ゲーマートーク 【格ゲー】『俺を獲れ』ウメハラがデータ収集のGeminiさんに厳しい対応をしていた理由が判明!「オレ自身が自分のプレイをデータ収集に近い感じでSF4から見てた」「だからこそ言いたい。メチャレベル低いすよって」 今回は、先日おこなわれたウメハラさんの企画「俺を獲れ」での、配信裏話を取り上げます。コメント欄の読者さんから情報を提供してもらいました。 取り上げるのは、SFL2021のデータを収集し、分析した情報を紹介していたGemini(ジェミニ)さんに関する話です。 以下、配信書き起こしです。 ソース元リンク:俺を獲れ振り返り(ウメハラさんのツイッチチャンネル) (アーカイブ50分付近のトーク) トークが長かったので要約で済ませようと思ったのですが、あまりに良い話が出てきたので結局書き起こした部分もあります。カギ括弧内は全てウメハラさんの発言です。 ウ
概要 troccoの生みの親で、現プロダクト責任者をしている @hiro_koba_jp です。 troccoアドベントカレンダー2022の1記事目書いていきます!(みんなも参加してね) データ分析やデータエンジニアリングにおいてETL(Extract Transform Load)という言葉を耳にしたことがある方は多いのではないでしょうか? 一方、「ETLではなくELT(音楽グループではない)が主流になりつつある」といったような論調も増えてきました。 この記事では、ETLとELTの違いや、なぜELTにシフトしつつあるのか、この先どうなるのか(予想)について、私なりの見解を書いてみようと思います。 一昔前まではETLパターンが多かった Redshiftが登場した2013年頃、人々はデータレイク層はS3上で構築し、データウェアハウス層〜データマート層はRedshift上に組む人が多かったよう
プロローグ ストーリー編 第1章 感銘 step1. KPIの設定 step2. データの観測構造をモデル化する step3. 解くべき問題を特定する step4. 観測データのみを用いて問題を解く方法を考える step5. 機械学習モデルを学習する step6. 施策を導入する 第2章 絶望 第3章 反省 第4章 再起 step1(再) KPIの設定 step2(再) データの観測構造をモデル化する step3(再) 解くべき問題を特定する step4(再) 観測データのみを用いて問題を解く方法を考える step5(再) 機械学習モデルを学習する step6(再) 施策を導入する 第5章 俺たちの戦いはこれからだ! 実装編 準備 擬似データの生成 意思決定モデルの学習 モデルのオフ方策評価 モデルの真の性能の評価 まとめ この記事を読んだ方はこんな記事も読んでいます(多分) @tkana
"Designing Data-Intensive Applications"は濃密すぎる一冊だったので2018年の自分にも読んでもらいたい 分散システムに関する理解を整理するための一冊として素晴らしい、という声があり気になっていた "Designing Data-Intensive Applications" を一通り読んだ: https://twitter.com/frsyuki/status/846431130437890049 僕のような「用語としては知っている」程度の新人に「なぜそれが大切なのか」「なにが難しいのか」といったポイントを丁寧に説明してくれる、学びの多い充実の一冊だった。 冒頭では『早すぎる最適化(不要不急のスケーラブルなシステムの構築)は制約が増えてシステム設計が不自由になるだけなので無駄』という事実に触れ、適切なツールを選択することの重要性を説いている。本書が50
「出会って4秒で合体」という名シリーズがある。いまでも多くの人々の心をつかんで離さない、そんな不朽の名作だ。 これは老舗AVメーカーであるアリスJAPAN(銀色の人が走っていてドッカンドッカン柱が倒れてくるオープニング映像で有名)が2008年3月に世に放った「麻美ゆま 出会って4秒で合体(2008年03月14日発売:DV-888 / 収録時間:120分、アリスJAPAN)に端を発する一連の作品群だ。 本作は、大人気女優である麻美ゆまさん(2015年AVから引退、現在はタレント業)を相手に、打ち合わせと称して普段の様子を撮影するところから始まる。序盤は本番(ダブルミーニング)以外の素の表情を撮影しつつ、他愛もない会話が続くが、突如(本作では映像開始から3分17秒)としてソファ(クリーム色)の後ろから男優(全裸)が登場し、麻美ゆまさんが「なに? なに?」と困惑しているうちに合体、となるものであ
こんにちは。MackerelチームにおいてCRE(Customer Reliability Engineer)をしているid:syou6162です。主にカスタマーサクセスを支えるデータ基盤の構築や、データ分析を担当しています。 今回は、壊れにくいデータ基盤を構築するため、Mackerelチームで実践していることを紹介します。 なぜ壊れにくいデータ基盤を構築するのか データ基盤が“壊れている”とはどういうことか 壊れてないだけでなく、壊れたら気付ける 前提とするシステム構成 壊れたことに気付けるよう監視する 1. バッチジョブが失敗したことに気付く 2. 投入されたデータの性質を監視する 3. ビューが壊れてないかを監視する 4. 利用状況を監視する そもそも壊れてない状態を保つ 1. データリネージを元に修正できるようにする 2. 使われていないテーブルやビューは定期的に掃除 おわりに 参
ちょっと前に、しょうもないことを某所で放言したら思いの外拡散されてしまいました。 機械学習の説明可能性(解釈性)、大半のケースで求められているのは厳密な分類・回帰根拠ではなく受け手の「納得感」なので、特に実ビジネス上は説明可能性に長けたモデルを開発するより、納得できないお客さんを巧みに関係性構築した上で口八丁で完璧に説得できる凄腕営業ピープルを雇う方が重要— TJO (@TJO_datasci) 2019年11月23日 これ自体は与太話なので実際どうでも良い*1のですが、最近色々な研究や技術開発の進展はたまた実務家による考察などを見ていて、「機械学習の説明可能性(解釈性)というのは思った以上に複雑な迷宮だ」と感じることがままあったのでした。 ということで、今回の記事では僕のサーベイの範囲でザッと見て目についた資料などを超絶大雑把にリストアップした上で、主に実務における説明可能性とは何かとい
この記事はMERPAY TECH OPENNESS MONTHの15日目の記事です。 こんにちは。メルペイのPayment PlatformチームでPaymentServiceの開発を担当するエンジニアの @foghost です。 メルペイではマイクロサービスのアーキテクチャで決済システムを開発しています。その中でPaymentServiceは決済トランザクション管理の基盤サービスとして、下位層のサービス(外部サービスも含め)が提供する各種決済手段を利用して、上位層のサービス(メルカリ、NFC,コード払いなど)に必要な決済フローを共通APIとして提供しています。PaymentServiceが提供する決済処理に複数のサービスを跨いでお金の動きを正確に管理する必要があるので、作り始めた頃から決済トランザクション管理を最も重要な課題として、サービスを跨いでもデータの整合性が取れる仕組みを作ってき
平成31年4月1日から、国立国会図書館の提供する書誌データは、利用目的にかかわらず、どなたでも無償で自由にご利用いただけるようになります。 対象となる書誌データの範囲や書誌データを取得する方法の詳細等については、今後、書誌データを提供するそれぞれのデータベースにおいて、順次お知らせいたします。 これを機に、ぜひ様々な場面で国立国会図書館の書誌データをご利用ください。 補足(2月26日) 対象となるのは、以下の書誌データです。書誌データとは、書名、著者名、出版社、出版年などの情報のことです。資料の本文は含まれません。 国立国会図書館が作成した書誌データ(典拠データ、雑誌記事索引データを含む) 外部機関との契約の範囲で提供できる書誌データ 資料の検索や蔵書リストの作成等にぜひご活用ください。
こんにちは。去年の今頃は Rust を書いていました。 インフラストラクチャー部データ基盤グループの id:koba789 です。 背景 クックパッドではデータ基盤の DBMS として Amazon Redshift を利用しています。 既存のデータ基盤について詳しいことは クックパッドのデータ活用基盤 - クックパッド開発者ブログ を参照してください。 今まで、ログは数時間に1度、定期実行ジョブで Redshift 内のテーブルにロードしていました。 ロードジョブの実行間隔が "数時間" と長めなのは、Redshift のトランザクションのコミットが遅いためです。 クックパッドでは数百ものログテーブルがあるため、仮に1分おきにすべてを取り込もうとすると秒間数回以上のコミットを行わなければなりません。 このような頻繁なコミットは Redshift 全体のパフォーマンスを悪化させてしまいます
みなさん、初めまして、お久しぶりです、こんにちは。 フューチャーアーキテクト2018年新卒入社、1年目エンジニアのTIG(Technology Innovation Group)所属の澤田周吾です。大学では機械航空工学を専攻しており、学生時代のインターンなどがキッカケで入社を決意しました。 実は、本記事でフューチャーテックブログの2記事目となります。インターン時代も ジャガイモARの記事 を書かせて頂きました。入社してからもこうして業務で学んだIT技術を記事に書くという機会を貰え、なんだか懐かしいやら感慨深いやらの思いで一杯です。 さて、3ヶ月の新人研修後にすぐに配属されたプロジェクトで、AWSを使ったビックデータ分析のための基盤構築をお手伝いしています。わたしは分析のための前処理であるETL(Extract、Transform、Load)処理部分をちょっと変わった性格の先輩方と一緒に開発
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く