AWS Summit Tokyo 2016 Developer Conference (2016/06/03)
TODO: 必要なら図を足す 他に書いた方が良いPros/Consのリクエストがあったら追記 内部のイベントストリームの扱い Pros: Inputがスケーラブルに実装しやすく,データストリームを正常時/エラー時で切り替えやすい Cons: エラーハンドリングがブロッキングモデルよりも複雑になりやすい 以下長々と理由書きます. Fluentdはイベントストリームを効率良く,またロバストに扱うことを目的に設計されています.そのため,独自の転送プロトコル(forwardプラグイン)を実装していますし,内部のイベントのハンドリングもそれに沿うようになっています.ただ,それによって相性の悪い操作とかもあります. Fluentdはバッファ機能を提供しており,これによって転送の効率化とエラー時のデータロスを防ぐ設計になっています.が,あまりにも書き込み先が遅いなどの問題があると,バッファの制限を超えて
『サーバ/インフラエンジニア養成読本 ログ収集~可視化編』出版記念!執筆者が語る大講演会! レポート[セッション編] 9月9日、シナジーカフェ GMO Yoursにて『サーバ/インフラエンジニア養成読本 ログ収集~可視化編』出版記念!執筆者が語る大講演会!が開催されました。主催はトレジャーデータ株式会社と株式会社インテリジェンス「dots.」です。本稿では、このイベントの模様をレポートします。 司会進行はトレジャーデータの池内さんです。 池内さんが今回のイベントの経緯を話した後、本書『サーバ/インフラエンジニア養成読本 ログ収集~可視化編』を執筆した4人の著者から、一人あたり持ち時間15分間の発表がありました。 鈴木健太氏『サービス改善はログデータ解析から』 鈴木健太氏は本書の特集タイトルと同じ「サービス改善はログデータ解析から」というタイトルで発表しました。 鈴木さんはVOYAGE GR
2015春インターン講義資料 これの続編です ピクシブ新広告サーバー構築物語 // Speaker Deck https://speakerdeck.com/catatsuy/pikusibuxin-guang-gao-sabagou-zhu-wu-yu
結局3月からそのまま働くことにしました。 先日のエントリを書いて以来、本当に多くの方から声をかけていただきました。ありがとうございました。本来なら個別にご報告するべきところですが、ちょっと数が多くて厳しいので、このエントリをもって報告にかえさせていただきます。 またいろいろと話を伺う中で考えたことなどもあるので、そちらについては別途エントリを書くつもりです。 様々な話を聞いた上で、1月末の時点では自分でもわかっていなかったことがわかりました。最終的に重視したのは以下の点です。 技術ベンチャーであること ベンチャー企業として大きな成功を狙っていること、またそれが有望に見えること 優秀なプログラマが同僚に多いこと 退職エントリに書いた観点のほかに、この3点が今回の自分にとって重要だということは後から見えてきたことでした。 ということで Treasure Data に入社しました。Softwar
こんにちは。古橋です。 先日の*1 データ転送ミドルウェア勉強会で、新しいオープンソースツール Embulk をリリースしました。 Embulk, an open-source plugin-based parallel bulk data loader from Sadayuki Furuhashi Embulk は、リアルタイムなログ収集では常識となった fluentd のバッチ版のようなツールで、ファイルやデータベースからデータを吸い出し、別のストレージやデータベースにロードするためのコンパクトなツールです。 fluentd と同様にプラグイン型のアーキテクチャを採用 しているため、RubyやJavaで簡単なコードを書くことで、様々なファイルフォーマットやストレージに対応することができます。一方で fluentd とは異なり、高速性やトランザクション制御、スキーマを使ったデータのバリ
Hadoopはバッチ処理の課題への解決策となり得るか 企業のあらゆる領域にITが浸透し、それに伴って会計や在庫管理、あるいは販売管理などシステムから出力されるデータ量も拡大し続けています。このデータ量の増大によって、多くの企業において新たな課題となりつつあるのがバッチ処理の遅延です。 たとえば、毎日の売上を集計するために、販売管理システムからデータを吸い上げてバッチ処理を行うといった場合、サーバリソースに余裕がある夜間にバッチを走らせ、翌朝担当者が出社する頃には集計データが出力されているという形が一般的でしょう。しかし、ITが事業のさまざまな領域で活用されるようになったことから、バッチ処理すべきデータ量は増大し続けています。これにより、バッチ処理が時間内に終わらない、「突き抜け」と呼ばれる事態に頭を悩ませる企業が増えているのです。 突き抜けが発生すると、さまざまな領域に大きな影響が及ぶ恐
オープンソースのバルクデータローダー「Embulk」登場。fluentdのバッチ版、トレジャーデータが支援 何ギガバイトもあるCSVをデータベースに読み込ませるようなバルクデータをバッチ処理するためのツール「Embulk」がオープンソースで公開されました。 コミッターとして開発しているのは、ログ収集ツールとして知られるfluentdなどの開発者として知られる古橋貞之氏、西澤無我氏、中村浩士氏らで、3人が所属するTreasure Dataも開発を支援しています。 古橋氏はEmbulkについて「簡単に言うとfluentdのバッチ版です」と説明。1月27日に行われた「データ転送ミドルウェア勉強会」で、Embulkの紹介を行いました。 Embulkはプラグインベースのバルクデータローダー 古橋氏はまず、例えばCSVファイルをPostgreSQLに読み込ませようとすると、CSVの日付のフォーマットが
Treasure Data, Inc. 古橋貞之です。 来たる1月27日、新しいOSSツール Embulk をリリースします。 EmbulkはFluentdのバッチ処理版のようなツールで、CSVデータやアクセスログなどの構造化データを高い信頼性で転送することができるコンパクトなツールです。 入力元、出力先、ファイルフォーマット、圧縮方式などをプラグインで拡張することができ、S3上のCSVファイル、PostgreSQL、Elasticsearch、Salesforce.com、Treasure Dataなど、異種のストレージやサービスの間でデータを転送・同期することが可能になります。 Fluentdとは異なって、1発実行、あるいは1時間や1日毎で実行するバルク処理に特化しており、 トランザクション制御 冪等性 高速性 スキーマを使ったvalidation などの拡張を備えています。 1回で使
リアルタイム集計・可視化環境(Norikra+Kibana4+Elasticsearch+Fluentd+Nginx)をfig一発で気楽に立ち上げる。ElasticsearchDockerNorikraKibanafig このエントリーはドワンゴアドベントカレンダー17日目のエントリーです。 ストリーム処理エンジンのNorikraについて、最近聞くことが増えてきました。 使ってみたい方は結構いるのではないでしょうか。 とは言え、「ストリーム処理を試してみたい、環境構築してやってみよう」と思っても、JRuby入れてNorikra入れて、fluentd入れてNorikraとのin/outの連携して、集計結果を格納する為にElasticsearch構築して、Kibanaから見れるようにして、認証機構や改廃の機構も入れて...あ、ストリームソースも用意しなきゃ...となって、そこそこ手間が掛かりま
Norikra とは Norikra とはリアルタイムイベントストリームに対して SQL ライクな言語で処理できる cool なプロダクトです。 例えば、Nginx のアクセスログを Norikra に流し込み、n分あたりのアクセス数やレスポンスタイムをリアルタイムに集計するといった事が可能です。 もちろん Nginx だけではなく、ご自身が書かれたアプリが出力するログも流し込んで集計できます。 更に Fluentd を組み合わせると GrowthForecast や Mackerel といったツールに集計結果を渡して可視化するなどといったことも容易なので、速報値集計やシステム運用状況の可視化に持ってこいです。 Fluentd と Norikra を活用して可視化する例 fluent-plugin-norikra と可視化ツール(GrowthForecast等)を組み合わせるとすぐに可視化
モバイルファースト室の @rejasupotaro です。 クックパッドでは、サービスをリリースしてログを収集して分析して改善してまたリリースして、というサイクルを素早く回すことでより良いものを作るということをウェブではやってきました。 クックパッドのサービス開発のフレームワークをモバイルアプリでも適用したいのですが、モバイルアプリにはウェブアプリと違ったロギングの難しさがあります。 今回はモバイルアプリのロギングの問題点とPureeというログ収集ライブラリについて話します。 モバイルアプリのロギングの難しさ ウェブアプリでは、基本的にはサーバー側でログを収集することができますが、モバイルアプリの場合は画面の制御はアプリ側で行われ、APIを介してデータを受け取るため、クライアント側でログを収集して送信する必要があります。 アプリのログを収集するのに、画面遷移をしたりタップするたびにサーバー
Logging Pods in a Kubernetes Cluster using Fluentd, Elasticsearch and Kibana To enable logging of the activity inside a pod using Elasticsearch set FLUENTD_ELASTICSEARCH=true in config-default.sh before launching the cluster. When a cluster is created a Docker container will be placed on each node which uses the Fluentd log collector to shovel all the container logs to an instance of Elasticsearch
Googleがオープンソースとして公開したKubernetesは、コンテナ型仮想化ソフトウェアのDockerを管理するツールです。開発プロジェクトにはDocker、RedHat、IBM、VMware、マイクロソフトなど多数の企業が参加を表明しています。 Kubernetesは、複数のDockerコンテナにまとめてアプリケーションをデプロイし、設定を行い、稼働状況を監視、管理し、サービスへのトラフィックをルーティングするなど、クラスタとしてDockerを運用するための多くの機能を備えています。 このKubernetesで使われる標準のログ収集ツールとして、オープンソースのfluentdが採用されたことが明らかになりました。下記はそれを伝えるGoogle佐藤氏のツイート。 fluentdがKubernetesの標準ログコレクタに採用されたぜ!!! https://t.co/V8VDM4IE7e
シリコンバレーの投資家からも一目置かれるTreasure Dataの成長を支えているその技術力と経営理念について、Treasure DataのCTOである太田一樹氏が基調講演で語ったその内容をレポートします。 Feature Creepではなく“ナタ”を作る 太田氏をはじめとするTreasure Dataの創業メンバーはいずれもHadoopやmemcached、MongoDBなど、現在のビッグデータブームを支えるオープンソース技術の開発に学生時代から関わっていました。これらのオープンソースプロダクト、とくにHadoopに触れる経験が長かったことが、Treasure Data設立の大きなきっかけになっています。 「Hadoopの登場はこれまで使いづらいだけの存在だった分散システムの世界を大きく変えた。一方で、ユーザ企業がHadoopをデプロイし、運用をはじめても、結局はメンテナンスが大変にな
アクセスランキングを作ってみよう! 今、Rails4 を使ってアクセスログからランキング作ってみたいなぁーと思ってたんですが、みんなどうやってんだろうって聞いてみたところ、 Fluentd ってのを組み込むだけで簡単に集計とかできるよーって話だったので、使ってみました。 Fluentd とは まず読み方は、 「ふるーえんとでぃー」であって、「ふるーえんど」とかじゃないっぽいです。d はたぶんデーモンの d 。 色々説明面倒なんで省略しますが、ログ収集元とか出力先が簡単に設定できて、自分の欲しい形でログ保持できますよーって感じっぽい。なので、 「シェルスクリプトで処理した tail の処理結果をファイルに」「nginx から出力されたアクセスログを mongoDB に」とかそういう処理を自前で書く必要なく、簡単な設定だけでいけちゃう。 詳しくは → 柔軟なログ収集を可能にする「fluentd
Fluentdなどから収集したメッセージをelasticsearchへ格納してKibanaで可視化するソリューションは素晴らしく、とても人気があります。次の画像のように見栄えが良いことも特徴です。 このダッシュボードアプリであるKibanaはJavaScriptアプリケーションです。そのため静的ファイルを配置すればどこでも動きます。 しかしそれだけのためにApacheやNginxなどのWEBサーバを新たに起ち上げるのは手間ですよね。 実は新たに起ち上げない方法もあるのです。こんな時に役立つTipsを紹介します。 elasticsearchのsiteプラグイン siteプラグインは、ウェブベースのインターフェースを提供するものです。 elasticsearchの挙動へ変更を加えるものではないため、サービス停止(再起動)を行わずにインストール・アップデート・アンインストールができます。 モニタ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く