Lessons learned while taking Presto from alpha to production at Twitter. Presented at the Presto meetup at Facebook on 2015.03.22. Video: https://www.facebook.com/prestodb/videos/531276353732033/Read less
Twitter runs multiple large Hadoop clusters that are among the biggest in the world. Hadoop is at the core of our data platform and provides vast storage for analytics of user actions on Twitter. In this post, we will highlight our contributions to ViewFs, the client-side Hadoop filesystem view, and its versatile usage here. ViewFs makes the interaction with our HDFS infrastructure as simple as a
Having a good grasp of HDFS recovery processes is important when running or moving toward production-ready Apache Hadoop. An important design requirement of HDFS is to ensure continuous and correct operations to support production deployments. One particularly complex area is ensuring correctness of writes to HDFS in the presence of network and node failures, where the lease recovery, block recove
Yahoo! is one of the most-visited web sites in the world. It runs one of the largest private cloud infrastructures, one that operates on petabytes of data every day. Being able to store and manage that data well is essential to the efficient functioning of Yahoo!`s Hadoop clusters. A key component that enables this efficient operation is data compression. With regard to compression algorithms, the
As we continue to evolve our data infrastructure, we’re constantly looking for ways to maximize the utility and efficiency of our systems. One technology we’ve deployed is HDFS RAID, an implementation of Erasure Codes in HDFS to reduce the replication factor of data in HDFS. We finished putting this into production last year and wanted to share the lessons we learned along the way and how we incre
HDFSにはdfs.datanode.failed.volumes.toleratedという設定項目があります。defaultは0。 <property> <name>dfs.datanode.failed.volumes.tolerated</name> <value>0</value> <description>The number of volumes that are allowed to fail before a datanode stops offering service. By default any volume failure will cause a datanode to shutdown. </description> </property>内容は下記に詳しいです。 By default, the failure of a single dfs.data.dir
夏はビールがことごとくうまいなと感じる@masudaKです。 少し前にHadoop専用サーバの環境構築をする機会に恵まれたのですが、ディスク構成をどうするかでわりと目新しいことばかりだったので、備忘録も兼ねて文字に起こしておきます。 前提として、HadoopのMasterではJobTrackerとNameNodeが動いて、SlaveではTaskTrackerとDataNodeが動いてるとします。DataNodeが動くSlaveはクラスタ構成になっていて、HDFSによってデータが分散・冗長化されているとします。 今回の記事ではジョブのデータを読み書きし、IOに対するケアが必要なSlaveのディスク構成を対象とします。Masterはメタデータなど大事なデータは保存してますが、読み・書きの量は少ないのと、単にRAID1で組んでおけば、ディスクに対するケアはそこまで必要ないので、この記事では取り上
Fluentd CollectorからHDFSに書き込むのに fluent-plugin-webhdfs を利用していますが、 DataNodeが1台変死した際に色々おかしくなったので書き留めておきます。 原因特定と解決方法の確立はできていません!あしからず。 直接の原因はSLAVEサーバ(DataNode)が中途半端に落ちたこと 1台のSLAVEサーバに異常が発生したことが直接の原因であり、状態としては SLAVEサーバがKernel Panic!! ホストへのPingは通る 各種デーモンへのTCP接続は確立できる 各種デーモンは一切お返事をしてくれない 試したのがDataNodeでないのが心苦しいですが、復旧前に確認できたのはSSH接続で、 ssh -p22 host は無応答で、telnet host 22 はリクエスト待ち状態になる半死状態でした。 この状態が、Fluentdまたは
Hadoop では一つのノードあたり複数ディスクを使うことができますが,ディスクを増やすことによってどれくらい性能が向上するか調べました. HDFSで使用するディスクをdfs.data.dirにコンマ区切りで記入することで複数使えます. <property> <name>dfs.data.dir</name> <value>/data/local/${user.name}/hadoop/dfs/data, /data/local2/${user.name}/hadoop/dfs/data</value> </property> しかし,これだけではまだダメで,mapタスク,reduceタスクが中間データを書き込むディスクも複数指定しなしとHadoopのジョブで複数ディスクを効率良く使えません.mapred.local.dir で設定可能です. <property> <name>mapre
編集ログとHDFSの追記 以前、HDFSのfsimageとeditsの変更 | Tech Blogに書いたように、HDFSのeditsにはトランザクションが記録されます。 HDFSのappend(追記)機能を使って書き込んだ場合、editsの内容はどのように見えるのでしょうか? のコードを利用させていただき検証しました。 サンプルコードの準備 上記のコードをコピーしてJavaのファイルを作成します。(ただ、パッケージ行のみコメントアウトしました) Avroの準備 コードで使用しているFsInputはCDH4には含まれていないようなので、http://avro.apache.org/からソース一式をダウンロードします。 $ wget http://ftp.tsukuba.wide.ad.jp/software/apache/avro/stable/avro-src-1.7.4.tar.gz
以前に晒したFluentdからWebHDFSに対してログを流し込むフローの部分を、 少しキツ目の環境にブっこんで運用したら色々問題点がでてきたので記しておきます。 どちらかというとFluentdというよりはHDFSよりの話になります。 HDFSファイルのCREATEエラー 複数のFluentd CollectorからHDFSの1ファイルへ共通して書き込むというスタイルをとってみました。こんな感じに1分毎のHDFSファイルとして。 Collector-01 ─┐ Collector-02 ─┤ Collector-03 ─┼─> HDFS %Y%m%d-%H%M.log Collector-04 ─┤ ...
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く