こんにちは、平野です。 SparkはHadoopと一緒に語られることが多いのでHadoopと一緒でないと分散処理環境が使えないと思っている方もいるかもしれませんが、Sparkだけで分散処理のクラスタを作る機能があり、構築も非常に簡単ですので、その方法を紹介します。 以下、Sparkをインストールした場所をSPARK_HOMEとします。 なおインストールの手順は こちら の記事を参照してください。 手順 まずは、クラスタのマスタープロセスを立ち上げます。 クラスタを管理するコマンド一式は$SPARK_HOME/sbin/ディレクトリの中に含まれています。 $ cd $SPARK_HOME $ sbin/start-master.sh starting org.apache.spark.deploy.master.Master, logging to /Users/hirano.shigeto
2018年5月22日、トレジャーデータ株式会社が主催するイベント「PLAZMA Data Platform Day: TD Tech Talk」が開催されました。2日間に渡って、TreasureDataを活用する各企業が、運用上の知見やヒントを共有する本イベント。1日目のData Platform Dayでは、分散処理システムの構築やエコシステム開発、運用に対する取り組みや技術について、各社が知見を語ります。プレゼンテーション「ヤフーにおけるHadoop Operations」に登場したのは、ヤフー株式会社グリッドDevOpsチーム リーダーの安達寛之氏。講演資料はこちら ヤフーにおけるHadoop Operations 安達寛之氏(安達):ご紹介ありがとうございます。ヤフーの安達です。タイトルのとおり「ヤフーにおけるHadoop Operations」について話をさせていただきます。先ほ
上記の通り、フェイルオーバー発生直前には RegistryAdminService という名前の thread が、全 thread 数のほとんど (97.6 %) を占めていたことがわかりました。 1-8. RegistryAdminService Thread 今度は、「この RegistryAdminService thread はどのようなものであるのか」を確認することにしました。この名前の thread は RMRegistryService クラスにおいて、以下のいずれかのイベントハンドリング処理で生成されることがわかりました。 RMStateStore への Application 情報の登録時( eventType = RMStateStoreEventType.STORE_APP のイベント発生時)に、 RegistryAdminService thread を生成して、
Hadoopが出てきてから10年,ビッグデータという言葉が流行り始めてからでも5年以上が経ち,2016年現在では,Hadoopエコシステムを使ったデータ活用が当たり前のものとしてあります.とはいえ巷に出回っているビッグデータ活用事例というのは,綺麗な上澄みだけをすくい取っていたり,リリースしたてのピカピカのときに発表されていたり,というのが大半で,それが結構個人的に気に食わなかったりします. ビッグデータが当たり前のものになっている現在においては,単に作っただけで価値があるというフェーズは過ぎ去っていて,継続的に運用しながら価値を生み出し続けることが,非常に重要な問題だと思います.特にビッグデータ界隈はミドルウェアやツールの陳腐化が激しく,またビジネス自体の変化速度も過去と比べてどんどん速くなっているわけで,そういった変化に対応していくためには,また別のスキルが必要とされるのではないでしょ
4. 4© Cloudera, Inc. All rights reserved. 会社概要 - Cloudera(クラウデラ) 設⽴ 2008年、以下4社出⾝の社員により設⽴ 本社 アメリカ パロアルト マーケット 機械学習とアドバンスドアナリティクスのプラットフォーム ビジネスモデル オープンソースとプロプラ製品のハイブリッド 従業員数 世界全体で 1,400⼈以上 事業展開 世界28カ国 世界レベルのサポート 24x7 対応グローバルスタッフ(⽇本語は8x5) EDHを使ったプロアクティブ・予測サポートプログラム ミッションクリティカル 世界中の様々な業界の本番環境 - ⾦融、⼩売、通信、メディア、ヘ ルスケア、エネルギー、政府 最⼤のエコシステム 2,600 社以上のパートナー Cloudera University 45,000⼈ 以上がトレーニングを受講 https://www
スケールするメッセージングシステムを構築せよ ―チャットワークとNTTデータが挑んだKafkaベースの"土管"づくり クラウドコンピューティングが普及し、多くの企業が日常的に膨大で多様なデータを扱うようになるにともない、ITの世界では"スケール"という言葉がごく一般的に使われるようになりました。ニーズに応じて利用するコンピューティングリソースを柔軟に増減し、処理を分散してシステム全体の稼働力を上げる"スケール"というしくみは、いまや"あって当然"の概念となり、加えてここ数年はスケールにおいてもよりリアルタイムに近いパフォーマンスが求められるようになっています。 これはサーバやストレージといったハードウェアリソースだけではなく、データベースやミドルウェアにおいても同様で、スケールしやすい技術としてHadoopやPostgreSQLといったオープンソースプロダクトが選ばれるケースが飛躍的に増え
Hadoopの時代は終わった、という言説をたまに見かけるようになりました。 もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。 本記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。 中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。 以上をご了承の上、読み進めてください。 要約 データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く