[B! インフラ][hadoop] kanno_sのブックマーク

kanno_s id:kanno_s

インフラとhadoopに関するkanno_sのブックマーク (8)

Get started with .NET for Apache Spark
kanno_s 2019/11/09
インフラ

aws

hadoop

spark
リンク
Hadoop不要！Sparkクラスタを手軽に構築 | DevelopersIO
こんにちは、平野です。 SparkはHadoopと一緒に語られることが多いのでHadoopと一緒でないと分散処理環境が使えないと思っている方もいるかもしれませんが、Sparkだけで分散処理のクラスタを作る機能があり、構築も非常に簡単ですので、その方法を紹介します。以下、Sparkをインストールした場所をSPARK_HOMEとします。なおインストールの手順はこちらの記事を参照してください。手順まずは、クラスタのマスタープロセスを立ち上げます。クラスタを管理するコマンド一式は＄SPARK_HOME/sbin/ディレクトリの中に含まれています。 $ cd $SPARK_HOME $ sbin/start-master.sh starting org.apache.spark.deploy.master.Master, logging to /Users/hirano.shigeto
kanno_s 2019/11/09
インフラ

hadoop

aws
リンク
ヤフーの大規模データ基盤を支えるHadoop運用法 - ログミーTech（テック）
2018年5月22日、トレジャーデータ株式会社が主催するイベント「PLAZMA Data Platform Day: TD Tech Talk」が開催されました。2日間に渡って、TreasureDataを活用する各企業が、運用上の知見やヒントを共有する本イベント。1日目のData Platform Dayでは、分散処理システムの構築やエコシステム開発、運用に対する取り組みや技術について、各社が知見を語ります。プレゼンテーション「ヤフーにおけるHadoop Operations」に登場したのは、ヤフー株式会社グリッドDevOpsチームリーダーの安達寛之氏。講演資料はこちらヤフーにおけるHadoop Operations 安達寛之氏（安達）：ご紹介ありがとうございます。ヤフーの安達です。タイトルのとおり「ヤフーにおけるHadoop Operations」について話をさせていただきます。先ほ
kanno_s 2018/12/07
hadoop

インフラ
リンク
データエンジニアリング関連ソフトウェアの障害対応事例 - LINE ENGINEERING
上記の通り、フェイルオーバー発生直前には RegistryAdminService という名前の thread が、全 thread 数のほとんど (97.6 %) を占めていたことがわかりました。 1-8. RegistryAdminService Thread 今度は、「この RegistryAdminService thread はどのようなものであるのか」を確認することにしました。この名前の thread は RMRegistryService クラスにおいて、以下のいずれかのイベントハンドリング処理で生成されることがわかりました。 RMStateStore への Application 情報の登録時（ eventType = RMStateStoreEventType.STORE_APP のイベント発生時）に、 RegistryAdminService thread を生成して、
kanno_s 2018/12/06
hadoop

インフラ
リンク
ビッグデータの成熟期に改めて見直したいETL - About connecting the dots.
Hadoopが出てきてから10年，ビッグデータという言葉が流行り始めてからでも5年以上が経ち，2016年現在では，Hadoopエコシステムを使ったデータ活用が当たり前のものとしてあります．とはいえ巷に出回っているビッグデータ活用事例というのは，綺麗な上澄みだけをすくい取っていたり，リリースしたてのピカピカのときに発表されていたり，というのが大半で，それが結構個人的に気に食わなかったりします．ビッグデータが当たり前のものになっている現在においては，単に作っただけで価値があるというフェーズは過ぎ去っていて，継続的に運用しながら価値を生み出し続けることが，非常に重要な問題だと思います．特にビッグデータ界隈はミドルウェアやツールの陳腐化が激しく，またビジネス自体の変化速度も過去と比べてどんどん速くなっているわけで，そういった変化に対応していくためには，また別のスキルが必要とされるのではないでしょ
kanno_s 2018/09/04
インフラ

hadoop

ETL

ビッグデータ
リンク
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
4. 4© Cloudera, Inc. All rights reserved. 会社概要 - Cloudera（クラウデラ）設⽴ 2008年、以下4社出⾝の社員により設⽴本社アメリカパロアルトマーケット機械学習とアドバンスドアナリティクスのプラットフォームビジネスモデルオープンソースとプロプラ製品のハイブリッド従業員数世界全体で 1,400⼈以上事業展開世界28カ国世界レベルのサポート 24x7 対応グローバルスタッフ(⽇本語は8x5) EDHを使ったプロアクティブ・予測サポートプログラムミッションクリティカル世界中の様々な業界の本番環境 - ⾦融、⼩売、通信、メディア、ヘルスケア、エネルギー、政府最⼤のエコシステム 2,600 社以上のパートナー Cloudera University 45,000⼈以上がトレーニングを受講 https://www
kanno_s 2018/05/31
hadoop

db

インフラ
リンク
スケールするメッセージングシステムを構築せよ ―チャットワークとNTTデータが挑んだKafkaベースの&quot;土管&quot;づくり | gihyo.jp
スケールするメッセージングシステムを構築せよ ―チャットワークとNTTデータが挑んだKafkaベースの"土管"づくりクラウドコンピューティングが普及し、多くの企業が日常的に膨大で多様なデータを扱うようになるにともない、ITの世界では"スケール"という言葉がごく一般的に使われるようになりました。ニーズに応じて利用するコンピューティングリソースを柔軟に増減し、処理を分散してシステム全体の稼働力を上げる"スケール"というしくみは、いまや"あって当然"の概念となり、加えてここ数年はスケールにおいてもよりリアルタイムに近いパフォーマンスが求められるようになっています。これはサーバやストレージといったハードウェアリソースだけではなく、データベースやミドルウェアにおいても同様で、スケールしやすい技術としてHadoopやPostgreSQLといったオープンソースプロダクトが選ばれるケースが飛躍的に増え
kanno_s 2017/07/11
aws

アーキテクチャ

hadoop

インフラ
リンク
「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮
Hadoopの時代は終わった、という言説をたまに見かけるようになりました。もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。本記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。以上をご了承の上、読み進めてください。要約データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが
kanno_s 2017/07/11
DB

hadoop

mapreduce

インフラ
リンク
1