タグ

hadoopに関するchiku-sanのブックマーク (4)

  • Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja - Qiita

    From Fluentd Meetupに行ってきました これを読んだ時、BigQueryの検索スピードについてちょっと補足したくなった。確かにFluentd Meetupのデモでは9億件を7秒程度で検索していたが、BigQueryの真の実力はこれより1〜2ケタ上だからだ。ちょっと手元で少し大きめのテーブルで試してみたら、120億行の正規表現マッチ付き集計が5秒で完了した。論より証拠で、デモビデオ(1分16秒)を作ってみた: From The Speed of Google BigQuery これは速すぎる。何かのインチキである(最初にデモを見た時そう思った)。正規表現をいろいろ変えてみてもスピードは変わらない。つまり、インデックスを事前構築できないクエリに対してこのスピードなのである。 価格も安い。さすがに120億行のクエリは1回で200円もかかって気軽に実行できなさそうであるが、1.2億

    Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja - Qiita
  • 1台でHBase, Hive, Pig, HUE(旧Cloudera Desktop)を試してみる(Ubuntu + Cloudera)

    必要なもの ・Linux(Ubuntu)+Cloudera版Hadoop環境(1台)→ 構築方法はこちら ・インターネット接続 ・Cloudera社のCDH3のHBase, Hive, Pig, HUEのパッケージ(aptでインターネットからインストール) 作業手順 以下の、1. HBase, 2. Pig, 3. Hive, 4. HUEの手順は、独立して試すことができますし、一つの環境でまとめて試すこともできます。(それぞれデータの管理は別々です。) 1. HBase 1-1. インストール: Linux環境にて、rootで作業します。 1-1-1. HBaseをインストールします。 apt-get -y install hadoop-hbase apt-get -y install hadoop-hbase-master apt-get -y install hadoop-hbase

    1台でHBase, Hive, Pig, HUE(旧Cloudera Desktop)を試してみる(Ubuntu + Cloudera)
  • 「大量データ処理なら任せて」日本人技術者、世界へ挑戦【湯川】 | TechWave(テックウェーブ)

    [読了時間:2分] 次の時代の覇者は、大量のデータを取得し、分析する企業ー。国光宏尚さんの記事にある通りだが、そのデータ分析の領域で世界に挑戦しようという日技術者がいる。 Hapyrus(ハピルス)社の藤川幸一さん、鈴木健太郎さんで、大量のデータを並列分散処理する画期的テクノロジーとして注目を集めるhadoop(ハドゥープ)をクラウドベースで手軽に利用できるサービスを開発。国内のエンジェル投資家から出資を受け、ビザが取得でき次第、10月にも米シリコンバレーに渡り世界に向けサービス提供を始めるという。 ありとあらゆるものがデジタルデータとして入手、保存、分析可能になりつつある中で、問題は爆発的に増加するデータを処理するコンピューター技術。これまではサーバーにインストールするタイプのデータベース技術を向上させることでなんとかデータの増加速度に追いついてきたが、さすがに昨今のデータの爆発的増

    「大量データ処理なら任せて」日本人技術者、世界へ挑戦【湯川】 | TechWave(テックウェーブ)
  • NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

    業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という

    NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮
  • 1