タグ

hiveに関するshimookaのブックマーク (16)

  • ログパイプラインの4つの問題にLINEはどう立ち向かうか シンプルかつ拡張性のあるアーキテクチャを叶える、Icebergという選択肢

    自己紹介と後半のアジェンダ 尾野健氏:ここからはスピーカーが代わります。尾野健と言います。Data Engineering1 teamに所属していて、LINEには2019年に入社しました。現在はインジェスチョンパイプラインを開発中です。 後半のアジェンダです。現在のログパイプラインの概要、そのログパイプラインが抱える問題、その問題がIceberg導入によってどのように解決されるか。そしてFlink Iceberg applicationの詳細、最後にプロジェクトの今後の進め方を説明します。 ログパイプラインの概要 それでは現在のログパイプラインの概要です。(スライドを指して)この図は、現在のログパイプラインの最初の段階を示しています。もともとはシンプルなアーキテクチャでした。Kafka、Flink、HDFS上のHive tableという構成で、テーブルはAppend Onlyです。 ユーザ

    ログパイプラインの4つの問題にLINEはどう立ち向かうか シンプルかつ拡張性のあるアーキテクチャを叶える、Icebergという選択肢
  • jpcodeqa.com

    jpcodeqa.com 2024 著作権. 不許複製 プライバシーポリシー

  • 小さなファイルが大きな問題を引き起こす

    原文: https://blog.cloudera.com/blog/2019/05/small-files-big-foils-addressing-the-associated-metadata-and-application-challenges/ 著者: Shashank Naik, Bhagya Gummalla 訳注: 稿は2019/5/9に公開されたブログ記事の翻訳です。 「スモール・ファイル」はApache Hadoopの世界では一般的な課題であり、注意して扱わないと、いくつかの複雑な問題を引き起こす可能性があります。Apache Hadoop分散ファイルシステム(HDFS)は、テラバイトからペタバイトの範囲にわたる、大きなデータセットを格納して処理するために開発されました。しかしHDFSはスモール・ファイルを効率的に格納しないため、スモール・ファイルによってNameNo

    小さなファイルが大きな問題を引き起こす
  • https://support.hpe.com/connect/s/?language=en_US&language=ja

    shimooka
    shimooka 2020/11/17
    『SSP(サーバサイドプロパティ)』なるほど。。。
  • HiveQL で Common Table Expressions (CTE a.k.a. WITH 句) を利用する際に注意すべきこと

    HiveQL 弱者が Hive における WITH 句の実装を知らずに利用したら痛い目に遭いそうになったので、メモを遺しておきます。 はじめに SQL でサブクエリが多段になったり FROM 句で UNION ALL する類のちょっと複雑な集計クエリを書こうとしたときに、WITH 句で同じようなサブクエリをひと纏めにし、あたかもテンポラリテーブルのように扱ってクエリの見通しを良くしたり、(RDBMS にもよりますが) あわよくばクエリのパフォーマンス改善も狙う、なんてのはよくあることだと思います。 さて HiveQL では WITH 句をサポートしているのか? というと、HIVE-1180 を参照するに、Hive 0.13.0 より対応しているようです。利用方法は こちら にあるとおりで、SQL の WITH 句と大差ないことがわかります。 ただ、Hive における CTE の実装を理解し

  • 「Apache Hive 1.1」リリース、データ加工ツールの追加などが行われる | OSDN Magazine

    Apache Hive開発チームは3月9日、Apache Hadoopベースのデータウェアハウス構築ソフトウェア「Apache Hive」の最新版「Apache Hive 1.1.0」をリリースした。プロジェクトのWebサイトより入手できる。 Apache Hiveは米FacebookがApache Software Foundation(ASF)に寄贈したデータウェアハウスソフトウェア。分散ストレージ環境にある大規模なデータセットのクエリや管理が可能で、SQLライクな言語「HiveQL」でデータクエリが可能。Map/Reduce開発車がカスタム構築したマッパーに組み込むこともできる。HBase、RCFileなども利用できる。 1.1は2015年2月に公開された初の正式版「Apache Hive 1.0」に続くもので、Hadoopは1系と2系に対応する。データの抽出や加工、ロード(ETL)

    「Apache Hive 1.1」リリース、データ加工ツールの追加などが行われる | OSDN Magazine
  • 2014年版 Hadoopを10分で試す(4) まずはHiveから(中編)

    メタストアの役割 まず、Hadoopはデータベースではありません。HiveはHadoop(Hadoop分散ファイルシステム)にあるデータを処理するために、HiveQLにより開始されるMapReduceジョブをHadoopクラスタに投入(サブミット)するだけです。Hadoopクラスタからみれば、ワードカウントや円周率を計算するようなMapReduceジョブを実行することと、何の違いもありません。 このとき、MapReduceとして処理するために用いられるのがメタストアです。 昨日実行したクエリを例にしてみましょう。 SELECT * FROM sample_07 ORDER BY salary DESC; テーブルの名前は sample_07。ORDER BY salary としているので、少なくとも salary という列がありそうだことがわかります。 先ほど書いたように、Hiveで処理す

    2014年版 Hadoopを10分で試す(4) まずはHiveから(中編)
  • 2014年版 Hadoopを10分で試す(3) まずはHiveから(前編)

    Hadoop関連(全部俺) Advent Calendar 2014:11日目の記事です Cloudera Quickstart VMによりHadoopの環境が用意できました。HadoopのコアはHDFS(Hadoop分散ファイルシステム)とMapReduce(分散処理)ですが、今回はHadoopに関するところは無視して、まずは10分(ぐらい)で Hiveとはどんなものか、使いながら把握していきましょう。かなり大雑把なので、正確な情報は書籍やウェブでご確認下さい。 HDFSやMapReduceについては以前書いた記事などを参考にして下さい(めざせ!hadoopエンジニア(開発者編)、Hadoopを40分で理解する) Hiveとは です。愛くるしい(笑)。見れば見るほど愛着がわいてきます(笑)。なお、こんな非売品&限定のHiveTシャツもあります。 SQLを知っている人は多い HiveはAp

    2014年版 Hadoopを10分で試す(3) まずはHiveから(前編)
  • ほぼやけくそHive Hacks – OpenGroove

    Hive Hacksあれこれ。内容はほぼO’REILLY Hadoop Hacksからの引用そのまんま。ただの個人メモなのだが、ずうずうしく公開させてもらいます。いろんなところに記録しておいてもすぐに「あれ、あのメモどこやったっけ」となるのでここに書くのが一番なんだよね。書いたからって理解できるわけでもないんだが… (初めに書いておくと、この投稿長いです) 基原則的なこと。 ●UPDATEは回避する 処理速度が遅延するため、UPDATEを多数含むようなSQLをHiveSQLに変換することは避けるべき ●MapReduceタスクのオーバーヘッド Hiveは「高スループットを目指す処理には向いているが、低レンテンシを目指す処理には向いていない」というMapReduce処理の特徴を引き継いでいる。MapReduceタスクのオーバーヘッドが付きまとうことを念頭におく。 ●並列分散ができない処理

    shimooka
    shimooka 2014/05/02
    Impalaでも同じようなことが多い気がする
  • Hive - HADOOP2 - Apache Software Foundation

    The Apache Hive wiki has moved to Confluence! If you're looking for a particular page name, try this list. (There's also a generated HTML version of the Confluence content. Please keep this link here so that search engine crawlers can find it; they're blocked from the live Confluence content by a robots.txt file, and we want them to find the HTML anyway to reduce load on Confluence.)

  • Hive/HiveClient - Hadoop Wiki

    This page describes the different clients supported by Hive. The command line client currently only supports an embedded server. The JDBC and thrift-java clients support both embedded and standalone servers. Clients in other languages only support standalone servers. For details about the standalone server see HiveServer. Command line Operates in embedded mode only, i.e., it needs to have access

    shimooka
    shimooka 2010/09/17
    接続方法
  • FacebookによるHadoop, Hive, HBaseそして A/B Testingへの取組み

    Spring BootによるAPIバックエンド構築実践ガイド 第2版 何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。このでは、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...

    FacebookによるHadoop, Hive, HBaseそして A/B Testingへの取組み
  • blog.katsuma.tv

    前回、JavaScriptMap Reduceのコードが書けるHadoop Streamingについて紹介しました。 標準入出力さえサポートされてあれば、任意のコードでMap Reduuceの処理が書ける、というものでしたが、エンジニアはそもそも面倒くさがり。コードも書くのも面倒です。 と、いうわけで、今回はもうコードすら書かずにSQLライクでMap ReduceできるHiveというプロダクトについて、まとめたいと思います。 Hive Hiveとは、簡単に言うとHadoop上で動作するRDBのようなものです。 HDFSなどの分散ファイルシステム上に存在するデータに対して、HiveQLというSQLライクな言語で操作できます。 で、面白いのがHiveQLの操作は基的にMap Reduceのラッパーになっていること。 要するに、SELECT文実行すると裏でMap&Reduceのタスクが走り出

  • SQLライクにHadoop Hiveを使い倒す!

    パーティションを利用する 今回は少し凝ったテーブルを定義をしてみましょう。 郵便番号データは毎月更新されるので、テーブル指定時にバージョンも指定できるようにします。このような場合、Hiveではパーティションを使います。 以下に郵便番号を保存するテーブル「zip」を定義しますが、日付型DATEのパーティションverを設定するようにします。 hive> CREATE TABLE zip (zip STRING, pref INT, city STRING, town STRING) > PARTITIONED BY (ver DATE) > ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' > LINES TERMINATED BY '\n'; OK Time taken: 0.128 seconds

    SQLライクにHadoop Hiveを使い倒す!
  • Hadoop+Hive検証環境を構築してみる

    Hadoop+Hive検証環境を構築してみる:Hive――RDB使いのためのHadoopガイド(前編)(1/3 ページ) Hadoop HiveはHadoop上でSQLライクなクエリ操作が可能なDWH向けのプロダクトです。SQLに近い操作が可能なため、HBaseよりもデータベースに慣れ親しんだみなさんには使い勝手がいいかもしれません。稿ではこのHiveの使い方とレビューを行っていきます。

    Hadoop+Hive検証環境を構築してみる
  • Apache Hive TM

    Apache Hive TM The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Structure can be projected onto data already in storage. A command line tool and JDBC driver are provided to connect users to Hive. Getting Started With Apache Hive Software¶ Check out the Getting Started Guide on the Hive wiki. Learn more Ab

  • 1