タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

HiveQLに関するmasaya-chonanのブックマーク (12)

  • Hadoop利用者ならきっと知ってる、Hive/Prestoクエリ関数の挙動の違い - Qiita

    HiveQLではスピードに難を感じていたため、私もPrestoを使い始めました。 MySQLやHiveで使っていたクエリを置き換える時にハマったTipsをまとめていきます。 AWS AthenaでPrestoを使っている方も増えてると思うので、Presto標準関数での記述例も拡充していきます。 Prestoとは Prestoはオンメモリで動く分散SQLエンジンで、その進化は目を見張る物です。 発表された当時は色々な成約があり使うことを躊躇していましたが、2015年頃からはもう使わない理由はなくなりました。 アドホックに使えるとても高速なSQLエンジンですので、バッチ向けのHiveのように実行結果を待つ時間はほとんどありません。 Hiveですと1つ1つの実行に時間が掛かるので、クエリに慣れていない新参者には辛い物がありました。 しかしPrestoではインタラクティブに実行できますので、トライ

    Hadoop利用者ならきっと知ってる、Hive/Prestoクエリ関数の挙動の違い - Qiita
    masaya-chonan
    masaya-chonan 2015/12/15
    いいまとめ。
  • Hive DateTime Truncators (QUARTER, WEEK, DAYOFWEEK)?

  • LanguageManual UDF - Apache Hive - Apache Software Foundation

    When hive.cache.expr.evaluation is set to true (which is the default) a UDF can give incorrect results if it is nested in another UDF or a Hive function. This bug affects releases 0.12.0, 0.13.0, and 0.13.1. Release 0.14.0 fixed the bug (HIVE-7314). The problem relates to the UDF's implementation of the getDisplayString method, as discussed in the Hive user mailing list.

  • LanguageManual VariableSubstitution - Apache Hive - Apache Software Foundation

    IntroductionHive is used for batch and interactive queries. Variable Substitution allows for tasks such as separating environment-specific configuration variables from code. The Hive variable substitution mechanism was designed to avoid some of the code that was getting baked into the scripting language on top of Hive. Examples such as the following shell commands may (inefficiently) be used to se

  • How to set variables in HIVE scripts

    I'm looking for the SQL equivalent of SET varname = value in Hive QL I know I can do something like this: SET CURRENT_DATE = '2012-09-16'; SELECT * FROM foo WHERE day >= @CURRENT_DATE But then I get this error: character '@' not supported here

    How to set variables in HIVE scripts
  • LanguageManual - Apache Hive - Apache Software Foundation

    This is the Hive Language Manual.  For other Hive documentation, see the Hive wiki's Home page. Commands and CLIs CommandsHive CLI (old)Beeline CLI (new)Variable SubstitutionHCatalog CLIFile FormatsAvro FilesORC FilesParquetCompressed Data StorageLZO CompressionData TypesData Definition StatementsDDL StatementsBucketed TablesStatistics (Analyze and Describe)IndexesArchivingData Manipulation Statem

  • Hive functions. version trunk(rev.1293519)

    Cannot listup functions. Because the function class does not implement a "Description" annotation. ! weekofyear java_method to_utc_timestamp pi e != when case == if from_utc_timestamp degrees negative

  • ほぼやけくそHive Hacks – OpenGroove

    Hive Hacksあれこれ。内容はほぼO’REILLY Hadoop Hacksからの引用そのまんま。ただの個人メモなのだが、ずうずうしく公開させてもらいます。いろんなところに記録しておいてもすぐに「あれ、あのメモどこやったっけ」となるのでここに書くのが一番なんだよね。書いたからって理解できるわけでもないんだが… (初めに書いておくと、この投稿長いです) 基原則的なこと。 ●UPDATEは回避する 処理速度が遅延するため、UPDATEを多数含むようなSQLをHiveSQLに変換することは避けるべき ●MapReduceタスクのオーバーヘッド Hiveは「高スループットを目指す処理には向いているが、低レンテンシを目指す処理には向いていない」というMapReduce処理の特徴を引き継いでいる。MapReduceタスクのオーバーヘッドが付きまとうことを念頭におく。 ●並列分散ができない処理

  • blog.katsuma.tv

    HiveでのSQLことHQLの小ネタ。HQLでは基的にSQLはほぼ完璧に利用できますが、たまにハマりポイントもあります。その1つが並び替えのORDER BY。 ORDER BYとSORT BY HQLの文法的にORDER BYは有効ですが、実際は並び替えは行われません。(無視されているような感じ)Hiveでは代わりに「SORT BY [column]」を利用することになります。 ただし、ここでも罠があって、SORT BYは結果がreducerの数に依存します。(各reducerがsort処理をしたものがマージされるものになるので、全体としてはおかしな結果を得ることになります) 通常、reducerは複数走っているはずなので、結局SORT BYを利用してもORDER BYと同等の結果を得ることができません。 では、どうするか?と言うと明示的にreducerの数を1に指定してからSORT B

  • Hive Function Cheat Sheet | Qubole

    Hive Function Meta commandsSHOW FUNCTIONS– lists Hive functions and operatorsDESCRIBE FUNCTION [function name]– displays short description of the functionDESCRIBE FUNCTION EXTENDED [function name]– access extended description of the function Types of Hive FunctionsUDF– is a function that takes one or more columns from a row as argument and returns a single value or object. Eg: concat(col1, col2)UD

    Hive Function Cheat Sheet | Qubole
    masaya-chonan
    masaya-chonan 2015/02/27
    HiveQLを書く時によくお世話になっているページ。
  • データサイエンティストのためのHiveQL分析クエリテンプレート その1 - トレジャーデータ(Treasure Data)ブログ

    *トレジャーデータはデータ収集、保存、分析のためのエンドツーエンドでサポートされたクラウドサービスです。 データサイエンティストのためのHiveQL分析クエリテンプレートシリーズ: その1, その2, その3, その4, その5, その6 Treasure Dataでは,カラムナデータベースであるTreasure Cloud Storageに対してSQL ライクなHiveQLでデータの集計・分析が可能になっています。 シリーズではHiveQLで完結できる集計・分析クエリのテンプレートを示すことによって大規模データの集計・分析を誰にでも実行できることを目指しています。どのような集計・分析を行ったら良いかわからない人でも,このテンプレートを使うだけである程度の集計結果を得ることが可能です。 ディメンジョン・メジャー まずはじめにカラムタイプとして「ディメンジョン」と「メジャー」を,上記の C

    データサイエンティストのためのHiveQL分析クエリテンプレート その1 - トレジャーデータ(Treasure Data)ブログ
  • SQL感覚でHiveQLを書くと痛い目にあう例 - still deeper

    Hadoop Advent Calendar 2013 4日目の記事です tl;dr explainとjob historyを読め 1 reducerは悪 data skewは悪 前書き みんな大好きSQLでHadoop上での処理を実行できるHiveにはみなさん普段からお世話になっていることでしょう。ちょっと調べ物でググる度に目に入る愛らいしいマスコットが、荒んだ心に清涼な風をはこんでくれます。 ですがHiveのクエリ言語はSQLではなくHiveQLですし、実行エンジンもRDBのそれとは全く異なるMapReduceです。SQLのつもりでHiveQLを書いていると地雷を踏んでしまうことがまれによくあります。エントリでは陥りがちなHiveQLの落とし穴を2つ紹介します。 例1 SELECT count(DISTINCT user_id) FROM access_log SQLに慣れた方であれ

    masaya-chonan
    masaya-chonan 2015/02/26
    なるほど。
  • 1