[B! HiveQL] masaya-chonanのブックマーク

Hadoop利用者ならきっと知ってる、Hive/Prestoクエリ関数の挙動の違い - Qiita

HiveQLではスピードに難を感じていたため、私もPrestoを使い始めました。 MySQLやHiveで使っていたクエリを置き換える時にハマったTipsをまとめていきます。 AWS AthenaでPrestoを使っている方も増えてると思うので、Presto標準関数での記述例も拡充していきます。 Prestoとは Prestoはオンメモリで動く分散SQLエンジンで、その進化は目を見張る物です。発表された当時は色々な成約があり使うことを躊躇していましたが、2015年頃からはもう使わない理由はなくなりました。アドホックに使えるとても高速なSQLエンジンですので、バッチ向けのHiveのように実行結果を待つ時間はほとんどありません。 Hiveですと1つ1つの実行に時間が掛かるので、クエリに慣れていない新参者には辛い物がありました。しかしPrestoではインタラクティブに実行できますので、トライ

masaya-chonan 2015/12/15

いいまとめ。

リンク

Hive DateTime Truncators (QUARTER, WEEK, DAYOFWEEK)?

masaya-chonan 2015/12/10

HiveQL

リンク

LanguageManual UDF - Apache Hive - Apache Software Foundation

When hive.cache.expr.evaluation is set to true (which is the default) a UDF can give incorrect results if it is nested in another UDF or a Hive function. This bug affects releases 0.12.0, 0.13.0, and 0.13.1. Release 0.14.0 fixed the bug (HIVE-7314). The probl em relates to the UDF's implementation of the getDisplayString method, as discussed in the Hive user mailing list.

masaya-chonan 2015/11/13

HiveQL

リンク

LanguageManual VariableSubstitution - Apache Hive - Apache Software Foundation

IntroductionHive is used for batch and interactive queries. Variable Substitution allows for tasks such as separating environment-specific configuration variables from code. The Hive variable substitution mechanism was designed to avoid some of the code that was getting baked into the scripting language on top of Hive. Examples such as the following shell commands may (inefficiently) be used to se

masaya-chonan 2015/07/22

HiveQL

リンク

How to set variables in HIVE scripts

I'm looking for the SQL equivalent of SET varname = value in Hive QL I know I can do something like this: SET CURRENT_DATE = '2012-09-16'; SELECT * FROM foo WHERE day >= @CURRENT_DATE But then I get this error: character '@' not supported here

masaya-chonan 2015/07/22

HiveQL

リンク

LanguageManual - Apache Hive - Apache Software Foundation

This is the Hive Language Manual. For other Hive documentation, see the Hive wiki's Home page. Commands and CLIs CommandsHive CLI (old)Beeline CLI (new)Variable SubstitutionHCatalog CLIFile FormatsAvro FilesORC FilesParquetCompressed Data StorageLZO CompressionData TypesData Definition StatementsDDL StatementsBucketed TablesStatistics (Analyze and Describe)IndexesArchivingData Manipulation Statem

masaya-chonan 2015/04/17

hive
HiveQL

リンク

Hive functions. version trunk(rev.1293519)

Cannot listup functions. Because the function class does not implement a "Description" annotation. ! weekofyear java_method to_utc_timestamp pi e != when case == if from_utc_timestamp degrees negative

masaya-chonan 2015/04/16

hive
HiveQL

リンク

ほぼやけくそHive Hacks – OpenGroove

Hive Hacksあれこれ。内容はほぼO’REILLY Hadoop Hacksからの引用そのまんま。ただの個人メモなのだが、ずうずうしく公開させてもらいます。いろんなところに記録しておいてもすぐに「あれ、あのメモどこやったっけ」となるのでここに書くのが一番なんだよね。書いたからって理解できるわけでもないんだが… （初めに書いておくと、この投稿長いです）基本原則的なこと。 ●UPDATEは回避する処理速度が遅延するため、UPDATEを多数含むようなSQLをHiveSQLに変換することは避けるべき ●MapReduceタスクのオーバーヘッド Hiveは「高スループットを目指す処理には向いているが、低レンテンシを目指す処理には向いていない」というMapReduce処理の特徴を引き継いでいる。MapReduceタスクのオーバーヘッドが付きまとうことを念頭におく。 ●並列分散ができない処理

masaya-chonan 2015/02/27

HiveQL

リンク

blog.katsuma.tv

HiveでのSQLことHQLの小ネタ。HQLでは基本的にSQLはほぼ完璧に利用できますが、たまにハマりポイントもあります。その１つが並び替えのORDER BY。 ORDER BYとSORT BY HQLの文法的にORDER BYは有効ですが、実際は並び替えは行われません。（無視されているような感じ）Hiveでは代わりに「SORT BY [column]」を利用することになります。ただし、ここでも罠があって、SORT BYは結果がreducerの数に依存します。(各reducerがsort処理をしたものがマージされるものになるので、全体としてはおかしな結果を得ることになります) 通常、reducerは複数走っているはずなので、結局SORT BYを利用してもORDER BYと同等の結果を得ることができません。では、どうするか？と言うと明示的にreducerの数を1に指定してからSORT B

masaya-chonan 2015/02/27

HiveQL

リンク

Hive Function Cheat Sheet | Qubole

Hive Function Meta commandsSHOW FUNCTIONS– lists Hive functions and operatorsDESCRIBE FUNCTION [function name]– displays short description of the functionDESCRIBE FUNCTION EXTENDED [function name]– access extended description of the function Types of Hive FunctionsUDF– is a function that takes one or more columns from a row as argument and returns a single value or object. Eg: concat(col1, col2)UD

masaya-chonan 2015/02/27

HiveQLを書く時によくお世話になっているページ。

HiveQL

リンク

データサイエンティストのためのHiveQL分析クエリテンプレートその１ - トレジャーデータ（Treasure Data）ブログ

*トレジャーデータはデータ収集、保存、分析のためのエンドツーエンドでサポートされたクラウドサービスです。データサイエンティストのためのHiveQL分析クエリテンプレートシリーズ：その１, その２, その３, その４, その５, その６ Treasure Dataでは，カラムナデータベースであるTreasure Cloud Storageに対してSQL ライクなHiveQLでデータの集計・分析が可能になっています。本シリーズではHiveQLで完結できる集計・分析クエリのテンプレートを示すことによって大規模データの集計・分析を誰にでも実行できることを目指しています。どのような集計・分析を行ったら良いかわからない人でも，このテンプレートを使うだけである程度の集計結果を得ることが可能です。ディメンジョン・メジャーまずはじめにカラムタイプとして「ディメンジョン」と「メジャー」を，上記の C

masaya-chonan 2015/02/26

HiveQL

リンク

SQL感覚でHiveQLを書くと痛い目にあう例 - still deeper

Hadoop Advent Calendar 2013 4日目の記事です tl;dr explainとjob historyを読め 1 reducerは悪 data skewは悪前書きみんな大好きSQLでHadoop上での処理を実行できるHiveにはみなさん普段からお世話になっていることでしょう。ちょっと調べ物でググる度に目に入る愛らいしいマスコットが、荒んだ心に清涼な風をはこんでくれます。ですがHiveのクエリ言語はSQLではなくHiveQLですし、実行エンジンもRDBのそれとは全く異なるMapReduceです。SQLのつもりでHiveQLを書いていると地雷を踏んでしまうことがまれによくあります。本エントリでは陥りがちなHiveQLの落とし穴を2つ紹介します。例1 SELECT count(DISTINCT user_id) FROM access_log SQLに慣れた方であれ

masaya-chonan 2015/02/26

なるほど。

HiveQL

リンク

はてなブックマーク

タグ

関連タグで絞り込む (2)

HiveQLに関するmasaya-chonanのブックマーク (12)

お知らせ

はてなブックマークの計画メンテナンスのお知らせ（2025年1月31日(金) 深夜1:30〜3:00）

ブックマークしたエントリーのタイトル変更機能の提供を一時的に停止します

【復旧済】「マイホットエントリー」「お気に入り」「関心ワード」が利用できない障害が発生していました

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス