wlbhiroのブックマーク / 2016年6月24日

wlbhiro id:wlbhiro

2016年6月24日のブックマーク (12件)

Conditionally Append Rows to Stats Table
wlbhiro 2016/06/24
Splunk

append

row
リンク
How to select the first row of each group?
Window functions: Something like this should do the trick: import org.apache.spark.sql.functions.{row_number, max, broadcast} import org.apache.spark.sql.expressions.Window val df = sc.parallelize(Seq( (0,"cat26",30.9), (0,"cat13",22.1), (0,"cat95",19.6), (0,"cat105",1.3), (1,"cat67",28.5), (1,"cat4",26.8), (1,"cat13",12.6), (1,"cat23",5.3), (2,"cat56",39.6), (2,"cat40",29.7), (2,"cat187",27.9), (
wlbhiro 2016/06/24
Spark

first

last

earliest

latest
リンク
uuidgen - コマンド (プログラム) の説明 - Linux コマンド集一覧表
uuidgen プログラムは libuuid (3)ライブラリを用いて、 UUID (universal unique identifier: 汎システム的に他とは重ならない識別子) を生成する。新しい UUID は、ローカルシステムで以前に生成された UUID はもちろん、他のシステムで過去・未来に作成された/作成される UUID のいずれとも重ならないと考えて良い。 uuidgen は二つのタイプの UUID を生成することができる。時刻ベースの UUID と乱数ベースの UUID である。デフォルトでは、質の良い乱数生成機構があれば uuidgen は乱数ベースの UUID を生成しようとする。そうでなければ時刻ベースの UUID を生成する。 -r または -t オプションを指定すれば、二つのタイプのいずれかを生成するかを強制できる。 -r 乱数ベースの UUID を生成す
wlbhiro 2016/06/24
uuid

Linux
リンク
https://documentation.altiscale.com/using-csv-serde-with-hive
wlbhiro 2016/06/24
SERDEPROPERTIES

hive

CSV
リンク
How to handle fields enclosed within quotes(CSV) in importing data from S3 into DynamoDB using EMR/Hive
wlbhiro 2016/06/24
Hive

ESCAPE

TERMINATED
リンク
LanguageManual Types - Apache Hive - Apache Software Foundation
OverviewThis lists all supported data types in Hive. See Type System in the Tutorial for additional information. For data types supported by HCatalog, see: HCatLoader Data TypesHCatStorer Data TypesHCatRecord Data TypesNumeric TypesTINYINT (1-byte signed integer, from -128 to 127)SMALLINT (2-byte signed integer, from -32,768 to 32,767)INT/INTEGER (4-byte signed integer, from -2,147,483,648 to 2,14
wlbhiro 2016/06/24
“C-style escaping”

hive
リンク
LanguageManual DDL - Apache Hive - Apache Software Foundation
OverviewHiveQL DDL statements are documented here, including: CREATE DATABASE/SCHEMA, TABLE, VIEW, FUNCTION, INDEXDROP DATABASE/SCHEMA, TABLE, VIEW, INDEXTRUNCATE TABLEALTER DATABASE/SCHEMA, TABLE, VIEWMSCK REPAIR TABLE (or ALTER TABLE RECOVER PARTITIONS)SHOW DATABASES/SCHEMAS, TABLES, TBLPROPERTIES, VIEWS, PARTITIONS, FUNCTIONS, INDEX[ES], COLUMNS, CREATE TABLEDESCRIBE DATABASE/SCHEMA, table_name
wlbhiro 2016/06/24
Hive

SERDE

SERDEPROPERTIES
リンク
Apache Hive CSV SerDe Example
wlbhiro 2016/06/24
Hive

SERDE
リンク
[Hive-user] Table schema size limit to 4000 chars ? - Grokbase
wlbhiro 2016/06/24
Hive

SERDE

LIMIT
リンク
MySQL から Excel で使える CSV を作成します！できるだけ簡単に♪
MySQL には CSV 出力する機能が備わっていることに、初めて気がつきました。喜び勇んで試してみたものの、Excel ではどうにもうまく読み込めません。特に、セル内で改行があると、次の行という扱いになってしまうのですよね。。。そこで、何とかしてみたメモを残しておきます。ポイント今時なので MySQL は UTF-8 です。Excel で読むために Shift-JIS に変更する必要があります。セル内での改行は LF、行末の改行は CRLF にする必要があります。セルを「”」で囲む場合があるため、「”」をエスケープする必要があります。やってみたまずは CSV 出力する MySQL です。2種類の方法がありますが、今回は SELECT を使う方法です。 mysql> SELECT * FROM wp_posts INTO OUTFILE "/tmp/wp_posts.csv
wlbhiro 2016/06/24
MySQL

SQL

CSV

Excel

sed
リンク
HueでCSVデータからHiveのテーブルを作る
４日目です。本日はHadoopアドベントカレンダー2013の立候補がいないようなので、あえて書く@choplinさんが今 (22:30)書いて下さっているとのこと。凄い！ありがとうございます！＃決して無理強いはしてないはず、、、、、と信じたい（汗本日のお題はHueとHiveについてです。 Hiveでテーブルを作成してデータをロードする場合には、1) CREATE TABLEを使用してテーブルを作成し、2) LOAD DATA INPATHなどを使ってデータをロードする、というような手順を踏みます。あるいは、既にデータがHDFS上にある場合、外部テーブルを利用することもできます。テーブルを作成してデータをロードする例 CREATE TABLE a (a INT, b INT) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; LOAD D
wlbhiro 2016/06/24
Hive

CSV

住所

Hue
リンク
Hive でダブルクオートで囲まれた CSV を扱えるようにする DDL の書き方 - Qiita
CREATE EXTERNAL TABLE IF NOT EXISTS sample_table ( id INT, register_date STRING ) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.dynamic_type.DynamicSerDe' WITH SERDEPROPERTIES ( 'serialization.format'='org.apache.hadoop.hive.serde2.thrift.TCTLSeparatedProtocol', 'quote.delim'='"', 'field.delim'=',' );
wlbhiro 2016/06/24
timestampは使えない。(Not support) やるならINTにして扱うこと。 https://qnalist.com/questions/251584/how-can-i-load-a-table-from-a-flat-file-through-my-codes

Hive

ダブルクォート
リンク
- 2016年6月26日
- 2016年6月24日
- 2016年6月23日