Window functions: Something like this should do the trick: import org.apache.spark.sql.functions.{row_number, max, broadcast} import org.apache.spark.sql.expressions.Window val df = sc.parallelize(Seq( (0,"cat26",30.9), (0,"cat13",22.1), (0,"cat95",19.6), (0,"cat105",1.3), (1,"cat67",28.5), (1,"cat4",26.8), (1,"cat13",12.6), (1,"cat23",5.3), (2,"cat56",39.6), (2,"cat40",29.7), (2,"cat187",27.9), (
uuidgen プログラムは libuuid (3)ライブラリを用いて、 UUID (universal unique identifier: 汎システム的に他とは重ならない識別子) を生成する。 新しい UUID は、ローカルシステムで以前に生成された UUID はもちろん、他のシステムで過去・未来に作成された/作成される UUID のいずれとも重ならないと考えて良い。 uuidgen は二つのタイプの UUID を生成することができる。時刻ベースの UUID と 乱数ベースの UUID である。デフォルトでは、 質の良い乱数生成機構があれば uuidgen は乱数ベースの UUID を生成しようとする。そうでなければ 時刻ベースの UUID を生成する。 -r または -t オプションを指定すれば、二つのタイプのいずれかを生成するかを強制できる。 -r 乱数ベースの UUID を生成す
OverviewThis lists all supported data types in Hive. See Type System in the Tutorial for additional information. For data types supported by HCatalog, see: HCatLoader Data TypesHCatStorer Data TypesHCatRecord Data TypesNumeric TypesTINYINT (1-byte signed integer, from -128 to 127)SMALLINT (2-byte signed integer, from -32,768 to 32,767)INT/INTEGER (4-byte signed integer, from -2,147,483,648 to 2,14
OverviewHiveQL DDL statements are documented here, including: CREATE DATABASE/SCHEMA, TABLE, VIEW, FUNCTION, INDEXDROP DATABASE/SCHEMA, TABLE, VIEW, INDEXTRUNCATE TABLEALTER DATABASE/SCHEMA, TABLE, VIEWMSCK REPAIR TABLE (or ALTER TABLE RECOVER PARTITIONS)SHOW DATABASES/SCHEMAS, TABLES, TBLPROPERTIES, VIEWS, PARTITIONS, FUNCTIONS, INDEX[ES], COLUMNS, CREATE TABLEDESCRIBE DATABASE/SCHEMA, table_name
MySQL には CSV 出力する機能が備わっていることに、初めて気がつきました。 喜び勇んで試してみたものの、Excel ではどうにもうまく読み込めません。特に、セル内で改行があると、次の行という扱いになってしまうのですよね。。。 そこで、何とかしてみたメモを残しておきます。 ポイント 今時なので MySQL は UTF-8 です。Excel で読むために Shift-JIS に変更する必要があります。 セル内での改行は LF、行末の改行は CRLF にする必要があります。 セルを「”」で囲む場合があるため、「”」をエスケープする必要があります。 やってみた まずは CSV 出力する MySQL です。2種類の方法がありますが、今回は SELECT を使う方法です。 mysql> SELECT * FROM wp_posts INTO OUTFILE "/tmp/wp_posts.csv
4日目です。 本日はHadoopアドベントカレンダー2013の立候補がいないようなので、あえて書く@choplinさんが今 (22:30)書いて下さっているとのこと。凄い!ありがとうございます! #決して無理強いはしてないはず、、、、、と信じたい(汗 本日のお題はHueとHiveについてです。 Hiveでテーブルを作成してデータをロードする場合には、1) CREATE TABLEを使用してテーブルを作成し、2) LOAD DATA INPATHなどを使ってデータをロードする、というような手順を踏みます。あるいは、既にデータがHDFS上にある場合、外部テーブルを利用することもできます。 テーブルを作成してデータをロードする例 CREATE TABLE a (a INT, b INT) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; LOAD D
CREATE EXTERNAL TABLE IF NOT EXISTS sample_table ( id INT, register_date STRING ) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.dynamic_type.DynamicSerDe' WITH SERDEPROPERTIES ( 'serialization.format'='org.apache.hadoop.hive.serde2.thrift.TCTLSeparatedProtocol', 'quote.delim'='"', 'field.delim'=',' );
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く