This wiki is now read only. This and new content has been migrated to a new location
This wiki is now read only. This and new content has been migrated to a new location
主要なHive文字列関数のまとめ。ネタは、こちらのサイトより引用なのだが、ネタ元のサイトが見づらいので自分のところに書いてしまう。簡単な英語なんだが一応翻訳。 Functions in Hive The string functions in Hive are listed below: Hiveでの文字列関数は以下リストの通り: ASCII( string str ) The ASCII function converts the first character of the string into its numeric ascii value. ASCII関数は文字列の最初のキャラクタを数値ASCIIに変換する。 例1: ASCII(‘hadoop’) 結果: 104 例2: ASCII(‘A’) 結果: 65 CONCAT( string str1, string str2… )
S3にある数年分のデータが1つのファイルに含まれていて、EMRで年や月単位で分割したいという要望が一部であったので、やってみました。 例として、以下のようなCSVがあるとします。 test.csv 2012,01,12,title1,body1 2012,01,22,title2,body2 2012,02,02,title3,body3 2012,03,01,title4,body4 2012,03,11,title5,body5 2012,03,18,title6,body6 2012,04,04,title7,body7 2012,05,02,title8,body8 2012,05,05,title9,body9 2012,06,13,title10,body10 2012,06,14,title11,body11 2012,06,29,title12,body12 2012,07
スマートニュースは昨年の 10/1 に米国版をローンチするにあたり、ログ解析基盤のリニューアルを行いました。日本に加えて米国やその他の国が入ってくることにより、単なるユーザ数の増加に加え、OS x 国 x タイムゾーン x 多種多様なメトリクスのような集計軸が増えることで、ログの前処理、集計、可視化に様…
Hadoop Conference Japan 2014で発表したApache Sentryの紹介ですRead less
(2012/10/25 15:48 追記) Cloudera 公式ブログで Impala についての紹介記事を掲載しました。このブログ記事の完全上位互換なのでそちらの記事をご参照ください。 Cloudera Impala:Apache Hadoopで実現する、真のリアルタイムクエリ | Hadoopとビッグデータソリューションのリーディングカンパニー | Cloudera Japan Cloudera から、データサイエンティストのためのリアルタイムクエリエンジン「Impala」がリリースされました。Hive と完全互換のクエリ言語で、Hive より10倍以上速くクエリを処理できます。 概要及びダウンロードはこちらから! http://www.cloudera.com/content/cloudera/en/products/cloudera-enterprise-core/clouder
自前でHadoopをインストールせずとも、 AmazonWebService(AWS)で手軽にHadoopを利用する事ができるということで、 Elastic MapReduce(EMR)環境でHiveを利用してみました。 ここでは、以下のような手順でHiveを利用する手順を示します。 S3にHive用のbucketを作成Amazon Elastic MapReduce Ruby ClientのセットアップS3にデータを配置HiveインタラクティブモードでElastic MapReduceを起動作成したHiveスクリプトをバッチ処理で実行S3にHive用のbucketを作成Hive用のデータを保存するため、S3にbucketを作ります。 「AWS Management Console」でS3を選び、 「Buckets」の「Create Bucket」を選択して、 「Bucket Name」を
ログを1時間毎にためてそれをHadoopで処理するなんていうのはよくあるパターンではないかと思う。例えば時間別のPV, UUを求めたいとかね。 その場合20130806-1800, 20130806-1900みたいなHiveパーティションを用意するのではないだろうか。20130806-1800パーティションには2013/08/06の18:00-18:59:59までのログがあると思ってくだされ。 ただ大抵はログを出力しているマシンとログを収集してHDFSにputするマシンとは別なので転送に時間がかかる。 またログの中身のタイムスタンプを見ないでHDFSにputする場合はHiveパーティションの時間とログの時間が必ずしも一致するとは限らない。 例えばログファイルの中身に18:59:59のレコードがあったとしてもそれをHDFSにputする頃には19時台になっているため20130806-1900の
TL上にものすごーく刺激的な情報が飛び込んできたので、思わずご紹介。 一部の方にはお伝えしておりますが、hive/hadoop上でスケーラブルに機械学習(今のとこクラス分類、回帰分析)を行うライブラリをオープンソース(LGPL)でリリースしました。mahout等より扱いやすい&スケーラブルなはず。 https://t.co/eBGmoW66V0— myui (@myui) 2013, 9月 30 ということで、ご本人のツイートにもあるようにGitHubに一式全て上がっています。ライセンスもLPGLなので自由に使えるという素晴らしさ。これ職場の分析マシンにもcloneしようかな(笑)。 myui/hivemall Wikiページを見ると、このライブラリの使い方が書いてあるんですが。。。何が凄いって、何とHiveクエリを書く要領で機械学習まわりの演算を全て実行できてしまう!というところ。ちょっ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く