[B! hive] syuu256のブックマーク

LanguageManual UDF - Apache Hive - Apache Software Foundation

This wiki is now read only. This and new content has been migrated to a new location

syuu256 2015/04/23

hive
hadoop

リンク

Hiveの文字列関数など – OpenGroove

主要なHive文字列関数のまとめ。ネタは、こちらのサイトより引用なのだが、ネタ元のサイトが見づらいので自分のところに書いてしまう。簡単な英語なんだが一応翻訳。 Functions in Hive The string functions in Hive are listed below: Hiveでの文字列関数は以下リストの通り: ASCII( string str ) The ASCII function converts the first character of the string into its numeric ascii value. ASCII関数は文字列の最初のキャラクタを数値ASCIIに変換する。例1: ASCII(‘hadoop’) 結果: 104 例2: ASCII(‘A’) 結果: 65 CONCAT( string str1, string str2… )

syuu256 2015/04/23

hive

リンク

EMRってなんじゃ？（HiveのDynamicPartitionでファイルを分割してS3に出力）

S3にある数年分のデータが1つのファイルに含まれていて、EMRで年や月単位で分割したいという要望が一部であったので、やってみました。例として、以下のようなCSVがあるとします。 test.csv 2012,01,12,title1,body1 2012,01,22,title2,body2 2012,02,02,title3,body3 2012,03,01,title4,body4 2012,03,11,title5,body5 2012,03,18,title6,body6 2012,04,04,title7,body7 2012,05,02,title8,body8 2012,05,05,title9,body9 2012,06,13,title10,body10 2012,06,14,title11,body11 2012,06,29,title12,body12 2012,07

syuu256 2015/04/22

EMR
hive

リンク

スマートニュースの世界進出を支えるログ解析基盤 #jawsdays #tech

スマートニュースは昨年の 10/1 に米国版をローンチするにあたり、ログ解析基盤のリニューアルを行いました。日本に加えて米国やその他の国が入ってくることにより、単なるユーザ数の増加に加え、OS x 国 x タイムゾーン x 多種多様なメトリクスのような集計軸が増えることで、ログの前処理、集計、可視化に様…

syuu256 2015/03/22

リンク

マルチテナント化に向けたHadoopの最新セキュリティ事情 #hcj2014

Hadoop Conference Japan 2014で発表したApache Sentryの紹介ですRead less

syuu256 2014/07/09

hive
hadoop

リンク

Cloudera Impala がリリースされました - 科学と非科学の迷宮

(2012/10/25 15:48 追記) Cloudera 公式ブログで Impala についての紹介記事を掲載しました。このブログ記事の完全上位互換なのでそちらの記事をご参照ください。 Cloudera Impala：Apache Hadoopで実現する、真のリアルタイムクエリ | Hadoopとビッグデータソリューションのリーディングカンパニー | Cloudera Japan Cloudera から、データサイエンティストのためのリアルタイムクエリエンジン「Impala」がリリースされました。Hive と完全互換のクエリ言語で、Hive より10倍以上速くクエリを処理できます。概要及びダウンロードはこちらから! http://www.cloudera.com/content/cloudera/en/products/cloudera-enterprise-core/clouder

syuu256 2013/12/16

リンク

Cloudera impalaの性能評価（Hiveとの比較）

2. はじめに —  「impalaがHadoop MapReduceのHiveより1桁速い」（※）と聞いて、普段業務にて使用しているHiveより本当に速いのかを検証した —  普段の業務では… —  CDH3でHadoopクラスタを構築 —  WebのアクセスログをSnappyで圧縮してRCFileでHDFSに保存 —  Map処理出力とReduce処理出力も共にSnappyで圧縮 —  Thriftサービス経由でPHPからHiveでクエリを実行 ※出典 Cloudera Impala：Apache Hadoopで実現する、リアルのためのリアルタイムクエリ

syuu256 2013/12/16

リンク

AWSのAmazon Elastic MapReduce(EMR)でHiveを使う手順 | takemikami's note

自前でHadoopをインストールせずとも、 AmazonWebService(AWS)で手軽にHadoopを利用する事ができるということで、 Elastic MapReduce(EMR)環境でHiveを利用してみました。ここでは、以下のような手順でHiveを利用する手順を示します。 S3にHive用のbucketを作成Amazon Elastic MapReduce Ruby ClientのセットアップS3にデータを配置HiveインタラクティブモードでElastic MapReduceを起動作成したHiveスクリプトをバッチ処理で実行S3にHive用のbucketを作成Hive用のデータを保存するため、S3にbucketを作ります。「AWS Management Console」でS3を選び、「Buckets」の「Create Bucket」を選択して、「Bucket Name」を

syuu256 2013/12/04

リンク

Cloud Computing Services | Microsoft Azure

syuu256 2013/10/29

hive
excel

リンク

Hadoopを使ったログ解析システムにおける時間別のジョブ、パーティションについてつらつらと書いてみる。 - wyukawa's diary

ログを1時間毎にためてそれをHadoopで処理するなんていうのはよくあるパターンではないかと思う。例えば時間別のPV, UUを求めたいとかね。その場合20130806-1800, 20130806-1900みたいなHiveパーティションを用意するのではないだろうか。20130806-1800パーティションには2013/08/06の18:00-18:59:59までのログがあると思ってくだされ。ただ大抵はログを出力しているマシンとログを収集してHDFSにputするマシンとは別なので転送に時間がかかる。またログの中身のタイムスタンプを見ないでHDFSにputする場合はHiveパーティションの時間とログの時間が必ずしも一致するとは限らない。例えばログファイルの中身に18:59:59のレコードがあったとしてもそれをHDFSにputする頃には19時台になっているため20130806-1900の

syuu256 2013/10/21

hive
hadoop

リンク

Hadoop + HiveからUDFでお手軽に機械学習を回せるライブラリ"hivemall"がリリースされたとのこと - 渋谷駅前で働くデータサイエンティストのブログ

TL上にものすごーく刺激的な情報が飛び込んできたので、思わずご紹介。一部の方にはお伝えしておりますが、hive/hadoop上でスケーラブルに機械学習（今のとこクラス分類、回帰分析）を行うライブラリをオープンソース(LGPL)でリリースしました。mahout等より扱いやすい&スケーラブルなはず。 https://t.co/eBGmoW66V0— myui (@myui) 2013, 9月 30 ということで、ご本人のツイートにもあるようにGitHubに一式全て上がっています。ライセンスもLPGLなので自由に使えるという素晴らしさ。これ職場の分析マシンにもcloneしようかな（笑）。 myui/hivemall Wikiページを見ると、このライブラリの使い方が書いてあるんですが。。。何が凄いって、何とHiveクエリを書く要領で機械学習まわりの演算を全て実行できてしまう！というところ。ちょっ

syuu256 2013/10/21

hadoop
hive

リンク

はてなブログ | 無料ブログを作成しよう

阿修羅のごとくをみた！ネットフリックスで阿修羅のごとくをみた！昭和の生活に興味がある！そして是枝監督です。ドラマや漫画って、見返すときに最終話を何度も読み返しがちです。一話から改めると事件や問題に一から付き合うのに疲れちゃう。阿修羅のごとくも、最終話付近をスケッチしまし…

syuu256 2013/10/21

hive

リンク

Hadoop＋Hive検証環境を構築してみる

Hadoop＋Hive検証環境を構築してみる：Hive――RDB使いのためのHadoopガイド（前編）（1/3 ページ） Hadoop HiveはHadoop上でSQLライクなクエリ操作が可能なDWH向けのプロダクトです。SQLに近い操作が可能なため、HBaseよりもデータベースに慣れ親しんだみなさんには使い勝手がいいかもしれません。本稿ではこのHiveの使い方とレビューを行っていきます。

syuu256 2011/09/05

リンク

はてなブックマーク

タグ

関連タグで絞り込む (11)

hiveに関するsyuu256のブックマーク (13)

お知らせ

今週のはてなブックマーク数ランキング（2025年3月第2週）

月間はてなブックマーク数ランキング（2025年2月）

旧バージョンのChrome拡張機能についてのお知らせと新バージョンご利用のお願い

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス