エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント1件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Hiveのファイル圧縮とSTOREの種類とマージの関係
Hiveの設定項目に「hive.merge.size.per.task」という項目があります。 マージ処理が有効になっている(... Hiveの設定項目に「hive.merge.size.per.task」という項目があります。 マージ処理が有効になっている(hive.merge.mapredfiles=true)上で、上述の項目で指定した所定のファイルサイズにHiveの計算結果ファイル(MapReduceの結果ファイル)のサイズが満たない場合、所定のサイズを超えるようにマージ処理が行われます。 用途としては、結果ファイルとしてあまりに細かいファイルが大量に作られHDFSのブロックが有効活用出来ない状況を回避するため、と認識しています。 (できるだけ1ファイルをHDFSのブロックサイズに一致するようなサイズにマージしたい。) もしくは解析時に大量のMapタスクを生成したくない、という目的もあると思います。 ただ、こちらのパラメータはケースによっては有効にならないようです。 ◯有効になるケース 計算結果ファイルを非圧縮にし
2012/10/30 リンク