たごもりすメモ

コードとかその他の話とか。

個別集計と全体集計を1回のHiveクエリで実行する

馬鹿でかいデータを2回なめたくないでござる! という話。SQLなら WITH ROLLUP で一発なんだけどHiveでは現状サポートされていない。(hive 0.9.x or before)

explode() を使うことで内部的にはデータが複製される(が、すぐ集計にかけられるので特に問題ない)。

注意点: xがnullにならないこと

frsyuki++

なお結果をINSERTする場合なら multiple insert が使える。