たごもりすメモ

コードとかその他の話とか。

2012-05-02から1日間の記事一覧

hiveの出力が圧縮される方法がよくわからない、と思っていたら俺があほでした

きわめてざっくり書くと以下のような感じ 同じようなクエリを発行しているふたつの出力の圧縮方法が違う 片方はHDFS上でのファイル全体がgzip圧縮されている (ファイルを見ると 00000_0.gz のようになっている) 片方はレコード/ブロック単位でのgzip圧縮にな…