たごもりすメモ

コードとかその他の話とか。

圧縮ファイルを入力にしても展開されない症状

CDH3b2にて。
Hadoop Streaming (MapReduce) では入力が圧縮ファイルだと拡張子を見て適当に展開してくれる。くれるはずなんだけど、なんか気付いたらうまく展開できないようになってた。どうもバイナリデータのまま mapper に渡されているらしい。
しかし手元のOSXに1台だけで構成したCDH3b2の環境だと普通に展開されて1行ずつ mapper に渡っている。なぜだ。

……で、調べてたら設定ファイルのうち core-site.xml に差分があった。

<configuration>

<!-- 中略 -->

  <property>
    <name>io.compression.codecs</name>
    <value>org.apache.hadoop.io.compress.GzipCodec</value>
    <value>org.apache.hadoop.io.compress.BZip2Codec</value>
  </property> 

</configuration>

このコーデックのリストのところ。これが、手元のOSX環境だと書かれてない。んで該当の property タグを試しに削ってみたら、うまく動いた。うへえ。