圧縮ファイルを入力にしても展開されない症状
CDH3b2にて。
Hadoop Streaming (MapReduce) では入力が圧縮ファイルだと拡張子を見て適当に展開してくれる。くれるはずなんだけど、なんか気付いたらうまく展開できないようになってた。どうもバイナリデータのまま mapper に渡されているらしい。
しかし手元のOSXに1台だけで構成したCDH3b2の環境だと普通に展開されて1行ずつ mapper に渡っている。なぜだ。
……で、調べてたら設定ファイルのうち core-site.xml に差分があった。
<configuration> <!-- 中略 --> <property> <name>io.compression.codecs</name> <value>org.apache.hadoop.io.compress.GzipCodec</value> <value>org.apache.hadoop.io.compress.BZip2Codec</value> </property> </configuration>
このコーデックのリストのところ。これが、手元のOSX環境だと書かれてない。んで該当の property タグを試しに削ってみたら、うまく動いた。うへえ。