たごもりすメモ

コードとかその他の話とか。

hadoop distcp -skipcrccheck するときは -update も必要

CDH3クラスタからCDH4クラスタにYARNでdistcpする場合には -skipcrccheck せよ、とある。

DistCp using MRv2 (YARN) from a CDH3 cluster to a CDH4 cluster may fail with CRC mismatch errors
Running distcp on a CDH4 YARN cluster with a CDH3 hftp source will fail if the CRC checksum type being used is the CDH4 default (CRC32C). This is because the default checksum type was changed in CDH4 from the CDH3 default of CRC32.

Bug: HDFS-3177

Severity: Medium
Anticipated Resolution: To be fixed in an upcoming release
Workaround: Use the distcp -skipcrccheck option.

Known Issues And Work Arounds in CDH4

その通りに実行すると、なぜかオプションリストをもう一度出されてアレ?ってなる。じつは -skipcrccheck を指定するときは必ず -update オプションもつけなければならない。

hadoop distcp -skipcrccheck -update hftp://nn.cdh3.hadoop.local:50070/path/to/data hdfs://nn.cdh4.hadoop.local:8020/path/to/data