たごもりすメモ

コードとかその他の話とか。

「tagomorisが騙る はじめてのHadoop」

深夜に「はじめてのHadoop」が出版されるとしたら欲しいネタの一覧をなんとなく考えてた。Hadoopクラスタのセットアップを新規にやるのが予定にあるので、それも含めてトピックだけ書き出しておこうかなと思った次第。

  1. 設計
    • HDFS総容量と処理対象のデータ量について
    • ファイルの形式について (TextFile/SequenceFile/RCFile)
    • データの圧縮について
    • ノードあたりのHDD台数、ディスクの選択
    • CPUおよびメモリの選択
    • ノード数
    • HDFS設定の設計
    • Hadoopのバージョン選定、導入方法(tar/rpm etc)、Hadoop起動ユーザ名の選択
    • データ投入方法
    • ジョブ実行方法
  2. セットアップ
    • Linuxのセットアップと設定変更
    • 最初に変更しておくべきHadoopの設定値
    • Hadoopのセットアップと設定変更
    • NameNode HA (CDH4 or laterベース?)
    • 周辺サーバ(HiveServer / Hive Metastore / HoopServer / WebHDFS)
  3. データ投入
    • 圧縮について
    • hadoop fs
    • WebHDFS
    • Httpfs
  4. ジョブの実行
    • Hadoop Streaming
    • Hive
    • HiveServer経由でのクエリ実行、結果取得
  5. 運用
    • Hadoopの設定変更
    • ノードの追加
    • DataNode障害時の対応
    • DataNode ディスク障害時の対応
    • NameNode障害時の対応
    • Hadoopのバージョンアップ

うーん、いっぱいある。そしてMapReduceについてがすごい少ないw
これ、誰か書いてくれないものかなあ。社内ドキュメントなり個別にblogエントリなりにはいずれ書かないといかんのだが、めんどい……。買えるならいくらでも出しますよ。