深夜に「はじめてのHadoop」が出版されるとしたら欲しいネタの一覧をなんとなく考えてた。Hadoopクラスタのセットアップを新規にやるのが予定にあるので、それも含めてトピックだけ書き出しておこうかなと思った次第。
- 設計
- HDFS総容量と処理対象のデータ量について
- ファイルの形式について (TextFile/SequenceFile/RCFile)
- データの圧縮について
- ノードあたりのHDD台数、ディスクの選択
- CPUおよびメモリの選択
- ノード数
- HDFS設定の設計
- Hadoopのバージョン選定、導入方法(tar/rpm etc)、Hadoop起動ユーザ名の選択
- データ投入方法
- ジョブ実行方法
- セットアップ
- Linuxのセットアップと設定変更
- 最初に変更しておくべきHadoopの設定値
- Hadoopのセットアップと設定変更
- NameNode HA (CDH4 or laterベース?)
- 周辺サーバ(HiveServer / Hive Metastore / HoopServer / WebHDFS)
- データ投入
- 圧縮について
- hadoop fs
- WebHDFS
- Httpfs
- ジョブの実行
- Hadoop Streaming
- Hive
- HiveServer経由でのクエリ実行、結果取得
- 運用
- Hadoopの設定変更
- ノードの追加
- DataNode障害時の対応
- DataNode ディスク障害時の対応
- NameNode障害時の対応
- Hadoopのバージョンアップ
うーん、いっぱいある。そしてMapReduceについてがすごい少ないw
これ、誰か書いてくれないものかなあ。社内ドキュメントなり個別にblogエントリなりにはいずれ書かないといかんのだが、めんどい……。買えるならいくらでも出しますよ。