2012-05-01から1ヶ月間の記事一覧
Hiveの話をする勉強会やらない? そこでしゃべらない? というお誘いを受け、それがそのままHadoopソースコードリーディングで開催という流れになったので、いってきた。Hadoopソースコードリーディング 第9回- Eventbrite結論から言うとたいへん楽しかった…
なんとなく思い付いたら各所の協力を得られましたので、そのまま開催してしまいました。 勉強会を主催するのは初めて*1だったのですが、会場をお貸しいただいた株式会社ディー・エヌ・エー様、ならびに当日運営をまるっとお手伝いいただいた @riywo さんをは…
第2特集「[Fluentdで実現!] 大規模データのログ収集&活用」の第4章「Fluentdの導入と活用の実際」を @kazeburo さんと共著で書きました。たぶん世界初のFluentdに関する活字記事です。Software Design (ソフトウェア デザイン) 2012年 06月号 [雑誌]posted …
CDH3で使ってる設定ファイル群を基本的にそのまま(ノードリストなどだけ書き換え)でCDH4の検証クラスタを作ろうとしてみた。ら、以下のような事情でいろいろ面倒くさかったのでいったん挫折したのが本日あったこと。 使う環境変数がいろいろ変わってる YARN_…
このエントリは以下の記事およびFluentdの現状を受けてのものであり、Fluentdの実装についての知識を前提とします。Fluentd v0.11 の設計案 — Gistまた言うまでもないことですが、自分の使いかただったらこうだといいなー、という程度のものであり、それ以上…
深夜に「はじめてのHadoop」が出版されるとしたら欲しいネタの一覧をなんとなく考えてた。Hadoopクラスタのセットアップを新規にやるのが予定にあるので、それも含めてトピックだけ書き出しておこうかなと思った次第。 「初めてのHadoop」ちょっと考えてたが…
きわめてざっくり書くと以下のような感じ 同じようなクエリを発行しているふたつの出力の圧縮方法が違う 片方はHDFS上でのファイル全体がgzip圧縮されている (ファイルを見ると 00000_0.gz のようになっている) 片方はレコード/ブロック単位でのgzip圧縮にな…