たごもりすメモ

コードとかその他の話とか。

Hadoop Conference Japan 2011 Fall に行ってきた&しゃべってきた

なんかすごいイベントだった。User Group主催のイベントなのに2ホールを1日貸し切り(というか施設まるごと貸切)でキャパシティ1400人のイベントとかどういうこと。しかも無料参加なのにランチボックスとか飲み物とか出てた。意味がわからん。カネのあるところは違うということかー?
ともあれとりあえず主催者の方々はお疲れさまでした!

内容のサマリが読みたい人はこんなエントリを読んでないで、他の人がまとめてるものがあるのでそっちに行きましょう。

しゃべってきた

こっちを先に片付ける。ライトニングトークで時間もらったので、ライブドアHadoopをこんなことに使ってるよ、そのためにこんなツールが欲しかったから作って使ってるよ、という話をしてきた。

動画の様子はあとでUstream等で公開されるんだと思う。多分。されないと自分が見てなかったトラックとか見たくて悶死するし。実はあれが自分がプレゼンしたときの聴衆数最大だった気がする。ちょっとビビり気味でしゃべってたので他の人からどう見えてたか不安……。

10分にちょっと詰めすぎた気もするけど、現状の端的な紹介ができたと思う。内容について細かく知りたいという人は個別に声をかけるなりしていただければいくらでも出てくると思います。scribelineについてはこのblogに書いてるけどshibはまだ書いてなかったと思うので、続けてエントリを起こす予定。Beeswaxとの違いとかリクルートさんのWebHiveとの違いとかあるんじゃないかなー、目的特化のツールなんで用途にハマれば便利なんじゃないかなー。

行ってきた

10時のオープニングで参加登録時のアンケートの内容が一部紹介されていたけど、なんとHadoop使ったことない人が半数。うわー、という気分にちょっとなった。まあ冷静に考えてマシン複数台と分散処理対象のデータがないと実際に試せもしないフレームワーク*1なんだから、1000人以上とか集まる方がおかしいという気もする。そこから考えると半数が使ったことないってのもおかしくはないのかな。事例を知りたいんでしょうねきっと。スーツ率高かったし。*2

午前中は Cloudera, HortonWorks, MapR の3社のKeynoteっぽいお話。たいへんビジネス臭のする世界で良いですね。技術的な話はあんまりなくて正直ちょっと退屈。特にClouderaとHortonWorksがパッケージングについて綱引きしてたけど、個人的には本家OSSプロジェクトからrpm/debが出る方が嬉しいなーと思ってる。まあ最終的には、バージョン不整合の問題のないパッケージがどっかから出てくるんならそれでいいやという気分だけど。どうせ頻繁にアップデートとかしないし。MapRは惹かれる話が満載だけど、ミドルウェアにおカネかけてられないからパス。技術的には興味があるけどなあ。
で、ビジネス上の話で綱引きはしつつ、Hadoop関連コンポーネントではClouderaもHortonWorksもそれぞれにコードを提供して進めていっているし、なんかいい関係ですね。フルスタックが完成するまで黙ってて、いきなりドカっと出して「これでいこうぜ!」とか言いだす企業よりはるかに好感が持てる。

午後は正直自分のプレゼンが終わるまでは他人事どころではないので上の空に近かった。が、自分のが終わったらそれなりに落ち着いてふらふら。
で、結局問題になるのはHadoopそのものというよりも、データの収集と変換であったりとか、クエリをどう発行するかとか、そういうことなのかなーとは思った。データがきちんと整備された状態でHDFSに入ってれば、それを処理するロジック自体は生MapReduceでもPigでもHiveでもよくて*3、その処理をどうkickするか、データの整備はどうやってやるのか、に注力せざるをえない。Hadoop上で動くロジックの効率だのなんだのはノード増やせば済むしね。うーむ。
HortonWorksのOwenのプレゼンは来たるべきHadoop 0.23について。次期stableで、2011Q4に出るらしい。アーキテクチャの変更とか解説があったが、いろいろと良い改良が行われるように見える。楽しみ。HadoopMapReduce専用基盤ではなくて汎用の分散処理基盤のようになる、という理解でいいと思う。ストリーム処理用のアプリケーションとかもやってみれば展開できそうに見えたけど、どうかなあ。

懇親会、二次会

いろんな人といろんな話をしてた。楽しかった。なんかもういろいろあるけど省略。
とりあえず stream processing framework ほしい。という話をけっこうしてた。ClouderaのToddに「なんでFlumeじゃダメなの?」とか言われて、いやあれは too heavy だと思うんだよね、とか言ってもあんまし理解してもらえなかった。OwenがKAFKAはScalaで良さそうだったとか言ってたのでそのうち調べる。あとはJVM上で動くってのは諦めて受け入れるとして、JRubyで書くとかかなあ。flumeかfluentで。

全体的に超楽しかったです。おつかれさまでした!

*1:もちろん動かすだけなら1台でもできるけど、普通に考えてなーんにも嬉しくないよねそれ。

*2:でもHortonWorksのOwenが懇親会二次会で「Tシャツが多かった」と言ってたのを考えるとアメリカではHadoopの集まりはより強烈なスーツの集団なんだろうなきっと。

*3:そういえばPig使ってるって話は自分が聞いたセッションではひとつも出てこなかったなーという気がする。