読者です 読者をやめる 読者になる 読者になる

たごもりすメモ

コードとかその他の話とか。

Cloudera World Tokyoにいってきた

Cloudera World Tokyo(2012年11月7日開催) on Zusaar

思えばHadoopの技術イベントってだいぶ久し振りだった。スーツの人向けなのかなーと思いつつなんとなく参加してみたらやっぱりスーツの人が多かったし、内容もそういう話が多くてちょっと辟易……。

しかけてたら、CDH4.1の話に色々思うところがあったので収穫だったのと、Impalaの技術的な詳細がねーなーというのが懇親会でくつがえったのが素晴しかった。懇親会に絶大な価値があった*1

大部分の内容は割と初心者向けの話&Clouderaの宣伝&ビッグデータ()&事例紹介だったのでパス。

CDH4.1

CDH4は色々中途半端だなと思ってたけど、CDH4.1になって良さそうな感じになってた。

  • Namenode HAが共有ストレージに依存しない形で実現したこと
    • 思ってたよりずっと早くこの状態になった、しばらく来ないかと思ってたから割と驚き
  • Hive 0.9 & Hiveserver2
    • 今の Hive まわりにそう不満はないけど、アップデートはいいですね

CDH4系(というかYARN)への移行については、自分は手元でJavaMapReduce手書きしてないので Hadoop Streaming とHiveさえ互換性を失わずに動けばよく、実のところあまり強烈に拒否する理由もない。CDHが4系をメインラインに据えているのはもう事実なので、変に意地を張らずにさっさと移行しちゃえばいいのかなという気分になってきた。Namenode HAが使えるのはやっぱり大きいよ。

Impala

「リアルタイムクエリ」「とにかく速くなる」しか聞かされてなくてだいぶ眉唾な気分でいたんだけど、基調講演をやった CTO Amr Awadallah 氏と直接話す時間がとれたので技術的に突っ込んだ質問しまくってたら色々と明らかになって納得がいくところが多かった。内容は以下のURLにて choplin さんがすごい勢いでまとめてた。たすかる。*2

Impala Q&A — still deeper

リアルタイムと言われると鼻で笑いたくなるが要するにマーケティング向けの用語で、端的には「Hive互換のクエリをできるだけ短時間で実行完了するためのエンジン」みたいに思っていればよさそう。
現状では*3色々と本番投入するには厳しい条件が多いが、それもちゃんと認識していたし、こうするつもりだ、という返答も明快な形であった。CDHのこのバージョンでこうする、という話が多く、改善に向けてのロードマップがオープンなのもすばらしい。完成したら公開するけどそれがいつかは秘密、みたいな態度でないのはじつに感触がいいですね。

ところで、質問していた中で「本当にリアルタイムな処理、つまりストリーム状に流れてくるデータに対して、集計ウィンドウの終端に達した瞬間に結果が欲しい処理について何か作る気は無いの?」と聞いたところ「その5分間のデータ量は? 数百MB? ならImpalaで数秒〜数十秒で返ってくるからImpalaでいいじゃないか」と返ってきていた。その時はまあそうかなと思ったけど、あれは後から考えると良くなかった。
データはサービス毎に分割されているから、集計クエリはサービス数だけ発行する必要がある。数十クエリが全部ちゃんと安定的に秒単位で返ってくるかどうかを管理するのはやっぱり運用負荷が高い。ストリーム処理はそれはそれで存在価値があるな。

しかし、こちらに分かりやすい英語でちゃんと話してくれたのがじつに助かったし、嬉しかった。慣れてるんだろうけどすごいな。こちらからは簡単な質問はそう戸惑わずに英語でできるけど、込み入った話になってくると @shiumachi さんに通訳を頼む始末。ありがとうございました。もうちょっと何とかした方がいいかなあ……。
そして、あれだけ詳細な技術的問題について明快にレスポンスを返せるCTOがいるのもすごいもんだという感じ。いい技術の会社ですね。(もうちょっとイベントでそういう面を見せないと、色々損してる気がするけどw)

そして酔っぱらったアタマで、「明日Impala試すよ!」と決めた。

結果

Impalaは CDH4.1 on RHEL/CentOS 6.2 が必要でした。どっちも条件を満たしてなかった。終了。

*1:数名でCTO氏をずっとつかまえてたので他の参加者によかったのかという気がしないでもないw

*2:この内容は本セッションにあれば大満足のイベントだったのに、と思うけど、そういうのを期待している人は少ないのかなあw

*3:メモリまわりの問題とかUDFが使えないとか