Hadoop Conference Japan 2014- Eventbrite
今年も開催されたのでいってきた。主催者の方は本当におつかれさまでした。毎回規模がでかくて、これやるのは本当大変だろうなと思う。参加登録者は1299名だそうな。
全体的な空気としてはいよいよYARN移行が避けられず、その上に乗っかるデータ処理フレームワークとしてMapReduceも今後存在しつづけるもののSparkやTez*1が登場し、処理記述言語としてはもう単純な処理についてはSQL一択ですかね、という感じ。機械学習系やそのほかのワークロードはまた違うだろうけど。あとはMPP系のエンジンがその脇にある、という。
今回は事例の話が極端に少なくなって、みんな各コンポーネントについての話をしてた気がする。技術的には過渡期だということかな。いいことだ。
参加者アンケートでFluentdを使っていると答えた人が200人近くもいて、これは正直びっくりした。自分のセッションの最初にもちょっと聞いてみたところ、知っている人という質問にはおそらくほぼ全員の手が上がり、使っている人を聞いても半分以上上がっていたと思う。懇親会でもFluentdのことについて話しかけられることも何度も。なんかもう日本のログコレクタ界*2にすごい勢いで広がってるな。ひええ。
いっぽう知らない人から「ちょうどNorikra使ってみようと思っているところなんです!」と話しかけてもらった回数が5回を優に超え、これはこれからNorikra流行るのでは、みたいな……どうかなw
しゃべってきた(メイントーク)
SQLを処理記述言語としてバッチ処理およびストリーム処理の両方で用いることについて、またバッチ処理とストリーム処理の特性の違いと使い分け方法(および併用することの重要性とその方法)などについて話した。ちょっと定性的な議論が多くなって聞く人の印象はどうかなと思ったけど、Twitterとかでは良かったという反応も見られたので、まあ良かったと思うことにしておこう。
ストリーム処理は実際やってみると速報値の算出や異常検知などにたいへん便利なんだけれど、これまではStormを立ててその上でアプリケーションを書くくらいしか実質的には選択肢がなく、それはそれであんまりだよね、普通の人は分散処理を前提としたストリーム処理が必要なほどのトラフィックはそうそう持ってないでしょ、という話も出てきます。Hadoop Conferenceで非分散処理なソフトウェアの話をするのもちょっとアレだったけど、まあ、まあ。
無事に終わったので総じて良いのではないでしょうか。
しゃべってきた(LT)
メイントークとLTと、どちらか通ったらいいなと思っていたら両方通ってしまったので、こっちもやってきた。じつは最近も開発がちゃんと行われておりYARN対応したりPresto対応したりしているShibの話。便利なのでみんな使うと良いと思います。
いっぽうLTだしと思って笑いを取りにいったところ非常に反応が薄くつらい思いをした。ハードル高い。