Cloudera World Tokyo 2013で登壇する機会をいただいたので行ってきた。
Cloudera World Tokyo 2013 | Cloudera Japan
しゃべってきた
しゃべる方は最近作ってるNorikra……の話だけだとなんでCloudera World Tokyoだということになるので、集計処理をSQLに一本化してラクしよう、という文脈でHiveとNorikraで全部片付けるようにするといろいろ便利だしお仕事も回るよ! という話。
で、ついでにv0.1.0をリリースしたばかりのNorikraというやつがどういうソフトウェアなのか、について簡単に紹介した。どういうソフトウェアなのかがいまいちわからん、という話が同僚からも聞かれていたので、分かりやすい話を一度しておこうかなと。*1
ログの量についてセッション後にちょっと誤解が広まったようですが、ある範囲のWebサービスについて自分の手元で管理してるログ収集・集計系でのログトラフィックがあのくらいということで、もちろん会社のサービス全体とかLINE自体のトラフィックを指すものではありません。
で、Norikraのクエリがどういう動きかたをするか、どういうときに役に立つかという話をしました。ドキュメントはこれから頑張って書く! という感じですが、興味を持った方はぜひ試してみてください。もうそんなにおかしいところも多くはなく使えるはずです。
同僚向けにもやらないとな……。
いってきた
自分のtalkがあったんで聞いてない時間帯もあったけど、いろいろ。CDH5でいよいよClouderaもYARNに注力ということで、じゃあみんなで移行しますかー、という時期がやってきたなあ。CDH4の時にやりかけた分があるのでそんなに苦労はしない気がするけど Huahin Manager がYARN対応してないのでどうにかして!!!!!!!!!!! > ryu_kobayashi
Impala の話を意外に聞かなかった気がする。特にユーザサイド。みんなまだ使ってないのかな。いっぽうSparkとかも出てきてユーザが最適なものを選ばないといけない、という意味でいろいろハードル高いなあと思う。みなさんちゃんと全部評価できてるんですかね。
我らが @oza_x86 先生のYARNについての話はじつにすばらしかった。Apache Hadoop 2.2 のYARNはCDH4時点のに較べてだいぶ良くなってそうだ。あと現実的にImpalaなんかもYARNの上に乗ってくるならますますYARN移行する理由があると言える。たぶん。
で、技術的にはともかくデータサイエンティスト云々がなあ。なんかなー。データファーストについてはその通りだと思うんだけど、その、うん。データをどう華麗にひねるかより、関われる人を増やす・サービス改善のイテレーションをより多く回す、とかの方が大事だと思いますよ。いつまでもPoCやっててどうするの。
あとの飲み
Norikra on YARN やろう! という話になってた。どうしてこうなった。
いや、性能面を考えるといずれ分散処理の仕組みは必要だったし、HA的な機能もどうにかするならいっしょに解決するのが正しいし、それをもうせっかくだからYARNに載せてしまおうというのは悪くないような……いや、うーん。
でもクエリの保存とかにZooKeeperみたいなのがないとヤバいという結論になったので、YARNに載せるのはアリかな。いやどうかな。Hadoopないと分散処理できないってことか。うーん。もうちょっと考える。
*1:おかげで既にだいたい知っている人からは新しい話がなにもないとひたすらdisられてつらい……。