たごもりすメモ

コードとかその他の話とか。

2012-01-01から1年間の記事一覧

2012年を振り返ってみる

世界が滅亡することもなく2012年も本日で無事終わるようなので、すこし振り返ってみる。去年と同じようにやろうかと思ったんだけど時期ごとの特徴みたいなものがあんまりなかったので、トピックごとに適当にまとめる。 Fluentd とにかくこれでしたねー。Flue…

CDH4 NameNode HA (QJM)でクラスタ構成

CDH4と延々格闘してたが、ようやくひととおり設定が終わったのでまとめ。 特にNameNode HA QJM版はドキュメントもけっこうグチャグチャで何をどうすればいいのかの把握が困難だった。また Auto Failover は設定するとマトモに動かなかったので無効にした。そ…

hadoop distcp -skipcrccheck するときは -update も必要

CDH3クラスタからCDH4クラスタにYARNでdistcpする場合には -skipcrccheck せよ、とある。 DistCp using MRv2 (YARN) from a CDH3 cluster to a CDH4 cluster may fail with CRC mismatch errors Running distcp on a CDH4 YARN cluster with a CDH3 hftp sou…

CDH4にしたらDNSによる名前解決がうまくいかなくなった(解決した)

CDH3u5で使っていたクラスタをOSそのまま(再起動すらしてない)でCDH3をまるっと削除してCDH4に変えたところ、突然名前解決ができないと言いだしてまるで動かない状態になって右往左往していた。まるで原因が見えず失意のどん底に落ち無力感にさいなまれると…

HDFS block sizeをどのように設定すべきか

HDFS block sizeを決めるには以下のようなことを考える必要がある。 MapReduceへの入力となる総ファイル数は? ファイルごとの平均サイズがどのくらいで、ファイルごとにサイズのバラつきがどうなってる? ファイル形式と圧縮オプションがどうなってんの? …

Operation Engineers' Casual Talks にいってきた&しゃべってきた

主にOperationをやっている人達もコード書かないといけないのかな? というあたりについて話さないかというお誘いがあったので受けてしゃべってきた。http://atnd.org/event/operationcasual 「おぺかじ」まとめ - Togetterまとめ慣れないハイ意識トークだっ…

最高裁裁判官国民審査、Winny裁判で著作権侵害幇助成立という意見を述べた判事がいるぞ

Winny裁判で金子氏の著作権侵害幇助が成立するという意見を述べた裁判官のところにバツをつけるたった一度きりのチャンスがやってきたというわけですよ!!!!!!!というのを選挙広報を読んでて見付けた。プログラマのみんなもよく読んでみよう!

おぺかじの話のはなし

Operation Engineers' Casual Talks というイベントが行われます。で、そこで話すことになってます。Operation Engineers' Casual Talks | イベントアテンド [ATND] でイベント作成・チケット販売・参加者の出欠管理開催が12月中旬の金曜夜なので、定員100人…

UserAgent判定器 Project Woothee: v0.3.0 Javascript実装追加

参考: UserAgent判定器 Project Woothee v0.2.0: RubyおよびPython実装を追加 - tagomorisのメモ置き場 (参考2: 最近の多言語対応User-Agentパーサライブラリ woothee について - tagomorisのメモ置き場)汎用のUser Agent判定器として細々とメンテしている w…

個別集計と全体集計を1回のHiveクエリで実行する

馬鹿でかいデータを2回なめたくないでござる! という話。SQLなら WITH ROLLUP で一発なんだけどHiveでは現状サポートされていない。(hive 0.9.x or before) select x,sum(y) group by x と select sum(y) を出すのに同じデータセットを2回舐めたくない、だ…

さくら石狩DC見学ツアーに参加してきた

聞いたところによると40名の枠に150名の応募があったらしいが、幸いにも参加できたのでいってきた。最新鋭データセンターの施設に萌えるべき! さくら石狩DC見学ツアー - はてなニュース人生で初めて北海道に行ったんだが、正直に申し上げてめちゃくちゃ楽し…

#isucon2 をやったあとの反省など

#isucon2をやりましたの話 - tagomorisのメモ置き場これの続き。主に反省というか振り返りというかについて書きますよ。(誰かが次回っぽい何かをもしかしてやるかもしれないときのために!) 参加層について 今年はいろんな言語が使われたので大変よかったで…

#fluentd meetup 3 にいってきた&しゃべってきた

Fluentd meetup #3 #fluentd on Zusaar開催されたので参加してきた。また td-agent に fluent-plugin-webhdfs がバンドルされるようになった後ということで、それについて話さないかと言われていたのでそういう話をひとつしてきた。 今回の会場はIIJさんの会…

Cloudera World Tokyoにいってきた

Cloudera World Tokyo(2012年11月7日開催) on Zusaar思えばHadoopの技術イベントってだいぶ久し振りだった。スーツの人向けなのかなーと思いつつなんとなく参加してみたらやっぱりスーツの人が多かったし、内容もそういう話が多くてちょっと辟易……。しかけ…

#isucon2をやりましたの話

livedoor Techブログ : #isucon2 リアルタイムフォトレポート 更新終了 livedoor Techブログ : #isucon2 参加者・関連エントリまとめ tagomoris/isucon2 · GitHub結論から申し上げますと、またfujiwara組に優勝されてしまった!!!!!!!!!!*1そんな中…

express 3.0 で cookieSession を使うときは cookieParser も明示的に呼べ

express とか久し振りだわー 3.0.0 とか慣れないわーと思いながら書いてたらセッション管理しようとしてハマった。のでメモ。とりあえず今回はカジュアルなセッション管理なので cookie でいいや、と思って調べてたらこんなのがあった。 express cookieSessi…

#fluentd でアクセスログからメトリクス生成/リアルタイム監視するための設定例

このエントリは ウィークリーFluentdユースケースエントリリレー の参加エントリです。いろいろアレでアレなときに回ってきて新ネタを思い付く余裕がないので、手元の設定を晒して解説しお茶を濁そうと思います。ユースケース!前提は以下の通り。 アクセス…

知見はblogエントリに書けという話、またはWeb業界における @oranie 消失のリスク

このエントリに書くことはほとんど与太話なのであまり真面目に受け取ってはいけない。特定のツール/ソフトウェア/業界であれこれやっていてTwitterに何となく書いたりしていると、かなり詳しい人からダイレクトに反応があって議論が進み仕事も進んでみんなハ…

node.jsでHTMLスクレイピングをjQuery記法でやるライブラリみっつの比較

某イベントのためのコードを書くのにHTMLのスクレイピングをやりたいなー、nodeで書くかなー、去年は jsdom で書いたけど今はどうなんだろね、とか調べてたら、どうもこういうあたりのがあるらしい。 jsdom たぶん一番有名で高機能、だけど重い。 node-jquer…

YAPC::Asia 2012 にいってきた&しゃべってきた #yapcasia

今年もやってきた年に一度のPerlの巨大カンファレンス YAPC::Asia TOKYO 2012 にいってきた。前夜祭、1日目、2日目と、今年は日曜にハッカソンにも初参加。フルに楽しんでまいりました。JPAの方々、ボランティアスタッフの皆様、いつもいつもお疲れさまです…

PerlでSTDIN/STDOUTを任意のファイルハンドルに置き換える

いま書いてるコードで、forkしてexecするんだけど、execする前にSTDIN/STDOUTを任意のファイルハンドルに置き換えたいなー、もっというとexecするプログラムのSTDINにソケットのREADから流れてくるデータを流し込んで、STDOUTの出力をソケットのWRITEに流し…

Perlでコマンドラインオプションの解析に Getopt::Long を使う時、絶対に忘れてはいけない引数

Perlでコマンドラインオプションをparseしようと思うと組込みモジュールとしては Getopt::Std と Getopt::Long がある。が、long style option *1 つまり --option-name のようなオプションを解釈してくれるのは Getopt::Long だけだ。なので普通はこちらを…

#fluentdの死活監視を ping message + ping message checker で

先日のFluentd meetup #2からこっちFluentdの監視熱が高まっている昨今ですが、みなさんFluentdの監視してますか。暑いですね。 ところで監視といえばプロセス監視とかは当然やってたんですが、まあやっぱりメッセージ飛ばしてみて実際に飛ぶかどうかとか確…

ShibUIを公開した

HadoopSCRでしゃべったときにデモったりNHNテクノロジーカンファレンスでデモったりしたHiveクエリのスケジュール実行および結果のグラフ登録をやる社内用のアプリケーションがあったんだけど、コードの整理をやるついでに社内依存部分を切り分けたりしたの…

fluent-plugin-ping-message released!

Fluentd meetup in Japan 2の会場でFluentdの動作ホストリストアップや監視に関する意識が高まったので、そのためのプラグインをざっくり書いてみた。会場で書き上げたけど何故か既に酔っぱらってた*1のでその場でリリースは控えてた。 今日確認してみたらだ…

Fluentd meetup in Japan 2 にいってきた #fluentd

Fluentd meetup in Japan #2 #fluentd on Zusaarふらふらとお気楽に参加してきた。当方ささやかながらプラグインを作ったりしているので、他のひとがどのように使っているか、どのようなプラグインが他の人によって使われているか、あたりにたいへん興味があ…

fluent-mixin-config-placeholders released! もしくは fluentd mixin gemの話

fluent-plugin-webhdfs で path にホスト名を使いたいなーと思った*1ところ、全員にいちいち fluent-plugin-config-expander を hostname のためだけに使えというのも無いなということで、Mixin化して設定の解釈にプレースホルダを提供することにした。で、…

WebHDFSとHttpFs(Hoop)に見るHDFSクライアントチューニングの話

前に書いた通り、HDFSへの書き込みをHoop Server経由からWebHDFS経由に変更している。 これまで(Hoop Server) Hoop Server経由で書き込んでいたとき。クラスタで重めのMapReduceジョブを走らせると、その時間帯に書き込んだデータを後で読み出したときに che…

第2回NHNテクノロジーカンファレンスでしゃべってきた

勤務先が主催でNHNテクノロジーカンファレンスという技術者向けイベントをやってるんだけど、その登壇者として社外の誰かから推薦されたらしいので(何故……)、ひとセッションしゃべってきた。なお「HBase at LINE」の発表は「HBaseについて誰かいない?」と主…

そういえば YAPC のチケットうってるらしいですよ

http://yapcasia.org/2012/talk/show/96627a88-ab9d-11e1-a255-2a656aeab6a4 僕もしゃべります。なんというか、一言でいうと YAPC で僕のトークをみにきてください。本物の分散ストリーム処理とはどういう物かお見せしますよ というかんじです。ちょっとした…