Nagiosで監視をしていて障害を検知した一部始終
Contents
Nagiosを用いて自分で管理しているブログなどの監視を実施しています。今回、障害を検知して対応を実施するまでの一部始終を書き散らかします。
一報はこれ
一報は Nagios からの通知でした:
@kazu634 Redmine Response Time @ localhost is WARN. (null). (1371630414)
— bot_kazu634 (@bkazu634) June 19, 2013
調査
ここからわかるのは、VPSで運用している Redmine のレスポンスタイムが悪化しているということ。ただわからないのは、結果的に自分自身で動作している Web サーバのレスポンスタイムが悪化していると通知していること。自分自身に対してなんだから、普通はレスポンスタイムが悪化するなんてことはないはずなんですが。。。
一時切り分けのために、手元の iPhone から Redmine に対してアクセスしてみます。たしかにアクセス出来ない……なぜ。。。
次に手元の iPhone から SSH で問題のサーバにアクセスしてみます。これは接続できる。ログも参照できる。この辺で名前解決がうまくできていなさそうと気づきました。
ムームードメインのサポートページ
ムームードメインのサポートページに行くと、DOS攻撃を受けてレスポンスタイムが悪化していると告知されています。原因はこれか!!
たしかにこれだとレスポンスタイムが悪化する。自分で管理しているサーバ側の問題では無さそうなので、とりあえずDOS攻撃が終息するのを待つことにします。
残された疑問
あれっ、でも、DNSへの問い合わせ結果ってキャッシュされていなかったっけ?調べてみると、Linuxだとキャッシュしないで毎回DNSに問い合わせをするのがデフォルトみたいですね……知らなかった。。。