Nagiosで監視をしていて障害を検知した一部始終

Nagiosを用いて自分で管理しているブログなどの監視を実施しています。今回、障害を検知して対応を実施するまでの一部始終を書き散らかします。

Nagios Core

一報は Nagios からの通知でした:

ここからわかるのは、VPSで運用している Redmine のレスポンスタイムが悪化しているということ。ただわからないのは、結果的に自分自身で動作している Web サーバのレスポンスタイムが悪化していると通知していること。自分自身に対してなんだから、普通はレスポンスタイムが悪化するなんてことはないはずなんですが。。。

一時切り分けのために、手元の iPhone から Redmine に対してアクセスしてみます。たしかにアクセス出来ない……なぜ。。。

次に手元の iPhone から SSH で問題のサーバにアクセスしてみます。これは接続できる。ログも参照できる。この辺で名前解決がうまくできていなさそうと気づきました。

ムームードメインのサポートページに行くと、DOS攻撃を受けてレスポンスタイムが悪化していると告知されています。原因はこれか!!

障害・メンテナンス情報 | ムームードメイン

たしかにこれだとレスポンスタイムが悪化する。自分で管理しているサーバ側の問題では無さそうなので、とりあえずDOS攻撃が終息するのを待つことにします。

あれっ、でも、DNSへの問い合わせ結果ってキャッシュされていなかったっけ?調べてみると、Linuxだとキャッシュしないで毎回DNSに問い合わせをするのがデフォルトみたいですね……知らなかった。。。