本文へスキップ

趣味のゆる〜ぃバイアスロン biathon.jp

記事archives

[2012/07/14]
OCNのサーバートラブル4時間停止で、とばっちり


類似記事
使わなくても困らせてくれる「NTTコミュニケーションズ」…
OCN 障害回復に10日かかった このプロバイダは…


7月12日NTTコミュニケーションズのメールサーバが4時間ほど応答しなくなったため、その間、メールを中継する仕掛けが全部停止しました。原因はOCNのサーバー障害です。
OCNのトップページには、故障の表示が無かったため、自分の環境を懸命に確認したのですが結局原因がわからずじまい、仕方なくOCNに問合せをしようと思ったのですが、夜は電話受付がない。とりあえずメールで問合せを行い、あきらめて就寝。しかし、翌日は回答がなく、2日後にも回答は無し、結局、電話して確認しました。トラブル自体は翌朝に回復していたので、障害発生の原因確認をする形になったのですが…。

この御時世、一晩メールが使えないと、非常に困ります。原因と再発対策くらいは考えておきたかったのです。
ここから下は、OCNを利用されているユーザには面白い情報です。

今回の教訓および今後の対応

OCNトップページをチェックしただけは故障の確認をしたことにはならない


OCNに確認したところ、障害が広範囲におよんだり、回復に24時間以上かかる事が見込まれる場合などの条件がそろわなければトップページには掲載しないそうです。
 
すなわち、トップページに掲載されるのは隠しきれない様な大トラブルだけで、24時間以内に回復が予想される障害、OCN数百万会員規模からみて小規模な障害については、掲載しないという事。

OCNは会員数の多さを信頼の証としてる(確かにそうかもしれない)が、故障速報は会員数の多さゆえに小規模な障害まで掲載する事ができなくなっている。皮肉な話です。

OCNのトラブルを一般利用者が正確に把握する事は出来ない。


(【追記】2013年1月31日に少しだけ改善されたみたいです
 きっと、他でも苦情が多かったのでしょう)

 利用者がOCN側の故障を正確に把握する方法を明示するドキュメント類やHPは存在しない。また具体的な拡充予定も無い(2012年7月14日現在)。OCNの担当者もそれを認めて、こちらの要望に応える努力をしてくれたので、一概にダメとは言えませんが…。
 
素人が正確な故障情報を入手することは非常に難しいです。
たどり着くまでに、こんな苦行が待ってます。やるなら、根性が必要。

  1. OCNのトップページを開く

  2. OCN会員サポートページ(バナーをクリック)

  3. OCNに事前登録してある認証方法でログインする
    事前登録していないとすぐに見ることはできない。この手続きも結構面倒。

  4. 左端に控えめに表示してある「工事故障情報」という文字列を見つけてクリックする
    読む気になれないような、サービスの種類、回線、サーバーのパターンが表示される
    選択肢は404通り。すごい偶然!!
     
    404エラーというのは、HTTPで、「見つかりません」という意味です。出来すぎ?

  5. 404通りのパターンの中から正確に条件を判断しクリックすると、
    ・故障発生時刻(たぶん、OCNが故障に気が付いた時間)
    ・使えませんという情報だけが表示され、原因はわかりません。

    故障原因についてはいくら待っても表示されません。
    今回は、コールセンターの担当者が各方面あたって情報収集してくれたので、こちらも納得しましたが、担当者の誠意ある対応が無ければ、怒り爆発でした。
    ただし、これは偶然で、こんなに良く対応してもらった事は今まで一度もありません。

今回の障害原因は、あるOCNユーザーがパスワードを盗まれて(推測可能なパスワードだったのかもしれません)、メール発信の踏み台にされて、大量のメール発信/返信が発生しメールサーバーの過負荷で障害になったそうです。
OCNだけを責められませんが、それにしても事故後の対応は良くないと思う。
 
 担当者はしゃべりませんでしたが、同様の事例は頻繁に発生しているのではないでしょうか。いくら自分が注意していても回避できない障害です。

OCNサービスの信頼性は高くはない


 今回の障害で痛感したのはOCNの信頼性の根拠です。NTTコミュニケーションズが信頼性をアピールし私自身もそう思っていました。しかし、それは何の根拠もない思い込みに過ぎませんでした。過去を振り返って、一流と言われる他のプロバイダに比べると逆に劣っている事に気が付きました。
 
 例えば関連会社のIIJの方が格段に優れている。(ライバル会社と比べると角が立ちそうなので、NTTが筆頭株主のIIJとの比較にしておきます)IIJはOCNを使う前に4~5年使ってましたが、非常に安定したプロバイダでサーバーの不具合発生頻度などは、比較するとIIJに失礼なくらいです。実際に5年間利用していてメールの遅延に遭遇したのは1度だけで、驚いた事にその月はお詫びのメールを頂いた上に利用料金が返金されました。同じ事をOCNがやったら、商売にならないと思う。

OCNへの問い合わせは、メールを送った後でも電話する事


 OCNはメール問合せの回答が遅い。どうでもよくなってから、回答が届きます。OCN以外でNTTコミュニケーションズのレンタルサーバーの問合せした時はもっとひどかった。回答が遅いので連絡したら、担当者は回答は済んでいるという大変失礼な対応でした。この時は複数の問合せの1つだけ回答して残りは全部忘れていたのでした。対応の悪さはNTTコミュニケーションズ全体の話かもしれません。
 今回の障害の件は、電話での対応が終わった後にメールの担当からお詫びのメールを頂きました、レンタルサーバー担当の無礼な態度に比べれば雲泥の差です。付け加えておくとレンタルサーバーの担当者をそんなに怒ってはいません。なぜなら、別の良い事業者と契約できましたから。


OCNを過度に信頼しないで処理方法を考え直す


 情報が集まってくるサーバーの障害だったため、全処理が止まってしまった。この事を踏まえて、別のISPのサーバーも準備して同じ処理を並行して行う事を検討します。加えてテスト用のメールを定期的に飛ばして、動作の監視と記録も実施しようと考えてます。二重化と言っても、ショボイ処理しかしないですけど。
 今回、止まったサーバーには、数十のメールアドレスに集まってくるメールを一旦まとめて仕分ける処理に使っていたので、メールが喪失しないか心配しました。個人向けサービスに過度な信頼性を求めるのも酷な話で初めから二重化するべきでした。