2020/06/04 の深夜から発生しましたインターメンテの障害について

この度は、インターメンテの長時間の障害・サービス停止にてご迷惑をお掛けして申し訳ございません。
本障害の最終の報告は、インターメンテ システム障害についてのお詫びとご報告に掲載しております。

最新の状況 (2020/06/06 15:00)

6/6 02:40 の時点で、インターメンテの基本的な機能については、復旧いたしました。

6/6 13:30 にて、朝の段階で制限のあったログインページも復旧いたしました。
監視画面へのログインは、
https://www.reudo.co.jp/intermainte/login/ (SSL対応の負荷分散ログインページ)
も含めて、従来どおりとなります。

一部のお客様において、設置いただいているインターメンテユニットが自動接続されていない状況が確認されました。
個別にご連絡をさせていただきますが、監視画面で未接続となっているユニットについては、現地にてリセットをお願いいたします。

昨日午後の時点での見込みより、大幅に遅れての復旧となりましたことをお詫び申し上げます。

障害の原因

インターメンテシステムのサーバを設置しているデータセンタの受電設備の故障
データセンタ全体で電源が喪失されており、インターメンテのサーバも停止しております。

発生時刻

2020/06/04 22:50頃

影響範囲

なお、障害発生以前のデータ(履歴データや設定情報など)についての喪失はございません。

これまでの経緯

2020/6/4 22:56 システム自動監視により、弊社で障害を検知
22:42の段階では正常であったことを確認できており、実際の障害の発生は22:50前後と考えられます。
 障害を確認後、23時頃より調査を開始しました。
2020/6/5 00:28頃
データセンタ全体の障害であることを確認。
当初は弊社システムおよびネットワークを中心に調査をしていたことと、データセンタ側も混乱しておりオペレータと連絡が付かなかったため、データセンタ全体の障害を把握するまでに少々時間を要しました。
この時点では「電源設備付近で火災報知器が作動したが、誤報の可能性が高い。」とのデータセンタ現地の認識でした。
2020/6/5 06:30頃
データセンタからの報告で、電源設備の故障が原因と確認。
この時点では故障の詳細までは特定できておらず、「本日中の復旧は難しい。」とのデータセンタ現地の認識でした。
2020/6/5 13:00頃
データセンタからの報告で、故障箇所の特定でき復旧作業が開始されたことを確認。
受電基幹部分の故障による短絡が原因で、故障箇所をバイパスするとのことです。
故障箇所が特定されたため、本日中に電源が復旧できる見込みが生じました。
2020/6/5 16:00頃
データセンタから、「本日18:00から19:00の電源復旧の予定。」との報告。
2020/6/5 20:00頃
データセンタからの報告で、『「本日18:00から19:00の電源復旧の予定。」の作業に問題があり、21:00以降の再試行を予定している。』との状況です。
2020/6/5 22:00頃
データセンタからの報告で、「電源の復旧が、22:30から23:00となる見込み。」となりました。
2020/6/5 22:40頃
データセンタから、サーバセンタの電源が復旧したとの報告がありました。
また、弊社設備にも給電されていることを確認いたしました。
引き続き、インターメンテシステムの立上げを行います。
2020/6/5 23:55頃
インターメンテシステムの立ち上げ開始。
電源喪失にともなって、サーバにアラートがあり、当初予定より立ち上げの準備に時間掛かりました。
この時刻から、一部の機能は動作し始めましたが、以下のような問題を含めて不安定な状態でした。
  • 6/6 00:45頃までは、時刻が不正でした。
    (この影響で、警報メールに記載の時刻が不正、履歴データへの記録がされない、の問題が発生しました。
  • 6/6 01:50頃までは、共通サーバでのログインページの表示、および警報メールからの自動ログインURLが正しく動作しませんでした。
2020/6/6 02:40
インターメンテの基本機能の立ち上げが完了を確認いたしました。
SSL対応共通・負荷分散のログインページ https://www.reudo.co.jp/intermainte/login/ を除き、機能が正常に動作していることを確認しております。
2020/06/06 13:30
https://www.reudo.co.jp/intermainte/login/(SSL対応の負荷分散ログインページ)も復旧いたしました。
2020/06/06 15:00
障害発生前にサーバに接続されていたが、障害復旧後の接続が確認できないインターメンテユニットを確認し、監視画面での状態表示を「未接続状態」にいたしました。
該当のお客様には個別にご連絡をしております。 設置されている現地にてインターメンテユニットのリセットをお願いします。

また、インターメンテのサーバと同じく弊社業務サーバでも障害が発生しているため、早い段階でのホームページ等での障害報告、メール等でのご連絡ができませんでしたことも、お詫び申し上げます。

たいへんご迷惑をお掛けしており申し訳ございませんが、今後ともよろしくお願いいたします。