Windows Azure、11時間にわたる全世界的なストレージ障害。原因はSSL証明書の失効
Windows Azureがクラウド内で利用しているSSL証明書が失効してしまったことで、約11時間にわたるストレージ障害が発生しました。その経緯が「Windows Azure サービス ダッシュボード」で報告されています。Windows Azureは、昨年の2月にもうるう年関連のバグで9時間ダウンしていました。
以下はダッシュボードで報告された障害発生から復旧までの報告の抜粋です。
世界中で一斉にWindows Azureのストレージがアクセス不能に
障害発生が報告されたのは、グリニッジ標準時で2月22日の午後8時44分。Windows Azureが稼働するワールドワイドのデータセンターすべて、ほぼ同様の報告が以下のように行われました。
Feb 22 2013 8:44PM We are experiencing an issue with Storage Worldwide and this is impacting all dependent services. We are actively investigating this issue and working to resolve it as soon as possible. Further updates will be published to keep you apprised of the situation. We apologize for any inconvenience this causes our customers.
2月22日午後8時44分。ワールドワイドでストレージの問題が生じており、依存するすべてのサービスに影響している。できるだけ早期に問題解決すべく調査と作業を進めている。引き続き状況について報告する予定だ。ご不便をお詫びする。
この時点でほぼ同時に世界中のWindows Azureデータセンターでストレージにアクセスできなくなる、という事象が発生したはずで、運用監視センターのスタッフは相当緊迫した事態が起きたと感じたのではないでしょうか。
原因が報告されたのは、それから1時間後の午後9時半。SSLに問題があることが判明。
Feb 22 2013 9:30PM We identified that HTTPS operations (SSL transactions) on Storage accounts worldwide are impacted. We are actively investigating this issue and working to resolve it as soon as possible. Further updates will be published to keep you apprised of the situation. We apologize for any inconvenience this causes our customers.
2月22日午後9時30分。ワールドワイドに影響を受けているのは、ストレージのアカウントにおいてHTTPS操作(SSLトランザクション)が原因だと突き止めた。できるだけ早期に問題を解決すべく調査と作業を進めている。引き続き状況について報告する予定だ。ご不便をお詫びする。
手順の確認後、復旧作業へ
原因判明から45分後の10時15分。復旧手順の確認中。続いて試験的に一部の環境で復旧に着手。
Feb 22 2013 10:15PM We are currently validating the repair steps in our test environment. Further updates will be published to keep you apprised of the situation. We apologize for any inconvenience this causes our customers.
2月22日午後10時15分。現在、テスト環境にて修復手順の確認を行っている。(以下同文)
発生から約4時間後、復旧作業に着手。まずは慎重に一部から開始。
Feb 23 2013 12:15AM We have initiated the recovery on some of the impacted clusters. This is expected to take a few hours. We are also validating faster recovery options. Further updates will be published within 2 hours to keep you apprised of the situation. We apologize for any inconvenience this causes our customers.
2月23日午前0時15分。障害発生中のいくつかのクラスタでリカバリに着手した。これは数時間かかると予想される。より迅速なリカバリ方法も確認中だ。(以下同文)
Feb 23 2013 2:15AM The test deployments on two of the impacted storage clusters are making steady progress. We are evaluating accelerated repair options to mitigate the impact as soon as possible. We expect to finalize the repair steps within 2 hours, at which time we'll be able to provide more details. We apologize for any inconvenience this causes our customers.
2月23日午前2時15分。障害を起こしたストレージクラスタのうち2つでテストデプロイをしているが、順調に進行している。可能な限り早期に障害を沈静化させるため、より速い手順を評価中だ。修復手順は2時間以内に完成する予定で、その時点で詳細を報告する予定だ。ご不便をおかけしていることをお詫びする。
午前4時15分には、より迅速な復旧手順を見つけ、実行へ。
Feb 23 2013 4:15AM The test deployments on two of the impacted storage clusters are making steady progress. We finalized the accelerated recovery steps and will execute them on remaining Storage clusters. Further updates will be published within 2 hours to keep you apprised of the situation. We apologize for any inconvenience this causes our customers.
2月23日午前4時15分。2つのテストデプロイは順調に進行している。より早期の復旧手順が完成したため、残りのストレージクラスタで実行する予定だ。また2時間以内には状況をお知らせする予定だ。ご不便をおかけしていることをお詫びする。
11時間後に完了へ
復旧作業の完了が報告されたのは約11時間後の午前7時30分でした。
Feb 23 2013 5:30AM We executed repair steps to update the SSL certificate and majority of our customers are likely to notice recovery. Further updates will be published to keep you apprised of the situation. We apologize for any inconvenience this causes our customers.
2月23日午前5時30分。SSL証明書の復旧手順を実行し、大半のお客様で復旧が確認されているようだ。。引き続き状況について報告する予定だ。ご不便をお詫びする。
Feb 23 2013 7:30AM Restoration of Storage service is complete and we validated that SSL traffic has been recovered in the sub-region. We will continue to monitor the health of the service and address any intermittent failures before declaring the sub-region fully recovered. We apologize for any inconvenience this causes our customers.
2月23日午前7時半。復旧作業が完了し、サブリージョンでのSSLトラフィックは復旧した。引き続きサービスの健全性をモニターし、完全復旧前に発生していた問題についても解決をはかっていく。
あわせて読みたい
オンラインのモバイルアプリ開発環境「Monaca」、BaaS機能が追加。アシアル
≪前の記事
PR:2013年はフラッシュストレージが本格普及か? その可能性を探る [新野淳一×東京エレクトロンデバイス座談会]