アマゾンのクラウドが落雷で一部停止、そのとき何が起きたか?
先週の水曜日、アマゾンのクラウドサービスAmazon EC2を運用中の米国のデータセンターに落雷があり、電力配分装置(Power Distribution Unit:PDU)が破損。一部のサービスが停止するという事故がありました。
このときアマゾンの内部では何が起きてどう対応したのか? アマゾンがクラウドの稼働状況を報告している「AWS Service Health Dashboard」にあがっている、6月10日の報告を翻訳しながら追ってみましょう(時刻は現地時間の午後です)。
Amazonによる障害復旧報告
6:39PM 「アベイラビリティゾーン」にあるいくつかのインスタンスが電源の故障によって接続できなくなったことを検知しました。接続は回復済みで、問題を調査中です。
6:54PM いくつかのホストはまだ接続できていません。引き続き調査中です。
7:33PM 中間報告。落雷によって1カ所の「アベイラビリティゾーン」電力配分装置(Power Distribution Unit:PDU)の1つが破損していました。ラック1セット分の給電が止まっており、このラックのインスタンスは停止していますが、それ以外のほとんどのインスタンスには影響していません。まだ完了予定時刻は不明ですが、電源が回復すればインスタンスが復活するでしょう。また、これらのインスタンス以外のすべてのインスタンスは問題なく動作しており、影響を受けたインスタンスもアベイラビリティゾーンのほかの領域で代替インスタンスの起動が可能です。
8:43PM 影響を受けたインスタンスの電源回復の途中です。30分以内に回復が始まる予定です。
9:26PM 電源が回復し、影響を受けたインスタンスも復活しつつあります。
10:10PM 影響を受けたインスタンスのほとんどで電源が回復しました。回復したインスタンスが大丈夫かどうか、確認作業をしています。
11:10PM ほとんどのインスタンスが回復しました。まだ残る部分を作業中です。
1:20AM 確認作業を終了し、電源と接続が回復しました。影響を受けたインスタンスはリブート済みです。繰り返しますが、今回の問題は電源の問題によりアベイラビリティゾーンの限られた一部に影響しただけです。影響を受けたインスタンスはわずか数%であり、サービス全体の問題とはなっていません。
以上がアマゾンの報告の訳(一部省略した部分などもあります)です。
クラウドとホスティングの違い
こうしてみると、発見から完全な復旧までは約6時間かかっています。もしもこれが普通のホスティングサービスで、自分が契約しているサーバに問題が発生したのであれば、利用者は問題が回復するまでは指をくわえて待つしかありません。
しかし、Amazon EC2はプラットフォームをサービスとして提供しているクラウドですから、利用者にとって「自分の契約しているサーバ」は物理的には存在しません。たまたま現在利用しているサーバに何らかの問題が発生したなら、すぐに再起動すればいいだけのこと。Amazon EC2側が適切なサーバへ割り振ってくれるはずです。
そうしたクラウドの仕組みがちゃんと動いていたならば、今回の障害はアマゾンが報告の最後で説明しているように、クラウド全体からすればごく一部で起きた事象であり、クラウド上のアプリケーション運用にとって現実的な影響はほとんどなかったはずです。
関連記事 on Publickey
- FBIが令状によりデータセンターを押収、巻き添えの顧客は大損害
- 障害の原因の7割は運用・保守中に起こる。総務省がまとめたITの信頼性とセキュリティへの取り組み
- システム管理者の犯行 vs TOMOYO Linux
- 知られざる「マルチテナントアーキテクチャ」(1)~SaaSはみんな同じではない?
- 知られざる「マルチテナントアーキテクチャ」(2)~スケーラビリティのカギは組織ID
- 知られざる「マルチテナントアーキテクチャ」(3)~スキーマとメタデータの謎