Amazonクラウド先週のシステム障害、原因は電源トラブル。二重三重の防護策が次々と倒れる
先週6月14日に発生したAmazon Web Servicesの米国東部リージョンでのシステム障害は、HerokuやPinterestなど大手のサービスにも影響を与えたようです。その障害報告が、Service Health Dashboardで公開されています(現在はRSS内の記述として読めます)。
障害は米国東部リージョンでの特定のアベイラビリティゾーンで発生したもの。報告によると、プライマリの電源ケーブルのトラブルをきっかけにバックアップとしての発電機へ移行したものの、そこでもまたトラブルが発生し、二重、三重の防護策が次々に倒れていったことが示されています。
Amazonクラウドの多重の防護策の一端が分かると共に、これだけバックアップ策が用意されていても、わずかなトラブルによって防護策が倒れることの教訓を得ることができます。
一方で、障害は特定のアベイラビリティゾーン内だったため、マルチアベイラビリティゾーンの設定が有効だったとも報告で示しています。同社が公開した障害報告の概略を以下に紹介します。
プライマリ電源のケーブル故障。バックアップ電源へ
午後8時44分。トラブルの発端は、高圧電源配電システムのケーブルに障害が発生したこと。そこからバックアップ用の発電機へフェイルオーバー。
At approximately 8:44PM PDT, there was a cable fault in the high voltage Utility power distribution system. Two Utility substations that feed the impacted Availability Zone went offline, causing the entire Availability Zone to fail over to generator power.
すべてのEC2インスタンスとEBSボリュームは、発電機への移行に成功。午後8時53分、発電機の1つがオーバーヒートし停止。クーリングファンに問題発覚。
All EC2 instances and EBS volumes successfully transferred to back-up generator power. At 8:53PM PDT, one of the generators overheated and powered off because of a defective cooling fan.
バックアップ電源のブレイカーに不備、セカンダリへ
この時点でこの発電機につながっていたEC2インスタンスとEBSボリュームは、発電機からさらにセカンダリバックアップ電源へフェイルオーバー。この電源は追加電源として完全に分離されたもの。
At this point, the EC2 instances and EBS volumes supported by this generator failed over to their secondary back-up power (which is provided by a completely separate power distribution circuit complete with additional generator capacity).
しかし不幸が重なり、あるバックアップ電源分配回路のブレイカーの設定が適切でなかった。電力の閾値が低すぎた。
Unfortunately, one of the breakers on this particular back-up power distribution circuit was incorrectly configured to open at too low a power threshold and opened when the load transferred to this circuit.
プライマリ、バックアップ、セカンダリの電源をすべて失う
8時57分、回路接続後、障害の影響を受けたEC2インスタンスとEBSボリュームは、プライマリ、バックアップ、セカンダリの電源を失う。
マルチアベイラビリティゾーンの設定がされていれば問題なかったが、このアベイラビリティゾーンのみで稼働しているものについては、電源が復活するまで待たなくてはならなくなった。
After this circuit breaker opened at 8:57PM PDT, the affected instances and volumes were left without primary, back-up, or secondary back-up power. Those customers with affected instances or volumes that were running in multi-Availability Zone configurations avoided meaningful disruption to their applications; however, those affected who were only running in this Availability Zone, had to wait until the power was restored to be fully functional.
発電機修理、復帰へ
午後10時19分に発電機のファンの修理が完了。リカバリ開始。午後10時50分には大半が復帰。
The generator fan was fixed and the generator was restarted at 10:19PM PDT. Once power was restored, affected instances and volumes began to recover, with the majority of instances recovering by 10:50PM PDT.
以下細かい復旧の経緯がありますが、省略します。
経緯を見ると、二重、三重のバックアップ手段が失われる不幸が重なりましたが、障害がアベイラビリティゾーンを越えることはなく、マルチアベイラビリティゾーンの設定さえしてあればソフトウェア側で処理できる範囲だったといえます。
Amazonクラウドは昨年大きな障害を経験し、それ以来、マルチアベイラビリティゾーンの重要性を説いていましたので、それがあらためて説得力を持ったことになります。また、これだけ詳細な障害情報を公開したことも、社会インフラとしての重要度が高まってきたクラウドとして評価されるべきでしょう。
報告の最後は、以下の謝罪で終わっています。
We sincerely apologize for the inconvenience to those who were impacted by the event.
追記:Niftyクラウドでも電源障害
6月7日に発生したNiftyクラウドの障害報告もPDFで時系列での詳しい報告が上がっています。これも電源障害で二重三重のバックアップまで倒れてしまったようです。以下引用です。
1)上述のUPS設備を構成するUPS装置内のインバータ内部で短絡が発生しました。
2) UPS設備は冗長化構成であり、本来1つのUPS装置が停止した場合には他のUPS装置がカバーする仕組みであったにも関わらず、他のUPS装置も同時に停止してしまいました。
3)UPS装置が全て停止してしまった場合には、それを回避する直送ルートが設置されていたにも関わらず、切り替えがうまくいきませんでした。
あわせて読みたい
「Windows Phone 8」はWindows 8とOSコアを共通化、IE10も共通化、ネイティブAPIも共通化し、コードの移植もスーパーイージー
≪前の記事
連載マンガ Mr. Admin:新型パソコン、あなたにはどう見える?