Azureの北欧州データセンター、定期メンテナンス時の消火剤放出が原因で空調停止、温度が上昇し自動シャットダウンへ。7時間にわたり一部にサービス障害
Azureの北欧州データセンターで、定期メンテナンス時に予期せぬ消火剤放出が発生。空調停止を引き起こし、温度上昇でサーバ群が停止するという障害を引き起こした。
Microsoft Azureの北欧州データセンターで9月29日の13時27分から20時15分まで約7時間にわたり、一部の顧客において仮想マシンやAzure Backup、Azure Functionsなど多数のサービス障害が発生したとの事象が「Azure status history」で報告されています。
原因は、データセンターの定期メンテナンス時に予期せず消火剤の放出が発生し、それがきっかけとなって空調が停止。停止した区画の温度上昇により一部のサーバやストレージが停止するというものでした。
データセンター内のさまざまな部分で自動化が進んだ結果、ある問題が自動的に次の問題を引き起こす将棋倒しのような状況を見ると、データセンターの自動化の難しさを感じます。
Azure status historyで報告された状況の概要を紹介しましょう。
定期メンテナンス時に予期せず消火剤が放出
障害発生のきっかけは定期メンテナンス時に予期せず不活性消火剤が放出されたことでした。
During a routine periodic fire suppression system maintenance, an unexpected release of inert fire suppression agent occurred. When suppression was triggered, it initiated the automatic shutdown of Air Handler Units (AHU) as designed for containment and safety.
定期的な消火システムのメンテナンス時に、予期せず不活性消化剤が放出されました。これがトリガーとなり、隔離と安全確保のために空調管理システムの自動シャットダウンが開始されます。
空調が自動的に停止、それによって温度上昇が発生します。
While conditions in the data center were being reaffirmed and AHUs were being restarted, the ambient temperature in isolated areas of the impacted suppression zone rose above normal operational parameters.
データセンターの状況が再確認され、空調管理システムを再起動している時点で、影響を受けて隔離された区画の温度は通常運用の範囲を超えてしまいました。
温度上昇を検知した一部のシステムがシャットダウンもしくは再起動されます。
Some systems in the impacted zone performed auto shutdowns or reboots triggered by internal thermal health monitoring to prevent overheating of those systems.
影響を受けた区画の一部システムはオーバーヒートを防ぐための内部温度監視システムによってシャットダウンもしくは再起動が実行されました。
温度上昇は35分後には解消
消火剤放出と空調関係の問題は即座に認識され、35分後には通常の状態に戻りました。
The triggering of inert fire suppression was immediately known, and in the following 35 minutes, all AHUs were recovered and ambient temperatures had returned to normal operational levels. Facility power was not impacted during the event.
このきっかけとなった消火システムの問題は即座に確認され、35分後にはすべての空調管理システムは復旧し、温度も通常の範囲に戻りました。電力系はこの間に何の影響も受けませんでした。
All systems have been restored to full operational conditions and further system maintenance has been suspended pending investigation of the unexpected agent release.
全システムが通常運用状態に復帰し、今回の予期しない消化剤放出に関する調査が終わるまで、システムメンテナンスは延期されました。
トラブルシューティングと復旧に時間がかかる
これですべてが元通りというわけにはいきません。一部のサーバやストレージのシャットダウンなどによって起こったシステム障害の復旧作業が必要となり、これに時間がかかってしまいました。
Due to the nature of the above event and variance in thermal conditions in isolated areas of the impacted suppression zone, some servers and storage resources did not shutdown in a controlled manner. As a result, additional time was required to troubleshoot and recover the impacted resources.
これらの事象や隔離された区間の温度変動といった状況によって、一定のサーバとストレージリソースは制御された方法によるシャットダウンが実行されませんでした。結果として影響を受けたサーバやストレージ群のトラブルシュートとリカバリの時間が余計に必要となりました。
結局、35分で空調が復旧したにもかかわらず、システムのトラブルシューティングと復旧作業に6時間以上かかってしまい、元通りになったのは20時15分と報告されています。
Once the scale unit reached the required number of operational nodes, customers would have seen gradual, but consistent improvement until fully mitigated at 20:15 UTC when storage and dependent services were able to fully recover.
スケールユニットが通常運用に必要なノード数に到達すると、徐々にお客様の状況は改善され、ストレージおよび関連サービスが完全に普及した20時15分(UTC)に完全に元通りになりました。
関連記事
定期メンテナンス時に消火剤がきっかけで障害が発生するという事象は、以前に報じたING銀行の例を思い出させますが、消火剤の放出がサーバに直接影響したING銀行の例と比べると、今回の事象とはやや性格が異なるようです。
あわせて読みたい
[速報]GitHub、依存関係表示でのパッケージやアプリケーション対応、セキュリティアラートなどの新機能発表。GitHub Universe 2017
≪前の記事
通信SIM上でJavaアプレットを実行する「SORACOM SIMアプレット」発表、SIMがプログラマブルなプラットフォームに。ソラコム