Azureの東日本リージョンが7時間にわたってダウン。原因はデータセンターの冷房が失われ自動シャットダウン。日本のリージョンはこの1カ月で三回目の障害
3月31日金曜日の午後11時頃から最大約7時間にわたって、Microsoft Azureの東日本リージョンの仮想マシンやストレージなどを含むほとんどのサービスがダウンするという大規模な障害が発生しました。
「Azure の状態の履歴」によると、マイクロソフトは原因をデータセンターの冷却が正常にできなくなったためだと次のように説明しています。
Engineers have identified the underlying root cause as loss of cooling causing certain Storage and Compute scale units to perform an automated shut down to preserve data integrity & resilience. This affected a number of services with dependencies on these scale units.
技術者が特定した原因は、冷房が失われたため一定のストレージとコンピュートのスケールユニットがデータの整合性および復帰可能状態を維持するために自動的にシャットダウンされたことである。これによってスケールユニットに依存する多数のサービスが影響を受けた。
4/3 15:50追記:マイクロソフトが日本語でもう少し詳しい報告を公開しました。
- 3 月 31 日夜間から発生した東日本データセンターの障害についての原因調査報告書 (RCA) の抄訳 – Japan Azure Technical Support Engineers' Blog
3月に入って日本のリージョンは3度目の大規模障害
Microsoft Azureでは、この障害の3日前の3月28日にも西日本リージョンで3時間にわたって仮想マシンなどの障害が発生しており、また3月8日には東日本リージョンで2時間近くにわたってストレージの障害が発生しています。つまり日本の2つのリージョンにおいて、この1カ月で大きな障害が3回発生したことになります。
関連記事:過去に起きた障害
Microsoft Azureの北欧州データセンターで、定期メンテナンス時に予期せぬ消火剤放出が発生。空調停止を引き起こし、温度上昇でサーバ群が停止するという障害を引き起こしました。
Microsoft AzureはDNSの障害をきっかけにAzure SQL Database、Azure Backup、Visual Studio Team Searvice、Redis Cacheなどをはじめとする多数のサービスに障害が発生、可用性が低下するなどの現象を引き起こしました。
Microsoft Azureは10時間を超える長時間、ストレージや仮想マシンなど多くのサービスでサービスの中断や性能低下などの障害を引き起こしていました。
あわせて読みたい
ITインフラが自動化されても、社内の承認プロセスが遅くては意味がない。社内プロセスを早く回す、情報部門のためのクラウドサービスとは[PR]
≪前の記事
オラクル、クラウドと連携するNAS「Oracle ZFS Storage Appliance」発表