CloudflareのCDNが全面的に約30分ダウンし、世界中のWebサイトが影響を受ける。原因はソフトウェアの動作不良。ロールバックで対応
大手CDNプロバイダのCloudflareが提供するCDNサービスが、世界協定時7月2日14時50分頃(日本時間7月2日午後11時50分頃)から約30分にわたり、世界中で全面的にダウンしました。
これによりCloudflareをCDNとして利用している世界中のWebサービスやアプリケーションが、「HTTP 502」(不正なゲートウェイ)のエラーコードなどを返し、アクセスできなくなったり使えなくなりました(ちょうど僕もRSSリーダーのFeedlyで大量のニュースをチェックしていたところ、FeedlyがCloudflareを使っていたためにこの障害に巻き込まれて、Feedlyにアクセスできなくなりました)。
Publickeyでは、このCDN障害の影響がどのようになっているのか、世界中の主要なサービスの障害状況を把握し、表示しているDowndetector.comのCloudflareのページを参照したところ、Downdetector.comもCloudflareのCDNを利用していたらしく、Downdetector.com自身も502エラーで表示されない状況でした。
下図はCloudflareが復旧した直後のDowndetector.comによるCloudflareの影響を示したもの。世界中で影響を受けていることが分かります。
Cloudflareはブログ「Cloudflare outage caused by bad software deploy」で、この障害の原因がソフトウェアの問題だったと説明。ロールバックにより解決したと説明しています。
For about 30 minutes today, visitors to Cloudflare sites received 502 errors caused by a massive spike in CPU utilization on our network. This CPU spike was caused by a bad software deploy that was rolled back. Once rolled back the service returned to normal operation and all domains using Cloudflare returned to normal traffic levels.
本日、約30分にわたり、Cloudflareのサイトは私たちのネットワークにおけるCPU利用率の急激なスパイクによって502エラーを引き起こしていました。このCPUのスパイクは問題のあるソフトウェアをデプロイしたことが原因で、すでにロールバックされています。ロールバック後、サービスは正常な状態に戻り、Cloudflareをお使いのすべてのドメインは正常なトラフィックのレベルに戻っています。
同社は今後、さらに詳細な障害報告をするとしています。
We are already working on improving the update process for high impact incidents. But for the latest details on all incidents impacting Cloudflare performance you can always visit https://t.co/bevMK3Sd0c.
— Cloudflare (@Cloudflare) 2019年7月2日
(追記)同社はその後、ブログを更新。ファイアウォールの新ルールに含まれていた正規表現が原因であることを明らかにしました。
あわせて読みたい
Cloudflare、ファイアウォールに追加した「正規表現のミス」が全面的なCDNダウンの原因と報告。「キルスイッチ」で解除
≪前の記事
全データベースの75%が、2022年までにクラウドにデプロイあるいは移行される。米ガートナーが予測