CloudflareのCDNが全面的に約30分ダウンし、世界中のWebサイトが影響を受ける。原因はソフトウェアの動作不良。ロールバックで対応

2019年7月3日

大手CDNプロバイダのCloudflareが提供するCDNサービスが、世界協定時7月2日14時50分頃(日本時間7月2日午後11時50分頃)から約30分にわたり、世界中で全面的にダウンしました

fig1

これによりCloudflareをCDNとして利用している世界中のWebサービスやアプリケーションが、「HTTP 502」(不正なゲートウェイ)のエラーコードなどを返し、アクセスできなくなったり使えなくなりました(ちょうど僕もRSSリーダーのFeedlyで大量のニュースをチェックしていたところ、FeedlyがCloudflareを使っていたためにこの障害に巻き込まれて、Feedlyにアクセスできなくなりました)。

Publickeyでは、このCDN障害の影響がどのようになっているのか、世界中の主要なサービスの障害状況を把握し、表示しているDowndetector.comのCloudflareのページを参照したところ、Downdetector.comもCloudflareのCDNを利用していたらしく、Downdetector.com自身も502エラーで表示されない状況でした。

下図はCloudflareが復旧した直後のDowndetector.comによるCloudflareの影響を示したもの。世界中で影響を受けていることが分かります。

fig2

Cloudflareはブログ「Cloudflare outage caused by bad software deploy」で、この障害の原因がソフトウェアの問題だったと説明。ロールバックにより解決したと説明しています。

For about 30 minutes today, visitors to Cloudflare sites received 502 errors caused by a massive spike in CPU utilization on our network. This CPU spike was caused by a bad software deploy that was rolled back. Once rolled back the service returned to normal operation and all domains using Cloudflare returned to normal traffic levels.

本日、約30分にわたり、Cloudflareのサイトは私たちのネットワークにおけるCPU利用率の急激なスパイクによって502エラーを引き起こしていました。このCPUのスパイクは問題のあるソフトウェアをデプロイしたことが原因で、すでにロールバックされています。ロールバック後、サービスは正常な状態に戻り、Cloudflareをお使いのすべてのドメインは正常なトラフィックのレベルに戻っています。

同社は今後、さらに詳細な障害報告をするとしています。

(追記)同社はその後、ブログを更新。ファイアウォールの新ルールに含まれていた正規表現が原因であることを明らかにしました。

あわせて読みたい

クラウド クラウド障害 Cloudflare




タグクラウド

クラウド
AWS / Azure / Google Cloud
クラウドネイティブ / サーバレス
クラウドのシェア / クラウドの障害

コンテナ型仮想化

プログラミング言語
JavaScript / Java / .NET
WebAssembly / Web標準
開発ツール / テスト・品質

アジャイル開発 / スクラム / DevOps

データベース / 機械学習・AI
RDB / NoSQL

ネットワーク / セキュリティ
HTTP / QUIC

OS / Windows / Linux / 仮想化
サーバ / ストレージ / ハードウェア

ITエンジニアの給与・年収 / 働き方

殿堂入り / おもしろ / 編集後記

全てのタグを見る

Blogger in Chief

photo of jniino

Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。2009年にPublickeyを開始しました。
詳しいプロフィール

Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
Facebookで : Publickeyのページ
RSSリーダーで : Feed

最新記事10本