Fastlyが大規模障害の経緯を公開、原因はソフトウェアのバグ。障害を1分以内に検知し、49分でおおむね復旧させたと報告
CDNベンダ大手のFastlyが日本時間6月8日夕方に障害を発生、その影響は国内にもおよび、メルカリや楽天市場、Amazon.co.jp、Twitter、ABEMAなど多くのサービスに接続できないなどの障害が発生しました。
We identified a service configuration that triggered disruptions across our POPs globally and have disabled that configuration. Our global network is coming back online. Continued status is available at https://t.co/RIQWX0LWwl
— Fastly (@fastly) June 8, 2021
Fastlyはこの障害についての経緯を同社のブログに記事「Summary of June 8 outage」として報告しています。
On June 8, we experienced a global service interruption. Here is what happened — and what happens next.https://t.co/gffDur5Moh
— Fastly (@fastly) June 9, 2021
報告によると、同社は障害の発生から1分以内に検知し、対応。49分後にはおおむね復旧させたとしています。
We detected the disruption within one minute, then identified and isolated the cause, and disabled the configuration. Within 49 minutes, 95% of our network was operating as normal.
私たちは障害を1分以内に検知し、原因を特定して隔離、設定を無効化しました。そして49分後には、ネットワークの95%が正常動作となりました。
障害の原因は、過去にデプロイしたソフトウェアに特定の条件下で発生するバグが含まれていたとのことです。ただし、それがどのようなバグであるかは説明されていません。
On May 12, we began a software deployment that introduced a bug that could be triggered by a specific customer configuration under specific circumstances
5月12日に、あるソフトウェアをデプロイしましたが、これには特定の状況下で特定の顧客の設定によって引き起こされる可能性のあるバグが含まれていました。
このバグが6月8日夕方に顕在化し、同社のネットワークの85%でエラーを引き起こしたとのこと。
同社は下記の様に対応したと報告しています。時間は世界標準時(発生時間の世界標準時9時47分は、日本時間午後6時47分)。
09:47 グローバルで障害発生
09:48 モニタリングにより障害を検知
09:58 状況報告を公開
10:27 原因となった顧客のコンフィグレーションを特定
10:36 リカバリ開始
11:00 おおむね復旧
12:35 インシデント軽減
12:44 復旧したとステータス報告
17:25 バグフィクスをデプロイ
同社は今後の対策として、バグの修正版を速やかにネットワーク全体に展開すること、本インシデントの詳細な振り返りをあらためて行うこと、テストプロセスでなぜバグが見過ごされたかを調査すること、復旧時間の短縮に取り組むことなどを挙げています。
あわせて読みたい
「Xcode Cloud」、Appleが発表。クラウド上でXcodeを自動的にビルド、テスト、App Storeへデリバリ。GitHubなどと連携
≪前の記事
Terraformがバージョン1.0に到達、正式版に。AWSやAzure、VMwareなどマルチクラウド対応のプロビジョニングツール