「クラウド障害」タグの記事一覧
- 2024-8-19
GitHub、全サービスがデータベースの設定変更ミスでアクセス不能に。設定を元に戻して30分後に復旧 - 2024-5-28
Google Cloud、顧客のシステムを間違って全削除した大規模障害の原因を報告。プライベートクラウドの期間を1年と設定ミス - 2023-11- 7
Cloudflare、Workers KVの更新に失敗し障害発生。しかも復旧用ツールがWorkers KVに依存しており使えず、手動で緊急対応 - 2023-4-25
カオスエンジニアリングとは、実験を通してシステムの弱みを明確にすることである。カオスエンジニアリングから継続的検証へ(後編)。JaSST'23 Tokyo基調講演 - 2023-4-24
可用性や安全性を高めつつ、ソフトウェアをシンプルにすることは不可能だ。カオスエンジニアリングから継続的検証へ(中編)。JaSST'23 Tokyo基調講演 - 2023-4-24
複雑なシステムでは、すべての要素が正しくても障害が起きる。カオスエンジニアリングから継続的検証へ(前編)。JaSST'23 Tokyo基調講演 - 2023-2- 1
マイクロソフト、AzureやMicrosoft 365などに影響した先週の大規模障害の原因報告。WAN内の全ルータが再計算状態に突入し、パケット転送が不可に - 2022-6-22
Cloudflareが昨日(2022年6月21日)の障害原因はBGPの設定ミスと報告。東京データセンターを含む19の主要データセンターが一時オフラインに - 2022-4-14
アトラシアン、JiraやConfluenceのサービス障害が1週間以上続く。原因は、保守スクリプトの実行ミスによるユーザーデータの消去。消去データのリストアに想定外の手間 - 2022-3-16
Spotifyが全世界でログインできなくなった3月8日の障害について原因を報告。Google CloudのTraffic Directorの障害がgRPCライブラリのバグを踏んだと - 2021-11-22
テスラ、サーバエラーでアプリによる操作が一時不能に。自分のクルマに乗れなくなるなどの障害発生 - 2021-10- 6
Facebookが10月5日の全面ダウンの詳細を報告。バックボーンの停止がBGP停止となりインターネットから離脱、外部からのアクセスを失いデータセンターに乗り込んで対応 - 2021-9- 8
9月2日木曜日に発生したAWS東京リージョンの大規模障害、原因はネットワークデバイスの新プロトコル処理に潜在的なバグがあったこと。AWSが報告書を公開 - 2021-6- 9
Fastlyが大規模障害の経緯を公開、原因はソフトウェアのバグ。障害を1分以内に検知し、49分でおおむね復旧させたと報告 - 2021-2-10
Slack、1月の大規模障害の原因を説明。「AWS Transit Gateway」がトラフィックの急上昇に対応できず、AWSはアルゴリズムを見直すと - 2020-10- 5
Microsoft 365の大規模障害、原因は未検証アップデートがデプロイシステムのバグにより通常のプロセスをバイパスして本番環境へ直接デプロイされたこと - 2020-4-20
パッチ盤からケーブルを引っこ抜いてしまいCloudflareに障害発生。ケーブルにラベリングされておらずどれを戻すべきかすぐに分からず - 2020-4-10
Google Cloudの主要サービスが10時間ものあいだ障害発生。原因は分散アクセスコントロールへの大量の変更要求が引き起こしたメモリ不足 - 2020-2- 6
マイクロソフトのクラウドサービス「Microsoft Teams」がサーバ証明書を更新し忘れ。2時間のあいだユーザーからアクセスできなくなる障害発生 - 2019-8-29
AWS、複数のアベイラビリティゾーンで稼働していたアプリケーションでも大規模障害の影響があったと説明を修正。東京リージョンの大規模障害で追加報告