Slack、11月1日に発生した大規模障害の原因は、定期デプロイによるソフトウェア障害が原因

2017年11月6日

Slackが11月1日に起こした大規模障害は、同社内でデプロイしたソフトウェアが原因だと報告された。全ユーザーがSlackに接続できなくなる障害は2時間以上続き、その後復旧された。その概要と時系列を公開された報告書から追う。


オンラインチャットサービスを提供するSlackは、日本時間で11月1日の朝から数時間、全ユーザーが接続できなくなるという大規模な障害を起こしています。

11月4日には、同社のStatusページに障害発生に関するまとめが掲載されました。それによると、障害の原因は同社内で行われていた定期デプロイによってサーバにデプロイされたソフトウェアの障害とのことです。

Slack Status - Tuesday October 31, 2017 Slack Status - Tuesday October 31, 2017

ただしそれがどのような障害であったのか、詳細については現時点では紹介されていません。

全ユーザーがSlackに接続できなくなり、復旧に向けサーバ増強

障害報告の前半は、概要がまとめられています。後述の詳細によると、同社が今回の接続障害を最初に認識したのは日本時間で午前8時頃ですが、その約1時間後には全ユーザーが接続できなくなるところまで深刻化したようです。

On October 31, 2017 (yesterday) at 3:50pm PST, Slack went down for all users. This was the result of a routine internal deployment of software to our servers which unfortunately caused all of our customers to become disconnected, and left them unable to reconnect.

10月31日、午後3時50分(太平洋標準時。日本時間11月1日午前8時50分)、全ユーザーのSlackがダウンしました。これは社内で定期的に行われている、ソフトウェアをサーバに定期的にデプロイした結果起きたことで、全ユーザーに対する接続を失わせ、再接続できなくさせてしまいました。

障害は日本時間で午前11時までには復旧したとのこと。このとき、ユーザーからの再接続による過負荷に備えてサーバを増強したとのことです。

Once we identified the problem, we worked to scale up new hardware to process the bulk of the requests. To avoid further overloading the system when folks came back online, we used standard rate limits to allow for gradual reconnection. By 6:00pm PST, all customers had reconnected to Slack once again.

問題を確定したうえで、私たちは大量のリクエストを処理するための新しいハードウェアの増強を行いました。みなさんがオンラインに戻ってきたときにこれ以上システムが過負荷にならないようにし、段階的な再接続のために標準的なレート制限をしました。太平洋時午後6時(日本時間11月1日 午前11時)までに、全ユーザがSlackに再接続されました。

SlackはAmazon Web Services(AWS)の事例のページに載っていることから、データセンターとしてAWSを利用しているようです。そこでのSlackのソフトウェアのデプロイをきっかけに障害が発生し、復旧時には過負荷に備えて多めにプロビジョニングしたのではないかと考えられます。

時系列での報告

障害報告の後半は、時系列で障害時発生時の報告がまとめられています。本記事では読みやすいように時系列の順番を発生順とし(オリジナルは逆順)、またフォーマットを少し変えています。

接続障害をSlackが認識したのは、日本時間で午前7時58分とのこと。調査開始が報告されました。

3:58 PM PDT
We are aware of connectivity issues and are actively lnvestigating.

太平洋標準時夏時間 午後3時58分(太平洋標準時午後2時58分。日本時間11月1日午前7時58分)
接続に関する問題発生を検知、調査中です。

40分後の報告では、また原因や対策を模索中のようです。前述の概要によると、このあたりで全ユーザーの接続が切れたと推測されます。

4:39 PM PDT We're so sorry for this disruption to your day. We are doing all we can to get you back into your workspace. Thank you again for your patience.

太平洋標準時夏時間 午後4時39分(太平洋標準時午後3時39分。日本時間11月1日午前8時39分)
障害について深くお詫びします。復旧のためにあらゆることを行っています。ご協力に感謝します。

最初の報告から80分後。復旧に向けた修正作業が始まりました。

5:22 PM PDT We are currently working on some fixes that will relieve these connection problems. We understand how important it is to stay connected with your team, and we hope to bring some good news soon.

太平洋標準時夏時間 午後5時22分(太平洋標準時午後4時22分。日本時間11月1日午前9時22分)
接続障害の復旧に向けていくつかの修正を行っているところです。私たちはこれがいかに重大なことか理解しており、もうすぐよいお知らせができる見通しです。

約120分後、復旧作業が功を奏しているとの報告。

6:01 PM PDT
The fixes we've rolled out are showing positive results, though we're not out of the woods yet. Please hold tight as we work to get everyone back into their workspace.

太平洋標準時夏時間 午後6時01分(太平洋標準時午後5時01分。日本時間11月1日午前10時01分)
展開中の修正はよい結果をもたらしているようです。まだ森を抜けた(問題解決をした)わけではありませんが。もうしばらくお待ちいただくようお願いいたします。

約180分後、復旧作業が完了。再接続の状況を見守っていると。

6:35 PM PDT
We've been tracking connections to Slack since our changes were deployed and believe that all users should once more be able to access Slack. Thank you for your understanding and patience, we do not take it for granted and will continue to investigate and learn from this outage.

太平洋標準時夏時間 午後6時35分(太平洋標準時午後5時35分。日本時間11月1日午前10時35分)
修正を展開以来、Slackへの接続を確認し続けていますが、全ユーザーがSlackに確認可能だと確信しています。ご協力とご理解に感謝します。二度とこのようなことがないよう、この障害の調査を続けます。

障害報告では、障害の原因がデプロイしたソフトウェアのどこにあったのか、復旧は単純なロールバックではなく修正パッチなどを当てたのかなどの詳細については触れられていません。いずれ同社のブログなどで詳細が明らかになったら、また紹介したいと思います。

あわせて読みたい

クラウド障害 プログラミング言語 Slack




タグクラウド

クラウド
AWS / Azure / Google Cloud
クラウドネイティブ / サーバレス
クラウドのシェア / クラウドの障害

コンテナ型仮想化

プログラミング言語
JavaScript / Java / .NET
WebAssembly / Web標準
開発ツール / テスト・品質

アジャイル開発 / スクラム / DevOps

データベース / 機械学習・AI
RDB / NoSQL

ネットワーク / セキュリティ
HTTP / QUIC

OS / Windows / Linux / 仮想化
サーバ / ストレージ / ハードウェア

ITエンジニアの給与・年収 / 働き方

殿堂入り / おもしろ / 編集後記

全てのタグを見る

Blogger in Chief

photo of jniino

Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。2009年にPublickeyを開始しました。
詳しいプロフィール

Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
Facebookで : Publickeyのページ
RSSリーダーで : Feed

最新記事10本