GitHubが先週木曜日にダウンした原因は、一時的な停電からの連鎖的な障害
日本時間で1月28日木曜日午前9時過ぎから発生したGitHubのサービス障害は、同社のデータセンター内での一時的な停電をきっかけに連鎖的に発生した障害の影響であることが、GitHubのブログに投稿された記事「Update on 1/28 service outage」で説明されています。
GitHubのブログから引用します。
A brief power disruption at our primary data center caused a cascading failure that impacted several services critical to GitHub.com's operation.
主データセンターにおける一時的な停電が連鎖的な障害を引き起こし、GitHub.comの運用にいくつもの深刻な影響を与えてしまった。
GitHubの説明によると、障害が発生したのは協定世界時刻(UTC)2016年1月28日0時23分。日本時間では1月28日木曜日の午前9時23分であり、多くの企業の営業時間に重なったために開発作業の停止を余儀なくされたプログラマも多かったようです。
障害からサービスが復旧したのは2時間6分後の2時29分(UTC)、日本時間で11時29分と報告されています。GitHubのブログによると、1月29日の夜に電源関連の復旧作業が完全に終了したとのこと。
「私たちは、このサービスのどんな障害であっても皆様の開発ワークフローに影響があることを理解しており、この障害について心からお詫びを申し上げたい」(ブログから)。
現在も原因調査は続いており、詳細についてはまた改めて報告するとのこと。
GitHubは自社データセンターで運用している
GitHubは2009年からRackspace Hostingを利用していましたが(その前はEngine Yardを利用していたようです)、ちょうど2カ月前の2015年12月1日付のブログ記事「GitHub's Metal Cloud」によると、3年以上前に自社データセンターへ移行したようです。ブログから一部を引用します。
At GitHub we place an emphasis on stability, availability, and performance. A large component of ensuring we excel in these areas is deploying services on bare-metal hardware. This allows us to tailor hardware configurations to our specific needs, guarantee a certain performance profile, and own the availability of our systems from end to end.
GitHubでは、安定性、可用性、そして性能を重視しています。これらを確実に優れたものにするための大きな要素が、ベアメタルハードウェア上にサービスを展開していることです。これによってハードウェア構成を自社サービスの要求に合致したものにでき、適切な性能を約束でき、そしてシステムの可用性を隅から隅まで詰められるのです。
Of course, operating our own data centers and managing the hardware that's deployed there introduces its own set of complications.
もちろん、自社データセンターを運用管理し、そこへハードウェアを展開することは複雑さをもたらすものになります。
このエントリで示されているように、自社データセンターによって可用性を担保することがGitHubの選んだ方法でしたが、残念ながらそれでも障害が起きてしまったことになります。
それにしても、先日のGMOクラウドの障害に続いて今回もまた電源系がデータセンターの障害の原因でした。データセンターにおいて電源系の可用性確保は引き続き課題になっていると言えそうです。
関連記事
あわせて読みたい
モバイルBaaSのParseが1年後にサービスを終了すると表明。Node.jsで動くAPI互換のParse Serverをオープンソースで公開
≪前の記事
IoTのシステム構成図が描けるアイコンセット、ソラコムが無償公開。IoTデバイス群、ドローン、監視カメラ、SIMなどを表すアイコンも