GMO、先週の24時間にわたるサービス障害時にはデータセンター内の約12%が電源喪失。変圧分電盤故障が原因の可能性。監視体制の強化など対策
先週末、2016年1月16日から17日にかけて、GMOインターネットが提供するレンタルサーバやドメイン名登録などのサービスで管理画面が表示できなくなるなどの障害が約24時間にわたり発生しました。
GMOインターネットはWebサイトで影響の範囲や復旧状況などを報告、それによると障害の影響範囲は、お名前.com、レンサバ.comなどに加え、ConoHa byGMO、GMOアプリクラウドなどクラウドサービスまで広範囲に渡っています。
また、障害の原因は「データセンター内における電源設備の一部故障」とされました。
24時間という長時間かつ広範囲に発生した障害の実態はどうだったのか、また原因とされた電源設備の一部故障とはどのようなものだったのか、GMOインターネットの発表は詳細部分について触れられていなかったため、PublickeyではGMOインターネットに対して取材を申し込みました。
GMOインターネットの広報窓口からは「当社としても正確にお伝えすべきと、お受けする方向で考えておりますが、現在、インタビューに対応可能な担当者が再発防止策を最優先に取り組んでいるため、社内にいない時間も多くなかなか捕まらない状況です」との返答をいただき、対面での取材はむずかしいとのことだったため、送付した質問に書面で回答をいただくこととなりました。
以下、GMOインターネットよりいただいた回答を、ほぼそのままの形で掲載します。
変電分電盤のタイマーリレーに動作不良を確認
──── 障害の状況について、具体的に教えてください。例えば、お名前.comのドメイン名サービス、お名前.comレンタルサーバ、ConoHa byGMO、アプリクラウドなどについて、障害発生時刻や状況、復旧時刻などはどうなっていますでしょうか。
回答 下記の一覧表をご覧ください。
発生時刻:2016年1月16日14時15分頃から1月17日14時25分まで(左記時間はすべてのサービスの復旧が完了した時刻になります。サービス毎に復旧時刻が異なります)
──── 「データセンター内における電源設備の一部故障」について教えてください。故障の直接の原因、および規模としてデータセンターの全電源喪失だったのか、一部喪失だったのか、冗長化電源は機能しなかったのかなど。
回答 現在詳細な原因調査の最中のため、断定はできませんが、変圧分電盤の一部部品(タイマーリレー:限時継電器)に動作不良が確認できており、おそらく当該部品の故障で通電不可状況に陥ったと思われます。
なお、本件発生時の状況としては電源の瞬断が複数回あり、瞬断後は電源が自動復旧しておりました。それらのエラー内容により、もっとも推測できる箇所から調査を開始しました。そのため、原因把握までに時間を要しました。
また、電源喪失の範囲ですが、とあるデータセンターの一部(約12%)となります。
なお、当社サービスは複数のデータセンターに分散して管理しております。そのため、今回の対象範囲は、同じサービスであっても影響の出たお客様と出なかったお客様がいらっしゃいます。
広範囲のサービスに影響した理由、今後の対策
──── 今回の障害は多くのサービスに波及しています。その理由はなんでしょうか。電源故障がどのサービスに対しても障害の原因となったのか、あるいは電源故障に関連して発生した別の障害が多数のサービスに波及したのでしょうか。
回答 電源設備の故障により一部機器に通電しなかったこと、および一部機器に物理的、論理的な故障が発生したことが原因となります。
なお障害ですが、(1)当社のサービスを紹介するサイトが閲覧できない。(2)コントロールパネルへログインできない。(3)プロバイダサービスに於いてメールが送受信できない、事象となります。
──── 具体的にはどのような手順で復旧させたのでしょうか。
回答 まずは故障した電源設備を使用せずに別系統から電源を確保し、機器を順次通電させ、順次サービスを復旧させました。
通電後、正常に復旧しない機器は代替機器への交換を行い復旧させました。
また、別の環境に移せるものは移行し、お客様へ現状の告知ができるページを作成、お客様へできるだけ細かく(約2時間毎)に復旧状況をアナウンスいたしました。
それと並行し、故障した電源設備の修理を行い、最終的にはすべての機器の稼働点検を経て完全復旧となりました。
──── 今後の対策として考えていることはありますか。例えばデータセンター設備の刷新、サービスごとにラックや電源を分散させる、運用を見直すなど、現時点でのお考えを教えてください。
回答 まずはデータセンターで使用しているすべての機器の再点検を行い、必要であれば部品交換を行います。
また原因特定までの時間短縮のため、監視システムの強化も予定しております。加えてデータセンターによっては、一部サーバの移設も含めて再発防止策を実施することが決定しております。
(回答ここまで)
復旧まで時間がかかった理由は
上記のGMOインターネットからの回答で原因ついて触れている部分に、「本件発生時の状況としては電源の瞬断が複数回あり、瞬断後は電源が自動復旧しておりました。」とあります。
これは障害発生後に現場に駆けつけてみたところ、電源故障があったと考えられるのに、見たところ電源は自動復旧して通常稼働していた、という状況だったように読み取れます。これが原因の発見と復旧に時間がかかった要因のようです。
また、障害の範囲は多数のサービスにまたがっていますが、主たる障害はGMO自身によるサービスを紹介用Webサイトの停止および管理画面の停止であることも分かりました。一方、上記の報告で「お客様Webサイト」や「お客様メール」など、外部に向けたサービスに問題が出たと思われるのはそのうちの約半数程度のサービスでした。障害そのものは広範囲なサービスに及んでいますが、そこから想像されるよりも実害は小さかったのかもしれません。
あわせて読みたい
アマゾンウェブサービスジャパン、「市場の拡大期に入った」とパートナー数の増大強化を発表
≪前の記事
DockerがUnikernelを買収。1秒以下で起動しハイパーバイザで安全に分離されるUnikernelが新たなコンテナの仲間入り