「さくらのクラウド」で続いていたストレージ障害、報告書をさくらインターネットが公開
昨年11月にさくらインターネットが開始したクラウドサービス「さくらのクラウド」は、開始直後の12月からストレージまわりにトラブルが発生し、ストレージ性能の著しい低下や不安定な動作、一部データの消失などが起きていました。トラブルは完全に解決してはおらず、3月に新規申し込みの受付を停止したまま現在に至っていました。
さくらインターネットは今日15時に、さくらのクラウドのストレージ障害についての詳細な報告「さくらのクラウド・ストレージに関する報告書」を公開するとともに、トラブルが発生していたストレージに代えて自社開発したストレージでの再スタートを発表しました。
接続の問題や性能問題、監視ツールの問題などが発生
トラブルは同社が採用したストレージ装置で発生したものが中心でした。サーバとストレージ間はInfinibandで接続され、IP over InfiniBandでTCP/IPプロトコルを用い、その上でNFSを利用する構成になっています。
以下、8ページにわたる報告書の概要です。
ストレージ装置とサーバ間の接続が切れる
12月より発生した最初のトラブルで、ストレージ側のポートをICMPで監視。ところがこの監視機構が異常が発生していない状態でも異常状態と認識して、ストレージのポートを予備系へ切り替る動作を行うことがあり、そのたびに切り替えに要する数分のあいだストレージの動作が途切れる。
12月20日頃に、監視方法をリンクステートに切り替えることで解決。
この現象とは別に、InfiniBand上でストレージのポートが消失する問題が発生。設置を変更して1月初旬に解決。
ストレージの性能上の問題
1月初旬より、ユーザーごとにひも付いたファイルシステムがストレージ内で増加すると、コマンドラインからの操作が極端に遅くなる事象が発生。設定変更や不要なファイルシステムの削除など、あらゆる操作に大きな時間がかかるようになる。
コマンドラインからの操作だけでなく、ストレージのクローン機能やスナップショット機能などの動作も遅くなった。
ファイルの誤削除
前述のファイルシステムの増加により性能が劣化するのを改善するため、1月5日に行った緊急メンテナンス作業において、さくらインターネットが作成したバッチコマンドに不備があり、稼働中のディスクの一部を削除してしまった。
ストレージ性能の上限の問題
2月以降データの読み書きが頻繁になると、ストレージ性能の上限に近づいてきたが、その際に期待した処理性能より下回って限界がきてしまう。
監視ツールの問題
ストレージの状態を監視するツールが正しい値を取得、保存できない状態となり、実質上正確なトラブルシュートができず運用上の問題となってしまった。
このほか、ファイルコピー機能の動作に伴う問題なども報告書で指摘されています。
現在は主に性能上の問題への対処のために、ストレージ装置を追加導入して負荷を下げた形での運用を行っているとのこと。詳しくは、「さくらのクラウド・ストレージに関する報告書をご覧ください。
自社開発の新ストレージサービスを開始
さくらインターネットではこのストレージのトラブルを踏まえ、現在利用しているストレージに代えて同社が自社開発した新ストレージでのベータテストを、本日6月25日から開始すると、合わせて報告書で明らかにしています。
また、本日19時から開催予定の「さくらの夕べ」で、ユーザーに向けてトラブルと今後について説明するとしています(すでに定員に達しています)。
次の記事では、今回報告されたストレージのトラブルに関して同社代表取締役社長 田中邦裕氏、さくらインターネット研究所 所長 鷲北賢氏へのインタビューを行っています。あわせてお読みください。
≫ 「ストレージの事前検証が十分にできなかった」さくらインターネット田中社長、クラウドのストレージトラブルの原因について
あわせて読みたい
「ストレージの事前検証が十分にできなかった」さくらインターネット田中社長、クラウドのストレージトラブルの原因について
≪前の記事
jQuery 1.8β1登場。モジュール機能によるカスタマイズ、ベンダープレフィックスサポート、XSS対策など