「ストレージの事前検証が十分にできなかった」さくらインターネット田中社長、クラウドのストレージトラブルの原因について
さくらのクラウドで昨年から発生したストレージのトラブルについて、さくらインターネットは今日、詳細な報告書を公開しました。
Publickeyでは同社代表取締役社長 田中邦裕氏、さくらインターネット研究所 所長 鷲北賢氏に対してインタビューを行い、トラブルを引き起こした原因がどこにあり、その教訓は何なのかを聞きました。
ストレージトラブルの教訓は「リスクを引き受けるため、十分に検証せよ」
──── 「さくらのクラウド」でのストレージのトラブルについて、今回報告書を公開され、また新たな自社製ストレージも発表されました。これまでを振り返っていただくと、トラブルを引き起こした原因はどこにあったとお考えですか?
田中氏 ストレージ装置の採用時にきちんとしたテストをできていなかった。具体的にいえばフル負荷をかけたテストができていなかったのが原因です。本来サービス提供者である自社が負うべきリスクを、製品ベンダを信用してベンダに移転していたことも要因としてあげられます。
当社に共有ストレージの知見が不足していた中で、その足りない知見をベンダに頼りながらやっていました。これは一般のシステム開発ではとりうる策だとは思いますが、パブリッククラウドではできませんでした。
当社では、ネットワーク機器やサーバなどは採用前にかなり検証しています。「カタログスペックは信用できない」というのがキーワードになっていて、ネットワークのスループットもサーバの消費電力も実際に検証してみないと本当のところは分かりません。
検証して問題があるのならば、そういう機器を採用すべきではなかった。
ただ、共有ストレージについては十分に検証する方法が分かっていませんでした。それでも、ベンダのサポートがあればなんとかしてくれるだろう、という甘えがあったのかもしれません(新野注:結果的にベンダサポートでは、問題が解決できなかったことが報告書で示されている)。
鷲北氏 共有ストレージの限界を見る上での最大の問題は、やはり多数のクライアントを用意するのが難しかったことでした。限定的なクライアント数しか用意できませんでした。クライアント数が少なくても、それぞれの圧力が大きければストレージに対する総合的な圧力は同じで、クライアント数が多いテストを代替できると考えていました。
しかし実際には、処理量が数千に分散されたときの動作チェックができていませんでした。
田中 一週間かけて起きる問題というのもあって、数時間や数日ではなく、数週間といった期間をかけて負荷テストをやっていなかった、というところにも問題がありました。
結論として、やはり機器の性能はカタログ通りではない(だからきちんと検証が必要で)、またパブリッククラウドでは、通常のベンダサポートでは間に合わない。そうしたことが教訓だったと思います。
ストレージ提供ベンダからはコメントとれず
さくらインターネットの報告書やインタビューにおいては、同社が採用したストレージベンダや機種については明示されていません。しかし同社が採用したのは日本オラクルの「Sun ZFS Storage Appliance」であることが事実上明らかになっています(日本オラクルのプレスリリース)。
Publickeyでは日本オラクルにも本件について取材の申し込みをしておりましたが、残念ながら本件についての取材許可はいただけませんでした。
さくらインターネットでは、今回のトラブルから学んだ教訓を活かし、自社開発した新ストレージのβテストを本日から開始するとしています。新ストレージについては、別の記事で取り上げる予定です。(6/26 0:40 新ストレージについて以下の記事を書きました)
あわせて読みたい
さくらのクラウド、新ストレージでは性能限界テストをやりやすく、自社開発をまずは採用。さくらの夕べで参加者に説明
≪前の記事
「さくらのクラウド」で続いていたストレージ障害、報告書をさくらインターネットが公開