Amazonクラウドに「キャパシティの限界を超えているのでは?」との疑い
Amazonクラウドの性能低下を経験したユーザーが、Amazonクラウドはデータセンターのキャパシティを超えて利用者と契約しているのではないか? との疑いを投げかけています。
クラウドは一度使い始めると、現在のところ容易にほかへ乗り換えることはできません。そしてそのクラウドがトラブルに見舞われた場合、利用者自身が問題を解決できる余地はほとんどありません。以下で紹介するのは、実際のトラブルはどうあれ、そうしたクラウドに依存せざるを得ない利用者の立場を浮かび上がらせる話です。
インスタンス性能の低下からネットワークの遅延へ
発端は、Alan Williamson氏による1月12日付けのブログのエントリ「Has Amazon EC2 become over subscribed?」。3年前からAmazonクラウドを利用し続けてきたWilliamson氏は、「Amazonクラウドはまさに限界点を超えたのだ」と書いています。
After 3 years of production usage what we can tell you is this .. Amazon do have a breaking point.
Williamson氏がAmazonクラウドを利用し始めた当初、それは非常にすばらしかったと当時を振り返ります。
Amazon in the early days was fantastic. Instances started up within a couple of minutes, they rarely had any problems and even their SMALL INSTANCE was strong enough to power even the moderately used MySQL database.
初期のAmazonは非常にすばらしかった。数分でインスタンスは立ち上がり、障害もほとんどなく、Small InstanceでさえそこそこのMySQLを使うのに十分なパワーがあった。
ところが8カ月ほど前から様子がおかしくなったと。
in the last 8 or so months, the chinks in their armour have begun to show. The first signs of weakness came from the performance of the newly spun up Amazon SMALL instances.
この8カ月あたりから、ほころびがみえはじめた。最初の課題は新しく立ち上がったSmall Instanceの性能に表れていた。
そして先月には高性能インスタンスにまで性能に問題が出始め、調べた結果ネットワークに遅延が見つかったとWilliamson氏は書いています。
After some investigation, we discovered a new problem that has crept into Amazon's world: Internal Network Latency.
調査の結果、Amazonクラウドに忍び寄る新しい問題を発見した。内部ネットワークの遅延だ。
pingの反応速度を計測してみたところ、なんと最大で7241ミリセカンド、つまり7秒もの遅延が起きていたというのです。
12月中旬から内部ネットワークの遅延が
このWilliamson氏の主張に反応したのが、Amazon EC2やRackspcace、Slicehostといったホスティングのための管理ツールを提供しているCloudkickのブログにポストされたエントリ「Visual evidence of Amazon EC2 network issues」。
以下のように昨年11月から現在までのpingの反応速度のグラフを掲載し、遅延は発生しており、徐々に大きくなっていることを明らかにしています(正確にはこのグラフは後述するDatacenter Knowledgeの記事の掲載後に追加されたもの)。
このグラフはAmazonクラウドのUS-Eastアベイラビリティゾーンに置かれたCloudkickのインスタンスによるものと説明されています。
そしてエントリの最後に結論がまとめられていますが、それは「利用者数が超過(oversubscriptition)しているのではないか」というもの。
The conclusion? Alan Williamson's post on EC2 oversubscription seems to make a lot of sense. The network behind EC2 appears to be experiencing very sporadic latency issues.
結論? Alan Williamson氏のポストにあるように、利用者数が超過したと考えるのが妥当だ。EC2の背後にあるネットワークは散発的に遅延の問題を起こしているように見える。
Amazonクラウドはキャパシティの限界を超えての利用者と契約しているのではないか、という疑いが強くかかりました。
Amazonは「キャパシティに問題はない」と返答
1月14日付けのDataCenterKnowledgeの記事「Amazon: We Don't Have Cloud Capacity Issues」では、さっそくAmazonクラウドの担当者がキャパシティに問題はないと返答しています。
Amazon says that if customers are experiencing performance problems, it isn't because EC2 is overloaded. "We do not have over-capacity issues," said Amazon spokesperson Kay Kinton.
Amazonはもし利用者が性能問題に直面しているとしても、それはEC2がオーバーロードしているためではないとしています。「われわれはキャパシティ超過の問題を抱えていません」とAmazonの広報担当 Kay Kinton氏は語ります。
しかしAmazon側からは具体的な現在のインスタンス数や契約数などの情報は明らかにされていません。
Amazon EC2スポットインスタンスが原因?
ブログSeldo.comに1月15日付けでポストされたエントリ「Are spot instances killing the performance of Amazon EC2?」では、性能低下が12月中旬から起きていることに着目し、その時期にAmazon EC2に導入されたスポットインスタンスが原因ではないかと推測しています。
Something struck me about the timing: the trouble all seems to kick off round the 12th of December: that's the day Amazon announced EC2 spot instances.
このトラブルが12月12日頃のタイミングで始まっているのを見て思いつくことがある。それは、AmazonがEC2スポットインスタンスを発表した日だ。
Amazon EC2スポットインスタンスとは12月14日にAmazonが発表した価格モデル。そのとき余っているAmazon EC2のリソースをオークションによるスポット価格で安く提供するというもの。つまり、このスポットインスタンスによってAmazon EC2のリソースがぎりぎりまで活用されるようになり、キャパシティの上限に達しているのではないかという説です。
このほかにも米スラッシュドットにもトピック「Amazon EC2 May Be Experiencing Growing Pains」が立ち、議論が交わされていましたが、その後、問題提起をしたWilliamson氏のブログも、CloudKickのブログも更新されていないため、現状で問題が解決しているのかどうかは不明です。続報が入ってきたらまた紹介しようと思います。