グーグル、Paxosを採用したApp Engineのデータストア「High Replication Datastore」が1年間ゼロダウンタイムだったと報告
いまから約1年半前の2010年6月、グーグルはGoogle App Engineの利用者拡大への対応が後手に回り、深刻な性能低下や障害に見舞われました。グーグル自身が「Google App Engineの利用拡大に追いつけていない」ことを認める記事をブログにポストしています。
その半年後の2011年1月、こうした問題を解決するために登場したのが、新データストアのHigh Replication Datastoreでした。
High Replicatin Datastoreは、それまでのデータストアが採用していたMaster/Slave型でのデータセンター間の冗長性を、Paxosアルゴリズムによる同期に変更し、特定のデータセンターに障害が発生した場合でもほとんどの場合で問題なく動作しつづけることを実現したと説明されました。
Google Japan Developer Relation Blogにポストされたエントリ「App Engine 1.4.1 をリリースしました - High Replication Datastore の紹介」から、説明を引用します。
High Replication Datastore ではデータのコピーを保持するデータセンターの数を増やし、リアルタイムに Paxos algorithm を使用してデータセンター間におけるデータの同期を行います。1 番大きなメリットは、計画されたメンテナンス期間だけでなく、インフラ側で突発的な問題が起きている間にも、殆どの場合には、アプリケーションの機能すべてが完全な形で利用可能になることです。
この1年はゼロダウンタイム
あれからちょうど1年たった今年の1月5日、Google Developer Blogには次のようなタイトルのエントリがポストされました。「Happy Birthday High Replication Datastore: 1 year, 100,000 apps, 0% downtime」(誕生日おめでとうHigh Replication Datastore。1年、10万アプリ、ゼロダウンタイム)。
タイトルから分かるとおり、High Replication Datastoreは期待されていたとおり、1年間ダウンなしで運用し続けることに成功したとのこと。
HRD has had no system-wide downtime (planned or unplanned) and has grown to serve over 3 billion requests per day. Needless to say it’s been a phenomenal year.
HRDはシステム全体に及ぶようなダウンタイム(計画、非計画を問わず)はなく、しかも1日に30億リクエストを処理するまでに成長しました。いうまでもなく、驚異的な1年になりました。
この1年の成果を誇らしげに語るこのエントリは、今後High Replication Datastoreがさらに強化される予定であると結ばれています。
あわせて読みたい
日本の情報システムは頑張りすぎ? 日本企業の計画外停止は年間平均1.6時間、米国企業は12.6時間というデータ
≪前の記事
インタビュー:OpenFlowによってネットワーク業界に何が起きるか? (後編)