負荷をかけたままのOracle RACをライブマイグレーションさせたら、トランザクションやクライアントとの接続は無事か?
いまや多くの業務アプリケーションが仮想サーバ上で稼働するようになってきていますが、仮想環境で稼働させるのは難しいと考えられているのがデータベースです。
データベースに負荷をかけたままVMwareのライブマイグレーションを実行した場合、クライアントからの接続を含めて問題なくトランザクション処理が継続できるのか、ライブマイグレーションにはどれだけ時間がかかるのでしょうか。
それを実際に試してみた記事が、企業向けにアーキテクチャコンサルタントをしているMichael Webster氏のブログLong White Virtual Cloudsに「Live Migration of Monster Oracle RAC Nodes without Client Disruption? Easy as VMware vSphere!」として掲載されています。
3ノードのOracle RACに負荷をかけたままライブマイグレーション
この記事では、3ノードのOracle RACにベンチマークで負荷をかけた状態にしたまま、VMwareのライブマイグレーションを実行しています。利用されたハードウェアとソフトウェアの環境は以下のようになっています。
- EMC VMAX Cloud Edition(16x2TB SATA、106x300GB FC、24x100GB SSD)
- UCS B200 M3 ブレードサーバ(2xE5-2680、384GB RAM)
- Cisco Nexusスイッチ
- VMware vSphere 5.1上にOracle RAC 11g R2 (11.2.0.3) 3ノード
- 各ノードは16vCPUと156GB RAM
記事によると、稼働中のOracle RACのライブマイグレーションはクライアントの接続が途切れることもなく、トランザクションの処理が止まることもなく成功したようです。記事の翻訳の許可を得たので、一部を引用します。
Live Migration of Monster Oracle RAC Nodes without Client Disruption? Easy as VMware vSphere!
このテストが示したのは、vSphere上で稼働している3ノードのOracle RACデータベースに対してクライアントから接続し、ベンチマークテストで3654TPSの負荷をかけ続けても、コネクションを維持しながらトランザクションを処理しつつvMotionのライブマイグレーションが実行できた、ということです。
テスト中のCPUの利用率は最大で70%。2つの10GbE NICによるMulti-NIC vMotionで、ライブマイグレーションが実用的な時間で収まるようにしています。
もっとも厳しい環境の3並行のvMotionテストにおいても、わずか180秒で処理は完了。350秒以内にライブマイグレーション前の性能の状態に戻りました。
ここで私から問いかけたいのは、ベアメタル上のRACノードがライブマイグレートするのにどれくらいかかるか? ということです。ひっかけ問題のようですが、ダウンタイムもなく、クライアントのコネクションも切れず、100%のRACノードの可用性を実現しつつサーバのメンテナンスやアップグレードを可能にする環境、これまで物理環境で得られていた以上に迅速な障害対応環境が得られたのではないでしょうか。
おっと、何よりvSphere上でOracle RACが問題なく動くのか、という基本的な問題がありました。ストレージマルチパスやネットワークのチーミングがOracle RACのストレージやクライアントを混乱させるといったことはなく、これらはすべてハイパーバイザが透過的に処理してくれます。このことは、物理環境のOracle RACのコンフィグレーションで不安定になりがちな部分を取り除いてくれることでもあります。
これはつまり、Oracle RAC専用のインターコネクトやスイッチを必要とせず、全体を集約した設計のネットワークが提供されることでもあります。(翻訳はここまで)
データベースでさえも仮想環境のほうが優れているということか?
元記事を書いたMichael Webster氏の意見はつまり、Oracle RACのような大規模データベースの実行環境であっても、もう仮想環境のほうが優れているのではないか、ということのようです。これが本当かどうかはもっと実稼働の事例を積み上げていく必要がありますが、それでもここに仮想化がいま到達している先端例を見ることができるのではないでしょうか。
あわせて読みたい
[速報]セールスフォース・ドットコムが新ブランド「Salesforce 1」を立ち上げ。モバイルファーストとしてサービスを再構築か?
≪前の記事
直近の6カ月で2倍以上に成長したモバイルBaaSのParse。レイテンシの問題をAWSのストレージ機能で解決。AWS re:Invent 2013