Hadoopと3つのRDBMSの比較評価。 Hadoop World: NYC 2010
先週10月12日に、ニューヨークでHadoopのイベント「Hadoop World: NYC 2010」が開催されました。主催はHadoopのディストリビューションベンダであるCloudera。参加者は900名を超えたともいわれ、日本からも30名程度が参加しました。
このイベントでClouderaはNTTデータとの提携を発表。両社でアジア太平洋地域と日本でのHadoopビジネスを積極展開することを明らかにしています。NTTデータによる講演のなかでリクルートの米谷修氏が行ったHadoopに関する比較評価を紹介します。
この記事はHadoop WorldでClouderaと提携したNTTデータが目指すもの。Hadoop World: NYC 2010」の続きです。
3種類のデータベースとHadoopを比較
リクルート MIT United システム基盤室エグゼクティブマネージャー 米谷修氏。
MITは各事業を横断したシステム部門。全システム共通のクラウド型インフラや、Webサイト開発プロジェクトの品質担保の責任を負っている。
リクルートでは、以下の4つのソフトウェアを、データ分析の面で検証した。
- 商用のデータウェアハウス用データベース(I)
- 商用のデータベース+RAMディスク(O)
- PostgreSQL Clusterをベースとした商用データーベース(G)
- Hadoop/HIVE
(追記 2011/4/15 : 関係者に正しい情報をご指摘いただき、上記のIとOを入れ替えました)
Hadoop/HIVEの検証はNTTデータと一緒に行っており、その検証について紹介する。
評価軸は以下の10個を設けた。
- 小規模バッチ処理適合性
- 運用簡易性
- 製品信頼性・サポート充実度
- 拡張性・大規模バッチ処理適合性
- 可用性
- AP開発容易性
- 移行簡易性(既存アプリケーションのマイグレーションコスト)
- オンライン処理適合性
- 経済性(現行同等規模の構成)
- 先進性/適用域の将来性
図の赤がHadoopの評価を示しており、Hadoopの強かった点は「可用性」と「拡張性・大規模バッチ処理適合性」。弱かった点は「オンライン処理適合性」や「移行簡易性(既存アプリケーションのマイグレーションコスト」。従来のリレーショナルデータベースからHadoopへ移行ことを想定すると、アプリケーションの移行コストはどうしても大きくなる。
Hadoopには弱点もあるが、それを超える「可用性」「スケーラビリティ」の魅力がある。また、リレーショナルデータベースやデータウェアハウス用の製品と競合するものではなく、適用領域が異なる使い分けるべきもの、であることもわかった。
既存のSQL専門のエンジニアにもMapReduceのノウハウを展開へ
リクルートでも、ビジネスを成長する上で「大量データ処理」は重要なテーマだと捉えている。その領域で見てみると、Hadoop/HIVEが最も適したものとなる。
リクルートはHadoopを小規模なものから利用を開始し、ノウハウを溜めてゆく計画だ。既存のSQLを専門としてきた社内エンジニアに対し、MapReduceのノウハウを展開する必要性も感じている。
現在、社内の大規模なインフラの入れ替えを行っている。その枠組みの中で、Hadoopのクラスタを作っている。
SQL的な集計が持つ限界に束縛されずに、Hadoop/HIVEを使いこなせるようになることで、これまでにはないより良い分析が可能になり、最終的に高い顧客満足度を得ることができると考える。
例えば、これまでWebサイトの顧客動向の分析について、処理にかかる日数を減らすために処理対象のデータ量の低減を行っていたが、Hadoop/HIVEにより長い期間のデータを対象とした分析が現実のものとなる。
今後は実サービスでの利用状況のフィードバックなどを中心に、HadoopやHIVEコミュニティの方々ときちんと協力してやっていきたい。
あわせて読みたい
今年2010年が「日本のクラウド元年だ!」 とプレゼンするための資料を集めてみた
≪前の記事
Hadoop WorldでClouderaと提携したNTTデータが目指すもの。Hadoop World: NYC 2010