Hadoopは企業のための新たな情報分析プラットフォームとなる、とCloudera
グーグルが大規模分散システムのために用いているMapReduceという技術を、オープンソースとして実装したJavaベースのソフトウェア「Hadoop」です。
Hadoopは当初、Yahoo!やFacebook、Facebookといったネット企業が数テラバイト、ペタバイトにおよぶ大規模なログなどを分析するのに利用していましたが、現在ではVISAやJP Morgan Chase、China Moblieなど一般の企業でも大規模なデータ処理にHadoopを用いています。多くの処理がネットで行われるにつれ、「Big Data」と呼ばれる大規模データは処理のニーズはさまざまな企業に広がっています。
Hadoopは新しいデータ分析プラットフォームになる
Hadoopの商用ディストリビューションを提供する「Cloudera」は、Hadoopをあらゆる企業、組織の情報分析プラットフォームにするというビジョンを、「ACM SIGMOD/PODS」(Association for Computing Machinery Special Interest Group on Management Of Data/Principles of Database Systems、米計算機学会 データマネジメントグループ)の年次総会のプレゼンテーションで明らかにしています。
ClouderaのCo-founder、Jeff Hammerbacher氏はSQL Serverを例に、データベースがさまざまな種類のデータを統合して分析するプラットフォーム(Analytical Data Platform)になっていると指摘。
しかし、企業のデータの95%以上は非構造型のデータであり、しかもその量は急速に拡大中。プラットフォームはクラウド化するといった中で、MapReduceとHDFSが基盤としてふさわしく、その実装であるHadoopはさまざまな企業向けの機能を備えてきており、導入例も広がっていることを挙げています。
これらを踏まえ、Hadoopは新しいデータ分析プラットフォームになるとしました。
Clouderaは、ACM SIGMOD/PODSでの同社の講演を伝えるプレスリリースの中で、以下のように書いています。
Cloudera’s mission is to bring the power of Hadoop, MapReduce, and distributed storage to companies of all sizes in the enterprise, Internet and government sectors.
Clouderaの使命は、Hadoop、MapReduceそして分散ストレージの能力を、あらゆる企業、ネット、そして公共機関にもたらすことです。
HadoopをBIで利用する際のガイドライン
そのClouderaのブログで6月3日付けにポストされたエントリ「Considerations for Hadoop and BI (part 2 of 2)」では、具体的に企業がどのような場面でHadoopをBI(ビジネスインテリジェンス)で導入するのが適切なのか、簡単なガイドラインを紹介しています。主な項目を要約して紹介しましょう。
Are you dealing with a technically difficult or intractable problem?
(技術的な課題、扱いにくい課題を抱えていますか?)
既存のデータウェアハウスは、トランザクションデータを分析用のデータベースに転送して分析するのが一般的だが、ETLの能力を超えるほど急速にデータ量が増加する場合には、このモデルは破綻する。急速にデータが増加したり、複雑なデータの場合には、その保管場所としてリレーショナルデータベースを用いるのはあまりに高価だ。
Does most of your data conform to a known schema?
(データのほとんどは既存のスキーマに合致しますか?)
データが既存のスキーマにあてはまる、もしくは新しいデータのためのスキーマを検討する時間があるのなら問題はないが、もしもデータフォーマットが複雑でそうしたことができないのであれば、おそらく複雑なデータを分析するデータウェアハウスとしてHadoopを利用するのが適切だろう。
Do you require real-time analysis or will batch-analysis suffice?
(リアルタイム分析が必要?、あるいはバッチ分析で十分ですか?)
Hadoopは大規模データをバッチ処理するようにデザインされているため、もしもリアルタイム分析が必要ならばOLAPなどのほうが適切だ。しかしOLAPではデータが増えてくると、さらに高価で強力な製品にアップグレードが必要だろう。Hadoopはデータウェアハウスのために大規模な生データを保存する安価な方法として使える。
BI市場の破壊的テクノロジーに
先月の記事「Hadoopを表計算のように使える「InfoSphere BigInsights」、IBMが発表」でもお伝えしたように、Hadoopを採用した商用のBI製品、あるいは企業向けのサービスは徐々に広がりを見せています。データ分析が企業の戦略にとって重要さを増していく中で、安価なサーバの集合体であるクラウドとオープンソースによってBig Dataの分析を従来のBIよりも低コストで行えるとされるHadoopは、BI市場の破壊的テクノロジーになる可能性を十分に秘めています。
関連記事
Publickeyでは、Hadoopの商用利用について記事で追ってきました。