Hadoopを表計算のように使える「InfoSphere BigInsights」、IBMが発表
IBMがHadoopをベースにしたデータ分析ソフトウェア「InfoSphere BigInsights」を、先週ローマで開催された同社のイベント「IBM Information On Demand Europe 2010」で発表しました。
InfoSphere BigInsightsは、Apache Hadoopをベースにした分析エンジンの「BigInsights Core」と、その上で大規模データをWebブラウザを利用してスプレッドシートのようなユーザーインターフェイスで分析を行える「BigSheets」の2つから構成されます。
BigSheetsで表計算のようにデータ分析
BigInsights CoreのベースとなっているHadoopは、数百万件など大規模なデータを大量のサーバで分散処理するためのオープンソースのソフトウェアです。Yahoo!やFacebook、日本ではCookpadなどでの利用例が知られており、Amazonクラウドでは「Amazon Elastic MapReduce」というサービスとして提供中で、米Clouderaからは商用のディストリビューションも提供されています。
Infosphere BigInsightsはIBMが提供する商用のHadoopディストリビューションのようなものといってもいいでしょう(発表によるとサービスとしても提供されるようです)。
この製品の最大の特徴はBigSheetsにあります。BigSheetsは、表計算のようなユーザーインターフェイスを利用してBigInsights Coreに命令を与え、プログラミング不要で大量のデータを分析する機能です。デモンストレーションのビデオから、その機能を紹介しましょう。
BigSheetsのダッシュボード。分析可能な情報の一覧が表示されています。
2002年から2009年のあいだに特許庁から公開された特許文書をすべて取得し、138万本のドキュメントが保存されています。取得した生データはXML文書で、ここから文書番号や提出日付などの必要な情報を抽出、表形式で参照。さらにIBM関連の特許文書だけに絞り込み。
引用回数をタグクラウドで表示。
引用回数を基にしたランキング表示
企業がクラウドを採用するきっかけとなるか
Webのビジネス利用が広まると共に、そこから数テラバイト、数ペタバイトの大規模データが、システムのログ、大量のドキュメント、ユーザーの行動データなどとして一般の企業の情報システムからも生成されるようになってきました。
いわゆる「Big Data」と呼ばれるこうした大量のデータを分析し、ビジネスへとフィードバックすることがニーズとして浮かび上がってきたとき、それを分析するためのソフトウェアとして急速に注目されているのがHadoopです。
Hadoopは先月、MapReduceの特許を保有していたグーグルから正式に特許の利用許可を得て、知的所有権の懸念が解消したばかり。IBMがHadoopをデータ分析のためのビジネスアプリケーションとして商品化したことで、今後大規模分析を行うためのインフラとしての位置づけを高めていくことになりそうです。
そしてそれが、企業がクラウドを採用するきっかけとなるキラーアプリケーションになっていくかもしれません。