グーグルによるMapReduceサービス「BigQuery」が登場。SQLライクな命令で大規模データ操作
「数兆件のデータも対話的に、高速に分析できる」。グーグルは5月19日にこのような表現で新しいサービス「BigQuery」の登場を紹介するエントリを、ブログにポストしています。
グーグルが公開したBigQueryは、Hadoopやデータウェアハウスなどを用いて多くの企業が行おうとしている大規模データ(いわゆる「Big Data」)の分析を、グーグルのクラウドで可能にします。利用者はGoogle Storage経由で大規模データを転送し、SQLライクな命令によって抽出や分析を行います。
まるでグーグルが大規模データ処理のMapReduceをホスティングし、その機能をサービスとして提供するようなものがBigQueryといえます(ただし公開された「BigQuery」の説明には、内部でMapReduceを利用しているのかどうかの記述はないのため、MapReduce「的」なサービスと表現すべきかもしれません)。
BIサービスを想定か?
BigQueryの特徴をまとめると、次のようになります。
- スケーラブル : 数テラバイト、数兆件のデータも分析可能
- インタラクティブ : 典型的な処理なら数秒以内で完了する
- シンプルで分かりやすい : 問い合わせにはSQLライクな言語を使用
- 情報の共有 : グーグルのアカウントによるグループやユーザーベースのパーミッション
- セキュリティ : SSLでアクセス可能
- フレキシビリティ : REST APIs、JSON RPC、Google App Script
BigQueryのAPIはRESTfulになっており、URLの文字列で問い合わせを行うと、JSONで結果が帰ってきます。問い合わせ命令はSQLライクの独自なものになっています。大量のデータ転送は、先日発表されたばかりのGoogle Storage for Developers経由で行います。
上記の特徴を組み合わせると、グーグルがBigQueryでどのようなユースケースを考えているのか想像できるのではないでしょうか?
それは、ユーザーごとに分析可能な範囲の権限を設定し、分析結果はGoogle App Scriptを用いてGoogle Spreadsheetのうえで分かりやすく表示。分析アプリケーションの開発は既存のデータベース開発経験を持つデベロッパーがSQLの知識を活かして行う。というユースケースです。
BigQueryは企業ユーザーがBIのようなデータ分析目的で使うことを想定していることが浮かび上がってきます。
ちょうど昨日、IBMがHadoopを表計算のように使える「InfoSphere BigInsights」という製品を発表したことを紹介しました。グーグルのBigQueryもこれと同じ市場、企業のBI市場を狙っているといえそうです。
そしてIBM、グーグル以外にもHadoop/MapReduceを用いたBI製品がこれからつぎつぎに登場しそうです。そのことについてはまた別の記事に書くつもりですが、突然、Hadoop/MapReduceの商用利用がBI分野で熱くなってきました。
関連記事
グーグルはGoogle App Engine上で動作するMapReduceの実装をオープンソースとして開発中であることを発表しています。
そのほかのMapReduce関連記事は「MapReduce」タグからご覧ください。以下はその一部です。
あわせて読みたい
こっちは本物のMapReduceだ! グーグルがAppEngine-MapReduceをオープンソースで開発中
≪前の記事
Hadoopを表計算のように使える「InfoSphere BigInsights」、IBMが発表