HadoopのSQL対応分散クエリエンジン「Cloudera Impala」。Clouderaがオープンソースで公開

2012年10月26日

Hadoopのディストリビューションベンダとして知られるClouderaは10月25日、SQLに対応し、データの分析速度はMapReduceよりも何倍も高速だという新しい分散クエリエンジン「Cloudera Impala」(製品名「Cloudera Enterprise RTQ」)をオープンソースで公開しました。

Cloudera、データマネジメントの新時代をリードするリアルタイムクエリを発表 | Cloudera Japan

これまでHadoopでは内部でMapReduceと呼ばれる処理が用いられていましたが、ImpalaではMapReduceを使わず、Clouderaが2年かけて開発した独自の分散クエリエンジンを用いて処理を行います。Hiveの上位互換のSQLが利用でき、Hive/MapReduceで数分かかっていた応答時間を数秒に短縮すると説明されています。

グーグルのDremel論文が発端

グーグルが大規模分散処理フレームワークであるMapReduceに関する論文を発表したことがHadoop開発のきっかけになったように、今回のImpalaの開発もグーグルの大規模分散クエリに関するDremel論文に触発されたものだとClouderaは明らかにしています。

Dremelは、現在グーグルのBigQueryと呼ばれるサービスです。Dremel/BigQueryはSQLに対応したカラム型データベースを大規模分散処理で実現しており、OLAP(Online Analytical Processing)やデータマイニングといったデータ分析処理を超高速に実行できます。

Impalaも基本的には並列分散クエリエンジンを用いた同様のアーキテクチャを実現しています。MapReduceよりも高速なのは、こうしたクエリ処理に関する性能を比較した場合でしょう。

Impalaの分散クエリエンジンとMapReduceとはそれぞれ得意な処理が異なるため、Impalaが従来のMapReduceの後継となる、あるいは置き換えるということはなく、共存していくものと考えられます。

またClouderaはCloudera Impala/Cloudera Enterprise RTQを「リアルタイムクエリ」と説明していますが、技術的特徴を考えればその本質はリアルタイム処理というよりも、高速に分析結果をはじきだせる反応速度の短いバッチ処理といえるでしょう。

Dremelのオープンソース実装はApacheでも

グーグルのDremelに触発されたのはClouderaだけではありません。すでにDremelのオープンソース実装としてApache Drillが進められています。

また、カラム型データベースはそもそも並列処理と相性が良いため、オラクルやSAPに買収されたサイベースなど以前から商用データベースベンダーから製品が出ており、特にビッグデータのブームによってカラム型データベースの技術の注目度が高まっていることから、今後さらに改良された製品が登場することでしょう。

ClouderaがCloudera Impalaを公開したことは、Hadoop/MapReduceで処理できる範囲にとどまることなく、ビッグデータにおいて商用データベースベンダーと競合する分野にも積極的に進出していくのだ、という意志の表れだと見ることができます。

あわせて読みたい

機械学習・AI Hadoop MapReduce カラム型データベース




タグクラウド

クラウド
AWS / Azure / Google Cloud
クラウドネイティブ / サーバレス
クラウドのシェア / クラウドの障害

コンテナ型仮想化

プログラミング言語
JavaScript / Java / .NET
WebAssembly / Web標準
開発ツール / テスト・品質

アジャイル開発 / スクラム / DevOps

データベース / 機械学習・AI
RDB / NoSQL

ネットワーク / セキュリティ
HTTP / QUIC

OS / Windows / Linux / 仮想化
サーバ / ストレージ / ハードウェア

ITエンジニアの給与・年収 / 働き方

殿堂入り / おもしろ / 編集後記

全てのタグを見る

Blogger in Chief

photo of jniino

Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。2009年にPublickeyを開始しました。
詳しいプロフィール

Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
Facebookで : Publickeyのページ
RSSリーダーで : Feed

最新記事10本