Hadoopの最新動向を「Hadoop World:NY 2009」の資料から(後編)

2009年11月4日

Hadoopは、グーグルが大規模分散システムのために用いているMapReduceという技術を、オープンソースとして実現するために開発されたJavaベースのソフトウェア。クラウド対応のアプリケーションであり、数テラバイトにもおよぶ大容量のデータを高速かつ低コストに分析する方法として注目を集めています。

後編では、10月2日にニューヨークで開催された「Hadoop World:NY 2009」の午後のセッションの資料に目を通し、興味深いポイントを紹介しましょう。午後は3トラックに分かれ30ものセッションが行われていました。

この記事は「Hadoopの最新動向を「Hadoop World:NY 2009」の資料から(前編)」の続きです。

午後のセッション資料からハイライトを紹介

イェール大学のAzza Abouzeid氏とKamil Bajda-Pawlikowski氏は、HadoopとパラレルDBについて解説。パラレルDBは構造化データを扱い、Hadoopは非構造化データが対象。問い合わせ言語や実行方法、粒度などを比較しています。

fig

スケーラビリティはHadoopが優れるが性能はパラレルDBが勝り、結果として両方とも用途別に使い分けるべきだ、ということになったようです(参考:MapReduceとパラレルRDBでベンチマーク対決、勝者はなんとRDB! - Publickey)。

fig

Clouderaが開発中のSqoopについて。MySQLからHadoopへのデータインポートを容易に行うためのツール。Hadoopアプリケーションのためのクラスなども自動生成してくれ、Hiveとも統合しているため、SQL的な問い合わせもそのまま利用できるとされています。

fig
fig

VISAによるHadoopの事例。5億アカウントの利用者から1日に1億トランザクションが発生し、トランザクションあたり200バイトのデータが生成されるという。過去2年間で730億ものトランザクションデータが生成されており、これを分析するのにこれまで1カ月かかっていたものが、13分になったと説明されています。

fig

JP MorganがHadoopを導入した理由について。リレーショナルデータベースは酷使されており、性能をあげるにはメモリを増やす以外にない。プロプライエタリなトランザクションデータベースへ格納されるデータは増加の一途をたどっており、しかもデータは正規化されないものもある。そして、企業向けのデータは少数のベンダー製品に囚われの身となっているも同然で、プロプライエタリなものが多すぎる。もっと選択肢が必要だとの考え。

fig

JP MorganにおけるHadoopのポジショニング。左下にはギガバイトクラスのデータを高速(Low Latency)に処理するインメモリデータベースが位置し、中央付近にはギガバイトからテラバイトのデータを処理するSQLデータベースが多数存在。その右側にはテラバイトのデータを高速に、もしくは多少の時間をかけて分析するデータウェアハウスが並び、いちばん右上には非構造化データでしかもペタバイトクラスのデータを処理するMapReduce処理系(すなわちHadoop)が位置づけられています。

fig

恋人マッチングサイトのeHarmonyの事例。大量の個人情報を基に適切なマッチングを計算するにはn人の二乗となる膨大な計算が必要。現在の10倍のメンバーに対応できる処理能力と、今後の成長に対応できるシステムを探していました。

fig

その要件にマッチしたのがHadoopであり、Amazon EC2のMapReduceサービスを利用してシステムを構築下と説明されています。

fig

データウェアハウス用のデータベース製品を提供するVertica Systemsは、Hadoopとの統合製品を発表。大規模並列のカラムナデータベースであるVertica Analytic Databaseを、Hadoopのデータリポジトリとして利用可能に。これにより、ETLツールなどを用いたデータのインポートや、分析後のデータをBIツールなどで加工しやすくなる(カラムナデータベースについては、記事「カラムナデータベース(列指向データベース)とデータベースの圧縮機能について、マイケル・ストーンブレイカー氏が語っていること」を参考)。

fig

参加者によるレポート記事

日本からHadoop World NY:2009に参加された方の記事やブログも紹介します。

日本では、このHadoop Worldを主催したClouderaも参加して11月13日にHadoop Conference Japan 2009が開催予定です(すでに定員を超えており、申し込みは締め切り済み、僕も間に合いませんでした)。その2日後の11月15日には北京で「Hadoop World:Beijin 2009」が開催される予定です。

あわせて読みたい

NoSQL 機械学習・AI Hadoop




タグクラウド

クラウド
AWS / Azure / Google Cloud
クラウドネイティブ / サーバレス
クラウドのシェア / クラウドの障害

コンテナ型仮想化

プログラミング言語
JavaScript / Java / .NET
WebAssembly / Web標準
開発ツール / テスト・品質

アジャイル開発 / スクラム / DevOps

データベース / 機械学習・AI
RDB / NoSQL

ネットワーク / セキュリティ
HTTP / QUIC

OS / Windows / Linux / 仮想化
サーバ / ストレージ / ハードウェア

ITエンジニアの給与・年収 / 働き方

殿堂入り / おもしろ / 編集後記

全てのタグを見る

Blogger in Chief

photo of jniino

Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。2009年にPublickeyを開始しました。
詳しいプロフィール

Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
Facebookで : Publickeyのページ
RSSリーダーで : Feed

最新記事10本