Hadoopの最新動向を「Hadoop World:NY 2009」の資料から(前編)

2009年11月4日

Welcome to Apache Hadoop!

Hadoopは、グーグルが大規模分散システムのために用いているMapReduceという技術を、オープンソースとして実現するために開発されたJavaベースのソフトウェアです。開発が始まったのは2005年頃で、当時Yahoo!に所属し現在はClouderaに所属するDoug Cutting氏が中心となって進めてきました。

Hadoopが実現するMapReduce処理とは、簡単にいえば大量のデータを小さく分割して多数のノードに割り当て(Map処理)、各ノードで処理を行ったらそれを集約して結果を出す(Reduce処理)、という分散処理の方法です。数テラバイトにもおよぶ大容量のデータを高速かつ低コストに分散処理する方法として注目を集めています。

ニューヨークでHadoop Worldが開催される

そのHadoopのカンファレンス「Hadoop World:NY 2009」が10月2日にニューヨークで開催されました。主催は、Hadoopの商用ディストリビューションを提供しているClouderaです。

カンファレンスで行われたセッションのプレゼンテーションはほとんどすべて公開されており、Hadoopの最新動向を知る貴重な資料となっています。

この記事では、そのHadoop Worldのプレゼンテーションに全部目を通して興味深い部分を集めたので紹介します。前編の今回は、午前中のゼネラルセッションの資料から。

fig

主催社Clouderaは、まずHadoopの歴史を振り返ります。2004年にHadoopの基となるMapReduceの論文がグーグルから公開。2005年にプロトタイプ、2006年に20ノードで稼働。

fig

その後、2006年にYahoo!が本格的に注力を始め、2007年に200ノードで稼働、2008年には大規模なソート処理のTerasortベンチマークで新記録を達成しています。

fig

Clouderaは、オープンソースコミュニティや企業が公開するHadoop関連のソフトウェアや自社開発のソフトウェアをまとめてパッケージングし、Hadoopのディストリビューションを提供する企業。

fig

ビジネスモデルは、ディストリビューションパッケージを、UbuntuやRed hatなどのパッケージベンダや、Amazon Web ServicesやRackspaceなどのクラウドベンダへライセンスすることのようです。

fig

Yahoo!はHadoopにおいて最大の貢献とテスト、利用を誇り、今後も積極的な支援を約束しています。

fig

Yahoo!はHadoopを利用することで、調査期間が数カ月から即日に短縮、その結果プロジェクトは調査中心から結果を出すことに注力でき、また操作法も簡単に学べるというメリットを得られている(ただしこれは皮肉になっている可能性あり)。

fig

そして以前は26日もかかっていた過去3年分のログデータの分析が、Hadoop導入によってわずか20分になり、分析アプリケーションの開発もC++からPythonに変わり、2~3週間から2~3日に短縮。

fig

Yahoo!が現在開発中のHadoop関連プロジェクトとして、Hadoop本体のほか、PIG、Oozieなどについても説明。

fig

Hadoopの大規模ユーザーの1社であるFacebookは、Hadoopの利点を性能の低いサーバを集めることで非常に高い可用性とスケーラビリティ、管理のしやすさなどとする一方で、Hadoop処理のプログラミングの困難さを挙げています。そして、その解決策として「Hive」があると。

fig

HiveはSQLに似たHiveQLという問い合わせ言語でHadoopの処理を記述することができます。HiveQLを用いると、下記のスライドのように簡潔な文で複雑な処理が記述できるのです。HiveはFacebookが開発し、その後オープンソースとなっています。

fig

Facebookは現在4TBのデータが毎日生成され、135TBのデータを毎日処理しているとのこと。そのために7500以上のHiveによる処理が毎日行われています。

fig

ビデオも一部が公開されています。以下は、ゼネラルセッションの最初に行われた、ClouderaのChristophe Bisciglia氏による「elcome to Hadoop World」、約10分間のビデオです。

Welcome to Hadoop World - Christophe Bisciglia from Cloudera on Vimeo.

ここまでが午前のセッション資料でした。午後のセッション資料の紹介も、興味深い部分を集めて後編で紹介します

あわせて読みたい

機械学習・AI Hadoop




タグクラウド

クラウド
AWS / Azure / Google Cloud
クラウドネイティブ / サーバレス
クラウドのシェア / クラウドの障害

コンテナ型仮想化

プログラミング言語
JavaScript / Java / .NET
WebAssembly / Web標準
開発ツール / テスト・品質

アジャイル開発 / スクラム / DevOps

データベース / 機械学習・AI
RDB / NoSQL

ネットワーク / セキュリティ
HTTP / QUIC

OS / Windows / Linux / 仮想化
サーバ / ストレージ / ハードウェア

ITエンジニアの給与・年収 / 働き方

殿堂入り / おもしろ / 編集後記

全てのタグを見る

Blogger in Chief

photo of jniino

Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。2009年にPublickeyを開始しました。
詳しいプロフィール

Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
Facebookで : Publickeyのページ
RSSリーダーで : Feed

最新記事10本