Hadoopはビッグデータの汎用プラットフォームであり、行く先はグーグルが示している
Hadoopはビッグデータ処理の汎用プラットフォームであり、SQLやジョインやトランザクションなどが使えるようになる。Hadoopの生みの親であるダグ・カッティング氏は、都内で開催された日本Hadoopユーザー会主催のイベント「Hadoop Conference Japan 2013 Winter」にビデオメッセージで参加。Hadoopの現在、そして将来像について語りました。
カッティング氏が語ったHadoopの将来とはどんなものなのか。ポイントを紹介しましょう。
バッチ処理を超え続くApache Hadoopの進化
Apache Software FoundationのChairmanでありClouderaのChief Architect、Doug Cutting氏。
今日はみなさんと一緒に参加したかったのですが残念ながらかなわず、このビデオをお送りすることになりました。
MapReduceはとてもポピュラーなものになりましたが、これがバブルのような盛り上がりではないかと心配されている方もいるかもしれません。しかし私はHadoopの力強い未来を確信しています。
ここではHadoopの現在とこれからについてお話したいと思います。
Hadoopはバッチシステムとしてスタートしました。シンプルでパワフル。従来のような、データをコンピュテーション(計算機)のあるところに移すのではなく、コンピュテーションの方をデータのあるところへ移動することで、非常に効率的でスケーラブルなものになっています。
しかしバッチ処理だけがビッグデータを扱う方法ではありません。
HBaseは最初のノンバッチコンポーネントで、オンラインのキーバリューストアです。データへリアルタイムでランダムアクセスでき、大規模なデータでも迅速に扱えます。もちろんバッチ処理にも対応しています。
HBaseは、Hadoopがバッチ処理を超えようとする最初の一歩です。
ここで究極のビッグデータ処理システムはどんなものか、考えてみましょう。それは、オープンソースソフトウェアとコモディティハードウェアで構成され、ハードウェアを追加するだけでスケールしていくものになるでしょう。
リレーショナルデータベースの機能も取り込み、SQLが使えてジョインもトランザクションも対応するかもしれません。
グーグルの論文が地図を示す
これらにどうやって到達していくのでしょうか?グーグルが発表する論文が、その地図を示してくれています。
2004年、GFS&Mapreduceの論文が公開されると、これに直接インスパイアされる形で2年後にHadoopが登場しました。
このパターンは続きます。2005年にバッチ処理言語Sawzallの論文が公開されると、数年後にはそれに近いPigやHiveが登場しました。2006年にBigTableの論文が公開されると、2008年にはHBaseが登場しています。
昨年、グーグルはとてもエキサイティングな論文を発表しまた。そこに書かれたSpannerは、いままでのBigDataの世界にはなかったもの、オンラインSQLクエリ、ジョイン、トランザクションなどの機能を実現しています。この論文には26人の著者がいて、5年を費やしています。
しかし私は、こうした機能もHadoopのエコシステムに加わるだろうと確信しています。
いまHadoopになにが起きているのかを見てみましょう。最近、ClouderaはImpalaを新しいオープンソースコンポーネントとしてアナウンスしました。ImpalaはDremel/F1にインスパイアされたものです。
Impalaは、オンラインでインタラクティブなSQLクエリを実現します。新しいクラスのアプリケーションをHadoopエコシステムに提供するでしょう。
Hadoopはもうニッチなプラットフォームではなく、ビッグデータのための汎用プラットフォームであるといえます。Impalaは、大いなる将来に向けた次の一歩なのです。
Hadoopは安心して導入できるプラットフォームであり、将来はさらに多くのことが実現されるでしょう。
Hadoopエコシステムは世界中のみなさんのコラボレーションによって成り立っています。日本でももっと多くのユーザーが増え、エコシステムに参加してくれることを期待しています。