YARNの登場によりHadoopは複数の並列分散処理エンジンを併用できる環境へ。Hadoop Conference Japan 2014

2014年7月14日

Hadoopに関する国内最大のイベント、「Hadoop Conference Japan 2014」が7月8日に都内で開催されました。

今回のイベントのとりまとめ役でもある日本Hadoopユーザー会濱野賢一朗氏は、基調講演の1つとしてHadoopがこれからどう進化しようとしているのか、「Hadoopを取り巻く環境」と題して現状をまとめています。講演内容のダイジェストを紹介します。

Hadoopがきっかけで並列分散システムが普及した

日本Hadoopユーザー会濱野賢一朗氏。

今回の参加登録者数は1296名。アンケートによると約65％がはじめて参加される方で、これはかなり驚きました。このイベントの参加人数が大きく増えたわけではありませんが、裾野が広がっているなと、喜ばしく思います。

Hadoopの概況を振り返ってみたいと思います。Hadoopは大きく見ればたぶん、はじめて並列分散システムが普通に使われるようになった、多くの人が使うようになったきっかけだったと思います。

Hadoopのどこがよかったのか、その1つはたぶん、データ読み込みのスループットを最大化するシンプルなアーキテクチャを考えたところだったと思います。

ある程度大きなボリュームのデータを、とくに全件を見なければならないときにそのデータをいかに読んでくるか。ディスクやサーバを並べて処理することで、1台のスループット掛ける台数分のスループットが出るというスケーラビリティを備えている。そういうシステムをミドルウェアとして届けてくれた。

もう1つは、並列分散処理には難しいことがいっぱいあります。途中で処理が失敗したらどうするか、大きいジョブをどうやってタスクに分割し、結果をまとめるのか。

Hadoopのモデルは非常にシンプルで、MapReduceに従って処理を書けば、並列分散処理で自動的に実行される。故障が起きても自動的にミドルウェアが対応するし、大きな処理を細かく分割することも、処理結果をまとめることもすべてフレームワーク、ミドルウェアがやってくれる。

そういうシンプルだけど非常に力強いフレームワークだったことが、これまでのHadoopを支えてきたものだったと考えています。

これからのHadoopがリードする世界とは

いま、Hadoopのバージョンや機能がどうなっているのか、全体感を皆さんは把握されているでしょうか。ちょっとまとめたのですが、こんな感じです。

前回のカンファレンスでもHadoopを取り巻く状況は難解だと言っていたのですが、さらに複雑化していましてバージョンの系統が結構いっぱいある。

みなさんがたぶんいちばん多く使っているのが、0.20系と言われているところ。そのあと0.21系、0.22系、0.23系に続いて、2.x系の「branch-2」と呼ばれている流れがあります。このようにさまざまなバージョンが出ています。

いま、多くのディストリビューションはバージョン2.3や2.4を中心に実装されようとしていて、これからみなさんが使うものの多くはそれになると思います。

このバージョン2.3、2.4に向けてセキュリティを高めるもの、ファイルシステムの機能を向上させるものなど、いろんな機能がどんどん開発されています。

なかでもいちばん大きな動きは、たぶんみなさんピンとくると思いますが。これです。

大きな変化であるYARNが、だんだんHadoopの真ん中に座ってきている、そういう状況にあります。これまでMapReduceだけを動かすフレームワークとしてのHadoopが、MapReduce以外のアルゴリズムも動かしていこうと、そういう流れてなってきています。

今回、このイベントではこの点を重視してプログラムを組んでいます。

YARNの登場は何を意味しているかというと、これまでMapReduceを使っていていくつか課題に感じるところもあったかと思います。もちろんMapReduceにはよさもあって、安定的に手堅く動いてくれるのですが、1台のコンピュータに大きなメモリが乗って、ノード間の高速な通信もリーズナブルになってきたいま、MapReduce以外の仕組みも動かせる、そういう状況になってきています。