YARNの登場によりHadoopは複数の並列分散処理エンジンを併用できる環境へ。Hadoop Conference Japan 2014

2014年7月14日

Hadoopに関する国内最大のイベント、「Hadoop Conference Japan 2014」が7月8日に都内で開催されました。

今回のイベントのとりまとめ役でもある日本Hadoopユーザー会 濱野賢一朗氏は、基調講演の1つとしてHadoopがこれからどう進化しようとしているのか、「Hadoopを取り巻く環境」と題して現状をまとめています。講演内容のダイジェストを紹介します。

Hadoopがきっかけで並列分散システムが普及した

日本Hadoopユーザー会 濱野賢一朗氏。

fig

今回の参加登録者数は1296名。アンケートによると約65%がはじめて参加される方で、これはかなり驚きました。このイベントの参加人数が大きく増えたわけではありませんが、裾野が広がっているなと、喜ばしく思います。

fig

Hadoopの概況を振り返ってみたいと思います。Hadoopは大きく見ればたぶん、はじめて並列分散システムが普通に使われるようになった、多くの人が使うようになったきっかけだったと思います。

Hadoopのどこがよかったのか、その1つはたぶん、データ読み込みのスループットを最大化するシンプルなアーキテクチャを考えたところだったと思います。

fig

ある程度大きなボリュームのデータを、とくに全件を見なければならないときにそのデータをいかに読んでくるか。ディスクやサーバを並べて処理することで、1台のスループット掛ける台数分のスループットが出るというスケーラビリティを備えている。そういうシステムをミドルウェアとして届けてくれた。

もう1つは、並列分散処理には難しいことがいっぱいあります。途中で処理が失敗したらどうするか、大きいジョブをどうやってタスクに分割し、結果をまとめるのか。

Hadoopのモデルは非常にシンプルで、MapReduceに従って処理を書けば、並列分散処理で自動的に実行される。故障が起きても自動的にミドルウェアが対応するし、大きな処理を細かく分割することも、処理結果をまとめることもすべてフレームワーク、ミドルウェアがやってくれる。

そういうシンプルだけど非常に力強いフレームワークだったことが、これまでのHadoopを支えてきたものだったと考えています。

これからのHadoopがリードする世界とは

いま、Hadoopのバージョンや機能がどうなっているのか、全体感を皆さんは把握されているでしょうか。ちょっとまとめたのですが、こんな感じです。

fig

前回のカンファレンスでもHadoopを取り巻く状況は難解だと言っていたのですが、さらに複雑化していましてバージョンの系統が結構いっぱいある。

みなさんがたぶんいちばん多く使っているのが、0.20系と言われているところ。そのあと0.21系、0.22系、0.23系に続いて、2.x系の「branch-2」と呼ばれている流れがあります。このようにさまざまなバージョンが出ています。

いま、多くのディストリビューションはバージョン2.3や2.4を中心に実装されようとしていて、これからみなさんが使うものの多くはそれになると思います。

このバージョン2.3、2.4に向けてセキュリティを高めるもの、ファイルシステムの機能を向上させるものなど、いろんな機能がどんどん開発されています。

なかでもいちばん大きな動きは、たぶんみなさんピンとくると思いますが。これです。

fig

大きな変化であるYARNが、だんだんHadoopの真ん中に座ってきている、そういう状況にあります。これまでMapReduceだけを動かすフレームワークとしてのHadoopが、MapReduce以外のアルゴリズムも動かしていこうと、そういう流れてなってきています。

今回、このイベントではこの点を重視してプログラムを組んでいます。

YARNの登場は何を意味しているかというと、これまでMapReduceを使っていていくつか課題に感じるところもあったかと思います。もちろんMapReduceにはよさもあって、安定的に手堅く動いてくれるのですが、1台のコンピュータに大きなメモリが乗って、ノード間の高速な通信もリーズナブルになってきたいま、MapReduce以外の仕組みも動かせる、そういう状況になってきています。

fig

ニュースなどでは「MapReduceの時代は終わった」と書かれることがありますが、MapReduceは手堅くみなさんに使われていくと思います。

Hadoopの世界でMapReduceだけでなく、それ以外のフレームワークやミドルウェアが課題を解決できる可能性を開いていく、というのがこれから見えてくる世界かなと思います。

Hiveの利用が圧倒的に多く、ImpalaやSparkも

今回の参加者のみなさんに、主に今日のセッションで登場するキーワードのソフトウェアをどれくらい使っているのかを聞いてみました。

約半数の方がHiveをお使いで、また結構な数の方々がZookeeper、HBaseをお使いです。

fig

新しく登場したのは、Fluentd、MapReduce以外の並列処理の代表格と言っていいImpalaやSparkといったものも入ってきて、みなさんの利用の変化が見て取れる結果となりました。

公開されているスライド。

Hadoop Conference Japan 2014 ご挨拶・Hadoopを取り巻く環境 from hamaken

あわせて読みたい

機械学習・AI Hadoop MapReduce ビッグデータ




タグクラウド

クラウド
AWS / Azure / Google Cloud
クラウドネイティブ / サーバレス
クラウドのシェア / クラウドの障害

コンテナ型仮想化

プログラミング言語
JavaScript / Java / .NET
WebAssembly / Web標準
開発ツール / テスト・品質

アジャイル開発 / スクラム / DevOps

データベース / 機械学習・AI
RDB / NoSQL

ネットワーク / セキュリティ
HTTP / QUIC

OS / Windows / Linux / 仮想化
サーバ / ストレージ / ハードウェア

ITエンジニアの給与・年収 / 働き方

殿堂入り / おもしろ / 編集後記

全てのタグを見る

Blogger in Chief

photo of jniino

Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。2009年にPublickeyを開始しました。
詳しいプロフィール

Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
Facebookで : Publickeyのページ
RSSリーダーで : Feed

最新記事10本