Hadoopがバージョン1.0へ。2.0、3.0の議論も進む
大規模分散処理フレームワークのHadoopの最新安定版「Hadoop 1.0.0」が、昨年12月27日に公開されました。これは、これまで安定版として開発されていた「Hadoop 0.20」ブランチの最新バージョンを1.0.0としたものです。
Hadoopは、前身となるNutchが2002年にDoug Cutting氏によって開発され、(このビデオの10分頃のCutting氏の発言によると)2008年にNutchからHadoopプロジェクトが分離。約4年を経てバージョン1.0へと到達したことになります。
今回バージョン1.0.0となった旧0.20ブランチのほかに、Hadoopには0.22、0.23など複数のブランチで開発が進んでおり、Hadoopに対する新しい機能、例えば従来のMapReduceを完全に書き換えたMapReduce 2などはこれら新しいブランチに対して実装が行われています。
つまり、今回のHadoop 1.0は、最新機能版ではなく、最新安定版がバージョン1.0と名乗っても問題がないほど安定したことをバージョン番号に込めたものだといえるでしょう。
Hadoop 2.0、3.0も登場へ
こうしたHadoop 1.0が登場した経緯とバージョン番号の扱いについて、shiumachi氏のブログ科学と非科学の迷宮にポストされたエントリ「[雑記]hadoopのバージョン表記について」で詳しく解説されています。
このエントリの図がとても分かりやすいので、引用させていただきます。
このエントリおよびそこから参照されているHadoopのメーリングリストの議論によると、今後Hadoop 0.22がHadoop 2.0へ、Hadoop 0.23がHadoop 3.0になるのはどうか、という提案が多くの賛同を得ています。最終的な結論はまだ出ていないようですが、これらのバージョン番号を持つHadoopも今後コミュニティ内の手続きを経て登場することになりそうです。
(追記 2012/1/10:Cloudera社がバージョン番号に関する同社関連情報の日本語訳を公開しています)