IBM、「Spark as a Service」を発表。Apache Sparkへのコミットで3500人の研究者やエンジニアを投入
米IBMはオープンソースの大規模分散処理基盤「Apache Spark」への本格的なコミットメントを数日前に発表し、3500人の研究者やエンジニアを投入すると宣言しました。
同社が合わせて発表したのが、Apache Sparkをクラウド上でサービスとして提供する「Spark as a Service」です。現在はまだサインナップしてもログインできず、最新情報のメールが届くようになっています。

Apache Sparkは、これまでHadoopが切り開いてきた大規模分散処理プラットフォームをさらに技術的に推し進めたものと言えます。
Hadoopは大量のデータをバッチ処理する非常に高い能力を備えていましたが、Apache Sparkではインメモリ処理などによってさらに高速化し、MapReduceよりも高度な処理を実行できるDAG実行エンジンを搭載。
JavaやScala、Python、Rなどでアプリケーションを記述でき、Spark SQL、ストリーミング処理、機械学習などさまざまな応用が可能です。
Apache Sparkはもともと、カリフォルニア大学バークレー校(UCB)で研究開発されたソフトウェアが発展したもので、現在はそのUDB発の米Databricksが開発の中核を担っています。
米IBMはDatabricksとの提携も発表しており、今後Apache Sparkを企業におけるデータ分析やコマース分野などで活用していこうと計画しています。
あわせて読みたい
主要ブラウザで実行可能なバイナリ形式「WebAssembly」の開発がスタート。Chrome、WebKit、Firefox、Microsoft Edge、LLVM、Unityらがサポートを相次いで表明
≪前の記事
リアルタイムなデータ分析をする分散OLAP「Pinot」をLinkedInがオープンソースで公開