インメモリの高速データ処理基盤「Apache Arrow」がバージョン1.0に到達
The Apache Foundationは、オープンソースで開発している高速なデータ処理基盤「Apache Arrow 1.0.0」のリリースを発表しました。
We just released @ApacheArrow 1.0.0, the first formally "stable columnar format" release with a move to SemVer for the libraries. We have a much improved website, too. Read more about what's newhttps://t.co/j24VdxqFTL
— ApacheArrow (@ApacheArrow) July 27, 2020
Apache Arrowはメモリ上にカラムナフォーマットでデータを保持し、プロセッサのSIMD命令やGPUなどにも対応することなどにより、大量のデータを高速かつ効率的に処理する基盤です。
すでにさまざまなプログラミング言語からApache Arrowを利用するためのライブラリが用意されています。具体的には、C/C++、C#、Go、Java、JavaScript、Python、R、Ruby、Rust、MATLABなどに対応します。
ユースケースとしては、カラムナフォーマットでの高速なデータの読み書きやOLAPのようなデータ分析、PlasmaプロジェクトによるApache Arrow上での高速なメモリ共有オブジェクトストアの利用、Apache SparkやBigQuery、TensorFlow、AWS Athenaなどへのネットワーク経由でのデータ転送などが挙げられています。
バージョン1.0に到達したことで、カラムナフォーマットの安定性が前方互換性、後方互換性ともに保証されることになります。
あわせて読みたい
GitHubが機能強化のロードマップを公開。今年第3四半期にはCodeQLによるコードスキャン機能の統合、第4四半期にはWeb IDEのCodespacesが正式版予定
≪前の記事
この1年で「Desktop-as-a-Service」の市場規模がほぼ2倍に、リモートワークの拡大により。米ガートナーが予測