［速報］「Amazon Redshift Spectrum」発表。Amazon S3にデータを保存したまま複雑なクエリを高速で実行可能に。AWS Summit 2017 San Francisco

2017年4月20日

Amazon Web Servicesは、サンフランシスコでイベント「AWS Summit 2017 San Francisco」を開催。データウェアハウスの新サービス「Amazon Redshift Spectrum」を発表しました。

Amazon S3にデータを保存したままデータウェアハウスで分析可能

Amazon.com CTOのWerner Vogels氏。

多くの顧客で、ペタバイトから多い場合にはエクサバイトクラスの生データがAmazon S3に保存されており、これをAmazon Redshiftへ取り込むのは時間やコストの制約で難しいと考えられていると。

そこで「Amazon Redshift Spectrum」が発表されました。

Redshift Spectrumは、複雑なデータウェアハウスのクエリをAmazon S3に保存されているデータへ直接投げられるというもの。

Amazon Redshiftでクエリを組み立ててS3のデータを指定し、実行できます。データ形式はCSVやJSON、ORCなどに対応し、GZipなどで圧縮されたデータにも対応。

性能について。エクサバイトデータに対してジョイン、グループバイ、オーダーバイなどが含まれた複雑なクエリの実行を想定すると、1000ノードのHiveでは5年かかる一方、Redshift Spectrumでは155秒で完了すると説明されました。

「これによってDatalakeをAmazon S3に作ったうえで、複雑なクエリを実行することができるようになるのだ」（Werner Vogels氏）。

すでに何社かはRedshift Spectrumを利用しているとのことです。

.NET開発でExcelを高速生成。クラウド/サーバーアプリ開発を支援。
.NET/.NET Framework開発用Excelファイル高速生成ツール。
動作環境にExcelのインストールは不要。PDF/HTML出力も可能。