Amazon RDSやAuroraのスナップショットをParquet形式でS3へ保存可能に。スナップショットに対する分析処理も
Amazon Web Services(AWS)は、データベースサービスとして提供しているAmazon RDSやAmazon Auroraのスナップショットを、Amazon S3にApache Parquetフォーマットで保存する機能が追加されたことを発表しました。
Parquetフォーマットは、もともとHadoop上で高速な分析を可能にする「Parquet」で用いられていたデータフォーマットです。
カラム型データベースではデータを列方向に格納することでデータの連続的な読み出し性能が高く、高速な分析が可能です(ただしトランザクション処理は遅いか、できないことが一般的です)。しかも列方向のデータは基本的にすべて同じ型であり、似たような値が並んでいる可能性も高いため、高いデータ圧縮率も期待できます。
Parquetフォーマットも、こうしたカラム型データベースの備えるデータの特徴を備えており、現在では多くのカラム型データベースのデータフォーマットとして用いられています。
AWSのサービスとしてAmazon S3上のデータに対してクエリを実行できるAmazon Athenaや複雑な分析型クエリまで実行できるAmazon Redshift Spectrumでも、このParquetフォーマットをサポートしています。
そのため、今回発表された新機能を用いてAmazon RDSやAmazon AuroraのスナップショットをAmazon S3にParquetフォーマットで保存すると、その保存したデータに対してAmazon AthenaやAmazon Redshift Spectrumでクエリを実行することができることになります。
スナップショットに対するクエリであるため、Amazon RDSやAmazon Auroraのトランザクション処理性能にはまったく影響を与えずに集計や分析が行えるため、手軽なデータ分析処理の手段として活用できるのではないでしょうか。
あわせて読みたい
Googleはなぜノーコード開発ツールのAppSheetを買収し、1年半前に正式版になったばかりのApp Makerを終了させるのか?
≪前の記事
サーバとストレージを分離したハイパーコンバージドインフラの新分野「Disaggregated HCI」、HPEが「Nimble Storage dHCI」発表