BigQueryやRedshiftへ、ノーコードで多様なデータソースから定期データ転送、分析可能に。自動で差分更新にも対応[PR]
Google CloudのBigQueryやAmazon Redshiftといったクラウド型データウェアハウスの登場により、大量のデータを分析しビジネスに活用することが以前より手軽で低コストに実現できるようになりました。
クラウド型データウェアハウスの利点は、小さな初期投資で最初から大規模な処理能力を利用でき、事実上ほぼ無制限にデータを蓄積可能で、機械学習なども含めたさまざまな分析ツールが活用できること、などが挙げられます。
小さな初期投資で最初から大規模な処理能力が使える
こうしたクラウド型データウェアハウスを活用するには、まず大量のデータを転送し、集約する必要があります。従来のオンプレミスにおけるデータウェアハウスでは、データ転送の前にまずデータの加工や分析しやすいスキーマへの変換を行い、そのあとで転送するという手順が一般的でした。いわゆるETL(Extract、Transform、Load)処理です。
しかしクラウド型データウェアハウスにおけるデータ転送は、従来のデータウェアハウスにおけるそれとは手順が異なってきているようだと指摘するのは、CData Software Japanのゼネラルマネージャ 疋田圭介氏です。
クラウド型データウェアハウスでは、まずデータをクラウドへ転送し、そのあとでクラウドの持つ大規模なデータ処理能力を用いてデータの加工や変換処理をしたほうが効率的で、そうした傾向がお客様の間で高まってきていると疋田氏は説明します。いわばELT(Extract、Load、Transform)処理といえるでしょう。
するとクラウド型データウェアハウスにおける転送ツールは、複雑な加工処理を得意とするよりも、さまざまなクラウドサービスおよびさまざまなデータ型に対応するといった柔軟性が重視されることになります。
そしてまさに、そうしたクラウド型データウェアハウスのためのデータ転送ツールとして同社が提供するのが「CData Sync」です。
CData Syncはオンプレミスもしくはクラウド上で実行できるソフトウェアとしてWindows、Linux、macOSに対応。もちろんAWS、Microsoft Azure、Google Cloudなどのクラウドでも実行可能です。
100以上のデータソースに対応、ノーコードで転送設定
特長の1つ目が、Salesforce、Marketo、NetSuite、Kintoneなどを含むさまざまなクラウドサービスをデータソースとして扱えること。
それに加えてSharePoint、GoogleAnalytics、Office 365、JSON/XMLファイル、OracleやSQL Server、MySQL、PostgreSQL、SAP HANAなど各種RDB、MongoDB、CouchDB、Cassandra、Elasticsearchなど100以上のデータソースに対応しています。
データの転送先としても、前述のようにAmazon Redshift、Google BigQuery、Snowflakeといったクラウド型データウェアハウスだけでなく、Azure SQL Database、MongoDB、Amazon S3などを含む多くのデータストアに対応しています。
CData Syncはあらかじめデータソースや転送先についてデフォルトの設定が用意されているため、Webブラウザで設定画面を開き、データソースと転送先の情報を入力し、タイマーなどを設定するだけで、データの自動転送が実行されます。
タイマーによって、例えば10分毎、3時間毎といった定期的な自動実行が可能。こうしたことがノーコード、つまり接続先パラメータの入力といくつかのマウス操作だけで設定できる簡単さが2つ目の特長といえるでしょう。
差分更新にも対応し、効率的なデータ転送を実現
データ転送の設定時には、データのマッピングなどのカスタマイズも可能ですし、特定のテーブルや特定の条件に合致するデータなど、データソースの一部だけを対象とした転送も可能です。
列名の変更や、あらかじめテーブルのジョインや集計処理をしてからデータ転送することも可能。
例えば、マーケティングオートメーションツールの日付を持たないデータに対して、データウェアハウスへの転送時に日時の列を追加をすることで、あとから簡単にある時点までのマーケティング施策の進捗を抽出することができるようになるでしょう。
差分更新にももちろん対応します。前回の更新時後に作成もしくは更新されたレコードのみを更新することで、転送データ量も転送時間が最小化されます。APIのコール数で課金されるクラウドサービスについても、課金が最小化できるでしょう。
これらの操作は、データソースの種類にかかわらず(たとえJSONやXMLであっても)同じように行え、しかもSQL文でも同じように転送時のテータ加工を記述できるのがCData Syncの優れた3つ目の特徴といえます。
SQLが書けるプログラマにとっても、CData Syncは使いやすく分かりやすいツールとなっているのです。
これは同社がもともと多様なデータソースに対応したドライバの開発を得意とするところからきているもの。ドライバのレベルであらゆるデータソースに対してSQLでの操作を実現している同社独自のテクノロジーが、CData Syncでの統一的かつシンプルなデータ操作を支えています。
顧客の使い方に教えられた
実はCData Syncは登場当初、Salesforceなどクラウドサービスからデータを抽出してオンプレミスやクラウドへデータをバックアップするという使い方をアピールした製品だったと、疋田氏は振り返ります。
しかしCData Syncがバックアップツールよりも、クラウド型データウェアハウスへのバルクデータ転送ツールとして導入、活用するお客様が多くいたことで、この製品の機能を活用できる新たな分野を同社は発見することとなります。
それによってCData Syncは新たに、クラウド型データウェアハウスにおけるデータ転送ツールという、これまでにない新たなジャンルの製品として位置づけられることになったわけです。
関連記事
- Web APIをRDBにモデル化。RESTfulもSOAPもODBC/JDBC経由で簡単にアクセス可能にする、CDataのドライバ群[PR]
- SaaSのAPIエコシステム構築、できるだけ短期間で実現するには?[PR]
- HTMLスクレイピングやファイルでのバッチ連携を不要に、「API管理ツール」でWebへRESTful APIを公開。ドキュメントもSwagger記述も自動生成[PR]
(本記事はCData Software Japan提供のタイアップ記事です)
あわせて読みたい
マイクロソフトのクラウドサービス「Microsoft Teams」がサーバ証明書を更新し忘れ。2時間のあいだユーザーからアクセスできなくなる障害発生
≪前の記事
AWSジャパン、クラウドエンジニア向けのWebマガジン「builders flash」開始。登録者には限定ワークショップなど特典も提供