ストーンブレイカー氏が新たに立ち上げた「Tamr」は、ばらばらに存在する企業内外のデータを機械学習で自動的に整理統合
データベースの大御所として知られるマイケル・ストーンブレイカー氏。IngresやPostgresといったリレーショナルデータベースの先駆けとなる製品を開発、InformixのCTOを務め、またカラム型データベースのVerticaを創業、最近ではVoltDBを創業するなど、データベースの先端技術を商用化し続けてきました。
そのストーンブレイカー氏が共同創業者として立ち上げた企業が「Tamr」(テイマーと発音するようです)です。同社は5月19日、Google Venturesなどから1600万ドル(約16億円)の投資を受けるのと同時に、同社製品(社名と同じTamr)を発表しました。
高度なデータウェアハウスをほぼ自動的に作ってくれる
Tamrとは、これまでストーンブレイカー氏が関わってきたようなリレーショナルデータベースやNoSQLデータベースとはまた違う分野の製品となっています。プレスリリースでは、次のように説明されています。
Tamr’s scalable platform for data curation lets businesses connect and enrich all their data, including internal data sources and external public data sources, as well as feeds from the Internet of Things.
Tamrのデータキュレーション向けスケーラブルプラットフォームは、データをビジネスにつなげ、より活用できるようにします。そこには社内のデータソースや社外の公開されているデータソース、そしてInternet of Thingも含まれます。
仕組みを図にしたものをTamrのWebサイトから引用しましょう。社内あるExcelシートなども含むさまざまなデータ、データベースをTamrは関連付け、整理、統合し、分析しやすくしてくれる、というもの。それを実現するために機械学習などのアルゴリズムを用い、さらに不明な点は人間にシンプルな質問として投げかけてくれます。
機械学習によってTamrは使うほどに賢くなってくれるとのこと。つまり、データ分析に活用できる高度なデータウェアハウスを半自動で作ってくれるソフトウェアといえそうです。
Tamrは「野生動物の調教師」を意味する英単語「Tamer」のeを省略したものに相当します。あちこちに点在し、しかも膨れ上がっていくデータを手なずけるためのソフトウェアという意味に重ねているのではないでしょうか。
データキュレーションの自動化へ
Tamrのコンセプトを、ストーンブレイカー氏は同社のブログにポストした記事「Three Generations of Data Integration Systems」(データ統合システムの3つの世代)で解説しています。
ストーンブレイカー氏いわく、データをETLのようなバッチを中心に統合したのが第一世代のデータウェアハウス、そして第二世代のデータウェアハウスではよりデータを活用するためにデータクレンジングの機能が含まれるようになり、そこからETLはデータキュレーションツールへと拡張されることになる、と説明します。
データクレンジングとは、例えば同じ商品なのに納入元が違うために別々の商品番号がついている、スペルミスや表記の揺れによって1つの企業や人名が重複して登録されている、必要な項目が埋まっていないまま登録されている、といった状態を正していくことです。
ストーンブレイカー氏はここに2つの課題があると指摘します。1つはこのデータキュレーションはデータが大規模になるほど手間がかかるのでスケールが難しいこと、そしてもう1つは、データキュレーションはプログラマには解決できないことです。
この課題を解決するために、専門家のクラウドソーシングによるデータキュレーション機能が必要となり(実際にこうした機能は、例えばInformaticaのような製品にはすでに何年も前から搭載されています)、それを自動化するところまで推し進めようとしているのがTamrのような第三世代の製品だとしています。
データの規模や種類が増えていくにつれて、管理する人間の手間は当然ながら増えていきます。ストーンブレイカー氏はそうした課題に対する新しいアプローチをTamrで行おうとしているようです。
あわせて読みたい
[PR]サーバ1000台規模の運用監視をオープンソース活用で運用コスト6分の1に。「MIRACLE ZBX」アプライアンスがコスト増大の課題を解決
≪前の記事
SAPとマイクロソフトがクラウドで協業強化。SAP ERP、Sybase(現SAP ASE)、SAP HANAなどを含むSAPの主要ソフトウェアを6月末までにAzureで正式サポートへ