その分析、Hadoopなら速く安くできます
ビジネスデータを分析するビジネスインテリジェンス(BI)分野の新たなプラットフォームとして注目されているHadoop。Hadoopでは、どのようなデータ分析が可能なのでしょうか?
現在、Hadoopビジネスの牽引役であるClouderaのJeff Hammerbracher氏が、Hadoopでデータ分析が可能なビジネス上の課題を示した「10 Common Hadoop-able problems」(Hadoop化可能な10の一般的課題)と題したプレゼンテーションを公開しています。
Hadoopにとって得意な処理とは、複雑で複数のデータソースからなる大量のデータの分析であり、それをバッチ処理の並列実行によって実現することです。
従来は、データがあまりに複雑だったり膨大だっために、計算時間やコストなどの理由で実現が難しかった処理でも、Hadoopによる低コスト化、計算時間の短縮、高い柔軟性などによって実現可能になっています。
Hadoop化できる10の処理とは?
プレゼンテーションの中で「Clouderaはこれまで数千の顧客との対話の中で、数百のHadoopを実装」してきているとして、ここで挙げられた10の課題もそうした経験から得られたものといえます。
その10の課題とは次のようなものでした。
- 真のリスクのモデル化
- 顧客離反分析
- レコメンデーションエンジン
- ターゲティング広告
- POSデータ分析
- ネットワークデータの分析による障害予測
- 脅威分析
- 取引監視
- サーチ品質
- データ“サンドボックス”
それぞれを詳しく見ていくことにしましょう。
1. 金融業などでのリスクのモデル化
クレジットカードなど大量の分散したデータを統合し、センチメント分析、グラフ作成、パターン認識などによる構造化と分析を行う。
2. 電話会社などでの顧客離反分析
顧客のモデルを迅速にテストし組み立てて分析する。
3. eコマースなどでのレコメンデーションエンジン
大規模データベースに対して並列実行を実現。多数のユーザーの情報から協調フィルタリングを行う。
4. ターゲティング広告
並列処理により、データ処理時間を日次から時次と短縮でき、データが増大してもサーバ増加だけで対応できる。
5. POSデータ分析
Hadoopをバッチ処理のフレームワークとして利用し、販売内容のパターン分析や需要予測などができる。
6. 電力会社などでの障害予測
より複雑なデータマイニングを行うことで、変動に対するネットワークの反応についての理解を深め、過去の離散的なアノマリー(異常事態)にどのような関連があるのか、ないのか、といった分析を行う。
7. アンチウィルスソフト会社などでの脅威分析
大規模データに対する並列処理。脅威のような異常事態に対するパターン認識。
8. 取引監視
大規模データに対する並列処理の実行で、異常な取引や有害な振る舞いを検知する。
9. サーチ品質
構造化データと関連した分析的な検索の試みや、異なるカテゴリごとのユーザーの検索パターンの認識。
10. データ“サンドボックス”
データの大洪水に対して、Hadoopはとにかくすべてをデータベースに集めることができて、分析可能にする。
以下にプレゼンテーションを埋め込んでおきます。