リアルタイムなデータ分析をする分散OLAP「Pinot」をLinkedInがオープンソースで公開
LinkedInは、同社が開発したリアルタイムデータ分析を実現する分散OLAPデータストア「Pinot」をオープンソースで公開したことを明らかにしました。
LinkedInはビジネスに特化したソーシャルメディアサービス。
同社はこのサービスで発生する大量のデータを分析するプラットフォームとして、すでに2年以上Pinotを運用してきており、日々数十億件のデータを投入し、数千億件ものデータを保存。毎日1億クエリを実行し、10ミリ秒程度のレイテンシでリアルタイム分析しているとのこと。
例えば、LinedInのサービスである「Who's Viewed Your Profile」(あなたのプロフィールを誰が見たか」や、A/BテストフレームワークのXLNTもPinotで構築されていると説明されています。
スケールアウト型でカラム型データストア
Pinotはスケールアウト型のアーキテクチャでフォールトトレラント。カラム型データベースに複数の圧縮手法を内蔵し、インデックス機能はソート型インデックス、ビットマップインデックス、転置インデックスなどプラガブル。HadoopからバッチやKafkaなどを通じてほぼリアルタイムにデータを取得可能で、SQLライクな問い合わせ言語によって検索を行います。
LinkedInではPinotの新機能としてB+Treeとカラム型ストレージのハイブリッド型インデックスの開発に取り組んでおり、これによってデータキューブのような追加ストレージ容量を要求されることなく高スループットでクエリに対応できるようになるとのことです。
あわせて読みたい
IBM、「Spark as a Service」を発表。Apache Sparkへのコミットで3500人の研究者やエンジニアを投入
≪前の記事
Google App EngineのPHPサポートが正式版に。スケーラブルなPHPの実行環境を実現、セキュリティパッチも自動適用