ストリームデータをリアルタイム処理するプラットフォーム「Amazon Kinesis」を発表。1時間あたり5ドルでリアルタイムなツイートデータを分析可能。AWS re:Invent 2013
Amazon Web Servicesが主催するイベント「AWS re:Invent 2013」、基調講演の最後に発表されたのは、リアルタイム処理を行うプラットフォームとなる「Amazon Kinesis」でした。
Kinesisは、大量に発生するリアルタムデータを漏らさず永続化し、そこから必要なデータをアプリケーションに流すフィルタとして動作するようです。実際のデータ処理は、Kinesisからデータを受け取ったアプリケーションが行います。
2日目の基調講演で披露されたKinesisの説明をまとめました。
Amazon Kinesisを発表
Amazon.com CTO Werner Vogels氏。
データを正確にリアルタイムに処理していくというのは、私たちにとって大きな挑戦だ。ビッグデータを分析し、昨日何が起きたのかではなく、いま何が起きているのかを知ることの方が明らかに重要だからだ。
いま何が話題になっていて、お客様にいまどのように対応できるのか。いま何をレコメンドできるのか。そのためにデータをリアルタイムで処理しなければならない。
大量のデータを確実に集め、分析する。Hadoopはそうした分析に非常に優れているが、リアルタイム処理には向いていない。一方で、リアルタイム処理のための分散メッセージングフレームワークもあるが、大量のデータを高い信頼性で受け付けるには不足だ。
私たちは、大規模なストリーミングデータ処理を誰でもできるようにしようと思う。そこで、まったく新しいAWSのサービスを発表する。「Amazon Kinesis」だ。
どんなスケールのデータでもリアルタイムに処理する。
詳しく見てみよう。
まず、送られてくる大量のリアルタイムデータに対して「Kinesis Stream」を作成する。これは複数のアベイラビリティゾーンで構成される信頼性の高いストレージだ。
これがストリームデータをリアルタイムで確実に受け止める。このKinesis Streamをスケールアウトすることでより大容量でハイスピードのデータにも対応できる。
Kinesis Streamにはさまざまな形式のデータが送り込まれてくるが、Kinesis Applicationには、Kinesis Streamから必要なデータタイプだけを送ることができる。
そして他のストレージやStormのようなリアルタイム処理に人気の処理系などと統合し、アプリケーションを作ることができる。
Kinesisはどんなスケールで、どんなスピードでデータが送り込まれてきても、正確にすべてをリアルタイムに補足し、Stormのような処理系に送り込むことができる。
実際のAmazon Kinesisデモを見ていただこう。
KinesisとDynamoDB、Redshift、RDSを連係
デモとして、TwitterからのストリームデータをKinesisを使って処理してみよう。
KinesisはTwitterからのツイートデータを1つ残らず受け取り、複数のデータセンターで即座にパーシスタンス(永続的)なデータとする。そしてそれをリアルタイム処理アプリケーションへと提供するのだ。
このデータをKinesisからDynamoDBのアプリケーションに送り込んでリアルタイム分析しよう。DynamoDBのカウント機能を使って、人気のキーワードをリアルタイムで簡単にリストアップできる。
宇宙関係の人気キーワードの中から、私の好きな“mars”というキーワードを選んでみよう。
marsがなぜ人気のキーワードになっているのか、関連をさぐる。今度はKinesisアプリとしてRedshiftを使ってみよう。
Kinesisの強力なストレージ機能とチェックポイントによって、過去2日間のデータをKinesisからRedshiftに送り込む。
Redshiftの分析能力によってデータを分析すると……marsに関連していたのは“bruno”、つまり歌手のbruno marsということのようだ(笑)
では、Bruno Marsのツイートは地理的にどこから来ているのか? 今度はKinesisにAmazon RDSのPostgreSQLを接続し、位置分析をしてみよう。
Bruno Marsのファンは全米に散らばっているが、特に西海岸に多いようだ。
このようにKinesisにさまざまなアプリケ―ションを接続して、リアルタイムデータの分析を行うことができる。
ここでお見せしたリアルタイム分析アプリケーションは、私(デモ担当のAWSテクニカルアドバイザー Khawaja Shams氏)ともう1人で、わずか1週間で作り上げた。しかも本番環境での費用は1時間あたりわずか5ドルだ。
ぜひこのソフトウェアで何ができるのか、考えてみていただきたい。
AWS re:Invent 2013
- Amazonクラウド、セキュリティを確保するためのAPIロギング「AWS CloudTrail」、デスクトップ仮想化「Amazon WorkSpaces」、モバイル向けストリーミング「Amazon AppStream」を相次いで発表。re:Invent 2013
- [速報]Amazonクラウド、PostgreSQLをDBaaSで提供。Amazon RDS for PostgreSQLをリリース。AWS re:Invent 2013
- [速報]Amazonクラウド、データベースを地理分散する「Amazon RDS Cross-Region Read Replicas」「Redshift Snapshot Copy」発表。ディザスタリカバリを容易に
- [速報]Amazonクラウド、“野獣のような”ランダムI/O性能を備えた「I2インスタンス」と、最高性能となる「C3インスタンス」発表。AWS re:Invent 2013
- ストリームデータをリアルタイム処理するプラットフォーム「Amazon Kinesis」を発表。1時間あたり5ドルでリアルタイムなツイートデータを分析可能。AWS re:Invent 2013
- 直近の6カ月で2倍以上に成長したモバイルBaaSのParse。レイテンシの問題をAWSのストレージ機能で解決。AWS re:Invent 2013
あわせて読みたい
直近の6カ月で2倍以上に成長したモバイルBaaSのParse。レイテンシの問題をAWSのストレージ機能で解決。AWS re:Invent 2013
≪前の記事
[速報]Amazonクラウド、“野獣のような”ランダムI/O性能を備えた「I2インスタンス」と、最高性能となる「C3インスタンス」発表。AWS re:Invent 2013