Twitter、数万台のHadoopクラスタとコールドストレージをGoogle Cloud Platformへ移行すると発表
Twitterは、自社で運営している大規模なHadoopクラスタをGoogle Cloud Platformへ移行すると発表しました。
Twitterは基本的に自社でデータセンターを保有し運用してきました。2017年1月にTwitterのブログに投稿された記事「The Infrastructure Behind Twitter: Scale」によると、Twitterのデータセンターは5つの大陸にあり、合わせて数十万台のサーバが運用されています。
同社が運用しているHadoopクラスタは世界最大級の規模として、以下のように説明されています。
Hadoop: We have multiple clusters storing over 500 PB divided in four groups (real time, processing, data warehouse and cold storage). Our biggest cluster is over 10k nodes. We run 150k applications and launch 130M containers per day.
Hadoopについて:私たちは500PB以上のデータを保存する複数のクラスタを4つのグループに分けています(リアルタイム、プロセッシング、データウェアハウス、そしてコールドストレージ)。最大のクラスタは1万台を超えるノードから構成されており、15万ものアプリケーションを実行し、1日あたり1億3000万ものコンテナを起動しています。
今回の発表によると、Google Cloud Platformへ移行するのは、そのHadoopクラスタ群とコールドストレージです。前述の説明とは異なり300PBのデータと説明されているため、前述の500PBのうちコールドストレージが300PBとなるのかもしれません。
この移行によってHadoopのコンピューととストレージを分離し、より柔軟な構成と運用が可能になるとのこと。
This migration, when complete, will enable faster capacity provisioning; increased flexibility; access to a broader ecosystem of tools and services; improvements to security; and enhanced disaster recovery capabilities. Architecturally, we will also be able to separate compute and storage for this class of Hadoop workloads, which has a number of long-term scaling and operational benefits.
このマイグレーションが完了すると、迅速なキャパシティのプロビジョニング、柔軟性の向上、多様なツールやサービスからなるエコシステムの利用、セキュリティの向上、ディザスタリカバリの拡大といったことが実現されるでしょう。アーキテクチャ的には、この規模においてHadoopワークロードのコンピューととストレージを分離できるため、長期的なスケールと運用のメリットにつながるだろう。
前述の記事、「The Infrastructure Behind Twitter: Scale」によると、ストレージの種類別に見たHadoopの割合は、同社のインフラの40%にも及ぶ大きな割合であることが分かります。
しかし、ハードウェアの内訳で見ると、Hadoopは全体の2割程度であることが分かります。
つまりハードウェアの面からすると最大で2割、データ量では最大4割がGoogle Cloud Platformへ移行されると推測されます。Twitterは何を優先してGoogle Cloud Platformへの移行を判断したのか、ここからその理由が推測できるのではないでしょうか。
あわせて読みたい
Google Cloud、最大メモリ4TB/160vCPUの大型マシンタイプ「n1-ultramem」提供を発表
≪前の記事
モバイルネイティブアプリ開発ツールのFUSE、製品全体を「Fuse Open」としてオープンソースで公開。UXをマークアップで迅速に開発可能