Pinterestはいかにスケーラビリティと格闘してきたのか（前編）。QCon Tokyo 2013

2013年5月14日

4月23日に都内で開催されたエンジニア向けのイベント「QCon Tokyo 2013」。急速に人気サイトへと成長したPinterestが、その裏でいかにスケーラビリティと格闘してきたのかをPinterestのエンジニア自身が紹介するセッション「Scaling Pinterest」が行われました。

この記事では、その内容をダイジェストで紹介しましょう。

つねにシステムのどこかが壊れている

Pinterest、Marty Weiner氏。

Pinterestはオンラインのピンボードで、ユーザーが「ボード」を作成して、そこに画像など好きなものをアップロードしてシェアできるというもの。「ピン」ひとつひとつが画像やリンクになっている。

ユーザーやボードをフォローすることもできるし、再ピンしたりイイネしたり、コメントの入力もできる。

発足したのは2010年3月。当時は創業者が2人エンジニアが1人。Rackspaceのホスト上にWebエンジンが1つ、MySQLエンジンが1つ。

最初の1年はステルスモードで、2011年1月にサービスをオープン。Amazon EC2を使ってWebエンジンが4つ、MySQLにリードのスレーブ。MongoDBも使い始めた。エンジニアは2人。

その後の9カ月は悪夢のような状態で、1カ月半ごとにスケールが2倍になっていく。こういうときにはつねにシステムのどこかが壊れており、エンジニアは睡眠をとる時間もないほど対応に追われる。そこへベンダがやってきて、この製品がすべてを解決するといって商品を売り込んでくる。

で、これは読むというより恐怖するスライドだ。データベースだけでMySQL、Cassandra、Membase、Redis、MongoDBと使われていて、3人のエンジニアがとにかく動かし続けるだけで手一杯になった。

そこで私たちが学んだこと、「Lesson Learnd #1」。あらゆるものは壊れるので、とにかくシンプルにすることだ。

2012年1月にシステムの再構築を行った。いまや90のWebエンジンと66のMySQLデータベースとMemcache。エンジニアも増えて、フルタイムの運用担当もいる。ここで行ったことが正しければ、システムはこのままスケーラブルになっているだろう。

2012年5月の時点でエンジニアが25名と、アーキテクチャはそのままで各項目の数字が増えているだけになっている。

なぜAmazon EC2/S3を選んだのか。選んだ理由はたまたまなのだけれど、もういちどシステムをやり直すとしてもAmazonを選ぶだろう。

Amazonは信頼性も高いしサポートも良く、周辺ツールも揃っている。いまでもDNSやMapReduceの運用はまかせているし、新しいインスタンスがわずか数秒で使い始められるため、キャパシティプランニングに時間をかけずに済む。

ただし、例えば以前はSSDが使いたくてもサービスとして提供されていなければ使えないなど、任意の構成が利用できるわけではない。これはいまでもそうだ。

しかし選択肢が限られているから悩まなくて済むというメリットもある。

なぜMySQLを利用しているのか？　非常に成熟したソフトウェアでユーザーも多い。破壊的なデータ損失もほとんどない。ほかのテクノロジーでは、がんばってがんばって突然破滅するのに比べると、レスポンスタイムも負荷に応じてリニアに遅くなっていくため扱いやすい。

疑問があれば検索すれば見つかることも多く、フリーであるのも新興企業にとってありがたい。

また、Memcacheは非常に成熟度が高い。コンフィグレーションを間違えない限り障害はないし使い方も分かりやすくクラッシュもせず、フリーである点も有利だ。