PhotoShareを一週間運営して学んだこと・感じたこと
いろいろな国の人が参加しているからこそのPhotoShare

Amazon S3、何も日曜に落ちなくてもいいのに!

Amazon

 「不適切な画像」の投稿などのユーザーレベルでの運用上の問題はいくつか出たものの、サーバー自体はリリース後一週間の間なんの問題もなく稼働していたPhotoShare。今日は天気のよい日曜日なので、家でのんびりしようとPhotoShareで遊んでいると、朝の9時(シアトル時間)を過ぎたあたりからどうも動作がおかしくなる。サービスそのものは稼働しているようだが、画像の読み込みに失敗しているようだ。

 あわてて増井君に連絡をして調べてもらうと、ユーザーから投稿してもらった写真をしまってあるAmazonのS3サーバーが落ちているという。Amazonのウェブサービスのステータスページを見ると、どうやらS3は全滅らしい。

 幸いなことに、ユーザーがPhotoShareにアップした画像は、一度EC2側のアプリケーション・サーバーにキャッシュし、そこから非同期でS3に移すというアーキテクチャになっているため、S3が落ちてから投稿された新しい画像にはアクセスできるので、「最新の画像」のコーナーに何も見えなくなる、ということはない。

 それでも、ユーザーアイコンは表示できなくなるし、「お気に入り」や「人気の写真」などが軒並み全滅なので、既存ユーザーが離れてしまうかもしれないし、新規ユーザーは写真の投稿すらしてくれなくなる可能性もある。リリース後わずか一週間のPhotoShareとしては一大事だ。

 とは言っても問題はAmazon側にあるため、こちらで出来ることはあまりない。仕方がないので、S3へのwrite-throughの部分を一時的にオフにして、とりあえず今日投稿される画像だけは確実にキャッシュした上でS3の復旧を待つことに。

 管理人の私は、ユーザーに対するステータスを15分ごとに報告するぐらいしかできることはない(この報告そのものも画像で行うところがPhotoShareの特徴)。

 「アルファ・ユーザーたちからの写真の投稿がなかったらどうしよう」という気持ちではらはらしながら午前中を過ごしたのだが、正午過ぎにファンの数で1・2位を争う{smash}とMagdalenaからの投稿があり、少し安心する。

 4時半を過ぎたあたりから徐々にS3が復活し始め、それと同時に他のアルファ・ユーザーたちも投稿を開始し、なんとか最悪の事態は避けられた感じではある。

 しかし、Amazonを信頼してPhotoShareをホスティングしてもらっているのに、7時間半もS3をダウンさせてしまうとは困ったものだ。まあ、この手の問題は自分たちでサーバーを管理しても起こりうる話とは言え、こんな風に「自分では何も出来ない状況」に陥る可能性があるのが、クラウドコンピューティングを使う時のリスクであることを再認識したしだいである。

 それにしても、日曜の朝からこれは勘弁して欲しい。ああ、疲れた--;

Comments

同じく散々な日曜日

日曜日だから街中でも大概はフリーパーキングだろうという思い込みから、駐車スポットをろくに確認しなかったせいで、何を買うでもなく車に戻ったら60英ポンドの罰金チケットをゲットしました(>x<;

こんな出来事もPhotoShareにアップしたいところですが、ロンドンではiPhone3Gが売り切れ状態で、いつ入荷するのか分かりません。

所有コストは日本やアメリカと似たような感じかも知れませんが、
イギリスはO2というキャリアがiPhoneの独占展開をしていて、
月額プランは↓のような感じです。(いずれもデータ通信は無制限で18ヶ月契約)

月額     £030 £035 £045 £075
本体8G   £099 £099 Free Free
本体16G  £159 £159 £059 Free
無料通話   75m 600m 1200m 3000m
無料テキスト 125 500 500 500

ぶらりん

つぎはAPPLがS3、EC2対抗のCloud Computing環境提供とかですかね。キャリアはパススルーなインフラに近づきますね。

algotrader

なんでS3が落ちているのにRecent Photosが参照できるのかと思って、増井さんにtwitter経由で、「障害中はS3じゃなくてサーバローカルに写真を保存しているの?」と聞いたら、「いやS3を使っている」との返事で???でした。「非同期でS3に移すというアーキテクチャ」、なるほど、そういうことだったのですか。S3が死んでもEC2だけで部分的に稼働、かつ、S3の負荷状況に依存しない。しっかりした作りですね。

今回の障害から私もいろんなことを学びました。EC2もダウンすることがあるので、そこのところ、どうしたものかと、考えさせられた次第です。

objectx

Amazon S3 の障害の顛末記が出ていました。

http://status.aws.amazon.com/s3-20080720.html

内部状態に対しての整合性確認の為の仕掛けがなかった為、状態異常が伝搬して、システム全体を落とさざるを得なくなってしまった…ということの様です。

S3 の運用履歴を考えるとレアケースなのでしょうけども、起きる可能性があるものは、いつか必ず起きちゃうものなんだなーと思いました。

Verify your Comment

Previewing your Comment

This is only a preview. Your comment has not yet been posted.

Working...
Your comment could not be posted. Error type:
Your comment has been posted. Post another comment

The letters and numbers you entered did not match the image. Please try again.

As a final step before posting your comment, enter the letters and numbers you see in the image below. This prevents automated programs from posting comments.

Having trouble reading this image? View an alternate.

Working...

Post a comment

Your Information

(Name is required. Email address will not be displayed with the comment.)