Amazon S3、何も日曜に落ちなくてもいいのに!
2008.07.20
「不適切な画像」の投稿などのユーザーレベルでの運用上の問題はいくつか出たものの、サーバー自体はリリース後一週間の間なんの問題もなく稼働していたPhotoShare。今日は天気のよい日曜日なので、家でのんびりしようとPhotoShareで遊んでいると、朝の9時(シアトル時間)を過ぎたあたりからどうも動作がおかしくなる。サービスそのものは稼働しているようだが、画像の読み込みに失敗しているようだ。
あわてて増井君に連絡をして調べてもらうと、ユーザーから投稿してもらった写真をしまってあるAmazonのS3サーバーが落ちているという。Amazonのウェブサービスのステータスページを見ると、どうやらS3は全滅らしい。
幸いなことに、ユーザーがPhotoShareにアップした画像は、一度EC2側のアプリケーション・サーバーにキャッシュし、そこから非同期でS3に移すというアーキテクチャになっているため、S3が落ちてから投稿された新しい画像にはアクセスできるので、「最新の画像」のコーナーに何も見えなくなる、ということはない。
それでも、ユーザーアイコンは表示できなくなるし、「お気に入り」や「人気の写真」などが軒並み全滅なので、既存ユーザーが離れてしまうかもしれないし、新規ユーザーは写真の投稿すらしてくれなくなる可能性もある。リリース後わずか一週間のPhotoShareとしては一大事だ。
とは言っても問題はAmazon側にあるため、こちらで出来ることはあまりない。仕方がないので、S3へのwrite-throughの部分を一時的にオフにして、とりあえず今日投稿される画像だけは確実にキャッシュした上でS3の復旧を待つことに。
管理人の私は、ユーザーに対するステータスを15分ごとに報告するぐらいしかできることはない(この報告そのものも画像で行うところがPhotoShareの特徴)。
「アルファ・ユーザーたちからの写真の投稿がなかったらどうしよう」という気持ちではらはらしながら午前中を過ごしたのだが、正午過ぎにファンの数で1・2位を争う{smash}とMagdalenaからの投稿があり、少し安心する。
4時半を過ぎたあたりから徐々にS3が復活し始め、それと同時に他のアルファ・ユーザーたちも投稿を開始し、なんとか最悪の事態は避けられた感じではある。
しかし、Amazonを信頼してPhotoShareをホスティングしてもらっているのに、7時間半もS3をダウンさせてしまうとは困ったものだ。まあ、この手の問題は自分たちでサーバーを管理しても起こりうる話とは言え、こんな風に「自分では何も出来ない状況」に陥る可能性があるのが、クラウドコンピューティングを使う時のリスクであることを再認識したしだいである。
それにしても、日曜の朝からこれは勘弁して欲しい。ああ、疲れた--;
日曜日だから街中でも大概はフリーパーキングだろうという思い込みから、駐車スポットをろくに確認しなかったせいで、何を買うでもなく車に戻ったら60英ポンドの罰金チケットをゲットしました(>x<;
こんな出来事もPhotoShareにアップしたいところですが、ロンドンではiPhone3Gが売り切れ状態で、いつ入荷するのか分かりません。
所有コストは日本やアメリカと似たような感じかも知れませんが、
イギリスはO2というキャリアがiPhoneの独占展開をしていて、
月額プランは↓のような感じです。(いずれもデータ通信は無制限で18ヶ月契約)
月額 £030 £035 £045 £075
本体8G £099 £099 Free Free
本体16G £159 £159 £059 Free
無料通話 75m 600m 1200m 3000m
無料テキスト 125 500 500 500
Posted by: 同じく散々な日曜日 | 2008.07.20 at 17:40
つぎはAPPLがS3、EC2対抗のCloud Computing環境提供とかですかね。キャリアはパススルーなインフラに近づきますね。
Posted by: ぶらりん | 2008.07.21 at 04:39
なんでS3が落ちているのにRecent Photosが参照できるのかと思って、増井さんにtwitter経由で、「障害中はS3じゃなくてサーバローカルに写真を保存しているの?」と聞いたら、「いやS3を使っている」との返事で???でした。「非同期でS3に移すというアーキテクチャ」、なるほど、そういうことだったのですか。S3が死んでもEC2だけで部分的に稼働、かつ、S3の負荷状況に依存しない。しっかりした作りですね。
今回の障害から私もいろんなことを学びました。EC2もダウンすることがあるので、そこのところ、どうしたものかと、考えさせられた次第です。
Posted by: algotrader | 2008.07.21 at 10:38
Amazon S3 の障害の顛末記が出ていました。
http://status.aws.amazon.com/s3-20080720.html
内部状態に対しての整合性確認の為の仕掛けがなかった為、状態異常が伝搬して、システム全体を落とさざるを得なくなってしまった…ということの様です。
S3 の運用履歴を考えるとレアケースなのでしょうけども、起きる可能性があるものは、いつか必ず起きちゃうものなんだなーと思いました。
Posted by: objectx | 2008.07.27 at 00:06