本文作者:陳懷臨, 中雲網技術顧問 彎曲評論創辦人 北極光創投投資顧問
4 案例研究--亞馬遜AWS
4.2 Amazon AWS服務宕機調查 (2006-2009)
Amazon AWS自2006年3月14開放S3檔存儲服務和2006年8月25日的EC2服務, 2008年8月的EBS服務以來, 經歷過許多服務崩潰下線. 其中包括EC2, S3和EBS等. 其影響面涉及到租用其服務的許多重要的互聯網公司.
AWS在2008年2月16日, AWS的S3發生嚴重的服務宕機並導致許多AWS的使用者的服務中斷. Amazon的AWS團隊進行了深刻的反思,並在4月8日, 開始提供AWS Service Health Dashboard, 每天跟蹤發佈各種服務的可靠性.
本節試圖對AWS上線的重大宕機事件做一個整理清單,並做相應的討論.
1 Apri 1, 2006
Amazon在開放其S3存儲服務不到一個月, 在2006年4月1日,S3發生宕機事件.
事故原因:S3
事故恢復:6個小時
事故解釋: AWS團隊做S3存儲的負載均衡的管理調配.結果導致內部網路負載崩潰,從而使得S3子系統服務宕機.
相關URL: HTTPs://forums.aws.amazon.com/thread.jspa?threadID=10185
2. Sept 29 . 2007
Amazon的EC2發生宕機, 有些客戶丟失了資料. EC2 API管理功能被短暫的停止使用.
事故原因: EC2
事故恢復: 4個小時
事故解釋:
相關URL: HTTPs://forums.aws.amazon.com/thread.jspa?threadID=17211&start=0&tstart=0
Amazon的AWS團隊的解釋是AWS的一些管理軟體錯誤的設置導致了一些客戶的虛擬機器被誤殺.當時為了確保整個AWS服務的安全,AWS團隊迅速暫時停止了EC2的管理API功能.
3. Feb 15, 2008
08年2月15日, 是Amazon官方對外承認和解釋的第一次重大事故.也從根本的角度影響了產業界對公有雲可靠性的認識和警惕. 並直接導致了Amazon決定加強服務可用性的監管和透明化.
事故原因: S3
事故恢復: 3個小時
事故解釋:
S3服務子系統的認證(Authentication)服務無法承受突然的大面積的服務請求, 從而導致S3系統癱瘓. AWS的官方解釋可參閱:
HTTP://www.zdnet.com/blog/btl/amazon-explains-its-s3-outage/8010
在這次重大宕機之後, AWS團隊對業界承諾要作出」Service Health Dashboard」, 從而可以透明的使得使用者瞭解AWS各種服務狀況.
4. June 5, 2008
08年6月5日, Amazon在東部佛吉尼亞的資料中心找到雷電擊.導致該區域的一些EC2服務宕機.
事故原因: 雷電
事故恢復: N/A
事故解釋:
雷電導致東部佛吉尼亞的資料中心失去電力.導致EC2宕機.
相關URL: HTTP://www.datacenterknowledge.com/archives/2008/06/05/brief-outage-for-amazon-web-services/
5. June 6, 2008
08年6月6日, 基於Amazon本身的網上零售業務突然宕機. 主要是美國和英國的業務.但AWS本身沒有出現異常.
事故原因: Amazon沒有對這次事故作出任何官方解釋. 只是在非正式場合解釋了」Amazon的網路系統非常複雜. 出了點小事情是很偶然和正常的...」.
事故恢復: 3個小時
事故解釋:
由於Amazon沒有對事故作出正式的解釋,業界的猜測是Amazon的負載均衡業務,例如DNS服務出現了問題. 另外一種說法是Amazon遭到了木馬的惡意DDoS攻擊. 證據是, 在Amazon主網站宕機的同時, Amazon擁有的IMDB網站(HTTP://www.imdb.com)被DDoS通過流量和層7放大攻擊. 其攻擊流量大概是3Mbits/sec. 下圖是當天Amazon美國和英國網站的宕機情況.
6. July 20, 2008
08年的7月20日, S3再次發生重大宕機事故. 許多重要的客戶受到影響,例如Twitter.Twitter所有的圖像基本上都是存放在Amazon的S3系統裡.
事故原因: S3
事故恢復: 8個小時
事故解釋: S3伺服器之間控制資訊流不收斂,從而導致S3伺服器無法處理任何使用者的服務請求. 同時Amazon也承認EC2的服務也受到了影響.有些客戶的虛擬機器無法運行. 另外, Simple Queue Service (SQS)的服務也受到了衝擊和中斷.
AWS的官方解釋為: HTTP://status.aws.amazon.com/s3-20080720.html
7. June 10, 2009
09年的6月10日, AWS的EC2發生重大宕機事故. 其原因是資料中心遭到雷電擊,失去電力.
事故原因: EC2
事故恢復: 8個小時
事故解釋:
自然氣候, 雷電使得資料中心失去電力.
相關URL: HTTP://www.datacenterknowledge.com/archives/2009/06/11/lightning-strike-triggers-amazon-ec2-outage/
8 July 19, 2009
09年的7月19日, AWS的EC2發生性能和宕機事故.
事故原因: EC2
事故恢復: 2個小時
事故解釋: N/A
相關URL: HTTP://www.datacenterknowledge.com/archives/2009/07/19/outage-for-amazon-web-services/
9. Oct 5, 2009
09年的10月5日, Bitbucket公司(一個線上開源專案服務公司)在AWS上的業務宕機19個小時.
事故原因: EC2, EBS
事故恢復: 19個小時
事故解釋:
Bitbucket在AWS上的服務被駭客用流量攻擊的方法打癱服務. 最開始使用的是UDP Flooding.然後轉換為TCP的Flooding. 服務停頓了19個小時. AWS的運維團隊在處理過程中表現的缺乏經驗.
相關URL: HTTP://www.networkworld.com/community/node/45891
10. Dec 10, 2009
09年的12月10日, AWS的EC2發生宕機事故. 其原因是資料中心遭到雷電擊,失去電力. 地點發生在東部北佛吉尼亞的資料中心
事故原因: EC2
事故恢復: 45分鐘
事故解釋:
自然氣候, 雷電使得資料中心失去電力.
相關URL: HTTP://www.datacenterknowledge.com/archives/2009/12/10/power-outage-for-amazon-data-center/
(責任編輯:呂光)