關於雲計算可用性的定性與定量研究(5)

來源:互聯網
上載者:User
關鍵字 nbsp; 宕機 原因 HTTP 導致

本文作者:陳懷臨, 中雲網技術顧問 彎曲評論創辦人 北極光創投投資顧問

4 案例研究--亞馬遜AWS

4.2 Amazon AWS服務宕機調查 (2006-2009)

Amazon AWS自2006年3月14開放S3檔存儲服務和2006年8月25日的EC2服務, 2008年8月的EBS服務以來, 經歷過許多服務崩潰下線. 其中包括EC2, S3和EBS等. 其影響面涉及到租用其服務的許多重要的互聯網公司.

AWS在2008年2月16日, AWS的S3發生嚴重的服務宕機並導致許多AWS的使用者的服務中斷. Amazon的AWS團隊進行了深刻的反思,並在4月8日, 開始提供AWS Service Health Dashboard, 每天跟蹤發佈各種服務的可靠性.

本節試圖對AWS上線的重大宕機事件做一個整理清單,並做相應的討論.

1 Apri 1, 2006

Amazon在開放其S3存儲服務不到一個月, 在2006年4月1日,S3發生宕機事件.

事故原因:S3

事故恢復:6個小時

事故解釋: AWS團隊做S3存儲的負載均衡的管理調配.結果導致內部網路負載崩潰,從而使得S3子系統服務宕機.

相關URL: HTTPs://forums.aws.amazon.com/thread.jspa?threadID=10185

2. Sept 29 . 2007

Amazon的EC2發生宕機, 有些客戶丟失了資料. EC2 API管理功能被短暫的停止使用.

事故原因: EC2

事故恢復: 4個小時

事故解釋:

相關URL: HTTPs://forums.aws.amazon.com/thread.jspa?threadID=17211&start=0&tstart=0

Amazon的AWS團隊的解釋是AWS的一些管理軟體錯誤的設置導致了一些客戶的虛擬機器被誤殺.當時為了確保整個AWS服務的安全,AWS團隊迅速暫時停止了EC2的管理API功能.

3. Feb 15, 2008

08年2月15日, 是Amazon官方對外承認和解釋的第一次重大事故.也從根本的角度影響了產業界對公有雲可靠性的認識和警惕. 並直接導致了Amazon決定加強服務可用性的監管和透明化.

事故原因: S3

事故恢復: 3個小時

事故解釋:

S3服務子系統的認證(Authentication)服務無法承受突然的大面積的服務請求, 從而導致S3系統癱瘓. AWS的官方解釋可參閱:

HTTP://www.zdnet.com/blog/btl/amazon-explains-its-s3-outage/8010

在這次重大宕機之後, AWS團隊對業界承諾要作出」Service Health Dashboard」, 從而可以透明的使得使用者瞭解AWS各種服務狀況.

4. June 5, 2008

08年6月5日, Amazon在東部佛吉尼亞的資料中心找到雷電擊.導致該區域的一些EC2服務宕機.

事故原因: 雷電

事故恢復: N/A

事故解釋:

雷電導致東部佛吉尼亞的資料中心失去電力.導致EC2宕機.

相關URL: HTTP://www.datacenterknowledge.com/archives/2008/06/05/brief-outage-for-amazon-web-services/

5.  June 6, 2008

08年6月6日, 基於Amazon本身的網上零售業務突然宕機. 主要是美國和英國的業務.但AWS本身沒有出現異常.

事故原因: Amazon沒有對這次事故作出任何官方解釋. 只是在非正式場合解釋了」Amazon的網路系統非常複雜. 出了點小事情是很偶然和正常的...」.

事故恢復: 3個小時

事故解釋:

由於Amazon沒有對事故作出正式的解釋,業界的猜測是Amazon的負載均衡業務,例如DNS服務出現了問題. 另外一種說法是Amazon遭到了木馬的惡意DDoS攻擊. 證據是, 在Amazon主網站宕機的同時, Amazon擁有的IMDB網站(HTTP://www.imdb.com)被DDoS通過流量和層7放大攻擊. 其攻擊流量大概是3Mbits/sec. 下圖是當天Amazon美國和英國網站的宕機情況.

6.  July 20, 2008

08年的7月20日, S3再次發生重大宕機事故. 許多重要的客戶受到影響,例如Twitter.Twitter所有的圖像基本上都是存放在Amazon的S3系統裡.

事故原因: S3

事故恢復: 8個小時

事故解釋: S3伺服器之間控制資訊流不收斂,從而導致S3伺服器無法處理任何使用者的服務請求. 同時Amazon也承認EC2的服務也受到了影響.有些客戶的虛擬機器無法運行. 另外, Simple Queue Service (SQS)的服務也受到了衝擊和中斷.

AWS的官方解釋為:  HTTP://status.aws.amazon.com/s3-20080720.html

7. June 10, 2009

09年的6月10日, AWS的EC2發生重大宕機事故.  其原因是資料中心遭到雷電擊,失去電力.

事故原因: EC2

事故恢復: 8個小時

事故解釋:

自然氣候, 雷電使得資料中心失去電力.

相關URL: HTTP://www.datacenterknowledge.com/archives/2009/06/11/lightning-strike-triggers-amazon-ec2-outage/

8  July 19, 2009

09年的7月19日, AWS的EC2發生性能和宕機事故.

事故原因: EC2

事故恢復: 2個小時

事故解釋:  N/A

相關URL:  HTTP://www.datacenterknowledge.com/archives/2009/07/19/outage-for-amazon-web-services/

9. Oct 5, 2009

09年的10月5日,  Bitbucket公司(一個線上開源專案服務公司)在AWS上的業務宕機19個小時.

事故原因: EC2, EBS

事故恢復: 19個小時

事故解釋:

Bitbucket在AWS上的服務被駭客用流量攻擊的方法打癱服務. 最開始使用的是UDP Flooding.然後轉換為TCP的Flooding. 服務停頓了19個小時. AWS的運維團隊在處理過程中表現的缺乏經驗.

相關URL: HTTP://www.networkworld.com/community/node/45891

10. Dec  10, 2009

09年的12月10日, AWS的EC2發生宕機事故.  其原因是資料中心遭到雷電擊,失去電力. 地點發生在東部北佛吉尼亞的資料中心

事故原因: EC2

事故恢復: 45分鐘

事故解釋:

自然氣候, 雷電使得資料中心失去電力.

相關URL:  HTTP://www.datacenterknowledge.com/archives/2009/12/10/power-outage-for-amazon-data-center/

(責任編輯:呂光)

相關文章

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.