分布式系統介紹(持續更新)

最後更新：2018-12-05 來源：互聯網

上載者：User

創建阿里雲帳戶，並獲得超過 40 款產品的免費試用版；而企業帳戶則可以享有總值 $1200 的免費試用版。立即註冊！

分布式系統介紹

目錄

1 修改記錄...1

2 概要...2

3 分散式運算...3

1 概要

本文主要對大規模分布式系統的發展進行梳理，以加深理解。

2 分散式運算

隨著電腦技術的發展和資訊爆炸時代的來臨，人們對資料計算的需求越來越高，特別是海量資料的科學計算。傳統的單機受到計算速度、容量的限制已經無法滿足需求。在“網路+電腦”的基本思想下，分散式運算應運而生。

2.1.1 分散式運算定義

分布式系統由兩台或兩台以上機器組成的系統，具有物理上分布的實體資源和邏輯資源。這些資源高度自治和相互合作的工作。每台電腦都具有資料存放區功能和資料處理能力。在分散式運算中，資料處理不是由單機完成而是由多台機器協作完成。比如一項工作P，由兩部分組成 p1和p2。我們把p1放在機器A上完成，p2放在機器B上完成，這些就形成一個分散式運算。

2.1.2 主流分布式技術

現在分散式運算問題基本可以採用google的三個技術解決，分別為：GFS，MapReduce，Bigtable，這三個技術被稱為“google三駕馬車”，google只公開了論文而未開原始碼，開源界對此非常有興趣，仿照這三篇論文實現了一系列軟體，如：Hadoop、HBase、HDFS、Cassandra等。

在google這些技術還未出現之前，企業界在設計大規模分布式系統時，採用的架構往往是database+sharding+cache。

該架構解釋如下：前端cache是為了提高響應速度，後端資料庫則用於資料永久儲存，防止資料丟失，而sharding是為了在多台機器間分攤負載。最前端由大塊大塊的cache組成，要保證至少99%（的訪問資料落在cache中，這樣可以保證使用者訪問速度，減少後端資料庫的壓力，此外，為了保證前端cache中資料與後端資料庫中資料一致，需要有一個中介軟體非同步更新（為啥非同步？理由簡單：同步代價太高。非同步有缺定，如何彌補？）資料，這個有些人可能比較清楚，新浪有個開源軟體叫memcachedb（整合了Berkeley
DB和Memcached），正是完成此功能。另外，為了分攤負載壓力和海量資料，會將資料經過分區後存放到不同節點上（稱為“sharding”）。

這種架構優點非常明顯：簡單，在資料量和使用者量較小的時候完全可以勝任。但缺定早晚一天暴露出來，即：擴充性和容錯性太差，維護成本非常高，尤其是資料量和使用者量暴增之後，系統不能通過簡單的增加機器解決問題。

而上述所有問題都可以用google引導的分散式運算策略解決大型的、分布式的、對大量資料的訪問。

參考文獻：http://dongxicheng.org/search-engine/system-designing-in-finging-jobs/

本文章原先以中文撰寫並發佈於 aliyun.com，亦設英文版本，僅作資訊用途。本網站不對文章的準確性，完整性或可靠性或其任何翻譯作出任何明示或暗示的陳述或保證。如對該文章有任何疑慮或投訴，請傳送電郵至 info-contact@alibabacloud.com 並提供相關疑慮或投訴的詳細說明。職員會於 5 個工作天內與您聯絡，一經驗證之後，即會刪除該侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

Get Started for Free

Sales Support

1 on 1 presale consultation

Chat Contact Sales
After-Sales Support

24/7 Technical Support 6 Free Tickets per Quarter Faster Response

Open a Ticket
Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.

Learn More

分布式系統介紹(持續更新)

聯繫我們

A Free Trial That Lets You Build Big!

Sales Support

After-Sales Support