負載平衡(Load Balance)是分布式系統架構設計中必須考慮的因素之一。
它通常是指,將請求/資料【均勻】分攤到多個操作單元上執行,負載平衡的關鍵在於【均勻】。
這裡的均勻,可不是我們想象的10 ÷ 2 = 5 ,這就算均勻啦。不是的。
常見互連網分布式架構如上,分為用戶端層、反向 Proxynginx層、網站層、服務層、資料層。
常見的負載平衡方案
常見互連網分布式架構如上,分為用戶端層、反向 Proxynginx層、網站層、服務層、資料層。可以看到,每一個下遊都有多個上遊調用,只需要做到,每一個上遊都均勻訪問每一個下遊,就能實現“將請求/資料【均勻】分攤到多個操作單元上執行”。
【用戶端層->反向 Proxy層】的負載平衡
【用戶端層】到【反向 Proxy層】的負載平衡,是通過“DNS輪詢”實現的:DNS-server對於一個網域名稱配置了多個解析ip,每次DNS解析請求來訪問DNS-server,會輪詢返回這些ip,保證每個ip的解析機率是相同的。這些ip就是nginx的外網ip,以做到每台nginx的請求分配也是均衡的。
【反向 Proxy層->網站層】的負載平衡
【反向 Proxy層】到【網站層】的負載平衡,是通過“nginx”實現的。通過修改nginx.conf,可以實現多種負載平衡策略:
1)請求輪詢:和DNS輪詢類似,請求依次路由到各個web-server
2)最少連線路由:哪個web-server的串連少,路由到哪個web-server
3)ip雜湊:按照訪問使用者的ip雜湊值來路由web-server,只要使用者的ip分布是均勻的,請求理論上也是均勻的,ip雜湊均衡方法可以做到,同一個使用者的請求固定落到同一台web-server上,此策略適合具狀態服務,例如session(58沈劍備忘:可以這麼做,但強烈不建議這麼做,網站層無狀態是分布式架構設計的基本原則之一,session最好放到資料層儲存)
4)…
【網站層->服務層】的負載平衡
【網站層】到【服務層】的負載平衡,是通過“服務串連池”實現的。
上遊串連池會建立與下遊服務多個串連,每次請求會“隨機”選取串連來訪問下遊服務。
上一篇文章《RPC-client實現細節》中有詳細的負載平衡、容錯移轉、逾時處理的細節描述,歡迎點擊link查閱,此處不再展開。
【資料層】的負載平衡
在資料量很大的情況下,由於資料層(db,cache)涉及資料的水平切分,所以資料層的負載平衡更為複雜一些,它分為“資料的均衡”,與“請求的均衡”。
資料的均衡是指:水平切分後的每個服務(db,cache),資料量是差不多的。
請求的均衡是指:水平切分後的每個服務(db,cache),請求量是差不多的。
業內常見的水平切分方式有這麼幾種:
一、按照range水平切分
每一個資料服務,儲存一定範圍的資料,上圖為例:
user0服務,儲存uid範圍1-1kw
user1服務,儲存uid範圍1kw-2kw
這個方案的好處是:
(1)規則簡單,service只需判斷一下uid範圍就能路由到對應的儲存服務
(2)資料均衡性較好
(3)比較容易擴充,可以隨時加一個uid[2kw,3kw]的資料服務
不足是:
(1)請求的負載不一定均衡,一般來說,新註冊的使用者會比老使用者更活躍,大range的服務要求壓力會更大
二、按照id雜湊水平切分
每一個資料服務,儲存某個key值hash後的部分資料,上圖為例:
user0服務,儲存偶數uid資料
user1服務,儲存奇數uid資料
這個方案的好處是:
(1)規則簡單,service只需對uid進行hash能路由到對應的儲存服務
(2)資料均衡性較好
(3)請求均勻性較好
不足是:
(1)不容易擴充,擴充一個資料服務,hash方法改變時候,可能需要進行資料移轉
總結
負載平衡(Load Balance)是分布式系統架構設計中必須考慮的因素之一,它通常是指,將請求/資料【均勻】分攤到多個操作單元上執行,負載平衡的關鍵在於【均勻】。
(1)【用戶端層】到【反向 Proxy層】的負載平衡,是通過“DNS輪詢”實現的
(2)【反向 Proxy層】到【網站層】的負載平衡,是通過“nginx”實現的
(3)【網站層】到【服務層】的負載平衡,是通過“服務串連池”實現的
(4)【資料層】的負載平衡,要考慮“資料的均衡”與“請求的均衡”兩個點,常見的方式有“按照範圍水平切分”與“hash水平切分”