標籤:組成 不同的 開源 ip地址 避免 瓶頸 haproxy serve 空間
負載平衡叢集是 load balance 叢集的簡寫,翻譯成中文就是負載平衡叢集。常用的負載平衡開源軟體有nginx、lvs、haproxy,商業的硬體負載平衡裝置F5、Netscale。這裡主要是學習Linux下 LVS 並對其進行了詳細的總結記錄。
一、負載平衡LVS基本介紹
LB叢集的架構和原理很簡單,就是當使用者的請求過來時,會直接分發到Director Server上,然後它把使用者的請求根據設定好的調度演算法,智能均衡地分發到後端真正伺服器(real server)上。為了避免不同機器上使用者請求得到的資料不一樣,需要用到了共用儲存,這樣保證所有使用者請求的資料是一樣的。
LVS是 Linux Virtual Server 的簡稱,也就是Linux虛擬伺服器。這是一個由章文嵩博士發起的一個開源項目,它的官方網站是 http://www.linuxvirtualserver.org 現在 LVS 已經是 Linux 核心標準的一部分。使用 LVS 可以達到的技術目標是:通過 LVS 達到的負載平衡技術和 Linux 作業系統實現一個高效能高可用的 Linux 伺服器叢集,它具有良好的可靠性、可擴充性和可操作性。從而以低廉的成本實現最優的效能。LVS 是一個實現負載平衡叢集的開源軟體項目,LVS架構從邏輯上可分為調度層、Server叢集層和共用儲存。
二、LVS的基本工作原理
1. 當使用者向負載平衡調度器(Director Server)發起請求,調度器將請求發往至核心空間
2. PREROUTING鏈首先會接收到使用者請求,判斷目標IP確定是本機IP,將資料包發往INPUT鏈
3. IPVS是工作在INPUT鏈上的,當使用者請求到達INPUT時,IPVS會將使用者請求和自己已定義好的叢集服務進行比對,如果使用者請求的就是定義的叢集服務,那麼此時IPVS會強行修改資料包裡的目標IP地址及連接埠,並將新的資料包發往POSTROUTING鏈
4. POSTROUTING連結收資料包後發現目標IP地址剛好是自己的後端伺服器,那麼此時通過選路,將資料包最終發送給後端的伺服器
三、LVS的組成
LVS 由2部分程式組成,包括 ipvs 和 ipvsadm。
1. ipvs(ip virtual server):一段代碼工作在核心空間,叫ipvs,是真正生效實現調度的代碼。
2. ipvsadm:另外一段是工作在使用者空間,叫ipvsadm,負責為ipvs核心架構編寫規則,定義誰是叢集服務,而誰是後端真實的伺服器(Real Server)
四、LVS相關術語
1. DS:Director Server。指的是前端負載平衡器節點。
2. RS:Real Server。後端真實的工作伺服器。
3. VIP:向外部直接面向使用者請求,作為使用者請求的目標的IP地址。
4. DIP:Director Server IP,主要用於和內部主機通訊的IP地址。
5. RIP:Real Server IP,後端伺服器的IP地址。
6. CIP:Client IP,訪問用戶端的IP地址。
下邊是三種工作模式的原理和特點總結。
五、LVS/NAT原理和特點
1. 重點理解NAT方式的實現原理和資料包的改變。
(a). 當使用者請求到達Director Server,此時請求的資料報文會先到核心空間的PREROUTING鏈。 此時報文的源IP為CIP,目標IP為VIP
(b). PREROUTING檢查探索資料包的目標IP是本機,將資料包送至INPUT鏈
(c). IPVS比對資料包請求的服務是否為叢集服務,若是,修改資料包的目標IP地址為後端伺服器IP,然後將資料包發至POSTROUTING鏈。 此時報文的源IP為CIP,目標IP為RIP
(d). POSTROUTING鏈通過選路,將資料包發送給Real Server
(e). Real Server比對發現目標為自己的IP,開始構建響應報文發回給Director Server。 此時報文的源IP為RIP,目標IP為CIP
(f). Director Server在響應用戶端前,此時會將源IP地址修改為自己的VIP地址,然後響應給用戶端。 此時報文的源IP為VIP,目標IP為CIP
2. LVS-NAT模型的特性
RS應該使用私人地址,RS的網關必須指向DIP
DIP和RIP必須在同一個網段內
請求和響應報文都需要經過Director Server,高負載情境中,Director Server易成為效能瓶頸
支援連接埠映射
RS可以使用任意作業系統
缺陷:對Director Server壓力會比較大,請求和響應都需經過director server
六、LVS/DR原理和特點
1. 重將請求報文的目標MAC地址設定為挑選出的RS的MAC地址
(a) 當使用者請求到達Director Server,此時請求的資料報文會先到核心空間的PREROUTING鏈。 此時報文的源IP為CIP,目標IP為VIP
(b) PREROUTING檢查探索資料包的目標IP是本機,將資料包送至INPUT鏈
(c) IPVS比對資料包請求的服務是否為叢集服務,若是,將請求報文中的源MAC地址修改為DIP的MAC地址,將目標MAC地址修改RIP的MAC地址,然後將資料包發至POSTROUTING鏈。 此時的源IP和目的IP均未修改,僅修改了源MAC地址為DIP的MAC地址,目標MAC地址為RIP的MAC地址
(d) 由於DS和RS在同一個網路中,所以是通過二層來傳輸。POSTROUTING鏈檢查目標MAC地址為RIP的MAC地址,那麼此時資料包將會發至Real Server。
(e) RS發現請求報文的MAC地址是自己的MAC地址,就接收此報文。處理完成之後,將響應報文通過lo介面傳送給eth0網卡然後向外發出。 此時的源IP地址為VIP,目標IP為CIP
(f) 響應報文最終送達至用戶端
2. LVS-DR模型的特性
特點1:保證前端路由將目標地址為VIP報文統統發給Director Server,而不是RS
RS可以使用私人地址;也可以是公網地址,如果使用公網地址,此時可以通過互連網對RIP進行直接存取
RS跟Director Server必須在同一個物理網路中
所有的請求報文經由Director Server,但響應報文必須不能進過Director Server
不支援地址轉換,也不支援連接埠映射
RS可以是大多數常見的作業系統
RS的網關絕不允許指向DIP(因為我們不允許他經過director)
RS上的lo介面配置VIP的IP地址
缺陷:RS和DS必須在同一機房中
3. 特點1的解決方案:
在前端路由器做靜態地址路由綁定,將對於VIP的地址僅路由到Director Server
存在問題:使用者未必有路由操作許可權,因為有可能是電訊廠商提供的,所以這個方法未必實用
arptables:在arp的層次上實現在ARP解析時做防火牆規則,過濾RS響應ARP請求。這是由iptables提供的
修改RS上核心參數(arp_ignore和arp_announce)將RS上的VIP配置在lo介面的別名上,並限制其不能響應對VIP位址解析請求。
七、LVS/Tun原理和特點
在原有的IP報文外再次封裝多一層IP首部,內部IP首部(源地址為CIP,目標IIP為VIP),外層IP首部(源地址為DIP,目標IP為RIP)
(a) 當使用者請求到達Director Server,此時請求的資料報文會先到核心空間的PREROUTING鏈。 此時報文的源IP為CIP,目標IP為VIP 。
(b) PREROUTING檢查探索資料包的目標IP是本機,將資料包送至INPUT鏈
(c) IPVS比對資料包請求的服務是否為叢集服務,若是,在請求報文的首部再次封裝一層IP報文,封裝源IP為為DIP,目標IP為RIP。然後發至POSTROUTING鏈。 此時源IP為DIP,目標IP為RIP
(d) POSTROUTING鏈根據最新封裝的IP報文,將資料包發至RS(因為在外層封裝多了一層IP首部,所以可以理解為此時通過隧道傳輸)。 此時源IP為DIP,目標IP為RIP
(e) RS接收到報文後發現是自己的IP地址,就將報文接收下來,拆除掉最外層的IP後,會發現裡面還有一層IP首部,而且目標是自己的lo介面VIP,那麼此時RS開始處理此請求,處理完成之後,通過lo介面送給eth0網卡,然後向外傳遞。 此時的源IP地址為VIP,目標IP為CIP
(f) 響應報文最終送達至用戶端
LVS-Tun模型特性
RIP、VIP、DIP全是公網地址
RS的網關不會也不可能指向DIP
所有的請求報文經由Director Server,但響應報文必須不能進過Director Server
不支援連接埠映射
RS的系統必須支援隧道
其實企業中最常用的是 DR 實現方式,而 NAT 配置上比較簡單和方便,後邊實踐中會總結 DR 和 NAT 具體使用配置過程。
八、LVS的八種調度演算法
1. 輪叫調度 rr
這種演算法是最簡單的,就是按依次迴圈的方式將請求調度到不同的伺服器上,該演算法最大的特點就是簡單。輪詢演算法假設所有的伺服器處理請求的能力都是一樣的,調度器會將所有的請求平均分配給每個真實伺服器,不管後端 RS 配置和處理能力,非常均衡地分發下去。
2. 加權輪叫 wrr
這種演算法比 rr 的演算法多了一個權重的概念,可以給 RS 設定權重,權重越高,那麼分發的請求數越多,權重的取值範圍 0 – 100。主要是對rr演算法的一種最佳化和補充, LVS 會考慮每台伺服器的效能,並給每台伺服器添加要給權值,如果伺服器A的權值為1,伺服器B的權值為2,則調度到伺服器B的請求會是伺服器A的2倍。權值越高的伺服器,處理的請求越多。
3. 最少連結 lc
這個演算法會根據後端 RS 的串連數來決定把請求分發給誰,比如 RS1 串連數比 RS2 串連數少,那麼請求就優先發給 RS1
4. 加權最少連結 wlc
這個演算法比 lc 多了一個權重的概念。
5. 基於局部性的最少串連調度演算法 lblc
這個演算法是請求資料包的目標 IP 位址的一種調度演算法,該演算法先根據請求的目標 IP 位址尋找最近的該目標 IP 位址所有使用的伺服器,如果這台伺服器依然可用,並且有能力處理該請求,調度器會盡量選擇相同的伺服器,否則會繼續選擇其它可行的伺服器
6. 複雜的基於局部性最少的串連演算法 lblcr
記錄的不是要給目標 IP 與一台伺服器之間的串連記錄,它會維護一個目標 IP 到一組伺服器之間的映射關係,防止單點伺服器負載過高。
7. 目標地址散列調度演算法 dh
該演算法是根據目標 IP 位址通過散列函數將目標 IP 與伺服器建立映射關係,出現伺服器不可用或負載過高的情況下,發往該目標 IP 的請求會固定發給該伺服器。
8. 源地址散列調度演算法 sh
與目標地址散列調度演算法類似,但它是根據源地址散列演算法進行靜態分配固定的伺服器資源。
轉載自:http://www.thinkphp.cn/topic/51067.html
Centos使用LVS+keepalive 搭建叢集原理詳解