Centos使用LVS+keepalive 搭建叢集原理詳解

來源:互聯網
上載者:User

標籤:組成   不同的   開源   ip地址   避免   瓶頸   haproxy   serve   空間   

負載平衡叢集是 load balance 叢集的簡寫,翻譯成中文就是負載平衡叢集。常用的負載平衡開源軟體有nginx、lvs、haproxy,商業的硬體負載平衡裝置F5、Netscale。這裡主要是學習Linux下 LVS 並對其進行了詳細的總結記錄。

一、負載平衡LVS基本介紹
LB叢集的架構和原理很簡單,就是當使用者的請求過來時,會直接分發到Director Server上,然後它把使用者的請求根據設定好的調度演算法,智能均衡地分發到後端真正伺服器(real server)上。為了避免不同機器上使用者請求得到的資料不一樣,需要用到了共用儲存,這樣保證所有使用者請求的資料是一樣的。

LVS是 Linux Virtual Server 的簡稱,也就是Linux虛擬伺服器。這是一個由章文嵩博士發起的一個開源項目,它的官方網站是 http://www.linuxvirtualserver.org 現在 LVS 已經是 Linux 核心標準的一部分。使用 LVS 可以達到的技術目標是:通過 LVS 達到的負載平衡技術和 Linux 作業系統實現一個高效能高可用的 Linux 伺服器叢集,它具有良好的可靠性、可擴充性和可操作性。從而以低廉的成本實現最優的效能。LVS 是一個實現負載平衡叢集的開源軟體項目,LVS架構從邏輯上可分為調度層、Server叢集層和共用儲存。


二、LVS的基本工作原理

1. 當使用者向負載平衡調度器(Director Server)發起請求,調度器將請求發往至核心空間
2. PREROUTING鏈首先會接收到使用者請求,判斷目標IP確定是本機IP,將資料包發往INPUT鏈
3. IPVS是工作在INPUT鏈上的,當使用者請求到達INPUT時,IPVS會將使用者請求和自己已定義好的叢集服務進行比對,如果使用者請求的就是定義的叢集服務,那麼此時IPVS會強行修改資料包裡的目標IP地址及連接埠,並將新的資料包發往POSTROUTING鏈
4. POSTROUTING連結收資料包後發現目標IP地址剛好是自己的後端伺服器,那麼此時通過選路,將資料包最終發送給後端的伺服器


三、LVS的組成
LVS 由2部分程式組成,包括 ipvs 和 ipvsadm。

1. ipvs(ip virtual server):一段代碼工作在核心空間,叫ipvs,是真正生效實現調度的代碼。
2. ipvsadm:另外一段是工作在使用者空間,叫ipvsadm,負責為ipvs核心架構編寫規則,定義誰是叢集服務,而誰是後端真實的伺服器(Real Server)


四、LVS相關術語
1. DS:Director Server。指的是前端負載平衡器節點。
2. RS:Real Server。後端真實的工作伺服器。
3. VIP:向外部直接面向使用者請求,作為使用者請求的目標的IP地址。
4. DIP:Director Server IP,主要用於和內部主機通訊的IP地址。
5. RIP:Real Server IP,後端伺服器的IP地址。
6. CIP:Client IP,訪問用戶端的IP地址。

下邊是三種工作模式的原理和特點總結。


五、LVS/NAT原理和特點
1. 重點理解NAT方式的實現原理和資料包的改變。


(a). 當使用者請求到達Director Server,此時請求的資料報文會先到核心空間的PREROUTING鏈。 此時報文的源IP為CIP,目標IP為VIP 
(b). PREROUTING檢查探索資料包的目標IP是本機,將資料包送至INPUT鏈
(c). IPVS比對資料包請求的服務是否為叢集服務,若是,修改資料包的目標IP地址為後端伺服器IP,然後將資料包發至POSTROUTING鏈。 此時報文的源IP為CIP,目標IP為RIP 
(d). POSTROUTING鏈通過選路,將資料包發送給Real Server
(e). Real Server比對發現目標為自己的IP,開始構建響應報文發回給Director Server。 此時報文的源IP為RIP,目標IP為CIP 
(f). Director Server在響應用戶端前,此時會將源IP地址修改為自己的VIP地址,然後響應給用戶端。 此時報文的源IP為VIP,目標IP為CIP

2. LVS-NAT模型的特性

RS應該使用私人地址,RS的網關必須指向DIP

DIP和RIP必須在同一個網段內

請求和響應報文都需要經過Director Server,高負載情境中,Director Server易成為效能瓶頸

支援連接埠映射

RS可以使用任意作業系統

缺陷:對Director Server壓力會比較大,請求和響應都需經過director server


六、LVS/DR原理和特點
1. 重將請求報文的目標MAC地址設定為挑選出的RS的MAC地址


(a) 當使用者請求到達Director Server,此時請求的資料報文會先到核心空間的PREROUTING鏈。 此時報文的源IP為CIP,目標IP為VIP
(b) PREROUTING檢查探索資料包的目標IP是本機,將資料包送至INPUT鏈
(c) IPVS比對資料包請求的服務是否為叢集服務,若是,將請求報文中的源MAC地址修改為DIP的MAC地址,將目標MAC地址修改RIP的MAC地址,然後將資料包發至POSTROUTING鏈。 此時的源IP和目的IP均未修改,僅修改了源MAC地址為DIP的MAC地址,目標MAC地址為RIP的MAC地址 
(d) 由於DS和RS在同一個網路中,所以是通過二層來傳輸。POSTROUTING鏈檢查目標MAC地址為RIP的MAC地址,那麼此時資料包將會發至Real Server。
(e) RS發現請求報文的MAC地址是自己的MAC地址,就接收此報文。處理完成之後,將響應報文通過lo介面傳送給eth0網卡然後向外發出。 此時的源IP地址為VIP,目標IP為CIP 
(f) 響應報文最終送達至用戶端

2. LVS-DR模型的特性

特點1:保證前端路由將目標地址為VIP報文統統發給Director Server,而不是RS

RS可以使用私人地址;也可以是公網地址,如果使用公網地址,此時可以通過互連網對RIP進行直接存取

RS跟Director Server必須在同一個物理網路中

所有的請求報文經由Director Server,但響應報文必須不能進過Director Server

不支援地址轉換,也不支援連接埠映射

RS可以是大多數常見的作業系統

RS的網關絕不允許指向DIP(因為我們不允許他經過director)

RS上的lo介面配置VIP的IP地址

缺陷:RS和DS必須在同一機房中

3. 特點1的解決方案:

在前端路由器做靜態地址路由綁定,將對於VIP的地址僅路由到Director Server

存在問題:使用者未必有路由操作許可權,因為有可能是電訊廠商提供的,所以這個方法未必實用

arptables:在arp的層次上實現在ARP解析時做防火牆規則,過濾RS響應ARP請求。這是由iptables提供的

修改RS上核心參數(arp_ignore和arp_announce)將RS上的VIP配置在lo介面的別名上,並限制其不能響應對VIP位址解析請求。


七、LVS/Tun原理和特點
在原有的IP報文外再次封裝多一層IP首部,內部IP首部(源地址為CIP,目標IIP為VIP),外層IP首部(源地址為DIP,目標IP為RIP)


(a) 當使用者請求到達Director Server,此時請求的資料報文會先到核心空間的PREROUTING鏈。 此時報文的源IP為CIP,目標IP為VIP 。
(b) PREROUTING檢查探索資料包的目標IP是本機,將資料包送至INPUT鏈
(c) IPVS比對資料包請求的服務是否為叢集服務,若是,在請求報文的首部再次封裝一層IP報文,封裝源IP為為DIP,目標IP為RIP。然後發至POSTROUTING鏈。 此時源IP為DIP,目標IP為RIP 
(d) POSTROUTING鏈根據最新封裝的IP報文,將資料包發至RS(因為在外層封裝多了一層IP首部,所以可以理解為此時通過隧道傳輸)。 此時源IP為DIP,目標IP為RIP
(e) RS接收到報文後發現是自己的IP地址,就將報文接收下來,拆除掉最外層的IP後,會發現裡面還有一層IP首部,而且目標是自己的lo介面VIP,那麼此時RS開始處理此請求,處理完成之後,通過lo介面送給eth0網卡,然後向外傳遞。 此時的源IP地址為VIP,目標IP為CIP
(f) 響應報文最終送達至用戶端

LVS-Tun模型特性

RIP、VIP、DIP全是公網地址

RS的網關不會也不可能指向DIP

所有的請求報文經由Director Server,但響應報文必須不能進過Director Server

不支援連接埠映射

RS的系統必須支援隧道

其實企業中最常用的是 DR 實現方式,而 NAT 配置上比較簡單和方便,後邊實踐中會總結 DR 和 NAT 具體使用配置過程。


八、LVS的八種調度演算法
1. 輪叫調度 rr
這種演算法是最簡單的,就是按依次迴圈的方式將請求調度到不同的伺服器上,該演算法最大的特點就是簡單。輪詢演算法假設所有的伺服器處理請求的能力都是一樣的,調度器會將所有的請求平均分配給每個真實伺服器,不管後端 RS 配置和處理能力,非常均衡地分發下去。

2. 加權輪叫 wrr
這種演算法比 rr 的演算法多了一個權重的概念,可以給 RS 設定權重,權重越高,那麼分發的請求數越多,權重的取值範圍 0 – 100。主要是對rr演算法的一種最佳化和補充, LVS 會考慮每台伺服器的效能,並給每台伺服器添加要給權值,如果伺服器A的權值為1,伺服器B的權值為2,則調度到伺服器B的請求會是伺服器A的2倍。權值越高的伺服器,處理的請求越多。

3. 最少連結 lc
這個演算法會根據後端 RS 的串連數來決定把請求分發給誰,比如 RS1 串連數比 RS2 串連數少,那麼請求就優先發給 RS1 

4. 加權最少連結 wlc
這個演算法比 lc 多了一個權重的概念。

5. 基於局部性的最少串連調度演算法 lblc
這個演算法是請求資料包的目標 IP 位址的一種調度演算法,該演算法先根據請求的目標 IP 位址尋找最近的該目標 IP 位址所有使用的伺服器,如果這台伺服器依然可用,並且有能力處理該請求,調度器會盡量選擇相同的伺服器,否則會繼續選擇其它可行的伺服器

6. 複雜的基於局部性最少的串連演算法 lblcr
記錄的不是要給目標 IP 與一台伺服器之間的串連記錄,它會維護一個目標 IP 到一組伺服器之間的映射關係,防止單點伺服器負載過高。

7. 目標地址散列調度演算法 dh
該演算法是根據目標 IP 位址通過散列函數將目標 IP 與伺服器建立映射關係,出現伺服器不可用或負載過高的情況下,發往該目標 IP 的請求會固定發給該伺服器。

8. 源地址散列調度演算法 sh
與目標地址散列調度演算法類似,但它是根據源地址散列演算法進行靜態分配固定的伺服器資源。

 


轉載自:http://www.thinkphp.cn/topic/51067.html

Centos使用LVS+keepalive 搭建叢集原理詳解

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.