高可用性 (HA) 是經常與雲HTTP://www.aliyun.com/zixun/aggregation/13748.html">基礎架構解決方案一起出現的一個詞彙,主要是指業務的連續性和最短的停機時間。 具體而言,任何雲基礎架構中的 HA 應當具有以下目標:
減少計畫內停機 防止計畫外停機 快速從宕機中恢復 持續的可用性
支撐雲基礎架構的是現代的虛擬機器管理程式,它提供了實現 HA 的大部分功能和特性。 本文將簡要介紹 IBM SmartCloud Enterprise+ 如何處理計畫內和計畫外的伺服器宕機,如何從宕機事件中恢復,以及如何確保持續的伺服器可用性。 然後,本文將描述 IBM SmartCloud Enterprise+ 中虛擬機器 (VM) 的 HA 實現,這些虛擬機器運行在 IBM System x 和 System p 平臺上的 VMware 和 AIX (LPAR) 邏輯分區之上。
減少計畫內停機
計畫內宕機通常是為了進行軟體維護或發佈、更新或進行預定的設備維修。 大多數雲供應商都安排了一些計畫內宕機,但是由於公司的運營基於高正常執行時間,所以計畫內宕機需要保持在一個最低的水準。
IBM SmartCloud Enterprise+ 提供了一種自動化方法提供 VM 補丁,並對 OS 進行安全和非安全的更新。 它會按照預先定義的週期自動部署更新(由客戶決定在該週期內對哪些 VM 安裝補丁),不需要任何人工干預。 這種完全自動化的補丁方式極大地減少了計畫內宕機的次數,使 VM 能夠長時間可用,從而確保了業務的持續性。
防止計畫外停機
引起雲環境中計畫外停機的原因有很多種。 主要原因是虛擬機器管理程式基礎架構故障、OS 故障和網路故障。
IBM SmartCloud Enterprise+ 可以在最短的停機時間內處理大多數常見的故障。 正如本文後面將介紹到,System x 上的監視代理和 System p 上的本機 daemon 可以檢測 OS 故障;而 System x 上的 VMware 心跳時間間隔和 System p 上的一些本地 daemon 可以檢測網路故障。
快速恢復宕機
對於計畫外停機引起的宕機,恢復速度取決於故障的性質。 宕機可能是主機平臺故障或存儲故障引起的,也可能是 OS 故障或網路故障引起的。 如果雲供應商沒有進行恰當的規劃,那麼由主機平臺故障或存儲故障引起的宕機將會導致嚴重的資料和運行時丟失。
IBM SmartCloud Enterprise+ 中的容錯移轉機制能夠使系統從主機平臺和存儲故障中快速恢復。 故障主機平臺上的所有工作負載都會分配到其他主機平臺,並且停機時間很短。 存儲故障由鏡像後的資料存儲處理。 VM 中的所有資料都將在兩個數據存儲中複製;如果一個資料庫出現故障,那麼 VM 可以啟動並運行另一個複製的資料存儲。
持續的可用性
減少計畫內和計畫外停機,並從宕機中快速恢復,這些都有助於實現持續的可用性,伺服器(在平臺即服務雲中)正是靠這一點才能在大部分時間保持活躍狀態,並且只需要非常短的停機。 持續可用性可以通過以下方式實現:
在底層虛擬機器管理程式中適當地配置 HA 特性 使用作業系統提供的特性實現某些故障檢測 監視服務可以監視任何 OS 故障 應用程式監視有助於實現應用程式高可用性
IBM SmartCloud Enterprise+ 使用了大多數由虛擬機器管理程式提供的 HA 可用性特性,如主機平臺上的容錯移轉機制、重啟優先順序、心跳間隔、OS 監視和故障檢測,以及死機檢測。