歐洲原子能研究機構(CERN)成立于1954年,是世界最大的粒子物理研究中心。 一直以來,CERN憑藉強大的計算能力,為遍佈48個國家270個研究中心的17000余名科研人員在全球範圍內展開合作、共同破解物質和宇宙的種種奧秘提供著堅實的保障。
為進一步加快研究進展,CERN啟動了當今世界最大的強子對撞機LHC的建設。 LHC位於日內瓦附近瑞士和法國交界地區地下100米深處、周長約27公里的環形隧道內,其物理實驗對粒子物理基本理論的核對總和探索新的突破,起到至關重要的作用。 尤其是對宇宙起源和尋找新粒子Higgs的探索,可能發現超出標準模型的新物理規律,而導致粒子物理學的重大突破,使人類對微觀世界的認識進入一個新的階段。
LHC專案中大多數應用程式是高度專業化的,需要非常好的持續性,這給支撐該專案的電腦集群管理帶來了新的挑戰。 支援LHC專案的新電腦集群由200台伺服器組成,但新集群的整體利用率卻只有10%左右,負責處理LHC資料的研究中心部門主管Helge Meinard博士表示:「在啟動諸如大型強子對撞機(LHC)這樣的專案時, 我們必須保證所有計算能力都得到充分的利用。 」為了提高伺服器利用率,CERN對伺服器進行了虛擬化。 新的虛擬化集群支援HyperV和Xen等多種虛擬機器管理程式,這為實驗團隊帶來了更大的靈活性,可以為自己的應用程式選用最好的平臺,但同時,多種虛擬化技術的使用給整個集群環境增添了管理的複雜性。 CERN決定採用Platform ISF解決方案管理LHC集群工作負載,同時作為管理虛擬環境和實體環境的工具,以實現構建經濟高效、能夠管理任何伺服器上虛擬機器管理程式和作業系統、共用的計算基礎設施的目標。
「我們最終選擇Platform作為合作夥伴,説明我們擴展和最大限度地優化獨一無二的高性能計算(HPC)環境,為我們整個科學研究團隊發掘和探索宇宙的奧秘搭建理想的平臺。 」CERN結構基礎設施(Fabric Infrastructure)小組負責人Tony Cass博士說:「CERN從1997年就開始使用Platform LSF管理工作負載,Platform LSF同樣適用于LHC。 特別是當需要添加雲功能時,與Platform LSF來自同一廠商的Platform ISF看起來再合適不過了。 」
作為一款集中管理異構的虛擬和物理資源的雲基礎架構管理平臺,Platform ISF為運行在其上的各種應用提供了快速部署、動態資源調度和彈性計算的資源管理和調度平臺。 它提供的IaaS功能説明客戶實現自助式按需的計算、網路、存儲資源的申請和使用。 更重要的是,它還能使中介軟體和分散式應用軟體更加方便、快速地遷移至雲平臺並具備提供PaaS(平臺即服務)和SaaS(軟體即服務)的能力,確保中介軟體和分散式應用軟體的提供者更加專注于自身應用邏輯,無需考慮對底層計算、存儲、 網路資源的調度和管理。
Platform ISF為CERN的大批科學家提供了一整套私有雲計算基礎架構,為多個虛擬和物理平臺提供了高效的工作負載應用管理。 Platform ISF將不同平臺組合到單一動態的共用基礎架構當中,在資源較少的情況下顯著地提高了平臺利用率。 此外,廣大科學家還可以選擇自己的應用環境,動態控制專案,確保自身能夠充分發揮私有雲的功效,而所有這一切都是在前所未有的低成本狀態下實現的。
此外,Platform ISF讓CERN對集群環境擁有了更大的控制權,而且通過自動處理虛擬機器管理程式不但實現許多工的自動化管理,簡化了管理工作,還提高了管理效率。 Platform ISF可以管理資源和應用環境,並提供讓使用者能夠根據需要來預留和使用資源的契約介面。
Platform ISF具有的獨立性讓CERN很感興趣,Cass說:「CERN的科研環境高度重視能夠順應新發展形勢的工具,而不是讓我們被舊形勢所束縛,Platform ISF做到了。 」
CERN將Platform ISF部署在一個支援LHC的集群上,而將Platform ISF Adaptive Cluster部署在由 3800台多核伺服器組成、負責進行批次處理工作的HPC集群上,這讓CERN可以通過私有雲計算環境 ,在必要時共用不同集群之間的資源。 Cass說:「Platform ISF Adaptive Cluster可以與現有的Platform LSF網格工作負載管理解決方案結合起來,為我們的使用者和研究中心提供利用共用資料中心資源來管理集群所需的可擴充性和靈活性, 同時符合我們對開放標準的要求。 」
Platform ISF還説明CERN減少了專用的LHC集群伺服器數量並減輕管理負擔。 「過去,在靜態資源環境中,利用Platform LSF可以減少管理日常應用的工作量;而現在,Platform ISF通過將耗時的人工管理轉變為自動化的資源調配和管理,使我們能更有效地管理虛擬機器和物理機組成的混合環境。 」Cass博士進一步解釋說:「通過提高伺服器利用率,如果能從現有的LHC環境中減少150台伺服器(原來是200台伺服器),那麼我們就可以大幅度節省電力和冷卻成本,並且能在不增加硬體預算的前提下, 把伺服器重新部署到批次處理集群中去;如果能利用Platform ISF提供的自動設定伺服器功能滿足實驗團隊提出來的工作負載要求,就將減輕我們的管理負擔。 」Cass預測,使用Platform ISF後,CERN有望大幅減少重新配置批次處理集群以滿足不斷變化的工作負載所需的工作量。