來源:互聯網
上載者:User
關鍵字
很
很
我們
很
我們
大資料
很
我們
大資料
裡面
很
我們
大資料
裡面
現在
第五屆中國雲計算大會于2013年6月5-7日在北京國家會議中心拉開帷幕。 本次大會以國際視野,洞悉全球雲計算發展趨勢,並從應用出發,探討雲計算與大資料、雲計算與移動互聯網、雲安全及雲計算行業應用等焦點話題。 大會還特別設立了雲計算服務展示區域,交流國際雲計算最新研究成果,展示國內雲計算試點城市發展成就,分享雲計算發展經驗,促進全球雲計算創新合作。
浪潮集團系統軟體總監、雲計算產品部總經理 張東
在第五屆雲計算大會第二天的演講上,浪潮集團系統軟體總監、雲計算產品部總經理張東給我們帶來了名為《大資料時代,挑戰與解決之道》的主題演講,他就大資料處理中遇到的問題做了深刻的剖析,並分享了浪潮的解決之道。
張東指出雖然大資料和雲計算已經經過多年的發展,但是隨著資料規模的增大,傳統資料中心到雲計算資料中心的轉換中仍然存在著很多問題,而資料中心無疑是高性能計算的根本,這樣就無可避免的成為傳統應用到大資料技術轉變的又一門檻。 期間張東就計算模式過度中最重要的一點「安全和可用性」進行了深度剖析,對浪潮在上面的實踐進行了分享。 而後張東還對資料中心模組化及資源調度進行了講解,最後還對實際用例進行了分享。
以下為現場實錄:
首先還是要從雲計算開始說起,因為今天主題還是雲計算大會,今年的主題已經變成了「大資料大寬頻」推動雲計算的應用和創新」。 我們對雲計算發展歷程的理解:雲計算是將資源聚集起來提供服務。 這之前更多的關心是的把資源聚集起來,分散的資源放到一個資料中心裡面,慢慢的想怎麼把應用做起來。 再往後就是如何讓聚集起來的資料發揮更大的作用? 因此現在的雲計算進入了一個新的發展狀態,就是大資料的時代。
何為行業雲及打造
大資料的出現並不比雲計算的概念晚多少,或者說我們現在看到的很多大資料的技術也好,包括它的很多應用的模式也好,並不比雲計算的概念出現的晚。 浪潮在這之前我們就提出一個概念叫行業雲,我們要推動行業雲在中國的發展,推動不同行業的應用在中國的發展。 我們提出行業雲概念的時候,我們就認為資料是在整個行業雲應用中轉化中非常重要的一點。
因為整個資訊技術就是資料處理技術,我們要把資料收集上來,處理成資訊,轉化成知識,最後影響決策。 如何讓資料最終形成服務? 這是雲計算最終的目的。 把資源聚集起來業務放在一起這只是手段而已。
在這前面通過一些資訊化建設的過程,我們聚集了很多資料。 現在如何處理它? 因為資料處理方面遇到了很多新的問題,一些新的挑戰,性能與擴充性的挑戰,多種資料類型融合的挑戰,資料存儲以及處理的性價比。 以前可能大家也做資料分析,做過很多資料採礦,比如要用資料倉儲或者更高端的軟體,成本很高。 以及最後的大規模回應的需求。 這幾天很多專家都講過大資料,相信對於大資料的背景使用者已經聽了很多了。 對於這些挑戰,對於所面臨的問題我們如何去解決它? 如何能夠讓大資料的技術更好的為行業應用服務呢? 下面具體看一下,講一下我們認為現在大資料從一個成熟的技術走到大家應用的過程中所面臨的一些問題。
一、 大資料技術到實踐需要面臨的挑戰
現在我們在推廣的一些技術先不說是不是能夠完全解決所有的問題,至少我們拿來推廣的一些技術並不完全都是原創的。 很多都是已經在很多互聯網公司也好,科研機構、大學、院所裡面已經用了好些年的技術,很多框架已經成熟。 但是這些技術怎麼走到普通行業使用者那裡去? 行業雲是中國未來雲計算發展的非常重要的陣地,解決了行業資訊化的問題就解決了中國資訊化絕大部分的問題。 比如說政府、公安、工商、稅務、民生等等,他們那裡很多資料都需要進行處理。 但是現有的很多大資料的技術應用門檻我們覺得還是有些高,有的使用者可能也嘗試著自己去搭,可能折騰半天也沒折騰出來。 我們拿了現有的一個軟體,現有的一個平臺搭過去,它的性能是不是可以達到最優? 如何把原有的業務切換過來,這都是問題,這就需要專業的公司和機構提供成熟的產品和解決方案。 説明使用者能夠更好的把這些新的技術用上,解決他現在所面臨得很多問題。
其次,我們認為大資料應用的成功離開不開幾個要素:一個是要有好的平臺,一個是要有好的應用,最後必須有資料。 搞IT的人最後做的就是做平臺,我們把資料收集起來推給使用者這是很容易的。 從浪潮角度來說我們有自己的大資料平臺。
使用者實際使用環境最大的挑戰是:
1. 資料的採集。 我們覺得公安局應該是一個強力部門,很多資料整合應該做的很好,但是實際瞭解的時候他們的情況也不容樂觀,他們裡面不同的部門,不同的環節產生的資料仍然是分散的,如何讓資料聚合起來? 業務資料能夠打破原有的壁壘? 這也是大資料應用之前需要幫他做好規劃和整理的工作。
2. 整個資料業務的應用上。 我們反觀很多做資料分析的模型並不難,模型往往非常簡單。 但是這些模型的產生,這些模型不斷的優化需要一個很長的過程。 很多使用者本身可能他自己也不是做數學的,沒有做數學的人幫他幹這個事情。 那麼如何讓這些應用用好? 如何讓這些模型能夠做到最優? 他的資料能發揮更大的作用? 比如說他收集了很多視頻資訊。 比如街上有很多攝象頭,如果能快速找到裡面的異常狀況? 這也是需要專業機構進行支撐的。
3. 從大資料的應用來講,總還是要用到設備用到電腦,用到存儲。 這些設備總要放到資料中心裡,隨著資料規模的增大,我們看專門處理資料的應用包括高性能應用也是在處理資料。 它的規模仍然會越來越大,傳統的資料中心在轉化成新資料中心的時候面臨很多問題。 雲計算的資料中心建設裡面遇到很多問題現在仍然存在。 能耗越來越高,管理越來越複雜。 針對這種大資料處理新的狀況下,對於設備、對於存儲的要求,轉化成對資料中心的要求,也需要一個解決方法。
針對前面講的幾個問題,從技術到使用者應用之間存在著這樣的一個門檻,讓我們的行業使用者怎麼更好的用這些技術? 我們在解決了平臺化的前提下怎麼幫他做資料的規劃? 怎麼做應用的規劃? 我們提出了浪潮大資料解決之道。 這就是我們針對于大資料的應用推出了大資料一體機的解決方案。 它的主要特點:
軟硬體一體創新的資料處理平臺 針對不同的應用系列化的產品 安全方面的考量
現在很多技術並不是非常新的技術,大資料從底層的分散式系統,到中間的演算法,到上面的分散式資料庫和資料採礦,其中很多東西已經做到了相當成熟的地步,可能在很多領域都已經得到了應用。 對於普通使用者來講如何把這個東西集成起來? 這就需要一個一體化的解決方案。 拿到這樣的一個設備到你的環境裡面,放到機房裡裝上應用馬上能夠運轉起來。 這裡面的一體化,浪潮的角度,我們最主要的工作還是硬體層面。 什麼硬體適合大資料處理? 很多人傾向于買一個普通的伺服器或者是存儲伺服器,多配硬碟,多配記憶體,這種是不是適合大資料的處理? 浪潮大資料處理一體機,我們就是在硬體層面也是針對于資料的處理要求和存儲的要求進行了這樣的優化:
首先,第一個環節就是資料存儲。 我們作為一個大資料平臺首先把資料存下來。 如果能夠更好的更多的存這些資料並且更快。 這裡有很多技術,包括全域的負載均衡技術,動態可編碼的多副本,採用多步是的環存,提升存儲速度等等。
其次,是集群。 我們知道大資料處理平臺最終仍然是一個集群,在集群的計算裡面、計算、存儲和網路三個環節緊緊扣在一起,考慮任何一個優化每一個環節都不可或缺。 如何讓結點之間傳輸效率或者資料交換效率更高? 我們提出了大資料互聯交換晶片,如何讓更不同的結點之間資料交換的的效率更高? 我們在之前跟使用者溝通過,當然簡單的做一個文本要求可能不那麼高。 但是現在大資料已經慢慢向傳統的高性能計算領域進行拓展,處理資料的量超過我們現在看到的很多應用。 而對不同結點資料交換要求很高,資料需要在裡面不停的倒騰,不僅基於網路模式也是提升的關鍵。
大資料的概念
第二個講的概念,現在講大資料處理好像是單一的事情。 我們針對于大資料的特點畫了一個圖,抽取出來幾個特性。 一個資料如何分析它的應用的特點? 去看它的資料總量,這是大資料首先的要求。 但是,資料量只代表了資料可能大,可能小,但是並不以為這資料量大就一定很困難。 比如說全中國人民每人都分一塊任務幹的話,每個任務就很小了。 但是要看你做的事情是結構化還是非結構化,大家相互的關聯耦合度有多高。 另一個是更新模式,你是需要銀行業務或者交易業務不斷的做交易處理,在原來資料上更新還是保持原來的資料不變不斷的疊加。 再一個就是回應處理,比如我每天處理一次還是說提交一個請求要求多少豪秒之間就要進行返回。
資料的總量、更新和處理
從這幾個角度來講不同的資料有不同的特點。 我們大概把這個進行了分離,畫了三個圈,不一定非常嚴格。 從我們做產品做平臺的角度來講,如何去推出不同的東西來應對不同的應用需求。 最裡面的一個圈是大家見到的非常奪得,就是最傳統的資料庫的應用,銀行裡的應用、民航的應用,類似協力廠商支付的應用。 它現在仍然是資料庫最主要的部分,現有的很多分散式技術在這兒做的非常少。 最外面這一圈完全是資料雖然規模很大,但是是鬆散的,可以充分的分佈化處理。 原來傳統高性能的資料就可以劃到這裡面來。 還有中間的一層就是文本的搜索資料採礦的很多資料都可以在中間這一層。
對於不同的層次還是有緊耦合的資料,有可能是松耦合,有可能是分佈化,有的不是分佈化的這就需要不同的設備對應。
也就是說作為大資料應用可能現在很多人還盯著文本檢索、圖像分析比較多。 但是實際上很多核心資料庫的應用仍然也要向這個方向發展。 那麼如何有一個好的平臺滿足它的需求,真正的把非結構化、結構化的資料融合在一起? 這就是一個最強的設備混合式的結構,在上面可以跑資料庫,也可以跑新型的資料庫。 這是針對資料量很大的,或者是資料量小計算能力要求高的。
安全可靠——中繼資料高可用:
我們有的使用者提出來原來資料分散在底下各個不同的部門不同的單位,現在要求他們把這些資料交上來也行,他們好像也沒有太大的意見。 但是這些資料放在你這兒,就會出現3個問題
放在你那兒是不是比放在我這兒更可靠、安全? 放到你那兒別人會不會看到?
現有很多大資料平臺裡面,我們在這兒講的很多概念也不新鮮。 包括通過中繼資料高可用的方法保證可用性,包括通過存取控制加密保證控制性。 但是目前現有的大資料處理平臺,這部分從設計上來講並不是很偏重的,這塊是現在的大資料平臺上做的很多工作,將我們在傳統的很多在作業系統裡面的概念,比如說不同級別的控制手段,包括加密手段拿到大資料平臺裡面,加固大資料平臺, 滿足使用者對於資料聚集以後保護的要求。 包括中繼資料一層做的高可用,包括我們基於硬體的一些加密和存儲,還有存取控制,把作業系統裡面的安全技術用在裡面。 包括我們對於基於現有大資料平臺,把原來存儲用到的備份軟體、異地冗災方面的軟體。
大資料應用開發平臺:
現在大家用到大資料平臺遇到的麻煩就是真正行業應用裡面懂Hadoop的人很少,懂新型開發架構的人很少,很多應用仍然是綁在原有的平臺上,甚至介面都不願意改。 這也是現在妨礙我們把這個技術能夠從很多新的領域推到原來傳統行業領域很大的一個阻力。 我們現在嘗試在做一些工作,包括如何能夠讓原來的業務程式很順利的對接到新的平臺上面去。 其實大家以前用到的很多介面寫程式的人都清楚,但是這些介面往往在新的平臺裡面沒有,這是第一層面。
第二層面,很多資料真的到了一個新的平臺,讓他用MPI,現在換一個思路,都是很麻煩的,這個如何在技術層面提供支援? 一方面我們希望自己做一些工作,另外這塊也是我們能把新式應用推廣的重要的一點,希望大家共同來做。
因此浪潮這部分我們給使用者提供專業化的服務。 從前期得如何做資料的分析,把資料進行分類,然後按照前面畫的圈,按照複雜度、規模、交易方式、操作方式,以及最終回應的要求將資料劃分成不同的類型。 針對不同的資料給你提供不同的模型、解決方案,搭配我們的硬體或者軟體最終把應用做起來。
還有一個非常重要的是幫他做資料建模。 資料建模這個事情已經不僅僅是做電腦的人的事情,更多的是做數學的人的事情。 但是電腦要為各種各樣新的應用服務,如何把以前的資料進行規劃、新的整理? 要告訴他現在要放我這個平臺裡做更好的處理,那麼要對你原來的表和資料結構進行調整,基於這個做模型,怎麼把你的資料更好的用起來?
大資料最後還是要放到資料中心裡面。 而且規模也是非常龐大的,我們見過一些傳統的做高性能、資料處理的,機房規模也會非常大。 資料中心的發展從以前大型機時代到PC、互聯網、到現在雲計算時代,雲計算資料中心的要求也是越來越高,要求我們整個機房首先是一個綠色的,節能得,能夠高效的進行管理的。 當然還有其他的一些專業化安全可靠的等等一些要求。 浪潮提出了我們行業雲資料中心解決之道的幾個關健詞:模組化、專業化、智慧化、安全可靠。 通過我們這幾個層面來保證資料中心是一個高效、靈活的可靠的資料中心。
我今天簡單給大家介紹兩個層面:
1. 模組搭建
這兩年模組化講了很多,模組化的概念從互聯網包括國外,包括谷歌,微軟,包括國內的幾個互聯網公司大家都在用。 但是怎麼把這個概念更好的推廣給普通使用者? 浪潮很多使用者是做高性能的,他們還是用傳統的方法搭建機房,怎麼把這個東西做的更好? 需要不斷的給大家講這個概念。 模組化首先就是功能的集中化。 將原來傳統的一台一台機器,我們有自己的電源、自己的風扇和散熱系統集中起來,集中就會帶來規模效益,就會使整體空間利用率,整體能源利用率會更好來降低整體的能耗,降低我們的占地。
同時,通過標準的規格設計能塞到模組裡面所有的東西全系列的產品都是可以放到模組化的資料中心裡面來。 每一個機器就是一個小模組,每一個機櫃就是中等的模組,每一個資料中心就是一個大模組。 通過我們自動化的管理監控整個機房裡面的能耗,包括散熱,提高效率。
2. 運營管理
作為運營管理來講,雲計算資料中心管理最重要的就是如何將資源進行調度。 這在大資料時代仍然需要。 我們現在部署一個新的資料處理的系統仍然是有些麻煩。 如何跟雲計算的部署技術也好,管理的技術也好,結合起來? 也讓大資料處理平臺,比如Hadoop平臺列式資料庫的處理平臺能夠實現按需的組合、按需分配,結合雲計算的概念當然不一定用虛擬化,可以在物理機上面也進行快速的部署和應用切換,實現資源更好的共用。
通過我們在軟體層面的調優,既滿足硬體更好的大資料平臺的基礎上,提供一些軟體的性能調優,包括存儲分佈的演算法上,在任務調度演算法的優化,提高整個大資料平臺整體的性能。 資源管理方面也是通過我們一體化的資源管理,監控整個大資料平臺的運行狀態。
成功案例:
濟南公安的例子:濟南公安在傳統行業裡面,公安行業是積累資料量非常大的。 我們這一期給濟南公安提供了2點多P的空間,因為存儲和處理技術的限制,很多東西可能放了一段時間就扔掉了,因為沒法放,再一個存了那麼大的量處理起來很麻煩。 他們通過我們新式的大資料平臺來解決以前資料孤立整合等問題。