梁曜中:大家下午好,我是超雲的產品經理梁耀忠,非常感謝剛才我的兩位領導給大家做的比較精彩的演講,比較生動,給我半個小時的時間給大家介紹一下雲慧。
在我給大家介紹這款產品或者解決方案之前,我先給大家闡述一下我們公司對於大資料,以及大資料相應的解決方法在我們公司的一個相應的理念是什麼。 我們對於大資料想解決的三個問題或者是問客戶的三個問題,有這麼三個。 第一個,客戶實際需求是什麼,他現在所處的大資料的環境,主要問題是什麼,還有他在今後的三年到五年內,他的擴展規模是什麼。 這是第一個問題。 第二個問題,我們會對我們的軟硬一體實施的方案分別從軟體層次和硬體層次分別進行調優,不浪費任何資源,不花費任何多餘的成本。 最後對我們提供的軟硬一體設備進行一站式全方位比較貼近使用者的支援和服務。 所以,我們主要從三個方面和客戶進行不同緯度的溝通。
希望大家在所處的領域和所處的行業對大資料的概念有了一部分的認識和有了一部分的接觸,我給大家粗略的描述一下大資料到底是什麼,大家都在談大資料,這個大體現在哪方面? 主要有三個方面,第一方面顧名思義就是數量龐大,龐大到什麼程度呢? IDC給了一個預測,2020年資料的增長會是現在的44倍,達到35.2ZB,這些資料大的程度分佈之廣,類型之多,都是由於當下的應用和不同的處理方式以及之前累積沉澱下來的資料組成的,比如當下非常火爆的微博、視頻網路, 還有現在一些行業正在部署物聯網,一些感應器,他們所產生的一些資料,這些都屬於大資料的範圍。 還有一個是類型之多,和我們之前提到的數量是呈正比的,有視頻類型,有文本類型,還有信號類型,就是感應器處理的檔保存形式類型。 還包括一些中高檔轎車上的一些導航,基本都是交互的,不僅是單項的輸出信號,作為駕駛者對GPS有一定的詢問方式,通過遠端的協助方式,對導航資訊進行一個互動,當然這個階段還是比較初步的,今後的發展階段可能會對問題進行回答, 對路線進行指定。 由它產生的信號,由它存儲的資料和應用程式對它的處理可能更加複雜。
最後一個大是什麼? 是現在的客戶和各個行業需要大資料的反應速度和處理速度之快,這個緯度上的大。 關於大資料的處理速度,我們現在的關聯式資料庫對於大資料已經顯示出無能力處理或者存儲,無論從它技術的發展,還是從現有技術開拓的層面上,已經顯示出了比較緩慢的增長趨勢。 所以,問題的產生對於大資料本身的技術往前推進並不是說它是來取代關聯式資料庫的,而是對現在的資料庫技術一種很好的補充,是一個互補作用,並不是我們今後產生的所有資料都叫大資料,這是不對的,我們也可能產生很簡單的就像文字文件, 很簡單的工作中產生的文檔,這些還是需要我們關聯式資料庫去存儲的,但是對於一些更為高端的或業界更為前沿的一些技術或者今後業務上更為需求的一種存儲和計算技術來說, 關聯式資料庫的處理能力和它今後的發展對於大資料的處理上已經產生了很大的制約作用。 所以說在傳統的BI,在數量達到TB級的時候,它的性能已經產生了明顯的落後狀態,還有現在對於資料的處理,它的資料量一直在增長,但是傳統的資料庫的處理速度卻是逐漸在變慢,這對於客戶來說,最直接的效果是什麼? 就是我看不著處理結果,但是我相應的軟體已經升級到當前最新的版本,這是作為終端使用者最為直觀的一種反應。
如果我們的客戶,或者如果現在行業中對於大資料的處理能夠很穩當,很正確,而且切入點很適當的話,那麼大資料所產生的利益和對於現階段,以及今後3—5年內企業所節省的IT成本將產生一個非常可觀的數位,這張圖就可以看見。 你比如說零售行業,還有航空、製造、食品、鋼鐵等等等等,這些行業中所產生的資料量、資料類型,還有他們對於大資料的需求是非常複雜的,他們一旦用了正確的方法,對於大資料的處理,他們的生產效率大家可以看到,基本上都是維持在20% 之上,這個對於一個企業來說,或者對於一個行業來說,它的生產力直接轉化成它的利潤,它可以用更少的錢產生更大的社會價值或者產業價值,相應的通過左邊的到右邊的話,轉換成相應的利潤,這個數位也是相當可觀的, 這也就是我們說的大資料潛在的巨大的市場,而我們現在絕大部分行業、公司、客戶他們對於大資料的認識還僅僅停留在如何用更大的存儲去存這些資料,而不是如何去挖掘,去利用,去把這些資料轉換成更好的生產力,帶來更大的利潤價值。
我們剛才說的那些數位,它在一些行業中有什麼典型的應用呢? 當然它會有許許多多的行業應用,對於我們超雲來說,我們在五個方面,第一個方面是互聯網行業,這是我們超雲當前最大的客戶,還有電子商務,也就是電商,第三個是商務智慧,也就是BI這方面,其次是教育研究,也就是高校、研究所, 最後一個方面也就是物聯網,這是一個非常熱的話題,現在大家都在說物聯網,但是物聯網的標準是什麼,定義是什麼,從什麼切入點能更好的接近物聯網的概念,把它從概念化到一個實地化,我覺得大資料是一個點。 從超雲來講,希望從大資料這個點切入到物聯網,從而開闊我們產品,包括基礎設施對於物聯網這個概念的理解。
剛才我介紹了互聯網行業是我們超雲最大的一個行業,在互聯網行業中大資料是怎麼運用的,或者它有哪些應用的領域,一個方面比如大量資料的併發訪問,就像微博,微博上突然一個敏感事件發生了,大家對於這個話題會集中的去刷頁面,刷微博, 去看一看具體的一些比較有權威的機構對於這個事件的評說是什麼,事實是什麼,大家都好奇。 所以,在某個時間點大量使用者對於某個頁面的訪問將會產生大量的資料,而這個資料無論是上傳資料還是訪問資料,水準、文字,包括現在的動畫,一些等等等等,都屬於大資料的範疇,如何去處理這個問題,或者去面對問題, 互聯網行業現有架構能不能承擔起這麼大量的使用者在某個時間點同時訪問,它的資料量剛才說了,百萬使用者在某個時間點同時刷一個頁面,它的資料量可能是GB,但是更可觀的是像微博這種對於敏感事件的訪問量,那可能是PB級, 還有一些大資料典型應用,比如Web伺服器裡的一些日誌,日誌的保存是大資料的一個比較傳統的應用。 大家知道日誌裡包含的每一條記錄,它所陳述的是事實,但是每條記錄根據時間點所串起來的一件事兒,它可能反映出一個趨勢,而這個趨勢對某一個問題的解釋是很好的一個佐證,這是對於資料本身的挖掘潛在的價值之一。 網路設備的日誌可以檢測到某個網路設備宕機的前後呈現的不同狀態,分析出原因。 還有關系資料庫日誌,這個當然也是日誌的一個。
電子商務也是大資料應用一個比較廣泛的領域,像淘寶、百度這種電商、網商他們對於大資料的闡釋,他們部署的架構對於大資料的適應性,大概在兩年到三年之前,淘寶三年前就把它後臺的技術架構已經偏向于以資料為驅動, 以大資料應用為核心的技術架構,大量的交易資訊和資料。 大家知道,比如我們在網頁上買一個東西,買一個滑鼠,同樣的配置買完之後,會有一個實物的對比,這個是通過什麼比對的? 就是通過使用者在勾選不同規格的時候,後臺的大資料應用從它所存儲的資料終進行不斷的檢索,不斷的對比所產生的相應的一個推薦方法,可能推薦方案不只一家,可能有微軟的,還會有其他的廠商等等等等,所以,這個是大資料直接的應用, 也就是資料對比,還有非交易類資料,比如應用和設備的日誌文檔,這是對廠商的資料中心、工程師而言。 第三是大量的使用者資訊,幹什麼用的? 一個使用者上了網店他的軌跡是什麼,去了哪家網店,他的消費行為是什麼,他存儲的價值和他對資料的挖掘價值對他今後的資料部署和業務分佈,以及他整個網路商店的業務分配等等等等,都起了挺大的關鍵作用。
商務智慧,現在最希望達到即時性,BI技術是不能達到的,它是即時查詢,這是大資料技術給BI帶來最大的撼動。
教育研究,這個方面從我的理解來說,是對大資料本身技術的推進。 所以,在教育院校、科研院所,他們所針對大資料的理解並不是針對于應用層,而是針對于大資料本身演算法,大資料本身對於硬體的匹配,它今後的發展方向和它再到技術細節,比如大資料演算法裡每個參數是怎麼應用的, 這個我覺得是教育研究機構他們最為關心的話題。 所以,我們把它列出來,是為了我們能跟教育院所進行某些合作,而這個合作其實是對大演算法本身的一個推進,一個技術的推進。 物聯網就像我剛才說的,超雲是希望通過大資料這個切入點切入到物聯網這個概念,再通過我們本身的基礎設施的一個提供,能夠很完整或者很全面給使用者也好,給我們合作夥伴也好,對於物聯網概念的描述我們希望也像雲計算一樣,能夠即時的落地 ,我們希望對物聯網做一些實事兒,這是我們從大資料切入的一個點。
其實就是做兩件事兒,一個是分區,一個是冗余,分區是什麼? 分區就是如何有效高效的處理資料,快,這是它的一個字。 還有一個是冗余,冗余是什麼? 冗余就是可靠,也就是說我希望我的服務是7×24小時不間斷,哪怕×365也不間斷,現在如果達到這種方式,可靠的方式就是通過冗余。
再回到第一點,大資料即時要快,既然已經存儲了,已經沉澱了大量不同類型的資料,對於這些資料的分析挖掘提取再回饋,客戶需要的是能夠即時回應,我輸入即我所見,當然客戶的希望總是在不斷的增加, 而對於我們技術的提供者或者是設備的提供者來說,去滿足客戶,這是我們唯一的使命。 現在單個伺服器節點,它達到極致的話,也就是80%—95%,這是它的極致,如果達到這個閥值得話,他如果呈線性部署的話,對於大資料的問題依然是不能解決,它的能力是非常有限的,也就是對於這個演算法本身, 大資料問題的利用率只達到40%。 所以把這個概念進一步擴大,單個不成,我們給它合起來,一個群的概念,也就是對於同一個問題,把它以大化小,把小的分散在不同的伺服器上,通過某種機制,對最後的結果進行匯總,最後回饋給客戶。 所以,它相當於我們平時榨汁機,我們希望一個果汁裡有香蕉,有蘋果,有梨,三種水果放在一起,怎麼榨? 肯定是先切,不同水果切了放在一起榨,我們延伸一下,形象的比對一下,對於不同類型的資料,就像這三種水果一樣,我們把它切分,切分小到榨汁機以最快的速度,我們規定15秒,以那個力度放在榨汁機裡,最後匯總成一個結果回饋給客戶, 達到即時性。 所以,大資料對於技術架構只需要做到這兩點,一個是同一個大問題分散在不同的計算節點,打散,還有怎麼提供更為可靠的計算環境。
超雲對於大資料的解決方案是用了業界非常普遍的或者非常流行的一個方法叫Hadoop,首先是開源的,大家都可以用,它提供了一個參考的技術框架, 但是不同公司用不同的Hadoop的版本會對Hadoop的不同版本內的不同功能模組進行不同的調優。 對於我們超雲來說,我們有不同的合作夥伴去針對Hadoop本身的演算法進行一個深度挖掘,當然,我們選擇不同合作夥伴的目的是什麼? 是為了不同的客戶群,客戶的需求是多種多樣的,很難提供一個唯一的單項的技術方案或者技術產品給客戶,滿足他所有的需求,這是不現實的,尤其對於開源,這更具有挑戰性。 所以,超雲我們所採取的方案或者策略是什麼? 是根據不同的客戶需求,採用不同的合作夥伴的Hadoop技術,加上我們超雲本身的高密度低能耗的相應的伺服器匯總成軟體一體機來解決或者為客戶提供一系列一站式的大資料方案。
剛才說到Hadoop,我們之前如果大家關注超雲的話,我們之前曾經發佈過一版,是跟我們的兄弟公司天雲趨勢合作的一款大資料的一體機,今天介紹的是我們跟英特爾他們的軟體部門一起共同開發的Hadoop一體機,這有什麼特點呢? 這個特點是,我們把Hadoop本身的演算法調優到了可以說對超雲的硬體來說,已經達到了極致。 大家知道英特爾是個硬體廠商,他們對於CPU技術,對於主機板技術,乃至對於能耗技術會有非常尖銳非常獨到的認識,我們又是英特爾的合作夥伴。 所以,雙方的合作更為緊密。
回到Hadoop版本來說,這個版本最大的優點是什麼? 針對兩個領域,一個領域BI領域,還有一個領域是電商領域。 BI領域要求即時性,也就是對於客戶所處理的單據也好,所處理的交易也好,可以最快的速度回饋給客戶,這裡面是通過即時資料庫這個模組。 還有Hive資料倉儲,這兩個模組進行調優,而且對於這兩個模組的實現,英特爾和超雲在Hadoop開源社區做了大量的工作,可以說比較有特點。 所以,在即時資料庫和資料倉儲這兩個模組,是這一版和之前那一版最大的不同。
下面給大家介紹我們的一體機到底是怎麼組成的,它的架構是什麼。 左邊是一個實物,大家可以看到是一個機櫃,這個機櫃的規模可以根據客戶實際的業務需求和他現有的實際的業務發展狀況我們進行分析,去進行部署。 在機櫃裡有三個部分,第一個部分是網路部分,還有一部分我們叫名位元組點,用來做什麼? 它是整個設備資料的出入口,它是整個系統的司令部,它把所有的資料不是集中在這兒,而是進行了一個分散式系統的索引,它知道每個資料存在什麼地方,每個資料的備份存在什麼地方,這叫名位元組點,大家形象的想想叫司令部就可以。
最後一部分是資料節點,這是實際的存儲資料的,所有的資料都存放在這裡。 在實際的運作過程當中,資料請求從名位元組點先入,對於同一份資料我們的實現Hadoop的演算法是將一份資料進行三份備份,一個資料進到我們的系統之後,會進行三倍于原來形式的備份,這樣更為安全,不僅是冗余。
右邊大家可以看到軟硬一體的方案架構,上面我們具體實現的Hadoop的演算法進行了相應的定制化、調優,底下是由超雲定制化的伺服器進行提供的。
這是一個實物,14U的機櫃,裡面是由超雲的R6000系列伺服器組成的,在這個機櫃裡全部是雙路,對於它的指揮部我們是用了兩台雙路伺服器,對於資料節點存儲時機的資料的備份我們用了8個節點,每個節點都是雙路, 磁片存儲量達到了96TB,其中用了1.2TB的快取記憶體,主要是用來做計算的時候對於資料的存儲,削減它的RO瓶頸。
我們產品的幾個主要特點,我就不一一介紹了,我想說大概兩個比較有特色的,第一個是獨特的硬體技術,我們是英特爾的合作夥伴,所以,我們和英特爾在共同開發這款產品的時候,英特爾方對我們的硬體架構, 尤其是底層的硬體支援做了獨特的或者是比較特殊的一個硬體優化,其中包括指令級優化,相應的擴大了指令級。 還有多核多執行緒,從硬體工程師的角度來說可以更好的理解,把它單位計算處理的能力翻了一倍,還有為了提高它的資料的I/O輸送量,對DCA這個技術進行了優化,一般的伺服器硬體不具備的功能上對我們進行了單獨的開發。 所以,使我們的6000系列伺服器都具有了提高I/0輸送量的功能。
還有英特爾的SSD高速固態硬碟,這個硬碟一方面是剛才說了BI系統提高它即時的存儲,即時的處理,還有它的虛擬倉庫,大量的後臺的分析這麼一個能力。 還有一個特點,我們開箱即用,對於客戶的一般需求,是用我們剛才這款我們推薦的標準配置,客戶所需要做兩個動作,一個是插上電源,插上網線開機,還有經過工程師的簡單調配,不是軟體上再進一步的調優, 而是對於軟體和客戶方的行業軟體之間的介面做一個調優,平均時間是3天。 也就是說從你買到整個機櫃,到實際的機櫃的部署上需要三天。 對於一個典型的BI應用,大家稍微有點兒經驗,這個時間就不是三天,三個月可能都要打個問號。 大資料在行業的快速部署和應用是有極大的優勢的。
當客戶買了這個產品之後我們能提供給客戶什麼? 我們作為一體的方案提供給客戶,不僅僅是產品本身,還有產品本身附帶的價值,客戶能得到什麼。 有這麼幾點,第一點是集群配置和平臺建議,我們的工程師會對整個客戶的需求和客戶3—5年的需求做一個比較概述的分析和總結,針對我們的方案特點進行一個總結,有針對性的進行調優。 無論是從客戶的資料容量的分析,還是硬體的選擇,作業系統的建議,軟體的安裝,行業已有軟體的調優,介面的設計,等等,都會做出一系列的分析。 還有對客戶所部署的整個一體機的運營環境,集成環境進行支援,包括對於客戶已有資料的導入我們有專門的方法,還有專門的工具進行導入,還有對於客戶在部署過程中會發現各種各樣的,無論是軟體層次,還是硬體層次的錯誤,我們會進行偵測、 檢查、排錯。 對於客戶方部署好的一體機的集群,會對它的各個硬體層次進行一個監控,無論是能耗監控還是使用率監控,還是對於某個節點的故障的監控,等等等等,我們是有個平臺級支援的。
最後一個方面,Hadoop是開源的,這個開源的版本大家都知道它的更新是非常快的,它的更新週期不是用幾周完成,而是平均每三天,對於Hadoop來說,一個正式版本的發佈就是平均三天。 所以,我們會對Hadoop相應的產品進行相應的升級,這是由我們的工程師進行提供的。 對於我們的產品您購買之後我們會提供上述的一系列服務之外,我們還提供對於Hadoop本身來說的專業培訓服務。 比如您方買了我們的一體機之後,可能沒有相應的技術人員懂Hadoop技術,我們可以從購買機器之時對您方的技術人員進行相應的Hadoop培訓,能使貴公司的技術人員在購買了之後可以立馬上手,對相應的產品進行一個指導安裝維護, 等等等等。
我們對於這款產品的售後服務,包括現場支援,我們會有相應的售後團隊,從軟體技術和硬體技術都會進行相應的支援,遠端當然是電話、Email,這些是可以達到的。 最後是安裝調試,就像我剛才說的,我們一體機的概念只有兩部分,一部分插電,插網線,還有一部分是進行應用軟體介面的調優,在這個過程中肯定會有一系列問題,尤其是第二部分問題,對已有的應用軟體的問題, 可能這個問題會涉及到軟體工程師對於代碼層和介面層的進一步的調優工作。 所以,這部分工作我們也是包括在整個方案當中的。
這頁中的大部分我之前已經給大家介紹了,企業為什麼要部署Hadoop,為什麼要去部署大資料這個問題或者是採用相應的大資料解決方案。 所以,從我們超雲來說,對於大資料的部署,就像我之前說的,只想針對兩個領域,尤其是這版,一個是BI領域,還有一個是電商這兩個領域。 所以,這版我們對於大資料進一步的溝通,或者跟英特爾方進一步的合作,我們信達到兩個目的。 一個目的是對於硬體技術和軟體技術能更好地結合,將Hadoop本身的演算法和它的性能能推到一個新的高度,還有一個也就是能從大資料這個問題本身能有一個新的切入點,對於物聯網和雲計算的結合能提出一個我們新的認識, 這是我們希望通過我們這版產品達到的兩個目的。
這三個方面的客戶收益,之前我跟大家提到了,一占式,省去了中間很多步驟,不需要布網、組網,不需要對硬體方面調試,已經調試好了。 還有一方面軟硬一體,為客戶節省大量的運營成本,IT計算成本等等,還有我們的超雲伺服器是低功耗的,在電源能耗管理和對於成本的節省方面,我們是有獨到的一些技術的。 這三方面對於我們整個一體機的產品,對於客戶來說還是能收到三點明顯的益處的。
我們對於大資料本身這個問題也是在不斷的認識過程中,我們在思考大資料不是一成不變的,而且資料量的變化,資料類型的變化和處理速度的變化,不僅僅是大資料本身所要面臨的問題,可能隨著業務環境更加複雜, 大資料的部署當中遇到的困難更為繁雜的話,我們對大資料或者相應的解決方案的認識也會更進一步,我們同時也在思考,我們不是推出一款產品之後對於大資料就是一成不變的,我們會思考以什麼樣的合作方式, 什麼樣的處理方式幫客戶解決大資料或者資料量增大,即時要求增高的比較棘手的問題,同時我們也想推薦大資料和Hadoop演算法技術本身在行業當中的一個推廣度,這是我們從超雲的角度來說,作為一個硬體供應商, 希望能綁定相應的軟體解決方案,以增強我們基礎設施供應商方面的作用吧。 所以,希望大家從不同的管道,不同的合作夥伴能給我們超雲更多的意見,無論是建設性的也好,還是破壞性的也好,建設性的當然更好,只要能把事情往前推進,對整個方案是有説明的,我們都是歡迎的。 好,謝謝大家。
(責任編輯:蒙遺善)