CSDN專訪:大資料時代下的商業儲存

來源:互聯網
上載者:User

標籤:des   style   blog   http   color   使用   

原文地址:http://www.csdn.net/article/2014-06-03/2820044-cloud-emc-hadoop
摘要:EMC公司作為全球資訊儲存及管理產品方面的領先公司,不久前,EMC宣布收購DSSD加強和鞏固了其在行業內的領導地位,日前我們有幸採訪到EMC中國的張安站,他就大資料、商業儲存、Spark等給大家分享了自己的看法。

談到大資料,張安站認為大資料本質上是兩個根本性的問題,一個是資料很大,如何儲存?另外一個是資料很大,如何分析?第一個問題,對於儲存廠商來說,就是構建Scalability更好的儲存系統,來適應這個超大規模資料存放區的需求。第二就是大資料的分析,隨著以Hadoop生態環境為代表的分散式運算/ 儲存叢集的蓬勃發展與成熟,大資料的分析變得越來越高效和準確,原來的離線資料採礦現在可以做到線上,甚至通過線上挖掘在數分鐘內對使用者產生基於當前行為的推薦。

張安站,EMC中國卓越研發集團的資深工程師,畢業於南開大學,畢業後加入EMC,在儲存部門擔任軟體工程師。在讀研期間,主要從事了基於手持閱讀器的線上讀物彙總的研究與實現,編碼超過30K,積累了豐富的編碼實戰經驗。

並且也研究了基於地理位置的線上廣告投放並且成功在手持閱讀器上做過原型開發。校招時收到了百度、阿里、搜狗、EMC、 SonicWALL和創新工場等多個知名企業的offer ,並且保持了面試必過的記錄。

加入EMC後,主要負責儲存系統管理和監控的研究與開發,積累了豐富的系統調試經驗;設計實現了儲存控制協議SMIS並在系統效能調優方面積累了實戰經驗;承擔了項目組的代碼管理工作和Scrum的管理工作。 近半年工作重心在構建下一代的商業儲存的管理架構,通過重新設計獲得儲存系統的可靠性(Reliability)、可用性(Availability )、可擴充性(Scalability)和效能(Performance )得到質的提升。下個月將加入百度的網頁搜尋部擔任系統架構資深研發工程師,負責網頁搜尋產品服務架構和資料存放區架構的設計與升級。

談到如何學習Hadoop和Spark,他覺得精讀源碼是必須的,同時還要學會比較,另外,Scala語言是他認為最酷的語言。一個優秀的程式員,肯定會喜歡Scala。以下是對張安站的採訪實錄:

CSDN:可否介紹一下目前從事的工作?  

張安站:當前主要工作在構建EMC中高端儲存的下一代管理控制平台上。這是一個全新的平台。不同與去年發布的VNX2,VNX2實際上還是分File 和Block,它們分別使用不同的CPU,物理上是隔離的。我們現在做的平台是真正的Unified,可以在一個節點上提供File Service, Block Service。由於採用了全新的架構,整個儲存系統的可靠性(Reliability)、可用性(Availability)、可擴充性(Scalability)和效能(Performance)得到質的提升。傳統的儲存系統擴充性是Scale-in的,做不到Scale-out。因此你可以看到每個系統不同的產品型號支援的最大硬碟數量是固定的,因此最大的儲存空間也是確定的。為了擴容,不得不買更多的裝置,這無疑增加了IT營運的成本。我們現在關注的就是解決傳統架構的局限,適應現在雲端運算,大資料對儲存系統新的需求,從而使我們的產品仍然在新的環境中主導儲存系統的發展。

不過遺憾的是六月份是我在EMC工作的最後一個月。七月初我會加入百度的網頁搜尋部,擔任系統架構資深研發工程師,負責網頁搜尋產品服務架構和資料存放區架構的設計與升級,包括網頁抓取、海量資料處理平台和分布式檢索系統。也是正式開始我在職場上的大資料生涯。

對大資料的理解

CSDN:談談您對大資料的理解?

張安站:大資料,不同的人在不同的角度都會有不同的理解。但是歸根結底,是兩個根本性的問題,一個是資料很大,如何儲存?另外一個是資料很大,如何分析?第一個問題,對於我們儲存廠商來說,就是構建Scalability更好的儲存系統,來適應這個超大規模資料存放區的需求。第二個問題,就是大資料的分析。隨著以Hadoop生態環境為代表的分散式運算/ 儲存叢集的蓬勃發展與成熟,大資料的分析變得越來越高效和準確,原來的離線資料採礦現在可以做到線上,甚至通過線上挖掘在數分鐘內對使用者產生基於當前行為的推薦。

因此,可以說,這些技術的發展,也催生了更多的商業模式,也正在改變我們周圍的生活。比如藉助大資料分析,交通違章監控可以使用更短的時間通知違章車輛;醫院可以使用更多的使用者資料的建立更好的模型以獲得更好的治療方案;金融行業可以基於使用者的投資行為為使用者推薦最佳的理財產品。而這些,無一不和我們的生活息息相關。大資料方興未艾,機遇與挑戰並存,讓我們這些可愛的程式猿們更好的為人民服務吧!

CSDN: EMC 不久前收購了初創公司DSSD,您怎麼看?

張安站:EMC是一個收購了或者說“融合”了很多公司的公司。EMC曆史上最著名的收購莫過於2003年以6億多美元收購VMware。其實對於EMC的多次收購,從另外一個方面也反應了EMC對於行業趨勢的把握和敏感,EMC通過多次收購,不斷的加強和鞏固在行業內的領導地位,從而也影響了行業的發展趨勢。這是EMC 繼收購快閃記憶體公司XtremIO後在快閃記憶體市場的又一舉動。其實,2013年發布的EMC中端儲存的巔峰之作VNX Rockies也發布了VNX-F的全快閃記憶體陣列,最高的IOPS達到了110W。雖然EMC相信磁碟陣列在可以遇見的未來仍將存在,但是也可以從它一系列的動作可以看出,EMC非常重視快閃記憶體市場。收購DSSD也是這個戰略的一部分。

在EMC World 2014上宣布這個訊息,足以說明對DSSD的重視。DSSD的核心團隊來自ZFS。ZFS可以說是世界上最先進的檔案系統,為什麼叫ZFS,就是因為Z是最後一個英文字母,而在這之後,無需再有其他檔案系統了。讓我們拭目以待,期待2015年Andy Bechtolsheim帶領的Team Dev將給市場帶來的EMC DSSD。Andy在斯坦福讀博士時就創立了Sun。因此有足夠理由相信Andy會給快閃記憶體市場帶來驚喜。

傳統商業儲存的機遇與挑戰

CSDN: EMC World 2014 提到了EMC 儲存產品對Open-Stack的支援,能不能談一些這方面的具體內容?

張安站:商業的儲存系統如何融入到雲端運算的叢集環境?畢竟,雲端運算提供了三種基本的服務,即計算資源、網路資源和儲存資源。EMC儲存部門關注的就是如何將我們的儲存產品融入到Open-Stack中,使得Open-Stack可以無縫的使用EMC的儲存產品。由於EMC各個儲存產品的相對獨立性,不同的產品線可能都會支援Open-Stack。其實技術上說白了就是實現一個Open-Stack Cinder的驅動,實現一些Open-Stack的API以使得Open-Stack可以使用儲存系統上的儲存資源。在這裡不得不提的是EMC的軟體定義程式儲存的實現ViPR。ViPR 2.0未來將成為其所有儲存的核心資料平台。通過添加對OpenStack Clinder外掛程式的支援,ViPR可以與更廣泛的第三方儲存系統和商品磁碟機相容,EMC認為ViPR 2.0現在能夠處理所有現有儲存容量的80%。

但是從Business Value來說,EMC對於Open-Stack的支援是為了將我們的儲存產品更好的融入Open-Stack中。使得它能夠充分利用我們的儲存服務。其實從這一點上來講,和Intel積極推動很多OpenSource的項目一樣,最終的目的都是使得這些開源項目更好的運行在公司的核心的軟硬體平台上。當然了,也不可否認,這些大公司的推動對於這些項目起到了非常積極的作用。有了大公司在人力物力的投入,這些開源項目都能在各自的領域有了更好的發展。

CSDN:傳統商業儲存的在雲端運算背景下的機遇與挑戰?

張安站:這個問題,不得不提一下EMC現在力推的第三平台戰略。簡單來說,第二平台就是傳統的資料中心,EMC已經確定了領先的地位。第三平台是建立在行動裝置、雲端服務、社交網路和大資料的基礎之上。但是現在科技的發展可以說是重新定義了許多東西,就如EMC World 2014的主題 REDEFINE一樣。在這次平台轉型的過程中,註定有一些公司被淘汰;一些公司會站在新的浪潮之巔。EMC的傳統儲存部門肯定會受到影響,但是影響究竟有多大誰都不敢斷言。我們現在也是Redesign我們的產品架構,很多模組推倒重來,以更好的適應第三平台的需要。

精讀源碼是必須的

CSDN:對於學習Hadoop和Spark的同學有什麼好的建議?

張安站:學習最重要的是興趣,還有激情。不能說現在什麼技術熱就去學什麼,那麼你可能永遠在追隨這些技術,無法真正的在技術方面提升自己。從我自己學習Hadoop和Spark的經驗來說,熟讀源碼,精讀源碼是必須的,特別是你需要做二次開發時。當然了部落格是一個很重要的渠道,但是博主是把自己的知識進行提煉,總結形成博文的,可能他知道的一個實現的80%,但是博文可能只能展現60%。所以自己在精讀了文章後,一定要深入源碼去精讀,去對比。比如我學習HDFS時,每次看到一個模組都會和我們公司的產品實現進行橫向的對比。舉個例子來說,HDFS的伺服器端分名位元組點(NameNode)和資料節點(DataNode),而我們的產品實現分ControlPath和DataPath。所以從大的架構上來說,二者是想通的,雖然一個是分布式儲存系統,一個是中心式的儲存系統。

Spark的學習也是,而且Spark的源碼無疑更加簡練,相信大家能夠從源碼中學到很多東西。大家都知道Spark是用Scala語言實現的。Scala語言是我認為最酷的語言。一個優秀的程式員,肯定會喜歡Scala。

寫在最後:

在採訪中,我們能感覺到張安站的激情、睿智以及文采,正如在他的最新博文Redefine:Change in the Changing World中所說,科技的發展重新定義了技術,影響了生活,改變了你我。

點擊張安站部落格,查看更多技術性文章! 

HDFS HA: 高可靠性分布式儲存系統解決方案的曆史演化HDFS追本溯源:HDFS操作的邏輯流程與源碼解析

HDFS追本溯源:租約,讀寫過程的容錯處理及NN的主要資料結構


相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.