中國大資料六大技術變遷記

來源:互聯網
上載者:User

集「Hadoop中國雲計算大會」與「CSDN大資料技術大會」精華之大成, 歷屆的中國大資料技術大會(BDTC) 已發展成為國內事實上的行業頂尖技術盛會。 從2008年的60人Hadoop沙龍到當下的數千人技術盛宴,作為業內極具實戰價值的專業交流平臺,每一屆的中國大資料技術大會都忠實地描繪了大資料領域內的技術熱點,沉澱了行業實戰經驗,見證了整個大資料生態圈技術的發展與演變。

2014年12月12-14日,由中國電腦學會(CCF)主辦,CCF大資料專家委員會協辦,中科院計算所與CSDN共同承辦的 2014中國大資料技術大會(Big Data Technology Conference 2014,BDTC 2014) 將在北京新雲南皇冠假日酒店拉開帷幕。 大會為期三天,以推進行業應用中的大資料技術發展為主旨,擬設立「大資料基礎設施」、「大資料生態系統」、「大資料技術」、「大資料應用」、「大資料互聯網金融技術」、「智慧資訊處理」等多場主題論壇與行業峰會。 由中國電腦學會主辦,CCF大資料專家委員會承辦,南京大學與復旦大學協辦的「2014年第二屆CCF大資料學術會議」也將同時召開,並與技術大會共用主題報告。

本次大會將邀請近100位國外大資料技術領域頂尖專家與一線實踐者,深入討論Hadoop、YARN、Spark、Tez、 HBase、Kafka、OceanBase等開源軟體的最新進展,NoSQL/NewSQL、記憶體計算、 流計算和圖計算技術的發展趨勢,OpenStack生態系統對於大資料計算需求的思考,以及大資料下的視覺化、機器學習/深度學習、商業智慧、資料分析等的最新業界應用,分享實際生產系統中的技術特色和實踐經驗。

大會召開前期,特別梳理了歷屆大會亮點以記錄中國大資料技術領域發展歷程,並立足當下生態圈現狀對即將召開的BDTC 2014進行展望:

追本溯源,悉大資料六大技術變遷

伴隨著大資料技術大會的發展,我們親歷了中國大資料技術與應用時代的到來,也見證了整個大資料生態圈技術的發展與衍變:

1. 計算資源的分佈化——從網格計算到雲計算。 回顧歷屆BDTC大會,我們不難發現,自2009年,資源的組織和調度方式已逐漸從跨域分佈的網格計算向本地分佈的雲計算轉變。 而時至今日,雲計算已成為大資料資源保障的不二平臺。

2. 資料存儲變更——HDFS、NoSQL應運而生。 隨著資料格式越來越多樣化,傳統關聯式存儲已然無法滿足新時代的應用程式需求,HDFS、NoSQL等新技術應運而生,並成為當下許多大型應用架構不可或缺的一環,也帶動了定制電腦/伺服器的發展, 同時也成為大資料生態圈中最熱門的技術之一。

3. 計算模式改變——Hadoop計算框成主流。 為了更好和更廉價地支撐其搜索服務,Google創建了Map/Reduce和GFS。 而在Google論文的啟發下,原雅虎工程師Doug Cutting開創了與高性能計算模式迥異的,計算向資料靠攏的Hadoop軟體生態系統。 Hadoop天生高貴,時至今日已成為Apache基金會最「Hot」的開源專案,更被公認為大資料處理的事實標準。 Hadoop以低廉的成本在分散式環境下提供了海量資料的處理能力。 因此,Hadoop技術研討與實踐分享也一直是歷屆中國大資料技術大會最亮眼的特色之一。

4. 流計算技術引入——滿足應用的低延遲資料處理需求。 隨著業務需求擴展,大資料逐漸走出離線批次處理的範疇,Storm、Kafka等將即時性、擴充性、容錯性和靈活性發揮得淋漓盡致的流處理框架,使得舊有消息中介軟體技術得以重生。 成為歷屆BDTC上一道亮麗的風景線。

5. 記憶體計算初露端倪——新貴Spark敢與老將叫板。 Spark發源于美國加州大學伯克利分校AMPLab的集群計算平臺,它立足于記憶體計算,從多反覆運算批量處理出發,相容並蓄資料倉儲、流處理和圖計算等多種計算范式,是罕見的全能選手。 在短短4年,Spark已發展為Apache軟體基金會的頂級專案,擁有30個Committers,其使用者更包括IBM、Amazon、Yahoo!、Sohu、百度、阿裡、騰訊等多家知名公司,還包括了Spark SQL、 Spark Streaming、MLlib、GraphX等多個相關專案。 毫無疑問,Spark已站穩腳跟。

6. 關係資料庫技術進化—NewSQL改寫資料庫歷史。 關係資料庫系統的研發並沒有停下腳步,在橫向擴展、高可用和高性能方面也在不斷進步。 實際應用對面向線上分析處理(OLAP)的MPP(Massively Parallel Processing)資料庫的需求最迫切,包括MPP資料庫學習和採用大資料領域的新技術,如多副本技術、列存儲技術等。 而面向線上交易處理(OLTP)的資料庫則向著高性能演進,其目標是高吞吐率、低延遲,技術發展趨勢包括全記憶體化、無鎖化等。

立足揚帆,看2014大資料生態圈發展

時光荏苒,轉眼間第2014中國大資料技術大會將如期舉行。 在技術日新月異的當下,2014年的BDTC上又可以洞察些什麼? 這裡我們不妨著眼當下技術發展趨勢:

1. MapReduce已成頹勢,YARN/Tez是否可以再創輝煌? 對於Hadoop來說,2014是歡欣鼓舞的一年——EMC、Microsoft、Intel、Teradata、Cisco等眾多巨頭都加大了Hadoop方面的投入。 然而對於眾多機構來說,這一年卻並不輕鬆:基於MapReduce的即時性短板以及機構對更通用大資料處理平臺的需求,Hadoop 2.0轉型已勢在必行。 那麼,在轉型中,機構究竟會遭遇什麼樣的挑戰? 各個機構如何才能更好地利用YARN所帶來的新特性? Hadoop未來的發展又會有什麼重大變化? 為此,BDTC 2014特邀請了Apache Hadoop committer,Apache Hadoop Project Management Committee(PMC)成員Uma Maheswara Rao G,Apache Hadoo p committer Yi Liu,Bikas Saha(PMC member of the Apache Hadoop and Tez)等國際頂尖Hadoop專家,我們不妨當面探討。

2. 時過境遷,Storm、Kafka等流計算框架前途未卜。 如果說MapReduce的緩慢給眾多流計算框架帶來了可乘之機,那麼當Hadoop生態圈元件越發成熟,Spark更加易用,迎接這些流計算框架的又是什麼? 這裡我們不妨根據BDTC 2014近百場的實踐分享進行一個側面的瞭解,亦或是與專家們當面交流。

3. Spark,是顛覆還是補充? 與Hadoop生態圈的相容,讓Spark的發展日新月異。 然而根據近日Sort Benchmark公佈的排序結果,在海量(100TB)離線資料排序上,對比上屆冠軍Hadoop,Spark以不到十分之一的機器,只使用三分之一的時間就完成了同樣資料量的排序。 毫無疑問,當下Spark已不止步于即時計算,目標直指通用大資料處理平臺,而終止Shark,開啟Spark SQL或許已經初見端倪。 那麼,當Spark愈加成熟,更加原生的支援離線計算後,開源大資料標準處理平臺這個榮譽又將花落誰家? 這裡我們一起期待。

4. 基礎設施層,用什麼來提升我們的網路? 時至今日,網路已成為眾多大資料處理平臺的攻堅物件。 比如,為了克服網路瓶頸,Spark使用新的基於Netty的網路模組取代了原有的NIO網路模組,從而提高了對網路頻寬的利用。 那麼,在基礎設施層我們又該如何克服網路這個瓶頸? 直接使用更高效的網路設備,比如Infiniband能夠帶來多少性能提升? 建立一個更智慧型網路,通過計算的每個階段,自我調整來調整拆分/合併階段中的資料傳輸要求,不僅提高了速度,也提高了利用率。 在BDTC 2014上,我們可以從Infiniband/RDMA技術及應用演講,以及數場SDN實戰上吸取寶貴的經驗。

5. 資料採礦的靈魂——機器學習。 近年來,機器學習領域的人才搶奪已進入白熱化,類似Google、IBM、微軟、百度、阿裡、騰訊對機器學習領域的投入也是愈來愈高,囊括了晶片設計、系統結構(異構計算)、軟體系統、模型演算法和深度應用各個方面。 大資料標誌一個新時代的到來,PB資料讓人們坐擁金山,然而缺少了智慧演算法,機器學習這個靈魂,價值的提取無疑變得鏡花水月。 而在本屆會議上,我們同樣為大家準備了數場機器學習相關分享,靜候諸位參與。

而在技術分享之外,2014年第二屆CCF大資料學術會議也將同時召開,並與技術大會共用主題報告。 屆時,我們同樣可以斬獲許多來自學術領域的最新科研成果。

(責任編輯:mengyishan)

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.