來源:互聯網
上載者:User
關鍵字
大資料
Hadoop
BDTC
BDTC2014
BDTC先睹為快
2014年12月12-14日,由中國電腦學會(CCF)主辦,CCF大資料專家委員會承辦,中科院計算所與CSDN共同協辦的 2014中國大資料技術大會(Big Data Technology Conference 2014,BDTC 2014) 將在北京新雲南皇冠假日酒店拉開帷幕。 大會為期三天,以推進行業應用中的大資料技術發展為主旨,擬設立「大資料基礎設施」、「大資料生態系統」、「大資料技術」、「大資料應用」、「大資料互聯網金融技術」、「智慧資訊處理」等多場主題論壇與行業峰會。 由中國電腦學會主辦,CCF大資料專家委員會承辦,南京大學與復旦大學協辦的「2014年第二屆CCF大資料學術會議」也將同時召開,並與技術大會共用主題報告。
本次大會將邀請近100位國外大資料技術領域頂尖專家與一線實踐者,深入討論Hadoop、YARN、Spark、Tez、 HBase、Kafka、OceanBase等開源軟體的最新進展,NoSQL/NewSQL、記憶體計算、 流計算和圖計算技術的發展趨勢,OpenStack生態系統對於大資料計算需求的思考,以及大資料下的視覺化、機器學習/深度學習、商業智慧、資料分析等的最新業界應用,分享實際生產系統中的技術特色和實踐經驗。
在本次大會召開之前,CSDN和本次大會「大資料應用」的演講嘉賓高德軟體有限公司資料架構師周琦就他本人的大資料技術實踐、他對大資料技術趨勢的判斷以及大資料在交通資訊方面的一些應用做了一次簡單的溝通。
高德是國內最早研究地圖導航與交通資訊的公司之一,目前擁有國內最全面最完善的交通資訊採集與發佈系統,每天接收數十億行業計程車與公眾回傳的位置資料,累計里程長度上億公里,他們在這些資料的存儲、處理和應用中積累了大量的經驗。 周琦將會在12月14日「2014中國大資料技術大會」上和大家分享和交流更多的交通大資料的乾貨! 點擊報名!
周琦 高德軟體有限公司資料架構師
2008年畢業于北京理工大學,先後在百度與高德工作。 在百度,參與了百度基礎KV存儲系統,OLAP資料倉儲,使用者Profile倉庫等專案,這些奠定了鳳巢、網盟、搜索等核心業務的資料基礎,在開發實踐中積累了豐富的大資料經驗;加入高德後,參與過網路導航服務、 交通資訊處理與應用等專案,目前主要負責大資料架構的設計與開發以及交通資訊資料的挖掘與分析,帶領團隊構建了高德交通資訊的資料倉儲與資料開發平臺,並將交通資訊大資料應用新路識別、道路屬性修正等生產專案, 2014製作高德交通報告,引起媒體的廣泛傳播。 高德加入阿裡後,開始帶領團隊將雲計算向阿裡的雲平臺遷移。
周琦採訪實錄如下:
CSDN:您所在的公司,都曾使用過哪些大資料技術? 您對這些技術滿意的地方和不滿意的地方分別有什麼?
周琦:我們之前使用了Hadoop、HIVE、HBase、FLUME、KAFKA、Storm等技術,其優點不贅述,解決了海量資料的存儲與計算問題,streaming方式MR易於不同語言的程式師掌握,主要不滿意有幾點:
1)認證版權管理要麼過於複雜,要麼過於簡單,認證授權沒有真正落到實處,產生了很多安全問題。
2)Flume日誌採集不夠穩定,壓力與異常時容易出問題,常導致資料丟失或者重複。
3)HIVE系統依然存在bug,在海量資料下產生的一些資料異常甚至沒法被檢測到。
目前,我們已經開始使用阿裡雲的ODPS,OTS,TimeTunnel等基礎架構,充分利用阿裡的分散式存儲與計算資源,其優點是:
1)版權管理比較完善
2)資料獲取非常方便,與阿裡的其他設施可以便捷地對接
3)流式計算框架化簡了很多業務統計
但是也存在一些缺陷:
1)ODPS為了安全,增加了較多限制,沒有Hadoop自由。
2)ODPS對資料結構與語法的支援較HIVE弱
CSDN:根據您的瞭解,目前類似的企業中,在資料方面,遇到的最大困難是什麼?
周琦:我覺得大資料方面的困難主要有下面一些:
1)大資料平臺的運維是一個很複雜的工作,雖然目前分散式系統在災害復原與轉移方面做了很多的努力,但是依然容易出現故障,如何解決這些問題保持系統穩定可用依然是個難題。
2)資源的隔離與共享永遠是一個矛盾,如何滿足與控制不斷膨脹的計算與存儲需求非常考驗管理者與開發者的能力,成本、產出與效率的衡量是依然貫穿產品設計與開發的整個流程。
CSDN:在大資料領域,目前還有哪些技術是您正在觀察和研究的,為什麼您看好這些技術?
周琦:我們主要關注如下幾項技術:
1)NoSQL存儲的演化與發展方向。 去年Google發佈Spanner論文,指明瞭NoSQL存儲的發展方向,看起與SQL的界限越來越模糊,現有的NoSQL系統在功能與性能之前選擇了後者,但不代表開發者對分散式交易之類的功能沒有需求, 往往為了實現後者需要重複開發以滿足類似的需求。
2)即時查詢如Impala等系統的演化,很多情況下,回應時間決定了生產力,OLAP分析不能永遠依賴于預建模。
3)機器學習方面技術永遠值得我們學習,那是大資料的未來。
CSDN:請談談您在這次大會上即將分享的話題。
周琦:隨機城市機動車輛的增多,越來越多的城市開始進入「擁堵」時代,如何便捷地出行離不開導航地圖與即時交通資訊的支援。 我這次主要分享交通資訊大資料在生產與生活方面的應用。 高德目前擁有全國範圍的行業與公眾使用者回傳的GPS資料,我們是如何利用這些資料,它們產生了什麼價值,高德交通報告是如何出爐等等。
CSDN:哪些聽眾最應該瞭解這些話題? 您所分享的主題可以説明聽眾解決哪些問題?
周琦:希望對中國城市交通以及地理資訊大資料感興趣的聽眾提供一些説明,這次分享可以讓聽眾瞭解到交通資料怎麼幫我們解決出行問題,道路擁堵的規律與產生的原因。
CSDN誠邀您參加中國大資料有獎大調查活動,只需回答23個問題就有機會獲得最高價值2700元的大獎(共10個), 速度參與進來吧!
全國大資料創新專案評選活動目前也在如火如荼進行中,詳情點擊這裡。
2014中國大資料技術大會(Big Data Technology Conference 2014,BDTC 2014)將于2014年12月12日-14日在北京新雲南皇冠假日酒店召開。 傳承自2008年,歷經七屆沉澱,「中國大資料技術大會」是目前國內最具影響、規模最大的大資料領域技術盛會。 本屆會議,你不僅可以瞭解到Apache Hadoop提交者Uma Maheswara Rao G(兼專案管理委員會成員)、Yi Liu,以及Apache Hadoop和Tez專案管理委員會成員Bikas Saha等分享的通用大資料開源專案的最新成果和發展趨勢,還將斬獲來自騰訊、阿裡、Cloudera、LinkedIn、網易等機構的數十場乾貨分享。 當下門票團購還有些許優惠, 預購從速。
免費訂閱「CSDN大資料」微信公眾號,即時瞭解最新的大資料進展!
CSDN大資料,專注大資料資訊、技術和經驗的分享和討論,提供Hadoop、Spark、Impala、Storm、HBase、MongoDB、Solr、機器學習、智慧演算法等相關大資料觀點,大資料技術,大資料平臺,大資料實踐 ,大資料產業資訊等服務。