最後更新:2015-03-19
來源:互聯網
上載者:User
關鍵字
大資料
Hadoop
Spark
BDTC
BDTC2014
【CSDN現場報導】2014年12月12-14日,由中國電腦學會(CCF)主辦,CCF大資料專家委員會承辦,中科院計算所與CSDN共同協辦,以推進大資料科研、應用與產業發展為主旨的2014中國大資料技術大會(Big Data Tec就hnologyConference 2014,BDTC 2014)暨第二屆CCF大資料學術會議在北京新雲南皇冠假日酒店盛大開幕。
2014中國大資料技術大會第二日上午大資料技術論壇上,百度大資料部副總監薛正華和中國移動集團公司業務支撐系統部專案經理何鴻淩共同主持了上午的論壇。 網易NTSE/TNT引擎負責人胡煒、英特爾大資料首席架構師戴金權,VMware資深業務解決方案架構師介文清,搜狐移動研發部經理劉佳, Admaster技術副總裁盧億雷5位專家主要專注于大資料技術展開演講。
大資料技術論壇主持人:百度大資料部副總監 薛正華
大資料技術論壇主持人:中國移動集團公司業務支撐系統部專案經理 何鴻淩
胡煒:網易資料庫壓縮技術
12月14日,在大資料技術論壇上午的演講中,網易NTSE/TNT引擎負責人胡煒發表主題為「網易資料庫壓縮技術」的演講。 胡煒認為理想中的壓縮技術應該是無論你提供哪種壓縮技術,它都應該是智慧化的、在資料的壓縮、解壓以及在壓縮資料訪問達到高效率、無論用什麼方式去壓縮和解壓,都要保持靈活性。
網易NTSE/TNT引擎負責人 胡煒
對於資料庫壓縮特點,胡煒總結出五點:
無失真壓縮技術。 一般來說資料庫壓縮一般會採用通用演算法;資料分佈影響。 它代表內容的隨機性,代表了所謂壓縮的極限,其實不同的資料對採用不同的壓縮演算法,可能會導致它的資料最後壓縮效果會有很大的差別。 如果我是一個非常非常冗余的資料,最後可能會得到非常好的壓縮效果;硬體影響。 硬體對於壓縮來說,也是一個非常重要的影響因素。 因為無論是存儲,還是CPU,還是記憶體,隨著日新月異的發展,它其實對壓縮演算法的選擇來說,會有一個非常大的導向性。 壓縮單位。 壓縮單位對資料庫壓縮有非常大的影響,它可以做到像整個檔級的壓縮,或者說是一個資料表級別的壓縮,或者是做到像塊級別,頁面級別的壓縮。 甚至更小到行級的,到一個屬性級別的壓縮。 採用不同的壓縮單位,也相當來說對於這樣的壓縮來說,會產生比較大的不同。 吞吐率要求。 資料庫壓縮對吞吐率要求非常高,無論選擇哪種演算法,都不能過多地犧牲吞吐率。 如果你採用檔案壓縮的策略,如果每次訪問都要去解壓整個檔,那可能是一個得不償失的做法。
最後,胡煒介紹網易大資料壓縮方式是在全域建立字典上,通過區分資料屬性進行靈活的在線壓縮、解壓,訪問效率相比傳統壓縮提高2倍到10倍左右。 接下來,胡煒計畫通過更多的統計資訊,實現採集字典的自動劃分功能。
戴金權:基於Spark軟體棧的下一代大資料分析
英特爾大資料首席架構師 戴金權
英特爾大資料首席架構師戴金權表示,大資料深入分析大致分為兩類:類似SQL資料分析,進行關聯式雲運算;達到即時、快速的資料分析速度。 他認為,利用Spark構建下一代大資料分析,能夠為使用者構建新的應用場景及新的分析應用,並舉例說明Spark與SQL結構式資料結合的方式,對
Hive和Parquat進行資料處理。
介文清:12306:改變傳統思路解決問題的NoSQL實踐
介文清以12306為例展開演講,介紹如何運用NoSQL建設余票查詢系統、訂單查詢系統,並且,實現每秒1萬次訂單查詢、余票10分鐘更新一次的頻率。
VMware資深業務解決方案架構師 介文清
介文清表示傳統設計的系統架構無法解決,12306網站資料流量問題。 系統切換時,將SQL資料庫進行抽取,送到NoSQL集群中,資料量進行並行運算,開始新舊系統工作負載在90%—10%之間,運行正常之後可完全放在新系統中運行。
劉佳:基於全網內容的新聞用戶端推薦系統
劉佳針對新聞用戶端遇到的內容分類品質識別圖文、視頻、音訊、遊戲、資料稀疏、內容冷啟動、使用者冷啟動、噪音處理:三俗內容等棘手問題的處理方式展開演講。
搜狐移動研發部經理 劉佳
首先,劉佳介紹搜狐移動端新聞推薦的兩個特點:
廣告系統。 廣告系統,搜狐追求轉化率、輔助指標ROI、使用者效果。 搜索系統。 搜尋引擎中,追求對內容理解、內容爬取、文本關鍵字主題提取、文本分類、主題分類、內容索引、垃圾過濾、page rank、反作弊等等。
隨後,劉佳介紹新聞推薦系統中三俗內容的處理方式,他說:「推薦系統出現三俗內容,可以提高18%-20%的轉化率,雖然可以暫時提高點擊率,但是對使用者的粘性有很大的影響。 我們會通使用者閱讀分佈、使用者屬性分佈統計性和精細化的分類進行篩選三俗內容。 整體處理後,轉化率下降到15%,推薦總量提升20%,使用者使用頻次也有20%的提升。 」
盧億雷:Hadoop在廣告監測技術的實踐
盧億雷圍繞廣告行銷資料流程程、廣告監測技術特點、廣告監測資料差異、廣告資料採礦平臺架構、ADH在廣告行銷資料採礦的特、AdMaster資料分析平臺六點展開演講。
Admaster技術副總裁 盧億雷
演講中,盧億雷表示,ADH是針對廣告行業做出來的Hadoop,他有以下五個特點:
日誌資訊或資料放在Hadoop裡,會自動生成所需要的資料格式;內置廣告演算法,MR可以提供Hadoop服務;對於HBase做出改造,例如專案排序、專案索引等做出相應優化;優化Hadoop調度系統;集成Spark。
在廣告監測資料中,盧億雷總結出:不同IP庫系統導致出現不同地域結論;監測代碼部署時點的不同;監測機制和指標定義的差異;移動APP較不穩定的網路環境等是導致資料差異的主要因素。
更多精彩內容,請關注直播專題2014中國大資料技術大會(BDTC) ,新浪微博@CSDN雲計算,訂閱CSDN大資料微信號。