最後更新:2015-03-19
來源:互聯網
上載者:User
關鍵字
大資料
BDTC
BDTC2014
雲PPT集錦
從2008年60人規模的「Hadoop in China」技術沙龍,到當下數千人規模的行業技術盛宴,七屆BDTC(大資料技術大會)完整地見證了中國大資料技術與應用的變革,忠實地描繪了大資料領域內的技術熱點, 沉澱了無數極具價值的行業實戰經驗。 同時,2014年12月12至14日,第八屆中國大資料技術盛會將一如既往的引領當前領域內的技術熱點,分享行業實戰經驗。
為了更好地洞悉行業發展趨勢,瞭解企業技術挑戰,在BDTC 2014召開前夕,我們將帶大家一起對歷屆大會沉澱的知識進行挖掘,分享各IT巨頭在大資料領域的探索之路。
大資料為企業的發展帶來巨大商機的同時,也對大資料的技術提出了嚴峻的挑戰,這裡將為大家送上歷屆中國大資料技術大會PPT精粹的大資料技術篇。
以下為歷屆中國大資料技術大會PPT精粹的大資料技術篇:
阿裡搜索事業部高級技術專家王峰:阿裡搜索即時流計算技術
PPT下載 ——2013年第七屆BDTC
王峰介紹了阿裡搜索流計算技術iStream誕生的業務背景,他重點從五個方面對iStream的計算模型進行了詳解講解,這也是一淘首次對外展示iStream計算模型:基本概念、拓撲結構、消息管理、進度管理、程式設計介面。 iStream的設計遵循了「計算和存儲分層、計算之間解耦」、「計算層間採用持久化分散式訊息佇列進行消息傳遞」的理念,上下游計算解耦、不互相阻塞進度,使得新業務更加方便接入;持久化的消息流, 也方便了多業務共用資料以及問題的追查。
IBM Big Data Solutions專案總監George Lapis:利用大資料提取有效見解
PPT下載 ——2012年第六屆BDTC
Big Data Solutions專案總監George Lapis首先介紹了現在社會的智慧化,到2020年資訊總量將達到35ZB,且大資料並不是針對固定的人員,可針對客服、市場、分析師等。 他指出IBM的大資料將傳統資料庫優化,可以分析和解決傳統資料庫不能解決的非結構化資料問題。 IBM通過對資訊的分析中找到了大資料競爭的優勢,據IBM調查,從2010年至2012年間,有28%的公司開始了大資料相關工作,47%的公司開始計畫大資料相關工作,只有24%的公司沒有大資料相關的工作。 在大資料的使用中,49%的公司通過大資料實現客戶的管理,18%的公司通過大資料來實現運行的優化,剩下的33%通過大資料來實現風險金融的管理,員工的協作等。
英特爾亞太研發有限公司大資料部門夏俊鸞:Spark——基於記憶體的下一代大資料分析框架
PPT下載 ——2013年第七屆BDTC
夏俊鸞介紹,早在2011年Intel就開始貢獻Spark專案,當下Intel中國已擁有Spark專案的3個提交者、7個貢獻者,其貢獻的patch已有70+。 在詳細介紹Spark之前,夏俊鸞舉了一個很有意思的例子,如果把大資料系統比作是手機,那MapReduce只能算是個功能機,而隨後出現的Drill、Impala、S4、Storm則是在MapRedcue上各種功能的增強。 他重點對使用者在使用Spark時經常關心的幾個方面進行瞭解釋,包括性能、學習成本、穩定程度、假如記憶體不足、容錯性和相容性等方面。 在最後的現場互動環節,被問及Intel為什麼這麼大力發展Spark專案時,夏俊鸞解釋說,Intel會挑選部分發展趨勢良好的開源專案並加入進去,這樣做能讓Intel在未來競爭中保持一定的話語權。
百度基礎架構部資料平臺技術經理劉立萍:百度大資料平臺介紹
PPT下載 ——2012年第六屆BDTC
劉立萍主要介紹了百度大資料平臺的技術和應用,重點分析了資料倉儲本身和多分析引擎。 基於Hive的資料倉儲,目前重要的工作,一是資料質地,內容大於平臺,要建立整個模型,比如主題、裸機、物理存儲等,要考慮什麼形勢,怎麼減,會不會遮罩這些問題等;另一方面,為了滿足後續對資料的需求,一定要考慮實效性的問題。 在資料倉儲後面,還需要做資料內容層面上的工作,把資料覆蓋率提升,把整個公司的這種引用的東西存儲在裡面,資料模型不斷地完善,去建設,面向應用的場景和資料模型要建好。
奇虎360技術經理趙健博:奇虎360超大規模HBase集群增強與改進
PPT下載 ——2013年第七屆BDTC
趙健博重點從七個方面對奇虎360近一年來在HBase上作出的改進進行了詳細介紹:專屬MetaServer、啟動優化、Scan、Compaction、保護模式、用戶端超時保證、索引預載入。 根據奇虎360的HBase使用經驗,他給大家提出了4條有説明的建議:根據預期規模,預先創建region;控制region的數量與大小;控制compaction時機與資料:低峰時操作、避免重複IO ;即時監控region健康情況,保持In meta與on server的一致性。 未來他們仍繼續結合業務在減少region的數量、隨機讀優化(減少讀資料量)、二級索引、服務可用性等方面對HBase進行功能改進。
網易高級經理蔡迎東:大型內容推薦系統實踐
PPT下載 ——2012年第六屆BDTC
蔡迎東介紹了網易大型內容推薦的技術選型主要有兩種:一種是基於內容的推薦系統(對使用者和物品分別建模、算物品和使用者的模型的相似度、把和使用者的模型相似度最高的物品推薦給使用者);另一種是基於協同過濾的推薦系統(與系統的業務無關、 根據使用者的訪問記錄來挖掘出相似度)。 根據各種評選,公司最終選定了新聞推薦(基於內容的推薦)、圖集和視頻推薦(基於協同過濾的推薦)。 蔡迎東還詳細的介紹了技術是如何實現的,從門戶的使用者訪問日誌中挖掘出使用者的興趣,構建使用者的興趣模型,並採用Hadoop&Hive作為資料採礦工具。
秒針技術經理劉誠忠:RunningCloudera Impala on PostgreSQL
PPT下載 ——2013年第七屆BDTC
劉誠忠解釋了秒針關注大資料的原因,及其對大資料的探索。 他介紹說,當初選擇Cloudera Impala作為專案Camaro開發的基礎時,主要考慮到了Cloudera Impala具備以下幾個優勢:較好的代碼范、模組清晰、容易定制、比Hadoop的速度更快、分散式的執行樹等。 接著,他從前端、後端等方面對Camaro進行了介紹,並給出了Camaro性能、索引、多使用者查詢等方面的資料。 最後,他為大家帶來了Camaro的未來功能展望,如Yarn集成、UDF等,值得期待。
巨杉資料庫CTO王濤:基於Cloudera Impala的非關聯式資料庫SQL執行引擎
PPT下載 ——2013年第七屆BDTC
王濤介紹了Impala實踐:SequoiaDB是一種文檔類的NoSQL資料庫,SequoiaSQL則是基於開源專案Cloudera Impala開發的SQL執行引擎。 SequoiaSQL不僅僅是「SQL-on-Hadoop」、支援JDBC、相容Hive驅動,相對Cloudera Impala而言,在下面四點進行了功能增強:加入SequoiaDB與關聯式資料庫的讀寫介面、 將metastore嵌入SequoiaDB、增加Update/Delete/Merge語句、查詢謂詞下壓,利用資料庫索引提升性能。 測試資料表明,SequoiaSQL相對Hive的性能來說,能夠達到10倍以上的提升。 最後,他也分享了未來的產品計畫,如支援聚合下壓、排序下壓、支援巢狀型別、支援陣列類型等,最終將進行基於成本的性能優化。
Informatica核心技術部資深產品管理總監鄭瑋:資料整合為Hadoop保駕護航
PPT下載 ——2012年第六屆BDTC
鄭瑋認為運用大資料可以做兩件事,創新和降低成本。 創新是讓不同的企業運用大資料做利於我們生活工作的事情,可以利用大資料進行欺詐偵查,風險、投資組合分析,投資推薦,即時資料審計,預測維護維修,基因測序,互聯車輛等創新。 降低成本則有多種途徑:可通過將原始資料臨時存儲在低成本的商用硬體上;將ETL/ELT 處理轉移到低成本的商用硬體上;借助即時資料整合,平滑實現ETL處理;借助高速資料複製,從源系統中卸載處理;借助通用的IDE, 將生產效率提升兩倍,開發人員通過一次開發,即可實現隨地部署;消除資料副本,通過資料虛擬化提升資料倉儲能力來降低資料管理成本。 鄭瑋指出要權衡好大資料的創新和降低成本。
啟明星辰公司副總裁、首席戰略官潘柱廷:攻擊大資料
PPT下載 ——2012年第六屆BDTC
大資料的安全和隱私問題是永遠的問題,隨著資料的增多,組織面臨的重大風險跨越了一個複雜的威脅面,要遵守更多合規規定,傳統的資料保護方法常常無法滿足。 我們要學會用安全思維去考慮大資料的安全問題,包括三要素(資產、威脅和安全措施)、立場性(博弈、對抗、合作,價值是有歸屬的,意圖和隨機擾動)、時空與知識(分佈和層次、生命週期、流和用例、知識維簇)和經典手段(認證加密類、 攻防檢測類、系統化風險管理類)。 潘柱廷認為攻擊大資料主要是從系統平面、服務平面和資料平面三個方面入手,並對此進行了詳細的展開介紹。
2014年12月12-14日,由中國電腦學會(CCF)主辦,CCF大資料專家委員會協辦,中科院計算所與CSDN共同承辦的第八屆中國大資料技術大會(Big Data Technology Conference 2014,BDTC 2014)將在北京新雲南皇冠假日酒店隆重舉辦。 本屆大會將圍繞「大資料基礎建設」、「大資料生態系統」、「大資料核心技術」、」大資料應用之互聯網技術實踐」、」大資料應用之傳統企業技術實踐」等議題展開,近百位專家將親臨現場,分享他們的技術實戰。 更多優惠,速來註冊!
中國大資料技術大會PPT集萃系列文章:
BDTC PPT集萃(一):BAT、華為、網易等分享的大資料架構
BDTC PPT集萃(二):Facebook、LinkedIn等分享的大資料架構
BDTC PPT集萃(三):BAT、IBM、Intel等分享的大資料技術
免費訂閱「CSDN雲計算(左)和CSDN大資料(右)」微信公眾號,即時掌握第一手雲中消息,瞭解最新的大資料進展!
CSDN發佈虛擬化、Docker、OpenStack、CloudStack、資料中心等相關雲計算資訊, 分享Hadoop、Spark、NoSQL/NewSQL、HBase、Impala、記憶體計算、流計算、 機器學習和智慧演算法等相關大資料觀點,提供雲計算和大資料技術、平臺、實踐和產業資訊等服務。