Time of Update: 2016-02-21
標籤:1.單臂路由 switch:Switch(config)#vlan 10Switch(config-vlan)#vlan 20Switch(config-vlan)#exitSwitch(config)#int f0/1Switch(config-if)#switch access vlan 10Switch(config-if)#int f0/2Switch(config-if)#switch access vlan 20Switch(config-if)#int f0/3Switch(
Time of Update: 2016-02-21
標籤:spark runtime(driver、masster、worker、executor)內幕解密內容:1、再論Spark叢集部署;2、Job提交解密;3、Job的產生和接受;4、Task的運行;5、再論Shuffle;從一個作業視角,透過Master、Drvier、Executor來透視Spark Runtime==========再論Spark叢集部署============官網中關於叢集的部署:650) this.width=650;"
Time of Update: 2016-02-21
標籤:spark on yarn徹底解密內容:1、Hadoop Yarn的工作流程解密;2、Spark on Yarn兩種運行模式實戰;3、Spark on Yarn工作流程解密;4、Spark on Yarn工作內幕解密;5、Spark on Yarn最佳實務;資源管理架構YarnMesos是分布式叢集的資源管理架構,和大資料沒關係,但是可以管理大資料的資源==========Hadoop
Time of Update: 2016-02-21
標籤:master ha徹底解密內容:1、Master HA解析;2、Master HA的四種方式;3、Master HA的內部工作機制;4、Master HA的源碼解密;本講主要源碼角度分析Master HA,因為在生產環境必然要做的==========Master HA解析============Spark是Master-Slave的結構650) this.width=650;" src="/e/u261/themes/default/images/spacer.gif"
Time of Update: 2016-02-21
標籤:driver在cluster模式下的啟動、兩種不同的資源調度方式源碼徹底解析、資源調度內幕總結內容:1、分配
Time of Update: 2016-02-21
標籤:spark executor內幕徹底解密內容:1、Spark
Time of Update: 2016-02-20
標籤:打通spark系統運行內幕機制迴圈流程內容:1、TaskScheduler工作原理;2、TaskScheduler源碼解密;Stage裡面有一系列任務,裡面的任務是並行計算的,邏輯是完全相同的,只不過是處理的資料不同而已。DAGScheduler會以Task方式提交給TaskScheduler(任務調度器)。650) this.width=650;" src="/e/u261/themes/default/images/spacer.gif" style="background:url(&
Time of Update: 2016-02-21
標籤:從spark架構中透視job內容:1、通過案例觀察Spark架構;2、手動繪製Spark內部架構;3、Spark Job的邏輯視圖解析;4、Spark Job的物理視圖解析;Action觸發的Job或者checkpoint觸發Job==========通過案例觀察Spark架構
Time of Update: 2016-02-20
標籤:記下來 不然以後又忘記了。 AnalysisEntry:總體調動,調類的順序;WordFrequenceInDoc:提取中文,分詞,去停詞,統計詞頻;在去停詞時,要做一個詞庫,my.dic或者stopword.dicWordCountsInDoc:統計每個文檔的單詞數目;WordsInCorpusTFIDF: 統計單詞在多少個文檔出現,計算TFIDF,建立詞表;SortTFIDF: 對TFIDF進行排序;CombinationKey,類是合成一個鍵(兩個欄位或多個欄位合成為一個key),
Time of Update: 2016-02-17
標籤:許多分散式運算系統都可以即時或接近即時地處理大資料流。本文將對三種Apache架構分別進行簡單介紹,然後嘗試快速、高度概述其異同。Apache Storm在Storm中,先要設計一個用於即時計算的圖狀結構,我們稱之為拓撲(topology)。這個拓撲將會被提交給叢集,由叢集中的主控節點(master node)分發代碼,將任務分配給工作節點(worker
Time of Update: 2016-02-16
標籤:http://www.36dsj.com/archives/40815這篇文章裡,有三位來自不同公司的大資料運營人員各自分享了他們運用大資料的經驗。這三位是來自維亞康姆(Viacom)的Luzzi、Globys公司的Olly Downs以及知名市場顧問公司Dunnhumby的CEO Andy
Time of Update: 2016-02-15
標籤: 大資料是指為決策問題提供服務的大資料集、大資料技術和大資料應用的總稱。 其中大資料集是指一個決策問題所用到的所有可能的資料,通常資料量大、來源多、類型多樣、有價值(4V特性) 大資料技術是指大資料資源擷取、儲存管理、挖掘分析、可視展現(可視化、報表、監控)等技術 大資料應用是指用大資料集和大資料技術來支援決策活動,是新的決策方法。 大資料究竟是什麼
Time of Update: 2016-02-13
標籤:雲端運算 大資料 視頻上傳 視頻分享 mp4格式 電腦 入行十幾年了,做了不少分布計算、並行計算、記憶體計算、海量資料處理的項目,按照現在的分類,這些都屬於雲端運算/大資料範疇。今天說說我做過的其中三個項目,只三個。
Time of Update: 2016-02-13
標籤:大資料 在資料庫時代,電腦在分布體系中的角色有明確劃分,不是客戶機就是伺服器,通常是一台伺服器連著多台客戶機,伺服器承擔儲存和計算的工作,客戶機負責顯示伺服器的處理結果。高效能的電腦,比如小型機會被做為伺服器,低端的電腦,如個人電腦成為客戶機。這就是以前經常說的Client/Server(客戶機/伺服器)結構。
Time of Update: 2016-02-10
標籤:大資料 hadoop 上午課程:6:00amHadoop MapReduce內幕解密:MR架構解密MR運行叢集研究JAVA操作MR實戰【隨課筆記】:一:基於Yarn的MapReduce架構1.MapReduce代碼程式是基於實現Mapper和Reducer兩大階段構成的,其中Mapper是把一個計算任務分解成很多小任務進行並行計算,Reduce進行最後的統計的工作的;2.Hadoop 2.x開始是基於Yarn啟動並執行(1
Time of Update: 2016-02-10
標籤:大資料 hadoop 本期內容:1 MapReduce架構解密2 MapReduce運行叢集研究3 通過Java編程操作MapReduce實戰Hadoop從2。0開始就已經必須運行在 Yarn上面了,1.0時根本不關心Yarn。現在是 MR,也是講Yarn的,而且已經是 基礎入門階段。零基礎已經過去了。明天開始 -
Time of Update: 2016-02-05
標籤:核心 spark 架構解密 只有知道核心架構的基礎上,才知道為什麼要這樣寫程式?手工繪圖來解密Spark核心架構通過案例來驗證Spark核心架構Spark架構思考650) this.width=650;" src="/e/u261/themes/default/images/spacer.gif"
Time of Update: 2016-02-05
標籤:ha spark 工作原理 Spark高可用HA實戰Spark叢集工作原理詳解資源主要指記憶體、CPU650) this.width=650;" src="/e/u261/themes/default/images/spacer.gif" style="background:url("/e/u261/lang/zh-cn/images/localimage.png")
Time of Update: 2016-02-03
標籤:spark運行原理和rdd解析Spark一般基於記憶體,一些情況下也會基於磁碟Spark優先會把資料放到記憶體中,如果記憶體實在放不下,也會放到磁碟裡面的不單能計算記憶體放的下的資料,也能計算記憶體放不下的資料實際如果資料大於記憶體,則要考慮資料放置策略和最佳化演算法,因為Spark初衷是一寨式處理小到5~10台的分布式大到8000台的規模,Spark都能運行大資料計算問題:互動式查詢(基於shell、sparkSQL)、批處理、機器學習和計算等等底層基於RDD,分布式彈性資料級,支援各種
Time of Update: 2016-02-02
標籤:(讀書筆記)許多公司,儘管想導入 Big Data,仍必須繼續用 Data Warehouse 來管理結構化的營運數據、系統記錄。而 Big Data 的出現,為 Data Warehouse 提供了一個互補的機會,而不是取代後者。高度結構化的營運資料 (data,數據),仍然可保留在 Data Warehouse 中;而分散式 (distributed) 的資料,以及會即時改變的資料,則可交由基於 Hadoop 的架構來控制。圖 1 傳統的 Data Warehouse 和 Data