Time of Update: 2015-12-15
標籤:資料定義 資料定義決定了被產生的資料。如果要建立簡單的字元,可以在兩個方括弧之間輸入字元定義:[資料] 資料可以是下列預先確定的集的混合體: • a: a..z (小寫字元)  
Time of Update: 2015-12-11
標籤:它已被用於Oracle一世。但今天,很驚訝,MySQL在對數量級的效能,甚至差距如此之大不同的順序相同的功能。看看錶ibmng(id,title,info) 只要 id key 指數title看看兩個語句:select * from ibmng limit 1000000,10select * from ibmng limit
Time of Update: 2015-12-07
標籤:
Time of Update: 2015-12-03
標籤:一、概述分表是個目前算是比較炒的比較流行的概念,特別是在大負載的情況下,分表是一個良好分散資料庫壓力的好方法。首先要瞭解為什麼要分表,分表的好處是什麼。我們先來大概瞭解以下一個資料庫執行SQL的過程:接收到SQL --> 放入SQL執行隊列 --> 流量分析器分解SQL --> 按照分析結果進行資料的提取或者修改 -->
Time of Update: 2015-12-16
標籤:王家林 王家林spark 王家林語錄 Spark一體化多元化的解決方案極大的減少了開發和維護的人力成本和部署平台的物力成本,並在效能方面有極大的優勢,特別適合於迭代計算,例如機器學習和和圖計算;同時Spark對Scala和Python互動式shell的支援也極大的方便了通過shell直接來使用Spark叢集來驗證解決問題的方法,這對於原型開發至關重要,對資料分析人員有著無法拒絕的吸引力!本
Time of Update: 2015-12-16
標籤:王家林 王家林spark 王家林語錄 SparkContext是使用者程式和Spark互動的介面,它會負責串連到Spark叢集,並且根據系統預設配置和使用者佈建來申請計算資源,完成RDD的建立等工作。本文出自 “王家林大資料語錄”
Time of Update: 2015-12-16
標籤:王家林 王家林spark 王家林語錄 RDD的saveAsTextFile方法會首先產生一個MapPartitionsRDD,該RDD通過雕工PairRDDFunctions的saveAsHadoopDataset方法向HDFS等輸出RDD資料的內容,並在在最後調用SparkContext的runJob來真正的向Spark叢集提交計算任務。本文出自 “王家林大資料語錄”
Time of Update: 2015-12-16
標籤:王家林 王家林spark 王家林語錄 可以從兩個方面來理解RDD之間的依賴關係,一方面是RDD的parent RDD(s)是什麼,另一方面是依賴於parent RDD(s)哪些Partions(s); 根據依賴於parent RDD(s)哪些Partions(s)的不同情況,Spark講Dependency分為寬依賴和窄依賴兩種。本文出自
Time of Update: 2015-12-16
標籤:王家林 王家林spark 王家林語錄 在Spark的Stage內部的每個Partition都會被分配一個計算任務Task,這些Task是並存執行的; Stage之間的依賴關係變成了一個大粒度的DAG,Stage只有在它沒有parent Stage或者parent Stage都已經執行完成後才可以執行,也就是說DAG中的Stage是從前往後順序執行的。本文出自
Time of Update: 2015-12-16
標籤:王家林 王家林spark 王家林語錄 在Spark的reduceByKey操作時會觸發Shuffle的過程,在Shuffle之前,會有本地的彙總過程產生MapPartitionsRDD,接著具體Shuffle會產生ShuffledRDD,之後做全域的彙總產生結果MapPartitionsRDD本文出自 “王家林大資料語錄” 部落格,請務必保留此出處http://wangjialin2dt.
Time of Update: 2015-12-16
標籤:王家林 王家林spark 王家林語錄 park中的Task分為ShuffleMapTask和ResultTask兩種類型,在Spark中DAG的最後一個Stage內部的任務都是ResultTask,其餘所有的Stage(s)的內部都是ShuffleMapTask,產生的Task會被Driver發送到已經啟動的Executor中執行具體的計算任務,執行的實現是在TaskRunner.run方
Time of Update: 2015-12-16
標籤:王家林 王家林spark 王家林語錄 Spark中產生的不同的RDD中有的喝使用者的邏輯顯式的對於,例如map操作會產生MapPartitionsRDD,而又的RDD則是Spark架構協助我們隱式產生的,例如reduceByKey操作時候的ShuffledRDD.本文出自 “王家林大資料語錄” 部落格,請務必保留此出處http://wangjialin2dt.blog.51cto.com/
Time of Update: 2015-12-16
標籤:王家林 王家林spark 王家林語錄 Spark Checkpoint通過將RDD寫入Disk做檢查點,是Spark lineage容錯的輔助,lineage過長會造成容錯成本過高,這時候在中間階段做檢查點容錯,如果之後有節點出現問題而丟失分區,從做檢查點的RDD開始重做Lineage,就會減少開銷。Checkpoint主要適用於以下兩種情況:1. DAG中的
Time of Update: 2015-12-12
標籤:來自原大資料王家林視頻視頻 23講var triple = (x : Double) => 3 *x //> triple : Double => Double = Array(3.14,1.42, 2.0).map((x : Double) => 3 *
Time of Update: 2015-12-10
標籤:hadoop 大資料 雲端運算 IT十八掌《大資料內功修鍊系列課程》強勢推出!由實戰派名師徐培成親自操刀,學完做不了大資料我們負全責!2015.12.21前,優惠價:4999(名額已不多!)2015.12.31前,優惠價:69992015.12.31後,市場最低價:9999查看詳情:http://www.it18zhang.com/classinfo?nav=10 諮詢QQ:8418842
Time of Update: 2015-12-07
標籤:scala 中包匯入._ 類似與java中.* 如下樣本中不能直接在animal包下TT類中new Navigator 如果要調用必須先new 出外部類package spark{ package navigation { private[spark] classHello { private[spark] class Navigator
Time of Update: 2015-12-07
標籤:大資料是用scala語言,和java有些不同又比java強大,省去了很多繁瑣的東西,scala中的的介面用trait來定義,不同於java的介面,trait中可以有抽象方法也可以有不抽象方法。scala中的方法中還可以定義方法,這在java中是從來沒有的。大資料未來幾年發展的重點方向,大資料戰略已經在十八屆五中全會上作為重點戰略方向,中國在大資料方面才剛剛起步,但是在美國已經產生了上千億的市場價值。舉個例子,美國通用公司是一個生產飛機發動機的一個公司,這家公司在飛機發動機的每一個零組件上都
Time of Update: 2015-12-05
標籤:原視頻教程中多重繼承相對比較好理解,主要AOP切面編程過程需要好好理解以下是具體執行個體:trait Action{ def doAction}trait BeforeAfter extends Action{ abstract override def doAction
Time of Update: 2015-12-03
標籤:trait 類似於Java 中的Interface 但有差別 trait可以繼承trait並且在trait 可以寫抽象的方法,也可以具體實現方法 執行個體如下trait Walk{ def walk(){}}class person extends Walk{ println("hello -----") override def walk(){println("Let‘s have a walk")}}trait Run extends
Time of Update: 2015-12-02
標籤:子類繼承父類 要完成父類參數的填充class Person(val name : String ,val age : Int){ println("father‘s constructor") val Class = "first class " def read = "10 hours" override def toString = "I am a goodperson"}class Stu(nameStu : String,ageStu :