Time of Update: 2016-04-28
標籤:培訓Spark架構開發!從基礎到進階,一對一培訓![技術QQ:2937765541]
Time of Update: 2016-04-28
標籤:培訓大資料架構開發、挖掘分析!從零基礎到進階,一對一培訓![技術QQ:2937765541]
Time of Update: 2016-04-20
標籤:培訓大資料架構開發、挖掘分析!從零基礎到進階,一對一培訓![技術QQ:2937765541]
Time of Update: 2016-05-03
標籤:總結 以上從多個角度闡述了Laxcus主要組成部分和應用情況。所有設計都是基於現實環境下的評估、對比、測試和考量。設計的基本思路很明確,就是將各項功能分解、細化、歸類,形成一個個可以獨立、小的模組,每個模組承擔一項職能,再把這些模組組織起來,在一個松耦合架構管理下,協同合作,來完成大規模的資料存放區和計算工作。 設計中的主要問題源自有限的基礎設施和變化中的應用需求之間的矛盾。如何在不損失處理效能的前提下,將有限的基礎設施資源使用率做到最大化,是設計考慮的重點。這也是一個和硬體密切相關的
Time of Update: 2016-05-02
標籤:1、使用者畫像:使用者資訊標籤化。2、使用者畫像可以做什嗎? ——內容正在整理中 3、show命令用法show tables 顯示所有表 例:show table like ‘…_pre_food’;show partitions 顯示所有分區 例:show partitions fdm_prd_food
Time of Update: 2016-05-02
標籤:1、YARN:將資源管理和作業調度/監控分成兩個獨立的進程。 包含兩個組件:ResourceManager和ApplicationMaster2、YARN的特性: 1)可擴充性;2)高可用性(HA);3)相容性(1.0版本的作業也可以執行);4)提高叢集利用率;5)支援MapReduce編程範式。3、Hadoop的進程: 1)NameNode HDFS的守護進程; 2)Secondary
Time of Update: 2016-04-30
標籤:大資料計算:如何僅用1.5KB記憶體為十億對象計數 Big Data Counting: How To Count A Billion Distinct Objects Using Only 1.5KThis is a guest post by Matt Abrams (@abramsm), from Clearspring,
Time of Update: 2016-04-30
標籤:本篇繼續討論對使用者移動規律的理解:結合地理建模和矩陣分解來做興趣點推薦。
Time of Update: 2016-04-30
標籤:跟上節奏
Time of Update: 2016-04-29
標籤:第八章 安全 由於安全問題對大資料系統乃至當前社會的重要性,我們在Laxcus
Time of Update: 2016-04-29
標籤:大規模網路搜尋的設計大規模搜尋引擎的邏輯結構 來自1998年Google兩個創始人發表的論文。crawler:爬蟲,從互連網上擷取文檔資訊index:讀取這些資訊,並記住哪些單詞出現在哪些文檔中,稱為索引search:使關鍵詞查詢成為可能,並對查詢結果進行排序Google的獨特性在於:使用anchor
Time of Update: 2016-04-29
標籤:第七章 分布工作群組件 Laxcus
Time of Update: 2016-04-29
標籤:第六章 網路通訊 Laxcus大資料管理系統網路建立在TCP/IP網路之上,從2.0版本開始,同時支援IPv4和IPv6兩種網路地址。網路通訊是Laxcus體系裡最基礎和重要的一環,為了能夠利用有限的網路資源,獲得最大化的使用效率,我們根據大資料網路環境的特點,設計了一套專屬網路通訊協定,以及在此協議基礎上實現的多套網路通訊方案,它們共同組成了Laxcus叢集的網路通訊基礎。本章將以TCP/IP協議為起點,介紹與網路通訊有關的各個組成部分。6.1
Time of Update: 2016-04-29
標籤:再來說下Data Integration開發過程,批處理Data Integration和ETLData Integration生命週期1 確定項目的範圍 2 概要分析 生命週期的第二個部分常常會被忽略,即概要分析。因為Data Integration被視作一門技術活,而組織通常會對授權訪問生產資料比較敏感,因此,為了開發資料介面而對當前儲存於可能的源和目標系統的資料進行分析可能是件比較困難的事情。
Time of Update: 2016-04-28
標籤:背景資訊什麼是使用者行為資料,使用者行為資料是怎麼積累的。為什麼我們需要研究使用者理解以及為什麼使用者理解這麼重要。在第二部分,我會介紹我們最近關於移動規律理解應用的研究工作。例如,怎樣處理使用者軌跡中的資料缺失問題,怎麼樣為使用者推薦有趣的地點。在最後一部分,我會展示我們近期在使用者分析和隱私保護方面的研究項目。 這張圖展示了每分鐘使用者在一些網站上產生的資料量。使用者資料是怎麼樣收集的
Time of Update: 2016-04-25
標籤:大資料加減乘除項目名稱 大數計算機*************************************************大數計算的底層採用stringObject Storage Service, 將整型資料轉換為字元型進行儲存運算的加減;採用逐位進行加減, 設計標記位, 標記進位與借位的方式;乘除在加減的基礎上控制迴圈的次數完成對資料的處理#include<iostream>#include<cassert>#include<string>
Time of Update: 2016-04-26
標籤: 為大資料和較新的快速資料架構提供基礎設施並不是一個餅乾切割的問題。兩者對硬體和軟體基礎設施都有著顯著的調整或改變。 較新的快速的資料架構與大資料架構有著顯著區別,並且快速資料提供了真正的聯機交易處理工具。理解大資料和快速資料需求的變化能夠協助你做出正確的硬體和 軟體選擇。 大資料架構 相比企業在以往通常收集資料的方法,大資料是通過更大的資料容量,分析和獲得更大的洞見的過程,大部分的資料(例如,社會媒體有關客戶的資料)是可訪問的
Time of Update: 2016-04-25
標籤:”在這個資訊多元化的時代,單純運用cookie來識別使用者行為的方式已經過時了。” 最近被人提問,為什麼檢索了某個關鍵詞後,開啟其他網站也會收到這個關鍵詞相關的推廣呢?於是上網查閱資料,大概是用cookie可以實現。可是,我剛剛瞭解到的知識,在人家幾年前寫的書中已經被稱為“過時”的方式了,不由得深深感歎時代變化之快,真的是一刻都不能鬆懈,要多學習,多學習,多學習呀~《決戰大資料》讀書筆記(二) cookie識別使用者行為已經過時
Time of Update: 2016-04-23
標籤: 對於資料科學來說,現在是發展的黃金時期。這是個新領域,但增長迅速,同時資料科學家的缺口也很大,據說他們的平均年薪可以達到10萬美元。哪裡有高薪,哪裡就吸引人們,但是資料科學技能的差距意味著許多人需要努力學習。 第一步當然是詢問“我怎麼學習資料科學”,這個問題的答案往往是一長串的課程和書籍閱讀,從線性代數到統計資料,這幾年我也是這樣學習過來的。我沒有編程背景,
Time of Update: 2016-04-23
標籤:ProtoBuf的使用和原理 簡介 Protobuf是一個靈活的、高效的用於序列化資料的協議。相比較XML和JSON格式,protobuf更小、更快、更便捷。Protobuf是跨語言的,並且內建了一個編譯器(protoc),只需要用它進行編譯,可以編譯成Java、python、C++等代碼,然後就可以直接使用,不需要再寫其他代碼,內建有解析的代碼。一條訊息資料,用protobuf序列化後的大小是json的10分之一,xml格式的20分之一,是二進位序列化的10分之一。 安裝