摘要: 如果你初來乍到,巨量資料看起來很嚇人!根據你掌握的基本理論,讓我們專注於一些關鍵字詞以此給你的約會物件、老闆、家人或者任何一個人帶來深刻的印象。讓我們開始吧:1.演算法。“演算法”如何與巨量資料相關?即使演算法是一個通用字詞,但巨量資料剖析使其在當代更受青睞和流行。
如果你初來乍到,巨量資料看起來很嚇人!根據你掌握的基本理論,讓我們專注於一些關鍵字詞以此給你的約會物件、老闆、家人或者任何一個人帶來深刻的印象。
讓我們開始吧:
1.演算法。“演算法”如何與巨量資料相關?即使演算法是一個通用字詞,但巨量資料剖析使其在當代更受青睞和流行。
2.剖析。年末你可能會收到一份來自信用卡公司寄來的包含了全年所有交易記錄的年終報表。如果你有興趣進一步剖析自己在食物、衣服、娛樂等方面具體花費占比呢?那你便是在做“剖析”了。你正從一堆未經處理資料中來吸取經驗,以說明自己為來年的消費做出決策。如果你正在針對整個城市人群對Twitter或Facebook的文章做同樣的練習呢?那我們便是在討論巨量資料剖析了。巨量資料剖析的實質是利用大量資料來進行推斷和講故事。巨量資料剖析有3種不同到的類型,接下來便繼續本話題進行依次討論。
3.標題性剖析。剛剛如果你告訴我,去年你的信用卡消費在食物上花費了25%、在服裝上花費了35%、娛樂活動上花費了20%、剩下的就是雜七雜八的事項,這種便是標題性剖析。當然你還可以參考其他的細節。
4.預測性分析。如果你根據遲交5年的信用卡記錄來進行剖析,並且劃分具有一定的連續性,則你可以高概率預測明年將與遲交幾年相差無幾。此處需要注意的細節是,這並不是“預測未來”,而是未來可能會發生的“概率”。在巨量資料預測性分析中,資料科學家可能會使用類似機器學習服務、進階的統計程序(後文將對這些字詞進行介紹)等先進的技術去預測天氣、經濟變化等。
5.規格剖析。沿用信用卡交易的案例,你可能想要找出哪方面的費用(級食品、服裝、娛樂等)對自己的整體費用產生巨大的影響。規格剖析建立在預測性分析的基礎之上,包含了“行動”記錄(例如減少食品、服裝、娛樂費用),並剖析所得結果來“規定”最佳類別以減少母體費用。你可以嘗試將其發散到巨量資料,並設想高管們如何通過查看各種行動的影響來做出資料驅動的決策。
6.批次處理。雖然批量資料處理在大型電腦年齡就早已出現,但巨量資料交給它其他巨量資料集處理,因此賦予了批次處理其他的意義。對於一段時間內收集到的一組交易,批量資料處理為處理大量資料提供了一種有效方法。後文將介紹的MaxCompute便是專注於批量資料處理。
7.Cassandra是由ApacheSoftware Foundation管理的一款流行的開來源資料庫管理系統。很多巨量資料技術都歸功於Apache,其中Cassandra的設計初衷便是處理跨分散式伺服器的大量資料。
8. 雲端運算。顯而易見雲端運算已經變得無所不在,所以本文可能無須贅述,但為了本文的完整性還是佐以介紹。雲端運算的本質是在遠端伺服器上啟動並執行軟體和(/或)資料託管,並允許從互連網上的任何地方進行存取。
9. 集群計算。它是一種利用多台伺服器的彙集資源的“集群”來進行計算的奇特方式。在瞭解了其他技術之後,我們可能還會討論節點、集群管理層、負載平衡和平行處理等。
10. 黑暗資料。依我看來,這個詞適用於那些嚇得六神無主的進階管理層們。從根本上來說,黑暗資料是指那些被企業收集和處理但又不用於任何有意義用途的資料,因此標題它是“黑暗的”,它們可能永遠被埋沒。它們可能是社交網路資訊流、話務中心日誌、會議筆記,諸如此類。人們做出了諸多估計,在60-90%的所有企業資料都可能是“黑暗資料”,但無人真正知曉。
11. 資料湖。當我第一次聽到這個詞的時候,我真的以為有人在開愚人節的玩笑。但它真的是個字詞!資料湖是一個原始格式的企業級數據的大型存放庫。雖然此處討論的是資料湖,但有必要再一起討論下資料倉儲,因為資料湖和資料倉儲在概念上是極其相似的,都是企業級數據的存放庫,但在清理和與其他資料來源整合之後的結構化格式上有所區別。資料倉儲常用於標準資料(但不完全)。據說資料湖能夠讓用戶輕鬆存取企業級數據,用戶真正按需知道自己正在尋找的是什麼、如何處理並讓其智慧化使用。
12. 資料採礦。資料採礦是指利用複雜的圖樣辨識技術從大量資料中找到有意義的圖樣、擷取見解。這與我們前文討論的使用個人資料做剖析的字詞“剖析”密切相關。為了擷取出有意義的圖樣,資料採礦者使用統計學(是呀,好老的數學)、機器學習服務演算法和人工智慧。
13.資料科學家。我們談論的是一個如此熱門的職業!資料科學家們可以通過擷取未經處理資料(難道是從前文所說的資料湖中擷取的?),處理資料,然後提出新見解。資料科學家所需具備的一些技能與超人無異:剖析、統計、電腦科學、創造力、故事講述和理解商務環境。難怪他們能獲得如此高的薪水報酬。
14.分散式檔案系統。由於巨量資料太大而無法在單個系統上進行隱藏,分散式檔案系統提供一種資料存放區系統,方便跨多個存放裝置進行大量資料的存放,並有助於降低大量資料存放區的成本和複雜度。
15.ETL。ETL分別是extract,transform,load的首字母縮寫,代表擷取、轉化和負載的程序。 它具體是指“擷取”未經處理資料,通過資料清洗/裝飾的方式進行“轉化”以獲得 “適合使用”的資料,進而“負載”到合適的存放庫中供系統使用的整個程序。儘管ETL這一概念源於資料倉儲,但現在也適用於其它劇本下的程序,例如在巨量資料系統中從外部資料源追蹤/吸收資料。
16.MaxCompute(原名ODPS)。由中國阿裡雲自主研發的巨量資料平臺產品MaxCompute,它能提供快速、完全託管的PB級資料倉儲解決方案,可以經濟並強烈影響剖析處理海量資料,為全球60個國家,180萬家企業提供計算能力。https://www.aliyun.com/product/odps 同類開源產品有Hadoop,資料位址https://yq.aliyun.com/articles/78108 。
17. 記憶體計算。一般來說,任何可以在不存取I / O的情況下進行的計算預計會比需要存取I/O的速度更快。記憶體內計算是一種能夠將工作資料集完全轉送到集群的集體記憶體中、並避免了將中間計算寫入磁碟的技術。Apache Spark便是一種記憶體內計算系統,它與I / O相比,在像MaxCompute MapReduce這樣的系統上繫結具有巨大的優勢。
18.IOT。最新的流行語是物聯網(Internet of things,簡稱IOT)。IOT是通過互連網將內嵌物件(感應器、穿戴式裝置、汽車、冰箱等)中的計算裝置互連在一起,並且能夠傳送/接收資料。IOT產生了大量的資料,這為呈現巨量資料剖析提供了其他的商機。
19.機器學習服務。機器學習服務是為了設計一種基於提供的資料能夠進行不斷學習、調整、改進的系統的設計方法。機器使用預測和統計的演算法進行學習並專注於實現“正確的”行為圖樣和簡見解,隨著越來越多的資料注入系統它還在不斷進行優化改進。典型的套用有欺詐檢測、線上個人化推薦等。
20.MapReduce。MapReduce的概念可能會有點混亂,但讓我試一試。MapReduce是一個程式設計型號,最好的理解方法是將Map和Reduce是看作兩個硬地的單元。在這種情況下,程式設計型號首先將巨量資料的資料集分成幾個部份(技術字詞上是稱作“元組”,但本文並不想太過技術性),因此可以部署到不同置放的不同電腦上(即前文所述的集群計算),這些本質上是Map的組成部分。接下來該型號收集到所有結果並將“減少”到同一份報告中。 MapReduce的資料處理型號與MaxCompute的分散式檔案系統相輔相成。
21.NoSQL。乍一聽這像是針對傳統關係型數據庫管理系統(RDBMS)的物件導向的SQL(Structured Query Language, 結構化查詢語言)的抗議,其實NoSQL代表的是NOT ONLY SQL,意即“不僅僅是SQL”。 NoSQL實際上是指被用來處理大量非結構化、或技術上被稱作“圖表”(例如關係型數據庫的表)等資料的資料庫管理系統。NoSQL資料庫一般非常適用於大型資料系統,這得益於它們的靈活性以及大型非結構化資料庫所必備的分散式結構。
22.R語言。有人能想到比這個程式設計語言更糟糕的名字嗎?是的,’R’是一門在統計計算中表現非常優異的程式設計語言。如果你連’R’都不知道,那你就不是資料科學家。(如果你不知道’R’,就請不要把那些糟糕的代碼發給我了)。這就是在資料科學中最受歡迎的語言之一的R語言。
23.Spark(Apache Spark)。ApacheSpark是一種快速的記憶體內資料處理引擎,它可以高效執行需要快速反覆運算存取資料集的流、機器學習服務或SQL工作負載。Spark通常比我們前文討論的MapReduce快很多。
24.流處理。流處理旨在通過“連續”查詢對即時和流資料進行動作。結合串流分析(即在流內同時進行連續計算數學或統計剖析的能力),流處理解決方案可以被用來即時處理非常大的資料。
25. 結構化和非結構化資料。這是巨量資料5V中的“Variety”多樣性。結構化資料是能夠放入關係型數據庫的最基本的資料類型,通過表的組織方式可以連線到任何其他資料。非結構化資料則是所有不能直接存入關聯式資料庫中的資料,例如電子郵件、社交媒體上的文章、人類錄音等。
阿裡巴巴招聘計算大咖,點選瞭解其他...
阿裡巴巴巨量資料-玩家社群 https://yq.aliyun.com/teams/6/
---阿裡巨量資料博文,問答,社群,實踐,有朋自遠方來,不亦說乎……
相關產品:
- 巨量資料計算服務(MaxCompute)