標籤:
Apache Hadoop
Hadoop現在已經進入第二個10年發展期了, 但不可否認的是, Hadoop在2014年出現了井噴式發展, 由於Hadoop從測試叢集向生產和軟體供應商方向不斷轉移, 其越來越接近於分布式儲存和處理機架構, 因此, 這一勢頭在2015年會更加猛烈。由於大資料平台的強大, Hadoop可能是一個挑剔的怪獸, 它需要熟悉的技術人員細心的照顧和餵養。掌握Hadoop最核心技術 (例如, HDFS, MapReduce, Flume, Oozie, Hive, Pig, HBase, and YARN) 的技術人員在職場上的需求將越來越大。
Apache Spark
如果說Hadoop在大資料世界中已廣為人知, 那麼Spark就是一匹黑馬, 它所蘊含的原始潛力使Hadoop黯然失色。無論是否是Hadoop架構, 快速崛起的記憶體計算技術被認為是MapReduce風格分析架構更快和更簡潔的替代方案。Spark最佳的定位應當是大資料技術族中重要的一個成員。Spark仍然需要專業技術進行編程和運行, 這為知曉該技術的工程師提供了不錯的工作機會。
NoSQL
在大資料的操作層面, 諸如 MongoDB 和 Couchbase 等分布式、可擴充的 NoSQL 資料庫正在接管市場份額極為龐大的的 SQL 資料庫, 例如 Oracle 和 IBM DB2。在 WEB 和移動 app層面, NoSQL資料庫常常被做為Hadoop分析的資料來源。在大資料領域, Hadoop 和 NoSQL 分別成為良性迴圈的兩個端點。
Machine Learning and Data Mining(機器學習和資料採礦)
人們習慣於對收集的資料進行挖掘,但是, 在當今大資料的世界裡, 資料採礦已經達到了一個全新的高度。機器學習成為去年大資料技術最熱門的領域之一, 2015年順理成章地成為它的突破之年。大資料將會使那些能夠利用機器學習技術去構建和訓練像分類、推薦和個人化系統等預測性分析應用程式的人成為職場寵兒, 取得就業市場上的頂級薪金。
Statistical and Quantitative Analysis(統計和定量分析)
這就是大資料。如果你有定量推理背景和數學或統計學等方面的學位,那麼你就成功了一半。此外,再加上一些使用統計工具經驗,例如 R, SAS, Matlab, SPSS, 或者是 Stata, 你就能夠鎖定這些工作崗位啦。在過去,許多量化工程師都會選擇在華爾街工作, 但由於大資料的快速發展, 現在各行各樣都需要大量的具有定量分析背景的 極客。
SQL
以資料為中心的語言已有超過40年的曆史了, 但是這種祖父級的語言在當前的大資料時代仍然具有生命力。儘管它難以應對大資料的挑戰 (見上文NoSQL部分), 但是, 簡化了的結構化語言使其在許多方面變得十分容易。
Data Visualization(資料視覺效果)
大資料可能不是那麼容易理解, 但在某些情況下, 通過鮮活的資料吸引眼球仍然是不可替代的方法。你可以一直用多元或羅吉斯迴歸分析方法解析資料, 但是, 有時候使用類似 Tableau 或Qlikview 這樣的視覺化檢視探索資料樣本能夠直觀的告訴你所擁有的資料的形態, 甚至是發現那些能夠改變你處理資料方法的一些隱蔽細節。當然,如果你長大後想成為資料藝術家, 那麼, 精通一個甚至是更多的視覺化檢視就是必不可少的了。
General Purpose Programming Languages
在類似 Java, C, Python, 或 Scala 等通用語言中擁有編程應用經驗能夠使你相對於那些局限於分析技術的人更具有優勢。根據 Wanted Analytics的統計, 招聘具有資料分析背景的“電腦編程”職位的數量增長了 337%。具有傳統應用程式開發和新興資料分析能力的人將會有極大的就業選擇空間, 能夠自由的在終端使用者企業和大資料創業公司之間進行流動。
Creativity and Problem Solving(創造力和問題解決能力)
無論你在進階分析工具和技術方面有多大優勢,自主思考能力仍然是無可替代 的。大資料處理工具會不可避免的進行演化發展,新技術會不斷湧現並替代這裡所列 出的技術。但是,如果你能出於本能的渴求新的知識,並且能夠像獵犬一樣發現問題 的解決方案,就會有大量的工作機會在等著你。
2016年大資料工程師必備的9項技能