標籤:分享 架構 圖片 nosql資料庫 分析 日常 Distributed File System 儲存 orm
現在的大資料是很紅火的,薪資比通常的軟體行業要高,所以很多年輕人想進入這個行業。但並不是每個大資料相關的工作都是高薪的,主要還是根據自己的專長進行選擇發展。大資料涉及的知識很廣泛,如果要當全能選手,是非常艱難,一個人的精力也是有限的。進行細分選擇,然後專攻才是正道。要瞭解學習大資料,如果是程式員,其實進入還是很方便的,主要還是大資料開發方向,要學習的內容,主要是在自己以前的基礎上進行擴充延伸。如果是進入大資料分析則是相當於另一個領域,營運方向來說,也是比較容易切入的。如何學習瞭解大資料,找准自己的方向。
大資料學習分享群119599574
大資料涉及到的知識領域比較寬:大規模平行處理資料庫、資料採礦、資料分析、Distributed File System、分散式資料庫、雲端運算平台、互連網、可擴充的儲存系統;還有開發技術。更細緻的就是涉及到:資料擷取(何處收集資料、如果利用工具採集、清洗、轉換、然後整合,並載入到資料倉儲中成為分析的基礎);資料存取相關的資料庫以及儲存架構,比如:雲端儲存,Distributed File System;資料處理;資料採礦、模型預測及建立、及統計分析;大資料開發技術,比如:Java、python等等。
1、開發方向。能夠按照需求開發出大資料相關應用,分析結果。。掌握Java、 Python、Scala等開發語言,以及關係型與非關係型資料庫,比如:mysql、oracle等常用的,和非關係型的Nosql資料庫,以及應對非結構化資料處理需求的資料處理架構,比如:Hadoop,它包括HDFS,MapReduce和HBase,MapReduce是資料處理架構,HBase和Cassandra主要是資料庫。當然更進階一些,能夠精通一些演算法,成為組建代碼提交者,那就更好了。
2、大資料分析師方向。包括資料擷取、資料清洗、資料分析、建立模型等等。掌握一些工具,比如熟練運用Excel、Storm,RapidMiner等等。當然能掌握大資料平台資料分析方法、掌握一些語言,比如Python、Scala、SQL等,能處理各種類型的複雜資料,能從中提取有價值的資訊。如果是作為大資料科學家,那就更要掌握統計、機率線性代數等資料理論,除了書籍資料ETL過程、業務過程外,還有能進行模型預測及建立等工作,到這一步收入那是相當可觀了。
3、巨量資料營運方向。基本很少涉及到開發和分析,但也要熟悉一些就最好,主要是對大資料軟硬體及監測工具要很熟練的運用。比如:掌握Linux的配置及運用,能搭建Hadoop叢集,進行大資料軟體的維護,日常維護及監控等,當然更進一步能熟練掌握Shell、Python等開發工具,運行指令碼語言自動化叢集部署、管理和監控,掌握常用組建的安裝、最佳化,對整體進行最佳化改善及熟悉資料中心的安全性原則。
大資料是一門需要掌握很多知識的領域,一般的人主要是選擇這幾個方向進行。作為程式員來說,轉入這個是相當快速的,因為主要是進行開發的工作,已經具備了開發的基礎。但大資料公司並不容易存活,資料來源,分析結果如何走向,都是要具有相當的背景基礎的。
想從事大資料相關的高工資工作,首先你得理清大資料行業分布