標籤:style ar 使用 java sp 資料 div on art
大資料的熱門使得非常多人都想往這個方向發展,做一些像資料採礦,資料分析之類的工作。可是該從何開始呢?要如何才幹高速學到一些實用的知識,技能呢?我認為有三個切入點,按照個人特點能夠自行選擇順序切入。
1機器學習/資料採礦資料採礦主要依賴於大部分機器學習演算法,近些年因為深度學習演算法的開發以及無人駕駛汽車等應用的實習使得機器學習變得熱門,可是機器學習是個非常深的學科,專門講這門課程的學校也不多,對於碩士生,假設學過最佳化等,學起來比較easy,但本科生要學好,就要非常紮實的機率論與數理統計的基礎。之前我看了非常多這發麵的書,認為非常痛苦,但我越來越認為,這個東西有那麼重要嗎?我覺得,假設不是博士,不是必需把機器學習/深度學習學的非常深。就像演算法是非常重要,但程式猿不是必需都像ACM隊員那樣練習演算法。我們學習機器學習是為了使用他,並且主要的那幾個演算法已經開發的差點兒相同了,我們最須要掌握的就是如何使用它們,並且就那麼幾個演算法,僅僅有每一個都用過幾次就掌握了,所以我非常推薦邊學邊應用到實際,依據自己的興趣,找點資料,看看能不能挖掘出什麼實用的資訊,這樣也有成就感。這裡我推薦一本書:《機器學習:實用案例解析》。同一時候,建議學習一門新的語言:R語言。假設不想學,那麼用C,python也都是能夠的。(超大規模資料是不能用R的)最後,我認為這部分並不一定先開始學,也不用每個演算法都掌握十分熟悉,先熟練掌握一到兩個。
2Hadoop實戰hadoop基本是大資料的代名詞了,由於他提供了一個平台,使得我們能夠去處理超大的資料,至於怎麼處理,處理後能得到什麼,它無論。hadoop儘管僅僅是個軟體,可是有非常複雜的原理,我們要知道他是如何把大資料分不到好幾個電腦上,知道MapReduce的原理。然後,就是如何運作了。強烈建議大家自己安裝好hadoop(要配置叢集,自己剪虛擬機器吧),然後在上面編點小程式練手。Hadoop另一個特點就是他有許多的附加服務,每一個都有各自的功能,很複雜,可是比如Hive,HBase等是很重要的,也須要知道他們的工作原理,及用法。因為這部分大多是實戰,學起來也不那麼枯燥,所以我認為這部分能夠多用的點時間,把原理和方法都弄熟練,同一時候還要熟悉Linux環境,語言當然是JAVA。
3資料庫大資料畢竟也是資料,是離不開資料庫的,非常多人沒有有資料庫的基礎,那麼這方面也是不可缺少的,各種資料庫的特點都要有所瞭解,SQL的語句也要能熟練使用,即便大資料不熱門了,資料庫技術也會非常重要的。
我認為把上面3點全都做到的話,那麼你肯定是一個全面的大資料人才,隨便就能找個好工作了。可是我認為資料採礦這個東西,方法技能是一方面,另一方面是意識層次的,也就是你對行業、商業的嗅覺有多大,你挖掘出來資訊後能不能再經過自己的思考,變成對公司甚至人類有直接優點的觀點。所以建議大家平時多關注互連網及其它行業的發展趨勢,比較全面型的人才才是真的人才,大資料人才也不是一個普通程式猿就能隨便當的。
準備以後就寫一些大資料方面的博文,自己學習的同一時候與大家分享知識是非常快樂的。
大資料的三個入口