標籤:大資料實踐
PS:後續的文章會把我實踐的內容分解成為一個個的小模組,方便大家的學習,交流。文未我也會附上相關的代碼。一起加油! 學有三年的大資料原理,一直沒有實踐過。最近準備離職,正好把自己所學的大資料內容全部實踐一下,也不至於只會純理論。面對實踐,首先要有空杯心態,倒空自己之後,才能學到更多,加油!也希望大家多關注,以後會更多注重實踐跟原理的結合。
環境搭建
對於大資料,重點在於Hadoop的底層架構。雖說現在spark架構用的還是比較多。但hadoop還是基礎。還有就是為什麼要以Linux為基礎,主要是因為現行網站大部分服務端都是在linux系統中。這一點,個人感覺還是在檔案讀取及資料調用這方面有很多優點。而linux的開源,又方便了大多數編程人員對於系統的理解。而裝有linux又對Python編程有很大協助。至於坊間流傳的:人生苦短,你要用Python.個人的理解的,用Python編程起來會非常簡單。而且只要是裝有Linux系統就可以。
對於環境搭建這一部分,操作過程中。最大的困難就是在於NAT的設定,對於這一步,沒有按照視頻內容一步步來操作。在為我是用無線來操作的,而大部分個人PC在無線連結後擷取到的IP都是192.168網段,當虛擬機器要跟主機以NAT方式來進行通訊時,就要設定在不同網段內,而我個人是將虛擬機器的改為172.20的這一網段。不至於影響到後續操作。
JAVA引導
對於這一部分,由於前期在R原理課時,學過這一塊的相關設定環境變數。再在虛機的linux上進行相關設定就能夠深入明白其原理。並將原來引導都指向相關路徑。
這一部分主要的痛點就是vim編輯器的理解,相關命令的解釋。當時最大的困惑就是在開啟一個檔案後,如何編輯,如何儲存退出。後來通過尋找百度,看一些技術貼子之後才逐步明白vim編輯器的用法。還有就是對於原理的理解,還有就是英語要好,遇到報錯之後,要知道從哪裡找解決的辦法,並實踐執行。在一個地方卡住,一定要在一天內解決,要不然對人的學習積極性打擊很大。
Hadoop搭建
這一部分,vim命令是最多的。也即在hadoop-1.2.1下如何設定相關的參數,最後datanode,jobtrack,tasktrack,namenode這些關鍵進程是否起來。而這一部分,是自己在格式化namenode後,多次進行開啟服務才起來的。這一塊可能涉及到三台虛機的互聯以及相互傳遞參數。所以這一塊是最慢的。 還有一個痛點,就是你的虛機上若是沒有公開金鑰檔案(我的就沒有)。這就需要用touch 來建立,而在檢測使用者權限的時候,又要用到chmod命令。總之,這一部分內容是綜上有點難度的,需要你能綜合寫vim命令,同時對hadoop的相關進程有所瞭解。
總結
現在就差Python的命令了,就覺得,理論跟實踐真的很不一樣,不斷的學習過程中,不光要克服代碼上的天生缺陷,也要對核心原理有更深入的理解。好在已經養成的好習慣,會把工作中的操作都一一記錄下來。便於後續學習跟理解。也歡迎大家一起來討論。
本文出自 “資料採礦與可視化” 部落格,轉載請與作者聯絡!
大資料學習實踐總結(2)--環境搭建,JAVA引導,HADOOP搭建