標籤:
一開始...
一開始知道大資料這個概念的時候,只是感覺很高大上,引起了我的興趣。當時也不知道,這個東西是做什麼的,有什麼用,當然現在看來也是很模糊的樣子,但是的確比一開始強了不少。
所以學習的過程可能會很艱辛甚至有時候會很緩慢,但是感覺這東西未來會很有用途,最初瞭解大資料是從《大資料時代》這本書開始的,裡面的很多概念和預測讓我覺得很神奇。
但是漸漸生活中的一些事物被印證,我漸漸接受了這本書的內容,我覺得這本書還是值得一看的。
在國內這個技術似乎是比較新穎的,做的人似乎不是很多,正因為如此,資料也會匱乏,學習難度也上升了,但是這不是我們放棄的理由不是嗎?
藉助平台管理工具
廢話少說,多學些東西才是正經事,在公司實習過一段時間了,感覺初學的困難之一就是,搭建平台。
所以我們可以瞭解一下一些比較流行的平台管理工具:
HDP、CDH
而我在公司使用的便是HDP,所以我就大概的說一下HDP好了
HDPHDP是什嗎?
HDP全稱叫做Hortonworks Data Platform。
Hortonworks資料平台是一款基於Apache Hadoop的是開來源資料平台,提供大資料雲端儲存,大資料處理和分析等服務。該平台是專門用來應對多來源和多格式的資料,並使其處理起來能變成簡單、更有成本效益。HDP還提供了一個開放,穩定和高度可擴充的平台,使得更容易地整合Apache Hadoop的資料流業務與現有的資料架構。該平台包括各種的Apache Hadoop項目以及HadoopDistributed File System(HDFS)、MapReduce、Pig、Hive、HBase、Zookeeper和其他各種組件,使Hadoop的平台更易於管理,更加具有開放性以及可擴充性。
官網地址為:http://zh.hortonworks.com/
HDP的架構
Hortonworks Sandbox的安裝與使用:
官網上解釋:Hortonworks Sandbox,可以使用它嘗試一下最新的hdp特性和功能。
它可以裝在一個VM上,如此來說,給我們學習大資料相關內容提供了極大的便利
:http://zh.hortonworks.com/downloads/#sandbox
安裝的方法很簡單,使用相應的虛擬機器軟體,直接匯入就OK了。
注意:我的筆記本電腦是12g記憶體的,而HDP2.5所需要的最小記憶體是8G,而如果你的記憶體不夠,可以選擇低版本的SANDBOX。
安裝後,開啟虛擬機器就可以了
啟動的過程可能會很久要耐心等待。
啟動如所示:
開啟瀏覽器,輸入http://127.0.0.1:8888/即可。
進入後可以點開 view advanced options來查看更多的資訊。
右下角有如下內容:
* Service disabled by default. To enable the service you need to log in as an ambari admin.
The ambari admin password can be set by following this tutorial
這裡需要我們進行ssh登入後,添加admin賬戶的密碼,並使用這個admin賬戶來登入虛擬機器。
ssh工具登入使用地址127.0.0.1 連接埠為 2222
這裡也可以使用瀏覽器進行登入:
在瀏覽器裡輸入127.0.0.1:4200,訪問即可
使用者名稱:root
密碼: hadoop
登入後需要修改密碼,這裡的密碼設定複雜一些,簡單密碼有可能通不過(不過經過本人測試,當你以後再次登入後,可以運行passwd root,修改成任意你想要的密碼)
然後運行ambari-admin-password-reset命令,修改ambari的admin賬戶密碼。
修改後,我們在瀏覽器裡輸入172.0.0.1:8080,並用admin賬戶登入。
截張圖,
關於ambari的介紹如下:
Apache Ambari是一種基於Web的工具,支援Apache Hadoop叢集的供應、管理和監控。Ambari目前已支援大多數Hadoop組件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。 Apache Ambari 支援HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hcatalog等的集中管理。也是5個頂級hadoop管理工具之一。
以後我們就用它來學習了!
大資料學習之路------藉助SANDBOX開始學習