spark2.0下實現IPYTHON3.5開發,兼配置jupyter,notebook降低python開發難度
1、spark2.0安裝就不說了,網上有很多,不會的話給我留言。
2、我們在spark2.0下用python開發的話,不需要安裝python了,直接安裝anaconda就可以啦。
3、anaconda下載地址:https://www.continuum.io/downloads,這裡提供3.5和2.7的,考慮到以後學習,我下載最新的3.5,介面如下:
4、通過scp將其拷貝到linux系統裡面,我把它拷貝到了home目錄下的Downloads下,大家可以根據自己喜好放置:介面如下:
5、輸入安裝命令安裝命令,如下圖所示:
6、斷行符號,如下圖所示:
7、輸入yes,如下圖所示:
8、輸入斷行符號,預設安裝即可,當然也可以修改,這裡預設安裝,如下圖所示:
9、這時候大家看到,anaconda已經還有python3.5了,所以不需要安裝,如下圖所示:
10、稍等一會,安裝完成如下圖所示:
11、anaconda預設的環境變數大家看到上一張圖是在home目錄下的./bashrc裡面,我們vim 一下這個檔案,發現環境變數已經配置完成,如下圖所示:
12、這時候我們先運行一下pyspark,看下效果,我們發現是2.6.6,不是python3.5,但是還是可以啟動的,如下圖所示:
13、我們為了使用anaconda,所以這裡在.bashrc檔案裡面配置一下,命令如下:
export PYSPARK_PYTHON=/root/anaconda3/bin
export IPYTHON=”1”
介面如下圖所示:
14、這時候我們進入spark的bin目錄執行./pyspark,看下介面,如下圖所示:
15、我們發現報錯了,IPYTHON和IPYTHON_OPTS已經在spark2.0+以上不使用了,所以我們刪除IPYTHON=”1”,source一下.bashrc,重新reboot一下虛擬機器,這個時候我們在執行./pyspark,介面如下圖所示:
16、配置成功。
17、anaconda整合了IPYTHON為的是方便我們開發,大家還記得剛才報錯的那個地方,新的版本已經把IPYTHON更名了,好那我們就把剛才報錯提示要配置的那兩個參數配置一下PYSPARK_DRIVER_PYTHON和PYSPARK_DRIVER_PYTHON_OPTS,命令如下:
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS=”notebook –NotebookApp.open_browser=False –NotebookApp.ip=’*’ –NotebookApp.port=8880”
介面如下:
這個時候在重新啟動./pyspark,發現啟動介面變了,如下圖所示:
我們這時候可以在瀏覽器裡面可以按紅色框提示的資訊輸入,例如我輸入:192.168.85.100:8880,介面如下圖所示:
哇塞,一不小心我們把Jupyter配置好了,關於Jupyter的使用,大家可以上官網查閱,我這裡就不解釋了,這樣基於python學習spark是不是方便一些了。
總結:spark2.0整合python開發主要是安裝一下anaconda,然後配置一下PYSPARK_DRIVER_PYTHON和PYSPARK_DRIVER_PYTHON_OPTS參數,接下來我們就開始學習spark的開發吧。