windows 本地構建hadoop-spark運行環境（hadoop-2.6, spark2.0）

最後更新：2017-10-17 來源：互聯網

上載者：User

創建阿里雲帳戶，並獲得超過 40 款產品的免費試用版；而企業帳戶則可以享有總值 $1200 的免費試用版。立即註冊！

標籤：問題 source evel http group udf cti lease .sql

下載hadoop

http://hadoop.apache.org/releases.html --> http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.6.5/hadoop-2.6.5.tar.gz
安裝hadoop，配置HADOOP_HOME，把${HADOOP_HOME}/bin放到path

下載spark

http://spark.apache.org/downloads.html --> https://d3kbcqa49mib13.cloudfront.net/spark-2.0.2-bin-hadoop2.6.tgz 注意與hadoop版本匹配
安裝，配置SPARK_HOME，把${SPARK_HOME}/bin放到path

在運行spark程式時，會報找不到 winutils.exe

下載 https://github.com/srccodes/hadoop-common-2.2.0-bin.git 放到${HADOOP_HOME}/bin下

運行時設定本地運行即可
spark範例：

LocalSparkContext.scala

import org.apache.spark.{SparkConf, SparkContext}

import org.scalatest._

trait LocalSparkContext extends BeforeAndAfterAll {

self: Suite =>

@transient var sc: SparkContext = _

override def beforeAll() {

val conf = new SparkConf()

.setMaster("local[2]")

.setAppName("test")

sc = new SparkContext(conf)

}

override def afterAll() {

if (sc != null) {

sc.stop()

}

}

}

SparkWCSuit.scala

import org.apache.spark.rdd.RDD

import org.apache.spark.sql.{Row, SQLContext}

import org.apache.spark.util.LongAccumulator

import org.scalatest.FunSuite

import tool.LocalSparkContext

import algos.{MergedPCtr, PCtrUtils}

class SparkWCSuit extends FunSuite with LocalSparkContext {

//rdd wordCount

test("test rdd wc") {

sc.setLogLevel("ERROR")

val rdd = sc.makeRDD(Seq("a", "b", "b"))

val res = rdd.map((_, 1)).reduceByKey(_ + _).collect().sorted

assert(res === Array(("a", 1), ("b", 2)))

}

}

build.sbt

name := "doc_rank"

version := "1.0"

scalaVersion := "2.10.5"

libraryDependencies += "org.apache.spark" % "spark-core_2.10" % "2.0.2"

libraryDependencies += "org.apache.spark" % "spark-mllib_2.10" % "2.0.2"

libraryDependencies += "commons-cli" % "commons-cli" % "1.2"

libraryDependencies ++= Seq(

"org.scalanlp" %% "breeze" % "0.11.2",

"org.scalanlp" %% "breeze-natives" % "0.11.2",

"org.scalanlp" %% "breeze-viz" % "0.11.2"

)

libraryDependencies ++= Seq(

"org.apache.hadoop" % "hadoop-core" % "2.6.0-mr1-cdh5.4.4",

"org.apache.hbase" % "hbase-client" % "1.0.0-cdh5.4.4",

"org.apache.hbase" % "hbase-common" % "1.0.0-cdh5.4.4",

"org.apache.hbase" % "hbase-server" % "1.0.0-cdh5.4.4",

"org.apache.hbase" % "hbase-protocol" % "1.0.0-cdh5.4.4"

)

resolvers += "Akka Repository" at "http://repo.akka.io/releases/";

resolvers += "cloudera-repo-releases" at "https://repository.cloudera.com/artifactory/repo/";

resolvers ++= Seq(

"Sonatype Snapshots" at "https://oss.sonatype.org/content/repositories/snapshots/";,

"Sonatype Releases" at "https://oss.sonatype.org/content/repositories/releases/";

)

hadoop範例

目錄結構：src/├── main│ ├── java│ │ ├── io│ │ │ └── longwind│ │ │ └── mapreduce│ │ │ ├── main│ │ │ │ └── Main.java│ │ │ ├── mapreduce│ │ │ │ └── InfoidUniquer.java│ │ │ └── utils│ │ │ ├── Constant.java│ │ │ └── HadoopUtils.java│ │ └── org│ │ └── apache│ │ └── hadoop│ │ ├── io│ │ │ └── nativeio│ │ │ └── NativeIO.java│ │ └── mapred│ │ ├── ClientCache.java│ │ ├── ClientServiceDelegate.java│ │ ├── NotRunningJob.java│ │ ├── ResourceMgrDelegate.java│ │ ├── YarnClientProtocolProvider.java│ │ └── YARNRunner.java│ └── resources│ └── log4j.properties└── test ├── java │ └── test └── resources └── log4j.properties pom.xml中關鍵依賴<dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-common</artifactId><version>2.6.0-cdh5.4.4</version></dependency> <dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-mapreduce-client-core</artifactId><version>2.6.0-cdh5.4.4</version></dependency> <dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-mapreduce-client-common</artifactId><version>2.6.0-cdh5.4.4</version></dependency> 代碼方面：上面目錄結構顯示的org.apache.hadoop.* 那些是從hadoop源碼包裡拷出來的，注意是2.6.0-cdh5.4.4版本的程式運行起來報錯access0，如果是NativeIO.java 那應該是許可權問題，需要手動修改NativeIO.java 中的 public static boolean access(String path, AccessRight desiredAccess)throws IOException { return true;//修改後 //return access0(path, desiredAccess.accessRight());//修改前}

這樣，就能在windows本地，輕鬆進行hadoop, spark開發調試了，順便吐槽一下mrunit不是很給力，問題一般是版本，包衝突，許可權。參考：

平野大荒 http://www.cnblogs.com/tq03/p/5101916.html --windows上的mapreduce運行環境
在前進的路上 http://blog.csdn.net/congcong68/article/details/42043093 -- access0 問題解決
xuweimdm http://blog.csdn.net/u011513853/article/details/52865076 -- spark在windows上

windows 本地構建hadoop-spark運行環境（hadoop-2.6, spark2.0）

本文章原先以中文撰寫並發佈於 aliyun.com，亦設英文版本，僅作資訊用途。本網站不對文章的準確性，完整性或可靠性或其任何翻譯作出任何明示或暗示的陳述或保證。如對該文章有任何疑慮或投訴，請傳送電郵至 info-contact@alibabacloud.com 並提供相關疑慮或投訴的詳細說明。職員會於 5 個工作天內與您聯絡，一經驗證之後，即會刪除該侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

Get Started for Free

Sales Support

1 on 1 presale consultation

Chat Contact Sales
After-Sales Support

24/7 Technical Support 6 Free Tickets per Quarter Faster Response

Open a Ticket
Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.

Learn More