테스트에서
$ cd
두 개의 텍스트 파일을 만들 디렉터리 테스트에서
#在 WordCount 프로그램
각 단어의 발생 수를 계산 합니다
$ 에코 "안녕하세요 세계 안녕 세계" > file1.txt
$ 에코 "안녕하세요 Hadoop 안녕 Hadoop" > file2.txt
$ CD입니다.
$ 빈/hadoop 항아리 Hadoop 0.18.0 examples.jar wordcount 테스트에서 테스트 아웃
#执行完毕, 참조 아래의 실행 결과:
$ cd 테스트 아웃
$ 고양이 부분-00000
안녕 1
작별 1
Hadoop 2
안녕하세요 2
세계 2
---20080822
의사 분산 작업 모드
는
가이 패턴 또한 단일 컴퓨터에서 실행 하지만 시뮬레이션 (Namenode Datanode, Jobtracker, Tasktracker, 보조 namenode), 분산된 작업을 다양 한 노드를 다른 자바 프로세스를 사용 하 여 유의 분산 이러한 몇 가지 노드 실행에서의 차이:
분산된 저장의 관점에서 클러스터의 노드는 Namenode의 백업으로 하나의 namenode와 여러 datanode와 보조 namenode의 구성 됩니다. 관점에서 분산 응용 프로그램, 클러스터의 노드는 jobtracker 여러 tasktracker의 구성 하 고 Jobtracker 작업 일정에 대 한 책임은 Tasktracker 작업을 병렬로 실행에 대 한 책임은. 그것은 로컬 데이터 계산 쉽게 있도록는 datanode에는 Tasktracker는 실행 해야 합니다. Jobtracker와 Namenode 동일한 컴퓨터에 있이 필요가 없습니다.
(1) conf/hadoop-site.xml 코드 목록 2를 수정 합니다. Note는 Conf/hadoop-default.xml, 하 둡에 대 한 기본 매개 변수 이며 Hadoop에 수 매개 변수를 확인 하기 위해이 파일을 읽을 수 있지만 파일을 수정 하지 마십시오. Conf/hadoop-site.xml, 수정 하 여 기본 매개 변수 값을 변경할 수 있습니다 그리고이 파일에 설정 된 매개 변수 값 재정의 Conf/hadoop-default.xml 매개 변수는 동일한 이름 가진.
< 구성 >
< 속성 >
< 이름 > fs.default.name < / 이름 >
< 값 > localhost:9000 < / 값 >
< / 속성 >
< 속성 >
< 이름 > mapred.job.tracker < / 이름 >
< 값 > localhost:9001 < / 값 >
< / 속성 >
< 속성 >
< 이름 > dfs.replication < / 이름 >
< 값 > 1 < / 값 >
< / 속성 >
< / 구성 >
(2) 목록 3과 같이 SSH 구성:
$ ssh-keygen-t dsa-p ' F ~/.SSH/ID_DSA
$ 고양이 ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
$ cd/cygdrive/c/hadoop-0.16.0
$ 빈/hadoop Namenode-형식
$ 빈/시작-all.sh
$ ps-ef
$ 빈/hadoop dfs-넣어. / 테스트에서
입력
#将本地文件系统上的. / 시험-에서 디렉터리 HDFS 루트 디렉터리, 디렉터리 이름
를 입력으로 변경
#执行 빈/hadoop Dfs-도움 다양 한 HDFS 명령 사용 하 여 배울 수 있습니다.
$ 빈/hadoop 항아리 hadoop 0.18.0 examples.jar wordcount 입력 출력
#查看执行结果:
#将文件从 HDFS 다시 보려면 로컬 파일 시스템:
$ 빈/hadoop dfs get 출력 출력
$ 고양이 출력 / *
#也可以直接查看
$ 빈/hadoop dfs 고양이 출력 / *
$ 빈/정지-all.sh #停止 Hadoop 프로세스
오류 진단
(1) 실행 $ 빈/시작-all.sh Hadoop 후 프로세스가 시작 하 고 5 자바 프로세스 시작 5 PID 파일 프로세스 ID 번호를 기록 하 는/tmp 디렉토리에 생성 됩니다. 이러한 5 개의 파일을 통해 Namenode Datanode, 보조 namenode, Jobtracker, Tasktracker에 대해 배울 수 있는 각각, Java 프로세스에 해당 합니다. 당신이 느낄 때 Hadoop 제대로 작동 하지 않습니다, 당신은 먼저 5 자바 프로세스가 제대로 실행 중인 경우 볼 수 있습니다.
(2)는 웹 인터페이스를 사용합니다. 액세스 http://localhost:50030 Jobtracker의 실행 상태를 볼 수 있습니다. 액세스 http://localhost:50060 Tasktracker의 실행 상태를 볼 수 있습니다. 액세스 http://localhost:50070 Namenode와 전체 분산 파일 시스템의 상태, 분산 파일 시스템에서 파일을 찾아와 보고 로그인.
(3) 로그를 표시 하려면 ${hadoop_home}에서 파일 / 디렉토리, 로그 Namenode, Datanode, 보조 namenode, Jobtracker, tasktracker는 해당 로그 파일 컴퓨팅 작업의 각 실행은 또한 응용 프로그램 로그 파일의 쌍을가지고. 이러한 로그 파일 분석 실패의 원인을 찾을 수 있습니다.
---20080825---
모든 버전 다운로드, 0.18 연구 버전으로, 다운로드 jdk1.6 컴파일,
를 통과 해야
---20080826---
는 이클립스
에 대 한 IBM MapReduce 도구 설치
1 구성 Hadoop 홈 디렉토리, 참고 *core.jar 패키지에서이 디렉터리
필요
2 구성 실행, Hadoop 서버를 시작, Cygwin 디렉토리 Hadoop 집
를 찾을 수를 지정.
와 192.168.1.91~93, 91 linux1, 92 linux2, 93 linux3에 대 한에 대 한 테스트.
linux2, 신뢰할 수 있는 SSH 메서드 Tasktracker 및 Datanode
제어를 통해 linux3 linux1 로그인
Hadoop directory:/home/kevin/hadoop-0.18
JDK Catalog:/home/kevin/jdk1.6.0_10
>>>>>
프로필
마스터 콘텐츠는 다음과 같습니다:
linux1
노예 내용이 다음과 같습니다:
linux2
linux3
hadoop site.xml 내용이 다음과 같습니다:
<? xml 버전 "1.0" =? >
<? xml 스타일 시트 형식을 "text/xsl" href = configuration.xsl = "? >"
<!-이 파일에서 사이트 속성 재정의 넣어.
-->
< 구성 >
< 속성 >
< 이름 > fs.default.name < / 이름 >
< 값 > hdfs://linux1:9000 / < / 값 >
< > 이름의 설명 기본 파일 시스템입니다. 리터럴 문자열
'로컬' 또는 dfs. 호스트: 포트 < / 설명 >
< / 속성 >
< 속성 >
< 이름 > mapred.job.tracker < / 이름 >
< 값 > hdfs://linux1:9001 / < / 값 >
< 설명 > 호스트와 포트는 MapReduce 작업 추적기에서 실행 됩니다. 경우
이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이
페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.
커뮤니티에서 표절 사례를 발견한 경우
info-contact@alibabacloud.com
으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.