하 둡에 대 한 연구 분산 컴퓨팅 플랫폼 및 3 서버 구현

출처: 인터넷
작성자: 사용자
참조 문서


http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop1/index.html


http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop2/index.html


http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop3/


http://hi.baidu.com/zeorliu/blog/item/3633468235fce8a40cf4d23d.html




할이 여러 기사에 Developerworks에 따르면
, 하 둡 구성 넣을 수 있습니다, 난 여기 훨씬 자세한 정보는, 다음은 일부 기록 때 문제가 발생 하는 과정 내 구성을 참조할 수 있습니다.





---20080819---


설치 Cygwin


http://bbs.wuyou.com/viewthread.php?tid=119296&extra=page%3D6








경험 Hadoop


$ cd/cygdrive/e/workspace/searchengine/hadoop/hadoop-0.18.0


$
테스트에서 mkdir

테스트에서
$ cd
두 개의 텍스트 파일을 만들 디렉터리 테스트에서
#在 WordCount 프로그램
각 단어의 발생 수를 계산 합니다

$ 에코 "안녕하세요 세계 안녕 세계" > file1.txt


$ 에코 "안녕하세요 Hadoop 안녕 Hadoop" > file2.txt


$ CD입니다.


$ 빈/hadoop 항아리 Hadoop 0.18.0 examples.jar wordcount 테스트에서 테스트 아웃


#执行完毕, 참조 아래의 실행 결과:


$ cd 테스트 아웃


$ 고양이 부분-00000


안녕 1


작별 1


Hadoop 2


안녕하세요 2


세계 2





---20080822


의사 분산 작업 모드





가이 패턴 또한 단일 컴퓨터에서 실행 하지만 시뮬레이션 (Namenode Datanode, Jobtracker, Tasktracker, 보조 namenode), 분산된 작업을 다양 한 노드를 다른 자바 프로세스를 사용 하 여 유의 분산 이러한 몇 가지 노드 실행에서의 차이:





분산된 저장의 관점에서 클러스터의 노드는 Namenode의 백업으로 하나의 namenode와 여러 datanode와 보조 namenode의 구성 됩니다. 관점에서 분산 응용 프로그램, 클러스터의 노드는 jobtracker 여러 tasktracker의 구성 하 고 Jobtracker 작업 일정에 대 한 책임은 Tasktracker 작업을 병렬로 실행에 대 한 책임은. 그것은 로컬 데이터 계산 쉽게 있도록는 datanode에는 Tasktracker는 실행 해야 합니다. Jobtracker와 Namenode 동일한 컴퓨터에 있이 필요가 없습니다.





(1) conf/hadoop-site.xml 코드 목록 2를 수정 합니다. Note는 Conf/hadoop-default.xml, 하 둡에 대 한 기본 매개 변수 이며 Hadoop에 수 매개 변수를 확인 하기 위해이 파일을 읽을 수 있지만 파일을 수정 하지 마십시오. Conf/hadoop-site.xml, 수정 하 여 기본 매개 변수 값을 변경할 수 있습니다 그리고이 파일에 설정 된 매개 변수 값 재정의 Conf/hadoop-default.xml 매개 변수는 동일한 이름 가진.





< 구성 >


< 속성 >


< 이름 > fs.default.name < / 이름 >


< 값 > localhost:9000 < / 값 >


< / 속성 >


< 속성 >


< 이름 > mapred.job.tracker < / 이름 >


< 값 > localhost:9001 < / 값 >


< / 속성 >


< 속성 >


< 이름 > dfs.replication < / 이름 >


< 값 > 1 < / 값 >


< / 속성 >


< / 구성 >





(2) 목록 3과 같이 SSH 구성:


$ ssh-keygen-t dsa-p ' F ~/.SSH/ID_DSA


$ 고양이 ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys





$ cd/cygdrive/c/hadoop-0.16.0


$ 빈/hadoop Namenode-형식





$ 빈/시작-all.sh


$ ps-ef





$ 빈/hadoop dfs-넣어. / 테스트에서
입력

#将本地文件系统上的. / 시험-에서 디렉터리 HDFS 루트 디렉터리, 디렉터리 이름
를 입력으로 변경

#执行 빈/hadoop Dfs-도움 다양 한 HDFS 명령 사용 하 여 배울 수 있습니다.


$ 빈/hadoop 항아리 hadoop 0.18.0 examples.jar wordcount 입력 출력


#查看执行结果:


#将文件从 HDFS 다시 보려면 로컬 파일 시스템:


$ 빈/hadoop dfs get 출력 출력


$ 고양이 출력 / *


#也可以直接查看


$ 빈/hadoop dfs 고양이 출력 / *


$ 빈/정지-all.sh #停止 Hadoop 프로세스





오류 진단





(1) 실행 $ 빈/시작-all.sh Hadoop 후 프로세스가 시작 하 고 5 자바 프로세스 시작 5 PID 파일 프로세스 ID 번호를 기록 하 는/tmp 디렉토리에 생성 됩니다. 이러한 5 개의 파일을 통해 Namenode Datanode, 보조 namenode, Jobtracker, Tasktracker에 대해 배울 수 있는 각각, Java 프로세스에 해당 합니다. 당신이 느낄 때 Hadoop 제대로 작동 하지 않습니다, 당신은 먼저 5 자바 프로세스가 제대로 실행 중인 경우 볼 수 있습니다.





(2)는 웹 인터페이스를 사용합니다. 액세스 http://localhost:50030 Jobtracker의 실행 상태를 볼 수 있습니다. 액세스 http://localhost:50060 Tasktracker의 실행 상태를 볼 수 있습니다. 액세스 http://localhost:50070 Namenode와 전체 분산 파일 시스템의 상태, 분산 파일 시스템에서 파일을 찾아와 보고 로그인.





(3) 로그를 표시 하려면 ${hadoop_home}에서 파일 / 디렉토리, 로그 Namenode, Datanode, 보조 namenode, Jobtracker, tasktracker는 해당 로그 파일 컴퓨팅 작업의 각 실행은 또한 응용 프로그램 로그 파일의 쌍을가지고. 이러한 로그 파일 분석 실패의 원인을 찾을 수 있습니다.








---20080825---


모든 버전 다운로드, 0.18 연구 버전으로, 다운로드 jdk1.6 컴파일,
를 통과 해야







---20080826---


는 이클립스
에 대 한 IBM MapReduce 도구 설치

1 구성 Hadoop 홈 디렉토리, 참고 *core.jar 패키지에서이 디렉터리
필요

2 구성 실행, Hadoop 서버를 시작, Cygwin 디렉토리 Hadoop 집
를 찾을 수를 지정.




와 192.168.1.91~93, 91 linux1, 92 linux2, 93 linux3에 대 한에 대 한 테스트.


linux2, 신뢰할 수 있는 SSH 메서드 Tasktracker 및 Datanode
제어를 통해 linux3 linux1 로그인




Hadoop directory:/home/kevin/hadoop-0.18


JDK Catalog:/home/kevin/jdk1.6.0_10





>>>>>
프로필

마스터 콘텐츠는 다음과 같습니다:


linux1





노예 내용이 다음과 같습니다:


linux2


linux3





hadoop site.xml 내용이 다음과 같습니다:





<? xml 버전 "1.0" =? >


<? xml 스타일 시트 형식을 "text/xsl" href = configuration.xsl = "? >"





<!-이 파일에서 사이트 속성 재정의 넣어.
-->

< 구성 >


< 속성 >


< 이름 > fs.default.name < / 이름 >


< 값 > hdfs://linux1:9000 / < / 값 >


< > 이름의 설명 기본 파일 시스템입니다. 리터럴 문자열


'로컬' 또는 dfs. 호스트: 포트 < / 설명 >


< / 속성 >


< 속성 >


< 이름 > mapred.job.tracker < / 이름 >


< 값 > hdfs://linux1:9001 / < / 값 >


< 설명 > 호스트와 포트는 MapReduce 작업 추적기에서 실행 됩니다. 경우


"로컬", 다음 작업은 실행 과정으로 단일 지도 줄일 작업. < / 설명 >


< / 속성 >


< 속성 >


< 이름 > dfs.name.dir < / 이름 >


< 값 >/가정/케빈/hadoopfs/이름 < / 값 >


< 설명 > 어디 로컬 파일 시스템에 DFS 노드
이름 결정

는 이름 테이블을 저장 해야 합니다. 이 경우 디렉터리
의 쉼표로 구분 된 목록

다음 이름 표는 디렉터리의 모든 복제

중복에 대 한
입니다. < / 설명 >


< / 속성 >


< 속성 >


< 이름 > dfs.data.dir < / 이름 >


< 값 >/가정/케빈/hadoopfs/데이터 < / 값 >

어디에 로컬 파일 시스템에 DFS 데이터 노드

< 설명 > 결정

는 블록을 저장 해야 합니다. 이 경우 디렉터리,
의 쉼표로 구분 된 목록

다음 데이터 그리고 일반적으로에 다른 모든 명명 된 디렉터리에 저장 됩니다.

존재 하지 않는
디렉터리는 무시 됩니다. &lt; / 설명 &gt;


&lt; / 속성 &gt;


&lt; 속성 &gt;


&lt; 이름 &gt; dfs.replication &lt; / 이름 &gt;


&gt; 2 &lt; 값 &lt; / 값 &gt;


&lt; 설명 &gt; 기본 블록 복제. 복제
의 실제 수

는 파일을 만들 때 지정할 수 있습니다. 경우 기본 사용은 복제


만들기 시간. 지정 하지 않으면 &lt; / 설명 &gt;


&lt; / 속성 &gt;


연락처

이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이 페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.

커뮤니티에서 표절 사례를 발견한 경우 info-contact@alibabacloud.com 으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.