이 기사는 려 사람을 필요로 하는 이전 작성된 연습 자습서를 공유 하면서 기술 생물권 Hadoop 관련 한 간략 한 소개 이다.
오늘, 클라우드 컴퓨팅 및 빅 데이터, Hadoop 및 관련된 기술 매우 중요 한 역할을 고이 시대에서 무시 될 수 없는 기술 플랫폼. 사실, Hadoop의 오픈 소스, 낮은-비용 및 전례 없는 확장성 때문에 데이터 처리 플랫폼의 새로운 세대 되고있다.
Hadoop은 분산된 데이터 처리 프레임 워크의 역사적인 발달의 관점에서 Java 언어에 따라 설정, 우리는 Hadoop 태어난, 그것은 고귀한 혈통이, 있다 향하게 개발 볼 수 있습니다.
2004 년, Google는 MapReduce에 세계를 소개 하는 논문을 발표
2005 년 초, Nutch 검색 엔진 프로젝트를 지원 하기 위해 Nutch의 개발자는 작업에 Nutch MapReduce 보고서를 Google에 의해 발표에 따라 MapReduce 응용 프로그램 개발.
2005 년에 대 한 모든 주요 nutch 알고리즘 MapReduce 및 NDFs에 포팅 되었습니다 (Nutch 분산 파일 시스템)를 실행 하는 환경
2006 년 2 월, Apache Hadoop 프로젝트 공식적으로 출범 MapReduce와 HDFs의 독립적인 개발을 지원
2007 년, 바이 오프 라인 처리, 로그 처리에 사용 되는 Hadoop 클러스터의 현재 거의 80% 할 Hadoop을 사용 하 여 시작
2008 년, Taobao Hadoop 사다리에 따라 시스템을 공부 하기 시작 하 고 전자 상거래 관련 데이터 처리 하는 데 사용. 사다리 1의 총 용량 약 9.3PB, 1100 기계를 포함, 하루 약 18000 작업 처리, 500 TB 데이터 검색
2008 년 1 월, Hadoop 된다 아파치 탑 프로젝트
2008 년 7 월, Hadoop 1 TB 데이터 정렬 벤치 마크 기록을 끊었다. 1 TB 데이터 완료 209 초 야 후, Hadoop 클러스터는 작년의 기록 보유자 보다 약 90 초 동안 297 초입니다.
...
많은 사람들이 터치 Hadoop 시작, 그들은 생각 그것은 프로젝트, 그리고 Hadoop MapReduce 코어 뿐만 아니라 하위 프로젝트의 수를 포함 하는 사실 HDFs, 즉, Hadoop 풍부한 기술 생물권을 형성 했다:
같은 기술 태어난 이유는?
즉, 인터넷, 데이터 저장 및 분석 병목 현상의 많은 수의 급속 한 발전으로 디스크 용량 성장 읽기 속도, 디스크, 데이터 전송 속도 100mb/s, 1 TB 2.5 H 디스크 보다 훨씬 큽니다, 그리고 쓰기 데이터는 언급 하지 것입니다, 마음 끌어 멋진 풀 멋진 (물론, SSD는 실제 응용 프로그램의 프로덕션 환경에서 크게이 딜레마 완화). 인터넷 응용 프로그램에 데이터 볼륨 성장 매우 분명 하다, 좋은 인터넷 응용 프로그램 데이터의 볼륨에 관계 없이 사용자의 수백만의 수만, 압력은 증가 하 고 있다. 또한, 엔터프라이즈 응용 프로그램 수준, 많은 대형 및 중소 기업, 10 년 이상 이상, 축적 된 기업 정보화에 구조화 되지 않은 데이터, 문서 필요 저장, 백업, 분석, 다양 한 종류의 많은 표시, 데이터 처리에 더 좋은 방법에서 고통.
그래서 이러한 문제, 기술 Niuwa 자연 방법, 디스크의 데이터에 병렬 데이터 읽기 및 쓰기, 청크, 등을 해결 하는 방법 분산 파일 시스템, 데이터 중복, mapreduce 알고리즘, 등, 마지막으로, 하 둡, 등 유사 기술의 출현 등. 그래서 내가 축복을 잔디 사람들을 기다렸다.
말하는 큰 데이터는 좋은 알고리즘 보다 낫다 하 고 충분 한 데이터가 있을 경우 원치 않는 응용 프로그램을 생산 하 고 지금은 페이 스 북, 트위터, microblogging 관련 파생 응용 프로그램 참조 수 없습니다. 또한, 알고리즘은 좋은 또는 나쁜, 더 많은 데이터를 항상 또한 명백 하다 더 나은 추천 효과 가져올 수 있다.
그래서, 상관 없이 어떻게 클라우드 컴퓨팅 및 큰 데이터 구호 소리, 8-두뇌, Hadoop은 매우 실용적인 기술, 인터넷 회사 또는 전통적인 소프트웨어 회사에 한다 학습과이 기술을 이해 합니다.
여기 내 이전 내부 기술 교환, 조금 도움을 바라고 있는 Hadoop 및 연습 튜토리얼 클래스 기조의 간략 한 소개가입니다.
같은 말을 Hadoop의 배포는 전체 배포 모드, 의사 분포 패턴, 로컬 모드, 세 가지 모드를 제공 합니다, 그것은 세 번째 연습을 사용 하 여 권장 있도록 자세한 시스템 사용의 이해. 이 클러스터링, 두 개 이상의 컴퓨터를가지고 해야 하 고 더 나은 방법은 가상 컴퓨터를 사용 하는. Hadoop 네이티브 지원 유닉스/리눅스, 윈도우, 재생 하려는 경우 시뮬레이션된 환경 cygwin을 설치 해야 합니다. 맥 사용자의 장점을 반영 하는이 시간, 나 할 마스터, 슬레이브 할에 최대 두 개의 가상 리눅스, ssd + 8g 메모리, 압력 맥을 사용 했다. 이 혜택은 최소한의 작업 환경과 최대 작업 범위를 달성 하는 책의 유닉스 프로그래밍 생각에 언급 된다.
원래 연결: http://www.cnblogs.com/chijianqiang/archive/2012/06/25/hadoop-info.html