고성능 대용량 데이터 처리를 위한 Hadoop 클러스터를 구축 하는 방법

출처: 인터넷
작성자: 사용자
키워드: 고성능 고성능 대용량 데이터 고성능 대용량 데이터 다중 고성능 대용량 데이터 다중 통해 높은-성능 대용량 데이터 다중 통해에 큰

점점 더 많은 기업 큰 데이터 처리 Hadoop을 사용 하는 하지만 Hadoop 클러스터의 전반적인 성능은 CPU, 메모리, 네트워크 및 스토리지 사이의 성능 균형에 따라 달라 집니다. 이 문서에서는, 우리는 키 큰 데이터 분석 처리를 Hadoop 클러스터에 대 한 높은-성능을 네트워크를 구축 하는 방법을 모색할 것입니다.

하 둡에 대 한

"빅 데이터" 데이터의 느슨한 세트 이며 막대 한 양의 데이터의 지속적인 성장을 강제로 새로운 방식으로 그들을 관리 하는 회사. 큰 데이터는 구조적 또는 비구조적 데이터 형식의 대형 컬렉션. 그러나 Hadoop,, 아파치 게시 페타 구조화 되지 않은 데이터를 분석 하 고 다른 응용 프로그램을 관리할 수 있는 형식으로 변환 하는 소프트웨어 아키텍처입니다. Hadoop 대형 데이터 처리를 위해 가능 하 게 및 기업 고객 데이터에서 새로운 비즈니스 기회를 탐험 수 있습니다. 실시간 처리 가까이 또는 실시간 처리를 할 수 있는 경우 사용자가 많은 산업 분야에서 강한 이점을 제공할 것 이다 그것.

Hadoop은 설계 구글의 MapReduce 및 분산 파일 시스템 원칙을 기반 수 있습니다 일반적인 네트워크 및 서버 하드웨어에 배포 하 고 컴퓨팅 클러스터로 만든.

Hadoop 모델

Hadoop은 매우 큰 데이터 집합 쿼리에 의해 처리를 더 작은 단위로 절단 하 여 작동 합니다. 계산 리소스 동일한 노드에 대 한 병렬 쿼리 처리를 위해 사용 됩니다. 작업이 처리 될 때 처리 결과 요약 하 고 사용자에 게 보고 또는 분석 응용 프로그램을 통해 추가 분석 또는 대시보드 디스플레이 대 한 처리.

처리 시간을 최소화 하기 위해 Hadoop "이동 작업 데이터를"이 병렬 아키텍처 보다는 "데이터 이동 작업", 전통적인 모드에서 합니다. 즉는 데이터 실시간 검색, 쿼리, 또는 로컬 데이터를 데이터 처리 과정에 대 한 액세스 등의 데이터 마이닝 작업에는 분산된 시스템에 저장 됩니다 일단 각 노드에 하나의 로컬 쿼리 결과 운영 비용을 감소 시키는.

Hadoop의 가장 큰 기능은 그것의 내장 병렬 처리 및 선형 확장성, 큰 데이터 집합 쿼리를 제공 하 고 결과 생성 하는. 구조에서 Hadoop은 두 개의 주요 부분:

하 둡 분산 파일 시스템 (HDFS) 데이터 파일 조각으로 삭감 하 고 내결함성과 고성능을 제공 하기 위해 여러 노드 내에서 저장. 여러 노드에 대 한 집계 I/O의 많은 수 뿐만 아니라 성능 보통 블록-128MB 등의 크기에 따라 다릅니다. 전통적인 리눅스 시스템의 일반적인 데이터 블록 크기는 4 킬로바이트 수 있습니다.

MapReduce는 Jobtracker 노드 클라이언트, 다양 한 더 작은 작업으로 큰 작업을 "분할-정복" 방법에서에서 분석에 동의를 통해 엔진 및 그런 다음 할당 된 각 Tasktrack 노드 및 주요 역 / 역 배포 모드에서 (다음 그림에서와 같이) :

Hadoop 시스템에 세 가지 주요 기능 노드: 클라이언트, 호스트 및 기계. 클라이언트는 시스템에 데이터 파일을 삽입 하 고 시스템에서 결과 검색, 전송 시스템의 호스트 노드를 통해 분석. 호스트 노드는 두 가지 기본적인 기능: 분산 파일 시스템에서 및 컴퓨터 노드에서 각 노드의 데이터 저장소를 관리 하 고 관리 컴퓨터 노드에서 할당 및 맵/리듀스 작업 처리를 추적 하는 작업. 데이터 저장 및 분석 처리의 실제 성능은 컴퓨터 노드는 실행 중인 데이터 노드 및 작업 추적, 전달 하 고 해당 호스트 노드에 의해 제어의 성능에 따라 달라 집니다. 에 일반적으로 여러 데이터 블록의 노드에서 작업 중 여러 작업을 처리 하기 위해 할당 됩니다.

(책임 편집기: 유산의 좋은)

관련 문서

연락처

이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이 페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.

커뮤니티에서 표절 사례를 발견한 경우 info-contact@alibabacloud.com 으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.