클라우드 스토리지 기반 Hadoop 플랫폼의 응용 프로그램 연습

출처: 인터넷
작성자: 사용자
키워드: 대역폭 저장 장치 관행 클라우드 스토리지

클라우드 컴퓨팅 (클라우드 컴퓨팅)는 인터넷 기반 슈퍼 컴퓨팅 수천의 컴퓨터와 서버 컴퓨터에서 원격 데이터 센터의 구름에 연결 된 모델입니다. 사용자는 컴퓨터, 노트북, 휴대폰을 사용 하 고 그래서 자신의 수요에 따라 데이터 센터를 선택 하는 방법은 계산에. 여전히 구름의 아무 보편적으로 동의한 정의 컴퓨팅. 위의 정의 결합해, 우리 수 있다 정리해 클라우드 컴퓨팅의 일부는 필수 기능 즉, 분산된 컴퓨팅 및 스토리지 특성, 높은 확장성, 사용자 친화적인, 좋은 관리.

1 클라우드 스토리지 아키텍처 다이어그램

스토리지 노드 (스토리지 노드)으로 오렌지는 파란색으로 제어 노드 파일 인덱스에 대 한 책임이 며, 용량 및 부하 균형, 클라우드 스토리지를 형성 하기 위해 함께 두 부분 사이 스토리지 노드를 모니터링에 대 한 책임은 파일을 저장 합니다. 스토리지 노드 및 제어 노드는 간단한 서버 하드 디스크의 스토리지 노드만, 스토리지 노드 서버 raid 기능, 리눅스, 제어 노드는 데이터를 보호 하기 위해 설치할 수 만큼 필요 하지 않습니다, 그리고 필요 간단 하 RAID 레벨 o 1 기능.

클라우드 스토리지는 기존의 디스크 어레이 교체 하지만 오히려 클라우드 스토리지는 일반적으로 마음에 다음 세 가지 포인트 설계 되었습니다 그래서 고속 데이터 볼륨 및 대역폭에 의해 생성 되는 스토리지 시스템의 새로운 형태에 대처 아닙니다.

(1) 용량, 대역폭 확장은 간단

확장 중단, 원래 저장소 풀에 새로운 스토리지 노드 용량을 자동으로 나타납니다. 복잡 한 설정에 대 한 필요가 있다.

그림 1 클라우드 스토리지 아키텍처 다이어그램

(2) 대역폭의 선형 성장

클라우드 스토리지를 사용 하 여 많은 고객 미래 대역폭 성장을 고려 하 고, 그러므로, 클라우드 스토리지 제품 디자인의 품질은 큰 차이 생산할 예정 이다, 10 개 이상의 노드가 채도, 도달 한다 대역폭의 미래 확장은 악영향을 미칠 것입니다, 있도록이 있어야 일반 사전, 또는 발견 수요를 충족 하지 않습니다 때까지 기다려 수백 TB, 구입 했습니다 그것은 너무 늦다 그것을 후회입니다.

(3) 관리가 쉽습니다.

클라우드 스토리지에 대 한 핵심 기술 2

클라우드 스토리지는 9 개의 주요 요소가 있어야: ① 성능, ② 보안, ③ 자동 ILM 스토리지, ④ 저장소 액세스 모드, ⑤ 여부, ⑥ 마스터 데이터 보호, ⑦ 보조 데이터 보호, ⑧ 스토리지 유연성, ⑨ 저장소 보고서.

클라우드 컴퓨팅은 가상화, 병렬 컴퓨팅, 분산 컴퓨팅의 개발 및 기타 핵심 기술에서 개발. 이것은 아래에 설명 된:

(1) 클러스터 기술, 그리드 기술 및 분산 파일 시스템

클라우드 스토리지 시스템은 여러 저장 장치, 여러 응용 프로그램 및 여러 서비스의 모음 그리고 스토리지 시스템의 모든 단일 지점 클라우드 스토리지 아니다.

다른 저장 장치 중 여러 저장 장치 구성 되어 있기 때문에, 그것은 클러스터 기술, 분산 파일 시스템 및 그리드 컴퓨팅, 여러 저장 장치 같은 서비스를 제공 하 고 더 중대 하 고 강력한 데이터 액세스 성능을 제공할 수 있도록 여러 저장 장치 간에 협력 작업을 실현 하는 데 필요한. 이러한 기술의 존재 없이 클라우드 스토리지 구현할 수 없는 진정으로, 그리고 소위 클라우드 스토리지만 단일 시스템, 아니라 구름 처럼 구조 수 있습니다.

(2) CDN 콘텐츠 유통, 피어-투-피어 기술, 데이터 압축 기술, 중복 데이터 삭제 기술, 데이터 암호화 기술

CDN 콘텐츠 유통 시스템, 데이터 암호화 기술은 클라우드 스토리지에서 데이터는 액세스할 수 없습니다 권한이 없는 사용자가 다양 한 클라우드 스토리지에서 데이터 보안 및 클라우드 스토리지의 안정성을 보장 하기 위해 손실 되지 않습니다 보장 하기 위해 데이터 백업 및 재해 내결함성 기술을 통해 동시에 확인. 클라우드 스토리지에서 데이터 보안을 보장할 수 없는 경우 아무도 감히 구름에 그것을 저장 하.

(3) 스토리지 가상화 기술, 스토리지 네트워크 관리 기술

클라우드 스토리지에 저장 장치 수가 여러 지역에 분산, 논리 볼륨 관리, 스토리지 가상화 관리, 및 다른 공급 업체, 다른 모델과 FC 스토리지 및 IP 스토리지와 같은 다른 종류의 여러 장치 간에 멀티 링크 중복 관리를 구현 하는 방법 거 대 한 도전 이며 문제가 해결 되 고 저장 장치 전체 클라우드 스토리지 시스템의 성능 병목 상태가 될 수 있습니다, 그리고 구조 전체를 형성 하지 수 있지만 또한가지고 늦은 용량 및 성능 확장 어려운 문제.

3 배포 둡

역사적으로,이 상황을 조용히 변경 데이터 분석 소프트웨어 오늘날의 대규모 데이터 얼굴 힘 되고있다. 새로운 대규모 데이터 분석 엔진 등장 했습니다. 아파치 하 둡, 예를 들어 Hadoop 데이터 처리 및 오픈 소스 플랫폼 중 하나에서 최고 임을 입증 했다.

센터는 데이터 노드 (datanodes) 파일의 내용을 저장 하는 데 담당 하는 많은 수의 서버를 위한 Hadoop을 만드는 파일의 분산된 스토리지를 실현 하는 클라우드 스토리지 로드 균형 조정 및 결함 허용 제어 파일의.

Hadoop을 사용 하 여 3 개 노드 클러스터 배포 mapre-데이스 분산된 처리, 저장 하는 두 개의 파일에는 Hadoop 분산 파일 시스템 (HDFS)의 능력을 테스트 하는 방법을 보여 주는 단계별 실험 플랫폼으로. MapReduce를 사용 하 여 계산 하는 두 개의 목록 파일에 나타나는 이름 수를 프로그램 아키텍처 설계는 그림 2에 표시 됩니다.

그림 2 3 노드 Hadoop 클러스터

노드의 Namenode 마스터와 Datanode의 분포는 다음과 같습니다.

표 1

(1) Hadoop 클러스터 시작

Namenode 마스터 노드에서 시작 all.sh 명령을 실행 하면 그리고 마스터 노드는 다른 관련 된 프로세스를 시작 하려면 SSH 통해 lave 노드 각각에 로그온 할 수 있습니다.

(2) MAPRUDCE 테스트

Namenode와 Datanode 두 노드 Hadoop 배포 성공 때 제대로 작동 했다, 우리는 Namenode 마스터 노드에서 두 개의 목록 파일을 준비. 문서 목록이 다음과 같이 읽는다:

4 작업 실험 및 결과

5 결론

결과 우리가 예상 했다, 그렇게 HDFs 파일 Hadoop 플랫폼에 저장 된 데이터 파일에서의 수 계산 되었고 다음 표시 동일 이었다.

당신이 좋아하는 것 같아요:

1. hadoop 의사 분산된 설치 방법

2. Hadoop 무엇 때 읽기 및 쓰기 파일 내부 작동 메커니즘은?

3. Hadoop에서에서 일부 기본 작업

관련 문서

연락처

이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이 페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.

커뮤니티에서 표절 사례를 발견한 경우 info-contact@alibabacloud.com 으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.