Hadoop mapreduce 환경 OpenStack 사설 클라우드 배포

출처: 인터넷
작성자: 사용자

사설 클라우드 소개

사설 클라우드는 클라우드 컴퓨팅 기업 다양 한 클라우드 컴퓨팅 데이터 센터 내에서 기술의 뉘앙스를 활용, 기업 내에 배포를 가리킵니다. 이러한 차이점에는 빠른 탄성, 리소스 풀링, 온-디맨드 배급, 및 자동화 된 관리 포함 됩니다. 내부적으로 이러한 특성을 통합, 대부분 기업 OpenStack 또는 Cloudstack 같은 오픈 소스 클라우드 버전을 채택 한다.

OpenStack은 컨트롤러, 컴퓨팅 (노바), 스토리지 (스위프트), 메시지 큐 (RABBITMQ), 및 네트워크 (양자) 구성 요소를 포함 하는 가장 인기 있는 오픈 소스 클라우드 버전입니다. 그림 1 (안 양자 네트워크 구성 요소 포함)이이 구성의 다이어그램을 제공 합니다.

그림 1입니다. OpenStack 구성 요소

함께, 이러한 구성 요소는 동적 컴퓨팅 및 스토리지 리소스의 배급을 허용 하는 환경을 제공 합니다. 하드웨어 관점에서 이러한 서비스는 많은 가상 및 실제 서버를 확장할 수 있습니다. 예를 들어 대부분의 조직에서는 컨트롤러 노드는 실제 서버를 배포 하 고 계산 노드와 다른 실제 서버를 배포 합니다. 대부분의 조직에서는 수도 OpenStack 배포에 대 한 신속한 스토리지 환경에 대 한 별도 서버를 사용 하 여 즉 전용된 실제 서버에 그들의 스토리지 환경을 격리.

대용량 데이터에 대 한 소개

3 데이터 원본에 대 한 데이터 수집으로 대용량 데이터를 정의 하는 오라클: 전통적인 데이터 (구조적된 데이터), 데이터 (로그 데이터와 메타 데이터), 인식 및 사회 (소셜 미디어) 데이터. 큰 데이터는 종종 새로운 기술 모델, NoSQL 분산된 데이터베이스에에서 저장 됩니다. 이 시스템 (NRDBMS)를 관리 하는 비-관계형 데이터베이스의 네 가지: 열을 기반으로, 키 값, 차트, 및 문서. 이러한 Nrdbms 함께 원본 데이터를 수집 하 고 MapReduce 등 분석 프로그램으로 집계 된 정보를 분석.

전통적인 대형 데이터 환경 분석 프로그램, 데이터 저장, 확장 가능한 파일 시스템, 워크플로 관리자, 분산된 정렬 및 해시 솔루션 및 데이터 흐름 프로그래밍 프레임 워크를 포함 합니다. 데이터 흐름 프로그래밍 프레임 워크 상용 응용을 위해 일반적으로 사용 되는 구조적 쿼리 언어 (SQL), 오픈 소스 애플 리 케이 션에 대 한 SQL 대안, 아파치 하 둡, 돼지 같은 자주 사용 됩니다. 상업적인 측면에 Cloudera 제공 가장 안정적이 고 포괄적인 솔루션의 한 아파치 하 둡은 오픈소스 Hadoop의 가장 인기 있는 버전입니다.

아파치 Hadoop는 일반적인 응용 프로그램 구성 요소, Hadoop 분산 파일 시스템 (즉, HDFS, 확장 가능한 파일 시스템), HBase (데이터베이스/데이터 저장), 돼지를 포함 하 여 다양 한 사용할 수 있습니다. (프로 파일링 방법) 하는 둡 고 MapReduce (분산 정렬 및 해시). 그림 2 에서처럼 Hadoop 작업 MapReduce 작업 추적기 (추적자)로 분해 하는 동안 여러 노드로 분해 됩니다.

그림 2입니다. Hdfs/mapreduce 계층의 일부

그림 3은 어떻게 MapReduce는 작업을 수행, 입력 소요와 일련의 그룹화, 정렬 및 병합 작업을 수행 하 고 렌더링 정렬 출력 해시.

그림 3입니다. 고급 MapReduce 다이어그램

그림 4 보다 복잡 한 MapReduce 작업 및 구성 요소를 보여 줍니다.

그림 4입니다. MapReduce 데이터 흐름 다이어그램

비록 Hadoop MapReduce는 전통적인 분석 환경 보다 더 복잡 한 (ibm 같은® cognos®와 Satori Procube 온라인 분석 처리), 배포는 아직도 확장 가능 하 고 비용 효율적인.

전반적인 고려

대용량 데이터 기술 및 개인 클라우드 환경, 유용 하지만 두 가지를 결합 하는 경우 비즈니스는 거 대 한 이익의 얻을 것 이다. 더 복잡 한 환경을 사용 하면 두 가지를 결합, 회사 OpenStack 사설 클라우드 및 Apache Hadoop 환경 결합 하는 놀라운 시너지 효과 볼 수 있습니다. 다음 섹션에서는 조직 대용량 데이터 기술 개인 구름을 결합 하는 방법을 설명 합니다.

스위프트, 아파치 Hadoop 및 MapReduce

사설 클라우드 환경에서 일반적인 큰 데이터 배포 모델 중 하나 OpenStack 신속한 스토리지 기술 처리 기능을 구현 하기 위해 아파치 Hadoop MapReduce 클러스터에 배포할 것입니다. 이 아키텍처를 사용 하 여의 장점은 기업 적 축적 데이터를 처리 하는 데 사용할 수 있는 확장 가능한 스토리지 노드를 얻을 것 이다. IDC 조사에 따르면 연간 성장 율 파일럿 프로젝트가 사설 클라우드 배포를 조직 하면서 성장 데이터 요구 사항을 충족 하는 60%에 도달 했습니다.

이 배포 모델에 대 한 최상의 사용 시나리오는 기업 내부적으로 큰 데이터 기술을 사용 하 여 저장소 풀을 통해 사설 클라우드 기술을 사용 하려고 하 고 이다. 유용한은 기술을 생산 데이터 웨어하우스 환경 구축 하 고 개인 클라우드 저장소 솔루션을 구성 큰 데이터 배포 먼저 해야 보여줍니다. 당신이 성공적으로 데이터 웨어하우스 환경에 아파치 Hadoop MapReduce 기술 통합을 빌드하고 귀하 개인 클라우드 저장소 풀을 제대로 실행 미리 Hadoop MapReduce 환경과 개인 클라우드 저장 데이터를 통합할 수 있습니다.

스위프트 Cloudera의 Apache Hadoop 출시

처음부터 큰 데이터를 사용 하 여 시작 하고자 하는 기업에 대 한 큰 데이터 장치 Cloudera 같은 솔루션 공급 업체에서 사용할 수 있습니다. Cloudera 배포판 모집 또는 그들은 더 큰 데이터에서 투자 (수익 ROI) 더 높은 수익을 달성할 수 있도록 Hadoop의 모든 미묘한 차이 대 한 직원을 훈련 하는 조직 수 있는 아파치 하 둡 (CDH) 솔루션을 포함 합니다. 이것은 특히 큰 데이터가 없는 기업에 대 한 매력 또는 사설 클라우드 기술을 설정 하 고 그들의 포트폴리오, 증분 방식에서으로 기술을 통합 하려는.

그러나 큰 데이터 및 클라우드 컴퓨팅는 비교적 새로운 기술, 그리고 그들을 통해 비용 절감을 달성 하고자 하는 많은 기업 들,, 많은 회사이 기술을 사용 하 여 이러한 완전히 주저. 큰 데이터 소프트웨어의 공급 업체 지원 되는 버전을 활용 하 여 기업은이 지역에서 더 안락 할 것 이다 하 고 또한 그들의 이점에 이러한 기술을 사용 하는 방법을 배울 수 있습니다. 또한, 큰 데이터 세트 큰 데이터 소프트웨어를 사용 하 여 분석 하 고 개인 클라우드 스토리지 노드를 통해 관리할 수 있습니다,이 기업은 또한 더 높은 사용률을 얻을 수 있습니다. 최고의 기업으로이 전략을 통합, 당신은 먼저 해야 설치, 구성 및 엔터프라이즈의 데이터 웨어하우스 환경을 분석 한 후 필요한 곳에 신속에 저장 된 데이터 추가 CDH를 관리 합니다.

스위프트, 노바, 그리고 아파치 Hadoop MapReduce

유연성, 확장성 및 대용량 데이터 환경에서 자율성의 높은 학위를 달성 하 고 싶은 기업 아파치와 OpenStack에 의해 제공 하는 오픈 소스 제품의 타고 난 능력의 활용할 수 있습니다. 이러한 이유로 기업 환경 디자인을 위에서 설명한 솔루션과 생각의 다른 방법으로이 두 기술 스택 사용을 최대화 해야 합니다.

를 달성 하기 위해 완벽 하 게 확장 가능한, 유연 하 고, 큰 데이터 환경에서 저장 및 계산 노드를 제공 하는 사설 클라우드 환경을 실행 해야 합니다. 이 위해 기업 먼저 사설 클라우드를 구축 하 고 큰 데이터를 추가 해야 합니다. 따라서,이 경우에, 스위프트, 노바, 및 RABBITMQ는 필요한, 고 컨트롤러 노드 관리 하 고 환경을 유지 하는 데 사용 됩니다. 그러나, 문제는 기업 환경 (예를 들어 큰 데이터 가상 컴퓨터 또는 클라이언트 인스턴스) 여러 부분으로 나눌 필요가 있는지 여부를 다른 시스템 및 비즈니스 단위에 대 한. 기업 개인 클라우드를 사용 하 여 완전히 준비가 경우 양자 분할 네트워크 관점에서 다양 한 환경에 추가 해야 합니다 (그림 5 참조).

그림 5입니다. OpenStack 아키텍처

설정 하 고 개인 클라우드 환경 테스트 후 그것으로 Apache Hadoop 구성 요소를 병합할 수 있습니다. 이 시점에서 노바 인스턴스 NoSQL 또는 SQL 데이터 저장소를 저장 하는 데 사용할 수 있습니다 (예, 그들은 공존할 수 있는) 뿐만 아니라 돼지와 MapReduce 인스턴스; Hadoop에 있을 수 있습니다 처리 기능을 제공 하는 독립 실행형, 비 노바 기계. 가까운 장래에, Hadoop 예정 이다 노바 인스턴스에서 실행 개인 구름 모든 노바 경우에 포함 될 수 있도록.

GFS, 노바, 돼지 및 MapReduce

스키마의 관점에서 OpenStack 스위프트를 사용 하 여 확장 가능한 저장소를 구현 하기 위해 다른 옵션이 있을 수 있습니다. 이 예제에서는 사용 하 여 Google 파일 시스템 (GFS), 노바 컴포넌트와 Apache Hadoop 구성 요소, 특히 돼지와 MapReduce를 사용 하 여. 이 예제에서는 사설 클라우드 컴퓨팅 노드 Google의 공용 스토리지 클라우드 데이터 저장소로 활용 하면서 컴퓨팅 처리에만 사용 되는 개발에 초점을 기업 수 있습니다. 이 하이브리드 클라우드를 사용 하 여 엔터프라이즈 컴퓨팅 처리 기능, 제 3 자는 저장소 구현에 대 한 책임의 핵심 기능에 집중할 수 있습니다. 모델 활용할 수 있는 다른 공급 업체 등 아마존 심플 스토리지 서비스, 스토리지 솔루션, 하지만 기업 내부적으로 확장 가능한 파일 시스템 (XFS)를 사용 하 여 솔루션을 구축 해야와 그에 따라 테스트 어떤 외부 저장소를 사용 하기 전에. 그리고 공용 클라우드로 확장. 또한, 데이터의 중요도 따라 단체 난독 처리 (obfuscation), 바인딩, 암호화, 또는 해시 같은 데이터 보호 메커니즘을 사용 하 여 할 수 있습니다.

팁 및 힌트

엔터프라이즈 환경에 클라우드 컴퓨팅 및 대형 데이터 기술 통합 때 그것은 직원의 기술 모두 기술 플랫폼에 대 한 집합을 구축 하는 것이 중요. 직원 들이 이러한 기술을 이해, 일단이 두 플랫폼의 효과 테스트 하는 실험실을 구축할 수 있습니다. 많은 다른 구성 요소가 있기 때문에, 구현 과정에서 앞서 언급 한 검증된 경로를 따라 중요 하다. 또한, 단체 두 모드를 병합 하 려 할 때 방해 발생할 수 있습니다 여러 번 시도 후 다른 방법을 사용 해야 합니다. 이러한 방법에는 장치 및 하이브리드 구름 포함 됩니다.

장애물과 함정

이 비교적 새로운 기술 이기 때문에, 대부분 기업 중요 한 자본 지출 (CAPEX) 다음 테스트를 위해 기존 리소스를 사용 하 여 필요 합니다. 그러나, 아무 합리적인 예산 및 인력 훈련 기업에서 이러한 기술의 응용 프로그램에 대 한 있는 경우에, 조종사 및 테스트 작업 실패 합니다. 마찬가지로, 완전 한 사설 클라우드 배포 부족 한 경우 기업 먼저 구현 해야 큰 데이터 기술에 사설 클라우드를 구현 하기 전에 합니다.

마지막으로, 기업 개인 구름과 큰 데이터 계획에 대 한 전략적 로드맵을 개발 하기 위해 필요 합니다. 배포, 더 분석 "일" 필요에 대 한,이 프로세스를 지연 수 있습니다. 이러한 위험을 제거 하려면 프로젝트 관리 하는 반복적인 접근 방식은 단계적 방식으로,이 통해 이러한 기술을 기업에 배포할 수 있습니다 비즈니스 단위에 배포 한다.

결론

클라우드 컴퓨팅 및 빅 데이터 우리의 삶에 입력 그래서 우리 기업 어떻게 이러한 기술 기업, 비용 절감 등 혜택 또는 CAPEX에 처리 기능 강화를 결정 하기 위해 필요. 조직, 이러한 시스템을 테스트 하 고 반복 방식으로 기업에 통합 해야 합니다. 이 방법에서는, 기업 투자, 미래 개발을 위한 준비에 좋은 수익을 얻을 수 있습니다.

저자 소개

스티브 마 키는 컨설턴트, 부 교수 및 델라웨어 밸리 (그레이터 필라델피아) 분기 클라우드 보안 얼라이언스 (체코)의 현재 회장이 다. 그는 다양 한 인증서 및도 하 고 기술 분야에서 11 년의 경험 이상 있다. 스티브 자주 발행 하는 정보 보안, 정보 개인 정보 보호 정책, 클라우드 컴퓨팅, 강의 관리, 전자 검색 및 정보 관리 프로젝트.

원래 링크: Hadoop MapReduce 환경 OpenStack 사설 클라우드 배포

연락처

이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이 페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.

커뮤니티에서 표절 사례를 발견한 경우 info-contact@alibabacloud.com 으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.