2013 Hadoop 정상에서 원사 뜨거운 주제, 원사 hadoop MapReduce 프레임 워크의 성능 병목을 깨는 새로운 운영 체제를 했다. 목요일 Hadoop 및 원사의 조합 기업 위한 대용량 데이터 플랫폼의 성공에 열쇠 이다.
야 후는 원래 검색 및 인덱스 웹 페이지, Hadoop를 개발 많은 검색 서비스는 현재으로이 프레임 워크를 기반으로 하지만 Hadoop은 기본적으로 솔루션. 원사는 2013 Hadoop 정상 회담에서 뜨거운 주제를 했다. 3 년 임신, 원사는 기본적으로 Hadoop의 운영 체제, MapReduce 프레임 워크의 성능 병목 현상을 돌파.
MapReduce는 HDFs에 데이터를 조작 하기 위한 주요 메커니즘입니다. 이것은 적합 한 처리 및 대량의 데이터, 로그 파일 및 몇 년 동안, 다른 반 구조화 된 데이터를 분석 하지만 다른 유형의 데이터 분석에 적합 하지 않습니다. 3 년 전, Hortonworks의 설립자 이자 건축가, 아 룬 목요일 시작 Hadoop을 구조 조정 (Hortonworks는 그냥 발표 했다 50 백만 달러 자금, 테 나 자본 및 Dragoneer의 새로운 라운드에서 투자 그룹 전 투자자 벤치 마크와 함께, 인덱스 벤처 자본과 yahoo! 또한, 그것에 관련 된 더 다양 한 대용량 데이터 플랫폼을 융자의이 라운드를 지배 하고있다.
"우리가 시작할 때 Hadoop2.0 건물, 우리 Hadoop에 여러 응용 프로그램을 실행 하 고 관련된 데이터 집합 작업의 목적을 달성 하기 위해 Hadoop 아키텍처를 근본적으로 재설계 하 고," 아 룬 목요일 말했다. 여러 유형의 응용 프로그램을 효율적으로 동일한 클러스터에서 실행할 수 있습니다 제어 하 고. 이것은 왜 아파치 원사, Hadoop 2.0에 따라 태어날 수 있는 진짜 이유입니다. 원사를 사용 하 여 클러스터 리소스 요청 관리를 Hadoop 다중 응용 프로그램 운영 체제를 단일 응용 프로그램 시스템에서 업그레이드 합니다. "
다른 유형의 응용 프로그램을 포함 하는 목요일: 기계 학습, 이미지 분석, 스트리밍 분석 및 대화형 쿼리 기능. 원사는 완벽 하 게 작동, 일단 개발자 실 "운영 체제"를 사용 하 여 이러한 응용 프로그램을 HDFS에 저장 된 데이터에 적용할 수 있게 됩니다. 하이브는 페이 스 북, 개발한 HDFS SQL 형식 데이터 웨어하우스 도구입니다 하지만 백 엔드 데이터 처리 MapReduce를 통해. 하이브는 리소스를 소비 하 고 동시에 실행 되는 다른 작업에 영향을 줍니다. 다른 Hadoop 관련 데이터 분석 하위 비슷합니다.
원사는 여러 응용 프로그램을 한 클러스터에 동시에 고 효율적으로 실행할 수 있는 진정한 Hadoop 리소스 관리자입니다. 원사, hadoop 진정으로 여러 응용 프로그램 플랫폼 전체 엔터프라이즈를 검색할 수 있습니다 될 것입니다. 목요일 말한다 원사는 전례 없는 방식으로 데이터와 상호 작용할 수, hortonworks 데이터 플랫폼, 원사 사용 되었습니다 Hadoop 및 원사의 조합 큰 데이터 플랫폼의 성공에 열쇠 이다.
Mapreduce2.0-원사의 기본 아키텍처
MapReduce 0.23, 하 둡에 대규모 업데이 트를 겪고 있다 그리고 MapReduce2.0의 새로운 버전 원사 또는 MRv2로 알려져 있다.
원사의 기본적인 아이디어는 글로벌 ResourceManager (RM) 및 응용 프로그램에 대 한 몇 가지 applicationmaster (AM)를 생성 하 여 jobtracker (자원 관리 및 작업 스케줄링 모니터링)의 두 가지 주요 기능을 분리 하는. 여기 응용 프로그램 전통적인 MapReduce 작업 또는 작업 dag (함께 방향 없는 루프 다이어그램)를 나타냅니다.
ResourceManager NodeManager (NM) 각 슬레이브 노드의 데이터 컴퓨팅 프레임 워크를 구성. ResourceManager는 궁극적으로 개별 응용 프로그램에 리소스를 할당 합니다. NodeManager는 각 기계, 컨테이너 관리, 그들의 자원 사용량 (CPU, 메모리, 하드 디스크, 네트워크), 모니터링 및 Resourcemanager/스케줄러에 보고에 대 한 책임에 대 한 프레임 워크 에이전트입니다. 각 응용 프로그램에 대 한 Applicationmaster는 실제로 ResourceManager 및 실행 작업을 모니터링 하는 NodeManager에서 가져온 리소스를 결합 하 여 상세한 프레임 워크 라이브러리입니다. 또한 Applicationmaster는 스케줄러에서 적절 한 리소스 컨테이너를 요청, 그들의 사용 상태를 추적 하 고 그들의 진행 상황을 모니터링 합니다.
ResourceManager에 있는 두 가지 주요 구성 요소: 스케줄러 및 Applicationsmanager.
스케줄러는 응용 프로그램에 리소스를 할당 합니다. 스케줄러는, 감각, 순수한 디스패치를 모니터링 하 고 응용 프로그램의 상태를 추적 않는 다시 시작 응용 프로그램 또는 하드웨어 오류에 의해 발생 하는 오류에 대 한 책임은. 스케줄러는 메모리, CPU, 하드 디스크, 및 네트워크를 포함 하는 추상 리소스 개념 컨테이너 기반 응용 프로그램의 리소스 요구 사항에 따라 일정을 실행 합니다. Applicationsmanager는 특정 applicationmaster, 응용 프로그램 할당 작업 제출 받은 담당 이며 다시 시작 실패 applicationmaster에 대 한 책임.