아파치 Haddo 일괄 컴퓨팅 엔진은 대용량 데이터 코어에 대 한 오픈 소스 소프트웨어 프레임 워크 이다. Hadoop에 적용 되지 않습니다 진짜 실시간 데이터 표시에 필요한 온라인 대화형 데이터 처리? 더 그 커팅, Hadoop 작성자와 Apache Hadoop 프로젝트 (또한 Cloudera 회사의 수석 건축가)의 창시자 그가 믿는 Hadoop은 일괄 처리를 넘어 미래를 말한다.
"일괄 처리 등 많은 데이터를 이동 하 고 모든 데이터를 분석 해야 할 때 유용 합니다, 하지만 내가 생각 하는 사람들이 정말 원하는 것은 조합을 일괄 처리 온라인 컴퓨팅," 절단을 말한다. Hadoop은 기업에 대 한 미래의 주류 데이터 처리 시스템의 핵심을 될 것입니다. "
둡
뉴욕의 O ' Reilly 지층 컨퍼런스 + Hadoop 세계 의회, Hadoop 스택과 그 방향으로의 핵심 아이디어 설명 절단.
"Hadoop 사실 일괄 컴퓨팅 엔진으로 볼 수 있다, 이것은 우리가 어디 (를 결합 하 여 MapReduce), 시작" 절단 말한다, "MapReduce MapReduce 알고리즘을 배포 하는 방법에도 서의 많은 훌륭한 도구입니다." "
MapReduce는 대규모 데이터 분산 컴퓨팅을 사용 하 여 병렬로 처리 구글에 의해 설계 된 프로그래밍 모델입니다. MapReduce는 입력을 가져오고 노드를 병렬로 처리 하기 위해 할당 되는 더 작은 하위 문제로 그것을 나눕니다. 그들은 다음 출력 형태로 자식 질문에 대 한 답변을 재편성.
"그것은 매우 효과적인," 절단 말한다, "그것 수 있습니다 이동 계산 데이터를 데이터와 함께 작업 하는 경우, 어디서 나 데이터를 복사 하지 마십시오 그리고 공유 플랫폼 형성." 분산된 시스템을 구축 할 수 있는 '하룻밤', 그래서 우리가 다시 그것을 다시 배포 하 고 싶지 않아 뭔가 복잡 한 과정 이다. MapReduce 견고한 기초에 우리가 본 돼지와 통 등 많은 도구를 개발한 것을 입증 했다. "
그는 덧붙였다: "물론,이 플랫폼은 아니라 일괄 컴퓨팅, 그것은 매우 일반적인 플랫폼에 대해서만." "
Hadoop 플랫폼의 기능
이 시점을 설명 하기 위해 그가 고려 Hadoop의 두 핵심 테마를 절단에 설명 합니다.
첫째, Hadoop 플랫폼은 잘 확장, 메모리에 저장 된 작은 데이터 집합에 적용 하 고 그것은 큰 데이터 집합을 처리 하도록 확장할 수 있습니다.
"확장성의 중요 한 요소 중 하나는 경제성, 비록 우리는 거의 그것에 대해 듣고," 그는 말한다. "우리 상품 하드웨어에서 실행 하면 추가 확장을 하기 때문 에". 스토리지의 10 시간을 살 수 있는, 데이터의 크기는 10 시간 저장할 수 있습니다. 경제성은 키, 그리고 그 이유는 그래서 그것은 가장 저렴 한 플랫폼 때문에 필수품 하드웨어를 사용 하는 우리. "
똑같이, 그는 지적입니다 Hadoop 오픈 소스.
"유사 하 게, 오픈 소스 소프트웨어는 매우 저렴 한," 그는 말한다, "그들의 애플 리 케이 션을 개발 하는 사람들, 가장 충돌 플랫폼 무료 플랫폼입니다." 당신은 공급 업체에 지불할 수 있습니다 하지만, 년, 그리고 이상 시간 공급자 값을 제공 하 여 신뢰와 자신감을 적립 하는 데 필요한 그것을 위해 지불 하지 않아도 제공 하는 값에 대 한 지불 합니다. "
또한 Hadoop의 다른 특징은 다음과 같습니다.
"데이터를 로드할 때 당신은 엄격한 패턴을 사용 하 여 데이터를 제한할 필요가 없습니다 개념 이다" 라고, "그리고 Hadoop에 대 한 원래의 형태로 데이터를 저장할 수 및 다음 다른 패턴을 사용 하는 데이터를 사용 하 여." "
대용량 데이터 분야에서 또 다른 인기 있는, 일반적으로, 당신의 문제를 이해 분석 알고리즘 더 나은 당신을 도울 수 있다 보다는 더 많은 데이터입니다. 즉, 작은 데이터 집합을 조정 하는 데 사용 하는 알고리즘 보다는 데이터를 수집 하는 더 많은 시간을 할애 한다. 직관적으로, 고해상도 이미지 처럼 이며 그림을 구문 분석 하는 경우, 대신 저해상도 고해상도 이미지를 확대 하도록 선택 해야 합니다.
HBase는 Hadoop에서 온라인 컴퓨팅의 예
그는 일괄 처리, 하 둡의 핵심 기능은 아니지만 아파치 HBase, Hadoop 스택과 매우 성공적인 오픈 소스, 관계의 일부인 배포 데이터베이스 (Google의 BigTable에 모델) 지적 한다. HBase는 온라인 컴퓨팅 시스템, 컴퓨팅 시스템 일괄 처리 하지.
절단에 설명 합니다: "HBase 또한 지원 일괄 처리는 HDFS와 Hadoop 스택의 다른 구성 요소와 저장소를 공유 하 고 나는 생각 한다 왜 그것이 그렇게 인기 있는 이유 중 하나. HBase는 스택의 다른 구성 요소와 공유할 수 있는 독립 실행형 시스템 되 고 하는 것 보다는 시스템의 다른 부분에 통합: 가용성, 보안 및 재해 복구를 공유할 수 있습니다. "
Hadoop의 "성배"를 찾고
Hadoop 하지 않으면 그냥 일괄 컴퓨팅 플랫폼, 하지만 오히려 더 일반적인 데이터 처리 플랫폼, 그것 처럼 보이게 하 고 어떻게 그것은 그 단계에 도달 합니다 것인가?
"'성배' 큰 데이터 시스템의, 우리가 거기 있어야 한다고 생각 많은 요인," 절단 말한다. "물론, 우리 오픈 소스 일반 하드웨어에서 실행 하는 그것을 원한다." 우리는 또한 선형 확장 하 고: 10 번 시간 데이터를 저장 해야 경우 10 시간은 하드웨어를 구입 하기만 하면 얼마나 큰 데이터 집합 되 고, 아무리 하을 확장할 수 있습니다. "
마찬가지입니다 성능, 절단 말한다, 그리고 필요한 경우 더 많은 일괄 처리 또는 작은 대기 시간, 하면 하드웨어의 수를 증가. 대화형 쿼리는 마찬가지입니다. 추가 하드웨어 성능 및 데이터 볼륨에서 선형 확장을 줄 것 이다.
그는 덧붙였다: "사람들이 생각 하는 큰 데이터 플랫폼을 사용 하 고, 생각 하지 않습니다, 뭔가를 포기 해야 하 고 우리가 긴 안목으로 보면 아무것도 줄 필요가 있다고 생각 하지 않습니다." "
구글 로드맵 제공
"구글 로드맵을 함께 우리을 제공 하고있다," 그는 말한다, "그리고 우리는 우리가 어디로는 알고." 그들은 그들의 GFS 및 MapReduce 논문 발표 후, 우리 신속 하 게 그들에 복사 Hadoop 프로젝트를 여러 가지 방법으로 년 동안 오픈 소스 스택 영감 하고있다. Google의 sawzall 시스템 양산 돼지와 하이브, 그리고 bigtable 직접 HBase를 영감을. 올해의 Google 출판 문서 라는 스 패너, 전송 분산된 시스템 (다중 테이블 전송 데이터베이스는 세계 각국에서 실행)에서 구현 하는 시스템을 설명 합니다, 많은 사람들이이 곧, 일어나지 않을 것입니다 하지만 그것은 우리에 게 앞으로 방법을 보여줍니다 가정 것 이다 볼 수 흥분 돼. "
절단은 스 패너 Hadoop의 일부가 그렇게 빨리 되지 않는다 하는 복잡 한 기술 이지만 그것은 방향을 나타냅니다 지적 한다. 그는 또한 발행 임 팔 라, cloudera HBase에 데이터 집합을 저장 하는 데 SQL 쿼리를 사용할 수 있는 새로운 데이터베이스 엔진 언급.
"우리는 우리는 거 야, 그리고 우리가 우리의 목표를 달성 하는 방법을 알고 알고" 절단을 말한다. 그래서, 난 좋습니다 이제 Hadoop을 사용 하 여 시작 하는 미래에 더 얻을 것 이다 때문에. "
(책임 편집기: Schpeppen)