큰 데이터 논쟁: 윌 HBase NoSQL 지배?

출처: 인터넷
작성자: 사용자
키워드: 그리고 분석 토론 큰 데이터
HBase 확장성 및 Hadoop로 동일한 인프라를 공유의 경제학을 제공 하지만 않습니다 자사의 결함 찢 어 그것의 뒷 다리? NoSQL 전문가 토론 프레임 배치.


HBase는 세계에서 가장 인기 있는 대형 데이터 처리 플랫폼, 아파치 하 둡, Google BigTable 모델의 일부입니다. 하지만이 계보 보장할 수 hbase 경쟁력과 빠른 성장 NoSQL 데이터베이스 시장에서 지배적인 역할?

마이클 Hausenblas
모임의의 하 둡과 hbase 확장성과 일관성의 인기 성공을 보장할 수 있습니다 믿고 있다. HBase 커뮤니티 다른 오픈 소스 캠페인을 능가할 것입니다 하 고 더 연구를 필요로 하는 몇 가지 기술적인 문제를 극복할 것입니다.

조나단 엘리스, 오픈-소스 프로젝트 카산드라의 뒤에 공급 업체 DataStax 작업 지원, HBase 너무 많은 결함을 극복 하는 데 필요한
Hadoop의 HDFS 아키텍처에 포함 됩니다 주장 합니다. 그는 이러한 결함 영원히 고속 작업에 적용 되는 프로젝트에 hbase를 제한할 것 이다 말한다.


다른 의견에 대 한 우리의 두 NoSQL 전문가 읽어 보시기 바랍니다 그리고 아래의 코멘트 섹션에서를 사용 하 여 귀하의 의견은 토론에 참여.


사각


마이클 Hausenblas


EMEA의 수석 데이터 엔지니어, 모임의 기술 회사


와 Hadoop 통합 수용
드라이브

가이 질문에 대답은 명확한 "예, 하지만..."

이 대답을 파악 하기 위해
우리 걸음 뒤로 맥락에서 문제를 이해 해야. 2011 년에 마틴 파울러와 "여러 언어의 지 속성의 지식을" 2005 년 마이크 Stonebraker는 "한 차원에 적용 되지 않는 모든 것".


따라서, 나는 질문에 "지배" 하지 "아파치 HBase 넓은 맥락에서 사용 될 것 이다와 다른 NoSQL 데이터베이스 보다 더 큰 사회를?" 하지만 지난 10 년간, 관계형 데이터베이스에 적용 된 시장 점유율의 점에서 설명 하 고 싶습니다. (작은 궤변 수단)을 논의 하기 위해 메인 라인.


그에 주어진이 있습니다 지금 100 개 이상의 다른 NoSQL 옵션, MongoDB, Riak, Couchbase, 카산드라와 다른 많은 옵션을 포함 하 여 위의 보기 대담한 유추 될 말할 수 있습니다. 하지만 빅 데이터 시대에 추세는 이동 전문 정보 저장소에서 대규모 이기종 데이터 처리, 심지어 인기 제도 처럼 MongoDB HBase에 의해 잡힐 것입니다.


왜? MongoDB는 명백한 확장성 문제, 그리고 hadoop 사용의 급속 한 성장, Hadoop과 직접 통합 하는 NoSQL 솔루션 크기와 인기에서 상당한 이점이 있을 것 이다. HBase는 모든 측면을 연결 하는 크고 다양 한 커뮤니티: 사용자, 개발자, 여러 상용 공급, 가용성, 그리고 마지막 하나 아마존 웹 서비스 (AWS)를 통해 같은 클라우드.


개발의 역사, HBase와 카산드라 사이 많은 상사 성이 있다. HBase는 2007 년에 파워에 의해 설립 되었다 (회사는 곧 Microsoft에서 인수), 그리고 처음에 그것은 Hadoop의 일부 다음 최상위 프로젝트 되었다. 카산드라는 2007 년에서 페이스 북에 의해 처음으로 시작 되었다, 오픈 소스, 그리고 이후 아파치 인큐베이션 프로젝트 되었고 지금은 최고 프로젝트 되고있다. HBase와 카산드라는 수락 하 고 측면 확장성, 견고성, 유연성과 큰 데이터 집합을 제공 하는 키-값 데이터 저장소의 여러 열.


그들의 건축 디자인 철학에서 다릅니다: 카산드라 아마존의 DYNAMODB 시스템에서 많은 디자인 요소를 빌려, 최종 규칙 모델 쓰기, 최적화 및 HBase는 Google BigTable의 클론된 버전 최적화 된 읽기 작업 하 고 강한 일관성입니다. HBase의 우월의 흥미로운 증거가입니다 페이 스 북, 카산드라의 창시자의 내부에서 카산드라 대신 hbase를 사용 하고있다.

응용 프로그램 개발자의 관점에서
, HBase 낫다 때문에 강력한 일관성을 제공 하 고 인생을 더 쉽게 만든다. 마지막 일관성에 대 한 하나의 오해는 쓰기 속도 증가: 경우 영구 쓰기 대기 시간에 영향을 차단 하는, 최종 결과 그 혜택 없이 "마지막 일관성 세금".


거의 모든 nosql 제도 낮은 대기 시간, 자동으로 조각, 안정성 문제 및 노드 긴 복구 주기 때 그들은 아래로 하는 무 능력에 압축의 효과 등 몇 가지 기술적인 제한 사항이 있습니다. 여기 모임의 우리 만들었습니다 "미래의 에디션" 엔터 프 라이즈-클래스 hbase 즉각적인 복구, 원활한 조각화 및 높은 가용성을 포함 하 고 압축을 거부. 우리 2013 년 5 월, M7 표시가 버전에 그것을 통합 하 고 그것은 AWS 탄성 MapReduce를 통해 클라우드에서 사용할 수 또한.


마지막 하지만 최소한, HBase Hadoop을 강력 하 고 신뢰할 수 있는 방법은 아파치 하이브 및 아파치 돼지를 포함 하 여 전체 Hadoop 에코 시스템을 통합 하는 것에 기여 하는 프로젝트의 소유 하는 유산.

요약에서
, HBase 급속 하 고, 소규모 업데이트와 대규모 쿼리 필요 사용 사례 시나리오에 지배적인 NoSQL 플랫폼 될 것입니다. 최근 개선 또한 hbase, 압축의 제거 등 진정한 분산된 협업의 제공에 대 한 건축 장점을 만들었습니다.


마이클 Hausenblas는 EMEA 지역 모임의 기술 회사의 수석 데이터 엔지니어입니다. 그의 작업 배경 대규모 데이터 통합 연구 및 개발, 옹호 및 표준화 이다.



를 반대

조나단 엘리스


공동 설립자 및 CTO


DataStax


HBase는 너무 많은 결함
시달려

NoSQL 여러 기능, 그래픽 데이터베이스 및 문서 저장 등 hbase, 및 그것은에 속한다 분할된 행 저장소의 종류에도 지도자 뒤에 hbase 지연 되지 않은 포함 되어 있습니다. 기술적인 결함 두 가지 주요 유형으로 HBase의 실패 사례를 나눌 수 있습니다: 먼저 경우 엔지니어링 문제 시간과 충분 한 인력,이 문제를 다루는 수 있습니다, 두 건축 결함,이 디자인은 층 리 비행기 고유의 문제, 따라서 복구할 수 없습니다.


엔지니어링 문제


-작업은 복잡 하 고 실패 하는 경향이 있다. HBase 배포 해야 다음 파일 구성: 최소 동물원의 사육 담당자 클러스터, 레벨 hmaster, 레벨 2 hmaster, regionservers, 활동 Namenode, 대기 Namenode, hdfs 관리 및 Datanodes. Hbase는 자동으로 설치 될 수 있다, 비록 도움, regionservers 실패 등 낮은 수준의 namenode 실패 없이 성공적으로 설치 하기 너무 어렵습니다. HBase를 사용 전문성과 심지어는 알아야 무엇 모니터링을 많이 필요 합니다. 오직 하나님 당신이 정기적으로 백업을 만들 수 있습니다.


--regionserver 장애 조치 10-15 분, hbase 파티션 영역으로 고 각 영역 Regionserver에 의해 관리 됩니다. Regionserver는 관리 영역에 대 한 단일 실패를 허용 합니다. 그것은 실패 하는 경우 새로운 영역 서버를 선택 해야 합니다 그리고 새 서버 작동 하기 전에 서버 로그를 다시 작성 해야 합니다.


-it's hbase와 함께 개발 하는 고통 스러운입니다. HBase API 서투른 이며 Java 중심. 비 자바 클라이언트는 두 번째 수준의 중고품 또는 나머지 포털에 순위가 내려갑니다. 이것과 달리 모든 언어에 익숙한 유익한 개발 경험을 가진 개발자를 제공 하는 카산드라 쿼리 언어가입니다.


-HBase 커뮤니티 불 통일입니다. 아파치 불안정의 본선 널리 알려져 있습니다. Cloudera, Hortonworks, 및 고급 사용자가 그들의 자신의 패치 나무 꼭대기 층에 유지합니다. 리더십 찢 어 떨어져 거기 개발에 대 한 더 명확한도 지도 이다. 반대로, 오픈-소스 카산드라 커뮤니티 참여자 DataStax, 넷 플 릭 스, Spotify, 푸른 산 자본 및 다른 조직 및 파 또는 분기에서 있다.

전체
, NoSQL 생물권에 대 한 우려 했다 이후 HBase와 다른 NoSQL 플랫폼 사이의 격차 성장 했습니다. 내가 처음 그들을 평가 하는 경우 나 HBase 프로젝트에 CASSANDRA6 개월 뒤에 뒤떨어진 했다 하지만 오늘이 지연 약 2 년 확장 되었습니다 결정 했다.


건축 결함


-마스터-중심의 디자인은 HBase의 작동 매우 융통성. Regionserver 마스터에 의해 모든 읽기 및 쓰기 수단을 라우팅는 hbase 여러 데이터 센터 간에 액티브/액티브 구조 비동기 복제를 할 수 없습니다 하 고 한 클러스터에서 개별 복제기에 작업을 할당할 수 없습니다. 대조적으로, 카산드라 피어-투-피어 복제 hadoop, 태양 및 ETL, 없이 카산드라의 완벽 한 통합을 허용 하 고 최소한의 선형 일관성을 필요로 할 때 간단한 거래를 할 수 있습니다.


-failover는 가동 중지 시간을 의미합니다. 많은 응용 프로그램의 가동 중지 시간, 심지어 분을 받아들일 수 없다 하지만이 hbase 디자인에 대 한 고유한 문제 이며 각 regionserver는 단일 노드 오류. 동안 의미 하는 복제기 다운 특별 한 작업을 시스템 없이 복구할 수 있습니다 여전히 제대로 작동 다른 복제기 그리고 나중에 그것은 완전히 분산된 설계는 복제기의 중단을 통합할 수 있습니다.


-HDFs는 주로 스트리밍의 형태로 큰 파일에 액세스 하려면 설계 되었습니다. HBase 일괄 분석을 위해 최적화 된 분산된 파일 시스템을 기반으로 합니다. Hbase 낮은 성능, 특히 읽기의 직접적인 원인이 이며 솔리드 스테이트 드라이브에 읽기를 위해 특히 사실 이다. 관계형 데이터베이스는 30 년 전 즉 대용량 데이터 작업을 위해 설계 된 B-트리 엔진 최적화 수 없습니다, 것 처럼 HDFs 주요 목적 및 주요 기능 축소 사이 균형을 하지 않습니다:


--In은 클러스터 일반적인 하드 드라이브와 SSD, 그리고 작업에 대 한 적합 한 미디어에 테이블을 수정.


-snapshots, 증분 백업 및 지정 시간 복원

최대 응용 프로그램 응답 시간을 피하기 위해
-compresses 소통량.


-Dynamically 복제기를 수행 하는 최고의 라우팅 요청 합니다.


는 HBase를 HDFs 디자인 hbase는 여전히 자연스럽 게 NoSQL 시장에 고유한 고속, 임의 액세스 작업에 적합 하지 않습니다 보장 합니다 대량 분석을 위한 더 적당 한 기초를 만든다.


조나단 엘리스는 DataStax의 CTO와 창업자, DataStax 그는 기술 방향으로 고정 하 고 주도 프로젝트 리더 아파치 카산드라 프로젝트.
관련 문서

연락처

이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이 페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.

커뮤니티에서 표절 사례를 발견한 경우 info-contact@alibabacloud.com 으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.