Hadoop 기업 들어가면 그것 해결 전통에 응답 하 고 그것에 게 정보 아키텍처를 성숙 하는 방법의 문제를 직면해 야 합니다. 업계에서 원래 구조화 된 데이터와 처리 하는 방법 기업의 대용량 데이터 필드를 입력 하는 어려운 문제가입니다.
Hadoop 기업 들어가면 그것 해결 전통에 응답 하 고 그것에 게 정보 아키텍처를 성숙 하는 방법의 문제를 직면해 야 합니다. 과거에는, MapReduce 구조화 되지 않은 데이터 로그 파일 분석, 인터넷 클릭 스트림, 인터넷 인덱스, 기계 학습, 금융 분석, 과학 시뮬레이션, 이미지 저장 및 행렬 계산을 해결 하기 위해 주로 사용 되었다. 하지만 기업에서 원래 구조화 된 데이터와 처리 하는 방법 큰 데이터 필드에 입력 하는 기업의 어려운 문제입니다. 기업은 구조화 되지 않은 데이터와 구조화 된 데이터 모두를 처리할 수 있는 대용량 데이터 기술 필요.
대용량 데이터 시대에 Hadoop 주로 구조화 되지 않은 데이터를 처리 하는 데 사용 되 고 구조화 된 데이터의 전통적인 IOE 아키텍처와 함께 처리 하는 방법을 기업에 대 한 어려운 문제입니다. 이런이 맥락에서 구조화 된 데이터와 구조화 되지 않은 데이터 처리, Hadoop에 SQL 떠오르고 있다.
SQL Hadoop에 2013 년의 가장 뜨거운 주제 이었고 Cloudera 임 팔 라의 릴리스 버전에 의해 추진 되었다. 현재, Hadoop에 SQL 초기 단계에 있으며 많은 기술 사례 있습니다. 그리고 엔터프라이즈는 작은 데이터의 유연한 처리에 적응 하고있다, 때문에 Hadoop에가 서 갑자기 될 혼동, Hadoop에 SQL의 음성은 성장 하 고 그래서. Hadoop에 SQL Hadoop 성능 및 SQL 유연성을 보장합니다. Hadoop에 SQL에 대 한 업계 다른 보기, 업계 주요 데이터 기업 또한 적극적으로 공부 하 고 있습니다.
1. 상단에 db의 전통적인 방법으로
일부 북미 공급 업체 위에 DB에 대 한 전통적인 접근을 사용 하 여 다른 데이터 작업에 대 한 다른 컴퓨팅 프레임 워크를 결합 하는 Hadoop에 SQL을 해결 하기 위해. EMC Greenplum, HADAPT, citus 데이터에 의해 표현 됩니다. HADAPT는 구조화 된 데이터의 쿼리를 완료 하는 Hadoop에 PostgreSQL 프레임에 연결 됩니다. Hadoop의 높은 확장성 및 관계형 데이터베이스, Hadoop와 관계형 데이터베이스 간의 쿼리 분리의 높은 속도 활용 하는 통합된 데이터 처리 환경을 제공 합니다. Citus 데이터 분산된 처리 기술을 사용 하 여 여러 형식을 데이터베이스의 네이티브 형식으로 변환 하 여 쿼리를 완료.
그림 1, Hadapt
최고 접근에 DB 먼저 2010 년에서 HADAPT에 의해 제안 된와 아마존 EMR Community Edition에서 실행할 준비가 구조화 및 구조화 되지 않은 데이터를 해결 하기 위해 업계 동료에 의해 초기 시도 이다. 그러나, 본질은 두 계산 프레임 워크에서 데이터는 별도로 저장는 높은-성능 데이터를 관계형 엔진에 구조화 된 데이터의 저장 그림 1에서 보듯이 (고성능 관계형 엔진 구조). 구조화 되지 않은 데이터는 Hadoop 분산 파일 시스템 (구조화 되지 않은 데이터에 대 한 Hadoop 분산 파일 시스템)에 저장 하 고 두 가지 유형의 데이터 상호 작용 슬라이스 쿼리 실행에 따라 달라 집니다. 메타 데이터의 조직 제어 시스템 확장의 진화에 과도 한 기술 해야 합니다.
2입니다. 원래 생태 하이브의 최적화
오픈 소스 커뮤니티에서 Hortonworks 스 팅 어, 예를 들어 아파치 드릴을 가져가 라. Hortonworks 스 팅 어 원래 생태 하이브의 변환을 통해 SQL 쿼리의 속도 최적화, SQL 쿼리를 완료 하는 5-30 초에 도달 하면 그것을. 아파치 드릴 원래 생태계의 하이브를 최적화 하 여 sql 쿼리를 완료 합니다.
그림 2, Hortonworks 스 팅 어
원래 생태 변환의 오픈 소스 커뮤니티, 목표는 일반적인 컴퓨팅 프레임 워크와 인터페이스를 구축 하는, 현재 오픈 소스 프로젝트, 비록 여전히 부 화 단계, 또는 아파치 드릴 프로젝트 오픈 데이터 형식 및 쿼리 언어, 때문에 같은 업계의 지원의 얻을 전문적인 Hadoop 상업 출시 공급 업체 모임의 지원 됩니다.
개발 및 오픈 소스 커뮤니티의 주요 힘 Hadoop 대규모 방문 업계에는 SQL을 운전 될 것입니다.
3. 인간-기계 상호 작용을 처리
집에서 SQL, 하 둡에 대 한 SQL 데이터 처리 프로세스 및 ad hoc 분석에서 주로 그건. SQL 데이터 처리 과정에서 많은 작업 데이터 처리 과정에서 미리 정의 된 및 다음 처리 MapReduce 작업의 일괄. 예를 들어 ETL 처리를 처리 합니다. ETL 프로세스 처리는 데이터 추출, 변환, 로딩 하는 단계입니다. 데이터 흐름의 정의 통해이 단계에서 MapReduce 작업은 친숙 한 인간-기계 인터페이스에서 조합 그리고 형성 전통적인 SQL을 해결 하기 위해 워크플로를 드래그 앤 드롭 작업이 사용 됩니다.
4. 임시 쿼리 다단계 인덱싱 구조에 대 한
큰 데이터의 임시 쿼리 큰 데이터에 대 한 어려운 문제입니다. PB 수준 데이터, 쿼리 효율성 및 쿼리 성능이 되지 않습니다 만족. 전통적인 DW 환경에서 기업 더 OLAP 큐브를 사용합니다. OLAP 큐브 데이터는 차원의 구성을 통해 작업을 클러스터링 하는 최대의 크기에 따라 데이터의 전처리를 통해 작은 데이터 임시 분석에 완료할 수 있습니다. 하지만 PB 수준의 대용량 데이터 환경에 큰 데이터 큐브를 구축 하는 방법 프런트 엔드 응용 프로그램의 유연성을 계정 쿼리 효율성? 빨리 기능을 포지셔닝 하는 HBase의 해시 밀리초 응답 및 임시 쿼리의 높은 동시성을 수 있습니다. HBase에 다단계 인덱스를 구성 하 여 대용량 데이터 클라우드를 하늘 그리고 통계 분석에 MPP 방식을 사용 하 여, 그것은 뿐만 아니라 HBase 쿼리 해결 또한 PB 수준의 대용량 데이터의 임시 쿼리를 만족.
5. 운영 SQL Hadoop에
운영 Hadoop에 대 한 Hadoop 데이터 쿼리, 응답, 등등에 SQL 메모리 스토리지 디스크 수준에서 양도 되었습니다. 분산된 메모리 일관성 요구 사항 때문에 그것은 개발 하 고 수 있습니다 천천히 엔터프라이즈 응용 프로그램 수준에 도달 하지. 현재, 분산된 메모리 컴퓨팅 점점 더 번영 되고있다 고 더 대표 기술 개척자와 같은 접착 기계, Sqlstream, 등등. 현재, 업계는 Hadoop의 작업을 탐험 적극적으로입니다.
몇 년 동안 기업에 의해 축적 된 구조적된 데이터의 많은 얼굴 Hadoop에 SQL 의심할 여 지 없이 되고있다 분산된 컴퓨팅 프레임 워크의 디딤돌 전통적인 컴퓨팅 시장에 하지만 우리는 더 많은 주류 무대 분산 Hadoop은 그 보다 훨씬 적은 같은 컴퓨팅 인식 엔터프라이즈 컴퓨팅을 위한 SQL 이외의 컴퓨팅에 대 한 광범위 한 0 소비자 시장 (공백) 솔루션을 정의 합니다.
복잡 한 세계 단순히 평면에 펼쳐진 테이블 구조에 의해 설명 될 수 없습니다 및 SQL 쿼리 및 수치 컴퓨팅 합니다. 하지만 어떻게 텍스트 정보와 이미지 이미지의 파편의 많은 계산 합니까 "? 구매 "+"는 무엇? 여성 "+" 디올 크거나 "우아한" 또는 "섹시 한"? 사용할 수 합계, 그룹화, 조인 SQL 클러스터링, 구조화 되지 않은 정보, 분류, 주제 할 수 우리는 후속 기사에서 이러한 주제를 논의할 예정 이다.