큰 데이터 기술, Apache Hadoop MapReduce 있으며 가장 사용자 중심. 하지만 Hadoop 분산 파일 시스템을 관리 하기 위해 또는 자바 MapReduce 작업을 작성 하는 것은 쉽지 않다. 그런 다음 아파치 하이브는 문제를 해결 하는 데 도움이 됩니다.
하이브 데이터 웨어하우스 도구 제공 하는 콘텐츠 쿼리 문, 하이브 쿼리 즉, Hadoop 생태계의 주요 구성 요소 중 하나는 아파치 재단의 프로젝트 이기도 합니다. 이 문장의 집합 MapReduce 작업 명령으로 자동으로 SQL 쿼리를 번역할 수 있습니다.
양방향 영역에서 관계형 데이터베이스, IBM DB2, Oracle, SQL Server를 포함 하 여 지배적인 위치에 왔다. 이것은 SQL 비즈니스 인텔리전스에 대 한 선호 하는 언어 보다 포괄적인 SQL 기술을 마스터링 대부분 데이터 분석 전문가 함께 합니다. 마찬가지로, 데이터 분석 전문가 엑셀, 피벗 테이블 및 차트와 같은 도구를 더 잘 알고 있다.
처음에 엔드-투-엔드 BI 프로젝트를 Windows Azure 시스템에서 작동 하는 방법을 살펴보겠습니다. 아메리칸 항공의 항공편의 엄수를 보여 주는 Excel 차트의 데이터는 큰, 그리고 전체 프로세스를 작성할 수 있는 프로그램 코드를 필요 하지 않습니다.
윈도우에서 아파치 Hadoop 푸른 CTP
작년 말, 마이크로소프트의 SQL 서버 연구팀 Windows Azure 플랫폼은 hadooponazure에서 Apache Hadoop 기능을 발표 했다. 마이크로소프트 그것은 Hadoop 클러스터에서 구조화 되지 않은 데이터를 추출 하 고 Excel 도구, Windows Azure의 탄력성을 강화 하면서 분석을 하이브를 사용 하 여 Hadoop의 설치 및 사용을 단순화 것 이라고 말했다.
Hadooponazure의 커뮤니티 미리 보기 아직 오픈, 그리고 사용자가 초대 코드와 Windows Live ID를 사용 하 여 로그를 연결 해 라 마이크로소프트에 간단한 설문지 작성 해야 고유한 DNS 이름을 입력 하 고, 초기 hadoop 클러스터 크기를 선택 하 고 클러스터 된 로그인 이름 및 암호를 제공 한 클러스터 요청 버튼을 클릭 합니다. (그림 1 참조)
그림 1 사용자는 단순히 (확대 하려면 클릭)을 수행 하 여 클러스터 설정을 수정할 수 있습니다.
클러스터 설정을 열고 15-30 분 걸립니다. Hadooponazure 커뮤니티 미리 보기 리소스는 무료, 하지만 클러스터 여 24 시간 지난 6 시간 동안에서 귀하의 가입을 업데이 트 해야 합니다. 인증서는 후속 사용 하는 동안 매일 업데이 트 해야 합니다.
Windows Azure BLOB 지 속성 데이터 저장소를 사용 하려는 사용자가 Windows Azure 및 저장소 계정에 가입을 해야 합니다. 그렇지 않으면, 클러스터 시간이 초과 될 경우는 HDFS에 저장 된 모든 데이터가 손실 됩니다. 가입 없이 사용자 또한 각 사용자 20GB를 제공 하는 무료 3 개월 Windows Azure 계정에 적용할 수 있습니다 스토리지, 스토리지 전송의 수백만 및 엑스트라넷 대역폭의 20 GB의.
큰 데이터와 SQL Azure blob를 채우기
아파치 하이브 프로젝트는 연방 항공 청 (FAA)에서 데이터를 추출 하 고 2012 년 1 월, 2011 년 후 6 개월에서 5 개월 시간에 항공편의 도착 지연 및 정보 수집. 6-페이지 텍스트 데이터의 하위 집합에는 FAA 파일 바를 페이지 MB 당 열 데이터의 500000 행 포함 되어 있습니다.
사용자가 해당 하이브 데이터를 검색할 수 있도록 데이터 BLOB 컨테이너 폴더를 업로드 해야 합니다. 하늘빛 blob 소스 데이터를 생성 하는 방법에 대 한 자세한 내용은, 내 이전의 문서를 참조 하십시오. 문서는 또한 데이터 파일 및 윈도우 라이브 SkyDrive 계정을 사용 하 여 데이터를 다운로드 하는 방법 및 마지막으로 Windows Azure blob에 데이터를 업로드 하는 방법 언급.
클러스터 구성은 완료, 탄성 MapReduce 포털 로그인 페이지와 클러스터, 계정 관리 대화 상자가 나타납니다. (그림 2 참조)
그림 2:hadooponazure MapReduce 대시보드 페이지 및 기능. (확대 하려면 클릭)
Windows Azure 관리 포털의 기본 액세스 키를 클립보드에 복사, 클러스터 관리를 클릭 합니다, 그리고 페이지를 열고 하이브 테이블에 대 한 데이터 원본으로 Windows 저장소 계정을 사용 하 여 ASV (Azure 저장소) 설정 클릭. 또한, 사용자 하이브 테이블에 대 한 데이터 원본으로 아마존 S3 또는 Windows Azure dataplace DataMarket에서에서 데이터를 사용할 수 있습니다.
저장소 계정을 입력, 암호 상자에서 기본 액세스 키를 붙여넣기 설정 저장을 클릭 합니다, 그리고 데이터베이스 액세스 BLOB에 성공적으로 로그온 할 하이브. 인증서가 인증 하는 경우 사용자는 Azure 계정 설정 성공 SMS 알림을 받게 됩니다.
HDFs, 달리 간단한 kv (키 값) 데이터 하이브 테이블 스키마가 필요합니다. HDFS 또는 외부 탭 기호 데이터에서 하이브 테이블을 생성 하 고 명명 하 고 정의 열에 대 한 데이터 형식, 사용자 실행 해야 외부 생성 테이블 문을 다음 hiveql와 같이:
외부 생성 테이블 FLIGHTDATA_ASV (
올해 INT
달 INT
하루 INT
문자열, 캐리어
원본 문자열
Dest 문자열,
Depdelay INT
Arrdelay INT
)
댓글 '연방 항공국에 시간 데이터'
행 형식 구분 필드 '9' 종료
파일로 저장
위치 'Asv://aircarrier/flightdata';
아파치 하이브는 상대적으로 적은 데이터 형식 및 날짜 또는 시간 필드, 하지만 올해 같은 정수 세그먼트를 해당 원본 데이터 *.csv를 지원 하지 않습니다, 그리고 월 및 일 값 데이터 유지 관리를 위해 좋다. 분에 출발 (Depdelay) 및 도착 (Arrdelay)의 지연 시간 값 표시 됩니다.
동적 HIVEQL 문을 실행, 당신은 수 탄성 mapreduce 대화형 콘솔을 클릭 합니다 클릭 한 다음 하이브 버튼 동적 하이브 페이지를 열려면 페이지의 상단에 나타나는 읽기 전용 텍스트 상자, 지침에 대 한 아래에 있는 텍스트 상자를 클릭 합니다. (그림 3 참조)
그림 3:hive 차트 옵션 목록 새 차트 제목, 및 열 셀 표시 선택한 차트 필드 이름이 있습니다. 셀에서 선택한 항목을 삽입 하려면 ﹥﹥ 키를 클릭 합니다. (확대 하려면 클릭)
다운로드 하 고 아파치 하이브 ODBC 드라이버 및 Excel 플러그인 설치
탄성 mapreduce 메인 페이지 돌아가기과 다운로드 패널을 클릭 합니다. 사용자 Excel 버전에 해당 하는 설치 링크 찾아서 경고 대화 상자를 열려면 실행을 클릭 합니다. 더 많은 옵션을 클릭, 실행된 어쨌든 옵션이 나타납니다, 그리고 설치 시작, 오픈 ODBC 드라이버 시작 하이브 설치 대화 상자를 클릭 합니다. 에 틱 상자를 동의 합니다.
설치 시작 설치 드라이브, 설치를 종료 하려면 마침을 클릭 합니다을 클릭 합니다. 다음, Excel을 열고, 데이터 탭을 클릭, 하이브 창 아이콘이 있는지 확인, 클릭 아이콘, 그리고 하이브 쿼리 대시보드는 워크시트의 오른쪽에 나타납니다. 설치 플러그인 디렉터리의 하이브 데이터 섹션으로 하이브 창 아이콘을 배치합니다.
EMR 제어 홈페이지 돌아갑니다 열 포트는 구성 포트 페이지, ODBC 서버 클릭, 오른쪽으로 드래그 하 고 클릭 TCP 포트 10000 열.
인터랙티브 아파치 하이브 쿼리 수행
Excel로 반환, 하이브 창 아이콘을 클릭, 하이브 쿼리 작업 상자를 열고, ODBC 하이브 설정 대화 상자를 엽니다, 그리고 설명 및 DNS 호스트 이름을 입력 하 고 TCP 포트에 동의를 입력 클러스터 정보를 클릭 합니다. 다음, 사용자 이름/암호 인증을 선택 하 고 탄성 MapReduce 포털 인스턴스 사용자 이름 및 암호를 입력 합니다. (그림 4 참조)
그림 4: 각 링크, 공항, TCP 포트 및 클러스터 사용자 이름 암호는 해당 특정 이름이 있다. (확대 하려면 클릭)
ODBC 하이브 대화 상자에서 설정 하이브 옵션이 올바른 경우 입력 한 이름을 사용자가 선택 하는 경우 설명 필드 팝업 또는 하이브 연결 입력. 선택 쿼리 목록에 하이브 개체 열고 열 목록을 생성 하는 FLIGHTDATA_ASV를 선택 합니다.
캐리어와 Arrdelay 열 체크 수 평균 지연 표시 된 집계 쿼리를 수행 하려면 Arrdelay 필드에 대 한 함수 목록을 열고 HIVEQL 계산 서에 그것을 추가 목록에서 AVG를 두 번 클릭 (그림 5 참조).
그림 5: 집계 쿼리를 두 번 클릭 선택 avg HIVEQL, HIVEQL 기능은 대부분 SQL 보다
다음으로, Delimit 제한 결과 확인란, 오픈 집계 그룹화 목록 캐리어 열을 선택 합니다.
AVG (), AVG (Arrdelay), 쿼리 디자인 프로세스의 함정을 제거 하 고 실행 쿼리 결과 얻을를 클릭 등에서 Arrdelay를 입력 합니다. (그림 6 참조)
그림 6: 이것은 HIVEQL 쿼리 실행의 결과, b 6 좋은 f 9는 연방 항공국 전용 2 바이트 코드, B6 제트 블루, f 9의 세대를 의미 프론티어 항공사를 참조.
문서에 남아 있을 정보를 일으키는 각 열의 헤더에 오류가 원인일 수 있습니다 잘못 캐리어 항목을 삭제 하 고 결과 쿼리 결과에 표시 됩니다. 10 진수 번호 유지, 해제 작업 상자, 워크시트에 정보를 추가, 제목, x 축 제목 및 데이터 레이블을 추가. (그림 7 참조)
그림 7: 엑셀 양식을 그림 6의 데이터에서 생성 됩니다
종이 hadooponazure CTP를 실행 하는 간단한 과정을 설명 하는 예제를 제공 합니다. "클라우드 수치"에 대 한 Microsoft 코드 기능이 유사한 있지만 visual Studio 버전 10의 맥락에서 작동을 합니다. Hadooponazure는 추가 분석을 위해 Excel에 직접 표 형식 데이터를 보낼 수 있습니다. 또한, 인터랙티브 하이브, 하이브 ODBC 데이터 원본 및 해당 Excel 플러그 ins 대형 데이터 처리를 위한 이상적인 플랫폼 Hadooponazure를 확인 합니다.
원본 링크: http://www.searchbi.com.cn/showcontent_62711.htm