큰 데이터는 지금 매우 뜨거운 주제, Hadoop에 SQL 중요 한 방향에 있는 현재 큰 데이터 기술 개발, 신속 하 게이 기술, CSDN의 숙달을 특별히 이해 하는 방법 초대 우리를 위해이 강의 할 리 앙. 인터넷 데이터 웨어하우스 및 비즈니스 인텔리전스 시스템을 비즈니스 요구와 sql에 hadoop의 현재 상황 분석을 통해를 Sql에서 hadoop을 사용 하 여이 종이 expounds 자세히 Hadoop에 SQL의 기술 포인트, 첫 번째 줄의 경험 공유 그리고 기술 자가 빨리 관련 기술 포인트를 마스터 하는 데 도움이. 본론만 덜.
엔지니어 또는 분석가 대 한 질의 및 TB/PB 수준 데이터를 분석 하는 방법 빅 데이터 시대에 피할 수 없는 문제가입니다. Hadoop에 SQL 중요 한 데이터 분석 및 마이닝 도구 된다. 질문이 시점에서, 왜 내가 Hadoop에 SQL을 넣어 해야 할 수 있습니다? SQL은 사용 하기 쉬운; 때문에 왜 그것은 기반으로 해야 둡? 때문에 Hadoop 아키텍처는 강력 하 고 확장 가능한.
량 데이터의 가치는 모든 기업, 볼 수 있는 귀중 한 자산 그리고 큰 데이터의 핵심 데이터, 거 대 한 양의에서 효과적인 데이터 분석 함으로써 효과적인 데이터를 사용 하 여 값을 만드는. 인터넷 기업에 대용량 데이터 처리 요구와 함께 전통적인 기업 데이터 웨어하우스 Hadoop 기반 데이터 소스는 주로 아파치/nginx 로그, 사용자와 오라클/mysql에 저장 된 비즈니스 데이터를 통해 수집 된 데이터 ETL 도구를 통해 다른 외부 DW 데이터 원본에서 가져온 데이터입니다. 그는 Hadoop 제품에 SQL 모두 실제로 사용할 수 있는 하나 또는 일부 특정 지역에 맞는 제품을 있다 사실에 대해 이야기 했다. 빅 데이터 시대에 Oracle/teradata 같은 거의 모든 엔터 프 라이즈-클래스 응용 프로그램을 충족 하는 제품을가지고 비현실적 이다. 그래서 모든 SQL Hadoop 제품에 특정 유형의 응용 프로그램의 특성을 충족 하려고 합니다.
하이브 및 임 팔 라, 하이브 이며 가장 일반적으로 사용 되는 솔루션 큰 데이터 및 인터넷 회사의 데이터 웨어하우스에 많은 기업 에서도 Hadoop 클러스터 네이티브 MapReduce 프로그램을 실행 하도록 설계 되지 않았습니다 하 고 하이브 SQL 쿼리 작업을 실행 하는 데 사용 됩니다.
데이터 과학자 및 분석가의 많은 기업에 대 한 동일한 테이블에 대 한 많은 쿼리 요구 사항이 있습니다. 그래서 그것은 분명 모두가 느리고 낭비 하이브에서 데이터에서 찾고 있다입니다. 그것은 훨씬 더 효율적인 사용자 문의 대 한 메모리 구성 클러스터로 자주 액세스 데이터를 넣어 것입니다. 페이스 북이이 수요, SQL 쿼리 메모리에 뜨거운 데이터를 박 았 시스템에 대 한 프레스 토를 개발 했다. 이 디자인 아이디어는 임 팔 라와 스 팅 어와 매우 비슷합니다. 프레스 토와 함께 간단한 쿼리만 수백 밀리초, 심지어는 매우 복잡 한 쿼리를 실행 하는 몇 분 밖에 소요 메모리에서 실행 걸리고 쓰지 않습니다 디스크에. 페이스 북의 엔지니어의 850 이상 사용 하 여 스캔 데이터의 320 TB 이상 매일, 80%의 임시 쿼리 요구 사항 만족.
임 팔 라 Google Dremel 건축과 MPP (대규모 병렬 처리) 아키텍처의 하이브리드로 볼 수 있습니다.
주요 Cloudera 현재 프로젝트를 이끌고 있습니다. 바이, 예를 들어 바이는 planfragment 다음 사용자 쿼리 또는 원래 분석 방법 planfragment, 다양 한 해결 하기 위해 해당 작업을 구현 하는 동안 저장소 엔진으로 MySQL의 임 팔 라를 액세스 하려고 및 다음 해당 노드를 직접 파견 (HDFS datanode/hbaseregionserver/mysql)입니다. 일부 원본 데이터 또는 중간 데이터를 MySQL에 넣어, 사용자의 쿼리는 MySQL에 직접 데이터의이 부분을 사용 하 여 포함 한다.
리 앙 프로 Hadoop 제품에 다양 한 SQL의 단점 및 기술 프레임 워크 및 최신 개발 2에서 응용 프로그램의 그들의 범위를 분석: 하이브, Tez/스 팅 어, 임 팔 라, 상어/스파크, 피닉스, hdapt/hadoopdb, hawq / Greenplum입니다. 리 앙 7 최신 기술 제품의 원리, 현장, 건축, 장점과 단점, 성능 최적화 및 심층 정교의 다른 측면의 사용에서. 기사 내용은 클릭: Hadoop 및 7 관련된 기술 공유에 SQL의 최신 개발
CSDN 온라인 교육: "Sql에 hadoop 인터넷 데이터 웨어하우스 및 비즈니스 인텔리전스 시스템 구축", 리 앙 비즈니스 요구와 현재 인터넷 도메인 데이터 웨어하우징 및 비즈니스 인텔리전스 시스템에 건설 되 고 솔루션에 설명 합니다. Sql에 hadoop 제품 원리, 시나리오, 건축, 장점 및 단점, 성능 최적화를 사용 합니다. 마지막으로, 우리는 인터넷 데이터 웨어하우스 및 Sql에 hadoop 제품 이해를 돕기 위해 몇 가지 실용적인 사례를 소개 합니다. 이 훈련에 적용 될 기술 포인트는: 둡, 하이브, 임 팔 라, 상어, Flume, Oozie, Sqoop, 동물원의 사육 담당자, HBase, Tableau, MicroStrategy 프레임 워크 및 장점과 단점의 비교 현장, 기업에서 현재 응용 프로그램의 경우 사용 하지만 또한 가져오고 몇 가지 일반적인 솔루션 비교!
이 온라인 교육 3 분 화면 모드를 사용 하 여, 강의에서 같은 시간에 강사와 상호 작용할 수, 실제 교실 환경을 느낄 수 있습니다. 아직도 문제가 Hadoop의 "장인"에 대 한 학습? 여전히 두통 Hadoop 엔터프라이즈 응용 프로그램에 대 한 데? 이 리와 봐!
이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이
페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.
커뮤니티에서 표절 사례를 발견한 경우
info-contact@alibabacloud.com
으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.