Hadoop 및 데이터 웨어하우스 개념의 깊은 해석

출처: 인터넷
작성자: 사용자
키워드: 데이터 웨어하우스를 수 데이터 마이닝 대용량 데이터

내가 생각 하는 데이터 웨어하우스 기업 세 가지 방법으로 데이터 문제를 해결할 수 있습니다: 첫째, 엔터프라이즈 데이터 웨어하우스에서 분할 하는 경우는 종종 더 많은 주제 지역에 따라 데이터 안정.

"빅 데이터" 개념 전통적인 데이터 웨어하우스 개념 및 기존 데이터 웨어하우스 아키텍처 사이 선택을 하는 데 필요한 또는 점점 더 인기 있는 오픈 소스 Hadoop을 이해 하고자 하는 조직에서는 분산 처리 플랫폼, 또는 2의 조합.

세 번째 옵션은 깊은 데이터 마이닝 및 예측 분석 하는 간단한 양방향 보고서에서 이동 하고자 하는 기업에 대 한 가장 그럴듯한 것으로 보인다. 제임스 Kobielus, 수석 데이터 관리 분석가 Forrester 기관에서 최근 인터뷰를 우리에 게 어떻게 기업 데이터의 급변 질량에서 귀중 한 통찰력을 얻을 수에 대 한. 이 문서에서는 기존 데이터 웨어하우스 아키텍처, 강점과 약점 hadoop, 및 빅 데이터 시대에 모든 데이터 웨어하우스 공급 업체의 개발의 기능을 극대화 하는 방법을 배웁니다.

내가 본 적이 큰 데이터의 몇 가지 다른 정의 어떻게 포 레스터가 인기 있는 개념을 이해 합니까?

제임스 Kobielus: 큰 데이터는 실제로 확장 가능한 분석, 제한의 개념 그리고 용어 "제한 확장성 분석" 사람들 이라고 부르는 큰 데이터의 핵심을 나에 게 보인다. 방법으로, 세 된 볼륨 데이터의 양에서에서 요약 될 수 있다, 만들 TB 수 수 PB 또는 더 큰; 속도, 데이터 흐름의 속도, 실시간 수집, 변환, 쿼리 및 액세스 데이터, 다양 한, 다양 한 구조화 된 데이터를 포함 하는 데이터 형식 구조화 되지 않은 데이터와 반 구조화 된 데이터입니다. 측면에서 분석, 광산 및 의미를 획득 할 수 있는 모든 데이터 집합을 참조 합니다.

어떻게 기업 이해 해야 데이터 웨어하우스의 개념 큰 데이터의 의미를 명확히 수 있도록?

Kobielus: 난 데이터 웨어하우스 기업 세 가지 방법으로 데이터 문제를 해결할 수 있습니다: 첫째, 엔터프라이즈 데이터 웨어하우스에 주제 지역에 따라 데이터를 분할 하 고 이러한 분야는 더 안정적이 고 오랜 시간 동안 변경 되지 것입니다. 데이터 웨어하우스 아키텍처에서 OLAP 큐브 같은 물리적 또는 논리적으로 분할 된다. 즉, 고객 데이터 파티션 하나, 다른 금융 데이터, 세 번째, HR 데이터 및 등 이다. 이 일의 장점은 다운스트림 응용 프로그램 및 사용자 데이터의 관련성에 따라 일치 하는 데 도움이입니다. 이것은 데이터 웨어하우스 데이터베이스 관리, 하지만 또한 데이터 웨어하우스를 통해 대용량 데이터를 다루는 가장 중요 한 방법의 핵심 이다.

그래서 두 번째 방법은 무엇입니까?

Kobielus: 두 번째 방법은 데이터베이스 분석의 개념 및 데이터 웨어하우스 데이터 분석, 데이터 정리, 데이터 마이닝 또는 회귀 분석을 수행 하기 위해 사용. 즉, 데이터 마이닝의 전체 집합을 수행 하지만 데이터 웨어하우스 내부 수행 됩니다. 이 때문에 데이터 마이닝 또는 회귀 분석을 사용 하 여 기본적으로 데이터 집합의 패턴을 이해 하는 데이터 처리 하면 수 있습니다. 데이터 마이닝 및 통계 모델 전문가 데이터베이스 마이닝 사용할 수 있습니다 (데이터베이스 데이터 마이닝) 복잡 한 패턴을 시각화 하는 다운스트림 분석 데이터 마트를 채우기 위해. 예를 들어 그들은 판매 대상으로 설정 하는 제한 된 수 있는 잠재적인 큰 고객을 식별 하기 위해 그 패턴을 사용 합니다. 데이터베이스 분석 및 mapreduce와 같은 기법을 사용 하 여, 높은 동시, 확장성이 뛰어난 데이터베이스 스키마 내에서 데이터 마이닝을 자동화할 수 있습니다.

데이터베이스에서 응용 프로그램 현황 무엇입니까? 그것을 사용 하 여 모든 비즈니스가?

Kobielus: 모든 사람들이 사용 하 여 하지만 데이터베이스 분석 기술, 하지만 우리가 더 많은 것을 볼 수 있고 더 많은 기업 그것에 강한 관심을 합니다. 데이터 마이닝 규모 큰 경우, 분석 데이터베이스에서 최상의 간주. 우리 모두가 알다시피, 현재, 많은 데이터 웨어하우스의 실제 생산 운영 비즈니스 인텔리전스를 지향, 그들은 보고서의 생산, 임시 쿼리, 거의 데이터 마이닝 등의 구현에 더 많은. 그러나, 데이터 볼륨의 증가 함께 데이터 마이닝의 필요성 강조 표시 하 고 데이터베이스에 분석의 가치를 반영 될 것입니다 키를 누릅니다. 이 기술을 활용 하의 목표 속도를 참조 데이터의 공통 집합에 기반 하는 데이터 웨어하우스를 통해 모든 마이닝 일관성을 유지 하면서 데이터 마이닝 프로젝트를 확장 하는 것입니다.

3 최상의 무엇입니까?

Kobielus: 세 번째 데이터 웨어하우스 데이터 거 버 넌 스의 핵심으로, 기본 데이터는 데이터 웨어하우스에서 합리적으로 유지 될 수 있다. 데이터 웨어하우스 데이터 거 버 넌 스의 핵심 이며 데이터 클렌징, 그것은 도울 수 있다 당신이 모든 정보를 알아낼. 엔터프라이즈 아키텍처에서 데이터 웨어하우스로 데이터를 추가 하는 응용 프로그램의 수백이 있을 수 있습니다. 데이터 흐름을 실시간으로, 홍수 처럼 이며 데이터 웨어하우스는 큰 데이터 집합은 안정적이 고 적절 하 게 사용 되도록 다운스트림 소비에 허브.

오늘 전파 하는 큰 데이터에서 전통적인 데이터 웨어하우스 공급 업체 어떤 노력을 만들었습니다?

Kobielus:teradata, Oracle exadata, Ibm netezza, Hp 수직 등에 큰 데이터를 하 고 있다. 많은 데이터 웨어하우스 공급 업체 PB 수준에 그들의 제품을 확장 하 그리드 또는 클라우드 아키텍처를 사용할 수 있지만 또한 데이터베이스의 큰 부분에에서 있을 수 있습니다 완료 분석 즉, 대규모 병렬 데이터 웨어하우스 그리드 또는 클라우드 환경 구현. 그들은 또한 데이터 변환 및 데이터 클렌징 엔터프라이즈 데이터 웨어하우스 내에서 지원할 수 있습니다.

대부분의 미디어 리포트에서 오늘, Hadoop은 문제를 다루는 큰 데이터, 어떻게 생각 하십니까 가장 좋은 방법은 될 것?

Kobielus: 큰 데이터를 처리 하려면 해야 엔터프라이즈 데이터 웨어하우스 및 Hadoop 그것을 조합 합니다. 큰 데이터 문제를 다루는 유일한 생명선으로 Hadoop의 사람들이 생각 하는 동의. 사실, 오늘날의 엔터프라이즈 데이터 웨어하우스는 무엇을 할 수 기본적으로 Hadoop 어떤 기능을 달성할 수 있다. 오픈 소스는 Hadoop의 장점은 무료, 전통적인 엔터프라이즈 데이터 웨어하우스 시스템에 비해 하지만 그것은 기업 사용자가 오픈 소스 Hadoop의 많은 무형 유지 보수 비용을 간과 해서는 안 상기. 그것은 Hadoop은 다음 5-10 년 동안 가장 큰 전력의 엔터프라이즈 데이터 웨어하우스 개발의 다음 세대 라고 할 수 있습니다.

관련 문서

연락처

이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이 페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.

커뮤니티에서 표절 사례를 발견한 경우 info-contact@alibabacloud.com 으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.