분석 및 사이트 데이터 웨어하우스 기본 구조에 대 한 토론

출처: 인터넷
작성자: 사용자
키워드: 창 고 당신이 할 수 있습니다

중간 거래 SEO 진단 Taobao 게스트 클라우드 호스트 기술 홀

데이터 웨어하우스의 목적은 통합된 데이터 환경을 분석, 지향 기업 (결정 지원)에 대 한 의사 결정 지원을 제공 하 고. 사실, 데이터 웨어하우스에서 생성 하지 않습니다"" 모든 데이터, 동시에 필요 하지 않습니다 "" 모든 데이터를 외부에서 데이터를 소비 하 고 외부 응용 프로그램을 열고 "창 고" 라고 하는 이유는, "공장" 이유를 호출 되지 않습니다. 따라서, 데이터 웨어하우스 기본 구조는 주로 데이터 유입 및 유출, 3 층-원본 데이터, 데이터 웨어하우스, 데이터 응용 프로그램으로 분할 될 수 있다 프로세스 포함:

  

그것은 그림에서 볼 수 있는 데이터 다른 원본 데이터에서 데이터 웨어하우스 및 데이터 응용 프로그램의 다양 한 제공, 위에서 아래로 데이터에 데이터 웨어하우스 및 상위 단계로 열 이며 데이터 웨어하우스 중간 통합된 데이터 관리를 위한 플랫폼에만.

ETL은 데이터 웨어하우스, ETL (추출 추가, 변환 전송, 로드 로드) 처리 될 다양 한 데이터 원본 및 데이터 웨어하우스 변환 및 흐름에는 데이터에서 데이터 웨어하우스를 고려 될 수 있다 파이프라인, 또한 데이터 웨어하우스 혈액으로 간주 될 수 있습니다 데이터 웨어하우스 대사에 데이터 유지 및 데이터 웨어하우스 일상적인 관리 노력의 대부분의 유지 보수 작업은 정상적이 고 안정적인 ETL을 유지 하는.

다음은 데이터 웨어하우스 아키텍처는 다양 한 모듈에, 물론, 여기에 설명 된 데이터 웨어하우스는 주로 소개 웹 사이트 데이터 웨어하우스를 말합니다.

데이터 웨어하우스의 데이터 소스

사실, 그래서 이것은 더 이상 자세하게에서 설명 이전 기사 원본 데이터-데이터 웨어하우스 소스 데이터 형식, 다양 한 종류의 데이터 웨어하우스를 소개 했다.

웹 사이트 데이터 웨어하우스, 클릭 스트림 로그 데이터의 주요 소스입니다, 그것은 물론 사이트 데이터의 분석의 기초, 사이트의 데이터베이스 데이터는 작은, 사이트 데이터 및 사이트 결과의 분석에 대 한 다양 한 사용자 작업의 결과 작업의 그것의 기록 같은 데이터를 더 정확 하 게; 다른 사이트와 다른 유형의 회사 결정에 유용한 데이터 생성 될 수 있는 문서 이다.

데이터 웨어하우스의 데이터 저장

원본 데이터의 ETL, 일일 작업 일정을 통해 수출 하 고 특성의 형태로 데이터 웨어하우스로 변환 됩니다. 사실,이 프로세스 논쟁을 많이 하고있다, 즉, 데이터 웨어하우스, 다차원 분석 모델의 특정 요구의 스토리지로 오랫동안 데이터를 데이터 웨어하우스-지향 분석의 보기의 1 개의 측의 세부 사항을 저장 하는 데 하지 필요 특정 분석 모델은 다음 요구 사항 집계 및 처리 정보 데이터에 따라 생성 됩니다. 내가 선호 하는 후자의 보기: 모든 원시 데이터를 저장 하는 데이터 웨어하우스 필요 하지 않습니다 하지만 데이터 웨어하우스 정보 데이터를 저장 하는 데 필요한 및 가져온된 데이터의 정렬 하 고 주제 지향 하기 위해 변환 해야 합니다. 간단 하 게 설명 했다:

(1). 왜 모든 원시 데이터를 필요 하지 않습니다? 분석 처리 하는 데이터 웨어하우스는 하지만 일부 원본 데이터는 분석에 대 한 소중한 또는 잠재적인 가치는 구현 및 성능 데이터 웨어하우스 데이터를 저장 하는 데 필요한 비용 보다 훨씬 낮습니다. 예를 들어 우리가 알고 사용자의 성, 도시는 충분히 사용자 생활 물류 사업에 대 한 우려 수만 수로 또는 블로그 댓글에 사용자 텍스트 마이닝 필요할 것입니다, 하지만 데이터 웨어하우스의 텍스트에 대 한 긴 코멘트 이득; 보다 중요 하지 것입니다 수 있습니다.

(2). 왜 세부 사항을 저장 해야 합니까? 세부 데이터는 필요, 분석, 그리고 데이터의 세부 요구 사항이 전혀 변경 됩니다 수 현상, 하지만 우리만 분명히 자주 수요 변화에에서 대 한 특정 요구 사항에 기반 하는 데이터 모델을 저장 하는 데이터 웨어하우스 압도 될 것 이다;

(3). 왜 우리는 테마 직시해 야? 데이터 웨어하우스, 데이터 분석을 달성 하기 위해 합리적인 조직에 주로 나타나는 첫 번째 특징은 주제 지향. 원본 데이터에 대 한 데이터 조직 이며 다양 한, 클릭 스트림 데이터 형식을 최적화 되지 않은, 전경 데이터베이스 데이터는 OLTP 작업 조직 최적화 기반,이 분석에 적합 하지 않을 수 있습니다 같은 조직으로 정말 페이지 (에 클릭 스트림 로그 등의 분석에 도움이 되는 테마 중심의 조직 형태 페이지, 방문 (세션), 사용자 (방문자) 3 가지 테마, 크게는 분석의 효율성을 향상 시킬 수 있는 액세스 합니다.

그것은 진정으로 분석에 적용할 수 있도록 데이터 웨어하우스 유지 관리 세부 정보 데이터 처리에 기반. 주로 세 가지 측면을 포함 한다:

데이터의 집계

여기에 집계 된 데이터 (다차원 데이터 집계를 다차원 데이터 모델 구현) 특정 요구 사항에 기반 하는 간단한 집계를 참조 하 고 간단한 집계 총 페이지, 방문 수, 고유 방문자는 사이트, 또는 평균 같은 집계 데이터 수 시간 평균 데이터 페이지 등, 직접 보고서에 표시 될 수 있습니다 사이트에 평균 시간.

다차원 데이터 모델

다차원 데이터 모델와 같은 판매 스타 모델 및 눈송이 모델 시간 차원과 지역 차원에 따라 각 시간 차원, 지역 차원, 및 시간 및 지역 차원에 따라 세분 크로스 쿼리를 실현할 수 있습니다 여러 각도 다단계 분석 응용 프로그램을 제공 합니다. 따라서, 다차원 데이터 모델의 응용 프로그램은 기반 온라인 분석 처리 (온라인 분석 프로세스, OLAP), 그리고 특정 수요 그룹 지향 데이터 마트는 다차원 데이터 모델에 근거 하 여 건설 될 예정 이다.

비즈니스 모델

여기에 비즈니스 모델 일부 데이터 분석 및 의사 결정 지원에 작성 된 데이터 모델을 참조, 예를 들어 도입 했습니다 사용자 평가 모델, 협회 추천 모델, RFM 분석 모델, 또는 선형 프로그래밍 모델, 재고 모델 등의 의사 결정 지원, 동시에 초기 데이터 처리에서 데이터 마이닝을 또한 여기 완료 수 있습니다.

데이터 웨어하우스의 데이터 응용 프로그램

이전 기사-데이터 웨어하우스 값 소개 데이터 웨어하우스의 4 개의 특성의 가치 구현 하지만 데이터 웨어하우스의 값은 그 보다 훨씬 더 하 고 해당 값 데이터 웨어하우스의 데이터 응용 프로그램에 반영 됩니다. 다이어그램에 나열 된 응용 프로그램의 여러 데이터 웨어하우스 기준 데이터와 관련 된 확장성 응용 프로그램을 구현할 수 있습니다 모든 포함 되지 않습니다.

보고서 보기

거의 필수 종류 각 데이터 웨어하우스, 다차원 분석 데이터는 보고서에 집계 된 데이터를 제시에 대 한 응용 프로그램 데이터의 간단 하 고 가장 직관적인 데이터를 제공 하는 보고 합니다.

임시 쿼리

이론적으로 (를 포함 하 여 세부 데이터와 집계 데이터, 다차원 데이터 분석 데이터) 데이터 웨어하우스의 모든 데이터는 임시 쿼리를 열려 있어야 한다, 충분히 유연한 데이터 액세스를 제공 하는 임시 쿼리, 사용자가 데이터를 가져오고 내보내기 Excel 및 다른 외부 파일 기능을 제공 하는 그들의 자신의 필요에 따라 쿼리할 수 있습니다.

데이터 분석

대부분의 데이터 분석을 기반으로 수 있습니다 비즈니스의 건설에 모델, 물론, 또한 추세 분석, 비교 분석, 상관 관계, 그리고,에 대 한 집계 데이터를 사용할 수 및 데이터 베이스에 대 한 다차원 분석을 제공 하는 다차원 데이터 모델; 몇 가지 예제를 자세한 데이터에서 동시에 특정 분석에 대 한 데이터는 일반적인 방법

데이터 마이닝

데이터 마이닝은 놀라운 결과 보여주는 데이터를 허용 하는 고급 알고리즘을 사용 합니다. 데이터 마이닝 데이터 웨어하우스에 이미 내장 된 비즈니스 모델에 따라 수 있습니다 하지만 시간 데이터 마이닝의 대부분 정보 데이터와 함께 시작 됩니다 그리고 SAS, SPSS 등 마이닝 도구에 대 한 데이터 인터페이스를 제공 하는 데이터 웨어하우스.

메타-데이터 관리

메타 데이터 (메타 날짜), 사실, 호출 해야 설명 데이터, 즉, 데이터. 그것은 주로 데이터 웨어하우스, 각 수준, 데이터 웨어하우스 및 ETL의 상태를 실행 하는 작업의 데이터 상태 간의 매핑 관계 모델의 정의 기록 합니다. 메타 데이터 저장소 (메타 데이터 저장소)는 일반적으로 저장 하 고 균일 하 게, 시너지 효과 디자인, 배포, 운영 및 데이터 웨어하우스 관리에 일관성 달성의 기본 목적으로 메타 데이터를 관리할 사용 됩니다.

마지막으로 결말, 데이터 웨어하우스 자체 생산 데이터도 소비 데이터, 하지만 통합 데이터를 저장 하는 중간 플랫폼, 데이터 웨어하우스 구현에 어려움은 전체 아키텍처 및 ETL 디자인, 일상적인 관리 및 유지 보수의 전체; 효과적인 데이터 응용 프로그램이 없는 경우 웨어하우스 데이터 응용 프로그램의 기반은 데이터의 진정한 가치는 데이터 웨어하우스를 구축의 중요성을 잃게 됩니다.

»이 기사 BY-노스 캐롤 라-SA 계약을 사용 하 여, 소스를 지정 하십시오 무단 전재: 웹사이트 데이터 분석» "데이터 웨어하우스 기본 구조"

관련 문서

연락처

이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이 페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.

커뮤니티에서 표절 사례를 발견한 경우 info-contact@alibabacloud.com 으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.