데이터 품질 (품질)은 타당성의 근거와 데이터 분석 결론 및 가장 중요 한 전제 조건 및 보증의 정확성. 데이터 품질 보증 (품질 보증) 데이터 웨어하우스 아키텍처의 중요 한 부분 및 ETL의 중요 한 구성 요소입니다.
우리는 일반적으로 데이터 유효성 및 기본 데이터의 정확성 보장을 통해 더러운 데이터를 필터링, 데이터 정리는 일반적으로 앞에서 데이터 웨어하우스로 데이터 일반적으로, 일단 다음 이러한 데이터는 유효한, 확인 해야 합니다 데이터 웨어하우스에 데이터 통계 집계의 상단 기본 데이터 집합으로 데이터의이 배치 될 것입니다, 그리고 상위 레이어 필터링, 집계 및 다차원 집계 결과의 모든 상위 수준의 엄격 하 게 일치 되도록도 안정적인 기본 데이터 집합을 사용 하 여 어떤 체크섬을 하지 않을 것입니다. 하지만 때 우리는 데이터 웨어하우스를 구축 하는 순간에 구현 하는 저장 후 작업을 청소 하는 데이터의 일부는 일반적으로 우리가 일반적으로 투입 하지 않는 모든 데이터를 저장 하기 전에 단계를 정리, 주로 인해 데이터 웨어하우스 처리에는 그것의 자신의 이점이, 더 간단 하 고 효율적인, 창 고에서 청소 작업의 일부가 될 것입니다. 그리고으로 통계와 데이터의 집계 하기 전에 발생 하는 데이터 정리, 우리 여전히 최종 "깨끗 한" 기본 데이터의 데이터 창 고에 보존 되는 청소 후 사용을 보장할 수 있습니다.
몇 시간 전에 작업에도 관련 내용을 문의 하는 관련 된 데이터 웨어하우스를 하 고 데이터 품질 보증의 문제를 논의 하기 위해 동료 들과 함께 전 이렇게 체계적으로 정리를 준비. 오라클 기반 데이터 웨어하우스를 구축 하기 전에 오라클은 데이터 웨어 하우스 빌더-OWB (오라클 웨어 하우스 빌더), 데이터 품질을 보장 하기 위해 더 많은 완벽 한 운영 프로세스를 제공 하는 주로 3 개의 블록으로 구성 된 선정 되었다:
1. 데이터 프로 파일링
2. 데이터 감사
3. 데이터 수정
데이터 프로 파일링
데이터 프로 파일링, 사실, 현재는 찾을 수 없습니다 매우 적절 한 번역, 오라클은 "통계를 프로 파일"에 사용 하지만 사실, "프로 파일링" 단어 수 없습니다 그것의 예술 개념을 반영, 범죄 마음 (범죄 심리학) 미국 드라마를 보고 학생 들은 FBI의 범죄 분석 팀 (BAU) 각 에피소드 범죄 프로 파일링, 가해자의 신원 배경, 행동 패턴, 정신 상태, 분석 과정은 더 많은 프로 파일링 분석 하에 있을 것입니다 알고 있어야 합니다. 위키백과 해석의 프로 파일링 데이터는 다음과 같습니다.
프로 파일링 데이터는 기존 데이터 소스에서 사용할 수 있는 데이터를 검사 하 고 통계 및 INF를 수집 하는 과정 해당 데이터에 대 한 Ormation입니다.
여기에 우리가 볼 필요를 프로 파일링 데이터 (또한 가르시아의 작품에에서 있는 범죄 심리학)는 통계를 수집 하는 과정 어떻게 우리는 데이터에 대 한 통계를 얻을 합니까?
데이터베이스에 익숙한 학생 들에 게는 최적화 프로그램이 선택할 수 있도록 적절 한 실행 계획, 다른 한편으로, 일부 쿼리 수 있습니다 직접 사용 하는 통계 정보 분석 COUNT (*)와 같은 결과 반환 하는 데이터베이스 할 분석 각 테이블에 대해 한 한편으로, 알고 있어야 합니다. 이것은 실제로 간단한 데이터 프로 파일링, oracle. 데이터베이스 구축 도구 OWB 각 포함 하 여, 설정 된 테이블에서 필드에 대 한 좀 더 포괄적인 통계 정보 제공.
수 기록, 최대 값, 최소, 최대 길이, 최소 길이, 번호 고유 값, null 값, 평균 및 중간의 수의 또한 OWB 또한 제공 6-시그마 값, 1-6의 값, 데이터, 고품질 7의 6 시그마 값 데이터 품질 완벽 이라고 여겨질 수 있다. 필드의 고유 값에 대 한 동시에 통계는 나중에 자세히 설명 될 것입니다 몇 가지 outliers 발견에 대 한 매우 유용한 각 고유 값의 분포 주파수를 제공 합니다.
이러한 데이터 프로필에는 통계를 보면, 우리 수 있습니다 연관 통계 통계 설명 통계를 사용 하 여 데이터 집합의 특성을 설명 하거나 샘플 세트, 그리고 우리 같은 OWB, ETL 도구 없는 경우 우리는 데이터의 간단한 프로 파일링을 수행, 여기 매우 유용한 차트 도구 상자 그림 (상자), 상자 라인 다이어그램, 상자 차트 라고도 언급 해야 통계의 지식을 사용할 수도 있습니다. 우리는 데이터의 분포 특성을 나타내는 상자 다이어그램을 사용 하 여 시도할 수 있습니다.
상자 꺾은선형 차트에는 명시의 많은 종류가 있다, 위의 그림 상자 꺾은선형 차트의 보다 일반적인 한 종류 이다. 일반적인 직사각형 상자 상단 및 하단 측면은 각각 상위 4 비트 수 (75%, 3 분기) 하 고 데이터 집합의 평균을 나타내는 "+" 일부 상자 차트 사용 하면서 dataset 중간 수평 라인 낮은 4 자리 (25%, 1 분기) (50%, 미디어, 2 분기), 데이터 집합의 중간값을 나타냅니다. 상자 모양의 위 아래 각각 연장 두 줄,이 두 줄 (일컬어 "촉수")의 끝은 일반적으로 거리 상자 모양의 1.5 iqr (q3-q1, 즉, 상자 모양의 길이), 그래서 촉수의 상단 이어야 한다 q 3 + 1.5IQR, 촉수의 하단 1 분기-1.5IQR; 데이터 집합의 최소값은 1 분기 보다 큰 경우-1.5IQR, 우리를 사용 하 여 최소 값은 q 1을 대체-하단 확장의 끝으로 1.5IQR 라인, 그리고 최대 3 분기 보다 + 1.5IQR 사용 하 여 최대 치수 보조선의 끝으로 최대 또는 최소 값은 q 1을 초과 하는 경우-q 3 + 1.5IQR 1.5IQR이이 범위 라고 지칭이 초과 데이터 outliers (국외 자), 위 촉수 밖 포인트 다이어그램에서 밖으로 인쇄 됩니다. 또한, 가끔 우리는 데이터 집합에 따라 표준 편차 σ를 사용 하 여 위아래로 3 σ 범위 선택 상단 끝 값 경계값을 결정 하 95%의 신뢰 수준 자신감을 간격 사용할 수도 있습니다.
사실, 상자-선 다이어그램, 데이터 집합의 전체 그림을 표시 하지 않습니다 하지만 전반적인 유통 및 데이터의 분산 데이터 집합의 여러 주요 통계의 그래픽 표현, 우리는 볼 수 있습니다.
때문에 우리가이 데이터 프로 파일링, 이러한 통계를 사용 하 여 가능한 예외와 데이터의 문제 효과적으로, 데이터를 수정 하려면 또는를 청소, 그리고 "깨끗 한" 데이터, 데이터의 품질을 감사 하는 방법을 통해 데이터 통계를 얻을 수 있다 다음 기사에 가자.
이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이
페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.
커뮤니티에서 표절 사례를 발견한 경우
info-contact@alibabacloud.com
으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.