큰 데이터: 데이터 품질 좋은 친구? 소스 데이터 품질 문제

출처: 인터넷
작성자: 사용자
키워드: 큰 데이터 품질 문제 데이터 품질

데이터 집합에는 http://www.aliyun.com/zixun/aggregation/14417.html 요약 하려는 경우 "> 아파치 Hadoop 클러스터를 비슷한 데이터베이스에서 사용할 수 없습니다 그들 사이 통합된 보기를 만들 경우, 불쾌 한 느낄 수 있습니다. 품질 문제는 과거에 완벽 하 게 활용 하지는 정보의 주소 원본에 시작할 때 흔히 되지 않습니다.

사용률이 낮은 데이터 탐색, 품질 문제 쥐의 둥지 가득 오물, 거의 예측할 수 없는 문제를 예측 하는 에너지를 낭비 될 수 있습니다. 예를 들어 몇 년 전, 우리는 복잡 한 8206.html 출시 "> 참조 매우 쉽게 변형 했 고 사양에 설명 된 특성에서 제공 하는 시스템 데이터 발견 시스템 가용성 예측 분석 프로젝트." "표준"는 절대로 단지 "권고". 이 경우에, 추적 및 코어 시스템 데이터 생성을 처리 하거나이 품질 문제를 해결 해야 합니다. 이것은 매우 일반적인 현상 때문에, 정의 정보, 충분히 소스를 다루고 있는이 소스 처음으로 엄격 하 게 사용 될 가능성이 높습니다.

구조화 된 데이터를 결합 하 여 구조화 되지 않은 소스의 새롭고 큰 숫자와 함께 문제의 복잡성 일어날 것 이다 새로운 수준으로 (거의 확실), 공식 기록에 따르면 문제는 거의 제대로 관리. 사실, 가장 중요 한 새로운 큰 데이터 소스는 구조화 되지 않은 정보를 다룰 때 데이터 흐림, 모순, 혼란을으로 예상 된다. 더 큰 데이터 소스 비-트랜잭션 데이터 (포함 한 이벤트, 지리 정보, 행동, 클릭 흐름, 사회 및 센서, 등)를 제공 하기 시작 하 고 퍼지 왜곡과 시끄러운 혼란은 이러한 데이터의 필수 기능. 그것은 단일 시스템을 통해 이러한 데이터에 대 한 작업을 처리 하기 위한 공유 방법과 공식 표준을 설정 하는 것이 좋습니다.

큰 데이터는 데이터의 큰 금액 때문에 더 많은 품질 문제가 있을 수 있습니다.

큰 데이터를 설명할 때 그것은 일반적으로 언급 한 볼륨이 큰, 빠르고 다양 한. 물론, 그것은 또한 당신이 작은 데이터 집합 보다 훨씬 더 많은 잘못 된 데이터 레코드를 찾을 가능성이 있다는 의미 합니다.

그러나,이 데이터 집합의 큰 크기에 의해 발생 한 문제만 이며 품질 문제의 높은 확률 리드 하지 않습니다. 전반적인 비율 그대로 하 고 결과 분석에 미치는 영향은 비록 양적 및 관리 측면에서 1 십억 샘플에서 데이터 충실도 문제의 1%는 1 백만 샘플, 1%의 그것 보다 훨씬 더. 이 경우에, 데이터 정리 더 많은 노력이 걸릴 수 있습니다 하지만, 우리가 말했듯이, 이것이 실제로 작업 문제, 스케일링 및 대용량 데이터 플랫폼은 이러한 문제 처리에서 아주 좋은.

흥미롭게도, 큰 데이터는 데이터 품질 문제, 적합 하다 고 이것은 통계 분석의 세계에 대 한 오랜 문제 이다: 전통적인 방법 훈련 샘플 모델 보다는 전체 데이터 레코드에 대 한 모델을 구축 하는 데 필요한. 이 뷰는 매우 중요 한, 하지만 충분 하지 주의. 오랜 시간에 대 한 분석 데이터 플랫폼의 확장성 제약 모델러 모델 생성, 실행 및 채 점 과정을 가속 하기 위하여 데이터 집합 단위 분석을 강요. 밀어 당신을 위해 충분 한 완벽 한 데이터를가지고 있지 그것은 균열을 통해 슬립 것 이다 위험을 왜곡 분석을 문서화 하는 그래서 국외 자 레코드를 무시 완전히 수 있습니다 의미 합니다.

기쁨으로 스파스/국외 자 레코드 필터링 하는 경우 (소스 및 샘플에서 데이터 수 있습니다 완전히 정확 하 고 최신) 너무 많은 데이터 품질 문제가 아니다 그것은 다운스트림 데이터 손실 문제를 해결 하려면 원인. 그러나, 효력은 동일한 않을 수 있습니다. 간단히 말하면, 잡음 위험에 대 한 전체 데이터 집합 왜곡 또는 압축/인공 결과 위험 보다는 더 적은 오류 또는 제한 된 샘플에 의해 발생. 우리 샘플링 나쁜, 하지만 일반적으로 때 모든 데이터 사용 하지 못하게 하는 제한을 제거 하도록 선택할 수 있습니다, 선택 해야이 이렇게 말한 게 아니에요.

우리는 이러한 모든 작업은 쉽게 말하지는. 사회 듣기 분야에서 혼란을 일으키는 특정 고객 사례를 살펴 봅시다. 주제에 대 한 일반적인 토론을 다루는 소음 또는 오류 데이터 관리가 쉽습니다. 여기 활동의 금액은 보통 outliers, 간주 필요가 해야 고객에 게 듣고는 이름에서 알 수 있듯이. 데이터는 모든 방향에서 온다, 그래서 당신은 믿을 수 (민감도 분석을 통해 확인 하는 필요) 하지만 그 누락 또는 손상 데이터 오해도 이어질 하지 않는. 그러나, 특정 고객 말하는 판단 다음 고객에 게 응답 하는 방법을 결정할 때 누락으로 인 한 문제 또는 손상 된 데이터 확장 됩니다. 문제 또는 분석을 실행 하는 데 사용 하는 터미널 되지 않을 수 있습니다 하지만 본질적으로이 큰 도전 포즈. 데이터 오류 영향을 이해 하 고 그에 따라 디자인 해야 합니다. 우리 몇 열 나중에이 항목에 대 한 자세한 내용을 확인할 수 있습니다.

큰 데이터 데이터 품질 또는 품질 문제가 있는 다른 위치에서 오는 적어도 결백 한 방관자의 좋은 친구 될 수 있습니다. 당신은 동의 하십니까?

관련 문서

연락처

이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이 페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.

커뮤니티에서 표절 사례를 발견한 경우 info-contact@alibabacloud.com 으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.