"빅 데이터 시대" (4.) 읽기 (다음)-전체 데이터의 신비를 밝히기

출처: 인터넷
작성자: 사용자
키워드: 소위 큰 데이터 나이 고객 베일


이 문서는 다음 전체 데이터의 추가 분석을 수행 하 고 있습니다.

모든 데이터의 더 많은 샘플

이전 기사에서 삼촌 메이어에 의해 주어진 전체 데이터의 예제에서 애 널 리스트 분석을 위한 데이터는 데이터베이스에서의 4 개월만 했다. 왜? 데이터베이스에서 하지만 시간 http://www.aliyun.com/zixun/aggregation/7185.html의 특정 기간을 통해 각 고객 간의 장기적인 관계를 분석 하는 작업 이므로 "> 대 인 관계 분석, 전체 지역 사회 네트워크에 다른 관계와 개인의 영향을 이해 합니다. 따라서, 단계적된 데이터의 적절 한 샘플링은 필요.

경우 연구원은 데이터베이스에서 모든 데이터를 사용, 더 인간 관계 참여 있을, 연구의 결과 영향을 줄 수 있는 상상해 보세요. 따라서, 구별 없이 모든 데이터 적용 하지 반드시 최고의 선택입니다.

전체 데이터의 샘플링 분석의 예로 제공 됩니다. 응용 프로그램의 검색 엔진 알고리즘 분석 하는 데 사용, 원리는 기반 키워드, 주요 검색 엔진 (미국)의 무작위 샘플링을 영향 순위 검색 엔진 페이지에 다양 한 서구 기술 분석 웹 페이지의 검색 결과 크롤링할. 오랜 동안에, 난 웹 데이터베이스 또한 되었다 상승 삼촌 메이어 라는 전체 데이터. 나는 모든 분석에 대 한 모든 데이터를 사용 해야 합니까? 물론 아니에요. 검색 엔진은 끊임없이 변화 하 고 검색 순위 알고리즘, 오래 된 순위를 포함 하기 때문에 페이지 내 검색 엔진의 순위를 핵심 요소 분석 정보, 그것은 역효과 되며 부정확 한 분석 결과가 발생할.

같은 그 미스터 메이어 제기 하고있다 여러 번 항공기에 대 한 요금 예측 데이터 분석의 사실 이다. 항공사 티켓 가격 결정 메커니즘을 변경할 수 있습니다. 가격 예측된 분석에 오래 된 운임 결정 메커니즘에 대 한 정보를 포함 분석 결과 방해 될 것 이다 하 고 오류를 증가.

데이터는 절대적으로 더 나은. 심지어 전체 데이터 분석 작업에 따라 필요에 따라 샘플링 해야 합니다. 이유는 여러 수 있습니다 이며 적절 한 샘플링 옵션을 분석 프로세스를 최적화 하 고 결과 분석 합니다. 또한, 샘플링 무작위 샘플링에 국한 되지 않습니다.

전체 데이터의 함정

첫 번째 문제는 대부분의 경우에는 "모든" 소위 전체 데이터입니다. 절대적으로 헤비 급 인터넷 기업의 모든 데이터를가지고 가장 가능성이 살펴보겠습니다, 그리고 등 구글, 바이, 페이 스 북, Taobao, 어떤 회사의 데이터베이스 라 할 수 있다 "모든"?

더 많은 함정 이름으로 하지 않습니다 "모든", 하지만 이름이 확실히 트랩의 깊이 증가.

다양 한 분석을 그들의 자신의 데이터베이스를 제한 하는 엔터프라이즈 데이터베이스, 종종 더 많은 기꺼이. "립 열매" 라는 옛말이 있다. 이 전체 데이터 분석 함정: 경우 멜론 공장 없는 콩 분석할 수 있습니다.

예를 들어 뉴스 사이트 종종 사용 아주 노란색 매우 폭력적인 뉴스의 뉴스 애플 리 케이 션을 다운로드 하는 네티즌을 유치 합니다. 시간이 지나면서, 그 애플 리 케이 션 사용자가 "노란색 셔츠." 있을 수 있습니다. 그들의 사이에서 붉은 셔츠를 판매 하는 방법은이 "모든 데이터" 분석을 사용 하려는 경우 그것은 잘못 된 해야 합니다.

당신에 게 간단한 예를 보자. 예를 들어 전체 데이터를 분석 하 여 특정 제품에는 고객의 마음에 드는 것을 가정할 수 있습니다. 하지만이 경우 실제로? 아마도 제품에 고객 좋아하는 하지에 전체 데이터, 그래서 어떻게 할 당신이 분석 또한 얻을 수 없습니다 당신의 고객 좋아하는 모두에 상품의 종류.

외부 세계는 훌륭합니다. 종종 세계 밖에 서 멋진 경험 전체 데이터 이동 해야 합니다.

모든 데이터와 임의의 샘플

어떤 이유로, 삼촌 메이어의 세계관의 보기에서 전체 데이터 무작위 샘플, 양 Bailao 대 Huangshiren, 계급 투쟁 되 고 아니다 절대적으로 화해.

하지만 그건 사실이 아닙니다. 모든 데이터를 함께 무작위 샘플링 설문 조사 필요도 필요 합니다.

전체 데이터는 거의 진짜 "모든" 데이터, 때문에 아니에요 우리가 알고 싶은, 그래서 그것은 종종 전체 데이터에 근거 하 여 더 많은 정보를 얻을 하는 데 필요한 모든 정보가 포함 될 수 있습니다. 소스 중 하나는 미국에서 예를 들어 다른 "전체 데이터", 도킹 도킹 하는 개인 신용 정보의 개인 사회 보장 번호에 근거 할 수 있다, 또 다른 방법은 "전체 데이터" 무작위 (또는 다른 방법) 샘플, 그리고 데이터베이스에 누락 된 정보를 보완 하기 위해 고객 설문지의 일부를 선택 하 그리고 전체 데이터의 분석에 설문 조사 정보의 도킹을 통해 다음.

같은 분석 한다 있다 들 었 되지, 또는 그를 촬영 하지 않았을 무작위 샘플 그래서 절대적으로 반대 하는 전체 데이터와 함께. 그러나 이러한 분석은 작은 데이터 나이에서 널리 이용 된다.

"무작위 샘플, 있지만 모든 데이터." 이 큰 데이터 나이의 가장 유명한 나이 기능입니다. 나는 무작위 샘플 및 소위 전체 데이터를 분석 하 세 기사를 사용. 이 문서의 끝에 하기 전에 내가 요약 된다:

1 소위 전체 데이터, 대부분의 경우에는 엔터프라이즈 데이터베이스 데이터 참조

2 세계; 다양 한 문제를 해결할 수 있는 소위 전체 데이터를 없을 수 있습니다.

3 무작위 샘플 및 소위 전체 데이터 사활, 사이 절대 대치 되지 않습니다 하지만 수 평화롭게 공존 또는 보완;

4 소위 전체 데이터 초기 작은 데이터 시대에에서 전체 데이터의 분석 되었습니다 광범위 한;

5 무작위 샘플 분석; 큰 데이터 시대에 그 존재 가치를 표시 계속

6도 소위 총 데이터 샘플링; 더 효과적인 분석 하는 경우가 많습니다

7 때 소위 전체 데이터 분석, 외부 세계에 더 많은 흥미 진 진한 수 있습니다 생각 한다.

짧은, 무작위 샘플 및 소위 총에 (사실, 데이터베이스 데이터) 데이터 반대는 논리적으로 문제가 있는 경우 두 개의 다른 개념에 속해야 한다. 더 중요 한 것은, 그것은 무작위 샘플 또는 전체 데이터의 소위 분석, 해서는 안됩니다 대표자의 시대.

무작위 샘플 작은 데이터의 나이 대표 하지 수, 소위 총 데이터 대용량 데이터의 시대의 것은 아닙니다.


관련 문서

연락처

이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이 페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.

커뮤니티에서 표절 사례를 발견한 경우 info-contact@alibabacloud.com 으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.