빅 데이터 시대에, 대용량 데이터의 나이의 메이어 Schoenberg 유명한 3 특성: 1 무작위 샘플, 하지만 모든 데이터; 2은 정밀, 아니라 혼란; 3은 원인, 아니라 상관 관계. 이 종이 왜 "무작위 샘플, 모든 데이터"를 설명 합니다.
왜 무작위 샘플?
첫째, 어떤은 무작위 샘플입니다. 설문 조사 하거나 전화 조사, 축 하, 수신 거리에 중단 될 경우 당신은 통계 분석의 무작위 샘플링 된다.
분명히, 미국 인구 조사의 예과 삼촌 메이어, 분석 분야의 분석의 부정확 한 예는 무작위 샘플 설문 조사를 참조 해야 합니다. 아마도 무작위 샘플 통계의 그의 지식을 보여주는 미스터 마이어의 책의 유일한 부분 이었다.
그래서 무작위 샘플 사용 하는 이유? 이유: 첫째, 전체 데이터 수집이 불가능 하거나 비싼. 예를 들어 경우 베이징에 얼마나 많은 사람들이 맥도날드를 먹 었 알고, 그들 각각의 물어 수 없습니다 그리고 리소스 제약 조건이 있다. 비용 없는 경우에 3 일 이내에 답변을 제공 하려는 경우 당신이 수 없습니다 물어 모두; 때문에 우리가 그냥 베이징의 전체 인구에서 맥도날드를 먹 었 고 일정 한 양의 오류를 허용 하는 사람들의 비율 만큼 무작위 샘플링, 그래서 통계 분석을 통해 얻을 수 있는 더 만족 스러운 대답을 알 필요가 있습니다.
통계의 원칙에 따라 결과 일정 비율, 우리는 무작위로 1000 명 설문 조사에 대 한 샘플 하는 경우 다음 자신감 90% 오류에서 결과 결과 되어야 합니다 약 3%.
물론, 데이터 설문 조사를 통해 얻어질 때, 임의의 샘플 우리의 선호 될 또는 유일한 옵션.
무작위 샘플 작은 데이터 시대에 매우 인기가 있습니다.
왜 무작위 샘플?
세 가지 이유는 삼촌 메이어는 무작위 샘플, 행복: 1 샘플링;의 임의성을 실현 하기 매우 어렵다 2. 무작위 샘플링의 메서드는 사용할 수 때 사람들이 필드의 깊이 대해 더 알고 싶어, 3 명만 이전 설계 문제에서 샘플링 된 데이터에서 결과 파생 시킬 수 있습니다.
특유에 삼촌 메이어의 내용입니다. 1 샘플은 전체 데이터의 분포에 따라 샘플 수 없습니다 있기 때문에 진정으로 임의의 수 어렵다. 예를 들어 전화 설문 조사, 전화 인구는 이미 무작위 표본 공간, 2 결과 여성의 30 북경시 맥도날드를 먹는 사람에 대 한 더 알고 싶은 경우 예상; 3 보다 더 많은 오류가 있을 것입니다. 설문의 내용을의 무식 한 수 있습니다. 예를 들어 만약 당신이 갑자기 얼마나 많은 사람들이 같은 시간에 KFC를 먹 었 알고 싶어 하지만 당신은 설문 조사에 질문 하지 않았다, 다음 당신은 할 하지 싶어 대답.
전체 데이터는 어디?
우리는 이미에 빅 데이터 시대, 베이징에 있는 얼마나 많은 사람들이 먹는 맥도날드의 알고 싶은 경우, 당신은 무엇을 할 것 이라고?
물론, 맥도날드의 신발 우리에 게 필요한 소위 전체 데이터를 준비 하지 않았다. 아마도 맥도날드의 수 있습니다 우리에 게 얼마나 많은 빅 맥 그들은 년간 베이징에서 판매 하 고 아마 맥도날드의 우리에 게 얼마나 많은 사람들이 수 년에 걸쳐 맥도날드의 베이징에 방문 하는 것에 대 한 자세한. 하지만 맥도날드의 데이터가 없는 우리에 게 베이징에 얼마나 많은 사람들이 지금 맥도날드를 먹고 있다.
그것은 실제 삼촌 메이어 상상 보다 훨씬 더 복잡 한 것 같다. 별 무작위 샘플, 우리 모든 데이터가 필요. 그러나, 우리는 맥도날드의 존재 하는 모든 데이터를 먹는 베이징 필요?
것이 모든 데이터의 미래는 존재? 어쩌면, 맥도날드의 등록 하 고 먼저 그것을 구매 하지 않는 한. 언제 맥도날드의 등록 하 고 구입 하는 걸 깨닫게 될 겁니다 생각 하십니까? 이것은 정말 필요 합니까?
그럼에도 불구 하 고, 당신은 아직도 전체 배럴 먹는 문제를 해결 하는 방법의 질문을 직면 한다.
전체 데이터는 추상적인 개념입니다. 하지만 그것은 특정 문제에 관해서 라면, 필요한 모든 데이터가 없을 수 있습니다, 빅 데이터 시대에도.
알고 얼마나 많은 사람들이 맥도날드의 베이징에서 먹은, 빅 데이터 시대를 오늘날에 무작위 샘플 분석에 대 한 필요가 있을 수 있습니다.
빅 데이터 시대에도 우리 없는 무작위 샘플 분석에 작별에 말할 수 있는 것 같다.
전체 데이터는 무엇입니까?
빅 데이터 시대에, 모든 데이터는 무작위 샘플에 대조 되는 개념입니다. "먼저, 모든 데이터 분석 보다는,와 관련 된 데이터의 작은 샘플에 의존" 미스터 메이어는 말한다. 따라서, 모든 데이터는 명확 하 게 "모든 관련 데이터".
우리가 얼마나 많은 사람들이 알고 싶은 경우 베이징 맥도날드를 먹 었, 이것 먹고 맥도날드의 베이징에 있는 모든 사람을 위한 경우 이어야 한다. 불행히도, 우리는이 전체 데이터 존재 하지 않는 것을 알고 있다.
빅 데이터 시대에 데이터의 경우를 보면: 알 버트 Laslo Barabasi와 그의 동료는 사람 사이의 상호 작용을 공부 하 고 싶은. 그래서 그들은 조사 이동 통신의 모든 레코드 4 개월-익명으로, 물론-미국 전역 5 분의 1 사람들을 역임 무선 통신에서. 이것은 처음으로 함께 사회적 수준에 가까운 "샘플 전반적 =" 네트워크 분석을 위한 데이터. 사람들의 수백만의 모든 통신 기록에서 보면, 우리가 하지 다른 수단에 의해 생성 될 수 있습니다 새로운 아이디어를 생성할 수 있습니다.
이 모든 삼촌 메이어의 데이터의 "이동 통신에 대 한 기록을 4 개월" 미국 전역 1-5 사람을 제공 하는 무선 연산자에 의해 제공입니다. 무슨 뜻인가요? 간단 하 게, 모바일 회사 통신 기록의 4 개월입니다. 그것은, 비록이 미국에서 1/5 명 통신 기록, 4 개월 즉 그 수수께끼 "이것이 처음으로 사회적 수준에서 주변에" 샘플 네트워크 분석에 대 한 전체 데이터를 =. "
어떻게는 "사회" 및 "미국에서 1/5 명", "샘플 총 =" 및 "모든 이동 통신 4 개월 이내 기록", 그리고 어떻게 그들은 연결?
또한, 데이터의 4 개월은 전체 데이터, 그 3 개월 또는 2 개월 데이터의 경우 전체 데이터 계산 되지 않습니다?
데이터의 겉보기에 간단한 총합 삼촌 메이어로 간단한 여기 되지 않습니다.
과거와 현재 생활의 전체 데이터
위의 경우에 전체 데이터는 기본적으로 모바일 운영자의 데이터베이스에서 4 개월 통신 데이터입니다. 큰 데이터에서 데이터의 많은 애플 리 케이 션의 나이 볼 수 있습니다, 미스터 메이어는 모든 데이터, 사실, 우리가 일반적으로 말하는 데이터베이스 데이터.
데이터베이스의 모든 레코드가 포함 되어 있습니다 "모두" 그냥 같기도 해 서 요.
도 전에 인터넷 인기를 얻었다, 인간 기록 하 고 컴퓨터 및 데이터베이스 기술 때문에 데이터를 축적 하기 시작 했다. 특히, 금융, 통신, 등 일부 특별 한 산업에서 고객의 구매 레코드가 처음 기록 되었다 완전히, 따라서 삼촌 메이어의 데이터의 소위 전체 구성.
이것은 확실히 작은 데이터 나이의 이야기입니다. 즉, 소위 전체 데이터는 큰 데이터 나이의 제품, 전체 데이터는 이미 작은 데이터 시대에 유비 쿼터 스.
기본적인 통계 분석 방법과 소위 전체 데이터의 분석은 작은 데이터 시대에 일반적인 현상 있습니다.
식품 슈퍼마켓 맥주에 대해 얘기 하 고의 이야기는 기저귀, 판매 그리고 그 데이터 소스 되지 않을 수 있습니다 심지어 소위 전체 데이터 식품 슈퍼마켓 모든 소비자 구입 하기 전에 등록 되어야 한다 고집 하지 않았다 때문에.
전체 데이터는 "모든 데이터" 우리 그것, 또는 "모든 관련 데이터" 삼촌 메이어 상상으로 생각. 전체 데이터는 여전히 데이터의 일부, 예를 들어 한 회사의 고객 데이터를 포함 되어 있습니다. 전체 데이터는 위의 경우에는 샘플링의 4 개월 등, 여전히 샘플링 됩니다.
샘플링을 무작위로 샘플링 해야 합니다 라고?
모든 데이터의 분석 오류
왜 삼촌 메이어는 무작위 샘플 화가 주된 이유 중 하나는 통계 오류 및 부정확성 무작위 샘플링 및 실제 상황에 따라 분석에 있다는 것입니다. 그런 다음 모든 데이터와 우리의 분석 결과 오류 이어야 합니까?
가정 우리가 할 베이징에서 맥도날드를 먹는 대 한 모든 정보. 예, 경우에 소위 총 데이터, 단일 변수 분석 하지 않은 통계 오류, 사실,이 분석 통계의 개념을 사용 하지 않습니다. 그러나, 우리 전체 데이터에 너무 많은 노력을 보내고, 확실히 아니라 일부 백분율 계산 또는 몇 가지 간단한 단위 분석. 우리가 할 필요가 다음 번에 더 많은 것이 모든 데이터는 고객 빅 맥을 살 것 이다 예측. 애 널 리스트는 우리에 게 고객의 목록이 되며 우리에 게: 이러한 고객의 75%는 빅 맥을 살 수 있습니다 다음 번.
75% 가능? 즉, 고객은 빅 맥을 구입 하지의 25% 기회가 다음 번. 분석 오류입니다.
사실은, 하나의 변수 (안 통계 분석 전체 데이터에 대 한)의 계산 뿐만 아니라 분석 결과 어떤 통계 분석, 확률 및 통계적 오류가 있습니다.
그러나 큰 데이터 나이 독자에 게로 모든 데이터를 사용 하 여 오류에 대 한 걱정 하지 않아도 느낌을 준다.
모든 데이터의 샘플링
모든 데이터와 함께 큰 데이터 나이 따라 우리는 샘플 더 이상 필요 하지 않습니다. 그 사실이?
흥미롭게도, 모든 데이터 분석을 우리에 게 준 삼촌 메이어, 경우 연구원은 데이터베이스에서 데이터의만 4 개월 했다. 왜 데이터의만 4 개월? 기업의 데이터베이스 데이터의 4 개월만 있나요?
물론 아니에요! 연구원은 4 개월에 대 한 엔터프라이즈의 데이터베이스에서 데이터를 샘플링 이다. 그래서 왜, "모든 데이터"와 연구원은 먹었다고 데이터의만 4 개월?
데이터 분석 때문에 그것은 확실히 더 많은 데이터가 아니라 더 나은입니다. 우리는 경우에 타의 추종을 불허 속도, 너무 많은 데이터 연구원의 시간 자원 낭비는 컴퓨팅과 불필요 한 데이터도 분석의 결과 영향을 미칠 수 있습니다. 더 많은 것은 인 무엇, 미스터 마이어에 따르면 4 개월 데이터 샘플링의 만족 스러운 연구의 결과 얻을 수 충분 하다.
그것은 모든 데이터를 가질 것 이며 샘플 데이터에 필요한.
모든 데이터의 더 많은 샘플
이전 기사에서 삼촌 메이어에 의해 주어진 전체 데이터의 예제에서 애 널 리스트 분석을 위한 데이터는 데이터베이스에서의 4 개월만 했다. 왜? 때문에 분석 하는 작업, 전체 지역 사회 네트워크에 다른 대 인 관계와 개인의 영향을 이해 하는 시간의 특정 기간에 데이터베이스에 있지만 대 인 관계의 분석을 통해 각 고객의 장기적 관계를 얻을 하지 않습니다. 따라서, 단계적된 데이터의 적절 한 샘플링은 필요.
연구원은 데이터베이스에서 사용 되는 모든 데이터, 대 인 관계에 더 많은 변경 포함 될 수 있습니다 상상는 연구의 결과 영향을 미칠 수 있습니다. 따라서, 구별 없이 모든 데이터 적용 하지 반드시 최고의 선택입니다.
전체 데이터의 샘플링 분석의 예로 제공 됩니다. 응용 프로그램의 검색 엔진 알고리즘 분석 하는 데 사용, 원리는 기반 키워드, 주요 검색 엔진 (미국)의 무작위 샘플링을 영향 순위 검색 엔진 페이지에 다양 한 서구 기술 분석 웹 페이지의 검색 결과 크롤링할. 오랜 동안에, 난 웹 데이터베이스 또한 되었다 상승 삼촌 메이어 라는 전체 데이터. 나는 모든 분석에 대 한 모든 데이터를 사용 해야 합니까? 물론 아니에요. 검색 엔진은 끊임없이 변화 하 고 검색 순위 알고리즘, 오래 된 순위를 포함 하기 때문에 페이지 내 검색 엔진의 순위를 핵심 요소 분석 정보, 그것은 역효과 되며 부정확 한 분석 결과가 발생할.
같은 그 미스터 메이어 제기 하고있다 여러 번 항공기에 대 한 요금 예측 데이터 분석의 사실 이다. 항공사 티켓 가격 결정 메커니즘을 변경할 수 있습니다. 가격 예측된 분석에 오래 된 운임 결정 메커니즘에 대 한 정보를 포함 분석 결과 방해 될 것 이다 하 고 오류를 증가.
데이터는 절대적으로 더 나은. 심지어 전체 데이터 분석 작업에 따라 필요에 따라 샘플링 해야 합니다. 이유는 여러 수 있습니다 이며 적절 한 샘플링 옵션을 분석 프로세스를 최적화 하 고 결과 분석 합니다. 또한, 샘플링 무작위 샘플링에 국한 되지 않습니다.
전체 데이터의 함정
첫 번째 문제는 대부분의 경우에는 "모든" 소위 전체 데이터입니다. 절대적으로 헤비 급 인터넷 기업의 모든 데이터를가지고 가장 가능성이 살펴보겠습니다, 그리고 등 구글, 바이, 페이 스 북, Taobao, 어떤 회사의 데이터베이스 라 할 수 있다 "모든"?
다양 한 분석을 그들의 자신의 데이터베이스를 제한 하는 엔터프라이즈 데이터베이스, 종종 더 많은 기꺼이. "립 열매" 라는 옛말이 있다. 이 전체 데이터 분석 함정: 경우 멜론 공장 없는 콩 분석할 수 있습니다.
예를 들어 뉴스 사이트 종종 사용 아주 노란색 매우 폭력적인 뉴스의 뉴스 애플 리 케이 션을 다운로드 하는 네티즌을 유치 합니다. 시간이 지나면서, 그 애플 리 케이 션 사용자가 "노란색 셔츠." 있을 수 있습니다. 그들의 사이에서 붉은 셔츠를 판매 하는 방법은이 "모든 데이터" 분석을 사용 하려는 경우 그것은 잘못 된 해야 합니다.
당신에 게 간단한 예를 보자. 예를 들어 전체 데이터를 분석 하 여 특정 제품에는 고객의 마음에 드는 것을 가정할 수 있습니다. 하지만이 경우 실제로? 아마도 제품에 고객 좋아하는 하지에 전체 데이터, 그래서 어떻게 할 당신이 분석 또한 얻을 수 없습니다 당신의 고객 좋아하는 모두에 상품의 종류.
외부 세계는 훌륭합니다. 종종 세계 밖에 서 멋진 경험 전체 데이터 이동 해야 합니다.
모든 데이터와 임의의 샘플
무작위 샘플 및 소위 전체 데이터 야 속해 개념, 하지 양 Bailao의 2 개의 다른 종류에 대 Huangshiren, 계급 투쟁은 화해입니다. 더 중요 한 것은, 그것은 무작위 샘플 또는 전체 데이터의 소위 분석, 해서는 안됩니다 대표자의 시대.
사실은 그도 모든 데이터를 무작위 샘플링 설문 조사는 필요, 심지어 필요한입니다.
전체 데이터는 거의 진짜 "모든" 데이터, 때문에 아니에요 우리가 알고 싶은, 그래서 그것은 종종 전체 데이터에 근거 하 여 더 많은 정보를 얻을 하는 데 필요한 모든 정보가 포함 될 수 있습니다. 소스 중 하나는 미국에서 예를 들어 다른 "전체 데이터", 도킹 도킹 하는 개인 신용 정보의 개인 사회 보장 번호에 근거 할 수 있다, 또 다른 방법은 "전체 데이터" 무작위 (또는 다른 방법) 샘플, 그리고 데이터베이스에 누락 된 정보를 보완 하기 위해 고객 설문지의 일부를 선택 하 그리고 전체 데이터의 분석에 설문 조사 정보의 도킹을 통해 다음.
같은 분석 한다 있다 들 었 되지, 또는 그를 촬영 하지 않았을 무작위 샘플 그래서 절대적으로 반대 하는 전체 데이터와 함께. 그러나 이러한 분석은 작은 데이터 나이에서 널리 이용 된다.
마지막으로, 종이 무작위 샘플 및 소위 전체 데이터를 요약 한:
대부분의 경우, 1 삼촌 메이어의 소위 총 데이터 참조 엔터프라이즈 데이터베이스 데이터;
대부분의 문제에 대 한 2, 소위 전체 데이터가 없을 수 있습니다;
3 무작위 샘플 및 소위 전체 데이터 사활, 사이 절대 대치 되지 않습니다 하지만 수 평화롭게 공존 또는 보완;
4 작은 데이터 시대에 초기 데이터의 소위 분석의 대부분 널리; 되었습니다.
5 무작위 샘플 분석; 큰 데이터 시대에 그 존재 가치를 표시 계속
6도 소위 총 데이터 샘플링; 더 효과적인 분석 하는 경우가 많습니다
전체 데이터의 함정에 7 관심. 소위 전체 데이터를 분석할 때 외부 세계 더 재미 있을 수 있습니다 생각 한다.
(책임 편집기: 유산의 좋은)