빅 데이터 시대에 메이어 Schoenberg 우리에 게는 큰 데이터 나이의 첫 번째 큰 기능은 "무작위 샘플, 모든 데이터." 마지막 챕터에서 우리는 "맥도날드의 베이징에서의 수"의 간단한 정보 수요 분석을 보여주는 큰 데이터 시대에도 무작위 샘플 분석 필요, 현실은 각 문제 연구에 대 한 전체 데이터를 하지 않는 때문에.
이 문서는 전체 데이터의 신비를 밝히기 위해서 모든 사람을 위해 소위 전체 데이터에 헌신적 이다.
전체 데이터는 무엇입니까?
빅 데이터 시대에, 모든 데이터는 무작위 샘플에 대조 되는 개념입니다. "먼저, 모든 데이터 분석 보다는,와 관련 된 데이터의 작은 샘플에 의존" 미스터 메이어는 말한다. 따라서, 모든 데이터는 명확 하 게 "모든 관련 데이터".
우리가 얼마나 많은 사람들이 알고 싶은 경우 베이징 맥도날드를 먹 었, 이것 먹고 맥도날드의 베이징에 있는 모든 사람을 위한 경우 이어야 한다. 불행히도, 우리는이 전체 데이터 존재 하지 않는 것을 알고 있다.
& http://www.aliyun.com/zixun/aggregation/37954.html "> nbsp; 빅 데이터 시대에 데이터의 경우를 보면: 알 버트 Laslo Barabasi와 그의 동료는 사람 사이의 상호 작용을 공부 하 고 싶은. 그래서 그들은 조사 이동 통신의 모든 레코드 4 개월-익명으로, 물론-미국 전역 5 분의 1 사람들을 역임 무선 통신에서. 이것은 처음으로 함께 사회적 수준에 가까운 "샘플 전반적 =" 네트워크 분석을 위한 데이터. 사람들의 수백만의 모든 통신 기록에서 보면, 우리가 하지 다른 수단에 의해 생성 될 수 있습니다 새로운 아이디어를 생성할 수 있습니다.
이 모든 삼촌 메이어의 데이터의 "이동 통신에 대 한 기록을 4 개월" 미국 전역 1-5 사람을 제공 하는 무선 연산자에 의해 제공입니다. 무슨 뜻인가요? 간단 하 게, 모바일 회사 통신 기록의 4 개월입니다. 그것은, 비록이 미국에서 1/5 명 통신 기록, 4 개월 즉 그 수수께끼 "이것이 처음으로 사회적 수준에서 주변에" 샘플 네트워크 분석에 대 한 전체 데이터를 =. "
어떻게는 "사회" 및 "미국에서 1/5 명", "샘플 총 =" 및 "모든 이동 통신 4 개월 이내 기록", 그리고 어떻게 그들은 연결?
또한, 데이터의 4 개월은 전체 데이터, 그 3 개월 또는 2 개월 데이터의 경우 전체 데이터 계산 되지 않습니다?
데이터의 겉보기에 간단한 총합 삼촌 메이어로 간단한 여기 되지 않습니다.
과거와 현재 생활의 전체 데이터
위의 경우에 전체 데이터는 기본적으로 모바일 운영자의 데이터베이스에서 4 개월 통신 데이터입니다. 큰 데이터에서 데이터의 많은 애플 리 케이 션의 나이 볼 수 있습니다, 미스터 메이어는 모든 데이터, 사실, 우리가 일반적으로 말하는 데이터베이스 데이터.
데이터베이스의 모든 레코드가 포함 되어 있습니다 "모두" 그냥 같기도 해 서 요.
도 전에 인터넷 인기를 얻었다, 인간 기록 하 고 컴퓨터 및 데이터베이스 기술 때문에 데이터를 축적 하기 시작 했다. 특히, 금융, 통신, 등 일부 특별 한 산업에서 고객의 구매 레코드가 처음 기록 되었다 완전히, 따라서 삼촌 메이어의 데이터의 소위 전체 구성.
이것은 확실히 작은 데이터 나이의 이야기입니다. 즉, 소위 전체 데이터는 큰 데이터 나이의 제품, 전체 데이터는 이미 작은 데이터 시대에 유비 쿼터 스.
기본적인 통계 분석 방법과 소위 전체 데이터의 분석은 작은 데이터 시대에 일반적인 현상 있습니다.
식품 슈퍼마켓 맥주에 대해 얘기 하 고의 이야기는 기저귀, 판매 그리고 그 데이터 소스 되지 않을 수 있습니다 심지어 소위 전체 데이터 식품 슈퍼마켓 모든 소비자 구입 하기 전에 등록 되어야 한다 고집 하지 않았다 때문에.
전체 데이터는 "모든 데이터" 우리 그것, 또는 "모든 관련 데이터" 삼촌 메이어 상상으로 생각. 전체 데이터는 여전히 데이터의 일부, 예를 들어 한 회사의 고객 데이터를 포함 되어 있습니다. 전체 데이터는 위의 경우에는 샘플링의 4 개월 등, 여전히 샘플링 됩니다.
샘플링을 무작위로 샘플링 해야 합니다 라고?
모든 데이터의 분석 오류
왜 삼촌 메이어는 무작위 샘플 화가 주된 이유 중 하나는 통계 오류 및 부정확성 무작위 샘플링 및 실제 상황에 따라 분석에 있다는 것입니다. 그런 다음 모든 데이터와 우리의 분석 결과 오류 이어야 합니까?
가정 우리가 할 베이징에서 맥도날드를 먹는 대 한 모든 정보. 예, 경우에 소위 총 데이터, 단일 변수 분석 하지 않은 통계 오류, 사실,이 분석 통계의 개념을 사용 하지 않습니다. 그러나, 우리 전체 데이터에 너무 많은 노력을 보내고, 확실히 아니라 일부 백분율 계산 또는 몇 가지 간단한 단위 분석. 우리가 할 필요가 다음 번에 더 많은 것이 모든 데이터는 고객 빅 맥을 살 것 이다 예측. 애 널 리스트는 우리에 게 고객의 목록이 되며 우리에 게: 이러한 고객의 75%는 빅 맥을 살 수 있습니다 다음 번.
75% 가능? 즉, 고객은 빅 맥을 구입 하지의 25% 기회가 다음 번. 분석 오류입니다.
사실은, 하나의 변수 (안 통계 분석 전체 데이터에 대 한)의 계산 뿐만 아니라 분석 결과 어떤 통계 분석, 확률 및 통계적 오류가 있습니다.
그러나 큰 데이터 나이 독자에 게로 모든 데이터를 사용 하 여 오류에 대 한 걱정 하지 않아도 느낌을 준다.
모든 데이터의 샘플링
모든 데이터와 함께 큰 데이터 나이 따라 우리는 샘플 더 이상 필요 하지 않습니다. 그 사실이?
흥미롭게도, 모든 데이터 분석을 우리에 게 준 삼촌 메이어, 경우 연구원은 데이터베이스에서 데이터의만 4 개월 했다. 왜 데이터의만 4 개월? 기업의 데이터베이스 데이터의 4 개월만 있나요?
물론 아니에요!
연구원은 4 개월에 대 한 엔터프라이즈의 데이터베이스에서 데이터를 샘플링 이다. 그래서 왜, "모든 데이터"와 연구원은 먹었다고 데이터의만 4 개월?
데이터 분석 때문에 그것은 확실히 더 많은 데이터가 아니라 더 나은입니다. 우리는 비록 최고의 컴퓨팅 속도, 너무 많은 데이터 연구팀은 시간 자원 낭비할 수 및 불필요 한 데이터도 분석의 결과 영향을 미칠 수 있습니다. 더 많은 것은 인 무엇, 미스터 마이어에 따르면 4 개월 데이터 샘플링의 만족 스러운 연구의 결과 얻을 수 충분 하다.
그것은 모든 데이터를 가질 것 이며 샘플 데이터에 필요한.
매우 이해 하기 어렵습니다, 큰 데이터 나 데이터베이스 데이터와 대용량 데이터의 나이의 가장 현저한 특징의 한으로 무작위 샘플의 원리 이다. 그리고 무작위 샘플의 반대를 보여, 그것은 비 과학적이 고도 호출 데이터베이스 데이터 전체 데이터를 위험한. 소위 전체 데이터의 추가 분석에 대 한 관심을 지불 하시기 바랍니다.