팀 하 포드: 큰 데이터, 또는 큰 실수?

출처: 인터넷
작성자: 사용자
키워드: 우리 빅 데이터 구글 수 있습니다.

큰 데이터 대규모 현상의 막연 한 표현 이다. 용어는 이제 기업가, 과학자, 정부 및 매체에 의해 과열 되었습니다.

5 년 전, 구글 연구팀 발표는 세계 최고의 과학에서 놀라운 업적 잡지 자연. 팀은 어떤 의료 검사에 의존 하지 않는 미국에서 독감의 확산을 추적할 수 있습니다. 그들은 질병 보다는 더 빨리 추적 하는. Google의 추적 결과만 하루 지연 및 CDC 일주일 이상에 대 한 추세 차트의 확산을 얻으려면 의사의 진단의 많은 수를 요약 해야 합니다. 구글 너무 빨리 때문에 그들은 그 때 사람들이 독감 증상을가지고, 그들은 경향이 웹과 관련 된 뭔가 대 한 검색에가 서 찾을 셀 수 있습니다.

"구글 독감 트렌드" 뿐만 아니라 신속, 정확, 저렴 한 비용, 하지만 또한 어떤 이론을 사용 하지 않습니다. Google의 엔지니어 검색 키워드 ("독감 증상" 또는 "내 주변의 약국") 감기와 관련 된 가정 귀찮게 필요가 없습니다. 그들은 단지 그들의 웹사이트에 가장 인기 있는 검색 단어의 50 백만 밖으로 하 고 다음 알고리즘을 선택 해야 합니다.

Google 독감 트렌드의 성공 곧 비즈니스, 기술 및 과학에서 최신 트렌드의 상징이 되었다. 어떤 새로운 기술 했다 Google 우리가 흥분된 미디어 기자 요청 보관?

이러한 buzzwords의 많은, "빅 데이터" 마케터의 입에 자주 나타나는 막연 한 단어입니다. 어떤 사람들 수는 LHC 15PB 년, 15000 년을 반복 하 여 좋아하는 노래의 크기에 해당 데이터의 생성 하는 데이터의 양의 엄청난 규모를 강조 하는 단어를 사용 합니다.

큰 데이터는 많은 수의 작은 데이터 문제. 이러한 문제는 데이터 증가의 볼륨으로 사라지지 않습니다 그리고 그들은 더 발음만.

그러나, "큰 데이터", 대부분의 회사에에서 관심이 소위 "실제 데이터"와 같은 웹 검색 기록, 신용 카드 소비 레코드 및 통신 기록 및 주변 휴대 전화의 기지국. Google 독감 트렌드는이 문서에서 설명 하는 데이터의 종류 등 현실적인 데이터를 기반으로 합니다. 이러한 데이터 집합 collider의 데이터 (예: Facebook) 보다 더 큰 이며, 더 중요 한 것은,은 상대적으로 쉽게 수집, 그들은 크기에서 큰. 그들은 종종 다른 목적을 위해 수집 하 고 우연한 방식으로, 함께 쌓아 실시간으로 업데이트할 수 있습니다. 우리의 통신, 엔터테인먼트, 비즈니스 활동, 인터넷에 이동 되 고 우리의 휴대 전화, 자동차, 심지어 안경 인터넷 입력 했습니다. 우리의 전체 생활 기록 및 디지털화 될 수, 그래서는 하지 상상할 수 있는 10 년 전 이었다.

큰 데이터 옹호 Google 독감 트렌드의 성공을 확인 하는 각각의 4 개의 흥미로운 주장을 만들었습니다.

1 데이터 분석 수 결과가 놀라 워 하 고 정확한;

2 위치의 각 번호를 캡처할 수 있기 때문에 그래서 완전히 제거할 수 통계; 샘플링의 이전 방법

3는 더 이상 현상 뒤에 이유를 찾고, 우리 단지 알아야 선; 사이 통계적 인 상호 관계는

"이론 종료", 4는 더 이상 과학 이나 통계 모델을 요구 한다. "데이터가 너무 큰 그 당신이 말할 수 있는 자신," 와이어 드 잡지 2008 기사에 썼다.

불행히도, 위의 교리는 매우 낙관적이 고 단순한. 만약에,이 4는 "명백히 넌센스", 데이비드 Spiegelhalter, 윈 턴 교수 케임브리지의 대학 공공 위험 인식 클래스 (중국에서 Changjiang 학자) 같은 댓글을 달았습니다.

기업 구글, 페이 스 북, 아마존 계속 우리가 생성 하는 데이터를 통해 우리의 삶을 이해 하는 것과 같은 실제 데이터 새로운 인터넷 경제 뒷받침. 에드워드 Snowden 크기와 미국 정부 데이터 감시의 범위를 발견 했다 그리고 그것은 보안 서비스는 뭔가 우리의 일상 데이터 파고와 집착 동등 하 게 분명 하다.

컨설턴트는 데이터 백인을 신속 하 게 큰 데이터의 잠재력을 이해를 촉구 했다. 최근 보고서에서 맥킨 지 글로벌 기관, 스마트 신발 메디케어 청구에 임상 시험에서 이러한 모든 건강 관련 데이터는 더 나은 통합 및 분석, 미국 건강 보험 시스템 저장할 수 300 십억 달러의 1 년 계산 했다. 평균에, 모든 미국 1000 달러를 절약할 수 있습니다.

동안 큰 숫자 유망 과학자, 기업과 정부의 눈에 우리가 몇 가지 우리가 전에 알고 통계의 교훈을 무시 하는 경우, 큰 데이터 우리를 실망에 운명 수 있습니다.

교수 Spiegelhalter는 한 번 말했다: "큰 데이터에 작은 데이터 문제가 많이 있다." 이러한 문제는 데이터 증가의 볼륨으로 사라지지 않습니다 그리고 그들은 더 발음만. "

Google 독감 트렌드의 간행물 후에 4 년 예측, 자연 잡지의 새로운 문제를 보고 나쁜 뉴스: 최신 독감에 Google 독감 트렌드 작동 하지 않았다. 도구 한번 안정적으로 제공 하는 대규모 데이터 분석 및 이론적 모델링에 대 한 필요성의 맥락에서 인플루엔자의 신속 하 고 정확한 발생 10 이상 겨울에 대 한 운영 했다. 하지만이 시간 그것은 손실, 있고 Google의 모델 보여주 독감 발발은 매우 심각 하지만 CDC, 천천히 세계 각국에서 데이터를 컴파일 후 발견 Google의 예측 보다 실제로 그들이 거의 한 더 했다.

문제의 뿌리는 Google 모른다 (처음) 이란 검색 키워드와 확산 독감 사이 연결 이다. Google의 엔지니어는 왜 연결이 그들 뒤에 파악 하려고 하지. 그들은 단지 데이터에서 통계 기능 몇 가지를 발견. 그들은 원인에 관련성 보다 자체에 더 초점을. 이 방법은 큰 데이터 분석에서 일반적 이다. 그것은 어려운, 아마도 불가능 하 고, 무슨 원인 특정 결과 보세요입니다. 두 가지 사이의 상관 관계를 찾는 것은 훨씬 간단 하 고 빠르게입니다. 빅토르 메이어-schönberger와 케네스 Cukier 큰 데이터도 서에 설명 된: "원인 무시할 수 없는, 하지만 그것은 그려 왔다 왕위에 시작 지점으로 모든 결론에 대 한." "

이러한 종류의 어떤 이론 없이 순수한 상관 관계 분석 취약성에 필연적으로 하지 발생 합니다. 상관 관계의 뒤에 이유를 모르는 상관 관계 사라질 것 이다 때 말할 수 없습니다. Google 독감 트렌드에서 오류에 대 한 하나의 설명은 2012 년 12 월 미디어는 독감에 대 한 무서운 이야기의 가득 차 있다 그리고 이러한 보고서를 보고, 심지어 건강 한 사람들이 관련 단어를 검색 하려면 인터넷을 실행입니다. 또 다른 설명, Google의 자체 검색 알고리즘, 사람들이 질병 지를 자동으로 입력 될 때 사용자의 검색 및 탐색 동작에 영향을 몇 가지 진단 결과 추천. 그것은 축구 경기, 공 잘못 도어로 비행에 게시물을 이동 같았다.

Google은 새로운 데이터 독감 트렌드를 다시 보정 하이 제품 다시 사용. 이것은 확실히 적당 한 접근입니다. 왜 그것은 우리가 단순히 수집 대규모 데이터 처리를 위한 더 많은 기회를 흥미 진 진한 100 이유가 있다.입니다. 그러나, 우리가 충분 한 수업 같은 실수를 피하기 위해 위의 예제에서 무승부 해야 합니다.

통계학자는 과거 200 년 인지 데이터의 과정의 함정을 요약 보다는 더 많은 쓰 셨습니다. 이제 데이터는 더 큰, 새로운 빠르고, 그리고 수집의 비용도 낮습니다. 하지만 이러한 함정을 작성 하지만 그들은 여전히 거기 우리가 척 수 없습니다.

1936 년 프랭클린 Delano 루즈벨트 대통령 (프랭클린 D. 루즈벨트) 다음 대통령에 대 한 실행을 가진 공화당 알프레드 랜 든에 리더 스 다이제스트, 권위 있는 잡지는 상황을 예측 하는 작업을 가정 합니다. 그 당시, 설문 조사를 사용 하 고 조사 했다 야심과 유권자의 1 / 4을 덮고 10 백만 질문 지를 보낼 계획. 그것은 홍수 메일 이상 예상 될 것입니다, 하지만 다이제스트 그것을 즐기고 있다 것 예견 될 수 있다. 8 월 하순에 그들은 썼다: "다음 주 이후, 10 백만 설문의 첫 번째 일괄 처리 도착, 후속 메일 홍수 피크의 시작 될 것입니다." 이러한 형태는 체크 체크 3 번, 모두 5, 인터리브 하 고 집계. "

결국, 다이제스트 2 개월만에 놀라운 2.4 백만 영수증을 받은 고 통계 완료 된 후 잡지 랜 든 또 다른 4%는 제 3 후보에 대 한 투표를 하는 동안 55:41 우위와 일반 선거를 이길 거 라고 발표 했다.

하지만 실제 선거 결과 다르다: 루즈벨트 61:37의 산 사태에 의해 원. 어떤 게 face-saving 덜도 독자의 다이제스트 처음 겐 조지 갤럽, 의견 조사, 훨씬 작은 설문 조사에 의해 훨씬 더 정확한 예측을 가져옵니다. 갤럽에 루즈벨트를 이미 될 기대 하고있다. 결국, 씨 갤럽 자신의 방식으로 했다. 관점에서 데이터, 크기는 다 확인 하지 않습니다.

의견 조사는 샘플링 하는 유권자의 큰 범위를 기반으로 합니다. 즉, 수 사관 들은 두 가지 문제를 다루는 필요: 샘플 오류 및 샘플 편차.

샘플 오류는 사실 전체 인구의 의견을 반영 하지 않을 수 있습니다 무작위로 선택 된 샘플 보기의 그룹을 말합니다. 허용 오차는 샘플의 수로 감소 한다. 대부분의 설문 조사에 대 한 1000 인터뷰는 이미 샘플에 충분히 크다. 씨 갤럽 소문에 하면 총에서 3000 번을 인터뷰 했다.

3000 인터뷰 했다 좋은, 하는 경우에 되지 않을 것 이라고 하는 더 나은 2.4 백만 번? 대답은 아니요 샘플 오류는 더 위험한 친구: 편차 샘플. 샘플 오류 의미 무작위로 선택 된 샘플 수 있습니다 다른 모든 사람을 대표 하지 샘플 편차는 샘플 수 있습니다 무작위로 선택 되지 것을 의미 합니다. 조지 Gallup 그가 그것을 알고 있기 때문에, 편견 없이 샘플의 컬렉션을 찾을 노력을 많이 샘플 수를 증가 하는 것 보다 훨씬 더 중요 했다.

리더 스 다이제스트, 더 큰 데이터 집합을 찾아 치우치는 견본에 의해 갇혀 되었습니다. 그들은 차량 등록 정보 및 전화 번호부에서 설문 메일 개체를 선택 합니다. 1936 년의 시간에서 샘플 그룹 부유한 클래스를 했다. 그리고 랜 든 또한 실수를 한 단계 더 나아가 더 보낼 다시 결과 기꺼이 보인다. 이 두 편차의 조합을 결정 다이제스트 조사 실패를 합니다. 갤럽 각 사람을 인터뷰, "다이제스트" 800 영수증을 받을에 해당. 그것은 정말 크고 정확한 조사는 결국 거짓 결과로 이어질 당황 합니다.

지금 큰 데이터의 열광적인 독자의 다이제스트의 사람들을 생각나 게 보인다. 실제 데이터의 수집 그래서이 지역에는 샘플 편견 인지 알아 어렵다 혼란 이다. 그리고 데이터의 크기 때문에 일부 애 널 리스트는 샘플링 관련 문제는 더 이상 필요 하지 하는 것을 결정 했다 것 같다. 사실, 문제는 남아 있다.

교수 빅터 메이어-schönberger 옥스포드 대학 인터넷 센터, 큰 데이터도 서의 공동 저자 하더군요 큰 데이터 세트의 그의 좋아하는 정의 "n = 모든", 아니 샘플 때문에 우리는 전체 모집단에 대 한 데이터를 필요 했다. 마찬가지로 선거 감시 선거 결과 예측 하는 몇 가지 대표 투표를 찾을 수 없습니다, 그들은 모든 투표를 계산 됩니다. 샘플링의 여지가 때 바이어스 "n = all" 샘플은 이미 모든 사람을 포함 하기 때문에.

하지만 수식 "n = all" 실제 데이터 세트의 대부분에 대 한 유효 사용? 안 무서 워 요. 패트릭 울프, 말했다 "나는 누구 든 지 모든 데이터를 얻을 수 있습니다 믿지 않아요" 런던 대학에서 컴퓨터 과학 및 통계 교수.

지 저 귀 다 예입니다. 이론, 저장 및 트위터에 모든 레코드를 분석 하 고 수 다음 공개 분위기에서 몇 가지 결론을 파생 (사실, 대부분의 연구원은 사용 하는 트위터 "화재 호스" 라고 하는 데이터의 하위 집합을 제공 하기 위해). 하지만 우리는 트위터의 모든 레코드를 읽을 수 있습니다, 경우에 트위터의 사용자 스스로 세계에 사람 변하지. (퓨 인터넷 연구 프로젝트에 따르면 2013 년에 검은 피부 큰 도시 또는 도시에 살고 있는 젊은 사람들의 비율이 높았다 미국의 트위터에서)

우리는 사람과 어떤 가지는 데이터에서 누락 우리가 더러운 현실 데이터의 무리와 함께 상대 하는 경우에 특히 밖으로 파악 해야한다. 카이 저 봉, 데이터 분석 및 디지털 Sensing 책의 저자는 사람들이 단순히 그들은 모든 관련 데이터를가지고 가정 하지 경고: "n =은 종종 가상, 아니라 데이터의 현실." "

스마트폰 애플 리 케이 션 라는 "Bumpy 거리," 하 수구 거리에 밖으로 체크를 휴대 전화에가 속도계 센서를 사용 하 여 보스턴에서 이며 응용 프로그램 노동자도로 순찰을 중지할 수 있습니다. 보스턴의 시민 애플 리 케이 션, 다운로드 하 고 그들의 이동 전화 자동으로 차량 충돌을 업로드 하 고 시청 어디도 필요 서비스, 그들은 마을에서 운전으로 알려. 몇 년 전, 놀라운 듯 뭔가 아름 답게 해결을 불 쌍 한 방법으로 정보 기술의 개발을 통해. 보스턴 정부는 "다 수 도시에 실시간 정보를 제공, 우리는 도움이 문제를 해결 하 고 장기 투자 계획"을 발표 하 게 그러므로 이다.

"울 퉁 불 퉁 거리"는 장비 설치에 수구 지도입니다. 그러나, 제품 디자인의 시작 부분에서이 지도 더 경향이 젊고 풍부한 이웃 스마트폰 사용 하는 더 많은 사람들이 있기 때문에. "울 퉁 불 퉁 거리"의 아이디어를 제공 하는 "n = all" 데이터 모든 휴대 전화를 기록할 수 있다, 모든 하 수구 수구, 하지만이 "모든"의 위치에 대 한 정보를 참조. Microsoft 연구원 케이트 크로포드 지적으로 체계적인 편견을 사람들이 발견 하 고 해결할 수 있습니다 전에 신중 하 게 고려해 야 실제 데이터에 포함 되어 있습니다. 큰 데이터 집합 것 모두 포괄 하지만 "n ="은 종종 매혹적인 환상.

세계의 현실은 물론, 개념에 돈을 적립하실 수 있습니다, 만약 아무도 원인 및 샘플 편차에 대 한 관심 것입니다. 전 세계 기업 체인 (2012 년에 뉴욕 타임즈의 찰리 Duhigg에 의해 보고) 대상 할인 미국의 전설적인 성공을 듣고 탐 내지 예상 된다. Duhigg 대상 고객에서 많은 데이터를 수집 방법과 분석에 대해 설명 합니다. 고객의 그것의 이해 절경입니다.

Duhigg의 가장 말하고 이야기는이: 남자 미네소타 근처 대상 체인으로 습격 하 고 아기 의상 및 출산 드레스 그의 딸을 보내 회사의 최근 쿠폰에 대 한가 게 최고 불평. 가 게 최고는 그에 게 아낌없이 사과 했다. 하지만 곧 받은 게 최고 후 상대방 여자에 게이 시간을 다시-그냥 사과 하는 남자의 전화는 정말 임신. 그녀의 아버지는 그것을 실현 하지 않았다 때 대상 구매 맛도 잎사귀와 마그네슘의 그녀의 기록을 분석 하 여 짐작 보충.

이 통계 마법은? 더 평범한 설명 될 수 있습니다.

카이 저 펑은 데 소매 경험의 많은 년 및 광고주 비슷한 도구를 개발 하 고 그가 생각 하는 "틀린 확실성의 심각한 문제는". 그는 수많은 부정적인 이야기는 우리가 일반적으로 소리가 안 들 려, 그리고 그 경우에는 임신 여성 또한 아기 용품에 대 한 쿠폰을 받을에 언급.

만약 당신이 그냥 Duhigg 이야기, 대상의 알고리즘은 절대적으로 믿을 수 있는-아기 낙하산 강 하복 및 젖은 조직 바우처를 받은 모든 사람은 임신한 여자는 생각 하기 쉽습니다. 그건 거의 불가능 한 실수입니다. 하지만 사실 임신이이 쿠폰을 받을 수 있습니다 단순히 대상 모두에 게 쿠폰을 보내기 때문에. 대상의 마음 읽기 이야기를 믿을 수 있는, 전에 얼마나 높은 적중된 율은 있는 그들에 게 물어 봐야.

찰스 Duhiggs의 설명에서 대상 무작위로 뭔가 관련이 없는 와인 컵 쿠폰 등 쿠폰도 핑 것입니다. 그렇지 않으면, 임산부 자신의 개인 정보를 감지 하 여 다음 불안 하 게 느끼고 같은 깊이에서 회사의 컴퓨터 시스템을 찾을 수 있습니다.

봉 말을 하지 않았다 그렇게 보낼 임산부의 아기 용품 쇼핑 수동 전체를 의심 스러운 것 이기 때문에 하지만 회사 전혀 임신 되지 않은 많은 여성들에 게 설명서를 보낼 것을 알고 있기 때문에이 대 한 또 다른 설명을 했습니다.

이러한 뷰는 데이터 분석, 하지만 그것은 매우 상업 있을 수 있습니다 의미 하지 않는다. 약간 우편의 정확도 향상 시킬 수 있습니다, 경우에 그것은 수익성이 될 것입니다. 하지만 돈 버는 도구는 전 능 하 고 항상 참 의미 하지 않는다.

2005 년 "왜 출판된 연구 결과의 대부분은 잘못" 이라는 제목의 한 논문을 발표 하는 죤 Ioannidis 라는 전염병 과학자 제목은 간결 하 고. 그의 종이에 핵심 아이디어 중 하나는 통계학자 "여러 비교." 부르는

우리는 데이터에는 이미지를 보면, 우리 자주 표현 사고 인지 고려할 필요가 있다. 이 모양을 무작위로 같습니다 경우 우리 통계적으로 중요 한 전화.

연구원은 많은 가능한 모습 얼굴 여러 비교 오류가 발생할 수 있습니다. 임상 실험은, 가정 우리 일부 학생 들은 비타민과 다른 학생에 게 위약을 줄 게. 당신은 어떻게이 비타민의 효과 판단 합니까? 그것은 모든 "효과"의 정의에 따라 달라 집니다. 연구원은 어린이 높이, 무게, 치아 붕괴 가능성, 성능, 시험 점수, 또는 심지어는 25 세 소득 또는 감옥 문장 (장기 후속)에 보일 수 있습니다. 다음에 종합적인 비교:이 비타민은 효과적 이다 가난한 가정에서 어린이 위한 또는 풍족 한 가족에 대 한? 소년 또는 소녀에 대 한 효과적입니다? 가끔 결과 실제 발견 밖으로 익사 할 경우 충분 한 다른 상관 관계.

문제를 해결 하기 위해 많은 방법이 있다 그러나 많은 문제는 더 악화. 작은 데이터 세트에 비해 큰 데이터의 경우 비교에 대 한 너무 많은 조건이 있기 때문에. 주의 깊은 분석 없이 하는 거짓 표현-신호-잡음 비율-것입니다 실제 표현 곧의 비율 0 접근 될.

설상가상으로, 우리가 증가 투명도의 프로세스를 사용 하는 즉 여러 비교의 문제를 해결 하기 위해, 다른 연구원은 어떤 가정 테스트 하 고 어떤 부정적인 결과 출판 하지 있도록. 그러나 실제 데이터는 거의 불투명. 아마존과 구글, 페이스 북과 트위터, 대상, 테 스 코,이 회사는 그들의 모든 데이터를 공유 하는 당신과 나 함께 하려고 하지.

의심의 여지가 새로운, 더 큰, 더 싼 데이터 설정 하 고 강력한 분석 도구 결국 가치를 얻을 것입니다. 대용량 데이터 분석의 몇 가지 성공적인 사례는 사실 이다. 캠브리지의 데이비드 Spiegelhalter Google 번역, 인간 번역 하 고 자신을 복제 하는 패턴을 발견 했습니다 수많은 문서를 분석 하는 제품 이라고 합니다. Google 번역 과학자 들은 "기계 학습", 어디에 미리 설정된 프로그래밍 논리 없이 놀라운 결과 계산할 수 있는 학습 기계 전화 컴퓨터의 응용 프로그램입니다. Google 번역 현재로 알려져 있다 "아무 이론적 모델, 순수 데이터 기반 알고리즘 블랙 박스" 주변 대부분 제품의이 목표. Spiegelhalter의 낱말에서는, 그것은 "놀라운 성과"입니다. 이 대규모 데이터의 지능형 처리에서 온다.

그러나 큰 데이터 해결 되지 않으면 문제는 통계학자와 과학자의 수백 년 동안에 일하고 있다: 인과 관계를 이해, 미래, 추론 및 개입 및 시스템 최적화.

"이제 우리는 몇 가지 새로운 데이터 원본 하지만 아무도 데이터, 사람들이 대답, 원하는" 런던의 로얄 대학의 교수 데이비드 손 고 말했다.

큰 데이터를 사용 하 여 같은 답변을 얻을 수, 진행의 큰 거래 통계 방법에서 만들 수 있다.

"빅 데이터는 미국의 와일드 웨스트 처럼" 대학 대학 런던의 패트릭 울프는 말한다. 그것은 멋진 자들 민첩 하 고 야심찬 모든 가능한 도구를 사용 하 여 뭔가를 귀중 한 데이터에서를 그들의 베스트를 시도할 것 이다. 하지만 우리는 여전히 조금 눈 순간. "

통계학자는 빅 데이터를 위한 새로운 도구를 개발 하기 위해 애쓰고 있습니다. 이러한 새로운 도구는 물론 중요 한, 하지만 그들은 단지 그들이 흡수 보다 과거 통계의 본질을 잊지 경우 성공할 수 있습니다.

마지막으로, 우리는 다시 큰 데이터의 4 개의 기본적인 신조에 보세요. 첫째, 우리는 단순히 대상의 임신 예측 알고리즘, 같은 부정적인 데이터를 무시 하는 경우 우리 수 쉽게과 대 평가 알고리즘의 정확도. 둘째, 경우 고정된 환경에서 예측, 인과 관계는 더 이상 중요 합니다 가정할 수 없습니다. 그리고 우리 (같은 독감 트렌드 예측), 변경의 세계에 있어 또는 우리 스스로 환경을 변경 하려면, 그건 위험한 생각. 세 번째, "n = all", 그리고 샘플링 편차 중요 하지 않습니다, 이러한 전제는 실제 상황의 대다수에서 설립 되지. 마지막으로, 그것은 데이터의 환상은 사실 보다 훨씬 더 때, 그것은 여전히 보기 데이터는 "결론을 말을 당신을 위해 충분히 큰"를 들고 있다 생각 하는 순 진 하다.

큰 데이터 왔다, 하지만 그것 하지 새로운 진리를가지고 있다. 도전은 이제 새로운 문제를 해결 하 고 이전 보다 훨씬 더 큰 규모에 새로운 답변을 통계의 오래 된 수업에서 배울 것 이다.

(피트 웹사이트, 2014 년 3 월 28 일, 원제의 영어 버전: 큰 데이터:는 우리 큰 실수; 쌰 페이/번역)

당신이 좋아하는 것 같아요:

1. "빅 데이터 시대": 큰 데이터 벌을 따라 할 맹목적으로 하지 않습니다 이해

2. 큰 데이터 나이 주장 미국 학자 큰 데이터 질문

3. "빅 데이터 시대" 생각을 rereading 후

관련 문서

연락처

이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이 페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.

커뮤니티에서 표절 사례를 발견한 경우 info-contact@alibabacloud.com 으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.