"빅 데이터" 갑자기 유비 쿼터 스, 그리고 그것은 모두를 수집, 분석 하 고 다른 사람 자랑 또는 그것의 큰 영향력을 두려워 하는 동안 큰 데이터에서 이익을 원한다. 우리는 Google의 거 대 한 검색 데이터를 사용 하 여 독감 또는 테러, 예측에 전화 레코드를 사용 하 여 티켓을 구입 최상의 시간을 찾기 위해 항공 데이터를 사용 하 여 예측에 대 한 얘기, 큰 데이터 도움이 됩니다. 현대 컴퓨팅 기술의 조합 및 디지털 타임스의 광대 한 숫자 만큼 우리가 그 데이터를 사용 하 여 어떤 문제 범죄, 공중 보건, 용어에서 변경, 데이트, 위험을 해결 것으로 보인다.
그것은 그것의 제안자 주장 같다. "다음 20 년 동안," 기자 패트릭 압정 최근 큰 데이터 성명에서 "그것은 투명 한 미래"를 쓴 "우리는 전례 없는 수준의 정확도와 미래의 많은 분야를 예측할 수 있는, 인간으로 간주 되었습니다 오래도 일부 지역 개입할 수 없습니다." "하지만 큰 데이터 결코 정말 너무 좋은 소리.
큰 데이터를 정말 소리 좋은? 의심의 여지가 큰 데이터는 참으로 귀중 한 도구와 일부 지역에 중요 한 영향을 미치고 있다. 예, 거의 20 년의 성공적인 인공 지능 컴퓨터 프로그램, IBM의 왓슨 컴퓨터 질문 / 답변 시스템에 Google의 검색 엔진, 포함 데이터 처리를 많이. 그러나 정확 하 게 되었기 때문에 최근 너무 유명 하 고 널리 사용 되, 우리 큰 데이터 수 고 할 수 없는 명확 하 게 볼 필요가 있다.
큰 데이터 수 우리에 게 그것은 하지만 왜 우리에 게 수 없습니다.
첫째, 큰 데이터 종속성, 작은 데이터 집합으로 측정 되지 않을 수 있습니다 특히 그 미묘한 상관을 감지 하는 것을 매우 잘한다 수 있지만 그것은 말하지 않는다 우리는 관련성은 의미. 예를 들어 큰 데이터 분석 2011 년 2006에서 미국 살인 귀하의 비율을 둘 다 가파른 하향 추세에는 IE의 시장 점유율을 매우 연관 공개 수 있습니다. 하지만 그것은 둘 사이의 인과 관계는 어렵다. 예를 들어 1998 년부터 2007에 자폐증으로 진단 환자 유기농 식품 (둘 다 빠른 상승 추세에는)의 판매와 관련 된 하지만 상관 않습니다 자체 안에 우리에 게 식이 요법과 자폐증 사이의 관계에 대 한.
큰 데이터 보조 도구를 하실 수 있습니다.
과학적 조사를 지원 하기 위해 두 번째, 큰 데이터를 사용할 수 있지만 성공적으로 그들을 완전히 대체할 수는 없습니다. 분자 생물학, 예를 들어 잠재적인 DNA에서 단백질의 3 차원 구조 시퀀스, 그리고 일부 과학자 들은 이미 문제를 해결 하기 위해 큰 데이터를 사용 하는 추론 하 고 싶습니다. 하지만 아무 과학자 아무리 어떻게 강력한 데이터 분석, 물리학, 생화학의 이해에 따라 데이터를 처리 해야 데이터로 처리에 의해 전적으로이 문제를 해결할 수 있다고 생각.
큰 데이터에 기반 하는 도구는 가짜를 쉽게
셋째, 큰 데이터에 기반 하는 많은 도구 들의 가짜 하. 일반적으로 학생의 작곡을 해결 하기 위한 대용량 데이터 프로그램의 길이 매우 선생님의 등급에 관련 하는 것을 나타내는 단어의 복잡성에 따라 달라 집니다. 하지만 일단 학생 프로그램의 작동 방법을 알고, 그들은 긴 문장을 작성 하 고 명확한 표현과 양식 일관 된 챕터를 규제 하는 방법을 학습 하는 대신 모호한 단어를 사용 하 여 시작 합니다. 심지어 Google 유명한 검색 엔진, 종종 큰 데이터의 경우 성공으로 간주 됩니다, 정보 복잡성, 쓸모 없는 검색 결과, 그리고 일부 검색 결과 앞에 (검색 광고)에 대 한 몇 가지 만든 이유에 면역입니다.
그것은 큰 데이터로 속단 위험 합니다.
4, 큰 데이터의 결과 인위적으로 속 되지 경우에 그것은 효과가 보이지 않습니다. 예를 들어 Google의 예측 독감 케이스의 큰 데이터 모델을 사용. 2009 년 구글, 상당한 홍보를 통해 말했다 그것은 더 정확 하 고 빠른 질병 통제 예방 센터 등도 공식 기관 보다는 독감 관련 검색어를 분석 하 여 독감 발발의 추세를 예측할 수 있는. 하지만 몇 년 후, Google의 주장된 독감 예측 하지 잘 접수 되었습니다, 그리고 지난 2 년 동안에 그것은 더 많은 일을 불확실성의 예측을.
과학 Google의 독감 예측의 실패는 주로 인해 사실은 Google의 검색 엔진은 지속적으로 자체를 업데이 트 하 고이 이번에 데이터 수집을 하지 않을 수 있습니다 다음 번에 수집 된 데이터에 대 한 적절 한 설명 하는 저널에 최근 기사. 통계로 Feng Qishi (데이터의 저자 규칙 세계) 놓는다, 때로는 부정적으로 종종 결합 및 데이터를 다른 방법 다른 목적을 웹 사이트에 의존 하는 큰 데이터 컬렉션. 그것은 이러한 데이터 샘플에서 추론 하는 위험이입니다.
큰 데이터의 지능형 응용 프로그램 향상 된 수 오류가 발생할 수 있습니다.
다섯 번째 주의 점은 "악순환", 네트워크에서 데이터를 많이 제공 하기 때문 에입니다. 대용량 데이터 분석의 정보 소스는 큰 데이터 제품 때마다 악순환으로 이어질 가능성이 높습니다. 구글 번역 등 번역 프로그램은 두 가지 언어로 같은 위키백과 항목 등이 언어의 번역 패턴을 식별 하는 다른 언어에서 유사한 텍스트의 추출 물. 이것은 합리적인 전략 하지 않을 경우 많은 언어에 너무 많은 유사성 없는, 위키백과 자체 Google 번역을 사용 하 여 엔트리를 쓰기 수 있습니다. 이 경우에, 어떤 Google 번역 오류 위키백과에 영향을 미칠 것입니다 그리고이 오류가 계속 강화 하는 Google의 번역에 반영 됩니다.
큰 데이터 큰 오류가 발생할 수 있습니다.
6 일에 대 한 걱정을 너무 많이 상관 관계의 위험입니다. 만약 당신이 끊임없이 찾고 두 변수의 관련성, 있습니다 순전히 사고로 거짓 상관 관계를 찾을 가능성이 이러한 변수에 의미 있는 연결이 없는 경우에. 주의 깊은 검사를 하지 않고 큰 데이터의 크기는 이러한 오류를 확대 합니다.
사운드 과학적인 설명을 올바르지 않을 수 있습니다.
큰 데이터 그것 정확 하 게 할 수 없는 문제에 대 한 사운드의 과학적 설명을 하기 쉽습니다. 지난 몇 개월 동안, 예를 들어 위키백과 기반 데이터는 순위 사람들에 게 두 개의 다른 시도: 역사적인 중요성 또는 문화 기여에 따라. 도 서 "누가 더 강하다?" 어디 진짜 순위 라고 역사적 인물의 저자는 컴퓨터 엔지니어 스티븐 Skiena 찰스 워드, 엔지니어 및 다른 MIT 미디어 랩 프로젝트에서 판테온, 라고.
이러한 시도 몇 가지 방법으로 올바른 예수, 링컨, 그리고 셰익스피어는 실제로 매우 중요 한 인물, 하지만 둘 다 몇 가지 심각한 실수를 만들었습니다. 그 프랜시스 스콧 케이 (프랜시스 스콧 키) "누가 더 강하다?" 지적 역사적으로 되었습니다 가장 중요 한 작가 19 세기에서 훨씬 능가 하는 제인 오스틴 (제 78 회 장소) 및 조지 엘리엇 (No. 380 장소). 더 심각 하 게, 두 권의 책 본질, 막연 한 감사의 의미에서 소위 정밀 오해의 소지가의 사용을 보여줍니다. 큰 데이터 숫자로, 모든 것을 단순화 수 있습니다 하지만 당신은이 "과학" 공연에 의해 속지 해서는 안됩니다.
드문 경우, 큰 데이터 작동 하지 않는다
마지막으로, 큰 데이터 일반 이벤트의 분석을 잘하는 하지만 종종 드문 이벤트 분석에 실패. 예를 들어 검색 엔진, 번역 프로그램, 등 대형 데이터 처리 텍스트를 사용 하는 프로그램은 종종 소위 "3 단어"에 의존: 순차적 3 단어 시퀀스 (예: "서 행"). 정확 하기 때문에 종종 나타나는 기존 데이터는 많은 사람들이 끊임없이 새로운 언어를 만드는 때문에 사람들은 사용할 수 있습니다, 모든 "3 단어"를 커버 하기에 충분 하지만 기존의 3 단어 모델에 신뢰할 수 있는 데이터 정보를 컴파일할 수 있습니다.
예를 선택 하는 신문의 롭 로우의 최근도 서 검토 9 "3 단어 시퀀스" "Dumbed 다운 도피 요금", Google의 텍스트에서 본 적이 있다는 등 있다. Google,이 새로운 단어 제한의 많은, Google는 "Dumbed 다운 도피 요금" 사이 '는 독일어로 번역 하 고 영어로 번역 후 같은 비 논리적인 단어 "수평 비행 요금." 마침내 등장 미스터 로우의 의도 및 큰 데이터를 변환 하는 테이블에서 완전히 있습니다.
우리는 거의 마지막 질문 무시:과 대 광고. 큰 데이터의 지지자 혁명 사전 다는 것을 주장 한다. 하지만 Google 독감 트렌드의 예측 등의 큰 데이터를 주는 성공 사례도 사소한, 더 큰 무언가 대 한 유용한 하는 경우. 19 세기와 20 세기, 항생제, 자동차, 비행기의 위대한 발명품에 비해 큰 데이터는 아무것도에서 왔다.
우리는 의심의 여지가 큰 데이터를 필요합니다. 하지만 우리 또한 더는 이것이 하는 중요 한 리소스를 모두 분석할 수 있는 새로운 기술이 아닌 알고 있어야 합니다.
독감 발발을 예측 하기 위해 Google의 거 대 한 검색 데이터를 사용 하 여에 대 한 이야기 또는 전화 레코드를 사용 하 여 테러, 또는 티켓을 구입 하기 가장 좋은 시간을 찾기 위해 항공 데이터를 사용 하 여 예측 하 고 큰 데이터 도울 수 있다. 현대 컴퓨팅 기술의 조합 및 디지털 타임스의 광대 한 숫자 보인다 어떤 문제 범죄, 공중 보건, 용어에서 변경, 데이트, 위험을 해결 하기 위해 우리가 그 데이터를 사용
그것은 그것의 제안자 주장 같다. "다음 20 년 동안," 기자 패트릭 압정 최근 큰 데이터 성명에서 "그것은 투명 한 미래"를 쓴 "우리는 전례 없는 수준의 정확도와 미래의 많은 분야를 예측할 수 있는, 인간으로 간주 되었습니다 오래도 일부 지역 개입할 수 없습니다." "하지만 큰 데이터 결코 정말 너무 좋은 소리.
큰 데이터를 정말 소리 좋은? 의심의 여지가 큰 데이터는 참으로 귀중 한 도구와 일부 지역에 중요 한 영향을 미치고 있다. 예, 거의 20 년의 성공적인 인공 지능 컴퓨터 프로그램, IBM의 왓슨 컴퓨터 질문 / 답변 시스템에 Google의 검색 엔진, 포함 데이터 처리를 많이. 그러나 정확 하 게 되었기 때문에 최근 너무 유명 하 고 널리 사용 되, 우리 큰 데이터 수 고 할 수 없는 명확 하 게 볼 필요가 있다.
우리는 의심의 여지가 큰 데이터를 필요합니다. 하지만 우리 또한 더는 이것이 하는 중요 한 리소스를 모두 분석할 수 있는 새로운 기술이 아닌 알고 있어야 합니다.