큰 데이터 트랩에 대 한 조심.

출처: 인터넷
작성자: 사용자
키워드: 독감 큰 데이터입니다.

Tencent는 최근 큰 데이터와 여름 회의 호스팅하고 있습니다. 큰 데이터에 대 한 모든과 대 광고를 더 많은 기회, 전원, 예를 들어 점점 더 많은 사람들이 연구 동향, 원조 분석 결정, Google의 큰 데이터를 사용 하지만 다른 관점에서 좋은 생각을 공유 하는이 하나: 빅 데이터 "큰 사기"를 수도 있습니다.

구글 독감 트렌드 (독감 트렌드)의 최근 연구는이를 증거 합니다.

Google 독감 트렌드에 올 때, 먼저 구글 트렌드 및 Google 상관을 언급. 구글 트렌드 구글 관련된 활동 데이터 시퀀스를 반환 하는 동향에 특정 쿼리 키워드를 입력 하 여 인간의 활동에 동향의 일부를 얻기 위해 사용자 검색의 대용량 데이터 분석을 사용 합니다. 그리고 구글 상관 입력된 데이터 시퀀스는, 다소 비슷한 쿼리 구글 트렌드 역함수의 비슷한 패턴 (관련성)에 결과의 그룹을 반환할 수 있습니다.

구글 독감 트렌드 구글 트렌드의 가장 오래 된 그리고 가장 잘 알려진 응용 프로그램 중 하나입니다. 이후 그들은 종종 질병과 약물에 대해 Google에가 서 때문에 많은 사람들이 독감으로 고통, Google 조사의이 종류와 독감 발발 사이 상관 관계가 있다는 것을 발견 했다. 구글 트렌드는 2011/12 년 미국 독감, 2007/08 스위스를 포함 한 인플루엔자의 몇 가지 성공적인 예측 했다 독감, 2005/06 년 독일 독감, 2007/08 벨기에 독감, 그리고 미국 질병 통제 및 예방 센터 보다 시간에 더 높은.

"독감"에 대 한 검색 및 독감 발발 사이 상관 관계가 표시 됩니다.

또 다른 예는 "숙취". 예를 들어 구글 트렌드에 "술 떡"을 입력 하면 그 상황 토요일에 표시 하기 시작 했다 일요일에 정점 그리고 월요일에 급격히 감소를 찾을 수 있습니다. 이 패턴 입력 쿼리 "보드카" (뒤에 1 일)의 결과 비슷합니다.

하지만 더 큰 데이터를 더 높은 예측된 속도 하지 않습니다 반드시. 그것은 심지어 "틀린 규칙" 및 "의사" 발생할 수 있습니다. 예를 들어, 미국 자동차 판매 및 "인도 레스토랑", 2004-2012 년에 대 한 검색 결과 둘 사이의 상관 관계는 발견. 이 점은 분명히 설명 하지입니다.

의사 상관 관계의 원인은 무엇 인가?

첫째, 관련성 원인을 의미 하지 않습니다. 구글 독감 트렌드, 예를 들어 않습니다 항상 예측할 수 동향. 몇 번, Google 동향 2008/09 스위스 미국 독감의 2011/12을 포함 한 독감 사례 수 독감, 2008/09 독일 독감, 2008/09 벨기에 독감.

런던 대학에서 연구원은이 공부. 그것은 (언론 보도 때문에 아마와 추위의 주제에 관심) "독감"에 대 한 Google에가 사람들 두 가지 범주, 추위에 대 한 하나, 고 모방에 대 한 다른으로 분할 될 수 있다 밖으로 변합니다.

그것은 첫 번째 클래스의 데이터는 유용입니다. 검색은 내부적으로 생성 된, 외부 세계의 독립. 그래서이 사람들의 검색 패턴은 외부 영향에 대 한 검색 되 고 사람들의 다른 되어야 합니다. 그리고 그것은 두 번째 유형의 사람들의 사회 검색 구글 독감 트렌드 예측 왜곡을 만드는. 이것은 정확 하 게 Google 독감 트렌드 인과 연결으로 "독감"에 대 한 검색 및 독감 사이 상관 관계가 있기 때문 에입니다.

아직 구글 독감 트렌드의 왜곡의 경우 노스 이스턴 대학, 하버드 대학에서 연구원의 또 다른 그룹 제안이 큰 데이터의 맥락에서 태어난 큰 데이터 건 방진 추세를 반영 한다. 생각의 추세는 큰 데이터 데이터 수집의 전통적인 방법을 대체 완전히 수 있습니다. 가장 큰 문제는 데이터의 대부분 엄격한 과학적인 실험 및 샘플링 디자인을 통해 얻은 데이터에서 크게 다릅니다. 첫째, 큰 되지 않을 수 있습니다.

또한, 구글의 검색 알고리즘에 변경 Google 독감 트렌드의 결과 영향을 또한 수 있습니다. 이런이 이유로 이해 하기 어렵지 않다. 알다시피, Google의 검색은 되었습니다 불통 매우 자주 혼자 지난 1 년 동안에서 890 개선. 그들의 많은 알고리즘의 조정에 속한다. 독감 유행 병의 언론 보도 독감 관련 단어 검색의 수를 증가할 것 이다 하 고 Google 검색 추천도 늘어난다. 그래야 감기 없는 어떤 사람들 또한 독감에 관심이 하 고 데이터를 더러운.

데이터를 청소 하는 방법? 최종 분석에서 데이터를 분석할 필요가 있다. 독감 트렌드의 경우 연구원은 독립적인 검색을 수행 하는 독감과 사람들의 패턴은 시간이 지남에 따라 소셜 검색에서 다른 믿습니다. 독감 사라지는 성능 독감 발발 및 느린 쇠퇴에 대 한 검색에 예리한 상승 해야 합니다. 그와 반대로, 소셜 검색은 더 대칭. 데이터 추세 곡선은 실제로 더 많은 대칭 Google 독감 트렌드는 고 평가 하는 때 것이 좋습니다.

이 같은 트랩 대용량 데이터의 분석에 주목 해야 합니다 나타냅니다. 큰 데이터 집합의 홍수 및 분석 결과의 통계 보급 확대 하거나 실제 데이터를 오염 시킬 수 있습니다.

Google의 비유의 작가로, 데이터 값이 크기에 대용량 데이터 분석에서 독감: 트랩 주장 하고있다. 데이터를 분석 하는 혁신적인 데이터 분석 방법의 사용은 필수적입니다.

물론, 미래의 데이터 수 될 때 진정으로 큰 데이터, 그리고 디지털 세계는 물리적 세계에 지도, 대용량 데이터 수 있습니다 그것의 전체 힘을 발휘 하 여 우리 문제를 해결 하는 방법을 변경.

(책임 편집기: Mengyishan)

관련 문서

연락처

이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이 페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.

커뮤니티에서 표절 사례를 발견한 경우 info-contact@alibabacloud.com 으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.