큰 데이터 분석에서 생각 트랩 방지

출처: 인터넷
작성자: 사용자
키워드: 우리 우리 작은 게이지 우리 작은 게이지 우리는 작은 게이지 피할 수 있습니다 우리는 작은 게이지 피할 수 있다 대용량 데이터 분석

대용량 데이터 분석 날짜 다시 30 년 때 데이터 분석 세계에서 그것은 생각 도구와 데이터 분석의 알고리즘 http://www.aliyun.com/zixun/aggregation/10221.html 수 "> 무엇 인가의 깊이 분석 누락 된 데이터의 양입니다. 데이터 분석가 말할 경우 모든 데이터를 측정 하자 수 추적에서 모든 데이터, 할인 판매, 미세한 정밀 모두의 리소스 소비, 이자율 변화, 같은 매크로 변수를 내가 말할 수 있는 당신이 원하는 알고, 이러한 변수 간의 상관 관계 그들의 변화 동향 그리고 모든입니다.

이 문은 주류 데이터 분석 커뮤니티 보기 되었습니다. 오늘, 데이터의 볼륨은 더 이상 문제가. 인터넷 거의 모든 필요한 데이터를 찾을 수 있습니다. 펜실베니아 주 산업 청소 장비 판매와 국가의 철강 공장에서 장비를 사용 하 여 사이의 관계를 알고 싶어? 아무 문제, 고객 만족도 개선 하 고 싶어? 사용자 불만 데이터 클러스터링 알고리즘으로 클러스터링 할 수 있습니다. 마우스를 이동 하면 많은 데이터를 찾을 수 있습니다.

큰 데이터의 "라 쇼몽 게이트"

글쎄, 지금 문제는 데이터가 충분 하지. 애 널 리스트는 "내 분석은 만큼 충분 한 데이터, 괜 찮 아 요." 말할 수 없다 "오늘, 데이터 분석 방법의 요구에 맞게 충분히 풍부 이다. 애 널 리스트 "분석 접근의 어떤 최고의" 이며 "어떤 데이터 수 있습니다 우리에 게."에 대 한 생각을 해야 하는 대신,

이 자연스럽 게 또 다른 문제는 큰 데이터와 진짜 문제가 될 수 있습니다 한다. 즉: 기존 데이터 많은 결과 분석 하고자 할 수 있습니다, 어떤 결과 분석할 수 있습니다.

라는 문장이 있다: "두 가지 거짓말의이 세계에서 첫 번째 거짓말 이라고, 두 번째 통계 라고." 우리의 두뇌 법을 발견 하는 탁월한 능력을가지고 (즉, 법 이다).

Darden 경영 대학원에서 교수 자신의 수업에서 한 같은 실험 일 하고있다: 그는 누구 중 하나는 일련을 생성 하 난수 생성기를 사용 하는 두 학생을 발견 했다, 시리즈에 있는 각 숫자는 1과 10 사이의 임의의 정수. 또 다른 학생 같은 길이의 시퀀스를 쓰고, 시퀀스, 그리고 학생에 각 번호 임의로 작성할 수 정수 1에서 10. 교수는 그를 보여 두 학생의 시리즈 세 번째 학생을 물었다. 거의 모든 시간을 그는 올바르게 결정 하는 순서는 사실 어떤 시퀀스 수 수동으로 작성 되었습니다. 그는 정기적으로 또는 수시로 숫자는 임의의 시퀀스를 반복 표시 됩니다. 그리고 매뉴얼 작성 순서, 규칙 또는 반복의 발생을 피하기 위해 가능한 한 멀리. 그리고 왜? 생각 하기 때문에 우리가 항상 무의식적으로, 것 이다 규칙 또는 것의 반복, 그것에 대 한 이유가 있어야 합니다, 그것은 무작위 되지 않을 수 있습니다. 그래서 우리가 약간 규칙의 어떤 패턴을 보고, 우리는 몇 가지 임의의 요소 되어야 합니다 생각 합니다.

이 잠재의이 식은 실제로 자연에서 우리의 생존 본능에서 온다. 당신이 볼 때 잔디 떨고, 오히려 생각 보다 "임의의" 바람이 불고, 거기 그리고 마지막으로 강한 호랑이 밖으로 뛰어 호랑이.

"작은 실험" "빅 데이터"를 확인 하

어떻게이 인지 함정으로 떨어지는 피할 수 있습니다.? "소규모 실험" 비즈니스 교수 Jeanne Liedtka의 Darden 학교에 의해 주 창 사용할 수 있습니다. "작은 규모 실험"과 "큰 데이터 마이닝" 간의 차이 "소규모 실험"은 "발견" 분석 도구 (또는 분석 툴에 의해 도움 상상력) 법률의 정확성을 확인 하는 특별히 이다. 소규모 테스트를 설계 하는 열쇠는 예를 사용 하 여 검색할 규칙 확인. 유효성 검사 결과 정확한 규칙이 나 패턴의 신뢰성 증가 합니다.

왜 "소규모"? 때문에, 플러스 대규모 데이터에서 분석 도구를 발견할 수 있습니다 우리가 수많은 법률 및 패턴, 하지만 각 법률 또는 패턴 확인 리소스 (시간과 돈)을 바칠 것입니다. 실험 데이터의 크기를 줄임으로써, 우리 신속 하 고 효과적으로 더 많은 가능성을 확인할 수 있습니다. 이 또한 기업의 혁신 과정을 빠르게 합니다.

"소규모 실험", 특정 상황에 따라 수행 하는 방법. 일반적으로, 실험 대용량 데이터 분석을 위한 데이터 집합을 사용합니다. 데이터 하위 집합의 유효성 검사에 법률 또한 존재 하 고 다음 큰 데이터 수집 방법을 사용 하 여 새 데이터를 추가 확인을 수집 하는 경우 데이터 유효성 검사의 다른 하위 집합을 통해 법을 발견 분석의 하위 집합을 제거 합니다.

진보적인 보험 보험 회사와 신용 카드 회사 자본 것을 성공적으로 경쟁 우위를 얻기 위해 데이터 분석을 사용 하는 두 회사가 있습니다. 그들의 연습에 그들은 사용 같은 "빅 데이터, 작은 실험" 그들은 우리의 타고 난 능력 패턴을 검색 "존재 하지 않는", 그래서 그들은 신속 하 고 효율적으로 데이터 마이닝 할 수 있도록 소규모 실험을 사용의 위험을 실현 하는 방식.

대규모 데이터 및 분석 도구 데이터 분석 뜨거운 주제를 지금 만들. 많은 회사는 데이터 분석가 만질 수 있는"금" 믿습니다. 속담으로 간다: "어떤 사람들이 보고는 그들이 보고 싶어." "오늘 우리는 엄청난 양의 데이터와 분석 도구를" 어떤 패턴을 찾을 "또는 우리는 오래 된 접근-소규모 실험을 잊을 수 없다. 그렇지 않으면, 큰 데이터 투자에 수백만 달러의 수백만의 수만 "법"을 찾을 수 있습니다 우리가 상상.

(책임 편집기: Schpeppen)

관련 문서

연락처

이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이 페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.

커뮤니티에서 표절 사례를 발견한 경우 info-contact@alibabacloud.com 으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.