지난해 부터는 단어 "빅 데이터" 자주, 인터넷 또는 다른 산업에 표시 하기 시작 했다.
중국의 인터넷 원형에 있는 것 들의 "개념" 성격을 항상 신속 하 게 확산 될 수 있습니다 많은 이유가 있다, 전체적인 분위기는: 대부분 인터넷 기업 자본, 그리고 마지막으로 현금의 추구에 의해 적극적인 혁신을 통해 세계를 변경 하는 바라고 있다. 이 과정에서 급속 한 보급, 포장, 개념 태그 제품의 다양 한 되었다. 하지만 올바른 인식 깊은 탐사 부족은 실용주의 수 동적으로 수용.
아래 그림에서 볼 수 있다, 2008 큰 데이터 개념 확산, 바이 두와 구글의 "빅 데이터"와 "다" 검색 트렌드의 시작 (다음 그림 추세 비교를 반영 하기 위해 데이터 바이 두의 태양광 가중치 처리, Google에 해당):
단어 큰 데이터, 영어 구글 검색 보다 훨씬 더 높은 폭발물의 바이 두의 중국 검색입니다.
이것이 실리콘밸리의 악명 높은 기술 성숙도 곡선 (과 대 주기), 그리고 국내 인터넷 업계를 전달 및 실시 앞으로 더 심한.
농담: "집에서 현재 큰 데이터"섹스"에 대해 얘기 하는 사춘기 어린이의 무리 처럼, 모두가 얘기 하 고, 좋아하는 아니라면 그것에 대 한 이야기 들은 정상적인, 하지만 아주 소수의 사람 정말 마치 경험을가지고. 진짜 경험, 또한 조용한 미소만. 인터넷 산업은 빠르게, 성장 하 고 애이 들이 조만간 또는 저장, 성인 것 하지만 지금까지 수혜자의 대부분은 그냥 라벨 제조 업체, 판매자 십 대 아이 들에 대 한 불법 간행물의 같은.
큰 데이터는 무엇입니까?
그래서 큰 데이터 무엇입니까? 인지 큰 데이터 그냥 개념 진짜 미래?
우선, 모든 데이터의 역할은 법을 찾는 것입니다.
유물론 논리학 말한다: 세계 자료, 문제는 운동, 운동 일반, 이며 법을 마스터 수 있습니다. 초기 통계 여부, 컴퓨터 데이터 분석, 데이터 마이닝, 후 고 현재 큰 데이터에 나타납니다. 우리는 모두 탐험, 세계의 법률 규칙을 통해 세계를 이해 하려고.
컴퓨터와 인터넷의 부재에서 수석 과학자는 수학 및 통계에 대 한 기초를 마련 했다. 컴퓨터의 출현으로 저장 하 고 데이터 계산 능력이 크게 증가 하 고 대조 하 고 데이터를 분석 하는 능력은 크게 증가 했다. 출현 및 인터넷, 개발 추가 농축, 데이터의 볼륨의 컬렉션의 의미 크게 증가 했다 있도록. 게임은 또한 데이터를 찾고 규칙에 의해 농축 되 고 있습니다.
이 프로세스 데이터 한 손으로 점점, 다른 한편으로 더 많은 "작은", 말 하는 방법:이 프로세스의 진화 라고 할 수 있다 간단 하 게 "전체 범위 샘플" 및 "미세한 데이터의 값의 발견." 데이터의 본질은 샘플링 및 모델, 기술적인 방법 모든 개체 특성에는 개체를 설명 하는 추상 모델을 통해 모든 부분 시뮬레이션을 통해 얻을 수 없습니다 때문입니다. 그리고 컴퓨터와 인터넷의 등장 이후 정보를 취득 하 고 분석 하 고 데이터를 발굴 하는 능력은 크게 향상 된, 탐험 샘플 수가 더 상세한 되 고.
그것은 우리가이 차에 애플의 품질을 알고 싶어요입니다. 이전, 해충의 외관에 손상이 있었다면 볼 100 샘플; 지금 7000, 각 애플 애플 특성 및 품질을 설명 하기 위해 30 이상 데이터의 샘플만 무작위로 샘플링. 필요가 없습니다 모든 데이터를 100% 샘플 이며 다음 각 애플은 기능 및 품질, 심지어 전체 성장 주기 데이터를 설명 하는 100 개 이상의 데이터.
하지만 그것은 통계, 데이터 분석, 데이터 마이닝, 또는 큰 데이터 오늘. 우리의 임무는 변경 되지 않았습니다: 수집, 데이터 정렬, 데이터를 분석 우리 패턴, 자연, 유추 고도 미래를 예측.
어떤 단계에서 작업은 제한, 그리고 우리만 개체의 자연, 그것의 모든 부분 추측 하 고 있습니다. 특정 단계로 기술 개발에 새로운 기술 및 방법론을 생산할 수 있는, 또한 추측과 예측에 가까이 단계,이 단계 크게 향상 시킬 수 있습니다 생산성에 큰 데이터의 값입니다.
특정 산업 예제
설명 하기 위해 업계의 보다 추상적인 보기를 선택 하는 다음: 농구 (NBA).
상용화의 부족 때문에 NBA의 초기 시절에는 게임에 대 한 통계는 선수, 감독, 또는 직관적인 또는 기본 통계에서 선수를 알고 팀 관리자 여부 매우 제한 했다.
1986 NBA 전체 데이터 통계를 시작 했다. 모두 사용 하는 사랑 그래서 지금 뉴스: "1986 통계 때문에, 이것은 n 번째 선수 단일 필드... XXX 데이터를 재생 하려면" NBA 통계 공식적으로 입력 현대, 데이터베이스 기술 성공적인 응용 프로그램, 그래서 그는 www.nba.com에서 기록 데이터를 찾을 수 있습니다.
이 날부터 또 다른 주제는 나온다. 마찬가지로 우리 무술 도사 님 피 규 어, 열 좌석, 데이터 무결성, 데이터 미디어의 새로운 취미로 언급의 많은 수를 넣어 싶어요. 그래서, "득점 날카로운 무기", "방어 타이탄", "촬영 마스터"이 단어, "얼마나 많은 포인트 게임 당"에 의해 점차적으로 "얼마나 많은 리바운드 + 커버", "촬영 했다" 등등. 모든 팬 들 데이터를 시작 합니다.
하지만 그것은 이해 하기 어려운 것만 데이터를 보고,: Marbury, 평균 20 점, 7.6 어시스트, 젊은 남자, 라는 외로운 늑대. 데이터를 봐, 그것은 어려운 것 이해, 보 웬 산 문,이 데이터를 훔치는 아무 화려한 남자, 방어는 두 킹 스틸 보다 훨씬 더 강력한 마술사? 어떻게 이해할 수 있는, 스타 더 마이어 경력 8.8 리바운드 1.4 모자, 셀틱스에 가넷도 8.9 리바운드 1.4 모자, 하지만 KG의 방위와 스타 더 마이어, 그 차이점은?
사실, 데이터는 플레이어의 현미경 데이터를 설명 하기 위해 너무 간단 하기 때문에 그것 불가능 피치에 역할 또는 선수의 특성을 설명 하기 위해 데이터를 사용 하 여 합니다.
21 세기, NBA에 더 미세한 데이터의 세부 전문 NBA 데이터 마이닝 회사 시너지 스포츠 나타났다. "SI" 공개 농구 하나님 요르단의 전문 통계:; 그의 손을 통해 이동 공격 황소 80.2% 촬영의 83.9%는 점퍼, 피치, 공격 후 점프를 미루어, 상대 교란 장소에 단식, 단식 운 2.67 단계의 개통에서의 17%의 오른쪽에서 촬영의 54.3%, 적중된 율은 46.3%;
이 시점에서, 데이터는 새로운 시대를 입력 하기 시작 했다. 그리고 올해의 NBA 결승 경기, 미국 미디어 필드 거리, 속도, 빠른 속도도 차원의 분석에 추가 하는 등 실행 하는 실행 시작 했다. 새로운 기술은 미세한 데이터 값의 검색을 의미합니다. 어쩌면 우리는 그것을 호출할 수 있습니다: 큰 데이터.
큰 데이터의 올바른 보기
데이터는 거짓말 하지 않습니다. 하지만 정확한 한 가지, 당신이 필요 충분 한 데이터, 그리고 충분 한 미세한 파고. 하지만 결코 충분히 데이터. 예를 들어 농구 게임, 데이터 및 지 각, 것입니다 수 영원히 고리로 연결 되었다는. 점점 더 많은 데이터 모델 결과의 무한히 가까운 인상을, 하지만 데이터 또는 어느 쪽 예 하의 인식, 그것은 농구에 대 한 이야기를 재미를 제공 합니다. 그리고 얼마나 많은 데이터에 대해 알고, 아무리 코치 디자인 전술, 선수 전용 재생, 게임, 승리 팀 사기를 동기를 부여 하 고 데이터 승리 하지 않습니다"".
큰 데이터 진행의 일종 이지만, 우리 신화, 절대적으로 필요 하 고 반드시 악마. 큰 데이터는 개념 이며만 현재 단계에 세계의 발전에 대 한 우리의 이해의 자연 스러운 결과 이다. 큰 데이터, 생산 및 연구에 대 한 좋은 서비스, 더 많은 우리 자신의 혁신 및 이니셔티브, 그래서 합리적인 보기 더 가치가 있을 것입니다.
발췌: Tomsinsight
(Tomsinsight는 중국의 인터넷에 대 한 심층 데이터 분석 통찰력에 초점을 맞춘 시작 회사.) 전 마이크로소프트 수석 비즈니스 분석가, 전 바이 큰 데이터 아키텍처 감독, 전 맥킨 지 수석 지역 매니저 고의 설립자. 현재, 월스트리트 주식의 심층 분석을 제공 하기 위한 주요 사업 개발 방향 빛 마이크로 인터넷 컨설팅 서비스의 제공 이며 지금 새로운 마이크로 크레딧 가입자 서비스를 열었습니다 (마이크로 신호: tomsinsight).