통계에 따르면, 2003 년에 인간 문명의 처음부터 인류 총 5 TB (조 바이트)의 정보를 창조 했다. 지금, 그냥이 일에서 동일한 양의 데이터를 만들 수 있습니다 그리고 속도 여전히 가속. 이러한 많은 양의 데이터 데이터 분석, 복잡 하 고 큰 데이터에서 구조화 되지 않은 데이터가이 복잡성을 깊 어.
이 경우에, 우리는 분명히 해야: 데이터를 저장 해야 합니다. 데이터 수집 및 저장 하지 큰 경우, 분석 및 대규모 데이터의 계산에서 얻은 결과 실질적인 가치는. 또한 대용량 데이터의 값입니다.
데이터의 많은 수에 관해서는 업계에서 더 급진적인 뷰 중 하나는 "빅 데이터"는 문제가 있기 때문에 "큰" 데이터에 대 한 쓸모 없는 용어입니다. 데이터는 유비 쿼터 스, 그것은 단지 강한 재사용 하 고 유용한 개요 정보로 데이터를 변환 하는 더 귀중 한입니다.
우리의 데이터 수집 및 처리 기능, 성장 하는 경우에 우리는 여전히 모든 데이터는 "중요 한" 원리를 유지 해야 합니다. 기업, 두 가지 포인트를 따라 특정 필요에 대 한 하나 광범위 한 데이터, 데이터, 외국 사용자 환경과 습관의 기업 분석의 내부 통제 준수 이며 두 번째는 가장 중요 한 장소에서 키 데이터를 준수 데이터 재사용을 잡고, 최대 가치를 달성, 비용 최적화.
하버드 비즈니스 리뷰는 최근 "이어질 것입니다 큰 데이터 더 나은 결정?" 자격이 기사를 출판 기사, 문서는 수량에 초점을 맞추고 이어질 것입니다 큰 실수를 경고 했다. 오늘 많은 회사는 엄청난 양의 데이터를에서 혜택을 받을 하지만 소수의 회사만은 진정으로 성공 하 고, 데이터의 "볼륨"의 단점에 대해 너무 많이.
데이터 품질 및 데이터 대용량 데이터 분석에 대 한 공유
우리는 분석 결과의 정확성을 보장 하기 위해, 우리 확인 해야 합니다 분석된 데이터는 진실 하 고 효과적인, 적어도 알고 품질 보증을가지고 데이터 샘플의 대부분. 하지만 융합 과정에서 데이터 원본에서 데이터의 많은, 그것은 대충 데이터 혼합 불가피.
Taobao, 구매할 때 판매자 신용 등급 여부 구매자에 대 한 중요 한 기준 이다. 개선 하기 위해 제품 판매, 브러시 신용 평가 업계의 공공 비밀, 사기, 불법 신용 평가 과정에서 증가, 동시에 소비자를 부정 왜곡 데이터의 많은 수를 생산할 예정 이다, 직접 최신 데이터 분석 결과 영향을 미칠 것입니다 일부 판매자와 되고있다.
둘째, 중국의 인터넷 산업, "데이터 분리주의자" 현상 더 심각한, 즉, 많은 큰 인터넷 거 인 코어 데이터의 서로 다른, 공유를 꺼리는. 검색 데이터를 마스터에 바이, 같은 소비자 데이터 마스터, Tencent, 소셜 데이터의 마스터와 알리바바는 기업의 미래 경쟁력에 대 한 데이터의 중요성을 인식 그래서 그들은 쉽게 자신의 데이터 칩을 줄 수 없습니다.
바이, Tencent, 예를 들어, 중국의 인터넷에 그들의 현재 유행에 따르면 알리바바와 함께 여전히 우리가 대략 인터넷에서 세 가지 응용 프로그램의 사용자의 총 수를 예측할 수 있습니다, 그리고 사용자, 보수적인 견적, 50%의 비율 문제가 되지 않습니다. 따라서, 3-파티 데이터는 공유 하 고, 일단 완전 한 네트워크 정보 지도 수 수 종합. 그와 반대로, "데이터 분리주의자" 큰 데이터 오류 및 낙후성, 그들의 사용의 가치를 중대 하 게 감소 하는 발생 합니다.
CMiC, 큰 데이터 급류에 충돌 순간에, 정보의 흐름은 가장 중요 한, 심각 하 게 전체 산업의 발전을 방해 하는 데이터 분리주의자 생각의 인터넷 거 인. 특히 그들을 위해 "칭"의 딜레마를 직면 하 고 큰 데이터 분석 기술 그러나 중간과 다운스트림 기업의 더 큰 데이터 소스를가지고.
(책임 편집기: 유산의 좋은)