"그릇 인도 되지 말라 큰 데이터를 큰 데이터는 데이터 마이닝에 대 한 보다 큰 숫자에 대 한 그것은," 고 말했다. "국가 정보 기술 전문가 포럼, 엔지니어링, 중국 인터넷 협회 감독 우 Hequan, 큰 데이터 데이터 마이닝에 더 중점을 필요로 지적의 중국 아카데미 및 기존 기술 응용, 재능, 10 번째 세션에서 보안 및 개인 정보 보호 문제, 가장 중요 한 것입니다 국가 큰 데이터 전략 그것은 경제성장의 모드를 변경 하는 효과적인 방법을 확인 하십시오.
큰 데이터 값이 보인다 샤 리
NBA는 30 년 이상의 축적 후 데이터 필드에 있는 선수의 성과 촉진 타겟된 전술 조치 수행을 감독 하는 약점의 피치에 각 플레이어를 식별 할 수 있다 80 's부터 있다. 현재, 데이터 분석가, 누구의 평균 승리 속도 없이 데이터 분석은 40.7%의 평균 59.3%, 팀은 고용 30 NBA 클럽 클럽의 절반. 큰 데이터의 값입니다.
큰 데이터 값은 어디에서 오는? 우 Hequan, 큰 데이터 및 값은 반드시 비례 하지 않는다 그 예를 들어 사용자의 실제 데이터 매 순간을 기록, 사람의 건강 상태를 아는 것이 유용 하지만 그가 그의 신체 데이터의 모든 밀리초 기록, 데이터의 양이 60000 시간 전, 보다 높은 그리고 값을 증가 시킬 수 없습니다 하는 경우 분당 기록 데이터와 비교. 큰 데이터 값은 샘플 수의 보편성. 분 당 사람의 신체 건강 데이터의 통계 통계적으로 더 중요 한 수 있습니다 시간당 60 사람들의 통계를 비교 합니다. 큰 데이터 값 밀도 종종 낮습니다. 대부분의 큰 데이터에 데이터 중복 될 수 있습니다, 그리고 일부는 데이터를 무시 하 고 채광 효과 영향을 주지 않습니다. 큰 데이터 값 같은 라고 할 수 있다 그래서 샤 리와 Haidilaozhen.
마이크로소프트의 연구 발견 페이스 북의 90 %Hadoop 작업 데이터 집합 아래 야 후 평균 12.5 기가바이트 100 기가바이트, 했다. 베이징 버스 카드 승객 40 백만 번 하루, 지하철 10 백만 사람들 매일 누적 데이터는 MB, 최고, 하지만 데이터, 하지만이 데이터의 발굴에 TB 클래스 보다도 내려 1 년은 명확 하 게 버스 여행 규칙을 사용 하 여 베이징 군중을 얻을 수 그것은 베이징에서 버스 라인의 설정을 최적화 하기 위해 충분 한 값입니다. 결과, 우 Hequan, 지적, 작은 데이터는 또한 주의를 기울이고 가치가 사실은 테라바이트 규모를 데이터 마이닝에 대 한 가치 이기도 합니다.
웹에 있는 모든 데이터는 신뢰할 수 있는.
2008 년에 미국 CDC 이전의 2 주 나온 Google의 독감 색인 0.9 H7N1 독감 보다 데이터를 더 유사 했다. 뉴욕에서 1 월 2013 독감 유행 잔인 한, 그리고 정부 발행 가양성 CDC의 통계 이상 잘의 독감 색인의 가치에서를 하기 때문에 Google 사용자의 검색에 영향을 주는 광범위 한 언론 보도 함께 "공중 보건 비상" 발표. Google 독감 인덱스는 카이
트위터의 사용자가 주로 젊은 하 고 계절 독감은 노년층과 약한 저항, 어린이 대상 더 최대 90%의 정확도 속도와 8 일 사전에 시체에 독감의 영향을 예측 하려고 트위터 데이터를 사용 하는 뉴욕의 로체스터 대학교 따라서, 트위터 Weibo 독감은 일방적인 판단을 기반으로 합니다.
우 Hequan, 네트워크에 데이터는 신뢰할 수 있는 네트워크 데이터의 정품 혼합, 특히 마이크로 블로그 확산 거짓 메시지 확산 신속 하 게, 하지만 마이크로 신뢰 원형에 있는 메시지 모니터링 하기 쉽지 않다, 정보 콘텐츠 관리 도전. 생각 하는 "사실의 그림은", 사실, 그림 수 있습니다 사기 행위, confusedly, 시공 장애, 또는 사진 맞다, 하지만 텍스트의 해석 조작 하는 데 사용 같은 것 들 되 고 평범한. "500 번 전달 하는 소문은 소문," 보기 일부 사이트는 모든 게시물 여부 사실, 자동으로 더 이상 499 번, 여론, 진위의 손실에 지도 하는 인공 자르기의 컬렉션 효과에서 상한 규정.
그는 또한 특히 이후 역사적으로 센서의 데이터 삭제 해야 다른 유사한 센서에 의해 보고 된 데이터에서 크게 달랐다는 센서에 의해 수집 된 데이터 모두 신빙성이 되지 않은 지적 했다. 데이터 복제 및 모든 유용한, 데이터 필터링이 필요한, 때문에 스토리지를 간소화 하 고 신뢰성 개선에 대 한 의미가 있습니다. 이기종 다중 소스 데이터는 신뢰성을 개선 하기 위해 사용할 수 있습니다 그리고 멀티 소스 유형이 다른 데이터의 수집 데이터의 이해에 도움이 됩니다. 예를 들어 도시 트래픽 모니터링 시스템을 통해 수 트래픽 흐름의 실시간 제어, 정부 데이터 및 네트워크 데이터와 함께, 교통 혼잡의 원인을 알 수 있습니다.
데이터 마이닝 및 활용에 주의 지불 한다
큰 데이터 마이닝 깊 어 정보 기술, 새로운 응용 프로그램을 새로운 산업 모양을 준다 출생의 응용 프로그램, 대용량 데이터 관리의 정보 수준 향상 및 결정, 우 Hequan, 데이터 마이닝 및 활용에 관심을 지불을 앞으로 넣어, 그것은 단지 큰 데이터를 마이닝 중소 데이터도 의미 하지만.
데이터의 양이 더 크면, 더 많은 서버 또는 고속 서버에만 필요 하지만, 처리 하는 더 어려운. 우 Hequan, 대용량 데이터의 주요 과제는 실시간 데이터를 신속 하 게 변경 합니다. 정적 데이터에 대 한 데이터를 처리 하지만 프로그램으로 데이터를 가져올 필요가 동적 데이터에 대 한 프로그램에 주어질 수 있다. 큰 데이터의 더 큰 문제는 특히 구조화 되지 않은 다양 한. 구조화 된 데이터에 대 한 처리, 및 구조화 되지 않은 데이터, NoSQL에 대 한 관계형 데이터베이스 기술을 사용할 수 있습니다. 구조화 된 데이터에 대 한 가상 스토리지 플랫폼 채택 동적 레이어 링 기술을, 자동으로 호출 되는 데이터의 주파수에 따라 최고 수준에 일반적으로 사용된 하는 데이터를 이동 한다. 구조화 되지 않은 데이터에 대 한 콘텐츠 아카이빙 플랫폼을 사용 하 고 단일 동적 보관 아키텍처, 소프트웨어 및 메타 데이터 및 구조화 되지 않은 데이터를 통합 데이터베이스 규칙 설계, 및 다른 차원 퍼지 쿼리 기능을가지고 있도록 데이터를 라벨에 의해 설정 됩니다.
우 Hequan, 지적 "큰" 큰 데이터의 특성 중 하나는 ABC 세 요소를 포함 하는 큰 데이터: 큰 분석 (분석), 높은 대역폭 (대역폭), 큰 콘텐츠. 실시간 도전 하지만 구조화 되지 않은 대용량 데이터 마이닝은 큰 데이터 마이닝의 주요 과제 이다.입니다. 현재, 주요 국제 데이터 처리 기술은 주로 구조적 데이터, 대용량 데이터의 80% 이상이 구조화 되지 않은 데이터는 있다. 2012 년, 스탠포드 대학, 구글, 공동에서 설립 깊은 YouTube에서 비디오 프레임의 수백만에서 배우고, 10 일 동안, 고양이 얼굴을 인식 배워야 네트워크 학습과 다음 20000에서 고양이 대 한 보고는 사진을 볼 수 없습니다,만 15.8%의 정확도로. 그것은 비-구조 데이터 마이닝 기술을 실제에 상당한 거리는 볼 수 있습니다. 국내외에서 큰 데이터 응용 프로그램, 하지만 기본적으로 여전히 구조적 데이터의 많은 성공적인 사례, 구조적 데이터 마이닝은 큰 데이터 응용 프로그램에 대 한 핵심 포인트.
큰 데이터의 문제는 궁극적으로 전략.
우 Hequan는 현재 큰 데이터 문제는 주로 반영 기술 및 응용 프로그램, 재능, 보안, 개인 정보 보호, 개발 전략 등 지적.
기술 및 응용 프로그램 문제입니다. 중국은 세계에서 가장 큰 인구 했지만 2010 년에 중국의 새로운 데이터 250PB, 그냥 일본에서 60%와 7% 북미 지역에서. 부서 및 기관 일부 데이터 하지만 거 지-네-이웃, 불완전 하거나 반복적인 투자를 선도 하는 당국과 공유 하지 선호의 많은 있다. 55% (200EB) 데이터 보호, 그러나 절반의 정도 요구 (44%, 96EB)의 데이터와 함께 2012 년에 364EB를 도달 하는 중국의 데이터 스토리지 볼륨 현재 보호 됩니다. 중국의 자치와 제어 데이터 분석 기술 및 제품 선진국에 비해 많은 간격이 있다. 데이터베이스, 데이터 웨어하우징, 비즈니스 인텔리전스 분석 소프트웨어 및 약한 기초의 다른 분야에서 국내 기업, 특히 큰 데이터 멀리 외국 기업 고급 뒤에 느껴 지 있다.
둘째, 재능 문제입니다. 500 년 전, 레오나르도 다 빈치 수 화가, 음악가, 엔지니어, 과학자, 100 년 전, 의사는 의료 분야의 모든 분 지를 이해할 수 있다, 오늘 주니어 닥터 약 10000 질병 및 syndromes, 3000 마약과 테스트의 1100 방법을 알고 있어야 합니다. 전문 의사 주제의 개발을 뒤지지 하루 21 시간 공부 해야 추정 된다. 가트너 컨설팅 예측 큰 데이터 4.4 백만 새로운 그것은 일자리를 가져올 것 이다 그리고 전세계 it 일자리와 맥킨 지의 수 만명의 예상 2018 심층 데이터 분석 재능 갭 140000 ~ 19 백만 사람들, 또한 필요 데이터 요구 사항 및 기술 및 1.5 백만 사람들의 관리의 응용 프로그램의 미국. 이해 하 고 혁신적인 재능의 많은 수를 적용 하는 중국의 능력은 부족 한 자원 이다.
다음 보안 및 개인 정보 보호의 문제가입니다. 대용량 데이터의 사용은 먼저 정부 데이터 공개 원칙적에서 공개 될 해야 합니다 필요 합니다. 발굴 및 대용량 데이터의 활용 법을 기반으로 할 필요가 있다. 중국은 "정보 보호 법" 및 "정보 공개 법" 가능한 한 빨리 커뮤니티 지향 데이터 마이닝을 장려 하 고 개인 정보 보호 침해를 방지 하기 위해 사회 봉사를 데이터 공유를 촉진 하 고 데이터의 남용을 방지 하기 위해 개발 해야 합니다. 보안 및 개인 정보 보호의 숨겨진된 위험이 여전히 크고, 중요 한 데이터 저장 이며, 응용 프로그램 수 없는 대용량 데이터 분석 기술 및 플랫폼에 너무 많이 의존, 정보 유출의 위험에 주의를 지불할 필요.
마지막으로, 개발 전략의 질문이입니다. 정보는 하드웨어 소프트웨어에 중요성을 첨부 하 고 데이터만 큰 데이터, 작은의 사용에 주의에 초점을 맞추어야 하 고 중소 데이터 마이닝도 의미가. 큰 데이터를 국가 개발 전략, 큰 데이터는 매우 강력한 응용 프로그램 기반 서비스, 그것의 표준 및 산업 구조 하지 않은 아직 형성, 하지만 이것은 우리의 기회를 개발, 도약 해야 하지 사방 대상 알 수 없는 상황에서 "데이터", 부동산에 종사 하지만 큰 데이터의 전략적 개발에 관심을 지불할 필요가 사방에 대규모 데이터 센터를 구축 하 아성에 대 한 필요 으로 경제 성장을 변환 하는 효과적인 방법.
(책임 편집기: 유산의 좋은)