인간 정보 시대에 들어갔다는 말, 한 가지는 매우 중요 한, 실제 세계, 건설 및 인프라, 그리고 저장, 전송, 교환, 모바일 인터넷, 클라우드 컴퓨팅, 디지털된 것 (데이터) 사용 하는 방법의 디지털화 등의 정보는 큰 데이터 및 지능형 단말기의 다양 한 모양을 명확 하 게 되는 것을 나타납니다. 많은 사람들이 우리가 우리가 우리 산업 인터넷의 시대 라는 산업 혁명 이후 상상 보다 더 중요 한 변화의 시대에 올 수 있습니다 인정. 후 모든, 모든이 인터넷의 등장 이후, 여부 그것은 네트워크 온 디맨드 컴퓨팅 리소스, 대용량 데이터, 온라인 데이터, 또는 다양 한 지능형 단말기, 인터넷 의존의 분석에 연결을 통해 구름입니다. 동시에 이러한 도구는 데 도움이 소비자는 데이터 업계의 중요 한 생산 요소가 될 다양 한 산업 분야에서 생산적인 인터넷 변경 하려면 인터넷에서 진화 하는 인터넷 인터넷. 물론, 생산의 요인 될 데이터는 또한 전제 조건, 데이터를 효과적으로 빗와 라벨.
2013 중국 2012, 2009 글로벌 데이터 볼륨에 대 한 해당 시간에 두 번 이상 데이터 (800 백만 TB에 해당), 0.8ZB 생산. 2020 년 중국은 2013 년, 8.5ZB 이상에 10 시간 데이터의 총 금액을 생성 예정 이다. (소스, ZDNET "데이터 센터 2013:: 하드웨어 리팩터링 및 소프트웨어 정의" 연례 기술 보고서)
우리 서버 수와 소 면, 다양 한 산업 데이터 뿐만 아니라 데이터 센터, 대략 현재 연간 생산, 저장 데이터 및이 시간에서 대략적인 분포 결정, 우리는 수집 된 데이터를 수집, 다양 한 산업 분야의 분석, 데이터 볼륨 및 참조에 대 한 분포를 추가 하려고.
1, 인터넷 회사를 대표 하는 박쥐
(바이) 데이터의 총 금액은 거의 1000 PB 또는 그래서, 페이지 수가 아마 많은 우리 내부 페이지에서 웹 페이지의 수백만의 수백 수백억 밖으로 인덱스를 작성 하, 많은 한 페이지에 대 한 1 년의 수십억에 대 한 업데이트, 매일 사용자를 즐길 것입니다 지금의 쿼리 수십억, 주위 우리는 PB의 수백을 찾고 있을 것입니다. (바이 클라우드 컴퓨팅 수석 건축가 린 시 딩 2013)
공개 정보에의 하면 세계에서 가장 큰 중국 검색 엔진, 138 개국 요청, 바이 매일 새로운 데이터 10 TB의 수십억의 지역에서 바이 매일 응답, 처리를 정확 하 게 100PB 수많은 정보에서 데이터 보다 더 많은 약 1 십억 페이지를 크롤 링 또한 인덱스 라이브러리는 사용자 검색 프로세스를 완료할 수 있도록 치 온라인 인덱싱 기능이 있습니다. 거 대 한 데이터를 얼굴에 바이 자체 데이터 센터, 그것의 자신의 큰 데이터 저장 시스템의 개발 및 새로운 기술의 숫자를 사용 하 여 건물입니다. 바이 클라우드 컴퓨팅 (Yangquan) 센터, 4.708 십억 위안 투자 계획, 2012 년 8 월에에서 설립 되었다 하 고 2015 년까지 완료 될 것으로 예상 된다. 후 바이 클라우드 컴퓨팅 (Yangquan) 센터 데이터 저장 완료 4000PB 보다는 더 많은 것, 정보의 양을 국립 도서관의 중국의 전체 컬렉션의 20多万个에 저장 된 해당 될 수 있습니다.
의심 스러운, 그리고 심지어 바이 두의 큰 숫자 하지 않을 수 있습니다 회사 중국에 있는 데이터의 최대 수를 의심 하지 않을 수 있습니다. 우리는 검색 서비스를 제공 하는, 때문에 우리 중국에 있는 모든 중국 웹사이트를 검색 하 고 우리 센터에 넣어 해야 합니다. 얼마나 큰 모든 페이지는? 현재 추정 약 300 십억, 300 십억 중국 페이지를 온통 그것을 잡기 위해, 우리의 데이터 센터에 넣어요. 이 데이터에 대해서는 10-50 PB, 상황은 매우 다른 모든 시간 때문에 넓은 범위입니다. 다른 예기치 않은 로그, 일일 로그를 이러한 로그의 많은 내부 바이 시스템으로 사용자 행동 습관, 데이터 복구를 포함 분석 및 재해 백업은 매우 중요 한 기초 이다,이 데이터는 최대 현재 이상의 100를 도달할 수 있는 PB. 데이터 웨어하우스, 데이터 웨어하우스는 로그 정보를 청소 후,이 구성 되어있다. 다른 사람들이 바이 바이 프로 모션, 광고 라는 속어는 알고 있다. 고객 정보, 전통적인 광고, 거기는 광고 자체, 데이터의이 부분은 상대적으로 작은, 1 TB, 하지만 그것을 처리 하는 데이터의이 부분은 매우 높습니다, 일관성의 높은 정도로 우선. 마지막 하나는 사용자 생성 콘텐츠 UGC, 우리 모두가 알고 바이 올렸습니다, 바이 알, 바이 라이브러리, 이러한 콘텐츠는 인터넷의 광대 한 번호 스스로 생성, 사용자가 자신의 업로드, 우리는 데이터를 공유, 데이터의이 부분은 현재 1PB, 최대 이며 데이터는 많은 사용자가 업로드 비디오, 사진 등 멀티미디어 데이터. (첸 샹 2012, 바이 기술 위원회의 감독)
거의 500 백만 등록 된 사용자와 알리바바 30 P.의 총 데이터 볼륨을 했다 2013 년에 보고가 했다 업계 관계자가 알리 그룹 약 300000 서버, 데이터의 현재 금액은 거의 PB (Sina Weibo의 수집 등 투자 행위, 그리고에, 알리바바에 게 연락 수 있는 데이터의 양을 개선할 것입니다)에 저장 되어야 합니다 것으로 예상 된다. 2012 년 7 월 10 일 알리 그룹 "데이터 공유 플랫폼" 전략 홍보 담당 최고 데이터 책임자 게시물 (CDO)의 설립을 발표 했다. 알리바바도 데이터를 처리 하는 데 노력 해 왔다. 초기 "Taobao 인덱스"에서 "클라우드" 개념을 큰 데이터 조합 "폴 리 석 탑", 그리고 데이터 분석을 초석으로 금융의"알리", "데이터 큐브"의 관리 데이터 분석을 제공 큰 데이터 개발에 알리 되었습니다 업계의 최전선에.
Taobao의 창조에서 알리바바 Alipay, 좋은 거래, Amoy 플랫폼, 비즈니스 성장, 알리 플랫폼에 데이터 증식의 폭발과 함께 풀링된 Chenghai 때까지 플랫폼에서 데이터를 수집 하기 시작 했다. 데이터로 트랜잭션 데이터, 사용자 검색 및 웹 데이터, 쇼핑 데이터 및에 클릭 하면 있습니다. 알리 그룹 최고 전략 책임자 씨 쩡 예측, "본질, 미래에에서 알리 데이터 작업 회사 있을 것입니다." "전 하는 방법은 큰 데이터를 사용 하 여 잘, 그리고 후자 더 큰 데이터를 확인 하는 방법을 의미 합니다."
2013 큰 데이터 회의에서 Tencent 데이터 플랫폼 보조 총관리인 Shange는 국내 인터넷, Tencent는 데이터 영역의 숫자, 전체 저장 데이터 볼륨 처리는 100PB 정도에 압축 후 취재 했다.
Tencent QQ 현재 800 백만 사용자, 400 백만 모바일 사용자, 하나의 그룹에 저장 된 데이터의 수에 데이터 웨어하우스 4400 단위에 도달 했습니다, 그리고 200 결핵 300 t B, 10% 데이터 볼륨의 월별 증가에, 성장 하는 데는 100PB 정도에 처리 압축 후 저장 데이터와이 데이터의 총 금액 추가 됩니다. 준비는 지금 1000 PB에 대 한 되고있다. 아시아의 최대 데이터 베어링 센터, Tencent 천진 연구 및 개발 및 데이터 스토리지 센터 빈 하이 새로운 영역, Tencent 천진 센터의 건설에는 93,300 평방 미터의 총 건설 면적 예상된 서버 호스팅 용량 이상의 100000 단위의 프로젝트.
360, 같은 다른 일부 지도, 사회, 엔터테인먼트 인터넷 회사, 또한 있다 PB 수준 데이터 보유. Alibaba 바이 미디어에 따르면 전기 몫의 데이터의 90% 이상, 거 대 한 검색 데이터의 검색 시장 점유율의 70% 이상, Tencent 사회적, 게임을 많이 고 축적의 텍스트, 오디오, 비디오 및 관계형 데이터, 3 명의 거 인의 다른 분야는 데이터의 양을 경우 EB 해발 되어야 합니다. 모든 인터넷 회사 이상 1.5EB 데이터의 볼륨의 2EB 거의 도달 있어야 합니다.
2, 통신, 금융, 보험, 전기, 석유 화학 시스템
2012 년 12 월 13 일, "중관촌 데이터 날" 이벤트 주최 클라우드 기반에서에서 황 Wenliang, 중국 Unicom 연구소의 부 학장 말했다, "올해 중국 Unicom 성공적으로 도입 하 둡 기술과 대용량 데이터는" 이동 통신 사용자가 온라인 기록 중앙된 쿼리 및 분석 지원 시스템. 지금까지, 우리는 4.5PB의 저장 공간을 배포 했습니다. 이러한 데이터 연산자 또한 사용자 호출, 정보, 지리적 위치 및 기타 정보, 주요 연산자는 현재 숫자 데이터의 이상 이어야 합니다 10PB, PB의 약 수십의 전체 연간 사용자 데이터 증가.
중국은 련의 공용 데이터 쇼를의 유일한 "련" 은행 카드 순환 현재 련의 은행 카드 거래를 통해 4 십억, 매일 거의 60 십억 거래 가까이 단일 카드 데이터는 작은, 하지만 집계, 이것은 여전히 매우 많은 양의 데이터. 계좌 개설, 은행 네트워크 및 온라인 거래의 다양 한 데이터 및 금융 시스템 자체의 데이터의 정보를 결합 하는 경우 데이터 국내 은행에 의해 및 금융 시스템은 PB의 수십 매년 도달할 수 생산과 보험 시스템에서 생성 하는 데이터의 양이 PB 수준 가까이 될 것입니다.
오늘, 국가 그리드 에너지 측정을 위한 세계의 가장 큰 자동화 시스템 되고있다. 여 말 2013, 지능형 에너지 미터 182 백만, 191 백만 가구 컬렉션, 컬렉션 범위 56%, 자동 검침 회계 율 97% 이상 달성 하기의 누적 설치. 스마트 그리드는 엄청난 양의 데이터를 생성할 수 있습니다. 예를 들어 베이징 5 주거 지역, 353 컬렉션 포인트, 주파수, 전압, 전류, 15 분 1 일 수집을 포함 하 여 12000 매개 변수 컬렉션에 국가 네트워크 34 GB를 생성할 수 있습니다. 만 국가 그리드, 국가 수 수집 데이터의 총 크기는 또한 10 PB 수준에 도달할 수 있는 데이터의 양을 저장 수 또한 거의 10PB, 같은, 내부 데이터 분석, 석유 화학, 지능형 물 미터 및 연례 생산의 다른 영역과 수십 PB 수준에 도달 하는 데이터의 양의 보전.
3. 공공 안전, 의료, 교통 분야
안전 도시, 지능형 도시 및 다른 프로젝트를 홍보, 감시 카메라는 거리 곳곳, 더 높은 하이-정의 지능, 네트워크, 디지털 요구의 보안 모니터링, 자연 데이터의 양이 빠르게 증가 하고있다. 그것은 있다 1080 P hd 네트워크 카메라, 속도 초당 60 프레임을 도달할 수 있다, 같은 카메라 1 개월 생산 1.8 t.까지 비디오 파일 현재 비디오 감시 카메라에 사용 되는 베이징은 500000, 카메라 데이터의 한 시간 몇 g, 3PB, 연례 비디오 감시 데이터 300PB에 대 한 생산 중소 도시에 대 한 데이터의 베이징의 비디오 컬렉션에 매일. 비용 고려 사항에도 불구 하 고 감시 비디오의 많은 일반 청소 사이클의 특성을가지고 있지만 전체 비디오 모니터링 데이터, 매년 이상의 연간 PB의 수백 저장할 수 있습니다.
이 교통, 항공편, TB 수준에 도달 하는 데이터를 생산 하는 시간에 관련 된 기차, 비디오, 텍스트 클래스 데이터 백 PB 수준에 또한 저장 될 수 있다, 또한 PB 수십 도달할 수 있습니다 데이터의 다양 한에 의해 생성 된 물 전송 있습니다.
베이징 교통 운영 모니터링 및 파견 센터 "트래픽 데이터 센터 모니터링 및 조기 경보 센터, 운영 조정 센터, 종합 교통 정보 출판 센터", 등 4 개의 센터를 설치 했다 실현 작업 모니터링, 조정 연계, 의사 결정 지원 및 정보 서비스, 그리고 정부 의사 결정, 산업 감독, 기업 운영에 대 한 사람들이 여행 하 고 다른 서비스 제공을 지원 합니다. 특히, TOCC는 업계의 내부 및 외부 27 응용 프로그램 시스템, 6000 개 이상의 정적 동적 데이터, 60000 다중 채널 비디오, 20T 현재 정적 동적 데이터 저장, 매일 약 30 G의 데이터 증가에 대 한 액세스를 통합 합니다. (베이징 트래픽 작업 모니터링 및 파견 센터 (TOCC) 부국장 장 애)
상하이 쉔 강 병원 개발 센터 지도 완료 의료 산업에 큰 데이터를 적용 하려면 "의료 공동 프로젝트" 프로젝트의이 프로젝트 커버 38 시 학년 3 병원, 대규모 임상 정보 및 병원에서 건강 파일의 동적 업데이트 공유 실시간 모든 수준에서 도시-지구, 그리고 효율적으로 저장 및 대규모 이미지 정보 효율적으로 실현 전송 및 프레 젠 테이 션의 문제, PB 클래스 의료 이미징의 설립에 보관합니다. 미디어 리포트는 말했다: "중국의 첫 번째 라인 큰 도시, 데이터, 건강 기록만는 올해는 5PB 보다 더." "거기는 의심의 여지가 건강 그리고 건강 분야 질병 감시를 포함 하는 데이터의 큰 원천이 다." 예를 들어 의료 데이터 A CT 검사 확인 하기 위해 뇌의 매우 높은, 미크론 데이터 생산 금액은 4.5 TB 데이터. 예를 들어, 광저우 썬 야만-센 병원 2013 년 데이터 1000 TB입니다. 통계 표시 중국 중소 도시 (10 백만 인구) 의료 서비스의 50에서 축적에 볼륨 10PB 도달할 수 있다. 1 년 저장 될 수 있다 예측, 전체 건강 산업, 그래서 데이터 PB의 수백을 도달할 수 있다.
"대형 병원만 의료 이미징 1 년 20 TB에 도달와 함께 수십 TB, 연간 데이터 증가 있다." "A CT 이미지 포함 약 150 m B의 데이터 용량, 및 게놈 시퀀스 파일은 크기에 약 750 MB, 표준 병 리 차트 이전 2 보다 훨씬 더 큰 이며 파일 크기가 5GB 거의." 사람과 수명이 수로이 데이터를 증식 하는 경우 단 하나의 지역 사회 병원이 나 중소 제약 기업 수 있습니다 생성 하 고 여러 테라바이트 또는 심지어 몇 페타바이트 데이터와 구조화 되지 않은 데이터의 축적. (컴퓨터 룸 큰 트라이-갑옷 병원 장)
4. 기상학, 교육, 지리학, 정부 업무 등
현재, 전체 중국 기상 행정 보관 데이터 주위 4 ~ 5PB, 연간 결핵의 약 수백. 지상 관측, 위성, 레이더와 데이터 예측 제품 및 관측 데이터의 다른 주요 범주를 포함합니다. 다양 한 지도 지역 정보 1 년, PB의 수십 하지만이 정보는 쉽게 인터넷 기업 뿐만 아니라 운송 및 물류 산업 분야와 중복 하 고이 정보를 별도로 개최 및 PB 수준에 저장 한다.
일반 지상 기반 관측 뿐만 아니라 원격 감지 원격 작업, 기상 위성 및도 풀러 날씨 레이다, 지난 30 년 동안에 급속 하 게 개발 하 고이 지역 생산 매일 관측 데이터의 테라 바이트. (심 양 Wenhai, 국립 기상 정보 센터의 부 수석 엔지니어)
그것은 분기에 스마트 시티 데이터 200PB가 보고. 2013 년 베이징 시 정부는 1 년에 대 한 데이터 리소스 네트워크 테스트 실행 온라인 출판 되었습니다 400 데이터 패킷을 보다 더 관광, 교육, 교통, 의료 및 기타 카테고리, 누적 방문 수 6 백만 시간 이상 덮고, 지리 공간 데이터 축적 이상의 4800 다운로드. 설문 조사는 다음 1-2 년에 것을 보여준다 중국의 정부 부서 절반 이상 53.3%에 도달 하면 데이터의 100 TB 이상 되며 거의 사용자 데이터 규모의 30% (33.3%)는 10-50 TB. 정부의 데이터의 대부분은 구조화 되지 않은 데이터의 양을 크게 구조적된 데이터에 몰려 있다. 위의 제외 전체 정부에 의해 생성 된 데이터 여러 주요 부분을 언급 한, 또한 PB 수준에 도달할 수 있습니다.
현재, 대부분의 중앙 부처와 지방 정부 부처 핵심 사업의 지원, 80% 이상의 핵심 비즈니스 데이터베이스 범위 데이터베이스는 있다. 정부 공공 보안의 1.3 십억 사람들을 다루는 국가 인구 데이터베이스를 구축 했다. 산업의 국가 관리 및 상거래 기업 단체, 시민 통상 및 예비 사회 단체의 설립의 본사 및 공공 정보, 토지의 국가 4 레벨의 데이터베이스 구축 및 자원 기관 거의 6000 t B 데이터의 축적, 통계의 국가 국 통계 정보 구축 국가 발전 및 개혁 위원회 주도 자원 자연 자원과 공간 지리에 대 한 기본은 강화 되 고. 또한, 금융, 조세, 품질 검사, 사회 보장, 교육 및 다른 분야 또한 다양 한 정보 기지 구축 했습니다.
5, 기타, 상업 판매, 제조, 농업, 물류 및 순환 및 다른 분야
산업 인터넷의 대중화와 함께 (오프 라인) 상업적 판매, 제조, 농업, 임업 및 축산 어업, (오프 라인) 취사, 음식, 과학 연구, 물류 및 교통, 같은 데이터 볼륨 이러한 전통 산업의 급속 한 성장 추세 표시 됩니다 하지만 현재, 이러한 산업의 현재 데이터 볼륨은 여전히 축적 기간, 전체 볼륨은 큰, PB 수준 보다 더 많은 기초는 백 TB 또는 심지어 수십 TB 수준입니다. 또한, 중국 국립 도서관 컬렉션 41 TB에 해당 26.31 백만 볼륨입니다. 영화와 텔레비전 엔터테인먼트, 미디어를 게시 일정 한 양의 데이터 축적으로 교육 현재 많은 수의 데이터 생성, 이들은 미래 발굴된 방향으로 될 수 있습니다.
데이터는 일반적으로 다음과 같은 유형으로 나누어 제조 저장: 첫째, 제품 설계 데이터를 데이터의 이런이 종류의 전형적인 특성은 파일 지향, 구조화, 공유 요구 사항은 상대적으로 높은, 저장 시간 또한 상대적으로 긴 이며 둘째, 기업 생산 링크, 그것의 특성의 비즈니스 데이터 이며 데이터베이스에 구조화 된 데이터 주로, 이러한 데이터의 중요성은 자명, 그들은 뿐만 아니라 기업의 작업의 현재 상태를 나타냅니다 하지만 엔터프라이즈;의 추가 개발을 위한 귀중 한 분석 제공 셋째, 생산 모니터링 데이터를 특징으로 매우 많은 양의 데이터, 저장 공간 및 I/O 처리량 요구 높은. 제조 기업에서 기업에 데이터의 레코드는 두 개 이상의 종류: 1, 전통적인 종이 펜의 기록, 2, Excel 스프레드시트 기록. 이러한 겉보기에 간단한 데이터 관리, 생산을 위한 뿐만 아니라 인간과 물자 자원의 낭비의 운영과 품질 관리 기업의 거 대 한 숨겨진된 위험 매장. 그리고 데이터 마이닝 뒤에 진정한 가치, 그것에 대해 이야기 수 아니에요.
마지막으로, 우리 산업 유통 IDC의 사용을 보면, 인터넷 고객은 여전히 주요 급속 한 성장 고객 그룹의 약 40%, 통신, 제조 산업 또한에 속한다 더의 사용, 정부, 교육 산업의 성장 속도, 각각 8.7%와 7.8%의 비율에 대 한 차지 했다. IDC 예측에 따르면 데이터 저장소 요구 사항, 스토리지 시장 좋은 성장 기세를 보여 계속 됩니다. 향후 5 년에서 저장 데이터 용량 15864PB를 도달할 것 이다 (다른 데이터는 18EB), 정부에 (서) 특히 건강 관리, 교육 및 기타 산업 빠르게 성장, 무거운의 공유.