우리 모두 들 었 다음 예측: 2020 년 세계에 전자적으로 저장 된 데이터의 양을 도달할 것 이다 35ZB, 40 번은 2009 년에는 세계의 보유. IDC에 따르면, 2010 년 말에 1.2 백만 PB, 또는 1.2ZB 전역 데이터 볼륨에 도달 했습니다. DVD에 데이터를 구울 경우 달에 지구에서 Dvd 스택과 (약 240000 마일 방법 중 하나)를 다시 수 있습니다.
사람은 하늘에 대해 걱정 하는 경향이 있다, 등 다 수 없을 수도 있습니다,의 세계의 끝을 나타내는. 낙천적,이 숫자는 정보 금광 및 포함 된 부 된다 더 쉽게 채굴 기술 발전.
"빅 데이터" 시대에 거기는 신흥 데이터 마이닝 기술, 데이터 부 저장 하 수 처리 분석 되 고 저렴 하 고 그 어느 때 보다 더 빨리 전에. 거기는 구현할 환경, 대용량 데이터 기술 많은 기업, 따라서 변화 하는 방법으로 사용할 수 있는 다음으로 많은 산업 비즈니스를 실행 합니다.
큰 데이터 기술의 우리의 정의 유용한 데이터 통찰력을 제공 하기 위해 데이터와 구조화 되지 않은 데이터의 대규모 컬렉션을 발굴 하 둡 하 되이 국한 되지 않음 등의 비 전통적인 데이터 필터링 도구를 사용 하 여.
큰 데이터 기술의 개념 처럼 "클라우드 컴퓨팅", 또한 많은 대 광고 및 불확실성의 많은 있다. 이 위해, 애 널 리스트의 수를 상담 하는 우리와 큰 데이터 기술을 설명 하기 위해 큰 데이터에 전문가 고 그들,은 고 빅 데이터 기술 데이터 마이닝의 미래에 대 한 의미.
큰 데이터 기술 개발 배경
대기업, 큰 데이터에 상승 일부 있기 때문에 컴퓨팅 파워는 저렴 한 비용, 사용 가능 및 시스템은 이제 멀티태스킹의 능력 이다. 둘째, 메모리의 비용 또한 급락은, 그리고 기업은 그 어느 때 보다 메모리에서 더 많은 데이터를 처리할 수 있습니다. 그리고 집계 컴퓨터 서버 클러스터로 쉽게 지 고 있다. 칼 Olofson, IDC의 데이터베이스 관리 분석가,이 세 가지 요소의 조합 큰 데이터를 양산 했다 생각 합니다.
"뿐만 아니라 우리가 합니까 이러한 것 들, 하지만 우리는 저렴 한 비용에 그들을 할 수 있는," 고 말했다. "과거에는, 일부 대형 슈퍼 무거운 처리 시스템, 단단히 집계 클러스터로 함께 건설에 참여 했습니다 하지만 그들은 특별히 설계 된 하드웨어 이기 때문에, 그것은의 수천 또는 심지어 수백만 달러의 수백 비용." 그리고 지금 우리 일반 상품화 하드웨어와 같은 컴퓨팅 파워를 얻을 수 있다. 이 우리 보다 신속 하 고 싸게 더 많은 데이터를 처리 하는 데 도움이 됩니다. "
물론, 큰 데이터 웨어하우스 모든 기업 대형 데이터 기술을 사용 하 여 말할 수 있다. 그 기술 빅 데이터 기술에 대 한 먼저 해야 비용 저렴, 뒤에 두 IBM에 의해 설명 된 세 가지 "V" 조건에 맞게 필요를 주장 하는 IDC: 다양성 (다양 한), 볼륨 (볼륨)과 속도 (velocity).
다양성은 데이터 구조화 및 구조화 되지 않은 데이터를 포함 해야 의미 합니다. 볼륨 분석 매우 큰 것을 위해 함께 집계 되는 데이터의 양을 말합니다. 그러나 속도,, 데이터 처리 빨리 해야 의미 합니다. Olofson 큰 데이터 "하지 항상 있다 수백 TB." 라고 실제 사용, 때로는 수백 기가바이트의 데이터 호출할 수 있습니다 그것의 제 3 차원에 주로 달려 있는 큰 데이터에 따라 즉, 속도 또는 시간 차원. 1 초에 300 GB의 데이터를 분석할 수 있습니다 및 일반적으로 1 시간 소요,이 거 대 한 변화의 결과 큰 가치를 추가 합니다. 큰 데이터 기술은이 세 가지 조건 중 두 개 이상을 달성 하는 저렴 한 응용 프로그램입니다. "
(책임 편집기: 루 광)