데이터의 규모를 의미 하는 "큰" "큰"에서 첫번째 큰 데이터의 개념을 이해 하, 큰 데이터는 일반적으로 위의 10 TB (1 TB = 1024 기가바이트) 데이터 볼륨의 크기를 말합니다. 큰 데이터는 과거에는, 다른 대규모 데이터 및 그것의 기본적인 특성은 4 V (권 우, 다양 한, 그리고 #118alue和Veloc-ity), 합계 될 수 있다 즉, 큰 볼륨, 다양성, 낮은 값 밀도 및 빠른 속도.
큰 데이터 기능
첫째, 데이터의 볼륨은 매우 크다. PB 수준 TB 수준에서 뛰어.
둘째, 다양 한 데이터 형식, 상기 블로그, 비디오, 사진, 지리 정보, 고 등.
셋째, 값 밀도가 낮습니다. 비디오, 예를 들어 연속 중단된 모니터링 프로세스 유용할 수 있습니다만 2 초간.
4, 처리 속도 빠르다입니다. 1 두 번째 법률입니다. 이 마지막 점은 일반적인 데이터 마이닝 기술부터 근본적으로 다르다. 인터넷의 것 들, 클라우드 컴퓨팅, 모바일 네트워크, 자동차 네트워킹, 휴대 전화, 태블릿, Pc, 및 다양 한 센서는 데이터 또는 그것을 호스팅 하는 방법의 소스는 전세계.
대용량 데이터 기술 다양 한 유형의 데이터에서에서 귀중 한 정보의 급속 한 취득을 말합니다. 큰 데이터 문제 해결의 핵심은 대용량 데이터 기술입니다. 현재 "빅 데이터" 데이터 자체의 크기 뿐만 아니라 데이터를 수집 하는 도구, 플랫폼 및 데이터 분석 시스템을 말합니다. 큰 데이터 연구와 개발의 목적은 큰 데이터 기술 개발 및 관련 분야에 적용 하 고 거 대 한 데이터 처리 문제를 해결 하 여 그것의 혁신을 촉진. 따라서, 큰 데이터 나이의 도전 대용량 데이터 기술 개발 강화, 시대의 최전선을 점유 하는 방법에 뿐만 아니라 귀중 한 정보를 얻기 위해 데이터의 엄청난 금액을 처리 하는 방법에만 구현 하지는.
큰 데이터 함수
빅 데이터 시대의 도래와 함께 점점 더 많은 사람들이이 판단에 동의 합니다. 큰 데이터는 무엇을 의미 합니까, 그리고 그가 무엇을 변경 합니까? 기술적인 관점 에서만에서 대답 충분 하지 않습니다. 큰 데이터만 개체, 사용자의 주제를 떠나, 그것은 의미가 없다. 우리는 인간의 관점의 맥락에서 큰 데이터를 넣어, 시간 변경의 힘으로 그것을 이해 해야 합니다.
값을 변경 하는 힘
다음 10 년 동안, 그것은 중국에 지혜 ("사상가")의 핵심 의미 있는지 여부를 결정 하는 국민 행복. 큰 데이터를 통해 사람들의 생활에서 한 매니페스트 수 의미 있는 문제 명확 하 게 될 것 들 취소 통해 많은, 그리고 여부 전에 보다 사람들과 우리의 관계에 더 이해가 만든는 우리가 보고 우리가 의미 함으로써 어느 때 보 다도 그리고 생태학, 사람들에 관하여 더 많은 의미를 만든 여부를 참조 하십시오. 즉, 저희가 혼란 시대의 의미의 첫번째 10 년에서 다음 10 년에 선명도의 시대의 의미.
경제를 변환 하는 힘
생산자는 중요 하 고 소비자는 값의 의미. 의미 있는 유일한 값, 소비자 동의 하지 않으면, 그들은 판매 하지 않을 수 있습니다, 그리고 그것은 가치를 달성할 수 없다, 소비자만 동의 밖으로, 유일한 판매 가치를 달성 하기 위해. 큰 데이터 가치를 실현 하는 생산자를 돕는 소비자의 원본의 의미를 식별할 수 있습니다. 이것은 시작 하는 국내 수요의 원리 이다.
변경 조직의 힘
시맨틱 웹 기능을 갖춘 데이터 자원과 데이터 인프라의 개발, 조직 변화가 된다 더 피할 수 없는. 큰 데이터 구조화 조직 전력 생산 네트워크 구조를 몰 것 이다. 이 구조적 특성을 반영 하기 위해 처음에 중앙 WEB2.0 애플 리 케이 션, rss, 위 키, 블로그 등의 다양 한입니다. 큰 데이터는 권력의 시간 변경 하려면, 의미에 따라 지혜를 얻습니다 때문입니다.
대형 데이터 처리
박사 저 우 있다: 세 가지 주요 대형 데이터 처리 데이터베이스의 아이디어에서 교대: 효율적인 관련성이 하지 하 고 또는 영향을 절대적으로 정확 하 게 하지, 모든을 하지.
대규모 데이터 처리의 과정
구체적인 데이터 처리 방법, 하지만 큰 데이터 처리 흐름의 일반 응용 프로그램을 표현 하는 작가 오랜 시간 연습에 따라 많이 있으며이 프로세스 처리 도움의 큰 숫자를 밖으로 똑바르게 할 수 있어야. 전체 프로세스는 4 단계, 즉 컬렉션, 가져오기 및 전처리, 통계 및 분석, 그리고 마지막으로 데이터 마이닝으로 요약할 수 있습니다.
대형 데이터 처리 중: 수집
큰 데이터 수집 (웹, 응용 프로그램 또는 센서 형태, 등), 클라이언트에서 데이터를 수신 하는 여러 데이터베이스를 사용 하 여를 참조 하며 사용자는 간단한 쿼리 및이 데이터베이스를 통해 작업을 처리 할 수 있다. 예를 들어 ICC MySQL, 오라클 등 전통적인 관계형 데이터베이스를 사용 하 여 모든 트랜잭션 데이터를 저장 하 고 또한, Redis와 MongoDB 같은 NoSQL 데이터베이스 종종 데이터 수집을 위해 사용 됩니다.
큰 데이터를 수집 하는 과정 그것의 주요 특성 및 과제는 높은 동시성, 기차표 발권 웹사이트와 Taobao, 등의 작업에 액세스 하는 사용자의 수천 수만 있을 것 같은 시간에 그들의 동시에 수백만의 피크 방문, 때문에 그래서 많은 지원 하기 위해 인수에는 데이터베이스를 배포 해야 합니다. 그리고 로드 균형 및 이러한 데이터베이스 간에 조각 하는 방법 정말 깊이 있는 사고와 디자인에 대 한 필요.
대형 데이터 처리 두번째: 가져오기/전처리
인수 끝 자체 데이터베이스의 여지가 됩니다 하지만 효과적으로 하려는 경우 이러한 대규모 데이터 분석 또는 중앙된 큰 분산된 데이터베이스 또는 분산된 저장 영역 클러스터에서 프런트 엔드 데이터 이어야 하며 몇 가지 간단한 청소 및 전처리 작업 기준으로 소개 될 수 있다. 일부 업체의 실시간 컴퓨팅 요구에 맞게 가져오기에 스트림 데이터를 트위터에서 폭풍을 사용 하는 사용자도 있습니다.
특성과 가져오기 및 전처리 과정의 과제는 주로, 가져온 데이터의 금액 및 당 수입 수 두 자주 도달 백 메가바이트 또는 심지어 기가 비트 수준.
대규모 데이터 처리의 3: 통계/분석
통계 및 분석 주로 일반적인 분석 및 분류 요약이 측면에서 가장 일반적인 분석 요구를 만족 시키기 위하여, 그것에 저장 되는 대규모 데이터를 수행 하는 분산된 컴퓨팅 클러스터 또는 분산된 데이터베이스를 활용, 일부 실시간 수요 EMC Greenplum, Oracle Exadata를 사용 합니다. 그리고 MySQL 기반 열 스토리지 infobright 및 일부 일괄 처리 또는 반 구조화 된 데이터에 대 한 필요성에 Hadoop을 사용할 수 있습니다.
주요 기능 및 통계 및 분석의이 부분의 문제는 많은 양의 데이터 분석, 시스템 리소스, 특히 I/O 차지할 것에 관련 된.
대형 데이터 처리 4: 굴 착
이전 통계 및 분석 프로세스와 달리 데이터 마이닝 일반적으로 없습니다 미리 설정된 테마 주로 예측 재생 되므로 다양 한 알고리즘의 계산에 따라 기존 데이터 (예측) 효과, 높은 수준의 데이터 분석 요구의 수를 달성 하기 위하여. 일반적인 알고리즘은 클러스터링, 통계 학습에 대 한 SVM과 분류, Naivebayes Kmeans 있고 사용 하는 주요 도구는 mahout Hadoop의. 특성 및 과정의 과제는 주로 광산, 사용 되는 알고리즘의 복잡 하 고 계산 포함 많은 양의 데이터 및 계산, 일반적인 데이터 마이닝 알고리즘은 단일 스레드.
전체 대형 데이터 처리의 일반적인 과정 적어도 비교적 완전 한 대형 데이터 처리 하기 위해서는 다음 4 단계를 충족 해야 합니다.