점점 더 많은 애플 리 케이 션 큰 데이터, 수량, 속도, 성과 등을 포함 하 여 이러한 대용량 데이터의 특성을 포함, 대용량 데이터의 분석은 최종 정보의 가치 결정에 결정적인 요소가 될 수 있는 큰 데이터 분야에서 특히 중요 하다 그래서 대용량 데이터의 증가 복합성을 제시 하 고. 이에 따라, 방법 및 대용량 데이터 분석의 이론 무엇입니까?
대용량 데이터 분석의 5 개 기본 분야
Predictiveanalyticcapabilities (예측 분석 기능)
데이터 마이닝 수 분석 데이터를 이해 하 고 예측 분석 애 널 리스트 시각적 분석 및 데이터 마이닝 결과에 따라 예측 판단을 내릴 수 있습니다.
Dataqualityandmasterdatamanagement (데이터 품질 및 데이터 관리)
데이터 품질 및 데이터 관리 관리의 모범 사례 중 일부입니다. 표준화 된 프로세스와 도구를 통해 데이터를 처리 하면 미리 정의 된, 높은-품질 분석.
Analyticvisualizations (시각적 분석)
그것은 데이터 분석 전문가 또는 일반 사용자가 데이터 시각화 데이터 분석 도구를 위한 기본적인 요구 사항입니다. 시각화 수 있습니다 시각적으로 데이터를 표시, 데이터 자체에 대 한 이야기, 관객 들을 결과.
Semanticengines (의미 엔진)
우리는 구조화 되지 않은 데이터의 다양성 데이터 분석에 새로운 도전을 제공 하기 때문에 우리 도구를 구문 분석, 추출, 및 분석 데이터의 범위를 필요 알아요. 시맨틱 엔진 지능적으로 문서에서 정보를 추출 하도록 설계 될 필요가 있다.
DATAMININGALGORITHMS (데이터 마이닝 알고리즘)
시각화 되는지, 데이터 마이닝을 보고 기계에 대 한 사람입니다. 클러스터링, 세분화, 국외 자 분석 및 다른 알고리즘 저희가 내부, 마이닝 값 데이터를 탐구 했다. 이러한 알고리즘은 대용량 데이터의 금액 뿐만 아니라 대용량 데이터의 속도와 거래.
큰 데이터는 정말 다음 주요 기술 혁신을 우리가 더 나은 혜택 큰 데이터 가져올 수 있는 뿐 아니라도 전에에 초점 것입니다.
대형 데이터 처리
3 주요 변환 데이터 처리의 나이에서: 샘플링, 효율적인 관련성이 하지 하 고 또는 영향을 절대적으로 정확 하 게 하지 않으려면. 구체적인 데이터 처리 방법, 많은 하지만 오랜 시간 연습에 따르면 저자 기본적인 대형 데이터 처리 흐름을 요약 하 고이 프로세스 처리 도움의 큰 숫자를 밖으로 똑바르게 할 수 있어야. 전체 프로세스는 4 단계, 즉 수집, 가져오기 및 전처리, 통계 및 분석, 및 광산으로 요약할 수 있습니다.
수집
큰 데이터 수집 클라이언트에서 데이터를 수신 하는 여러 데이터베이스를 사용 하 여를 참조 하며 사용자가 간단한 쿼리 및 처리 작업에 대 한 이러한 데이터베이스를 사용할 수 있습니다. 예를 들어 ICC MySQL, 오라클 등 전통적인 관계형 데이터베이스를 사용 하 여 모든 트랜잭션 데이터를 저장 하 고 또한, Redis와 MongoDB 같은 NoSQL 데이터베이스 종종 데이터 수집을 위해 사용 됩니다.
큰 데이터를 수집 하는 과정 그것의 주요 특성 및 과제는 높은 동시성, 기차표 발권 웹사이트와 Taobao, 등의 작업에 액세스 하는 사용자의 수천 수만 있을 것 같은 시간에 그들의 동시에 수백만의 피크 방문, 때문에 그래서 많은 지원 하기 위해 인수에는 데이터베이스를 배포 해야 합니다. 그리고 로드 균형 및 이러한 데이터베이스 간에 조각 하는 방법 정말 깊이 있는 사고와 디자인에 대 한 필요.
통계/분석
통계 및 분석 주로 일반적인 분석 및 분류 요약이 측면에서 가장 일반적인 분석 요구를 만족 시키기 위하여, 그것에 저장 되는 대규모 데이터를 수행 하는 분산된 컴퓨팅 클러스터 또는 분산된 데이터베이스를 활용, 일부 실시간 수요 EMC Greenplum, Oracle Exadata를 사용 합니다. 그리고 MySQL 기반 열 스토리지 infobright 및 일부 일괄 처리 또는 반 구조화 된 데이터에 대 한 필요성에 Hadoop을 사용할 수 있습니다. 주요 기능 및 통계 및 분석의이 부분의 문제는 많은 양의 데이터 분석, 시스템 리소스, 특히 I/O 차지할 것에 관련 된.
가져오기/전처리
인수 끝 자체 데이터베이스의 여지가 됩니다 하지만 효과적으로 하려는 경우 이러한 대규모 데이터 분석 또는 중앙된 큰 분산된 데이터베이스 또는 분산된 저장 영역 클러스터에서 프런트 엔드 데이터 이어야 하며 몇 가지 간단한 청소 및 전처리 작업 기준으로 소개 될 수 있다. 일부 업체의 실시간 컴퓨팅 요구에 맞게 가져오기에 스트림 데이터를 트위터에서 폭풍을 사용 하는 사용자도 있습니다. 특성과 가져오기 및 전처리 과정의 과제는 주로, 가져온 데이터의 금액 및 당 수입 수 두 자주 도달 백 메가바이트 또는 심지어 기가 비트 수준.
광업
이전 통계 및 분석 프로세스와 달리 데이터 마이닝 일반적으로 없습니다 미리 설정된 테마 주로 높은 수준의 데이터 분석 요구의 수를 달성 하기 위하여 예측 효과가 재생 되므로 다양 한 알고리즘의 계산에 따라 기존 데이터. 일반적인 알고리즘은 클러스터링, 통계 학습 및 naïve Bayes 분류, SVM K-평균 있고 사용 하는 주요 도구는 mahout Hadoop의. 특성 및 과정의 과제는 주로 광산, 사용 되는 알고리즘의 복잡도 계산 포함 많은 양의 데이터 및 계산, 그리고 일반적으로 사용 되는 데이터 마이닝 알고리즘은 단일 스레드.