인터넷, 모바일 인터넷 및 IoT의 급속 한 발전, 우리는 거 대 한 데이터 나이 및 현재 데이터 분석 입력와 처리는 매우 긴급 하 고 큰 필요 되고있다.
Hadoop의 확장성, 견고성, 계산 성능 및 비용 대신할 장점, 사실에서, 대용량 데이터 처리 플랫폼에 가장 주류 인터넷 기업 되고있다.
분석 및 대용량 데이터 처리의 분류
Hadoop 플랫폼은 이해할 수 있도록 비즈니스, 매우 구체적인 여부 및 큰 데이터 처리 사업 분류 다른 데이터 분석 아키텍처의 선택의 다른 요건에 맞게 몇 가지 각도에서 지금 당신의 비즈니스 규정 준수.
실시간 데이터 분석에 따르면 그것은 오프 라인 데이터 및 실시간 데이터 분석으로 주로 분할 된다.
실시간 데이터 분석 처리를 주로 금융, 인터넷에서에서 사용 하 고, 산업 수요에 일반적으로 반환 데이터 처리의 수십억, 달성에 영향을 주지 않습니다 사용자 경험 목표. 이 요구 사항을 충족 하기 위해 제공 되는 데이터 그룹 라이브러리를 디자인 하 고 병렬 처리 클러스터를 작성 하 고 또한 컴퓨팅 플랫폼, HDD 아키텍처 등 일부 메모리를 사용 하는 하지만이 하드웨어와 소프트웨어의 비용을 증가 합니다. 현재, 실시간 대용량 데이터의 분석 도구는 주로 EMC의 Greenplum, SAP의 하나 고.
이러한 높은 응용 프로그램, 취재 날 오프 라인 통계 분석 처리, 기계 학습, 없는 데이터 처리 반환 시간 요구 사항에 대 한 검색 엔진 응답 인덱스 계산, 및 일반적으로 사용 하 여 오프 라인 분석에. 로그 데이터는 데이터 도구를 수집 하 여 데이터 분석 플랫폼에 가져오기 됩니다. 그러나, 거 대 한 데이터를 얼굴에 전통적인 ETL 도구 유효 하지 않습니다 종종 완전히, 주로 하기 때문에 데이터 형식 변환 비용 너무 크고, 성능에 대규모 데이터 수집의 요구를 충족 하지 않을 수 있습니다. 인터넷 기업의 대규모 데이터 수집 도구, 오픈 소스 학자, 링크 드 인 오픈 소스 카프카, Taobao 오픈 소스 Timetunnel, Hadoop Chukwa에 페이스 북은, 모두 두 번째 로그 데이터 수집 및 전송 요구, 당 메가바이트의 수백을 만날 수 있다 그리고 Hadoop 중앙 시스템에 데이터를 업로드.
큰 데이터의 데이터 저장, 따라 그것 메모리 수준, BT 수준 및 대량 수준의 세 종류로 나뉘어져 있습니다.
메모리 수준은 주로 클러스터 메모리의 범위에 있는 데이터의 최대 크기입니다. 메모리의 용량 과소 평가 하지 않습니다, 페이스 북 캐시는 데이터의 메모리에서는 320 TB, 그리고 현재 PC 서버 메모리 100 g 이상 수 있습니다. 메모리 데이터베이스를 사용 하 여 메모리 수준에 대 한 신속한 분석 기능을 얻을 수 있도록 메모리에 상주 수 핫스팟 데이터베이스 실시간 비즈니스에 대 한 분석은 매우 적절 합니다. 다음 그림은 실용적이 고 실현 가능한 MongoDB 분석 아키텍처.
Mongdb 큰 클러스터, 일부 정기적인 방해의 안정성에 약간 문제가 있는 고 동기화 실패, 하지만 여전히 큰 잠재력을 될 수 있는 데이터 처리 NoSQL에 게 사용할 수 있습니다.
BT 레벨은 주로 그 메모리 너무 많은 양의 데이터, 일반적으로 전통적인 bi 제품에 그것을 넣을 수 및 특수 분석을 위한 데이터베이스 설계. 현재 주류 BI 제품에는 TB 급 데이터 분석 솔루션에 대 한 지원 합니다. 넓은 다양 한, 명확 하 게 열거.
대량 수준 완전히 무효화 하는 데이터 또는 데이터베이스와 BI 제품에 대 한 금지 비용의 금액을 말합니다. 또한 대규모 데이터 수준으로, 많은 우수한 엔터프라이즈급 제품 하지만 하드웨어와 소프트웨어의 비용을 기반으로, 대부분 인터넷 회사 현재를 사용 하 여 Hadoop의 HDFs 분산 파일 시스템 데이터를 저장 하 고 분석을 위한 MapReduce를 사용. 다차원 데이터 분석 플랫폼 Hadoop에 MapReduce에 따라이 문서의 뒷부분에 소개 된다.