큰 데이터는 무엇입니까?;을 요청할 수 있습니다. 더 중요 한 것은, 그것은 왜 거의 모든 사업 분야에서 최신 트렌드? 용어-그것은 정확 하 게 그것이 사실 "빅 데이터" 매우 간단 하기 때문에 매우 큰 데이터 집합을 말한다. 얼마나 큰 가요? 정확한 대답은 "당신이 상상할 수 있는 큰"! 어떻게이 데이터 집합 수 너무 큰? 데이터는 어디에서 올 수 있기 때문에: 트래픽 데이터, 휴대 전화, 소셜 미디어 사이트, 디지털 사진 및 비디오, 날씨 정보, GPRS 패킷을 수집 하는 센서를 수집 RFID 센서 온라인 구매 거래 기록 이름! 큰 데이터 생성, 데이터를 포함할 수 있는 거 대 한 데이터 집합 이며 물론 필수가이 정보는 우리에 게 관심의.
그러나, 큰 데이터의 의미는 절대로 관련 볼륨, 새로운 통찰력, 양식 새로운 데이터를 찾는 데 큰 데이터를 사용하실 수 있습니다 및 콘텐츠, 우리는 통찰력, 데이터 및 콘텐츠 비즈니스 보다 유연 수 있도록 대용량 데이터 처리에서와 현재 카테고리 보다 훨씬 이전에 생각을 질문에 답변을 추출 사용할 수 있기 때문에. 이 때문에 큰 데이터 다음 4 영역에 정의 됩니다: 볼륨 (볼륨), 다양성 (다중), 속도 (효율), 그리고는 4V 대용량 데이터의 정확성 (값, 값). 다음 각 기능 및 그것은 직면 하는 과제를 설명 합니다.
1. 볼륨
볼륨은 사업 해야 합니다 캡처, 저장 및 액세스 하 고, 지난 2 년 동안 혼자 세계에서 모든 데이터의 90%를 생산 하는 데이터의 양을 대 한 이야기입니다. 오늘날의 기관 쉽게 테라바이트와 심지어 페타 바이트의 데이터를 다른 유형의 생산 데이터의 볼륨에 의해 완전히 압도 하 고 이러한 데이터 중 일부 (도난), 구성, 보호 하는 데 필요한 분석.
2. 다양 한
세계의 데이터의 80%는 반 구조화 된, 그리고 센서, 스마트 기기와 소셜 미디어 웹 페이지, 블로그, 소셜 미디어 포럼, 오디오, 비디오를 통해이 데이터를 생성, 스트림, 전자 메일, 문서, 및 감지 시스템을 클릭 합니다. 전통적인 분석 제도 종종 구조화 된 데이터에 대 한 적합 한 예: 관계형 데이터베이스에 저장 된 데이터는 완벽 한 구조 모델. 데이터 형식의 다양성은 또한 우리가 데이터 저장 및 현재 결정 및 지식 처리를 지원 하기 위해 분석에 근본적인 변화를 만들 필요가 의미 합니다. 다양 한 자료형을 쉽게 캡처할 수 없습니다 쉽게 저장 될 수 있다 하지만 전통적인 관계형 데이터베이스에서 관리와 큰 데이터 기술을 사용 하 여 분석을 나타냅니다.
3. 속도
속도 근처 실시간 분석을 데이터의 일컬어 "가끔 2 분은 너무 늦 었 어!"이 필요 합니다. 경쟁 우위를 얻고 최대한 빨리 귀하의 경쟁 업체 뿐만 아니라 분 또는 초, 새로운 트렌드 또는 기회를 식별 해야 의미 합니다. 또 다른 예는 범죄자, 데이터를 수집 하 고 다음 최대 가치를 달성 하기 위해 구문 분석 해야 합니다 어디 캡처 같은 시간에 민감한 데이터의 처리. 시간에 민감한 데이터 수명은 종종 매우 짧은 단체 또는 기관 분석에 근처 실시간 접근을 사용 하는 필요.
4. 정확성
데이터를 분석 하 여 기회를 파악 하 고 값 데이터 거짓말 결정의 지원의 중요성을 얻을에 도착; 사용 사례와 관련 된 가능한 한 많은 정보를 원하는 귀하의 비즈니스에 상당한 영향을 미칠 수 있습니다 결정, 볼 때. 혼자 하는 데이터의 양을 여부 결정에 도움이 이며 신뢰성과 데이터의 품질은 통찰력과 아이디어, 그래서 이것이 성공적인 결정을 만들기 위한 가장 견고한 기초 취득에 가장 중요 한 요소를 확인 하지 않습니다.
그러나, 현재 비즈니스 인텔리전스 및 데이터 웨어하우징 기술 마음이 완전히 4V 이론을 지원 하지 않습니다, 그리고 대규모 데이터 처리 응용 프로그램의 개발은 이러한 문제를 해결 하기.
다음은 대규모 데이터 처리 분야에서 Java를 지 원하는 오픈 소스 도구를 주류에 소개입니다.
1. HDFS
HDFS는 Hadoop 응용 프로그램에서 주요 분산된 스토리지 시스템 이며 HDFS 클러스터 포함 Datanode (데이터 노드) 실제 데이터를 저장 하 고 모든 파일 시스템에 대 한 메타 데이터를 관리 하는 namenode (마스터 노드). HDFs 그래서 규모가 작은 파일 최적화에서 전통적인 파일 시스템에 비해 대규모 데이터를 위한 것 이다, HDFs 최적화 큰 파일 액세스 및 저장의 작은 배치.
2. MapReduce
Hadoop MapReduce입니다 쉽게 대규모 (테라바이트)의 데이터를 처리 하는 병렬 응용 프로그램을 작성 하는 소프트웨어 프레임 워크 연결 노드를 수천 수만의 큰 클러스터 (상용 하드웨어)에 안정적이 고 결함 허용 방식.
3. HBase
아파치 hbase 하 둡 데이터베이스, 분산, 확장성, 큰 데이터 저장소입니다. 그것은 큰 데이터 집합을 무작위 및 실시간 읽기/쓰기 액세스를 제공 하 고 상업 서버 클러스터-수백억 행에 큰 테이블에 대 한 최적화. 핵심은 Google BigTable 종이, 분산된 저장소의 오픈 소스 구현입니다. 마찬가지로 BigTable GFS (Google 파일 시스템)에서 제공 하는 분산된 데이터 저장소를 사용 하 bigatable Apache Hadoop hdfs 기준 제공 하는 클래스입니다.
4. 카산드라
아파치 카산드라는 상용 하드웨어 또는 클라우드 인프라에 완벽 하 게 미션 크리티컬 데이터 플랫폼을 만드는 데 사용할 수 있는 높은-성능, 선형 확장성, 그리고 매우 효율적인 데이터베이스입니다. 데이터 센터에 걸쳐 복제, 카산드라에서는 최고-에서-클래스, 낮은 대기 시간 및 보다 안정적인 재해 백업을 제공 하는 사용자입니다. 표준화, 구체화 된 뷰 및 강력한 내장 캐싱, 안티 로그 구조 업데이트에 대 한 강력한 지원 카산드라 데이터 모델 (열 Indexe) 편리한 2 단계 인덱스를 제공합니다.
5. 하이브
아파치 하이브 데이터 (데이터베이스 테이블에 구조화 된 데이터 파일을 매핑), 임시 쿼리 및 Hadoop 호환 시스템에 저장 하는 큰 데이터 집합 분석의 검토를 용이 하 게 하는 하 둡에 대 한 데이터 웨어하우스 시스템입니다. 하이브 제공 완전 한 SQL 쿼리 기능-HIVEQL 언어,이 언어를 사용 하 여 표현 하는 논리 비효율적인 및 성가신, HIVEQL 또한 전통적인 맵/리듀스 그들의 자신의 사용자 지정 매퍼 및 감속 기를 사용 하는 프로그래머.
6. 돼지
아파치 돼지 데이터 분석 응용 프로그램에 대 한 높은 수준의 언어와 이러한 응용 프로그램을 평가 하기 위한 인프라를 포함 하는 큰 데이터 집합 분석을 위한 플랫폼 이다. 돼지 응용 프로그램의 플래시 기능은 그들의 구조 병렬 처리, 그들은 매우 큰 데이터 집합을 지 원하는 즉 많이 일어. 돼지 인프라 계층 컴파일러는 생산 지도-감소 작업을 포함 합니다. 돼지의 언어 계층은 현재 모국어를-돼지 라틴어, 쉽게 프로그램 및 확장성을 보장 하기 위해 설계 된 포함 되어 있습니다.
7. Chukwa
아파치 Chukwa 큰 분배 시스템을 모니터링 하기 위한 오픈 소스 데이터 수집 시스템입니다. HDFs와 맵/리듀스 프레임 워크에 내장 된, 그것은 Hadoop의 안정성과 확장성을 상속 받습니다. Chukwa은 표시 하 고, 모니터링, 데이터의 사용을 최선의 결과 분석에 대 한 유연 하 고 강력한 도구 키트를도 포함 되어 있습니다.
8. Ambari
아파치 Ambari은 구성, 관리, 및 Apache Hadoop 클러스터를 모니터링 하는 웹 기반 도구를 Hadoop의 HDFS, Hadoop MapReduce, 하이브, Hcatalog, HBase, 동물원의 사육 담당자, 지원 Oozie, 돼지 그리고 Sqoop입니다. Ambari 또한 heatmaps 클러스터 상태 대시보드를 제공 합니다 MapReduce, 돼지, 및 하이브 응용 프로그램, 그리고 사용자 친화적인 사용자 인터페이스에 그들의 성능 특성을 진단.
9. 동물원의 사육 담당자
아파치 동물원의 사육 담당자는 신뢰할 수 있는 조정 시스템 대형 분산된 시스템에 대 한 명명 서비스, 분산된 동기화, 그룹 서비스, 등등 구성 유지 관리를 포함 한 기능을 제공 하. 동물원의 사육 담당자의 목표는 복잡 하 고 오류가 발생 하기 쉬운 주요 서비스, 사용 하기 쉬운 인터페이스를 제공 하 고 사용자에 게 높은-성능, 기능적으로 안정적인 시스템을 캡슐화 하는 것입니다.
10. Sqoop
Sqoop은 Hadoop의 HDFs에 Hadoop 및 관계형 데이터베이스에서 데이터를 전송 하거나 관계형 데이터베이스에 관계형 데이터베이스에서 데이터를 가져올 하는 데 사용 하는 도구입니다.
11. Oozie
아파치 Oozie는 Hadoop 작업을 관리 하기 위한 시스템을 예약 하는 확장 가능 하 고 신뢰할 수 있는 확장 가능한 워크플로. Oozie 워크플로우 작업은 활성 감독된 acyclical 그래프 (Dag). Oozie 코디네이터 작업 시간 (주파수) 및 데이터 가용성에 따라 일반적으로 정기적인 Oozie 워크플로 작업에 의해 트리거됩니다. Oozie Hadoop 스택의 나머지, 아웃-오브-더-박스 Hadoop 작업의 여러 종류를 지원 합니다 (예: Java 맵 리듀스, 스트리밍 맵 리듀스, 돼지, 하이브, Sqoop, 및 DISTCP) 및 기타 시스템 작업 (예: Java 프로그램과 쉘 스크립트).
12. mahout
Apache Mahout 확장 기계 학습 및 데이터 마이닝 라이브러리 이며 현재 Mahout 지원 주요 4 사용 사례:
마이닝을 권장: 사용자 작업을 수집 하 고 그들을 사용 하는 것 같아서 추천 하.
집계: 파일 및 그룹 관련된 파일을 수집합니다.
카테고리: 기존 분류 문서에서 문서에 있는 비슷한 기능을 찾고 학습과 올바르게 레이블 없이 문서를 분류 합니다.
잦은 항목 집합 마이닝: 그룹화 항목의 그룹 및 개별 항목을 식별 종종 나타납니다 함께.
13. HCatalog
아파치 Hcatalog는 매핑 테이블 및 저장 포함 하는 데이터를 구축 하 둡에 대 한 관리 서비스:
패턴 및 데이터 형식을 공유 하는 메커니즘을 제공 합니다.
사용자가 방법과 데이터 저장소의 주소에 집중할 필요가 없습니다 있도록 추상 테이블을 제공 합니다.
돼지, MapReduce, 하이브 등 데이터 처리 도구에 대 한 상호 운용성을 제공합니다.
당신은 또한 같은 수 있습니다.
1. "무료 다운로드" 연구와 Hadoop을 기반으로 대규모 대형 데이터 처리 모델의 응용 프로그램
2. Youku 도입 큰 데이터 처리를 불꽃
3. "건조" R와 대형 데이터 처리 설정에 대 한