그것의 저가 및 전례 없는 높은 확장성, Hadoop으로 대용량 데이터 처리 플랫폼의 새로운 세대 인정 되었습니다. 같은 SQL 구조적 쿼리 언어 30 년 전, 하 둡 데이터 혁명의 새로운 라운드를 데리고 있다. 이제는 하 둡 켜져 있다 신생 코끼리에서 업계에 거 대 한, Hadoop 아직도 완벽 하 게 될 필요가 있다.
Java 언어 기반 Hadoop 프레임 워크는 실제로 분산된 처리 대용량 데이터 플랫폼, 소프트웨어 및 많은 하위 프로젝트를 포함 하. Hadoop은 지난 10 년간에서 큰 데이터 혁명의 센터 되었다. MapReduce Hadoop의 핵심으로 크고 대형 데이터 집합 (데이터의 테라 바이트)의 처리 이다. 스트리밍 데이터 네트워크 클릭에 의해 생성 된를 포함 하 여 로그 파일, 소셜 네트워크, 등, 그리고 실행에 대 한 관련 프로그래밍 모델을 생성. 주요 아이디어 함수형 프로그래밍 언어에서 레슨을 그릴 이며 그것은 또한 포함 하는 프로그래밍 언어에서에서 특성.
인터넷 거 대 한 야 후, Hadoop 프레임 워크에 선구자는 Hadoop 매우 성공적인 기술 6 년에 제출 했다. 하지만 그것은 sql, hadoop에 비해 어떤 점에서 아직 완벽 하지 않아. Hadoop 공급 업체에 직접 오늘의 관심의 초점을이 끈다. 아마존, Cloudera 및 다른 회사를 포함 하 여 많은 혁신을가지고 하 고 강력한 도구를 제공 합니다. 관리 하 고 Apache Mahout, Flume, Sqoop, 돼지, Oozie, 하이브, HBase, 동물원의 사육 담당자, Hadoop에 복잡 한 작업을 실행할 수 있는 여러 추가 소프트웨어를 포함 하는 Cloudera의 CHD3 Whirr. 동시에 Cloudera은 현재 엔터프라이즈 Hadoop 기술 지원의 가장 큰 공급자 및 제조자. 아마존, 공공에 Hadoop을 실행 하는 회사 이전 클라우드, 방대한 양의 데이터 컴퓨팅 MapReduce 유연한 컴퓨팅 기반 서비스를 제공 합니다.
하지만 데이터 처리만 큰 데이터 처리의 일부 이며는 궁극적으로 조직이 분석 후 귀중 한 데이터를 얻을. Datameer, HADAPT 및 Karmasphere와 같은 비즈니스 인텔리전스 및 데이터 분석 업체 필수적입니다.
가장 확실 한 기호 Hadoop 입증 2011 년에 그것의 가치는 5 개의 주요 데이터베이스 관리 소프트웨어 공급 업체, EMC, IBM, 인포, 마이크로 소프트, 및 Oracle, Hadoop의 팔에 있었다. EMC 반발할, 마이크로소프트와 오라클 각각 Cloudera Hortonworks와 협력 하는 동안 일했다. 그리고 EMC와 Oracle Hadoop 독자적인 장치를 도입 했습니다. 이제 살펴 봅시다는 Hadoop의 캡처 회사의 마음의 큰 데이터 필드에.
아마존 기반 MapReduce 서비스
아마존 출시는 EC2 (엘라 스틱 컴퓨트 클라우드) 서비스 2009 년 일찍 Hadoop MapReduce를 기반. 그래서 아마존 사용자 애플 리 케이 션 및 요구에 응답 자신감 이다. 그들은 작은 또는 중간 크기의 기업 또는 매우 큰 조직 MapReduce를 기반 하는 EC2 서비스 테스트, 성장 있다. 또한, AWS (아마존 웹 서비스) 포함 아마존 S3 (간단한 저장 서비스). 아마존 S3 높은 확장성, 신뢰성, 고가용성 및 매우 낮은 스토리지 비용을 제공합니다. AWS를 사용 하 여 웹 인덱싱, 데이터 마이닝, 로그 파일 분석, 기계 학습, 및 과학 및 생물 정보에 대 한 학술 연구 등의 데이터 집약적인 작업을 효율적으로 처리.
Cloudera 보안 Hadoop 플랫폼을 제공합니다.
Cloudera는 이전 대규모 Hadoop 소프트웨어 및 서비스 공급자 이기도합니다. Cloudera는 신뢰할 수 있는 플랫폼으로 오픈 소스 아파치 하 둡을 완성에 집중 했다. Cloudera 현재 100 개 이상의 고객을 보유 하 고 협력 오라클이 달 큰 데이터 영역에 들어가.
Cloudera 큰 데이터 및 엔터 프 라이즈-클래스 지원으로 서 Hadoop 배포, 관리 하기 위한 도구를 관리 하기 위한 관리 콘솔을 제공 합니다. Cloudera의 관리 도구는 마법사 기반 Hadoop 설치 및 구성 메뉴를 제공합니다. 그것은 또한 시스템 관리자가 플랫폼의 상태를 모니터링, 문제를 진단 하 고, 성능을 최적화 하 고 필요한 구성 및 보안 변경 도구를 제공 합니다. 그리고 Cloudera의 엔터프라이즈 지원 및 서비스 구성 확인, 업그레이드 및 기타 기술 리소스 뿐 아니라 제 3 자 시스템, 통합을 포함. 오늘날의 Cloudera 관리 소프트웨어 지금 년 (하드웨어 제외) 노드 당 4000 달러에 가격이 책정 됩니다.
Datameer 결합 하 여 큰 데이터 비즈니스 인텔리전스
Datameer의 회사 Hadoop 플랫폼의 제품 솔루션 Das (Datameer 분석 솔루션)에 따라 이상적-비즈니스 인텔리전스 (BI)는 주장 한다. Datameer는 JDBC, 하이브, 및 HTTP를 통해 모든 데이터 원본에 연결할 수 있습니다. 또한 마법사 기반 통합 플랫폼을 부하를 예약할 수 및 어떤에서 구조화, 반 구조화 및 구조화 되지 않은 대용량 데이터 집합을 포함 합니다. Datameer의 대용량 데이터 분석 솔루션 테이블 형식 인터페이스를 통해 Hadoop의 데이터 마이닝 기능을 통합합니다. 그리고 입력 하 고 나머지 API를 통해 민간 및 공공 클라우드에서 데이터를 출력.
EMC의 통합 데이터 분석 플랫폼
EMC 플랫폼 ――EMC 출시 Greenplum 통합 분석 플랫폼 (UAP) 대용량 데이터 분석을 지원. Greenplum UAP는 다른 도구를 확장할 수 있는 유일한 통합된 데이터 분석 플랫폼 그리고 그 고유성의 인식 하 고 그 어느 때 보다 높은 상업적 가치를 달성 하기 위해 분석 과정을 통해 큰 데이터의 공유에 있다. UAP은 EMC Greenplum 관계형 데이터베이스, EMC Greenplum HD Hadoop 및 EMC Greenplum 코러스 포함 되어 있습니다. UAP는 데이터 과학자 그리고 bi 분석가에서 Dba 및 온라인 비즈니스 사용자와 관리자에 이르기까지 데이터 분석 팀 같다. 하드웨어 장치 DCA (데이터 컴퓨팅 어플라이언스)에 대 한 EMC EMC Greenplum 관계형 데이터베이스와 EMC Greenplum HD 노드를 실행 해도 됩니다. DCA는 Greenplum 데이터베이스 및 Hadoop 시스템 성능 관리를 모니터링 하는 관리를 용이 하 게 제어 관리 인터페이스를 제공 합니다.
Hadoop 환경 HADAPT의 완벽 한 통합
Hadoop에서 실행 데이터 웨어하우스 구성 요소로 하이브 Hadoop으로 관심사의 많은 되지 않습니다. HADAPT 기능 데이터 분석 환경 Hadoop에 전통적인 구조화 된 데이터를 처리 하도록 설계 된 및 SQL 환경 제공 합니다. HADAPT 플랫폼 클라우드 및 공용 클라우드는 전용 실행 하 고 환경에서 데이터를 액세스 하는 기능을 제공 합니다. 기존 sql 기반 도구가 mapreduce 처리 및 대용량 데이터 분석. HADAPT은 Hadoop의 높은 확장성과 관계형 데이터베이스의 높은 속도 활용 하 여 Hadoop와 관계형 데이터베이스 간의 쿼리를 자동으로 구분 합니다.
Hortonworks 상속 야 후! Hadoop의 맨 틀
Yahoo!는 Hadoop 비즈니스 지난해 기준 자본, 실리콘 밸리의 벤처 회사, Hortonworks 회사를 만들려고 조인트 벤처를 형성 했다. 야 후에 가장 큰 기여자의 50를 포함 하는 새로운 회사, Hadoop의 개발 드라이브를 계속 하는 것을 목표로. Hortonworks 임원 주장 야 후 개발 팀 더 많은 둡 코드를 기여 하 고 Hadoop 플랫폼의 미래 발달을 인도 한다. 지난해 10 월 마이크로소프트와 Hortonworks 제휴입니다. Hortonworks Microsoft Windows 플랫폼에서 Hadoop을 출시할 수 있습니다. Hortonworks 또한 시작 무료 HDP (Hortonworks 데이터 플랫폼) V1 지난해 11 월 동안 HDP V2, Hadoop의 최신 0.23 버전을 결합 하는 2012 년 1 분기에 시작 됩니다. Hortonworks는 또한 훈련과 Cloudera와 모임의이 지역에서 경쟁을 강화 하 둡에 대 한 지원을 제공 합니다.
Hadoop IBM의 경로
IBM 년전 Hadoop을 공부 하기 시작 했다. IBM는 이제 기반 클라우드 서비스, 클라우드 기반 데이터 분석에 대 한 옵션의 넓은 범위를 제공 하지만 현재 IBM 전략 hadoop 크게 될 것으로 보인다. IBM의 SmartCloud 클라우드를 컴퓨팅 플랫폼을 4 월에 시작 했다. 그리고 Hadoop 작업을 개선 하기 위해 약속. IBM은 Infosphere biginsights (IBM Infosphere biginsights는 소프트웨어 및 서비스를 분석 하 고 대량의 데이터를 아파치 하 둡에 의해 지원 되는 가상화.) 하 둡에 기반을 제공 합니다. 기본 버전 및 엔터프라이즈 버전 Infosphere Biginsights, 클라우드 제품 이전 테스트 및 IBM에 의해 개발은 지금 SmartCloud에 의해 대체 되 고 있습니다.
인포 더 클라우드
대부분 데이터 관리 소프트웨어의 공급 업체, IBM, 오라클, Syncsort, Talend, 등 모든 Hadoop을 포함 한다. Informatica는 또한 10 월 마지막 년 ――hparser에 데이터 컴파일 변환 솔루션을 Hadoop에서 시작 했다.
이 프로그램 MapReduce 아키텍처에 평행 하 게 거의 모든 아파치 하 둡 분산 환경에서 실행할 수 있으며 효율적으로 넣어 복잡 한 구조화 되지 않은 데이터 같은 네트워크 레코드, 소셜 미디어 데이터, 전화 세부 사항, 및 다른 데이터 형식- 구조 또는 Hadoop에서 반 구조화 된 형식으로 변환 합니다. 때 더 구조화 된 형식으로 변환 되는 데이터, 그것은 사용할 수 있습니다 보다 신속 하 고 효과적으로, 따라서 비즈니스 개발 하 고 운영 효율성을 개선.
Karmasphere 하 둡 데이터 분석 도구
Karmasphere는 Karmasphere는 또한 visual 작업 영역을 제공 하는 동안 Hadoop에 데이터와 구조화 되지 않은 데이터에 대 한 직접 액세스의 기능 및 추가 쿼리, 분석을 제공 합니다. Karmasphere는 아마존 S3, 워크플로 및 로컬 파일 시스템에 있는 구조화 및 구조화 되지 않은 데이터의 특성을 분석 하는 SQL 이나 다른 특정 쿼리 언어를 제공 하는 시각적 도구를 제공 합니다. 조직 분석에서 데이터를 추출할 데이터베이스 또는 Excel와 같은 관련된 도구를 사용할 수도 있습니다.
모임의 입으 면 더 높은 성능 둡
모임의 둡 둡 독특한 제공의 무대에서 특히 눈부신입니다. 모임의 오픈 소스 제공 하는 제한 된 하드웨어 환경에서 빠른 둡 둡을 기반으로 합니다. 같은 시간에 반발할 스냅샷 갖추고 고 자랑 아무 spof 단일 노드 오류 그리고 기존 HDFs Api와 호환 간주 됩니다. 따라서 매우 간편 하 고 원래 시스템입니다. 모임의 최신 버전 0.23 많은 오픈 소스 Hadoop의 함정을 해결합니다. 모임의 협력 EMC 모임의 M5에 따라 EMC Greenplum HD Enterprise Edition에 만들어집니다.
마이크로소프트는 완전히 Hadoop을 포용
EMC, IBM, Oracle 2011에서 Hadoop에 참여 했다 때 마이크로소프트의 포옹 Hadoop의 놀라운 되지 않았습니다. Hadoop의 윈도우 서버 2012에서 시작 됩니다 그리고 그것은 또한 마이크로 소프트의 기존 BI 도구와 함께 작동 합니다. Microsoft은 Windows Azure에서 Hadoop 미리 보기를 시작 했다 그리고 그 마이크로소프트 했다 또한 가능 하 둡 데이터 클라우드 기반 Windows Azure에 배포 하 여 지난해 말했다. 그리고 기업의 비즈니스 인텔리전스 도구를 사용 하 여 데이터를 분석할 수 있도록. 마이크로소프트는 다운로드, 설치 및 구성 하는 여러 가지 하 둡 기술을 위한 기술 단순화 하기 위해 Hortonworks와 함께 일하고 있다. HDFs, 통 돼지를 포함 하 여. Hadoop 통해 그들의 비즈니스를 확대 하는 회사 도움이 됩니다. Microsoft 새 ODBC 드라이버를 작성 하 고 기존 쿼리 시스템 하이브을 확장 합니다. 사용자가 직접 Excel과 Powerview에서 Hadoop 쿼리를 실행할 수 있습니다.
오라클 입력 클라우드 컴퓨팅
Oracle는 Oracle 글로벌 컨퍼런스에서 Oracle 큰 데이터 기기를 발표 했다. 큰 데이터 기기는 시스템을 통합 하는 둡, NoSQL 데이터베이스, Oracle 데이터베이스 Hadoop 어댑터, Oracle 데이터베이스 Hadoop 로더, 및 R 언어. Oracle는 또한 올해 1 월에 Cloudera 협력 되었다. 오라클은 지금 Cloudera 배포판 Oracle 큰 데이터 기계로 아파치 하 둡 (CDH) 및 Cloudera 관리자를 포함 한 통합. Oracle 사용 합니다 Cloudera의 전문성 Hadoop의 분야에서 교육 및 컨설팅 서비스 제공. 오라클의 리눅스 운영 체제 1 랙 18 오라클-썬 서버, 864 기가바이트 메모리와 648 TB 저장 용량, $450000에 216 코어의 총 포함 된 오라클의 대형 데이터 시스템에서 실행 됩니다.