소개: 오픈 소스 데이터 처리 플랫폼의 낮은 비용, 높은 확장성과 유연성의 장점 인식 네트워크 자이언츠의 대부분을 수상 하였다. 이제 Hadoop 더 많은 사업으로 갈 것입니다. IBM은 DB2 주력 데이터베이스 관리 시스템 내장 NoSQL 기술 내년 시작 됩니다. 오라클과 마이크로소프트 또한 공개 지난 달 그들은 Hadoop 기반 제품 내년 출시 계획. 두 회사는 기업 지원 및 배포 서비스와 지원을 제공 하기 위해 계획입니다. 오라클 대용량 데이터 장치에서 Hadoop 소프트웨어를 사전 설치를 약속 했다.
큰 데이터 혁명은 Apache Hadoop의 한가운데에 이다. 논쟁 되었습니다 들어있다 이후 오픈 소스 분산 데이터 처리 플랫폼은 5 년 전에 나왔다. 하지만 지난 18 개월 동안 Hadoop 고객의 승인을 수상 하였으며 많은 상업 지원 및 수많은 데이터베이스 및 데이터 통합 소프트웨어 제공 업체의 통합에 의해 지원 되었습니다. 많은 공급 업체 중 3 명의 가장 유명한 상업 데이터 공급자는 오라클과 IBM, 마이크로소프트.
Hadoop 미래에 큰 데이터에 대 한 주요 기술 될 것 이다?
하 둡 분산, 조밀한 데이터 처리 및 분석 기반 자바 소프트웨어 프레임 워크입니다. Hadoop은 Google 2004 백서에 정교 MapReduce 기술에 의해 크게 영감 이다. MapReduce는 작업을 작은 작업 조각, 수천의 수백을 침입 하 고 다음 컴퓨터의 클러스터에 그들을 보내 작동 합니다. 각 컴퓨터의 정보를 그것의 자신의 부분에서 전송 고 MapReduce 신속 하 게 피드백을 통합 하 고 대답을 형성.
Hadoop은 매우 확장 가능 하 고 Hadoop 분산 대용량 데이터 처리 저 비 X86의 수천에 걸쳐 서버 컴퓨트 노드. 그리고 잘 알려진 무어 법률 때문에 메모리 및 디스크 용량 또한 성장 하고있다. 16 코어 프로세서, 12 TB 또는 지금 배포 하는 노드 당 심지어 24 TB 디스크의 하드웨어에 대 한 Hadoop 지원 또한 증가 하고있다. Cloudera 제품 노드 당 4000 달러에 대해 비용을 공개 했다. 이 가격은 TB 당 10000 12000 달러의 관계형 데이터베이스 배포에 대 한 경쟁 우위 이다.
높은 용량과 저렴 한 비용의이 조합은 이다 강력한, 하지만 Hadoop 혼합된 데이터 형식을 처리 하는 능력에 게 가장 매력적 이다.
Hadoop은 서버 로그 파일 및 웹 클릭 스트림 데이터와 구조적된 데이터를 관리할 수 있습니다. 또한 페이스 북과 트위터와 같은 구조화 되지 않은 텍스트에 중심 데이터를 관리할 수 있습니다. 여러 종류의 데이터를 처리 하는이 능력은 중요 합니다. NoSQL 플랫폼 및 제품 양산. 카산드라, CouchDB, MongoDB, 그리고 오라클의 최신 NoSQL 데이터베이스 등. MySQL, 마이크로 소프트 SQL 서버, IBM Db2, ORACLE 등 전통적인 관계형 데이터베이스는 혼합 된 데이터 형식 및 구조화 되지 않은 데이터를 처리할 수 없습니다. Hadoop은 트랜잭션 유연성에 대 한 필요성으로 인해 대부분의 데이터 분석 공급 업체의 지원과 관심을 가져옵니다.
Hadoop은 널리 이용 되는
오늘, Hadoop은 구조화 되지 않은 데이터에 대 한 독자적인 기술 간주 됩니다. 낮은 비용, 높은 확장성과 유연성의 장점 질량-클릭 트래픽 분석 및 광고 위치 거래 AOL 등 컴 네트워크 거 인에 대 한 첫 번째 선택의 여지가 되고있다.
AOL 3 년 이상에 대 한 Hadoop을 사용 하고있다. AOL의 연구 팀 수십억의 하루 이벤트 및 클릭 스트림 데이터의 이상 500 t B를 저장할 수 있는 캘리포니아 주 마운틴 뷰에 있는 300 노드 시스템 배포. 클릭 하 여 생성 되는 스트림 데이터는 고도로 구조화, 하지만 데이터의 볼륨은 매우 크고 다양 한. 그래서 그것은 불가능 거의 모든 추출, 변환, 처리 하 고 작업을 로드 하기 합니다. 이러한 문제를 해결 하려면 AOL Hadoop mapreduce를 사용 하 여 데이터 필터링 처리 하기로 하 고 작업 분산 계산 노드에서의 수백 관련 된. Hadoop을 비즈니스에 제공 하는 이점 때문에 AOL의 Hadoop 연구 팀이 4 월 700-노드 시스템 본사에서 배포.
모든 종류의 데이터에 대 한 Hadoop의 자연 둡 분야의 넓은 범위에서 사용할 수 있도록 운명이 다. 예로 호스팅 서비스 및 중소 기업 응용 프로그램 서비스 공급자 Sungrad 있습니다. 그들은 금융 서비스 회사 Hadoop MapReduce를 기반 데이터 처리와 함께 처리 수 있도록 설계 된 클라우드 기반 호스팅 서비스를 시작 하려고 합니다.
상용 소프트웨어 공급 업체 Tidemark 최근 제품이 나 금융 계획 솔루션에 혼합된 데이터 소스를 변환할 MapReduce를 사용 하는 SaaS는 소프트웨어를 시작 했다.
발휘 하는 강한 힘으로 3 개의 큰 데이터 필드
지난 달 IBM Academician, 라스베가스, 미국에서 열린 IoD 연례 회의에서 DB2 일반 건축가 커트 코너 IBM 내장 DB2 기술 NOSQL 주력 데이터베이스 관리 시스템 내년 출시 예정을 발표 했다. 그는 또한 데이터베이스 개발의 미래 방향 NoSQL 데이터베이스는 말했다. 현재, Google의 BigTable과 아마존의 디나모는 사용된 NoSQL 데이터베이스, 그리고 매우 높은 규모, 처리에 전통적인 관계형 데이터베이스 높은 동시 SNS, web2.0 사이트 힘이 되었습니다. IBM는 또한 일련의 Infosphere biginsights의 클라우드 컴퓨팅 버전을 포함 한 데이터 분석 소프트웨어를 출시 했습니다. Biginsights는 Hadoop, 기업 사용자가 구조화 되지 않은 데이터의 큰 금액을, 수집 처리 능력에 구축 된 데이터 분석 소프트웨어의 집합입니다.
마이크로소프트 또한 발표 했다 시애틀에서 SQL 통과 2011 정상 회담에서 10 월 12 일에 그것 Hortonworks, 야 후, Hadoop를 개발 하 고 Windows Azure와 윈도우 아파치 하 둡 구축에서 스핀을 작업할 것 서버 플랫폼입니다. Hadoop 기반 윈도우 서버는 또한 마이크로 소프트의 기존 BI 도구와 공동으로 작업을 처리 합니다.
Oracle는 또한 세계에서 가장 큰 관계형 데이터베이스 공급자 행동. 그것은 오라클 글로벌 컨퍼런스에서 큰 데이터 기기 시작. 큰 데이터 기기는 시스템을 통합 하는 둡, NoSQL 데이터베이스, Oracle 데이터베이스 Hadoop 어댑터, Oracle 데이터베이스 Hadoop 로더, 및 R 언어.
Hadoop의 미래
현재 상황에 따라, 하 둡, 엔터프라이즈 데이터 웨어하우스 아키텍처의 핵심 기술로 계속 다음 몇 년 동안에서 성장. 모임의 Zettaset, Cloudera, hstreaming를 포함 하 여 새로운 Hadoop 관련 회사, Hadapt, DataStax, Datameer, 투자 되 고 다양 한 시장에 최신 기술을 가져오기 위해 유명 하다.
같은 시간에 MapReduce의 다음 세대는 많은 사람들이 이상적인 장소 하기 전에 향상 됩니다. 첫째, 노드 수는 현재 4000-6000 10000, 100000에 현재 40000에서 동시 작업의 수에 따라에서 증가할 것 이다. 추가 하드웨어 지원 등 더 많은 프로그래밍 지원 아키텍처 변경 함께 계속 됩니다.
(책임 편집기: 유산의 좋은)