큰 데이터 각계 각층에 급속 하 게 성장 그리고 많은 단체를 관리 하 고 이러한 많은 양의 데이터 뿐만 아니라 관리 및 제어 데이터, 하지만 분석 하 고 사업 개발을 촉진 하기 위해 가치를 누릅니다 제어할 새롭고 창조적인 방법을 찾아 강제로 되었습니다. 큰 데이터를 보고, Hadoop, Mongdb, 스파크, 임 팔 라, 등, 지난 몇 년 동안에서 파괴 기술 많이 왔다 고 이러한 최첨단 기술을 이해는 데 더 큰 데이터 개발의 추세 파악. 그것은 사실 뭔가 이해, 하나 먼저 당사자 것에 이해 해야 합니다. 따라서, 큰 데이터를 이해 하려면 빛 이해 기술이 아니다 충분히 10 자이언츠의 큰 데이터 필드에서이 문서 업계의 개발 상황에 큰 데이터의 자세한 이해를 도와줄 것입니다.
대형 데이터 필드에 10 오픈 소스 기술
에 최신 시스 코 글로벌 클라우드 지 2017 년말까지 평균 글로벌 데이터 센터 IP 트래픽을 7.7ZB 도달 것으로 예상 된다. 전반적으로, 데이터 센터 IP 트래픽 25% (CAGR)의 결합 된 연간 성장 율으로 2017 2012에서 성장할 것입니다.
성장은 이제 빠르고 조직 운영, 계량, 및 그들의 비즈니스를 성장 수 있도록 데이터 집합의 많은 수에 의존 해야. 지난 몇 년 동안 큰 데이터베이스 페타 바이트 TB GB에서 개발의 과정을 받은.
또한, 데이터는 더 이상 한 장소에 저장 하 고 이러한 데이터의 증가와 클라우드 컴퓨팅의 개발, 데이터 배포 되어 저장.
큰 데이터 및 데이터 과학 개발 하는 거의 모든 산업
과학: 대형 입자 가속기는 초당 약 600 백만 번 충돌. 따라서, 센서 흐름 데이터 0.001% 미만 인 경우에 4 개의 큰 Hadron Collider 실험에서 생성 된 데이터 즉 데이터의 25PB (2012 년)에서 통계적으로 매년 생산 됩니다 및 백업 많은 양의 데이터를 생성 합니다 백업 데이터 200PB에 도달할 수 있습니다.
연구: NASA의 기후 시뮬레이션 센터 (NCCS) 32PB 기후 관측 및 그것의 슈퍼 컴퓨터 플랫폼에 아날로그 데이터의에 대 한 저장합니다.
개인/공개: 아마존까지 수백만의 백 엔드 작업 하루, 플러스 3 자 판매자에서 50 만명 이상의 쿼리 작업을 처리합니다. 아마존의 핵심 기술 아마존 7.8 TB, 18.5 TB, 24.7 TB의 용량을 가진 세계의 가장 큰 리눅스 데이터베이스, 3은 리눅스 기반의 데이터베이스 시스템, 그리고 2005 년, 실행 됩니다.
조직 관리 뿐 아니라 데이터를 대조 하 하지만 분석 하 고 일부 오픈 소스 대용량 데이터 기술 고려 가치가 있다 그래서 추가 사업 개발에 대 한 데이터를 내 같은 거 대 한 데이터를 제어 하는 새로운 창조적인 방법을 찾고 강제로:
이 큰 데이터 관리 플랫폼 아파치 HBase: Google의 강력한 bigtable 관리 엔진에 만들어집니다. 오픈 소스 데이터베이스, 자바 코딩, 그리고 여러 장점, 분산 HBase 원래 만들어진 Hadoop 플랫폼, 그리고이 강력한 데이터 관리 도구 또한 메시징 플랫폼의 광대 한 데이터를 관리 하기 위해 페이스 북에 의해 사용.
아파치 스톰:는 분산된 실시간 컴퓨팅 시스템 고속, 큰 데이터 스트림을 처리 하기 위한. 폭풍우는 또한 낮은 대기 시간 대시보드, 보안 경고, 및 기업 비즈니스 기회를 포착 하 고 새로운 사업을 보다 효율적으로 개발할 수 있도록 향상 된 동작 메서드를 추가 하는 동안 Apache Hadoop을 신뢰할 수 있는 실시간 데이터 처리 기능을 추가 합니다.
아파치 불꽃:이 기술을 사용 하 여 메모리 계산, 여러 반복 일괄 처리에서 시작 데이터를 데이터 웨어하우스, 흐름 처리 및 그래프 계산 반복 쿼리, 또한 또한 할 퓨즈를 메모리에 로드 하 고 계산 패러다임의 많은 종류에, 스파크 스칼라 언어 실현, HDFs, 구문을 사용 하 여 좋은 함께 Hadoop이 고 100 번 배 MapReduce 보다 빠른 실행.
아파치 Hadoop:이 기술은 신속 하 게 큰 데이터 관리 표준 중 하나 된다. 큰 데이터 집합 관리를 사용 하 고, Hadoop 복잡 한 분산된 응용 프로그램에 대 한 매우 좋은 성능을 나타냅니다 플랫폼의 유연성 상용 하드웨어 시스템에서 실행할 수 있습니다 그리고 그것은 쉽게 구조화, 반 구조화 된, 그리고 심지어 구조화 되지 않은 데이터 집합을 통합할 수 있습니다.
아파치 드릴: 얼마나 큰 데이터 집합 할 당신은?, 얼마나 큰 데이터 집합에 관계 없이 사실 드릴 쉽게 처리할 수 있습니다 그것. 인터랙티브 분석 플랫폼 HBase, 카산드라, 그리고 Mongodb, 드릴, 대규모 데이터 처리 및 신속한 결과 지원 하기 위해 설립 되었다.
아파치 Sqoop: 아마 당신의 데이터는 지금 잠겨 기존 시스템에, Sqoop 문제를 해결 하는 데 도움이 수 있습니다. 이 플랫폼은 동시 연결 하면 쉽게 Hadoop, 관계형 데이터베이스 시스템에서 데이터를 전송 하는 데이터 형식 및 메타 데이터 전파의 매핑 사용자 지정을. 사실, HDFs, 하이브, 및 HBase에 데이터 (예: 새 데이터)를 가져올 수 있습니다.
아파치 Giraph: 이것은 강력한 그래픽 처리 플랫폼 확장성 및 가용성 이다. 기술은 페이스 북에 의해 채택 되었다, Giraph는 Hadoop 환경에서 실행할 수 있으며 기존 Hadoop 시스템에 직접 배포할 수 있습니다. 이 방법에서는, 또한 기존 대형 데이터 처리 엔진을 활용 하면서 강력한 분산된 매핑 기능을 얻을 수 있습니다.
Cloudera 임 팔 라: 임 팔 라 모델은 또한 모든 쿼리를 모니터링 하 여 기존 Hadoop 클러스터에 배포할 수 있습니다. MapReduce, 같은 기술, 강력한 일괄 처리 기능와 임 팔 라 실시간 SQL 쿼리의 있으며 효율적인 SQL 쿼리를 사용 하면 신속 하 게 큰 데이터 플랫폼에 데이터에 대 한 배울 수 있습니다.
Gephi: 상관 정보, 계량을 사용할 수 있으며 데이터에 대 한 강력한 시각화를 생성 하 여 데이터에서 다른 통찰력을 얻을 수 있습니다. Gephi는 이미 여러 차트 종류를 지원 하 고 수백만 노드의 대규모 네트워크에서 실행할 수 있습니다. Gephi는 활성 사용자 커뮤니티, 또한 많은 플러그인, can, 기존 시스템의 완벽 한 통합을 제공 하는 Gephi, 그것은 또한 복잡할 수 그것 연결, 다양 한 노드, 데이터 흐름 및 시각화 분석에 대 한 기타 정보 분산된 시스템.
MongoDB:이 견고한 플랫폼을 많은 조직에 의해 존경 하 고 우수한 성능을 대용량 데이터 관리에 있다. MongoDB 원래 더블 클릭 직원에 의해 만들어진 고 지금 큰 데이터 관리에 널리 이용. MongoDB는 NoSQL 데이터베이스를 저장 하 고 JSON 같은 플랫폼에서 데이터를 처리 하는 데 사용할 수 있습니다 오픈 소스 기술을 사용 하 여 개발. 현재, 뉴욕 타임즈, 크레이그 리스트 및 많은 회사 대형 데이터 집합을 관리 하는 그들을 돕기 위해 MongoDB를 채택 했습니다. (Couchbase 서버 역할도 참조) 합니다.
우리의 국방부 (데이터-온-디맨드) 사회에서 많은 양의 데이터 매일 생성 하 고 주요 IT 시스템에 많은 양의 데이터를 수집 합니다. 매일, 그리고 유일한 높은-품질, 정량 데이터의 많은 폭발 인지 소셜 미디어 사진 또는 국제 저장소 트랜잭션, 그것을 다루는 방법은 신속 하 게 배포할 효율적인 관리 솔루션.
기억, 신속 하 게 분류 및 구성 데이터, IT 관리자 정보를 내 고 사업에 적용할 수 있어야 합니다. 비즈니스 인텔리전스 및 데이터 정량화의 뒤에 과학을 개발 하 고 확장 하 고, 계속 되 고 기업에 대 한 경쟁 우위를 열쇠 데이터를 잘 관리 하는 기능 이다.
톱 10 큰 데이터 필드를 무시할 수 없습니다
아마존 웹 서비스
포 레스터 호출 AWS "구름 대 군주," 하 고 클라우드 컴퓨팅 세계에서 큰 데이터에 관해서, 그것은 아마존을 언급 하는. 회사의 Hadoop 제품 EMR (탄성 지도 감소)로 알려져 있으며 AWS 제품 하 둡 기술을 사용 하 여 대용량 데이터 관리 서비스를 제공 하지만 그것은 수정 된 이제 구체적으로 AWS 클라우드를 사용 하는 순수한 오픈 소스 Hadoop에 설명 합니다.
포 레스터 말한다 EMR 좋은 시장 전망. EMR에 따라 고객에 게 서비스를 제공 하는 많은 기업 그리고 일부 기업 적용 EMR 데이터 쿼리, 모델링, 통합 및 관리. 그리고 AWS 혁신 그리고 Forrester 미래 EMR 작업 부하 요구에 따라 자동으로 조정 될 수 있습니다. 아마존 계획을 제공 하는 더 강력한 EMR의 제품 및 서비스, redshift 데이터 웨어하우스, 새로 나온된 kenesis 실시간 처리 엔진 및 계획된 NoSQL 데이터베이스 및 비즈니스 인텔리전스 도구를 포함 하 여에 대 한 지원. 하지만 AWS Hadoop 방출의 그것의 자신의 버전에는 없습니다.
Cloudera
Cloudera 오픈소스 Hadoop, 아파치 OS 오픈 소스 프로젝트의 기술 중 많은 통합 하는 분포의 릴리스 하지만 이러한 기술을 기반으로 하는 배포판 큰 진보도 만들었습니다. Cloudera 임 팔 라 라는 SQL 엔진으로 Hadoop 출시, 관리 및 모니터링, Cloudera 매니저를 포함 한 기능을 개발 했습니다. 오픈 소스, 하 둡 기반으로 Cloudera의 Hadoop 배포 하지만 그것은 순수한 오픈 소스 제품. Cloudera 고객 Hadoop 없는 기능이 필요, Cloudera 엔지니어 이러한 기능을 구현 하거나 기술 파트너를 찾을 것입니다. "코어 Hadoop, Cloudera의 혁신적인 접근 방식 이다 그러나 그것은 급속 한 혁신을 가능 하 게 하 고 고객의 요구에 응답, 때문에 이렇게 다른 공급 업체에서 다른" 포 레스터를 말한다. "현재, Cloudera 플랫폼은 200 개 이상의 유료 고객, 일부 고객 Cloudera 기술 지원 수 있다 교차 하는 PB 수준 데이터의 효과적인 관리를 달성 하기 위해 1000 노드를."
Hortonworks
Cloudera, 처럼 Hortonworks는 순수 Hadoop 기술 회사입니다. Cloudera, 달리 Hortonworks 믿고 오픈소스 Hadoop 어떤 다른 공급 업체의 Hadoop 버전 보다 더 강력 하다. Hortonworks의 목표는 Hadoop 생태계를 구축 하 고 Hadoop 사용자 커뮤니티의 개발을 오픈 소스 프로젝트. Hortonworks 플랫폼 오픈 소스 Hadoop, 밀접 하 게 연결 하 고 회사 경영진 말 그것은 공급 업체와 함께 갇혀 되 고에서 그들을 보호 하기 때문에 사용자가 혜택 (Hortonworks 고객 플랫폼을 떠나고 싶어, 그들은 쉽게 전환할 수 다른 오픈 소스 플랫폼으로). 이것은 Hortonworks 오픈 소스 Hadoop 기술에 전적으로 의존 하지만 도구 Hortonworks 클러스터 관리 프로젝트 취약점을 개발한 Ambari, 같은 오픈 소스 커뮤니티 개발의 모든 결과 반환 하기 때문에 말을 하지. Hortonworks의 솔루션 Teradata, 마이크로소프트, 레드햇, SAP 등 공급 업체에 의해 지원 되었습니다.
IBM
기업 고려 몇 가지 큰 IT 프로젝트 때 많은 사람들이 먼저 IBM의 생각. IBM Hadoop 프로젝트의 주요 선수 중 하나 이며 IBM 100 Hadoop 배포, 그리고 그것의 고객의 많은 데이터의 페타 포 레스터는 말합니다. IBM은 그리드 컴퓨팅, 글로벌 데이터 센터, 및 대규모 엔터프라이즈 데이터 프로젝트의 구현 등 많은 분야에서 광범위 한 경험을가지고. "IBM SPSS 분석, 높은-성능 컴퓨팅, BI 도구, 데이터 관리 및 모델링, 및 높은-성능 컴퓨팅 워크 로드 관리 등 많은 기술을 통합을 계속 계획 이다." "
인텔
AWS 처럼 인텔 지속적으로 향상 하 고 Hadoop 제온 칩에서 실행, 사용자가 Hadoop 시스템의 제한 사항 중 일부를 휴식 하 고 소프트웨어 및 하드웨어 통합, 하 둡을 허용 하도록 특히, 자체 하드웨어에서 실행 되도록 최적화 인텔의 Hadoop 출시 이것의 더 나은 일을 하고있다. 포 레스터는 인텔만 최근 시작 했다 제품, 그래서 거기에 미래에 개선 하기 위해 회사에 대 한 가능성을 많이 지적, 인텔과 마이크로소프트 간주 됩니다 잠재력 Hadoop 시장에서 주식.
모임의 기술
모임의 Hadoop 릴리스 지금까지, 최고의 수 있습니다 하지만 많은 사람들이 그것을 하지 들었을 수도 있습니다. Hadoop 사용자의 포 레스터의 조사 모임의 가장 높은 등급이 그 분포는 아키텍처 및 데이터 처리 기능에 높은 점수를 보여줍니다. 모임의는 Hadoop 출시에 특징의 특별 한 세트를 통합 했다. 예를 들어, 네트워크 파일 시스템 (NFS), 재해 복구 및 고가용성 기능. 포 레스터는 모임의 Cloudera로 이며 Hortonworks는 Hadoop에 모임의 실제 큰 사업을 될 뿐만 아니라 제휴 및 마케팅 강화로 시장 말한다.
마이크로 소프트
마이크로소프트는 오픈 소스에 로우 프로 파일 유지 되어 하지만 큰 데이터 상황에 그것 Hadoop 호환 윈도우를 고려 하는 적극적으로 Hadoop 에코 시스템의 개발을 더 광범위 하 게 홍보 오픈 소스 프로젝트에 종사. 우리는 마이크로 소프트의 공용 클라우드 Windows Azure hdinsight 제품에 결과 볼 수 있습니다. 마이크로소프트의 Hadoop 서비스 Hortonworks 분포에 근거 하 고 azure에 맞게.
마이크로소프트는 또한 일부 SQL Server 쿼리의 기능을 구현 하 둡 쿼리를 허용 하는 Polybase 라는 프로젝트를 포함 하 여 다른 프로젝트의 수를 있다. 포 레스터는 말합니다: "마이크로소프트는 데이터베이스, 데이터 웨어하우징, 클라우드, OLAP, BI, 스프레드시트 (를 포함 하 여 PowerPivot), 협업 및 개발 도구, 시장에서 큰 우위를 및 마이크로소프트는 거 대 한 사용자 기반, 하지만 여전히 Hadoop의 분야에서 업계 리더가 되기 위해 갈 길이 멀다. "
중추적인 소프트웨어
EMC와 vm 웨어 부분의 큰 데이터 비즈니스 스핀 포트폴리오 중추적인 생산. 중추는 뛰어난 hadoop 배포판을 구축 위해 노력 하고있다 그리고 이런 이유로, 중추 오픈 소스 HAWQ 라는 SQL 엔진 및 큰 데이터 문제 해결에 전념 하는 Hadoop 응용 프로그램을 포함 하 여 Hadoop에 근거 하 여 새로운 도구를 추가 했습니다. 포 레스터는 중추적인 Hadoop 플랫폼의 장점은 그것의 중추, EMC, vm 웨어, 많은 기술을 통합 적용 하 고 중추의 진정한 장점은 실제로 두 명의 큰 회사, EMC와 vm 웨어의 후원을 말한다. 지금까지, 중추적인 있으며 100 사용자, 주로 중소기업 크기의 고객.
Teradata
Teradata, Hadoop 위협 및 기회입니다. 특히 SQL 및 관계형 데이터베이스에 관한 데이터 관리 전문 Teradata 지역 이다. 그래서 nosql 플랫폼 Hadoop 처럼의 상승 수 Teradata 위협 하 고 있다. Teradata Hadoop, 허용 하는 대신, 그리고 Hortonworks, Hadoop 플랫폼에 Teradata 통합 SQL 기술 협력 Teradata 고객을 Hadoop 플랫폼에 Teradata 데이터 웨어하우스에 저장 된 데이터를 쉽게 사용할 수 있습니다.
Amplab
선회 함으로써 데이터를 정보로, 우리는 세계를 이해할 수 있다 그리고 Amplab 않습니다. Amplab 기계 학습, 데이터 마이닝, 데이터베이스, 정보 검색, 자연 언어 처리 및 음성 인식에 초점을 맞추고 있으며 불투명 데이터 집합을 포함 하 여 정보에 대 한 심사 기법을 개선 하기 위해 노력 합니다. 스파크, 뿐만 아니라 오픈 소스 배포 SQL 쿼리 엔진 상어 또한 Amplab에서 유래, 상어는 좋은 호환성과 확장성으로 매우 높은 쿼리 효율성. 최근 몇 년 동안, 개발 컴퓨터 과학의 새로운 시대, 그리고 Amplab에 우리를 위해 큰 데이터의 사용을 클라우드 컴퓨팅, 통신 및 다른 자원과 기술 유연한 솔루션의 문제를 해결 하기 위해 점점 더 복잡 한 문제에 대처 하기 위해.
원본 링크: http://www.csdn.net/article/2014-03-20/2818832-open-source-technologies-nine-hadoop-companies