가이드: 야 후 CTO raymie Stata 선도 하는 대규모 데이터 분석 엔진에서 핵심 인물 이다. IBM와 Hadoop 대량의 데이터에 더 집중 하 고 방대한 양의 데이터는 미묘 하 게 변경 기업 및 IT 부서.
대규모 데이터 집합 및 스토리지, 네트워킹, 분석, 보관 및 검색을 포함 하 여 그들을 만드는 데 필요한 모든 기술을의 증가 수는 대규모 데이터를 간주 됩니다. 이 방대한 양의 정보가 직접 스토리지, 서버 및 보안 개발 드라이브. 그것은 또한 해결 해야 하는 IT 부서에는 일련을의 문제를 가져온다.
정보 기술 연구 및 분석 회사 가트너 믿고 그 대량 데이터 처리 프로세서 및 스토리지 장비, 네트워크를 통해 데이터 및 구조화 되지 않은 데이터의 다양 한 종류의 많은 수 고 사업 보고서에이 데이터의 변환에 의해 함께.
대량 데이터 처리의 세 가지 주요 요소: 큰 수 용량, 멀티 포맷 데이터 및 속도
큰 대용량 데이터 (페타 바이트, TB, 심지어 EB): 사람과 기계에서 점점 더 많은 비즈니스 데이터 IT 시스템, 스토리지 및 데이터의 보안에 더 많은 도전을 만들고 미래의 액세스 및 이러한 데이터의 사용은 어려운 되고있다.
멀티 포맷 데이터: 데이터, 더 많은 다양 한 포맷을 포함 하는 대규모 데이터 및 이러한 다른 형식 데이터는 또한 다른 처리 방법 필요. 간단한 이메일, 데이터 로그 및 신용 카드 레코드, 과학적인 연구 데이터, 의료 데이터, 재무 데이터, 및 리치 미디어 데이터 (를 포함 하 여 사진, 음악, 비디오, 등) 악기 수집.
속도: 속도는 이동 끝점에서 프로세서와 저장 속도를 의미 합니다.
Dan Kusnetzky, Kusnetzky 그룹, 애 널 리스트 이다 자신의 블로그에 "간단히 말해서, 큰 데이터 거 대 한 데이터 집합 및 저장 시설 수 있는 도구를 만들고, 조작, 관리 하는 조직." 이 있을 것입니다 결핵 그리고 페타 바이트 보다 더 많은 데이터 세트 미래에 의미 합니까? 공급자의 응답은 "그것은 나타날 것 이다."
그들은 말할지도 모른다, "우리의 제품 관리 및 대규모 데이터를 사용 하 여 구성, 그냥 문제 발생 사람들이 두통의 동적 데이터 집합을 유지 하는 복잡성의 생각을 해야 합니다." 대규모 데이터의 또 다른 가치는 기업이 적절 한 시기에 올바른 결정을 도울 수 있다.
역사적으로,이 상황을 조용히 변경 데이터 분석 소프트웨어 오늘날의 대규모 데이터 얼굴 힘 되고있다. 새로운 대규모 데이터 분석 엔진 등장 했습니다. 아파치 하 둡, LexisNexis HPCC 시스템, 및 1010data와 같은 클라우드 기반 분석 서비스를 기반으로 하는 (호스트, 대규모 데이터 분석 플랫폼 공급자).
팀 Negris, 101data, 수석 부사장 말합니다 대규모 데이터의 수집 그리고 저장 및 방대한 양의 데이터의 사용은 정말 다른 2 가지. 많이 필요 미리 아무것도 (데이터 준비)의 작업 과제 Oracle 및 대부분의 데이터베이스 공급 업체 중 하나입니다. 우리는이 문제를 제거 하 고 데이터 분석에 직접 손으로 하고있다. Hadoop과 HPCC 시스템 이렇게. 이러한 세 가지 플랫폼 대규모 데이터에 초점을 맞추고 있다 그리고 지원 제공.
오픈소스 Hadoop 지난 5 년 동안 시장에서 가장 성공적인 데이터 처리 플랫폼으로 입증 되었습니다. 현재 Cloudera의 최고 경영자 및 아파치 재단의 더 그 커팅 야 후에 근무, Hadoop의 설립자입니다.
Hadoop 데이터를 더 작은, 더 접근 가능한 대량으로 대량의 데이터를 궤 란 하 고 분석 하는 여러 서버에 배포 (민첩은 중요 한 특성, 단지 당신이 쉽게 작은 덩어리로 잘라 음식을 소화할 수 있다). 쿼리를 처리 하는 둡.
"가트너와 IDC 애 널 리스트 대규모 데이터의 처리 속도 데이터를 처리 하는 능력은 장소 Hadoop 사람들을 매료 믿습니다." 찰리 Zedlewski, Cloudera의 제품 담당 부사장은 말했다.
후 절단 하 고 그의 야 후 팀 Hadoop 프로젝트 앞으로 넣어, 그것은 야 후 시스템 테스트 되었고 몇 년 동안 널리 이용 되는. 그들은 다음 Hadoop 점차적으로 더 많은 제품 사용 하는 오픈 소스 커뮤니티에 Hadoop을 발표 했다.
절단 및 야 후를 개발할 때 테스트 및 코드를 내부적으로 실행 그들은 배울 그것은 사용 하 여 복잡 하 게 했다. 이 주변 미래에 (와 같은 서비스 제공 하는 직관적인 사용자 인터페이스, 사용자 지정 배포 및 추가 기능 소프트웨어) 제공, 그들은 더 많은 돈을 벌 수 있습니다 실현 하기 위해 그들을 리드.
독립적인 회사로 2009 년에 시작, 회사의 제품 오픈 소스 및 Cloudera Hadoop 분석 엔진 Cloudera Enterprise Edition 사용 (Cloudera 엔터프라이즈 통합 하이브, HBase, Sqoop를 포함 하 여 더 많은 도구 Oozie, Flume, Avro, 동물원의 사육 담당자, 돼지와 Cloudera).
Vm 웨어의 창업자 겸 전 최고 경영자 다이앤 그린, 공동 설립자 플리커 캐서린 가짜는 전 CEO의 MySQL 마틴 Mickos의 포함 하 여, 투자자의 많은 수에 의해 Cloudera 선호 LINKEDLN 대통령 제프와 이너와 페이스 북 CFO 기드온 유.
Cloudera 설립 이후 최고의 기업과 신생의 소수에 불과하다는 그들의 자신의 기반는 Hadoop의 무료 버전 오픈 소스 아키텍처 제공 합니다.
이것은 실제 엔터프라이즈 기술 경쟁 이다. 릴레이 경주에서 모든 플레이어 턴 (Hadoop 코드)의 동일한 종류를 사용 해야 합니다. 기업 경쟁 속도, 민첩성 및 데이터 처리의 창의성에 초점을 맞추고. 경쟁이 대규모 데이터 분석 시장에서 차이 만들기 위해 대부분의 회사를 가장 효과적인 방법입니다.
IBM은 Infosphere biginsights (IBM Infosphere biginsights는 소프트웨어 및 서비스를 분석 하 고 대량의 데이터를 아파치 하 둡에 의해 지원 되는 가상화.) 하 둡에 기반을 제공 합니다. 기본 버전 및 엔터프라이즈 버전 그러나 회사는 더 큰 계획.
IBM CEO 샘 팔 미 사노 IBM 회사의 연구 초점으로 데이터 분석의 새로운 세대를 복용 하 고 IBM은 100 백만 달러 프로젝트에의 투자를 말한다. 로 라 하 스, IBM 학회 회원 및 컴퓨터 과학 연구소, IBM 연구소 연구까지 대규모 데이터의 범위를 넘어 "exadata" 분석에 착수 했다 말했다. 왓슨 데이터 대량 데이터에 대 한 IBM의 연구의 결과 이며 왓슨 의료, 과학 연구, 등등을 포함 하 여 더 많은 목적을 위해 사용 됩니다.
다른 Hadoop 버전
분산된 파일 시스템과 MapReduce 엔진, 모임의 발표 했다 그리고 모임의 Greenplum HD 엔터프라이즈 에디션 Hadoop 스토리지 구성 요소와 고객을 제공 하는 EMC의 스토리지 및 보안 리더십으로 협력 했다. EMC 하 둡의 또 다른 독특한 기능은 아파치 코드, 하지만 오히려 페이스 북의 Hadoop 코드, 확장성 및 다중 사이트 배포에 대 한 최적화는의 공식 버전을 사용 하지.
다른 공급 업체, 플랫폼 컴퓨팅, 플랫폼을, 아파치 Hadoop MapReduce 프로그래밍 모델에 완벽 하 게 호환 되며 여러 개의 분산된 파일 시스템을 지 원하는 분산된 분석 플랫폼을 제공 합니다.
SGI (실리콘 그래픽스 국제) SGI 랙형 및 Cloudrack 서버 제품 구현 서비스에 따라 Hadoop 최적화 솔루션을 제공 합니다.
Dell은 또한 오픈 소스 데이터 처리 플랫폼으로 사전 설치 된 서버를 판매를 시작 했다. 제품의 비용 지원 원 118000 원 124000, 포함 1 년 Cloudera 사이 기본 구성 가격 옵션, 지원 및 업데이트, 6 PowerEdge C2100 서버 (2 관리 노드, 1 가장자리 노드 및 3 아웃 바운드 노드)에 따라 그리고 6 Dell powerconnect 6248 스위치)입니다.
대신 표면에서 나온다. 1010data 클라우드 서비스, 도움이 Lexusnexis 지난 10 년간 많은 고객 데이터를 분석 하 고 금융 및 다른 중요 한 산업에 적용, Lexusnexis 회사의 위험을 포함 하 여. Lexusnexis은 최근 Hadoop 대신 오픈 소스 커뮤니티에서 자사의 핵심 기술을 공유 하 고 싶다는 것을 발표 했다. LexisNexis 회사 발행 하는 오픈 소스 데이터 처리 방식, 기술을 HPCC 시스템 이라고.
HPCC 관리할 수 있습니다, 정렬, 그리고 초에서 기록의 10 억으로 나눌 수 있습니다. HPCC는 데이터 정제 클러스터 및 록 시 데이터 배달 데이터 처리 및 서비스 모드-토르의 두 종류를 제공합니다. 에스칼란테 토르 (Sre, 전쟁과 농업의 북유럽 신화) 같은 어려운 문제를 해결할 수 있습니다 때문에 그래서 지명해 이었다, 토르 주로 분석 하 고 많은 양의 Hadoop 데이터를 색인 하는 데 사용 했다. 록 시는 더 전통적인 관계형 데이터베이스 또는 데이터 웨어하우스를 좋아하고 심지어 웹 프런트 엔드 서비스를 처리할 수 있습니다.
LexisNexis CEO 제임스 펙 말합니다 우리가 생각 하는 이것이 바로 이동, 그리고 우리가 HPCC 시스템의 상위 수준 데이터의 대량 상승 것입니다 믿습니다.
2011 년 6 월, 야 후, 실리콘 밸리의 벤처 캐피털 회사, 벤치 마크, 그들은 공동으로 널리 사용 되는 데이터 분석 소프트웨어 하 둡 개발을 Hortonworks 라는 새로운 회사를 설정 것 화요일에 발표.
비즈니스 관점에서 일부 전 야 후 직원에 따르면 Hortonworks 독립을 유지 하 고 자체 사업 버전을 개발.
전환 기간에 야 후 CTO Raymie Stata 주요 인물, 그가 책임질 것 이다 모든 회사의 IT 개발 프로젝트. Stata는 우리가 Hadoop과 야 후, 보다 관련된 기술의 작업에 더 많은 노력을 헌신 것입니다 그리고 우리 Hortonworks에서 Hadoop에 더 투자 해야 했다. 우리가 Hortonworks 회사에 몇 가지 핵심 인력을 할당할 것 이다 하지만이 해 고도는 스핀. 이것은 Hadoop 입력에 있는 증가 이다. 야 후는 Hadoop의 발전에 큰 기여를 만들기 위해 계속 됩니다.
Stata는 야 후는 항상 대용량 데이터 분석 소프트웨어에 대 한 표준 업계에 Hadoop을 선회의 꿈을 설명 합니다. 하지만이 Hadoop을 상용화 해야 합니다. Stata를 hortonworks를 만드는 주요 이유는 야 후 (덕분에 6 년 동안 Hadoop) 사업 분석의 미래를 본, 그것을 하는 방법을 알고 있기 때문에 말한다. 우리는 대규모 데이터 분석은 곧 기업의 매우 일반적인 수요 될 것 이다 참조 하십시오.
우리는 기업에 Hadoop을 배포 했습니다 그리고 모두는 그 솔루션을 부인 생각 하지 않습니다. Hadoop 통해 우리의 주주를 위한 가치를 창조 하겠습니다. Hadoop 되는 업계 표준 대량 데이터 처리에 대 한 어느 날, 될 것입니다 우리에 대 한 최고의 보상.
(책임 편집기: 관리자)