오늘, Apache Hadoop 이상 사람에 게 알려져 없습니다. 더 그 커팅, 야 후 검색 엔지니어 분산된 컴퓨팅 환경을 만들기 위해 오픈 소스 소프트웨어 라이브러리를 개발 하 고 1 일 것 이라고 생각 했을 그의 아들의 코끼리 인형 이라는 "빅 데이터" 기술 위 자리 차지?
둡 빅 데이터와 연결 하는 동안 많은 사용자가 그것의 작은 지식을 믿어진다. 지난 주 Tdwi 솔루션 서밋에서 TDWI 연구 디렉터와 업계 애 널 리스트 필립 Russom 출판 "12 사실에 대 한 Hadoop,"는 편집자 Hadoop에 대 한 자세한 도움의 희망에이 문서에 요약에 기조 연설.
사실 1:hadoop는 여러 제품으로 구성 되어 있습니다.
사람들이 하 둡에 대 한 이야기, 그들은 종종 단일 제품으로 취급 하지만 사실 그것은 이루어진 다양 한 다른 제품.
Russom 말했다: "하 둡은 오픈 소스 제품의 시리즈,이 제품은 아파치 소프트웨어 재단 프로젝트." "
Hadoop에 관해서, 사람들 MapReduce를 함께 넣어 경향이 있지만 사실 MapReduce와 HDFs는 Hadoop의 기초.
사실 2:apache Hadoop은 오픈 소스 기술, 하지만 또한 Hadoop 제품을 제공 하는 독점 공급 업체.
Hadoop은 오픈 소스 기술, 때문에 그것은 무료 다운로드, 그래서 Cloudera, IBM, EMC Greenplum 등 공급 업체는 Hadoop의 그들의 자신의 특별 한 버전을 시작할 수 있습니다.
일반적으로 이러한 특별 한 배포판 고급 관리 도구 등의 추가 기능 있고 지원 유지 관리 서비스 관련. 하나 비웃 다 수 있습니다: 오픈 소스 커뮤니티 무료 이기 때문에, 왜 우리가 지불 해야 서비스? Russom는 HDFs의이 버전은 더 많은 설명 적합 일부 IT 조직, 특히 상대적으로 성숙 사용자는 엔터프라이즈의 IT 시스템.
사실 그 3:hadoop는 생태계, 제품이 아닙니다.
Hadoop 개발 하 고 오픈 소스 커뮤니티와 다양 한 공급 업체에 의해 추진. 특히, 제조 업체의 Hadoop 제품은 더 구조적이 고 더 관계형입니다.
Russom 말했다: "보고서 플랫폼, 다양 한 인터페이스를 제공 하는 새로운 플랫폼에 데이터 통합 플랫폼 Hadoop 확실히도 예외는 아니다." "
사실 그 4:hdfs 파일 시스템, 데이터베이스 관리 시스템입니다.
Russom 가장 참을 수 없는 사람들은 종종 두 혼란 이다. 데이터 집합을 관리할 수 있는 능력 HDFs 데이터 관리 시스템의 가장 중요 한 기능 중 하나입니다.
데이터베이스 관리 시스템에서 데이터에 대 한 임의 액세스를 달성 하기 위해 인덱스를 쿼리할 수 있습니다, 그리고 그것은 종종 구조화 된 데이터를 처리 하 고 Hadoop에 같은 데이터 형식을 처리 하지 않습니다.
Hadoop의 의미는 데이터의 다양성
사실 5:hive sql 유사 하지만 표준 SQL을 하지 않습니다.
데이터에 대 한 전통적인 비즈니스 도구는 주로 SQL 기반, Hadoop SQL만 하지 SQL-아파치 하이브 및 HIVEQL와 비슷한 언어를 사용 하기 때문에 두통의 비트입니다.
Russom 말했다: "나는 종종 사람들이 말, 듣고 ' 하이브 학습은 매우 간단 하 고, 직접 선 하이브 학습." ' 하지만 그 SQL 도구와의 호환성의 근본적인 문제를 해결 하지 않습니다. "
Russom은 호환성 짧은 시간 문제 이지만 그것은 방해 Hadoop의 인기를 생각 한다.
사실 6:hadoop 및 MapReduce는 상호, 하지만 상호 의존 하지.
MapReduce는 HDFs의 도래 하기 전에 Google에 의해 시작 되었다. 또한, 모임의 등 제조 업체는 추진 하고있다 MapReduce 기능 다양성 HDFS 지원 없이.
그럼에도 불구 하 고, russom는 그들은 보완 하 는입니다. HDFs의 값의 대부분을 분산된 파일 시스템을 적용 하는 도구에서 구현 된다.
사실 7:mapreduce 분석, 자체 분석 하지 제어를 제공 합니다.
MapReduce는 대규모 데이터 분석에 범용 이그제큐티브 드라이브 엔진입니다. 그것은 필기 코드 데이터를 읽고, 병렬로 처리 하 고 단일 컬렉션에 결과 매핑합니다. 그러나 우리는 명확 하 게,, MapReduce 자체 분석 작업을 수행 하지 않습니다 필요 합니다.
Russom 말했다: "MapReduce는 MPP 아키텍처의 업그레이드 된 버전으로 볼 수 있습니다." 코드를 어떻게 작성 아무리 병렬, 매우 강력한 수 있습니다. "
사실 8:hadoop의 중요성은 데이터 양 뿐만 아니라 데이터의 다양화.
어떤 사람들 대규모 데이터 처리 기술 하 둡을 분류 하지만 Hadoop의 진정한 가치는 데이터 처리를 다변화 하는 능력.
Russom 말했다: "Hadoop 반구조적 및 완전 하 게 구조화 되지 않은 데이터 등 대부분 데이터 창 고에서 처리 됩니다." "
사실 그 9:hadoop은 데이터 웨어하우스를 보완 하지는 데이터 웨어하우스의 대용품 이다.
다양 한 데이터 형식을 관리 하 둡의 기능 "데이터 웨어하우스 죽을 것 이다" 연설, 하지만 russom 그것을 반박 주도하 고 있다.
"얼마나 자주 할 사람들이 대체 IT 분야에 기술?" 그는 물었다. 거의 절대. "
데이터 웨어하우스는 해당 도메인에서 실적이 여전히 그리고 Hadoop 데이터 웨어하우징 기술을 보완할 수 있습니다. 데이터 웨어하우스 및 기타 시스템의 아키텍처는 점점 시작 쪽으로 이동 분산, 그리고 Hadoop의 역할을 여기.
사실 10:hadoop 웹 분석 보다 더 많은입니다.
Hadoop은 인터넷, 및 추세는 일부 분석의 더 많은 종류를 처리할 수 있기 때문에 russom에서 널리 이용 된다.
Russom 철도, 로봇 및 소매의 예를 들었다. 철도 회사는 사고를 방지 하기 위해 비정상적으로 높은 온도 철도 차량 감지 센서를 사용할 수 있습니다.
Russom, 하 둡, 미래에 낙관 하는 동안 그것은 그것을 대중화 하는 년을 걸릴 것입니다 믿고 있다.
사실 11: 대용량 데이터는 반드시 한 둡.
큰 데이터 및 Hadoop은 분리, russom Hadoop "만" 큰 데이터 아니다. 그는 많은 다른 공급 업체, Teradata, 사이 베이스 IQ (이 SAP에 인수 되었다) 및 수직 (이 HP에 인수 되었다) 등의 제품을 언급 한다.
또한 Hadoop의 부재, 일부 기업은 큰 데이터를 공부 하기 시작 했습니다. 예를 들어 통신 업계는 년 전 통화 세부 기록을 했다.
사실 12:hadoop "무료 점심" 아니다.
비록 Hadoop은 오픈 소스 기술, 소프트웨어의 설치는 비싼. Russom는 Hadoop의 관리 도구 및 지원 서비스의 부족, 그것은 그들의 사용 과정에서 추가 비용을 생성 하는 기업에 대 한 쉬운는 말했다. 또한, 그것은 최적화 없기, 때문에 우리만의 런타임 문맥에서 코드를 작성 하는 전문가 요청할 수 있습니다 그리고이 전문가 아주 조금을 지불.
하드웨어 및 Hadoop 클러스터의 관련된 구성 배포의 비용을 언급 하지 않습니다.
그는 말했다: "생각 하지 않습니다 Hadoop은 무료 또는 매우 저렴 한, 그것의 뒤에 숨겨진된 비용을 볼 수 없습니다." "
(책임 편집기: 유산의 좋은)