"빅 데이터과 대 광고, 거품 하지 않습니다. Hadoop은 나중에 Google의 발자취를 따라 계속 됩니다. "아파치 하 둡 프로젝트와 Hadoop 작성자 설립자 Doug 절단 최근 밝혔다.
일괄 처리는 컴퓨팅 엔진, Apache Hadoop 큰 데이터 코어의 오픈 소스 소프트웨어 프레임 워크 이다. 그것은 Hadoop 진짜 실시간 데이터 표시에 필요한 온라인 대화형 데이터 처리에 적용 되지 않습니다 말했다. 그 사건 인가요? 더 그 커팅, Hadoop의 설립자, Cloudera 아파치 하 둡 프로젝트의 창조 자 "Hadoop은 일괄 처리를 넘어 미래를 믿습니다" 말한다. "
"일괄 처리는 그것의 자신의 틈새 시장. 예를 들어 많은 데이터를 이동 하 고 모든 데이터를 분석 해야 합니다. 하지만 난 아직도 사람들이 정말 원하는 조합을 일괄 처리 온라인 컴퓨팅 이다. Hadoop은 엔터프라이즈의 미래 주류 데이터 처리 시스템의 핵심 될 것입니다. "절단 했다.
Hadoop 어디로?
그냥 결론 지층 회의 + hadoop 세계 회의에서 절단 Hadoop 스택 및 그것의 미래 방향의 핵심 아이디어를 설명 했다. "Hadoop 사실 일괄 처리 컴퓨팅 엔진으로 볼 수 있다, 이것은 우리가 (MapReduce 결합) 시작 하는 곳." MapReduce 훌륭한 도구 이며 MapReduce 알고리즘을 배포 하는 방법에 대 한 시장에 책을 많이 있습니다. "절단 했다.
MapReduce는 대량의 데이터를 병렬로 처리 하는 데 분산 컴퓨팅을 사용 하 여 Google에 의해 설계 된 프로그래밍 모델입니다. MapReduce를 입력 고 병렬 처리에 대 한 다른 노드에 할당 된 더 작은 하위 문제로 그것을 나눕니다. 그들은 다음 출력 형태로 자식 질문의 답변을 재편성.
"그것은 매우 효과적인," 절단 말한다, "그리고 데이터에 계산을 이동할 수 있습니다." 그런 식으로, 데이터로 작업할 때, 없는, 어디서 나 데이터를 복제 하 고 공유 플랫폼입니다. 우리가 다시 그것을 다시 배포 하 고 싶지 않아 그래서 분산된 시스템을 구축 하는 것은 복잡 한 프로세스입니다. MapReduce에 견고한 기초를 판명 MapReduce 개발 도구, 돼지와 하이브 등의 수 있습니다. "
Hadoop 주요 특징
Hadoop 대용량 데이터 플랫폼의 다양성을 보여 절단 그 Hadoop의 두 핵심 테마를 될 것으로 간주 설명 합니다. 첫째, Hadoop 플랫폼은 확장 가능, 메모리에 저장 된 작은 데이터 집합에 대 한 뿐만 아니라 큰 데이터 집합 처리에 대 한.
"확장성을 평가에 중요 한 요소 중 하나 경제성입니다." 더 확장할 수 있기 때문에 우리는 범용 하드웨어 플랫폼에서 실행 합니다. 스토리지의 10 시간을 살 수 있는, 데이터의 크기는 10 시간 저장할 수 있습니다. 경제성은 키, 그리고 그 이유는 그래서 그것은 가장 저렴 한 플랫폼 때문에 범용 하드웨어 사용. "절단 했다.
Hadoop의 또 다른 주요 기능은 오픈 소스입니다. 절단 매우 저렴 한 오픈 소스 소프트웨어는 지적 한다. 개발자가 공급 업체, 지불 수 있습니다 하지만 그들이 제공 하는 값에 대 한 지불 합니다. 개발자는 몇 년 동안에 대 한 지불 하지 않아도 하 고 시간이 지남에 공급 업체는 당신에 게 가치를 제공 함으로써 신뢰와 개발자의 신뢰를 얻기 위해 필요. 또한, Hadoop에 대 한 사용자 수 있습니다 그들의 원래 형태로 데이터를 저장 고 다른 패턴을 사용 하는 데이터를 사용 하 여.
대용량 데이터 분야에서 또 다른 인기 있는, 일반적으로, 당신의 문제를 이해 분석 알고리즘 더 나은 당신을 도울 수 있다 보다는 더 많은 데이터입니다. 즉, 작은 데이터 집합을 조정 하는 데 사용 하는 알고리즘 보다는 데이터를 수집 하는 더 많은 시간을 할애 한다. 직관적으로, 고해상도 이미지 처럼 이며 그림을 구문 분석 하는 경우, 대신 저해상도 고해상도 이미지를 확대 하도록 선택 해야 합니다.
절단 또한 지적 일괄 처리 Hadoop의 일반적인 기능은 아니다. 예를 들어 Google BigTable 흉내 hbase는 매우 성공적인 오픈 소스 관계형, 분산된 데이터베이스 되고있다 Hadoop 스택의 일부입니다. HBase는 온라인 컴퓨팅 시스템, 컴퓨팅 시스템 일괄 처리 하지.
HBase도 지원 일괄 처리는 HDFS와 Hadoop 스택의 다른 구성 요소와 저장소를 공유 합니다. 나는 생각 한다 HBase가 그렇게 인기 있는 이유 중 하나. HBase는 독립적인 시스템을 되 고 하는 것 보다는 시스템의 다른 부분에 통합 됩니다. 그것은 스택의 다른 구성 요소와 공유할 수 있습니다 고 가용성, 보안 및 재해 복구 등의 기능으로 공유할 수 있습니다. 절단은 설명 했다.
미래 기술
Hadoop은 플랫폼, 하지만 오히려 더 일반적인 데이터 처리 플랫폼 컴퓨팅 단지 배치, 무엇 것입니다, 그리고 어디 갈 것입니다? '우리 오픈 소스 대용량 데이터 플랫폼을 범용 하드웨어에서 실행할 수 원하는 코스 에' 절단을 말한다. 같은 시간에 우리가 원하는 선형 확장성, 즉,가 10 시간을 저장 해야 하는 경우 데이터, 10 배 번 하드웨어를 구매 하면. 아무리 큰 데이터 집합은, 이런 방식으로 확장할 수 있습니다.
같은 성능에 대 한 사실 이다. 일괄 처리 성능에 대 한 더 큰 일괄 처리 또는 작은 대기 해야 하는 경우만 하면 하드웨어의 수를 증가 됩니다. 대화형 쿼리는 마찬가지입니다. 추가 하드웨어 성능 및 데이터 처리 레벨의 선형 확장을 줄 것 이다. "사람들이 큰 데이터 플랫폼 뭔가 삭제 될 필요가 있다고 생각 하는 경향이," 절단이 했다. 그렇게 생각하지 않아요. 긴 안목으로 보면, 우리가 어떤 기능을 포기 필요가 없습니다. "
Hadoop의 기술의 미래 방향에 절단 구글 로드맵을 주신 말한다. "Google GFS와 MapReduce 논문을 출판, 우리 신속 하 게 복사 그들 Hadoop 프로젝트에. Google에는 년 동안, 여러 가지 방법으로 Hadoop의 오픈 소스 스택도 영감 하고있다. Google의 sawzall 시스템 양산 돼지와 하이브, BigTable 직접 HBase를 영감을. 나는 올해 구글 스 패너, 전송 하는 분산된 데이터베이스 시스템에 구현 하기 위한 메커니즘을 설명 하 라는 종이 출판을 보고 흥분. 많은 사람들이이 되지 것입니다 현실 곧, 하지만 그것은 우리에 게 앞으로 방법을 보여줍니다 생각할 수 있습니다. "절단 했다.
절단은 복잡 한 기술로 스 패너 신속 하 게 되지 않는다, 하 둡의 부분 하지만 기술 개발의 방향을 정의지 않습니다 지적 한다. 그는 또한 언급 하는 임 팔 라 (Cloudera 최근 발표 데이터베이스 엔진), SQL 쿼리를 사용 하 여 HBase에 저장 하는 데이터 집합을 저장할 수 있는. 임 팔 라 사용자에 게 대화형 온라인 쿼리의 새로운 경험을 가져올 것 이다 그리고 그것은 또한 Google의 연구 결과의 일부를 따라는 몇 시간 동안 릴리스 되었습니다. 임 팔 라 공통 기술 플랫폼으로 개발할 것입니다 절단.
"우리는 이미 알고 우리의 목표를 달성 하는 방법과 어디에가 서," 고 말했다. 그래서, 난 지금 당신은 미래에 더 얻을 것입니다 때문에 Hadoop을 사용 하 여 시작 좋습니다. "절단 했다.
"빅 데이터과 대 광고, 거품 하지 않습니다. Hadoop은 나중에 Google의 발자취를 따라 계속 됩니다. "아파치 하 둡 프로젝트와 Hadoop 작성자 설립자 Doug 절단 최근 밝혔다.
일괄 처리는 컴퓨팅 엔진, Apache Hadoop 큰 데이터 코어의 오픈 소스 소프트웨어 프레임 워크 이다. 그것은 Hadoop 진짜 실시간 데이터 표시에 필요한 온라인 대화형 데이터 처리에 적용 되지 않습니다 말했다. 그 사건 인가요? 더 그 커팅, Hadoop의 설립자, Cloudera 아파치 하 둡 프로젝트의 창조 자 "Hadoop은 일괄 처리를 넘어 미래를 믿습니다" 말한다. "
"일괄 처리는 그것의 자신의 틈새 시장. 예를 들어 많은 데이터를 이동 하 고 모든 데이터를 분석 해야 합니다. 하지만 난 아직도 사람들이 정말 원하는 조합을 일괄 처리 온라인 컴퓨팅 이다. Hadoop은 엔터프라이즈의 미래 주류 데이터 처리 시스템의 핵심 될 것입니다. "절단 했다.
Hadoop 어디로?
그냥 결론 지층 회의 + hadoop 세계 회의에서 절단 Hadoop 스택 및 그것의 미래 방향의 핵심 아이디어를 설명 했다. "Hadoop 사실 일괄 처리 컴퓨팅 엔진으로 볼 수 있다, 이것은 우리가 (MapReduce 결합) 시작 하는 곳." MapReduce 훌륭한 도구 이며 MapReduce 알고리즘을 배포 하는 방법에 대 한 시장에 책을 많이 있습니다. "절단 했다.
MapReduce는 대량의 데이터를 병렬로 처리 하는 데 분산 컴퓨팅을 사용 하 여 Google에 의해 설계 된 프로그래밍 모델입니다. MapReduce를 입력 고 병렬 처리에 대 한 다른 노드에 할당 된 더 작은 하위 문제로 그것을 나눕니다. 그들은 다음 출력 형태로 자식 질문의 답변을 재편성.
"그것은 매우 효과적인," 절단 말한다, "그리고 데이터에 계산을 이동할 수 있습니다." 그런 식으로, 데이터로 작업할 때, 없는, 어디서 나 데이터를 복제 하 고 공유 플랫폼입니다. 우리가 다시 그것을 다시 배포 하 고 싶지 않아 그래서 분산된 시스템을 구축 하는 것은 복잡 한 프로세스입니다. MapReduce에 견고한 기초를 판명 MapReduce 개발 도구, 돼지와 하이브 등의 수 있습니다. "
Hadoop 주요 특징
Hadoop 대용량 데이터 플랫폼의 다양성을 보여 절단 그 Hadoop의 두 핵심 테마를 될 것으로 간주 설명 합니다. 첫째, Hadoop 플랫폼은 확장 가능, 메모리에 저장 된 작은 데이터 집합에 대 한 뿐만 아니라 큰 데이터 집합 처리에 대 한.
"확장성을 평가에 중요 한 요소 중 하나 경제성입니다." 더 확장할 수 있기 때문에 우리는 범용 하드웨어 플랫폼에서 실행 합니다. 스토리지의 10 시간을 살 수 있는, 데이터의 크기는 10 시간 저장할 수 있습니다. 경제성은 키, 그리고 그 이유는 그래서 그것은 가장 저렴 한 플랫폼 때문에 범용 하드웨어 사용. "절단 했다.
Hadoop의 또 다른 주요 기능은 오픈 소스입니다. 절단 매우 저렴 한 오픈 소스 소프트웨어는 지적 한다. 개발자가 공급 업체, 지불 수 있습니다 하지만 그들이 제공 하는 값에 대 한 지불 합니다. 개발자는 몇 년 동안에 대 한 지불 하지 않아도 하 고 시간이 지남에 공급 업체는 당신에 게 가치를 제공 함으로써 신뢰와 개발자의 신뢰를 얻기 위해 필요. 또한, Hadoop에 대 한 사용자 수 있습니다 그들의 원래 형태로 데이터를 저장 고 다른 패턴을 사용 하는 데이터를 사용 하 여.
대용량 데이터 분야에서 또 다른 인기 있는, 일반적으로, 당신의 문제를 이해 분석 알고리즘 더 나은 당신을 도울 수 있다 보다는 더 많은 데이터입니다. 즉, 작은 데이터 집합을 조정 하는 데 사용 하는 알고리즘 보다는 데이터를 수집 하는 더 많은 시간을 할애 한다. 직관적으로, 고해상도 이미지 처럼 이며 그림을 구문 분석 하는 경우, 대신 저해상도 고해상도 이미지를 확대 하도록 선택 해야 합니다.
절단 또한 지적 일괄 처리 Hadoop의 일반적인 기능은 아니다. 예를 들어 Google BigTable 흉내 hbase는 매우 성공적인 오픈 소스 관계형, 분산된 데이터베이스 되고있다 Hadoop 스택의 일부입니다. HBase는 온라인 컴퓨팅 시스템, 컴퓨팅 시스템 일괄 처리 하지.
HBase도 지원 일괄 처리는 HDFS와 Hadoop 스택의 다른 구성 요소와 저장소를 공유 합니다. 나는 생각 한다 HBase가 그렇게 인기 있는 이유 중 하나. HBase는 독립적인 시스템을 되 고 하는 것 보다는 시스템의 다른 부분에 통합 됩니다. 그것은 스택의 다른 구성 요소와 공유할 수 있습니다 고 가용성, 보안 및 재해 복구 등의 기능으로 공유할 수 있습니다. 절단은 설명 했다.
미래 기술
Hadoop은 플랫폼, 하지만 오히려 더 일반적인 데이터 처리 플랫폼 컴퓨팅 단지 배치, 무엇 것입니다, 그리고 어디 갈 것입니다? '우리 오픈 소스 대용량 데이터 플랫폼을 범용 하드웨어에서 실행할 수 원하는 코스 에' 절단을 말한다. 같은 시간에 우리가 원하는 선형 확장성, 즉,가 10 시간을 저장 해야 하는 경우 데이터, 10 배 번 하드웨어를 구매 하면. 아무리 큰 데이터 집합은, 이런 방식으로 확장할 수 있습니다.
같은 성능에 대 한 사실 이다. 일괄 처리 성능에 대 한 더 큰 일괄 처리 또는 작은 대기 해야 하는 경우만 하면 하드웨어의 수를 증가 됩니다. 대화형 쿼리는 마찬가지입니다. 추가 하드웨어 성능 및 데이터 처리 레벨의 선형 확장을 줄 것 이다. "사람들이 큰 데이터 플랫폼 뭔가 삭제 될 필요가 있다고 생각 하는 경향이," 절단이 했다. 그렇게 생각하지 않아요. 긴 안목으로 보면, 우리가 어떤 기능을 포기 필요가 없습니다. "
Hadoop의 기술의 미래 방향에 절단 구글 로드맵을 주신 말한다. "Google GFS와 MapReduce 논문을 출판, 우리 신속 하 게 복사 그들 Hadoop 프로젝트에. Google에는 년 동안, 여러 가지 방법으로 Hadoop의 오픈 소스 스택도 영감 하고있다. Google의 sawzall 시스템 양산 돼지와 하이브, BigTable 직접 HBase를 영감을. 나는 올해 구글 스 패너, 전송 하는 분산된 데이터베이스 시스템에 구현 하기 위한 메커니즘을 설명 하 라는 종이 출판을 보고 흥분. 많은 사람들이이 되지 것입니다 현실 곧, 하지만 그것은 우리에 게 앞으로 방법을 보여줍니다 생각할 수 있습니다. "절단 했다.
절단은 복잡 한 기술로 스 패너 신속 하 게 되지 않는다, 하 둡의 부분 하지만 기술 개발의 방향을 정의지 않습니다 지적 한다. 그는 또한 언급 하는 임 팔 라 (Cloudera 최근 발표 데이터베이스 엔진), SQL 쿼리를 사용 하 여 HBase에 저장 하는 데이터 집합을 저장할 수 있는. 임 팔 라 사용자에 게 대화형 온라인 쿼리의 새로운 경험을 가져올 것 이다 그리고 그것은 또한 Google의 연구 결과의 일부를 따라는 몇 시간 동안 릴리스 되었습니다. 임 팔 라 공통 기술 플랫폼으로 개발할 것입니다 절단.
"우리는 이미 알고 우리의 목표를 달성 하는 방법과 어디에가 서," 고 말했다. 그래서, 난 지금 당신은 미래에 더 얻을 것입니다 때문에 Hadoop을 사용 하 여 시작 좋습니다. "절단 했다.
(책임 편집기: 루 광)