Hadoop은 큰 데이터 키 구성 요소

출처: 인터넷
작성자: 사용자
키워드: 큰 데이터를 사용 하 고 우리는

오늘, 아파치 하 둡 기술 대량의 데이터를 관리 하는 데 점점 더 중요 해지고 있다. NASA, 트위터와 넷 플 릭 스를 포함 하 여 사용자는 점점 오픈 소스 분산된 컴퓨팅 플랫폼에 의존 합니다. Hadoop 대용량 데이터를 처리 하기 위한 메커니즘으로 점점 더 많은 지지를 얻고 있다. 기업 컴퓨터 시스템에 있는 데이터의 양을 빨리 성장 하기 때문에 회사는 이러한 막대 한 양의 데이터 로부터 가치를 도출 하려고 시작 합니다. Hadoop의 위대한 잠재력을 인식, 더 많은 사용자가 기존 Hadoop 플랫폼 기술을 사용 하 여 Hadoop 스택을 보완 하기 위해 그들의 자신의 기술에 최선을 다하고 있습니다.

Hadoop의 현재 사용량

NASA는 엄청난 양의 스 카 (평방 킬로미터 배열) 스타 이미지 등 수많은 프로젝트에서 데이터를 처리 하기 위해 Hadoop을 원한다. 이러한 이미지는 앞으로 10 년 동안에서 700 tb/초를 생성 합니다. NASA의 수석 컴퓨터 전문가 크리스 Mattmann 말한다 기술 Hadoop과 아파치 Oodt (객체 지향 데이터 기술)이 대규모 데이터 처리 하는 데 사용 됩니다 같은 로드 합니다.

"트위터, 하 둡의 큰 클라이언트 하고있다" 오스카 Boykin, 트위터 데이터 전문가 말한다. 사용자에 게 사용자 지정 된 권장 사항을 제공 하는 모든 관련된 제품 어느 정도 Hadoop 상호 작용 합니다. "회사 4 년 동안 Hadoop을 사용 하 고 그리고 끓을 개발 했습니다." 끓는 쉽게 Hadoop mapreduce를 쓸 수 있도록 설계 된 스칼라 라이브러리입니다. 제품은 Hadoop의 복잡 한 일반화를 계단식 Java 라이브러리 위에 만들어집니다.

하위 프로젝트 Hadoop의 MapReduce와 HDFS (Hadoop 분산 파일 시스템), 공통 포함 됩니다. MapReduce는 계산 클러스터에 큰 데이터 집합 처리에 대 한 소프트웨어 프레임 워크, HDFS 초고속 응용 프로그램 데이터, 그리고 일반적인 다른 둡 서브 프로젝트를 지 원하는 유틸리티를 제공 합니다 제공 합니다.

넷 플 릭 스, 영화 대 여 서비스, Hadoop 관련 기술--아파치 동물원의 사육 담당자 구성 관리를 사용 하 여 시작 했다. 조던 짐머만, 넷 플 릭 스에서 수석 플랫폼 엔지니어는 말했다: "사용이 기술 분산된 잠금, 부분 큐 맞춤 및 지도력 선거, 등 작업의 모든 종류에 봉사 활동을 최적화 합니다." 우리는 동물원의 사육 담당자에 대 한 오픈 소스 클라이언트를 개발 하 고 큐레이터 라고. 이 클라이언트 개발자 라이브러리는 동물원의 사육 담당자에 연결 된다. "

리치 매킨리, 태그의 수석 데이터 엔지니어, 태그 소셜 네트워크 기술을 사용 하 여 Hadoop은 핸들 새 데이터를 데이터 분석 하루 거의 0.5 바이트 생성에 대 한 말한다. Hadoop은 또한 Greenplum 데이터베이스 용량 이외의 작업에 사용 되 고 있습니다. 태그 Greenplum 데이터베이스를 사용 하 여 아직도 이다. "우리가 더 많은 일을 할 단지 그것을 확장 하 여 hadoop" 매킨리 말했다. "

모든 Hadoop 찬양은, 몇몇 사용자 아직도 일부의 문제를 해결 하기 위해 생각 합니다. 예를 들어 Hadoop은 안정성 및 작업 추적에 부족. 태그의 매킨리 대기 시간에서 Hadoop의 문제를 지적. "데이터를 가져오는 데 시간이 매우 빠르고, 이어야 한다 그러나 모두의 가장 큰 불만 지연 쿼리에 대 한 너무 높은." "매킨리 말했다. 태그는 다른 Hadoop을 사용 하 여 현재 쿼리 프로젝트, 아파치 하이브, 파생 된. "몇 분 정도 걸립니다 하 둡에 대 한 결과 제공, 그리고 그것은 유일한 결과 제공 하는 Greenplum에 대 한 몇 초 정도 걸립니다," 고 말했다. 하지만 Hadoop은 greenplum 보다 저렴. "

Hadoop 2.0 보낼 준비가

2011 년에 발사 되었다, Hadoop 1.0는 Kerberos 통해 고 강도 보안 인증 (MIT 보안 인증 시스템 개발) HBase 데이터베이스를 지 원하는. 곧 출시에 대 한 Hortonworks의 cto 인 에릭 Baldeschwieler 2.0 버전을 포함 하 여 Hadoop 기술의 개발을 위한 로드맵을 제공 합니다. (Hortonworks Apache Hadoop의 주요 funders 중 하나입니다).

Hadoop 2.0 버전 초기 2012에서 베타 단계를 입력. "이이 릴리스, 레이어는 부분적으로 재 작 성, MapReduce 및 모든 스토리지 논리와 HDFs 했다 완전히 재 작 성," Baldeschwieler 말했다. "Hadoop 2.0 기술 향상 확장 및 혁신을 위한 원사 (다음 세대 MapReduce)와 많은 기능 사용에 초점." 원사는 사용자 MapReduce를 사용 하지 않아도 되도록 자신의 컴퓨팅 모델을 추가 하는 사용자를 허용할 것 이다. "우리는 커뮤니티 실시간 응용 프로그램 및 기계 학습 알고리즘을 포함 하 여 Hadoop을 사용 하 여 더 새로운 방법을 발견할 수 있을 것입니다 희망" 이라고 말했다. 그리고 확장성, 플러그인 저장소는 또한 계획에. "Baldeschwieler 말했다. 그것은 보고 Hadoop 2.0의 릴리스 버전 2012 년에 출시 될 것으로 예상 된다.

(책임 편집기: 유산의 좋은)

관련 문서

연락처

이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이 페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.

커뮤니티에서 표절 사례를 발견한 경우 info-contact@alibabacloud.com 으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.