우리가 "빅 데이터 시대"를 입력 한, IDC 디지털 우주 보고서 데이터 무어의 법칙 보다 더 빠르게 성장 했습니다. 이 동향은 방법 기업 핸들 데이터 패턴에 변화를 나타내는 어디 고립 된 섬 대형 클러스터 서버, 데이터 및 컴퓨팅 리소스 함께 의해 대체 되고있다.
다른 관점에서이 패러다임의 데이터 성장 속도 데이터의 양이 필요로 네트워크 컴퓨팅의 새로운 방법을 보여 줍니다. 이와 관련, 구글 좋은 예입니다. 로 일찍 1998 구글 베타 검색 엔진, 야 후 회사를 시작 하는 때 지배, 다른 경쟁 포함 InfoSeek, 라이 코스, 그리고 단지 2 년 동안, 구글 최고의 검색 엔진 공급 업체 되고있다. 그것은 아니었다 2003 년까지 Google MapReduce 우리는 Google의 백 엔드 아키텍처의 행운에 대 한 문서를 발표 했다.
Google의 건축 회사, 빠른 검색 결과를 얻을 하 고 보다 효율적이 고 모든 경쟁자 보다 비용 효율적으로 이러한 결과 얻으려면 더 많은 데이터를 색인 수 어떻게 보여 줍니다. Google의 병렬 상용 서버에서 실행 되는 간단한 작업으로 복잡 한 데이터 분석 작업을 분할 하는 것입니다. 개별 프로세스는 데이터를 지도와 다음 중간 또는 최종 결과를 줄일 수는 데 사용 됩니다. Mapreduce 프레임 워크는 기업 사용을 위해 Apache Hadoop 결국 사용 합니다.
Hadoop의 간략 한 역사
2003 년에 Google의 파일을 읽고, 후 야 후 엔지니어 더 그 커팅 Hadoop 라는 자바 기반 mapreduce를 개발 했다. 2006 년에, 하 둡 아파치 소프트웨어 재단 Lucene (인기 있는 전체 텍스트 검색 라이브러리)의 하위 되었고 2008 년에 최고 아파치 프로젝트 되었다.
Hadoop 큰 필수품 컴퓨터 클러스터 간의 잡기를 제공 하는 본질적으로, 구성, 저장, 검색, 공유, 분석 및 시각화 다른 데이터 (구조화, 반 구조화 및 구조화 되지 않은) 및 수천 대의 서버, 로컬 컴퓨팅 및 스토리지를 제공 하는 각각 수십 대의 서버에서에서 확장할 수 있습니다.
Hadoop 포함 두 가지 기본 구성 요소: 첫째,는 Hadoop 분산 파일 시스템 (HDFS), 기본 스토리지 시스템은 HDFS 복사와 소스 하나 이상의 응용 프로그램 분석에 대 한 블록 계산 노드를 서버 클러스터를 배포 하 고. 다음은 MapReduce는 소프트웨어 프레임 워크와 많은 양의 동시에 분산 된 데이터를 처리할 수 있는 응용 프로그램을 작성 하기 위한 프로그래밍 모델을 만듭니다.
아파치 Hadoop의 오픈 소스 자연 생태계의 기능, 성능, 신뢰성 및 사용의 용이성을 개선 유지를 만듭니다.
단순 성과 확장성을 유지
"데이터 부조리" 라는 기사, Google에서 연구원 비교 간단한 물리 방정식 (e = mc2) 다른 분야와 지적된 "과학 보다 더 적합 한 간단한 수학적 알고리즘을 사용 하 여 하 초등 입자는 인간을 포함".
사실, 간단한 수식을 복잡 한 자연 세계를 해석 하 고 Hadoop은 인기 있는 이유는 어려운 인간 행동 이해의 완벽 하 게 할 수 있습니다.
연구원은 상대적으로 간단한 알고리즘 큰 데이터 집합에 대해 사용할 수 있었던 멋진 결과 발견. 한 예로 장면 완료 기술를 사용 하는 알고리즘 (예: 자동차) 그림에서 뭔가 제거 하 고 "수정" 이미지 저장소의 수천에서 그리고 알고리즘의 수백만 사진 그림 데이터베이스의 증가 때 제대로 동작. 이 간단한 알고리즘은 충분 한 데이터는 매우 좋다. 패턴을 발견 하 고 패치 오늘 많은 데이터 분석 응용 프로그램에 공통 된 주제 이다.
데이터 분석은 또한 다른 고유의 복잡성 얼굴: 구조화 되지 않은 데이터 및 구조화 되지 않은 데이터의 증가. 크기 및 로그 파일, 소셜 미디어, 비디오, 등 구조화 되지 않은 데이터의 중요성, 동시에 증가 하 고 일부는 구조 일부 변경 후 그들의 구조를 잃 었. 전통적인 분석 기술 구조화 및 반 구조화 된 데이터의 전처리 결과, 생성 하기 전에 결과 일부 결함 전처리 경우 올바르지 않을 수 있습니다 많은 양의 필요 합니다.
구조화, 반 구조화 및 구조화 된 데이터의 원래 형태를 구문 분석 하 고 간단한 알고리즘으로 의미 있는 결과 생산 하는 Hadoop의 기능은 순간에 비할 데 없습니다. MapReduce 진보적인 방식으로 데이터를 분석할 수 있습니다 그리고 그것은 복잡 한 데이터 변환 또는 다른 데이터 전처리, 또는 어떤 스키마 만들기 또는 데이터를 사전에 통합.
가격 및 데이터 분석의 성능
Hadoop 우수한 데이터 분석 기능 및 결과 제공 뿐만 아니라 또한 전통적인 데이터 분석 도구 보다 더 비용 효율적입니다. 이유는 전통적인 데이터 분석 도구의 확장된 데이터 분석 기능 주로 80/20 규칙을 따르는: 초기 노력 및 지불 큰 이익을 가져올 수 있다 하지만 데이터 세트 큰 데이터에 개발,이 감소 된다.
강한 대조에서는, Hadoop 확장할 수 있습니다 선형, 효과적이 고 비용 효율적인 데이터 분석에 중요 한 요소입니다. 데이터 집합 증가 함에 따라 전통적인 데이터 분석 환경 기 하 급수적으로 성장 하 고, 그리고 그것은 통찰력을 확보에 더 많은 추가 비용을 넣어 발굴. Hadoop의 경우 서버 클러스터 번호와 직접 저장소에 연결 된 데이터 집합의 크기는 선형으로 확장할 수 있습니다.
Hadoop의 이러한 장점은 웹 기반 기업 및 데이터 집약적인 기업의 급속 한 대중화에 대 한 주요 이유입니다.
그러나, Hadoop 배포를 직면 하는 주요 과제는 파일 시스템에 남아 있다. HDFs는 추가 전용 (만이 파일에 데이터를 추가할 수) 스토리지 데이터를 Hadoop 클러스터에 설치 필요 하지만 다음 HDFs API를 지원 하지 않는 다른 응용 프로그램에서 사용 하기 위해 처리 됩니다.
큰 기업에서 Hadoop의 배포에 다른 장애물 환경 신뢰할 수 있도록 특별 한 조치를 취할 필요는. Hadoop은 실패의 단일 지점 재해를 일으키지 않습니다 및 데이터는 데이터 손실이 발생할 경우 Hadoop 클러스터에 다시 로드 되도록 지속적으로 모니터링 해야 합니다.
장애물을 돌파
Hadoop이 문제는 과거 되고있다. 오픈 소스 커뮤니티는 Hadoop 완벽 유지 역동적인 생태계를 만들었습니다. 일부 회사는 이제 오픈소스 하 둡을 기반으로 하는 상용 제품을 제공 합니다.
더 많은 상용 하 둡 제품 소개 Hadoop의 넓은 인기를 몰고 있다. 이러한 상용 제품은 쉽게 Hadoop 기업으로 통합 하 고 제공 하는 엔터프라이즈급 성능 및 안정성. 전통의 완벽 한 통합에 대 한 기준으로 기존 표준 통신 프로토콜을 사용 하 여 hadoop 환경에 이러한 향상 된이 기능을 구현 하는 방법이입니다.
위에 아니면 그냥 시작?
기업에 대 한 진정한 기회를 제공 하는 데이터 분석 패러다임 변하고 있다. Hadoop을 제공 하는 통찰력이 패러다임을 제공 하 여 중요 한 경쟁 우위를 얻기 위해 모든 기업 수 있습니다.
Hadoop은 의심의 여지가 게임 변화 기술, 그리고 엔터 프 라이즈-클래스 사업 Hadoop 제품의 도입, Hadoop 자체는 변하고. 이 다음-세대 솔루션은 데이터 분석의 새로운 패러다임을 선도 합니다. (邹铮 컴파일)
이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이
페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.
커뮤니티에서 표절 사례를 발견한 경우
info-contact@alibabacloud.com
으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.