Hadoop은 여기, 준비가 되셨습니까?

출처: 인터넷
작성자: 사용자
키워드: nbsp 대용량 데이터 디스크에
Hadoop은 여기, 준비가 되셨습니까? 블로그 카테고리: 재발급된 하 둡 데이터 분산 개발 프레임 워크

그것은 학습 커뮤니티에서 증 쇄 하는: http://bbs.itcast.cn/forum-122-1.html

이제는 노트북, 코어 i5, 메모리 4 G, 500 G 하드 드라이브 구성이입니다. 첫 번째 컴퓨터 펜티엄 3, 512 M 메모리 및 하드 드라이브 20 G으로 구성 된 상상 하기 어렵다. 그 당시 제 20 G 하드는 예비의 많은 있다. 이제, 그 500 G 하드 디스크 공간에 맞지 않을 수 있으므로 교육용 비디오, 음악, 영화, 소프트웨어의 다양 한. 인터넷의 발달과 함께 점점 더 많은 데이터 생산, 뿐만 아니라 구조화 된 데이터는 데이터베이스에 저장 될 수는 있지만 또한 반구조적 및 구조화 되지 않은 데이터를 웹 페이지와 같은 포함 된 이메일, SMS, microblog, 로그, 등. 인터넷, 트위터는 약 340 백만 매일 게시, Sina Weibo 사용자 100 백만 이상, Baidu 검색의 수십억에 대 한 처리 요청, Taobao 역 거래 유니콤의 사용자가 온라인 기록의 수백만의 수만까지 10 TB (1 TB = 1024 GB)에 1 일. 이 모든 제안 빅 데이터 시대 왔다!

큰 데이터는 무엇입니까? 큰 데이터의 4V 기능에서 보세요. 볼륨 용량이 큽니다. 몇 가지 (10) 기가바이트 데이터의 큰 데이터를 호출할 수 없습니다 그리고 전통적인 RDBMS에서 데이터를 처리할 수 있습니다. RDBMS 또는 심지어 데이터 웨어하우스 데이터에 도달 하면 수백 GB, 또는 TB 수준 심지어 처리할 수 없습니다. 큰 데이터입니다. 다양 한 종류는 다양 하다. (다른 구조) 데이터 및 로그, 텍스트, 워드, PDF, PPT, 엑셀, JPG, GIF, AVI 및 기타 그래픽, 텍스트, 오디오, 비디오 파일 등 대용량 데이터의 특성의이. 이러한 파일 형식은 전통적인 RDBMS에 의해 처리 되지 않습니다 검색 하거나 분석 될 수 없습니다. 속도 빠르게 액세스할. 데이터는 기업의 생명선 이며 데이터 처리 해야 신속 하 게, 전통적인 RDBMS의 장점입니다. 하지만 거 대 한 데이터를 얼굴에 RDBMS는 힘. 값 밀도 낮습니다. 가장 중요 한 데이터는 데이터 웨어하우스 데이터베이스에 저장 된 구조화 된 데이터에 변형 되었습니다. 낮은 값 밀도와 큰 데이터, 그것 아니다 항상 데이터베이스 관심의 개체. 하지만 거 대 한 양의 데이터는 긴 꼬리 이론 같은 쓸모 없는 "맥주와 기저귀," 대용량 데이터의 상업적 가치에 따라. 따라서, 정제 대용량 데이터의 비즈니스 가치 기업, 더 새로운 성장 포인트 이며 더 많은 기업에 중요성을 첨부 합니다. 4V 이상 대용량 데이터 저장, 관리, 이용 하기가 어렵다 어렵다 제공 합니다. 어떻게 해야할지? Hadoop의 아웃! 데이터는 디스크 미디어에 저장, 방대한 데이터의 엄청난 양의 디스크에 저장 해야 합니다. 너무 많은 디스크는 윈도우와 리눅스, 분산된 파일 관리 시스템, DFS (분산 파일 시스템)와 같은 운영 체제의 파일 관리 기능을 초과 했습니다. 분산 파일 관리 시스템은 여러 디스크에 분산 데이터를 관리 하는 데 사용 됩니다. 분산된 파일 시스템 요구 사항을 고려 하는 등 실패, 중복 디스크 읽기, 쓰기, 검색, 데이터 일관성, 배포. Hadoop의 HDFs 분산된 DFS 조각난된 디스크에 방대한 양의 데이터를 저장 하는. 데이터 저장, 그건 아카이브 무엇 이며 어떤 회사 싶지 않을. 그것은 의미가 데이터 상업적 가치를 생산에 악용 될 수 있습니다. 다음 큰 데이터 검색을 위한 필요를 쿼리, 변환, "계산" 이라고 하는 다양 한 가장 일반적인 계산 무거운가 정렬입니다. 어떤 사람들 줄에서 실행 하는 높은-성능 서버 찾기 어렵다 생각 합니다. 디스크 주소 지정 시간, 디스크 I/O, 네트워크 I/O, 상대 하기 때문에 그렇게 간단 하지 않습니다.큰 데이터에 대 한 그것은 거 대 한 경비 이다입니다. 우리는 방법의 생각: 데이터의 대량 데이터의 작은 조각을 처리 하는 기계와 동시에 작동 하도록 모든 컴퓨터를 작은 조각으로 분할 하는 것. 마지막으로, 결과 표현 된다. 이것은 "병렬 컴퓨팅"입니다. Hadoop의 MapReduce 병렬 처리 하는 분산 컴퓨팅을 위해 설계 된 프레임 워크입니다. Hadoop은 스토리지와 대용량 데이터의 계산을 해결 하는 데 사용 됩니다. 이제, 인터넷 거 인 구글, 야 후, 트위터, 페이 스 북, 등 등 이미 큰 데이터 사용 하는. Google은 원조 이다. Taobao, Sina, Sohu, 바이, Tencent가 되었습니다 큰 데이터 처리 년 전 같은 중국에서 Hadoop 적용은 점점 더 인터넷 기업입니다. 통신, 금융, 은행, 등 전통 산업 또한 큰 데이터의 비즈니스 가치를 시작 했습니다. 너무 많은 기업 들이 큰 데이터를 사용 하 여, 큰 데이터에 대 한 갈증은 점점 더 강 해지고, 하지만 Hadoop을 알고 매우 소수의 사람들이 있다. 그래서 그러한 사람들의 급여는 매우 높다.





아래 그림에서 Hadoop 작업, 작업 모집 웹사이트 검색 결과 이며 대부분 일자리는 이상의 10 k의 월급을 볼 수 있습니다. 월급 20 k 초과 게시물 큰 비율이 있다.


위의 쿼리 결과의 스크린샷, Hadoop 엔지니어의 치료는 매우 높은, 20W의 연봉에 거의 모두 볼 수 있습니다.





Hadoop 재능 부족 때, 마스터 기술 및 어떤 결과 대해 생각 있습니다.


관련 문서

연락처

이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이 페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.

커뮤니티에서 표절 사례를 발견한 경우 info-contact@alibabacloud.com 으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.