CSDN 클라우드 컴퓨팅 클럽: Hadoop 기술 개발 및 응용 프로그램 공유

출처: 인터넷
작성자: 사용자
키워드: 연습 클라우드 컴퓨팅

큰 데이터는 의심의 여지가, 개발 및 응용 프로그램 공유 회의 Gagnier, 하 둡 기술 배치는 완전히 문제 해결, 직원 더 많은 참가자와 강사 면 전 의사 소통 기회를 충족 하기 위해 두 개의 장소를 설정 했다.

이 시간 CSDN 클라우드 컴퓨팅 클럽 오래 둡 빅 데이터 빨간 코끼리 구름 탱 회사 설립자 초대, 상하이 바오 티베트 수석 엔지니어 왕 Zhenping 및 Zhaopin 수석 엔지니어 당신이 Hadoop 그리고 큰 데이터 연습 깊은 공유 했다.

긴: Hadoop 원리, 응용 프로그램 시나리오와 핵심 아이디어

긴, Easyhadop 지역 사회, 원래 스톰 오디오 플랫폼 연구 및 개발 관리자, 국가에서 첫번째 아파치 개발 엔지니어 (CCDH) 인증 시험 미국 Cloudera 회사를의 설립자); 레드 코끼리 구름 탱 설립자 & 여러 번 중국 CIO 연례 회의에서 Aliyun 의회, 수석 건축가 큰 데이터 음성 뿐만 아니라 데이터 Wis 많은 둡 전문가 베이징 대학 CIO 포럼 게시. 이 큰 데이터 살롱에서 첫 번째 스피커 전달 했다.

Hadoop이 작동 하는 방법

은행과 통신 하려고 시작 하자마자 Hadoop 시장은 빠르게 성장 하고있다. 그리고 Hadoop 분석의 다음 3 측면에서 주로 오래.

Hadoop 원리, 작동 원리 및 작동 메커니즘

입증 하 고 아직을 테스트 하 고 탐험

실제 사용 사례

Easyhadop 사회와 Redhadoop (시작) 관행 하 둡, 대용량 데이터, 사이 꽉 링크를 설명 하 고 클라우드 컴퓨팅의 긴 컬렉션:

1. 새로운 데이터 서비스: 바이, Tencent, Aliyun 및 다른 큰 회사, 더 큰 데이터 플랫폼, 즉 분석, 및 밖으로 밀어 수 있는 다른 방법에 대 한 데이터 수집, 데이터 서비스의 개념 구축에 Hadoop과 같은 플랫폼을 통해 비슷합니다.

2. 클라우드 컴퓨팅 경쟁력을 입으 면: 기본적으로, 그것은 데이터의 개방. 전통적인 데이터베이스에 비해, 더 나은, 개별 분석을 수행할 수 있습니다 그리고 Hadoop을 않습니다.

Hadoop과 기존 플랫폼을 비교

빅 데이터 기술 개념의 핵심은 두 부분으로 나뉘어: 가상화 기술 및 기술 Hadoop 처럼. 그것은 또한 2 개의 반대, 그리고 가상화 리소스는 메인프레임, Hadoop에 그와 반대로, 자원의 모든 종류를 풀링 퍼 팅에 대 한 더 많은입니다. 비-Hadoop 플랫폼 시스템은 핵심 비즈니스 시스템, IoE 대표, 같은 다음 locutionary 될 것입니다 2 개의 체계의 찬 부 양론.

메인프레임: 안정성, 높은 소스 품질, IO 능력은 매우 강한, 더 많은 디스크 및 데이터 리소스를 관리할 수 있습니다, Cpu의 수는 또한 지배적 이다. 물론, 기계, 사이 전송에 한계가 있다 고 저장 및 커널의 일반적인 대역폭 필요. 컴퓨터 간에 상호 전송 결과 디스크 IO, 디스크 병목 상태, 발생의 많은 수에서 그리고 같은 대역폭 문제 이다. 동시에 여러 개의 Cpu의 가난한 사용의 문제 또한 노출, 일반적인 IO 전체 시스템의 병목.

Hadoop: 조각, 파일은 서로 다른 수준으로, 계산 노드로 데이터를 병렬 IO의 노드 구현에 이동은, 그래서 많은 층을 필요. 지도 수 작업 감소 CPU 코어, 그래서 더 많은 CPU 코어, 빨리 지도 구성에 묶여있다. 높은 Io를 데이터를 이동 하는 대신 계산 이동 대용량 데이터의 의미입니다.

이 섹션에서에 긴 다른 예제를 시작, 더 많은 상세 운영 메커니즘, MapReduce의 분석 하지만 또한 HBase의 기능과 역할을 설명 했다.

Hadoop 응용 프로그램 시나리오

Long 오늘 Hadoop의 주요 응용 프로그램 보관, 검색 엔진 (집의 가정), 그리고 조직 그들의 자신의 구현 하 둡의 다른 구성 요소를 사용 하는 데이터 웨어하우스 사용 하는 경우. 이러한 3 시나리오 이외에 다른 프레임 워크와 결합 될 수 있는 Hadoop 2.0의 특징에서 유래, 상대적으로 인기 시나리오-스트림 처리 그리고 미래에, Hadoop 확실히 온라인 데이터 처리에 진화 할 것 이다.

Hadoop 핵심 아이디어

Hadoop 플랫폼 내부 데이터 오픈을 모두 보고 및 데이터 개발에 참여를 가능 하 게 하는 프로세스입니다. 엔터프라이즈 데이터 공유, 특히 Hadoop 큐, 자원 그룹, 큐, 작업 스케줄러 메커니즘, 전체 모델 이전 데이터베이스, 레이어, 레이어 사용 하 여 절연의 보다는 오히려 여러 자원으로 전환 하도록 할 수 있습니다 인식할 수 있습니다. 마지막으로, 긴 또한 현실에서 몇 가지 사례를 설명합니다.

왕 Zhenping: 건축과 도전 거래 플랫폼 Hadoop 로그에 따라

상하이 바오 티베트 수석 배경, 요구 및 목표, 문제, 시스템 아키텍처 및 거래 깊이 공유 하기 위한 플랫폼 Hadoop 기반 로그의 5 측면의 다른 Hadoop 지식에서 금융 업계에서 왕 Zhenping 엔지니어:

배경

현장 사용: 신용 카드 소비 지연, 트랜잭션 실패 및 실패 이유 및 유형, 거래 기관과 생산 이유를 찾아 상인을 표준화 되지.

데이터 특성: 데이터의 데이터에서 하루 약 300 백만 거래 상태, 현재만 장착된 트랜잭션을 저장, 원래 트랜잭션 로그는 사용할 수 없습니다.

요구 사항 및 목표:의 두 번째 수준 쿼리, 트랜잭션 실패 분석, 불규칙 한 거래의 분석, 사용자 자체 분석, 및 다른 데이터 조합, 거래 및 분석 보고서의 실패를 위한 이유를 식별 하기 위해 트랜잭션 로그를 보고.

도전: 로그를 얻을 하는 방법에 미치는 영향을 최소화 생산 시스템, Hadoop 클러스터에 300 백만 + 하루 트랜잭션 로그를 신속 하 게 번역 하는 방법, 작업의 많은 수를 관리 하는 방법 및 두 번째 수준 쿼리를 구현 하는 방법.

시스템 구축 및 아키텍처

시스템은 문제를 생성 하 고 필요에 따라 프로세스의 문제를 해결 하 고 그의 귀중 한 경험을 공유 하는 배경, 왕 Zhenping 문제를 해결 하기 위해:

1. 데이터 수집의 영향을 최소화: 일반적으로, 그것은 단순히 시간 및 방법의 오른쪽 지점을 선택 하는 사업에 따라, 실제 상황은 여기: 매일 아침 1시 ~ 5:00, 데이터 이진 방식으로 로컬 파일에 저장 하 고 신속 하 게 수 있을 뿐만 아니라 여러 시스템에 참여 하기 때문에 가져올 데이터, 클라이언트와 동일한 비즈니스 데이터 소스 하나에 의해 대응 관계를 사용 하 여 각 클라이언트는 동시에 다른 비즈니스 시스템 데이터를 구성할 수 있습니다.

2. 신속 하 게 번역할 300 백만 + 트랜잭션 로그 Hadoop 클러스터

여기 왕 Zhenping 포기는 MapReduce 주로 하기 때문에 독립적인 연구와 개발을 선택 했다: HDFs 파일 배포, 컷을 하는 파일은 저장의 형태에서 2. 파일 절단 같은 요인에 따라, 패킷, 불완전 한 메시지 및 로그 구문 분석 과정에서의 가용성 사이 경계 설정은 아니다 제어, 뿐만 아니라 로그 해상도 규격의 복잡.

3. 작업의 많은 수의 관리

위의 이미지는 회사 내에서 작업 관리 구조, 주로 4 개의 구성 요소를 포함 한다: 일 안무가, 주로 책임 일정 작업, 작업 관리자, 작업 스케줄러에 대 한 주로 책임 작업 상태 관리자, 감사 하 고 문제;에 대 한 작업 트리거 종속성 작업 또는 다른 작업 실행 작업, 트리거링.

2 차 쿼리: HBase 저장, 레벨 2 인덱스, parallelregionquery, 데이터 간격 쿼리 지원, HBase 액세스 API 캡슐화를 통해 왕 Zhenping 개선 개발 효율성과 클러스터 쿼리의 훌륭한 수준을 달성 하기 위해 튜닝.

마지막으로, 왕 Zhenping 또한 상하이 바오 티베트의 클러스터 상태, 하 둡 관련 지식과 Hadoop 및 관련 학습을 사용 하 여 공유 경험, 그 경험의 사용에는 초기 단계 규모, 네트워크, 환경, 및 다른 계획, 모니터링, 클러스터에 대 한 관심을 지불 하는 프로세스를 사용 하는 동안 서버 하드웨어 구성의 좋은 일을 할 수집 및 실행 로그의 분석 및 있는 비상 과정이 필수적인 링크를 운영 체제의 일반적인 튜닝. 학습, 측면에서 그 소스 코드 및 시스템의 동작 원리를 이해 해야 하지만 일찍 수정할 필요 하지 않습니다 믿고 있다.

당신은 리: 연습 Zhaopin, 그리고 관심의 관련된 포인트에서 Hadoop의

당신이 말한다 거기 Zhaopin 수석 엔지니어 데이터 클러스터의 노드는 기업의 수십와 Zhaopin에서 Hadoop의 사용을 공유:

웹 로그 분석

GA를 사용 하지 않는 이유

데이터: 사용자 생성 된 로그, 로그, 부하 균형 로그에 CDN 푸시

사용자 로그를 생성 하는 주요 분석: 30 (gzip 압축)와 로그 탐색 spents 1 분 21 초, 정규식, Piggybank에 로드 함수 있으며 필드 분리, 데이터 동시 2 분 18 초

로그 컬렉션입니다.

추천 제도 (추천 알고리즘을 이해 하는 매우 쉽게: 노이즈 데이터, 또는 규칙의 쌍의 특정 번호를 제외 하 고)

(토양 메서드를 사용 하 여) 추천 시스템의 콜드 시작을 해결 하는 방법

미래 추천 시스템 (기계 학습)에 대 한 계획

다음 그는 Hadoop의 그의 경험의 사용의 지혜에서 Hadoop의 사용에 주의 했다 포인트의 공유:

단일 CPU 코어의 수는 지도 및 슬롯을 감소 (메모리가 제한 된 경우 고려할 수 있습니다 감소 슬롯의 수를 줄임)

Datanode JVM 힙 2 GB를 초과 하지 않습니다. 디스크의 DN 수 = cpu 및 아무 raid

Namenode, 최고의 SNN 습격 할; namenode 힙 참조 HDFs 규모, 8GB 메모리 800 TB 데이터 금액을 보장할 수 있습니다 (극단적인 경우를 제외 거기는 많은 작은 파일 때문에 얼마나 많은 파일의 크기에 상관 없이 파일, 디렉터리, 블록 150 바이트의 메모리 필요

클러스터는 상대적으로 작은, 모든 압축 처리 하기 전에 데이터 소스를 업로드 고려할 수 있습니다. At, GZ (이것은 개별 형식, 하지만 저장 디스크 공간을 많이, 매우 비용 효율적인)의 사용의 지혜

셔플 구성 네트워크 대역폭을 저장 하는 스마트

다음 당신은 자세한 기술 또한 돼지의 주요 사용자를 각각 공유와 코드를 공유 합니다.

mapreduce 작업 위에 yahoo!:90 %는 생성 하는 돼지

mapreduce 작업 위에서 지 저 귀 다: 80%는 생성 하는 돼지

링크 드 인: 대부분 mapreduce 작업은 생성 된 돼지

다른 주요 사용자: 세일즈 포스 닷컴, 노키아, AOL, 컴 스 코어

마지막으로, 당신은 또한 돼지, Hortonworks, 트위터, 야 후 및 Cloudera 참여의 주요 개발자 들을 설명 했다.

관련 문서

연락처

이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이 페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.

커뮤니티에서 표절 사례를 발견한 경우 info-contact@alibabacloud.com 으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.