2008 60 남자 "중국에서 Hadoop" 기술 살롱의 현재 수천에서 산업 기술 축제, 7 년 BDTC (큰 데이터 기술 회의)의 사람의 규모는 완전히 목격 하는 중국의 큰 데이터 기술 및 기술 핫스팟의 큰 데이터 필드를 충실 하 게 묘사 하는 응용 프로그램의 변환 수많은 귀중 한 산업 경험 침전 2014 년 12 월 12, 14에서 같은 시간에 가장 큰 중국 데이터 기술 이벤트 기술 핫스팟, 업계의 경험을 공유의 현재 필드를 리드 나갈 것입니다.
더 나은 이해 산업 개발 동향, BDTC 2014, 직전에 기업, 기술 문제를 이해 우리 큰 데이터 탐사도로 분야에 IT 거 인 공유 지식 마이닝의 강 수의 과거 어셈블리에 이동 됩니다.
큰 데이터의 구조에 뿐만 아니라 좋은 사업 기회를가지고 기업의 개발에 대 한 큰 데이터 심각한 도전 포즈, 여기 이전 중국 대용량 데이터 기술 컨퍼런스 PPT 깨끗 한 큰 데이터 아키텍처 및 시스템 (다음)에 보내질 것 이다.
다음은 큰 데이터 구조와 중국 대형 데이터 기술 컨퍼런스 (II)의 PPT의 시스템입니다.
Apachetez 커 Bikas 사: 다음 세대 둡
PPT 다운로드-BDTC 2013의 일곱 번째 세션
Bikas 사 원사 아키텍처는 Hadoop 매우 비슷해 보인다 소개 1.x, 하지만 논리에 큰 차이가 있다. Hadoop 1.x,yarn에 상대적인 장점은 주로 다음과 같은 측면에서 구현: 추가 새로운 응용 프로그램 및 서비스, 향상 된 클러스터 활용, 더 큰 규모, 실험 유연성, 공유 서비스 및 설명의; 동시에 자세한 배포의 다양 한 측면, 그는 또한의 계획, 원사 비전을 공유 원사를 사용 하면 한 곳에서 모든 데이터를 저장 및 성능 예측을 제공 하는 다른 방법으로 상호 작용 수 있습니다. 예를 들어 Windows 또는 다른 운영 체제 할당 하 고 시스템 내에서, 다른 리소스를 관리할 수 하 고 털이 중앙 집중식된 관리를 할 수 있다.
Hortonworks 기술 Leadergunther Hagleitner:apachehive & 스 팅 어
PPT 다운로드-BDTC 2013의 일곱 번째 세션
군 터 Hagleitner 처음의 탄생의 배경 설명 스 팅 어, 희망을 하이브의 발전을 촉진 하는 커뮤니티를 통해 하이브 쿼리 속도를 100 배 시간, 그것의 확장성을 향상 시킬 뿐만 아니라 뿐만 아니라 대화형 쿼리 기능을 지원 하기 위해, 다음, 군 터 내용을 삽입, 업데이트, 삭제 작업, 하이브, 관련 콘텐츠의 일부에 대 한 실용적인 트랜잭션, 고객의 테이블 수 있습니다 수 업데이트 또는 삭제 모든 시간. 각 업데이트 새 파일을 저장 하 고 모든 변경 내용을 기록 합니다. 쿼리, 트랜잭션 목록을 나타나고 그들은 통합 됩니다. 마지막으로, 군 터는 또한 Tez에 대해 얘기. 군 터 Tez 대체 MapReduce 말한다. Tez, 함께 Tez 다른 작업 MapReduce 작업을 커밋 수 있습니다.
Hadoop 2.0에서에서 Hadoop PMC Sze, Tsz-wo (니콜라스): HDFs 혁신
PPT 다운로드-BDTC 2013의 일곱 번째 세션
니콜라스는 Namenod의 단일 지점 문제를 해결 하는 방법을 설명 합니다 여러 Namenode 연맹을 통해 여러 Namenode는 여러 연맹, 그리고 모든 Namenode 독립적입니다. HA의 2.0 버전에 대 한 핫 스페어링 지원 포함 (핫 스페어 namenode는 메모리에서 데이터 구조를 유지 합니다), 매뉴얼에 대 한 지원 또는 자동된 실패-백업 지원 됩니다. 자동 오류 중복의 경우 가능한 Namenode 선택 메커니즘을 활성화 하 고 동물원의 사육 담당자 감지 오류를 사용 하도록 정기적인 namenode 상태 검사; 재생 캐시입니다. 그는 또한 삭제 파일 복원할 수 없습니다, 및 복원할 수 없습니다 특정 시점에서 시간, 하지만 하지 순환 복구에 파일 시스템의 스냅샷의 부재에서 말했다.
페이스 북의 데이터 인프라 팀 소프트웨어 엔지니어 동 Siying: 페이스 북 개발 HDFs와 HBase 새로운 개발
PPT 다운로드-BDTC 2012의 여섯 번째 세션
동 Siying A 상세 datanode Namenode와 페이스 북의 데이터 증가 달성 하는 방법을 설명 하 고 그가 그래픽으로 두 "인구 조사-출생 보고서 죽음 보고서" 사이 "전체 보고 + 증가"의 과정을 묘사. 그리고 업계의 "Namenode 업그레이드를 달성 하는 방법"에 대 한이 문제는 페이스 북을 달성 하는 방법을 제공 합니다. 페이스 북의 보기에서 HDFs와 HBase는 둘 다에 대 한 다양 한 제품에 사용할 수 있는 매우 중요 한 인프라, 실시간 랜덤 읽기 데이터베이스에서 페이스 북을 사용 및 실시간 연속 읽기 쓰기 쓰기는 많이 업데이트, 업데이트 성장 과정은 매우 긴 하지만 페이스 북 다양 한 HDFC 더 다양 하 고 안정적인 데이터 플랫폼을 될 수 있도록 개선 하 고 있습니다.
링크 드 인 둡 코어 팀 Hu 첸 제이: 링크 드 인 큰 데이터 응용 프로그램 및 Azkaban
PPT 다운로드-BDTC 2013의 일곱 번째 세션
후 첸 먼저 데이터 제품 및 추천 플랫폼을 포함 하 여 Hadoop 플랫폼 LinkedIn의 큰 데이터 응용 프로그램을 소개 하 고 예약 플랫폼 그들이 Azkaban 제품 큰 데이터의 요구 사항을 충족 및 디자인 엔지니어를 디자인 하는 방법 자세히 Azkaban의 워크플로 소개 합니다. 허는 Azkaban의 가장 큰 특징은 회사의 생산성 향상에 중요 한 시각화에 중점을 말한다. 또한, 그는 Azkaban의 다른 기능은 지원 다양 한 대용량 데이터 플랫폼에 대 한 Hadoop 0.20, 1.x와 2.x, Hadoop와 호환에 대 한 지원을 포함 하 여 매우 좋은 호환성 Hadoop 등 여러 구성 제안 보안; 돼지에 대 한 지원 SQL 엔진 하이브 등의 신규 및 이전 버전 호환, 있으며, Teradata 등 일부 비 hadoop 플랫폼 마지막 지원.
알리 데이터 플랫폼 부문 대규모 데이터 기술 전문가 Rolly: 크로스 룸 Hadoop 클러스터를 구축
PPT 다운로드-BDTC 2013의 일곱 번째 세션
Rolly는 엔진 룸에 걸쳐 배포의 배경과 알리바바 Hadoop 클러스터의 사다리의 상태를 소개합니다. 알리, 2008 년에서 Hadoop 클러스터를 설정 하 고 2009 년에 발사 되었다. 그 후, 클러스터 코드는 회사 자체에 의해 유지 되었습니다. 규모 증가, 엔진 룸에서 Hadoop 배포 및 확장성의 문제를 직면 해야 합니다. 그는 80% 이상의 저장소 사용 매우 전체 컴퓨터 데이터와도 2 천 또는 3 천 단위 98%를 도달 하는 매우 위험한 특히 매우 위험한 신호 이다. 크로스 룸, 어려움의 배포를 달성 하기 위해 거의 100%의 계산 활용은 실제로 대단히 포함 하지 지원 namenode 확장, 대역폭을 해결 하는 방법, 데이터를 배포 하는 방법 그리고 마지막으로이 룸 90% 데이터를 전송 하는 방법, 데이터 볼륨에 도달 이상 50 p, 마이그레이션 매우 느릴 것 이다.
Tencent 수석 엔지니어 자오 웨이: Tencent에서 하이브 분산 데이터 웨어하우스 연습
PPT 다운로드-BDTC 2012의 여섯 번째 세션
Tencent 수석 엔지니어 자오 웨이 도입 회사의 TDW 코어 구조, 하이브, mapreduce, hdfs와 PostgreSQL 구성. TDW에서 코어 하이브 모듈의 실제적인 경험을 공유 하는 그; 하이브가 SQL 클래스의 HQL 언어를 통해 구조화 된 데이터의 조작을 지 원하는 Hadoop에 데이터 웨어하우스를 구성 하는 소프트웨어. 초기에, 하이브의 기능은 여전히 있다 특정 제한, 사용 임계값이 너무 높게, 지역화 어렵다, 성능 높은, 그리고 충분히 안정 되지 않습니다. 이러한 결함을 바탕으로, TWD 했다 많은 사용자 지정 및 하이브 최적화: 기능 확장, 사용 편의성, 성능 최적화 및 안정성 최적화. 이러한 실무 기능, 효율, 성능 및 안정성 크게 향상 하이브의 확인 합니다. 다음, Tencent 하이브를 홍보 하기 위해 더 노력 해야 합니다.
Vm 웨어 제품 라인 매니저 Dompo: vm 웨어 파워 엔터 프 라이즈 응용 프로그램 Hadoop 3 단계
PPT 다운로드-BDTC 2012의 여섯 번째 세션
기업 내에서 하 둡을 사용 하 여 3 개의 단계로 분할 될 수 있다 Dompo: 파일럿 POC Hadoop 값 20 노드 아래 일반적으로 유효성 검사를 1-2 사용 사례를 사용 하 여 비즈니스, 줄 시작 첫 번째 단계는;는 Hadoop 프로덕션 응용 프로그램은 두 번째 단계, 그것은 수 부서, 사용 사례, 더 많은 사용 하 여 코어 Hadoop 및 기타 관련 소프트웨어, 수십 수백 개의 노드를 일반적인 규모; 큰 데이터 생산 응용 프로그램은 많은 부서, 종종 중요 한 프로세스의 하위 집합을 지원 하 고 다른 큰 데이터 국 서비스와 통합 서비스를 제공할 수 있는 제 3의 단계. MPP Db, nosql 같은 이 3 단계에서 vm 웨어 가상화 탄력, 간단 하 고 더 가용성이 Hadoop 만들려고 수 있습니다.
훈련에 따라 치 스타 퀄 컴 CTO Murrisen: 실시간 게임 데이터 분석 시스템
PPT 다운로드-BDTC 2013의 일곱 번째 세션
데이터 분석 플랫폼에서 데이터를 얼마나 많은 사람들이 오늘, 어떤 수익, 이러한 문제에 대 한 모델은 로그인을 포함 하 여 몇 가지 결론을 발굴 하는 데 필요한, 즉, 누가, 무엇을 했을 설명할 수 있는 테이블 그리고 SQL 언어 실행으로 이러한 문제를 번역 될 수 있다 Murrisen는 Xingcloud를 소개 합니다. 다음 계획 또는 작업 직원 상황의 동작을 이해 하려면 이러한 결론에 따라, 당신은 정보에 뒤에 dau에 찍을 수 있습니다. 이 사용자의 개념을 소개 하 고 사용자는 특성, 속성의 값에 따라 효과적으로 문제를 해결할 수 있습니다. 그의 연설에서 Murrisen는 밝혔다 Xingcloud를 현재 약 2 십억 삽입/업데이트, 200 k + 집계 데이터는 매일, 쿼리 응답 시간 평균 약 10 초, 그리고 그들의 훈련에 대 한 그것에 추가 된 배포, 동안 저장소 엔진 쓰기 인터페이스에 합류 했다.
Guo Leitao, 클라우드 컴퓨팅 연구원, 중국 모바일 연구소: HBase 코프로세서 최적화 실험
PPT 다운로드-BDTC 2012의 여섯 번째 세션
Guo Leitao HBase, 관계형, 열 방향으로 나열, 오픈 소스 분산 Hadoop 위에 구조적된 데이터 스토리지 시스템. Hbase 데이터는 HDFs에 완전히 이며 HDFs 도메인은 매우 유사 하 고, 3 계층 색인 구조를 포함 하 여: 메타 테이블, roottable, 그리고 동물원의 사육 담당자 파일. Guo Leitao 또한 관찰자와 끝점 구현 프로세스의 응용 프로그램 개발에서의 두 가지 방법을 통해 hbase 코프로세서 지역 배포 장애, 클라이언트 네트워크 병목 현상 및 CP 불안정, 그리고 지역 데이터 지역화를 통해 발생을 설명 하는 예제를 사용 CP의 로컬 컬렉션 그것의 효율성을 개선 하 고 잘 구성을 최적화할 수 있습니다.
2014 년 12 월 12-14, 여는 중국 컴퓨터 학회 (CCF), CCF 큰 데이터 전문가 위원회, 후원 CSDN 과학의 중국 아카데미 공동 주최 첫 번째 중국 대형 데이터 기술 컨퍼런스 (다 데이터 기술 컨퍼런스 2014 BDTC 2014) 베이징 새로운 운 크라운 플라자 그랜드 호텔에서 개최 됩니다. 이 의회에 주안점 "큰 데이터 인프라", "큰 데이터 생태계,"대용량 데이터 핵심 기술","큰 데이터 응용 프로그램의 인터넷 기술 연습"," 전통적인 엔터프라이즈 기술의 큰 데이터 응용 "그리고 다른 문제는, 거의 백 전문가 공유 그들의 기술 전투 현장 방문 한다. 더 많은 양보를, 속도를 등록!
중국 대형 데이터 기술 회의 PPT 컬렉션 시리즈 기사
BDTC ppt 모음 (i): 박쥐, 화 웨이, NetEase와 다른 큰-공유 데이터 아키텍처
BDTC ppt 모음 (ii): 페이 스 북, 링크 드 인, 등등에 의해 공유 하는 큰 데이터 아키텍처.
무료 구독 "CSDN 클라우드 컴퓨팅 (왼쪽) 및 csdn 큰 데이터 (오른쪽)" 마이크로-편지 공개 번호, 실시간의 이해 원래 클라우드 뉴스, 최신 큰 데이터 진행을 이해 하기!
CSDN 게시 관련된 클라우드 가상화, 독 노동자, OpenStack, Cloudstack, 및 데이터 센터 등의 정보를 컴퓨팅, 스트림 컴퓨팅, 하 둡, Nosql/newsql, HBase, 임 팔 라, 스파크 메모리 계산, 공유 기계 학습 및 지능형 알고리즘 및 기타 큰 데이터 뷰를 제공 하는 클라우드 컴퓨팅 및 대형 데이터 기술, 플랫폼, 연습 및 산업 정보 서비스 관련.