중국의 가장 영향력 있는 큰 큰 데이터 수집 이벤트-2013 중국의 빅 데이터 기술 컨퍼런스 (다 데이터 기술 컨퍼런스, BDTC) 2013 년 12 월 5-6 일에에서 베이징에서 개최 되었다. 주요 기업, 거의 70 기조 연설, 수십 뿐만 아니라 커버 Hadoop 생태계 흐름 계산, 실시간 컴퓨팅 NoSQL, Newsql 그리고 다른 기술적인 방향 뿐만 아니라 인터넷, 금융, 통신, 교통, 의료 및 다른 혁신적인 경우, 법률 및 큰 데이터 자원의 규정에 큰 데이터 상업 이용의 정책 제어에에서 설명 되어 있습니다.
BDTC 첫 날 회의가 중국 큰 데이터 기술 컨퍼런스, Dhabaleswar 팬더, 오하이오 주립 대학에서 컴퓨터 과학 교수의 "큰 데이터 처리 가속을 사용 하 여 HADOOP-RDMA" 권리 연설 출판. 그는 높은-성능 컴퓨팅 네트워크에서 그의 연설 MPI 구성 요소의 역할을 강조 하기 시작 했다. 그런 다음 Hadoop HPC 사용할 수 있는지 여부를 언급. 많은 회사는 소켓을 개선 하려고 하는 Dhabaleswar은 실제로 실수, 소켓은 높은-성능 디자인을 적합 하지 않습니다 때문에. Dhabaleswar는 다음 HDFs, MapReduce, 및 RDMA를 사용한 후에의 성능 향상을 공유.
다음은 연설의 사본입니다.
Dhabaleswar 공화국 팬더: 안녕 하십니까! 나는 매우 기쁘게 생각 하는 우리의 포럼에 참여 하는 같은 기회. 우리 팀은 최근 몇 년 동안에서 수행 하는 작업에 대해 얘기 하자. 우리는 RDMA, RDMA, 이해 하지 못하는 경우는 실제로 원격 DMA 고급 컴퓨팅 방법 개발. RDMA의 특성은 무엇? 어떻게 우리는 이러한 특성을 사용합니다. 오늘 아침 우리는 빅 데이터 문제에 대 한 이야기, 우리의 비즈니스, 요소 분석, 우리의 관리 의사 결정에 큰 데이터에 큰 데이터 독특한 기회를 제공. 또한, 우리는 이러한 데이터의 볼륨은 매우 큰, 아마 10 년 35PB의 총 후 참조. 큰 데이터는 3 개의 v 특성, 첫 번째 V는 매우 큰, 매우 빠르고, 두 번째 V를 나타냅니다 3 V 3 v의 특성은 다양성입니다.
누가 사용 하 둡, 살펴보겠습니다 그리고 우리가 알고 있는 Hadoop, 전세계 다 수의 사용자를 hadoop을 사용 하는 많은 다른 기업. 다음 단계는 Hadoop, 그리고 네트워크 기술 그리고 어떤 프로토콜 주위 세계, 그리고 셋째, Hadoop 개발의 과제를 논의 되며 다른 Hadoop의 디자인에 대 한 이야기의 다른 부분을 소개 하는. 다음 Mikachma를 소개입니다.
우리가 이것을 알고 Hadoop 아키텍처, 우리는 HDFs, RPC, 이며, 전체 Hadoop의 구조와 프레임 워크입니다. 어떻게 우리가 대화형 단계 동안 서로 상호 작용 합니까? 여기 우리는 상호 작용에 초점, 더 높은 성능 프로토콜을 사용 하 여 관련 콘텐츠,이 일을 할 수 있는 우리. 이제 우리의 HDFs. 이것은 우리의 Hadoop의 초기 저장, 오류 수정, 안정성 기능은 매우 강한, 그리고 많은 다른 매우 유명한 기업에 의해 시스템을 적용 한다, 여기 우리가 그냥 우리가 어떻게 RMA 또는 RDMA 콘텐츠가에 포함 된 보고 싶은 보기 좋은 것 일까요? 네트워크 수준에서 살펴 봅시다, 우리의 클라이언트와 HDFs 데이터 노드 상호 작용, 우리는 상대적으로 높은-성능을 네트워크 같은 연결에 대 한 그래서 우리는 더욱 촉진이 클라이언트 응용 프로그램의 HDFs 이것이 우리의 Hadoop 아키텍처 및 운영. 그들은 다른 관련 데이터를 충전 하 고 다음 그들은, 하자 관련된 작업의이 부분에서 보고 있을 수 있습니다 비용 또한 상대적으로 높은. 또 다른 중요 한 구성 요소 hbase, 우리 hbase 호스트 데이터베이스, 다른 기업에 적용 된이 디자인, 우리는 오늘 아침 hbase의 응용 프로그램에 대 한 이야기는, 거기 과정을 통하여 hbase는 두 개의 서로 다른 네트워크, 한 연락처 HBase 클라이언트, 또한 로컬 서버와 지역 서버와 데이터 노드 간의 연결이입니다. 네트워크 기술 및 연관 프로토콜 동향 살펴 봅시다. 이것은 관련된 개발의 지난 20 년 동안에, 이것은 세계의 500 강한 상업 컴퓨팅에서 클러스터 관련된 동향, 뿐만 아니라 더이 어떤 특정 한 상황을 보여 우리와 함께? 여기에서 우리의 표에서 우리는 지난 몇 년 동안 그에 게 무슨 일이 있었는지. 세계의 정상 500 1999, 모든 슈퍼 컴퓨터를 사용한 때 이었다. 후 최근 몇 년 동안 이들 중 85%는 몇 가지 클러스터는 우리의 필수품 클러스터의 훌륭한 개발 클라이언트 및 클러스터의 다른 많은 관련된 구성 요소를 포함할 수 있습니다. 이제 자이 보고 고급 상호 연결,이 슬라이드에서 우리가 볼 수 있습니다 우리가이 상호 계약을가지고, 사실, 중국에서 추가 응용 프로그램 되었습니다, 새로운 프로토콜을 적용 하는 다른 많은 회사는.
최근 몇 년 동안에서 우리는 RDM이이 통합 관련 아키텍처를 통합 하는 통합된 인터페이스를 지금 우리가 그래서 우리는 관련 된 표면 매우 좋은 볼. 그래서 여기에 내가 거 야 보여.이 지연은 상대적으로 낮은, 우리의 대기 시간이 몇 밀리초만 있을 수 있습니다, 우리는 넓은 대역폭, 초당 100 TB 및 CPU 관련 비용은 상대적으로 낮은, 관련된 CPU는 상대적으로 좋은 상호 작용을 할 수 있도록 약 5% ~ 10%, 낮은 당신은 또한 당신의 속도 올릴 수 있습니다. 이 리눅스 개발에 비슷한 이며 또한 가장 일반적인 개발 운전. 다른 색상, 다른 기술, 우리는 녹색 볼이, 몇 년 동안 그것은 상대적으로 안정적인 성장이 하고있다. 이 네트워크 기술은 500 시스템에서 그렇게 오랜 세월 동안 사용 되었습니다의 비율을 보여줍니다. 인터넷의 지속적인 개발, 응용 프로그램은 또한 개발 되었다. 여기 우리는 그것은 아마도 50 기가바이트 모든 속도, 성능 차이 꽤 많은, 하지만 여기 우리가 그것은 이더넷에서 동작 하는 방법을 참조를 볼 수 있습니다. 많은 것 들이 시스템 설계에 고려 될 수 있다 볼 수 있습니다. 2013 년에 207이이 클러스터에 대 한 사용 된, 500 시스템의 목록을 발표 했다. 이러한 시스템의 19, 물론 중국에서 많은 가지를 볼 수 있습니다. 왜 네트워크에서 성장 하 고 너무 빨리 높은-성능 컴퓨팅? 실제로 미들웨어 MPI, 이것이이 높은-성능 컴퓨팅 개발 년 동안 새로운 네트워크 기술 개발을 구동할 수 있는 프로그래밍 모델, 사람들이 많은 연구 및 개발, 우리를 포함 했을 여기, 연구 많이 했 이것은 성능 및 확장성 더 높은 합니다. 그것은 단지 API, 실제로 약 13 년 필드에서 이며 지금 올라 오고 다른 모델이 있습니다. 이 경우 우리 회사에서 지금 막 언급 사실 우리가 공부 하 고 RDMA, 다른 장비와 소프트웨어 연구, 약 71 개국, 여기를 참조 하십시오 기계 이상의 2000 사용, 일부 대학를 포함 하 여 그리고 일부 순위는 매우 앞으로 중간에 10 이상 7, 같은 MPI에 근거 하 여 이루어집니다.
보고 성능에이 난 그냥 말한 지연 매우 짧습니다 다른 지표, 블루 라인에서 봐는 인텔의 최신 아키텍처와 최신 데이터. 다른 한 노드에서 데이터를 보낼 수는 약 12.8 g B / 초, 100 G 전송 속도 매우 짧은 지연 고려 하는 경우의 성능 개발을 가능 하 게 될 수 있습니다. 높은-성능 개발은 너무 좋은 경우 hadoop 관계는 무엇입니까? 그건 무슨 일하고에 지난 2 년 동안. 이 디자인 MPI 모델에 적응 하는 여부 우리는 어떻게 우리가 병목을 돌파 하 고 새로운 디자인, 제공에 대해 더 우려 하 고 우리가 그것의 성과 얻을 수 있습니다, 만약 우리가 왜, 여기에 우리는 몇 가지 연구 결과. 같은 시간에 그 많은 클러스터 이미 존재 하 고 중국은 이미 이러한 시스템 배치를 볼 수 있습니다. 그래서 Hadoop 같은 환경에서이 기계를 사용할 수 있는지 여부 높은-성능 컴퓨팅 네트워크의 클러스터 수를 사용 하 여 Hadoop 큰 데이터 응용 프로그램 고려 하십시오.
그냥 보면 전반적인 개발 봐 다른 구문에 도전을, 언급 했다. 예를 들어 멀티 코어 아키텍처 네트워크의 기술, 저장 기술, 물론 이것은 또한 매우 중요 하다입니다. 상단은 대용량 데이터 응용 프로그램 그리고 중간에 어떤 미들웨어 있다. 중간은 프로그래밍 모델, 우리가이 수준에서 충분 한 성능을에 서비스의 품질을 개선 하 고 싶다면이 우리가 지금 연구를 직면 하는 도전. 우리가 지금 할 일은 연구의 아주 작은 부분에 초점을 맞추고, 다른 시스템,이 분야 연구의 사용할 수 있는지 여부는 매우 넓은, 많은 성능 향상이 있다. 이것은 보다 일반적인 프로토콜, 즉 G 2 g 수십 g.를 포함 하 여 전통 소켓 물론 소켓도 많은 대체 프로토콜 있으며 다른 제품도 4 G 수십 g. 실제로 내 최고 관심사 인 지금, SDP 같은 다른 계약 이며이 기술을 통해 더 나은 성능을 얻기 위해 일부 응용 프로그램. 그의 라는 것은,이 더 나은 성능, 비교를 위해 다른 소켓의 대부분 있을 것 이다, 이들은 미래의 방향 중 일부.
디자인의 경우, 일부 응용 프로그램에는 사람들이 지금 물어볼 것입니다 G 또는 10 g 네트워크는 일부 기업 수 있습니다 몇 가지 개선 작업, 가속된 소켓 여부 Hadoop은 이러한 네트워크와 프로토콜의 사용을 가속. 이 소켓 고성능으로 설계 되지 않았습니다 하 고 상단에 반드시 일치 하지 않습니다. 예를 들어 Hadoop, 수 우리의 이전 디자인 향상 전반적인 성능. 만약 우리가 우리가 무엇을 할 그래서 이것은 또한 문제 할 수 있는 우리를 해결 하기 위해 필요 합니다.
우리가 지난 2 년 동안에서 무슨 짓을 했는지 다음의 빌드, 여기 몇 가지 세부 사항을, 우리는 Hadoop2.0 프로젝트를 이번이 여름에, 그리고 새로운 버전 우리의 최신 연구 버전에 최신 연구 기법 중 일부는 되었습니다. 이것은 최신 버전은 1.2.1의 버전을 다운로드할 수 있습니다. 이것은 사물의 많은 함께 테스트 되었고 서로 다른 플랫폼에서 테스트. 이러한 구조에서 우리는 우리가 어떻게 디자인 볼 수 있습니다. 지금까지, 사람들 생각 네트워크 느립니다, 네트워크 미래 더 빨리 될 수 있는 몇 가지 숫자를 표시 하려면 느립니다. 그래서 만약 우리가 성능 향상을 위해 상위 층을 개편 했다, 이것은 되 고 공부. 이것은 우리가 2012 회의에서 작년에 간행 된 종이, 이것이 어떻게 어떻게 속도 높일 수에 대 한 2g에서 최대 10 G을,이 숫자는 모든 동일한 소프트웨어와 함께 할 두 프로토콜, IPOIB, 빨간색은 우리의 디자인, 다시 한 10 G, 동일한 하드웨어와 함께 첫 번째 ipoib 30%를 변경할 수 있습니다 10 g 단어는 56%, 방금 언급 한 우리의 기술로 30% 변경, 10 G은 56%,이 통신 시간의 변화.
또한 있다 결과 대 한 새로운 평가 왼쪽된 쇼 HDD 데이터 노드 번호와 비슷합니다. 다음 경우에 단일 번호, 어디 20 G의 크기, Ipoib 변경 24% 이상에서 파일 클러스터 노드인지 4 SID 20 G 파일 크기 또는 Ipoib-고성능 네트워크를 사용 하 여, 성능을 향상 시킬 수 있습니다. 하는 경우 각 노드를 볼 수 있습니다. 현대 저장소-고성능 네트워크를 사용 하 여 상당한 개선이 있다. 사람들은 높은-성능을 사용 하 여 네트워크 가속 효과 필요가 없습니다, 일부 소프트웨어 문제에 따라 달라질 수 있습니다.
이것은 또 다른 실험 이전 실험과 마찬가지로, 이기도 G와 2 g 반면, 이것은 두 개의 하드 드라이브 개선에만, 하나는 동일, 그 높은-성능을 네트워크 역할의 일부 가속에는 볼 수 있습니다.
이것은 또 다른 실험, SDSC는에 실험, 100 G, 지연에 있는 33 SDSC 노드 28% 증가, 그래서 우리의 디자인은 더 많은 확장성을 더 잘 할 수 있도록. 이 SDSC의 유일한 부분입니다. 여기 우리는 그들 사이의 통신 시간을 줄이기 위해 전산 논리 메모리 모듈 최적화. 다음 또는 RDMA, 통해 두 부분을 우리가 활용 전체 각 하드웨어의 가속된 기능. 여기 몇 가지 일반적인 숫자,이 숫자는 또한 8 개의 데이터 노드 말, 오른쪽은 4 개의 데이터 노드, 8 DB 노드는 APSU에 24% 개선 했습니다. 여기 볼 수 있습니다 SOIP와 비교, 우리 향상 24%, SASD 사용 하는 경우이 효과 더 분명 한. 여기 참조 또는 100 G 31% 향상 SSD 성능 향상의 오른쪽에 있을 수 있다. 이것은 우리는 64 노드, 240 기가바이트 위의 더 큰 클러스터에서 실행, 향상은 39%, 성능 증가 39%, 그것의 유일한 부분 이다.
다양 한 벤치 마크 지표, 우리가 볼 수 있는 여기, 30 기가바이트 등 개선 46%에 도달. 우리 rpc, 몇 가지 작업을 완료 했습니다 그리고 그 활동의 많은에서 그것의 매우 중요 한 부분 거기에 통신을 많이 있기 때문에. 여기 우리가 처음 그런 디자인을 할, 주문형 연결 디자인, RDMA 또는 실시간 통신, 등, 왼쪽을 포함 한 대기 시간 이다. 39 마이크로초 표시 되 고 여기에 우리는 50% 증가 성능 지연, 절반 금액입니다. 오른쪽에 전체 처리량에 82% ~ 64.2% 향상 됩니다.
자세한 설명은 HBase, 다른 관련된 구성 요소를 봐 보자. 여기 우리는 우리가 사용 관련 기술, 나 또한 크게 줄일 수 있습니다 우리가 의사 소통 하는 시간을 볼 수 있습니다. 사실, KB get에 대 한 우리는 최대 6 시간 10 g 통신 시간에 대 한 더 많은입니다. 이것은 hbase에 대 한 프레임 워크 이다. HBase의이 쌍은 여러 클라이언트, 그래서 우리가 더는 hbase를 비교할 수 있습니다에 대 한 단일 서버 구조 대기와 10 G16 클라이언트에 대 한 트래픽을 무엇입니까 그리고 우리 27% 증가 합니다. 읽기와 쓰기는 hbase는 슬라이드를 살펴 봅시다 그리고 우리 우리의 추가 지연 볼 수 추가 42% 증가.
우리는 실제로 다른 부분을 통합할 수 있습니다. 이 슬라이드 관련 통합, 그들을 위해서 그리고 5 G에 대 한 우리는 실제로 10 g에 비해 약 53% 개선 20 G에 대 한 10% 높일 수 있습니다. 10 G 사용에 해당 HDFs에 비해 HDD 또한 향상 시킬 수 46%. 이것은 유사한 비교, 비교는 우리의 클러스터링 분류의 비교 이다입니다. 우리는 약 8 클러스터, 그리고 우리는 80 G 분류, 우리가 볼 수 있는 40%의 상승 HDFS를 사용 하지 않는 하드 디스크를 사용 하 여 10 g 32% 증가 대 한.
100 g 관련 실험 실시 되어, 약 8 클러스터, 그리고 우리는 우리가 HDD 업그레이드의 실제 사용에 대 한 45% 39% 높일 수 있습니다 발견 우리는 다이어그램에서 볼 수 있습니다. 이것이 우리의 SDSC 관련 분류, 그리고 우리 200 g 무작위 독자를 위한 32 클러스터 그리고 우리 IPOIB에 대 한 20% 증가 볼 수 있습니다. 내가 여기에 간단한 소개 RDMA 관련 디자인,이 디자인은 우리가 봐야 전에, 하지만 또한 특정 클라이언트 어떤 종류의 디자인을 유사? 우리가 실제로 호스트 라인을가지고 하 고 클라이언트와 선 한 싸움을 할 수 있습니다.
관련 과제를 봐 보자. 우리는 몇 가지 전통적인 플러그, 우리 전통 플러그인의 통합, 후 해당 통합 RDMA와 관련 품질 또는 다른 성능 동작 각도 바뀔 수 있다는 더 이상, 그래서 우리는 더 많은 도구를가지고, 만약이 작품에서 더 많은 혜택 희망 크게 증가 관련 하겠습니다. 우리는 또한 많은 일을 연구의 미래에, 우리는 새로운 버전을 출시, 추가 HDD 균형 복제 지원, 고급 위 디자인 및 추가 최적화를 지원 하도록 하겠습니다.
난, 내 팀 감사 합니다 아주 많이, 그들은 매우 어려운. 마지막으로 우리 팀 우리의 연구에 매우 관심이 있다면, 당신은 오신 것을 환영 합니다 우리의 팀에 합류, 연락할 수 있습니다 나 루시 경우 신입 회원 모집 합니다.