Datax 및 큰 데이터 동기화 도구 sqoop의 비교

출처: 인터넷
작성자: 사용자
키워드: 큰 데이터를 비교 실행

Datax는 http://www.aliyun.com/zixun/aggregation/34332.html를 구현 하는 이기종 데이터베이스/파일 시스템 사이 고속 데이터 교환 도구입니다 "> 임의의 데이터 시스템 처리" (rdbms / Hdfs/로컬 파일 시스템 데이터 교환, Taobao 데이터 플랫폼 부서 완료. Sqoop 관계형 데이터베이스 (예: MySQL, 오라클, 포스트 그레스, 등)의 HDFS에 Hadoop 및 관계형 데이터베이스에서 데이터를 전송 하는 데 사용 하는 도구입니다. HDFs 데이터 또한 관계형 데이터베이스에 이동 될 수 있습니다. 동일은 대용량 데이터 이기종 환경 데이터 동기화 도구, 둘 사이의 차이 무엇입니까? 학장의 블로그에서이 문서입니다.

접촉 Datax 질문, 그것과 sqoop 정확 하 게 어떤 차이, 어제 배포 datax 및 Sqoop, 둘 다에의 깊은 이해를 가질 수 있습니다.

조금 유사의 원리에서 모두는 오라클, mysql, hdfs, 하이브, 교환 데이터 교환, 모든 지원의 이기종 환경을 해결 하기 위해 다른 데이터베이스 지원 되는 플러그 인, 새 데이터 원본 형식에 대 한 새로 개발 된 플러그인은 좋은,

하지만 곧 확실 한 차이 찾을 거 야 당신이 둘 다의 구조를 본다면.

Datax 프레임 구성

Datax 및 큰 데이터 동기화 도구 sqoop의 비교

작업: 데이터 동기화 작업

분배기: 작업 세분화 모듈, 큰 작업과 작은 작업의 수로 분해 수 있다 동시.

데이터 동기화 작업의 분할 후 작은 작업 하위 작업:

리더 (로더): 데이터 읽기 모듈로 세분화 후 작은 작업 실행에 대 한 책임, 소스에서 데이터에 로드는 Datax

저장 장치를 통해 Exchange 데이터 저장: 독자와 작가

작가 (덤프 트럭): 대상 데이터 datax에서 데이터를 가져오기에 책임 있는 데이터 쓰기 모듈

Sqoop 프레임 구성

Datax 및 큰 데이터 동기화 도구 sqoop의 비교

Datax 실행 Datax 데이터 추출 및 로드 하는 컴퓨터에서 직접.

그리고 맵 리듀스 안에 완전히 Sqoop 컴퓨팅 프레임 워크. Sqoop 맵 리듀스 작업 입력된 조건에 따라 생성 하 고 hadoop 프레임 워크에서 실행 됩니다.

이론적으로, 한 번에 하나 이상의 노드를 가져오려면 맵 리듀스 프레임 워크를 사용 하 여 단일 노드에서 여러 개의 병렬 수입을 실행 하는 것 보다 효율적 이어야 한다. HDFS 일 오라클 테스트와 마찬가지입니다, datax 볼 데이터베이스 연결 Datax, 실행 하는 컴퓨터에 그리고 4 작업-추적기 Sqoop 실행 될 때 모든 데이터베이스 연결을 생성. Sqoop 기계 또한 데이터베이스 연결을 생성할 것입니다, 그리고 일부 메타 데이터 정보에 대 한 데이터 테이블, 데이터 등의 금액을 분할 할 읽을 해야한다.

아파치에 맨 위 항목으로 지금 Sqoop, 난 datax Sqoop 사이 선택 Sqoop 선택 하겠습니다. 그리고 Sqoop 제 플러그인 많이 있다. 말했다, 퀘스트로 퀘스트 개발 Oraoop 플러그-기능, 사실,을 사용 하 여 아침에는 속도가 크게 개선 되었습니다, 데이터베이스, 다른 사람 보다 실제로 더 깊은 경험을 탐구.

Datax 및 큰 데이터 동기화 도구 sqoop의 비교

내 테스트 환경, 700 m 메모리, IO Oracle 데이터베이스, 기가 비트 네트워크, 병렬 처리의 4 정도에서 퀘스트 Sqoop 플러그인 사용, HDFs로 내보내기 속도 5mb/s, 나 매우 만족 했다. 거의 한 배 빠른 네이티브 Sqoop 2.8 mb/s의 사용에 비해, sqoop datax 760 kb/s 보다 두 배 빠른.

명령줄 사용 호출 하 고와 같은 다른 포인트 sqoop 우리의 기존 스케줄링 모니터링 체계와 통합 하기 쉽다, datax 운영 차원의 개발에서 XML 구성 파일을 채택 하는 방법은 여전히 조금 불편.

그림 1입니다. 퀘스트 Oracle 커넥터 Sqoop

관련 문서

연락처

이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이 페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.

커뮤니티에서 표절 사례를 발견한 경우 info-contact@alibabacloud.com 으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.