Datax는 http://www.aliyun.com/zixun/aggregation/34332.html를 구현 하는 이기종 데이터베이스/파일 시스템 사이 고속 데이터 교환 도구입니다 "> 임의의 데이터 시스템 처리" (rdbms / Hdfs/로컬 파일 시스템 데이터 교환, Taobao 데이터 플랫폼 부서 완료. Sqoop 관계형 데이터베이스 (예: MySQL, 오라클, 포스트 그레스, 등)의 HDFS에 Hadoop 및 관계형 데이터베이스에서 데이터를 전송 하는 데 사용 하는 도구입니다. HDFs 데이터 또한 관계형 데이터베이스에 이동 될 수 있습니다. 동일은 대용량 데이터 이기종 환경 데이터 동기화 도구, 둘 사이의 차이 무엇입니까? 학장의 블로그에서이 문서입니다.
접촉 Datax 질문, 그것과 sqoop 정확 하 게 어떤 차이, 어제 배포 datax 및 Sqoop, 둘 다에의 깊은 이해를 가질 수 있습니다.
조금 유사의 원리에서 모두는 오라클, mysql, hdfs, 하이브, 교환 데이터 교환, 모든 지원의 이기종 환경을 해결 하기 위해 다른 데이터베이스 지원 되는 플러그 인, 새 데이터 원본 형식에 대 한 새로 개발 된 플러그인은 좋은,
하지만 곧 확실 한 차이 찾을 거 야 당신이 둘 다의 구조를 본다면.
Datax 프레임 구성
Datax 및 큰 데이터 동기화 도구 sqoop의 비교
작업: 데이터 동기화 작업
분배기: 작업 세분화 모듈, 큰 작업과 작은 작업의 수로 분해 수 있다 동시.
데이터 동기화 작업의 분할 후 작은 작업 하위 작업:
리더 (로더): 데이터 읽기 모듈로 세분화 후 작은 작업 실행에 대 한 책임, 소스에서 데이터에 로드는 Datax
저장 장치를 통해 Exchange 데이터 저장: 독자와 작가
작가 (덤프 트럭): 대상 데이터 datax에서 데이터를 가져오기에 책임 있는 데이터 쓰기 모듈
Sqoop 프레임 구성
Datax 및 큰 데이터 동기화 도구 sqoop의 비교
Datax 실행 Datax 데이터 추출 및 로드 하는 컴퓨터에서 직접.
그리고 맵 리듀스 안에 완전히 Sqoop 컴퓨팅 프레임 워크. Sqoop 맵 리듀스 작업 입력된 조건에 따라 생성 하 고 hadoop 프레임 워크에서 실행 됩니다.
이론적으로, 한 번에 하나 이상의 노드를 가져오려면 맵 리듀스 프레임 워크를 사용 하 여 단일 노드에서 여러 개의 병렬 수입을 실행 하는 것 보다 효율적 이어야 한다. HDFS 일 오라클 테스트와 마찬가지입니다, datax 볼 데이터베이스 연결 Datax, 실행 하는 컴퓨터에 그리고 4 작업-추적기 Sqoop 실행 될 때 모든 데이터베이스 연결을 생성. Sqoop 기계 또한 데이터베이스 연결을 생성할 것입니다, 그리고 일부 메타 데이터 정보에 대 한 데이터 테이블, 데이터 등의 금액을 분할 할 읽을 해야한다.
아파치에 맨 위 항목으로 지금 Sqoop, 난 datax Sqoop 사이 선택 Sqoop 선택 하겠습니다. 그리고 Sqoop 제 플러그인 많이 있다. 말했다, 퀘스트로 퀘스트 개발 Oraoop 플러그-기능, 사실,을 사용 하 여 아침에는 속도가 크게 개선 되었습니다, 데이터베이스, 다른 사람 보다 실제로 더 깊은 경험을 탐구.
Datax 및 큰 데이터 동기화 도구 sqoop의 비교
내 테스트 환경, 700 m 메모리, IO Oracle 데이터베이스, 기가 비트 네트워크, 병렬 처리의 4 정도에서 퀘스트 Sqoop 플러그인 사용, HDFs로 내보내기 속도 5mb/s, 나 매우 만족 했다. 거의 한 배 빠른 네이티브 Sqoop 2.8 mb/s의 사용에 비해, sqoop datax 760 kb/s 보다 두 배 빠른.
명령줄 사용 호출 하 고와 같은 다른 포인트 sqoop 우리의 기존 스케줄링 모니터링 체계와 통합 하기 쉽다, datax 운영 차원의 개발에서 XML 구성 파일을 채택 하는 방법은 여전히 조금 불편.
그림 1입니다. 퀘스트 Oracle 커넥터 Sqoop