Hadoop은 추출, 왜곡 및 로드 (ETL)의 분야에서 자신의 자연 이점을 누릴 큰 데이터 처리 응용 프로그램에서 널리 사용 됩니다. 어디 큰 데이터 처리 엔진은 가능한 저장소를 닫습니다, Hadoop의 분산된 아키텍처는이 같은 일괄 처리 결과 저장소로 직접 이동할 수 있기 때문에 상대적으로 ETL, 같은 일괄 처리 작업에 적합 합니다. Hadoop의 MapReduce 기능을 사용 하면 단일 작업을 중단 하 고 (Reduce) 단일 데이터 집합으로 데이터 웨어하우스로 로드 하기 전에 여러 노드에 조각난된 작업 (지도)를 보낼 수 있습니다.
하지만 Hadoop, 특히는 Hadoop 분산 파일 시스템 (HDFS), 대형 데이터 처리 데이터의 고가용성을 지원 하기 위해 적어도 3 개의 사본이 필요 합니다. HDFs 테라바이트의 데이터를 가능한 보이지만 PB 수준 데이터에 관해서 스토리지의 비용 압박 될 수 있다. 심지어 확장 가능한 스토리지 자체 압력을 피할 수 없는 기술을 사용 하 여 RAID 보호, 복제를 사용 하 여 시스템 수준에서 볼륨 레벨을 달성 하기 위해 선택 하는 일부 공급 업체. 개체 저장 기술 데이터 중복성 문제 큰 환경에 대 한 솔루션을 제공할 수 있습니다.
개체 저장소입니다. 객체 기반 스토리지 아키텍처 유연한 데이터 개체를 연결 하는 단일 인덱스를 사용 하 여 계층형된 스토리지 아키텍처를 대체 하 여 크게 확장 스토리지의 혜택을 향상 시킬 수 있습니다. 이 자체 성능이 향상 됩니다 무제한 확장 문제를 해결 합니다. 개체 저장소 시스템에는 데이터 보호, 스토리지 사용의 효율성을 크게 향상으로 RAID 또는 복제에 대 한 필요성을 제거 하는 삭제 코드를 포함 되어 있습니다.
중복 데이터 및 추가 RAID 메커니즘의 2 개 또는 3 개의 복사본을 요하는 HDFS 모드와 달리 객체 저장 시스템 삭제 코드 추가 용량 50% ~ 60%의 높은 수준의 데이터 보호를 얻을 수 있습니다. 큰 데이터 저장 수준, 자체 스토리지에 저장 중요 한 될 것입니다. 많은 개체 저장 시스템도 선택할 수 있습니다, Caringo, Datadirectnetworkswebobjectscaler, Netappstoragegrid, Quantumlattus를 포함 하 여 및 오픈 소스 Openstackswift 고 Ceph입니다.
Cleversafe, 일부 개체 스토리지 시스템 Hadoop과 호환 수 있습니다. 이러한 프로젝트를 구현에서 Hadoop 소프트웨어 구성 요소는 개체 저장소 노드, CPU에서 실행할 수 있습니다 고 개체 저장소 시스템 저장소 노드 Hadoop 분산 파일 시스템을 대체 합니다.
대용량 데이터 처리 저장의 결론
대형 데이터 처리 분석 점차적으로 뜨거운 화제가 되고있다 그것에 산업, 더 많은 그리고 더 많은 기업 그것 성공 기업을 끌 것입니다 믿습니다. 그러나, 모든 것을 두 가지 측면이 있습니다. 보는 것 자체는 기존 스토리지 기술입니다. 그들은 필요로 하는 매우 낮은 대기 시간 응답, 실시간 대용량 데이터 응용 프로그램 또는 데이터 마이닝 응용 프로그램 대규모 데이터 웨어하우징 얼굴을 든 전통적인 스토리지 시스템 병목 현상 발생. 대용량 데이터 분석 비즈니스의 정상 작동을 보장 하기 위해, 해당 스토리지 시스템 충분히 빨리, 확장 가능 하 고 비용 효율적인 될 해야 합니다.
플래시 솔루션, 서버 사이드 플래시 카드 또는 전체 플래시 배열의 형태 여부에 높은 성능, 낮은 대기 시간 및 대용량 스토리지에 대 한 대체 솔루션 있다. 지울 프로그래밍 객체 지향 확장 가능한 아키텍처는 전통적인 RAID 및 복제 방법을 사용 하는 저장소 구조에 대 한 보다 효율적이 고 낮은 가격에 대 한 옵션을 제공 합니다.