대용량 데이터의 저장에 대 한 준비

출처: 인터넷
작성자: 사용자
키워드: 큰 데이터 대용량 데이터 분산 컴퓨팅 대용량 데이터 분산 컴퓨팅 대용량 데이터 분산 컴퓨팅 응답 대용량 데이터 분산 컴퓨팅 수 수 응답 DFS

오늘, 우리는 자주 용어 "큰 데이터"에 노출. 하지만 업계는 큰 데이터의 표준된 정의 여전히 부족 하다. 그래서 무슨 큰 데이터 뜻 데이터 스토리지 인프라를?

큰 데이터 엔터프라이즈 전략 그룹 (ESG)에 의해 정의 "는 데이터 집합에 얽매이지 않는 수단을 하면 기존의 처리 용량 경계 보다 큰." "간단히 말해, 우리 사용할 수 있습니다 단어 큰 데이터 휴식 통해 전통적인 비즈니스의 일상적인 운영 기능을 지원 하기 위해 처리 하는 모든 데이터 수집에."

이 경계는 다음과 같은 경우에 발생할 수 있습니다.

높은 트랜잭션 데이터 볼륨 전통적인 데이터 스토리지 시스템 병목에 도달 하도록, 시간에 각 작업 작업을 완료할 수 없습니다. 간단히 말해서, 그것은 너무 많은 I/O 요청을 처리 하는 기능을 제공 하지 않습니다. 어떤 시점에서 사용자 환경 내에서 디스크 속도 모든 I/O 요청에 응답 하지 않습니다. 이 자주 하면을 각 디스크 드라이브에 데이터의 작은 부분을 배치 "짧은 제어 했다." 즉,도 I/O를 처리 하기 위해 더 많은 디스크 드라이브와 함께 디스크의 작은 부분을 사용 하 여 기가 바이트 당 데이터의 전반적인 속도 증가 합니다. 이 상황은 또한 병렬로 사용 하 여 많은 스토리지 시스템을 배포 하는 사용자를 발생할 수 있습니다 하지만 그들은 성능 병목 현상 때문에 그들의 전체 용량을 사용 하지 마십시오. 또는 둘 다입니다. 이것은 너무 많은 디스크 드라이브를 구매 하는 비용이 많이 드는 방법 그리고 그들의 대부분은 빈.

(개별 레코드, 파일 또는 개체) 데이터의 크기는 시간에 데이터를 전송 하기 위해 충분 한 처리량이 없는 전통적인 시스템 있습니다. 이 단순히 충분 한 대역폭 트랜잭션 볼륨을 처리할 수 없기 때문에 수 있습니다. 그러나 대역폭으로 인 한도 전에 매우 엄격한. 우리 많은 기업 채택 증가 시스템 대역폭 및 드라이브 볼륨에, 낮은 사용률을 리드 하 고 오버 헤드 증가 "짧은 충돌 제어"를 참조 하십시오.

? 전체 볼륨 용량 전통적인 스토리지 시스템 용량을 견딜 수 있는 임계값을 초과 합니다. 간단히 말해서, 스토리지 시스템 볼륨에 있는 데이터를 처리 하기 위해 충분 한 용량을 제공할 수 없습니다. 그러면 수십 또는 수백 개의 스토리지 스택, 10 또는 수백의 숫자에 의해 관리로 확산 스토리지 관리 노드, 낮은 사용률, 큰 발자국, 에너지 및 냉각 결과.

이러한 현상이 매우 심각 하 게 될 수 있습니다-동시에 사용자가 같은 시간에 많은 양의 대형 파일에 데이터를 직면 하 고 I/O 많이 필요로 하지 증명 하기 위해 아무것도 이다. 사실, 단어 "빅 데이터" 토론, 건강 관리 및 엔터테인먼트 산업 조직, 그리고 석유와 가스 회사 등 필요한 특별 한 수직 산업의 일부에 표시 하기 시작 했다.

큰 데이터를 지 원하는 스토리지 인프라

우리는 큰 데이터와 관련 된 성장 데이터 용량을 처리 하기 위해 변화 하는 스토리지 인프라의 새로운 방법을 찾고 있습니다. 각 접근의 특성 다른, 하지만 중복.

높은 O 민감한 트랜잭션 처리, ESG 발견 다양 한 디스크 증가 하 여 수직으로 확장 될 수 있는 인프라 접근을 적용 하고있다. 이 시스템은 Emcvmax, IBM DS800 HDS VSP 등 기업에 대 한 가장 전통적인 솔루션.

큰 파일 크기 응답에서 몇 년 전 엔터 프 라이즈의 최전선 처리 대용량 데이터의 문제를 해결 하기 위하여 큰 파일 크기를 확장 시스템, 충분히 구성 된 대역폭 사용 하기 시작 했다. 이러한 시스템 DataDirect 네트워크, 휴렛 팩커드 Ibrix, Isilon (지금 EMC에 의해 구입) 및 Panasas 포함 됩니다. 이 시스템은 수직으로 확장 하 여 성능 요구 사항을 충족 (디스크의 수를 증가 하는) 및 수평으로 확장 (증가 대역폭과 프로세서 전원). 큰 데이터 크기에 대 한 문제가 더 일반적으로, 이러한 시스템의 일부 또한 더 많은 주류 비즈니스 응용 프로그램에 대 한 찾고 있습니다. 이 더 많은 주류 환경 일반적으로 I/O를 혼합 하 고 처리량 민감한 높은 성능 요구 사항, 그래서 가로 세로로 확장 하는 기능 확장을 사용할 수 있어야 합니다.

마지막으로, 콘텐츠 용량 측면에서 우리는 확장, 객체 기반 스토리지 인프라 시스템을 확장할 수 있습니다 수백억 데이터 개체를 보다 쉽게 단 하나, 간단한 관리 시스템에 보고 있다. 시스템의이 유형의 이점은 쉽게 관리 하 고 강력한 메타 데이터를 추적 하는 것 이며 Dell DX 같은 고밀도, 낮은-비용 하드 드라이브를 사용 하 여 디자인 될 수 있다.

하 둡에 대 한

큰 데이터의 아무 응용 프로그램 분산 컴퓨팅에 어떤 관계가 있다. 분산 컴퓨팅 비즈니스 분석 주기 (시간 또는 분을 주)에서 저렴 한 비용에 속도 능력을 기업에 매력적 이다. 이 오픈 소스 기술 일반적으로 덜 비싼 직접 연결 스토리지 (DAS)를 사용 하 여 저렴 한 서버에서 실행 됩니다.

많은 양의 데이터를 처리 하는 데 사용은 분산 컴퓨팅 및 두 부분으로 구성 됩니다: 매핑 단순화 (MapReduce) 및 분산 파일 시스템 (HDFS). 컴퓨터 작업을 관리 하는 작업을 처리 단순화를 매핑, HDFs 자동화 관리는 컴퓨터 클러스터의 데이터는 저장 (그로 인하여 개발 장치에 부하 감소). 컴퓨팅 작업이 시작 될 때 매핑 단순화 작업에 소요 하 고 병렬로 실행 될 수 있는 하위 작업으로 그것을 분해. 제인의 매핑 HDFs 쿼리를 하위 작업의 데이터 저장 위치를 실행 한 다음 보냅니다 그 하위 작업 계산 노드에 있는 데이터 저장소. 사실, 그것은 데이터 끝에 컴퓨팅 작업을 보내는 것입니다. 최종 결론을 추론 및 각 하위 작업의 결과 매핑 통합을 위한 센터에 다시 전송 됩니다.

대조적으로, 전통적인 시스템 구성 된 강력한 컴퓨팅 파워와 동등 하 게 비싼 스토리지 배열을 동일한 작업을 수행 하는 매우 크고 비싼 서버가 필요 합니다. 전통적인 시스템은 상대적으로 지속적인 방법으로 필요한 모든 데이터를 읽고 분석 작업을 실행 하 고 동일한 데이터 수량에서 결론을 얻이 필요가, 매핑 단순화 작업 처리 하는 방식이 분산된 계산에 더 긴 처리 시간을 필요 합니다.

차이 같은 간단한 방법으로 정리 될 수 있다. 식료품점에서 20 명이 면 같은 체크 아웃을 통해. 경우에 각 사람이 모든 검색 상품의 그들의 구입을 완료 하는 데 2 분 200 달러 상당의 상품, 및 필요 구입. 다음도 최고의 직원 4000 달러 구매를 처리 하기 위해 40 분을 필요 합니다. 하지만 당신이 사용 하는 경우 분산 컴퓨팅: 10 체크 아웃 카운터, 낮은-비용, 파트 타임 대학생 필요 여분의 50%를 각 거래 처리 (3 분) 시간에 각각 있을 것입니다. 다음 같은 20 명만 6 분이 필요 하 고 여전히 4000 달러를 받을 수 있습니다. 비즈니스 관점에서 무엇을 뜻합니까 작업 시간 40 분에서 6 분을 압축? 얼마나 많은 추가 작업을 할 수 34 분 이상? 당신은 더 많은 연구를 할 수 있고 시장 동향의 더 나은 이해를? 이것은 당신이 원하는 분석 결과를 오래 기다릴 필요가 없습니다 비즈니스 측면에 비슷합니다.

분산 컴퓨팅 하는 것은 완벽 한 솔루션이 아니다. 클러스터 된 파일 시스템은 복잡 하 고 여러 번이이 복잡 HDFS 관리자 측에 분산 된 클러스터를 구축 하 고 효율적으로 실행 하는 시간을 많이 지출 하는 필요를 숨깁니다. 또한, HDFs, 데이터 지도 (또는 명명 된 노드를 Namenode) 모든 데이터 (메타 데이터) 위치 경로 가장 최근에 게시 된 아파치 분산 컴퓨팅-실패의 단일 지점에 유지 관리에 중요 한 문제 중 일부 주요 릴리스의 다음 예약 릴리스에서 해결 될 것입니다. 데이터 보호 관리자 제어에도 의존; 데이터 복제 설정에 따라 각 데이터 파일은 클러스터 내 복제 횟수 결정. 기본 설정은 게 전체 용량 3 시간 실제 사용 용량 보다 더 큰 3 번입니다. 그리고이 로컬 클러스터 내의 유일한 보호 이며 사이트 내에서 원격 백업 재해 기존 버전의 분산 컴퓨팅에서 간주 되지 않습니다. 시장, 하지만 Cloudera, EMC 등 모임의 회사에서 분산 컴퓨팅에 없는 큰 전문가 지금 중요 한 역할 훈련, 및 전문 팀의 형성 시간이 걸릴 것입니다 명심 하십시오. 이것은 간과 해서는 안 될 한 가지입니다. 최근 연구는 외부 컨설팅 서비스를 사용 하는 비용 만큼 높다 $250000 년 나타났습니다.

큰 데이터, 더 큰 사실

이러한 종류의 결함, 비즈니스 세계에서 거 대 한 잠재 시장을 함께 큰 데이터에 대 한 시장 기회에 대형 스토리지 업체 EMC, IBM, 및 NetApp 초점을 확인 합니다. 공급 업체, 발표 또는 모퉁이, 스토리지 시스템 관리 효율성, 확장성 및 데이터 보호에서 hdfs 결함을 극복 하는 사용자를 위해 분산된 컴퓨팅 환경을 위해 설계 되었습니다. 다른 오픈 소스 배포판 보다 더 나은 성능을 제공 하는 간단 하 고, 매핑된 프레임 워크의 그들의 자신의 버전을 제공 하는 동안 대부분의 CFS, NFS 등 오픈 인터페이스 HDFS 스토리지 계층을 바꿀 수 있습니다. 일부 기능을 채울 수 있는 오픈 소스 HDFs 차이 표준 NFS 및 CFS 인터페이스, 또는 데이터 보호 및 재해 복구 기능을 통해 다른 응용 프로그램 간에 데이터를 공유 하는 기능 등을 제공 합니다.

NetApp은 완전히 다른 접근 방식을 걸립니다. 그것은 내장 된 오픈 소스 분산 컴퓨팅 표준 있으며 데이터 노드에서 DAS를 사용 하 여. 분산 컴퓨팅에 맹세 하 여 독자적인 파일 시스템을 사용 하 여, 달리 NetApp 저가형 Engenio 플랫폼에 Das로 SAS 연결 JBOD을 사용 합니다. 명명 된 노드를 경우 오류 라는 노드에서 빠른 복구를 제공 하는 NFS 직접 연결 FAS 상자를 사용 합니다. 이것은 두 분야에서 "최고" 하이브리드 문제 해결 접근.

그것은 여전히 여부 시장 더 신뢰할 수 있거나 더 유망한 도구를 살 의향이 될 것 이라고 이르다입니다.

큰 데이터는 실제 하 고 다양: 대용량 데이터의 다른 유형이 필요 다른 저장 방법. 만약 당신이 이미 큰 데이터 문제를 직면 하 고 당신은 몇 가지 장애물을 직면 하 고, 다른 방식을 취해야 이며 수요에 대해 공급 업체에 얘기 하는 가장 좋은 방법은 큰 데이터의 주제 보다는 문제 자체에 초점을 의미 합니다. 당신은 비즈니스 문제 및 특정 부하 문제를 수정 하는 데 도움이 케이스 상황에 대해 이야기 한다. 그래서 해당 저장소 솔루션 신속 하 게 찾을 수 있습니다.

(책임 편집기: 유산의 좋은)

관련 문서

연락처

이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이 페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.

커뮤니티에서 표절 사례를 발견한 경우 info-contact@alibabacloud.com 으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.