최근, 사람들의 큰 데이터 분석 및 비즈니스 인텔리전스를 제공 하 고, 값 왔던 하지만 전에 회사 데이터를 팔 수 있다, 그들은 큰 데이터를 저장 하는 방법을 알아 내려고. 대용량 데이터 (페타 바이트 또는 더 큰 데이터)를 관리 하는 것은 완전히 다른 전통적인 큰 데이터 집합을 관리 하 고 온라인 사진 공유 플랫폼 셔터 회사는 이것에 대해 매우 분명 하다.
셔터는 사용자가 무제한 사진 업로드 하 고 사용자의 업로드의 해결책에 그들을 저장할 수 있도록 온라인 사진 공유 사이트를 적는 다른 다른 사진 공유 플랫폼, 크기, 압축 그리고 셔터 결코 그림을 삭제 합니다.
"우리의 사진을 보관에 대 한 데이터, 30PB" 말했다 닐 날, 수석 부사장 겸 최고 기술 책임자 셔터 회사에서 "우리의 저장소 풀은 성장 고객 보다 더 빨리." 우리가 받을 때 클라이언트, 그들은 할 첫 번째 일은 우리에 게 사진 들을 업로드 다음 그들은 우리의 서비스와 사랑에 빠져 요 고 그들은 다른 사진 들을 업로드 합니다. "
데이터의 크기의 감각을,이 정보를 봐를 걸릴 수 있습니다: 1 PB 1 백만 t B 또는 1 십억 GB에 해당 하는, 약 45 t B의 데이터를 128 kb/s 기록 1 TB 압축 하는 동안 오디오 약 관찰 이미지 데이터의 첫 번째 20 년에 NASA 허블 우주 망원경 포함 오디오의 17000 시간.
완전히 다른 PB 수준 인프라
"PB 수준 인프라는 완전히 다른 것 이다," 날 말한다, "그들은 구축 및 유지 관리 하기가 어렵습니다." PB 또는 페타 바이트 인프라와 전통적인 대규모 데이터 집합 간의 차이점은 단지 처럼 낮과 밤 사이의 차이 휴대용 컴퓨터에 데이터 처리 및 RAID 배열에 데이터를 처리. "
때 하루 셔터 2009 년에에서 입사, 스토리지 회사의 가장 큰 경비 되었고 빠른 속도로 성장 했다.
"여분의 스토리지의 모든 n PB 의미 우리가 물리적 및 논리적 인프라를 지 원하는 다른 저장소 관리자 필요" 날 말한다. "대규모 데이터 저장, 얼굴 시스템 문제, 하는 경향이 있으며 대형된 저장소를 관리 하는 사람이 종종 하드웨어 오류 처리 해야 합니다." 모두 해결 하려고 하는 기본적인 질문은: 스토리지의 일부 시간이 지남에 문제가 될 것을 알고 있을 때 어떻게 보장 합니까 데이터 가용성 보장 성능이 저하 하지?
RAID 문제
문제 해결에 대 한 표준 답변 일반적으로 RAID 배열의 형태로 복제입니다. 그러나, 일 직면 될 때 많은 양의 데이터, RAID 문제 해결 및 말한다 더 많은 문제를 만들 수 있습니다. 전통적인 RAID 데이터 저장소 시나리오에서 각 데이터의 복제본 미러 하 고 무결성과 가용성을 보장 하기 위해 배열의 다른 디스크에 저장 된. 하지만 즉 각 대칭 복사 및 저장 된 데이터는 5 번 이상 시간 자체 저장 공간이 필요 합니다. 디스크를 RAID 배열에 사용 될 더 큰 (3TB 디스크는 매우 매력적인 밀도 및 전원 관점에서), 실패 한 드라이브를 대체 하는 시간을 더 이상 될 것입니다.
"사실, 우리가 어떤 운영 문제가 없다 raid," 하루는 말한다, "그리고 그 구성 요소 오류가 발생 하면 디스크는 더 크고 더 큰, 되 면, 우리는 다시 얻을 완전 중복 시스템은 우리가 무엇을 보고." 생성 된 체크섬은 데이터 집합의 크기에 비례 합니다. 우리는 1TB와 2TB 디스크를 사용 하 여 시작, 완전 중복 시스템에 다시 갈 시간이 매우 오래 되었다. 그것은 할 수 있다이 추세는 올바른 방향으로 이동. "
셔터에 대 한 신뢰성 및 가용성은 중요 한 요소는 엔터프라이즈 수준 저장소 요구 사항. 하루는 빠른 확장 스토리지 비용 상품 시스템 더 매력적으로 만들 것을 말한다. 날 및 팀 잠재적인 기술 솔루션 제어 스토리지 비용을 공부 하는 때 그들은 삭제 코드 (삭제 코드) 라고 하는 기술에 매우 관심이 있습니다.
(책임 편집기: 유산의 좋은)