데이터를 저장 하는 두 가지 방법이 있다: 뒤에, 데이터베이스와 파일 시스템, 및 개체 지향 스토리지 개발 하지만 전반적인 것 구조화 및 구조화 되지 않은 데이터를 저장 하는. DB 처음 구조화 된 데이터 저장 및 공유에 대 한 서비스입니다. 파일 저장 및 공유 큰 파일, 사진, 문서, 오디오 및 비디오 같은 구조화 되지 않은 데이터입니다. 데이터 볼륨의 증가 함께 독립 실행형 저장소 만날 수 없는 데이터와 구조화 되지 않은 데이터의 요구 다음 클라우드 컴퓨팅, 분산된 스토리지의 시대에 고 분산 데이터베이스 솔루션 제시.
1, 파일 시스템, 개체 지향 스토리지
다음 분산 파일 시스템 (광택), 분산된 객체 저장 시스템 (CEPH/S3), 구조화 되지 않은 데이터 스토리지에 대 한 피어-투-피어 스토리지 시스템 (Oceanstore) 되 게 됩니다.
(1) 분산된 파일 시스템을 같은 광택 널리 사용 HPC의 분야에서 파일 시스템의 기본 하드웨어에 대 한 상대적으로 높은 요구와 함께 일반적으로 하이 엔드 스토리지 같은 San 디스크 배열. 이 종류의 파일 시스템의 IO 성능은 상대적으로 높은, 그래서 비용이 높다. 이러한 스토리지 제품 일반적으로 은행, 증권, 석유, 항공 우주 및 다른 분야에 사용 됩니다.
(2) 객체 지향 저장 CEPH/S3 같은 데이터 저장의 매우 뜨거운 및 구조화 되지 않은 방법입니다. 이것은 클라우드 컴퓨팅 추세에 적응 하는 방법, 사용자 저장소는 더 이상 POSIX 파일 시스템 인터페이스, 하지만 휴식과 클라우드 데이터 인터페이스에 액세스할 수 있는 다른 방법을 통해 사용자가 필요가 없습니다 유지 및 모든 저장 장치를 관리. 그리고이 방식은 사용자와 인기 IO 성능 및 데이터 신뢰성 및 가용성을 보장 하기 위해 적절 한 Sla를 제공 하는 클라우드 서비스 공급자. 오픈 인터넷 플랫폼의 현재 조류에서 Api의 다양 한 사용자가 응용 프로그램 구축을 위한 기초 이며 API 뒤에 서비스는 클라우드 공급자 기반. 클라우드 스토리지 서비스는 다양 한 클라우드 컴퓨팅 서비스의 가장 중요 한 중입니다. 데이터와 클라우드 EC2 사용자를 사용 하 여 S3 보다는 그들의 자신의 EC2 인스턴스 로컬 하드 드라이브에 데이터를 저장 하는 아마존의 추천 등 세계에서에서 응용 프로그램의 분리를 촉진 합니다. 최근, 가장 아마존 같은 클라우드 컴퓨팅 서비스 제공 국가 Sheng 사용자 데이터의 손실에는 신중 하 게 발견을 공부는 사용자 구름 (EC2 인스턴스 비슷합니다)에 호스트 데이터 손실, 원래 클라우드는 백업 메커니즘, 그래서 클라우드 호스트 된 문제의 디스크 데이터가 손실 될 것입니다. 웹사이트의 AWS (아마존 웹 서비스) GCE (Google 계산 엔진)에서 두 탑 클라우드 서비스 제공자는 클라우드 호스트에 대 한 로컬 디스크에 백업 메커니즘을 제공 하지 않습니다. 우리는이 컴퓨팅 모델 클라우드 호스트 EC2 인스턴스 CPU와 컴퓨터의 메모리에 해당 없는 지 속성 기능 S3 클라우드 스토리지는 컴퓨터의 하드 디스크에 영구 저장 기능을 이해할 수 있다. 그래서 새 컴퓨터 아키텍처의 전체 클라우드를 생각할 수 있습니다.
(3) 같은 좀 더 성숙의 응용 프로그램에서 오디오 및 비디오 파일을 공유 피어-투-피어 저장소 모드가 Oceanstore. 더 많은 전형적인는 Emule, 미로. 오디오 및 비디오 파일은 일반적으로 상대적으로 큰, 우리는 큰 WAN/LAN 저장소 풀에 저장에 해당 하므로 사용자가 다운로드할 수 있습니다 것 들, 그리고 중앙 서버에 다운로드, 대역폭 병목 해결 때마다 저장 다운로드, 소스를 제공 하기 위해 다른 사람에 대 한 서버 기능으로 사용자 스스로. 하지만 이러한 스토리지 일반적으로 대기 시간을 보장 하지 않습니다, 사용자가 다운로드 한 영화는 몇 분 정도 걸릴 수 있습니다 다음 사용자가 너무 우려 전송 속도의 중간에 대 한 하지 무슨 피크 여 물, 총 대역폭 비교 높은 라인 만큼 따라 하는 "파일 크기/대역폭 전송 시간 =" 전송 시간은 최소한으로. 하지만 클라우드 스토리지 클라우드 컴퓨팅, 주요 클라우드 서비스 공급자의 저장 수 누워 및 전국 데이터 센터 컴퓨팅, 따라서 기본 데이터 센터에서 대역폭 압력을 분산 컴퓨팅과 매우 세분화, 피어-투-피어 스토리지 네트워크를 생성의 확산과 함께. 그리고 캐나다 기술 개발 된 네트워크 대역폭의 지속적인 개선, 피어-투-피어 개발의이 모드는 제한 될 수 있습니다.
2, 데이터베이스, 데이터 웨어하우스, 큰 데이터
마무리 말 파일 시스템, db 라고 하는 시간 이다. RDBMS 디자인의 원래 목적은 관계형 데이터를 저장 하는, 즉, 다양 한 패러다임의 엄격한 요구 사항을 저장 된 데이터 사이 존재. 하지만 실제에서 데이터는 엄격 하 게 표준화 되지, 특히, 점점 더 많은 기계와 인간의 사회 활동 생성 된 데이터 (예: 사용자 검색 인터넷 로그 데이터, 소셜 네트워크 데이터, 의료 진단 데이터, 트래픽 데이터, 금융 거래 데이터, 전자 상거래 트랜잭션 데이터, 등)는 반구조적 또는 구조화 되지 않은. 이러한 데이터 저장 및 분석, 대 한 필요성 및 이러한 데이터는 종종 큰 비즈니스 가치를 포함 됩니다. 전통적인 RDBMS에서 관계형 데이터의 분석은 데이터 웨어하우스에서 DW의 문제, 즉, 분석의 개체 관계형 데이터의 모든 종류. 이러한 구조화 되지 않은 데이터의 분석은 하지 간단 DW, 또한 우리의 일반적인 DW 기능을, 우리는 분석에는 이러한 "빅 데이터"의 있다 회귀, 클러스터링, 분류, 연관 분석 및 다른 기계 학습 요구, 다음 "" 빅 데이터 분석 플랫폼의 시대 데이터 웨어하우스 DW로 간단 하지 않습니다.
다음 데이터와 구조화 되지 않은 데이터 저장 및 분석에 대 한 수요는 NoSQL 데이터베이스를 출산 했다. NoSQL 데이터베이스를 참조 하는, 우리는 현재 NoSQL 데이터베이스와 RDBMS에 대 한 두 가지 요구 사항을 발견: OLTP와 OLAP. 물론,이 두 용어 적절 하지 않은 매우, 모든 후, 대부분의 NoSQL 데이터베이스에서 OLTP의 trasaction은 제공 하지 않습니다, 그래서이 두 단어는 엄격한 의미에서 식의 이미지만 잘못 된 생각 합니다. 이러한 두 가지 요건의 일반적인 설명입니다: 데이터에 대 한 사용자의 온라인 스토리지 액세스, 오프 라인 분석 응용 프로그램의 데이터 액세스. 전 주로 데이터 crud 작업에, 사용자가 온라인 데이터 액세스가 더 액세스 대기 시간에 대 한 우려 처리량은 극대화 하면서. 후자는 주로 쓰기 데이터를 데이터 액세스 응용 프로그램의 여러 개의 읽기 작업을 너무 우려 하지 지연에 대해, 처리량에 대 한 관심. 다음 우리는이 두 일반적인 응용 프로그램을 이전 데이터베이스 DB 및 데이터 웨어하우스 DW를 매핑할 수 있습니다. "빅 데이터"의 시대에서 동시에 데이터 분석의 응용 프로그램 DW에 국한 되지 않습니다 하지만 또한 클러스터링, 분류 및 상관 관계 분석에 의해 표시 되는 응용 프로그램을 학습 하는 기계에 대 한 중요 한 요구 사항.
사실 데이터 저장 및 Hadoop 생태계의 "큰 데이터" 시대에 처리, 데이터 웨어하우스, 대신 큰 데이터 필드에 DW로 그것의 대부분의 사람들이 생각 하 고 많은 더 사용 하는 하 둡 데이터 마이닝 및 기계 학습으로 표현 되는 분석 응용 프로그램에 대 한. 하지만 난 기분이 여전히 전체 생태계에 데이터베이스 db를 볼 수 있습니다. 다음 다이어그램은 Hadoop 에코 시스템의 주요 구성 요소 이며 구조적으로 분석 응용 프로그램을 지향. 하지만 HBase 일부 대기업에 실시간 온라인 데이터 (페이스 북의 통합 메시징 시스템 및 애플의 icloud) 저장 하는 데 사용 되었습니다. 온라인 데이터 저장소와 주요 문제는 Access 데이터베이스 HBase: 하단 HDFs 하는 하지 안정 메커니즘은 없습니다 (와 같은 거래 또는 유사한 메커니즘) 데이터 무결성을 보장; (SQL)과 같은 동일한 접근 인터페이스가 없습니다. 이러한 문제가 해결 되었습니다 그리고 나타내는 HBase, NoSQL 데이터베이스, 온라인 데이터 저장소 액세스에 더 갈 것입니다 믿 었 다.
분석 응용 프로그램 시장에서 Hadoop 무적 이며 사실 되고있다 대용량 데이터 분석의 표준. 현재, 가장 많이 사용 되는 HDFS에 관계형 데이터 내부 RDBMS 이며 다음는 MapReduce를 사용 하 여 분석 (Taobao는 HDFs에 RDBMS에서 사용자의 거래 데이터 되며 다음 미스터 분석 및 마이닝을 사용 하 여); 또는 HDFS 사용 MapReduce 분석 (바이 두의 검색 로그 분석)에 대 한 로그 데이터를 넣어. 그러나 현재 이러한 반구조적 또는 구조화 되지 않은 데이터 메타 데이터 관리는 매우 성숙 하 고 통합 하지 않습니다, 그래프에서 hcatalog 함수는의이 부분을 개선 하 고 개발와 하이브 돼지 사용 보다 편리 하 게 될 것입니다. 다른 데이터 처리 및 분석에 대 한 hbase mapreduce를 사용 하 여 직접 HBase에 생성 된, 이것은 Greenplum 처럼 조금 또는 Teradata 기반 RDBMS 분산 데이터베이스 제품에. 분석 플랫폼에 기반 Hadoop 기계 학습에 대 한 많은 계산 요구 사항이 많은 기계 학습 알고리즘 인지 컴퓨터로 집중적인 계산 데이터 집약적인, Hadoop 기반 분석 플랫폼 또한 계산 집약적인 요구 사항을. 같은 시간에 MapReduce는 오프 라인 분석을 위해 설계 되었습니다 때문에 실시간 분석에 대 한 이점이 있다. 일부 데이터의 적시성은 매우 중요, 실시간 분석은 중요 한, 그래서 우리는 또한 실시간 컴퓨팅 엔진.
에 따라 위의 요구 사항, Hadoop 원사의 이후 버전에서 통합된 자원 관리 및 작업 일정 계층에 mapreduce를 것입니다, 그리고 실시간 데이터 처리, 오프 라인 데이터 처리에 걸쳐 openmpi, 폭풍, s4, 스파크, mapreduce 및 기타 컴퓨팅 모델을 지원 합니다 계산 및 데이터 집약적인 응용 프로그램. 그 때 전체 Hadoop 에코 시스템은 진정으로 통합 된 데이터 저장 및 처리 플랫폼.
(책임 편집기: 유산의 좋은)