큰 데이터는 기업의 스토리지 아키텍처 및 데이터 센터 인프라를 도전 한다 하 고 클라우드 컴퓨팅, 데이터 웨어하우스, 데이터 마이닝, 비즈니스 인텔리전스 등의 파급 효과 일으킬 것 이다. 2011 년, 회사는 비즈니스 인텔리전스 및 비즈니스 분석에 대 한 더 많은 테라바이트 (1 테라바이트 = 1000GB) 데이터 집합을 사용 하 고 2020 글로벌 데이터 사용은 35.2ZB 44 번-배 늘어날 것으로 예상 (1zb = 10 십억 TB).
큰 데이터 문제
많은 양의 데이터 정보에 대 한 현재 데이터 웨어하우스, 비즈니스 인텔리전스 및 데이터 분석 기술 연구 핫스팟으로 이러한 데이터의 복잡 한 응용 프로그램을 만드는 방법. 데이터 마이닝은 대량의 데이터, 데이터의 숨겨진된 규칙을 찾을 수 및 응용 프로그램 품질의 문제를 해결 하기 위해. 데이터 마이닝 기술의 가장 중요 한 응용 프로그램 유용한 데이터를 충분히 활용 하 고 잘못 된 하 고 쓸모 없는 데이터를 삭제 하는 것입니다. 전통적인 데이터베이스의 데이터에에서 매우 강한, 즉, 데이터는 완벽 하 게 구조화 된 데이터 이며 데이터의 가장 중요 한 기능 이므로 반 구조화 된 데이터 마이닝의이 종류는 단일 데이터 웨어하우스 지향 데이터 마이닝 보다 훨씬 더 복잡 한.
그것에 올 때 전통적인 데이터 웨어하우스, 사람들이 하지 것입니다 필연적으로 구매 저장 장치, 서버 선택, ibmpower 또는 Oracle 아키텍처, 이들은 실제로 데이터베이스 브랜드의 전통 시대에 유명한, 여부를 함께 구축, 구성 하는 데이터 웨어하우스, 마이크로 소프트, Cocnos 및에 솔루션을 제공.
엔터 프 라이즈 비즈니스에 대 한 높은 확장성, 아니라 튜브 데이터 웨어하우스, 어느 플랫폼에서 이러한 컴퓨터의 특정 작업의 응용 프로그램을 하려고 하지 않고, 자유롭게 확장 장비 수 있도록 동적 수요를 뿐만 아니라 비용의 이러한 전산 용량 전적으로 기반으로 비즈니스의 확장 합니다.
전통적인 건축 10 ~ 20 년 동안 이런이 종류의 프로젝트는, 그들은 기능, 데이터 웨어하우스 액세스 및 전통, 소위 차이 있다 그 쿼리는 특히 큰 쿼리 문 특히 긴, 특히 복잡 한, 은행의 예금 인출만 많은 수의 레코드 쿼리 하는 달리 하나 또는 두 개의 준수 큰 데이터 쿼리의 특성에 일반적인 쿼리 인덱싱 기능 매우 제한 됩니다. 데이터베이스에서 테이블 연결을 뿐만 아니라, 요약, 표준 가난 하 고 복잡 한 작업의 수를 포함 한다. 하지만 많은 동시 요청, 대신 기업 데이터를 분석 하는 1000 개 이상의 비즈니스 분석가.
따라서, 데이터 웨어하우스의 탄생의 첫날 시스템 병목 현상, 작은 작업으로 큰 쿼리 분해, 완료 하는 데 병렬 서버에서 이러한 작은 작업을, 우리는 많은, 그 작은 기계 강조 하지 많은 컴퓨터 Cpu. 그 결과, 데이터 웨어하우스는 본질적으로 MPP, 개방형 아키텍처 CPU 플러스 수평 확장의 수의 병렬 확장.
때 큰 데이터에서 클라우드 컴퓨팅
이유는 클라우드 컴퓨팅을 우선? 인터넷 도메인에서 응용 프로그램 시스템의 건설: 고객 그룹은, 시스템 크기는 불확실, 시스템 투자를 고정 하지 않습니다, 비즈니스 응용 프로그램은 매우 분명 병렬 분할 기능, 데이터 웨어하우스 시스템 구축, 데이터 웨어하우스 규모를 예상할 수 있는, 데이터 웨어하우스 시스템 투자 및 비즈니스 분석 값과 관련, 반환 비즈니스 인텔리전스 응용 프로그램 전체 응용 프로그램에 속한, SaaS 패턴 데이터 웨어하우스 시스템을 구성 합니다.
대용량 데이터 관리, 분산된 파일 시스템, Hadoop의 MapReduce 데이터 세분화 및 액세스 실행, 동안 SQL 지원, 하이브 + hadoop 대표 SQL 인터페이스 지원, 대용량 데이터 기술와 다음 세대 데이터 웨어하우스를 구축 하는 클라우드 컴퓨팅 등 화제가 된다. 시스템 요구의 관점에서 큰 데이터 아키텍처는 시스템에 새로운 도전을 선물 한다:
1. 높은 통합. 표준 섀시는 특정 작업의 완료를 최대화합니다.
2, 더 합리적인 구성, 빠른입니다. 스토리지, 컨트롤러, I/O 채널, 메모리, CPU, 네트워크 이퀄라이제이션 디자인, 전통적인 비슷한 플랫폼 위의 크기 순서 보다는 더 높은 보다 최적 설계에 대 한 데이터 웨어하우스 액세스에 대 한.
3, 총 에너지 소비는 더 낮다. 동일한 컴퓨팅 작업, 낮은 에너지 소비입니다.
4. 시스템은 보다 안정적이 고 신뢰할 수 있는. 다양 한 제거 수 있는 실패의 단일 지점의 통합 구성 요소, 장치 품질 및 표준.
5. 낮은 관리 및 유지 보수 비용. 데이터 숨기기의 일반 관리 통합 된다.
6, 계획 하 고 긴 시스템 확장도 지도 업그레이 드 수 있습니다.
대용량 데이터 처리 플랫폼으로 클라우드 컴퓨팅 환경
1. 클라우드 컴퓨팅 환경에서에서 기본적인 컴퓨팅의 차별화
엔터프라이즈 클라우드 컴퓨팅 플랫폼에는 다양 한 병렬 컴퓨팅 CPU, 하지만 슈퍼 데이터 처리 능력을 갖춘 슈퍼 CPU를 생성 하지 않았다, 그래서 클라우드 플랫폼 병렬 컴퓨팅 능력을 소프트웨어 시스템을가지고 해야 합니다. 모든 사용자의 데이터는 모두 동시에 클라우드, 스토리지 용량을 쉽게 확장 될 수 있다, 비록 간단한 데이터 처리 논리는 수 없습니다 대규모 데이터 처리 요청을 동시에 시작 하는 사용자의 필요를 충족.
전기 기업 나라, 작은 기계와 몇 년 동안, Oracle에서에서의 상당한 수 그리고 국가의 대부분 가축 오라클 전문가 계속 그의 Oracle 및 소형 컴퓨터 최적화, 초기 개발 곧, 수 하지만 나중 데이터의 확산으로 인해 사업 시작 심각 하 게 영향을 받을 수 볼 수 있다 가장 일반적인 예는 의심할 여 지 없이 이전 하는 동안 발생 한 대규모 액세스 요청 중단 이벤트 Jingdong 몰, 그래서 그들은 점차적으로 오라클 또는 ms sql을 포기 하 고 점차적으로 mysql + x86에 시작의 기간 분산 아키텍처.
현재 기본 연산 단위는 종종 일반 X86 서버, 그들은 형성 한다 큰 구름, 그리고 미래의 클라우드 컴퓨팅 단위 스토리지 장치를 할 수 있습니다, 계산 단위, 조정 장치, 전반적인 효율성 높을 것 이다.
2. 시스템 안정성에 대 한 필요성
네트워크 안정성 및 데이터베이스 안정성에서 많은 측면에서 대규모 방문에 대 한 응답에 일부 시스템 안정성 활동 있다. 시스템에 대 한 큰 원리 파악 해야 하 고 모든 단일 실패 지점이 제거 될 필요가. 뿐만 아니라 네트워크에 실패의 단일 지점, 콜 센터에서 실패의 단일 지점, 거기는 단일 실패 지점이 제거 해야 합니다.
돈이 때문에 전기 비즈니스 업계에 대 한 모든 두 번째, 전자-상거래 사업 중단 한 시간, 얼마나 많은의 손실 밖으로, 간주 될 수 있는 경우 전기 비즈니스 업계는 매우 포괄적인 기술 시스템 모니터링 및 경보 시스템을 필요로 합니다. 때때로 그것은 너무 늦게 추론할 기술 시스템 모니터링을 통해 기술적 문제를 찾을 수 있습니다.
(책임 편집기: 유산의 좋은)