키워드:수 수 우리 수 우리 데이터 저장 수 우리 데이터 저장 대용량 데이터 수 우리는 데이터 저장 큰 데이터 제공
빅 데이터 시대 왔다 의심의 여지가 있다. 이 상황을 어떻게 다루는 우리? 이제, 경험을 가진 전문가 말을 들어 봅시다.
첫째, 우리는 수백 테라바이트의 정보에에서 큰 데이터의 대부분을 확인 하는 방법을 알고 해야 합니다. 그것은 모든 개인의 요구와 기본 설정에 따라 달라 집니다. Interclick 광고 서비스는 근처 실시간 데이터 분석을 제공 하면서 보다 효율적인 솔루션을 제공 하는 방법을 발견 했다. 하버드의과 대학 또한 데이터 환자 수의 경우 크게 성장할 수 있고 수년간 남아 있는 데이터 그대로 배웠다. 컴 스 코어는 인터넷 트래픽 모니터링 기관, 사실 저장소 데이터베이스에서 데이터를 압축에 경험 12 년 이상, 압축을 최적화 하 고 처리 요구 사항을 줄일 시퀀싱 기술을 사용 하 여.
현재, 야 후, 페이 스 북, 트위터, 넷 플 릭 스와 eharmony (AOL 데이트 사이트)를 포함 하 여 Hadoop 이상적인된 저가 처리 구조화 되지 않은 데이터 플랫폼입니다. 그것은 인터넷 거 인의 요구 뿐만 아니라 jp 모건 체이스와 다른 주류 전통적인 회사의 요구를 만족합니다. 데이터 공급자 Infochimps 또한 Hadoop 배포 지원에 대 한 빠른 성장 솔루션 더 추가 하 고 보조 응용 프로그램 제공 되는 것을 발견.
응용 프로그램에서 큰 데이터의 시대
물론, 모든 큰 데이터 배포 총 규모 측정 됩니다. 예를 들어 LinkShare은 몇 개월만 하지만 로드 하 고 신속 하 게 그래서 그것은 매일 매일이 데이터 크기에 대 한 더 큰 배포 최대 수십 기가바이트의 하루, 데이터를 분석 합니다. 또한, 우리 데이터 웨어하우스 확장성의 6 차원을 알고 해야 합니다. 우리는이 방법에만 가장 까다로운 테스트 요구를 충족 하 고 미래의 요구 사항에 맞게 기술 투자를 얻으려고 더 정확한 접근을 개발할 수 있습니다.
효율적이 고 적시 되도록 빠른 쿼리
대규모 병렬 처리 플랫폼, 열 저장 데이터베이스, 데이터베이스 처리 기술 및 기술 데이터를 크게 줄일 수 있습니다 메모리 쿼리 시간 일에서 분 또는 초를 시간을. 하지만 그건 충분 하지. 뉴욕 광고 대행사 Interclick 급속 한 분석의 가장 중요 한 이점은 효율성을 발견. 빠른 응답은 더 깊이 있는 질문에 대 한 더 많은 시간을 살 수 있다. 두 번째 혜택은 근처 실시간 분석 결과 얻어질 수 있다,이 분석 수준과 결정 응답의 정확도 향상 하는 데 도움이.
Interclick에 사용 되는 대용량 데이터 분석 기술
신속 하 게 응답 하 여 Interclick는 시간 또는 심지어 몇 분 내 온라인 서퍼의 동작을 세분화 수 있습니다. 관광 사이트를 방문 수 있습니다 그것은 예약 호텔 사이트 네트워크 이름 동작 정보 등 해당 항공사, 호텔 체인, 자동차 렌트 회사에 전송 됩니다. Interclick은 메모리 클러스터 3.2 t B의 용량 데이터를 저장할 수 있는 Paraccel 열 저장소 데이터베이스 배포를 사용 합니다.
압축 및 감소 스토리지 비용
둘째, 데이터 성장의 측정 무엇 인지 비싼
20 년의 의료 기록 및 효능에 대 한 연구와 약물의 위험, 하버드의과 대학 계획 데이터 웨어하우징 필요한 고객, 레코드, 및 거래 수 등 간단한 질문 보다는 더 많은 교훈을 배웠다. 비록 수와 환자의 기간 안정적으로 유지, 의료 기록 있다 되어 농축, 많은 새로운 상태 모니터링 기술 지표는 등장. 따라서 모든 동적 요구를 사전에 이해 하는 것이 필수적입니다.
하버드의과 대학
3, 데이터 압축 및 스토리지 비용 절감
더 나은 데이터 압축은 하드웨어 비용의 TB 당 저장할 수 있습니다. 열 저장소 데이터베이스, HP의 수직, Infobright, Paraccel, 및 사이 베이스 IQ 보다 30: 1 또는 40: 1 압축 비율을 달성할 수 있는. EMC Greenplum, IBM Netezza Teradata, 등 행 저장소 데이터베이스 평균 4:1 압축 비율. 이것은 열 데이터 일관성, 우편 번호, 구매 주문 번호, 그리고 다른 많은 데이터를 포함 하 여 수 있기 때문 에입니다. 행 같은 데이터, 고객 관련 특성 조합-이름, 주소, 우편 번호 같은 구매 주문 번호, 그리고에 없는이 장점. 애 스 터 데이터 및 Oracle 데이터베이스 혼합된 행/열 저장 기능 제공할 수 있습니다. 오라클의 하이브리드 열 압축 10:1 압축 비율을 제공할 수 있습니다.
데이터 압축
압축 비율은 데이터 자체, 크게 따라 고 열 저장소는 항상 최선의 선택. 데이터 쿼리에 큰 속성을 호출 하려는 경우 행 저장소 시나리오는 더 나은 성능을 보여줄 수 있습니다. 사실, 행 저장소 데이터베이스 데이터 웨어하우스 처리 혼합 된 쿼리, 열 저장소 데이터베이스 대량 데이터 쿼리에 더 집중 하는 동안에 기업에 의해 자주 사용 됩니다.
Iv. 분류 압축 및 처리 시간 감소
연속 열 데이터 압축에 대 한, 마찬가지로 우리 또한 압축 비율 증가를 로드 하기 전에 데이터를 분류할 수 있다. 사이 베이스 IQ 제온에 데이터를 로드 하는 동안 컴 syncsort dmexpress 소프트웨어를 사용 하 여 데이터를 분류 하. 마이클 브라운, 회사의 CTO, 3, 4 바이트, 10 바이트의 데이터를 압축할 수 있습니다 그것은 말한다 그리고 분류 후 1 바이트에 10 바이트의 데이터를 압축할 수 있습니다. "이렇게 우리 방대한 양의 데이터를 저장 하는 또 다른 방법은." "
이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이
페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.
커뮤니티에서 표절 사례를 발견한 경우
info-contact@alibabacloud.com
으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.