대규모 데이터 처리의 주요 기술

출처: 인터넷
작성자: 사용자
키워드: 대용량 데이터 처리 전통

대용량 데이터 시대에 적용은 전통적인 데이터 처리 방법?

대용량 데이터베이스 환경에서 데이터 처리 요구 사항

큰 데이터 환경에서 데이터 소스 풍부 하 고 데이터 유형은 다양 한, 데이터 저장 및 분석은 거 대 한, 데이터 프레 젠 테이 션의 요구는 높은, 이며 효율성과 처리의 유용성은 매우 소중한.

전통적인 데이터 처리 방법의 단점

전통적인 데이터 수집 소스 단일, 저장, 관리 및 분석의 볼륨은 상대적으로 작고, 주로 사용 하 여 관계형 데이터베이스와 병렬 데이터 웨어하우스 처리 될 수 있습니다. 높은 일관성 및 결함 허용을 추구 하는 전통적인 병렬 데이터베이스 기술 그리고 그것의 유용성 및 cap 이론에 따르면 expansibility 보장 하기 어렵습니다.

전통적인 데이터 처리 방법을 프로세서 중심 이며 대용량 데이터 환경에서 데이터 중심 모드는 데이터 이동의 비용을 줄이기 위해 필요. 따라서, 전통적인 데이터 처리 방법을 하지 큰 데이터의 요구에 적응할 수 있습니다!

대용량 데이터의 처리에 관련 된 프로세스는? 각 링크에 대 한 주요 도구는 무엇입니까?

큰 데이터의 기본 처리 흐름 및 전통적인 데이터 처리 흐름은 다른 많은, 가장 큰 차이점은: 큰 데이터 구조화 되지 않은 데이터의 많은 거래를 그래서 각 처리 링크에서 사용할 수 있습니다 병렬 처리 mapreduce에 있기 때문에.

왜 큰 데이터 기술 데이터 처리 속도 향상 시킵니까?

큰 데이터 병렬 처리 도구-mapreduce

대용량 데이터 처리 기술과이 병렬 mapreduce로 데이터의 처리 속도 개선할 수 있습니다. MapReduce의 디자인은 많은 수의 저가 서버를 통해 처리 하는 대용량 데이터 병렬을 달성 하도록 설계 되었습니다, 그리고 데이터 일관성 요구 사항이 높은, 그것의 뛰어난 장점은 확장성 및 가용성, 데이터, 반구조적 및 구조화 되지 않은 데이터 혼합된 처리의 질량에 특히 적합 합니다.

MapReduce 일반적인 쿼리, 분해 및 분산된 처리를 위한 데이터 분석, 작업 다른에 할당 된 처리 처리 노드, 따라서 용량이 강력한 병렬 처리. 병렬 처리에 대 한 단순화 된 프로그래밍 모델, MapReduce는 또한 병렬 응용 프로그램을 개발 하기 위한 임계값을 낮춘 다.

MapReduce는 소프트웨어 프레임 워크, 지도 (매핑)를 포함 하 여 집합 (단순화) 2 단계 감소, 데이터 세분화, 작업 분해 및 결과 집계, 대규모 데이터의 병렬 처리를 완료 하기 위하여 많은 수 있습니다.

Mapreduce의 작동 원리는 사실 1 부의 데이터 처리 방법입니다. 지도 "분해", 대규모 데이터 다중 프로세서 병렬 처리;으로 나누어 여러 부분으로 나뉘어져 감소는 최종 결과 얻기 위해 각 프로세서 처리의 결과 요약 하는 "병합". MapReduce를 사용 하 여 다른 기하학의 수를 계산 하는 경우 오른쪽에 표시 된, 그것은 먼저 두 노드에 작업을 할당 합니다, 그리고 두 개의 노드가 병렬 통계, 그리고 그들의 요약, 최종 계산 결과의 결과으로 나누어집니다.

MapReduce는 데이터 분석, 로그 분석, 비즈니스 인텔리전스 분석, 마케팅, 고객에 대 한 대규모 인덱싱 및 기타 비즈니스 매우 확실 한 효과가 있다. 결합 하 여 실시간 분석을 위한 MapReduce 기술, 전기 기기 회사의 신용 계산 시간 동안 MkI의 유전자 분석 시간 20 분을 몇 일에서 단축 되었다 33 시간에서 8 초 단축 했다.

여기, 보자 mapreduce와 전통적인 분산된 병렬 컴퓨팅 환경 간의 차이점은 무엇입니까? MapReduce는 대규모 데이터 환경에서 처리 요구에 적응할 수 있도록 디자인 목적, 사용 및 파일 시스템의 지원 측면에서 MPI에 매우 다릅니다.

어떤 새로운 방법은 데이터 수집에 사용 됩니다.

시스템 로그 수집 방법

많은 인터넷 기업 들이 그들의 자신의 데이터 수집 도구, Chukwa, Hadoop Flume, 페이 스 북 스크의 cloudera 등 시스템 로그 컬렉션에 대 한 더 많은 그리고,이 도구는 분산된 아키텍처 초당 로그 데이터 수집 및 전송 요구의 메가바이트의 수백을 만날 수 있다.

데이터 수집 방법 네트워크: 구조화 되지 않은 데이터의 수집

웹 크롤러 또는 웹사이트 공용 API를 통해 웹 사이트에서 데이터를 얻기 위해 네트워크 데이터 수집을 의미 합니다. 메서드는 웹 페이지에서 구조화 되지 않은 데이터를 추출, 통합된 로컬 데이터 파일로 저장 고 구조화 된 방식으로 저장 수 있습니다. 그것은 컬렉션을 지 원하는 사진, 오디오, 비디오 파일 또는 첨부 파일 및 첨부 파일은 자동으로 텍스트와 연결 될 수 있습니다.

네트워크에 포함 된 내용 외에 네트워크 트래픽의 컬렉션 DPI 등 DFI 대역폭 관리 기술을 사용 하 여 처리 수 있습니다.

다른 데이터 수집 방법

기업 또는 연구 기관, 특정 시스템 인터페이스 및 기타 관련된 메서드를 사용 하 여 협력에 의해 높은 기밀성 요구 사항, 비즈니스 데이터 또는 학문 연구 데이터와 같은 데이터를 수집할 수 있습니다.

관련 문서

연락처

이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이 페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.

커뮤니티에서 표절 사례를 발견한 경우 info-contact@alibabacloud.com 으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.