대용량 데이터에 대 한 직렬 처리 방법 사람들의 요구 사항에 맞게 어렵습니다 그리고 지금 주로 사용 하 여 병렬 컴퓨팅. 기존 병렬 컴퓨팅 2 가지의 유형으로 분할 될 수 있다:
정밀한 세분성의 병렬 계산입니다. 여기 좋은 세분성은 주로 지시를 참조 또는 프로세스 수준 GPU는 강력한 병렬 처리는 CPU 보다 능력 때문에 사람들이 몇 가지 작업을 GPU 병렬 처리를 넘겨 것 이다, 일부 GPU 제조업체 또한 같은 엔비디아 Cuda에 출시를 사용 하려면 프로그래머를 용이 하 게 하는 프로그래밍 모델을 도입.
거친 세분성의 병렬 계산입니다. 거친 세분성 여기 참조 작업 수준, 사람들이 가장 최근의 인기 있는 그리드 컴퓨팅, http://www.aliyun.com/zixun/aggregation/13452.html 다른 컴퓨터에 분산 작동 > 분산 컴퓨팅은 성긴 수준.
때문에 기존의 GPU 프로그래밍 모델은 완벽 한, 개발자가 많은 수의 병렬 세부 정보를 고려할 필요가 작업 무거운, 그래서 그것은 인기가 되지 않습니다. 새로운 분산된 프로그래밍 모델의 일부 그들의 단순 하 고 편리, 개발자로 인기 있으며 굵고 세분성의 병렬 컴퓨팅에 대해 다루겠습니다.
큰 데이터는 배포 하기 때문에 클러스터, 따라서 처리 및 데이터의 분석, 클러스터에서 실행 될 필요가 하지만 거 대 한 성능 오버 헤드를 생성 하는 여러 컴퓨터에 분산 된 데이터의 분석 그리고 기가 비트, 기가 비트 대역폭 네트워크와도 무작위 읽기 속도 순차 읽기 속도 수 여러 자릿수로 메모리 보다 속도가 느립니다. 그러나, 고속 LAN 기술 지금 훨씬 더 빨리 읽고 하드 드라이브 보다 더 빨리 읽고 네트워크를 만든다. 결과적으로 하드 디스크에 저장 보다는 다른 노드의 데이터를 저장 하 고 여러 노드에서 동시에 데이터 집합을 처리할 수 있습니다.
대용량 데이터 분산 처리에 몇 가지 문제를 가져올 것 이다 첫 번째는 병렬 처리, 검색, 계산, 부분 집계, 공동 일부 작업의 비용에 노드 간 통신, 등 수 있습니다 수행 하지 독립적으로 각 노드에서. 단일 노드 처리의 결과 병합, 노드 간 통신은 불가피 하지만 모든 집계 작업 수 있습니다 독립적으로 작동, 모든 데이터의 중간 같은 하위 작업으로 분산 될 수 있습니다 필요 합니다. 그러나, 가장 중요 한 작업을 줄이기 위해 노드 간 통신 알고리즘 배포는.
노드 간의 부하 불균형 중요 한 문제 이기도합니다. 이상적으로, 각 노드 계산의 동일한 금액을 해야 합니다, 그리고 가장 까다로운 노드 부하 분산 상황 보다 종종 더 이상 전체 작업의 완료 시간을 결정 하는 그렇지 않으면. 최악의 경우, 모든 작업 한 기계에 집중 하 고 병렬 처리의 장점을 보여줄 수 없습니다. 부하 분산, 예를 들어 10 년 이내 1000 센서의 관측을 포함 하는 데이터 집합에 영향을 미치는 노드 간에 데이터를 배포 하는 방법 하 고 센서 데이터를 수집 15 초 마다 하는 센서는 10 년 이내 Chice 관측을 생산할 예정 이다. 우리 시간 순서 대로 각각 100 센서 관측을 포함 하는 센서에 따라 10 노드를 데이터 고 센서에 의해 수집 된 데이터, 작동 하는 경우 노드 대부분 유휴 됩니다. 시간 순서 대로 데이터를 배포 하는 경우 다음 작업 시간에 따라 발생할 수 있습니다 또한 부하 불균형.
분산 시스템의 또 다른 문제는 안정성 이다. 마찬가지로 4 개의 엔진 항공기 2 엔진 항공기 보다 엔진 실패에 더 수 그리 다, 10 노드와 클러스터는 노드 실패 경향이 있다. 이 데이터는 데이터 분석의 효율성을 향상 시킬 수 있습니다 또한 중복을 통해 노드 오류를 극복할 수 있는 복제 노드 간에 데이터를 복제 하 여 해결할 수 있습니다. 물론, 큰 데이터 집합, 더 어려운 그것 관리 및 데이터의 복사본을 유지입니다.
현재, 대규모 데이터 처리 및 분석의 응용 프로그램에서
기술, 예측된 분석, 실시간으로 분석, 비즈니스 인텔리전스 및 데이터 통계에 더 집중 된다. 이러한 요구는 기업에 큰 도움이 있습니다.
페타바이트의 데이터를 효율적으로 저장 하는 방법 저장 하기 어렵지 않다는 쉽지 않다입니다. 고려해 야 할 첫 번째 것은 더, 덤프 하 고 데이터를 다시 정렬 하지 않고도 최고의 소프트웨어를 지원할 수 있도록 데이터 구조를 구성 하는 방법. 데이터 변환 하는 경우 준비, 추출, 통합, 등으로 인 한 지연을 하지 마십시오.
효과적인 예측 분석 기술, 특히 실시간 분석, 기업의 의사 결정에 큰 도움이입니다. 예를 들어 슈퍼마켓 그들은 체크 아웃 시간에 구체적으로 특정 사용자에 대 한 그들의 관심 쿠폰을 인쇄할 수 있도록 큰 사용자 역사 소비 기록에 기반 하는 다음 항목을 구매 하는 사용자의 성향을 예측할 수 있습니다. 축구 팀 관리 등 사용자의 구매 티켓 기록에 따르면 시즌 티켓 더 인간적 월별 항공권을 추천할 수 있습니다.
현재, 전통적인 데이터 분석 소프트웨어, SAS, SPSS, 같은 데이터를 계산 하는 기능 큰 데이터의 처리로 제한 됩니다. 데이터 분석 소프트웨어, IBM Netezza 등 종종 비싼 라이선스 비용을 지불, 그래서 공개 소스 대용량 데이터 분석 도구 Hadoop의 mapreduce, 등은 신흥 r 점점 더 많은 관심과 호의 얻고 있다.
소프트웨어, 오픈 소스 소프트웨어는 완전히 무료입니다 및 않습니다 하지 그것은 뿐만 아니라 비싼 라이센스 비용을 지불 하는 필요는 큰 오픈 소스 팀 지원. 하지만 그것은 시장 수요와 속도, 모든 후, 되지 않은 강력한 상용 소프트웨어를 그들을 드라이브 하는 것은 앞으로 나란히 유지 중요.
이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이
페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.
커뮤니티에서 표절 사례를 발견한 경우
info-contact@alibabacloud.com
으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.