병렬 데이터 마이닝 도구 플랫폼에 대 한 연구를 기반으로 클라우드 컴퓨팅

출처: 인터넷
작성자: 사용자
키워드: 클라우드

통신 산업의 발전, 통신 사업자 간의 경쟁 치열 되고있다. 경쟁에서 이기려면, 비즈니스 전략 통신 사업자의 성공의 주요 연결 된다. 통신 사업자 데이터 마이닝 기술을 사용 하 여 많은 수의 사용자 데이터 정보를가지고, 결제 데이터, 비즈니스 주문 데이터, 네트워크 관리에 비즈니스 지식을, 정밀 마케팅 기반을 시장에 대 한 대량 사용자 데이터 등의 데이터를 수 있습니다. 중국 모바일 사용자의 확장 하 고 응용 프로그램 대상의 다양 한 요구, 데이터 마이닝 응용 프로그램에 새로운도 전에 직면.

우선, 사용자 규모는 과금 데이터 및 네트워크 관리 데이터의 데이터, 비즈니스 데이터를 포함 하 여 사용자의 많은 수에 의해 생성 된 더 큰 이다. 예를 들어 중소 지방 회사는 약 10 백만 사용자, 그래서 당 CDR 데이터의 양을 생산 년 약 12 ~ 16 TB. 예를 들어 데이터 마이닝의 매우 간단한 비즈니스 목표, 후 데이터 전처리 (추출, 변환, 로드, ETL) 처리, 알고리즘 해야 프로세스 데이터의 약 10 기가바이트 합니다. 그리고 주 회사의 네트워크 관리 데이터 거 대 한, 하루 1 TB 수준에 도달할 수 있습니다.

둘째, 점점 더 복잡 하 고 다양 한 응용 프로그램 요구 사항 데이터 마이닝 응용 프로그램의 그것을 더 높은 컴퓨팅 요구 사항 및 저장 기능에 대 한 플랫폼 지원 및 데이터 마이닝 응용 프로그램은 점차적으로 앞으로 실시간 요구 사항을 넣어, 적시 비즈니스 전략은 신속 하 게 시장을 차지할 수 있습니다.

위의 문제는 유닉스 소형 컴퓨터의 중앙 집중식된 플랫폼에서 실행 되는 전통적인 데이터 마이닝 시스템에 의해 제한 되는 전통적인 데이터 마이닝 시스템에 새로운 도전을 선물 한다. 예를 들어, 클러스터 응용 프로그램으로 현재 기존 상용 데이터 마이닝 시스템만은 멀리 우리의 실제 요구 사항 데이터 검색의 지식의 1 개월 이내 1 백만 사용자 지원할 수 있습니다. 또한, 전통적인 플랫폼 비용을 지 원하는 매우 높은, 높은 비용 경쟁력을 크게 줄일 것 이다.

병렬 데이터 마이닝 도구 (Bc-pdm, 블루 캐리어 기반 병렬), 중국의 모바일 연구소, 클라우드 컴퓨팅 기술을 사용 하 여 저장, 분석, 실현에 초점을 맞추고 개발 처리 및 대규모 데이터 마이닝. 그것은 높은 신뢰성을 제공 하 고 고성능 데이터 마이닝 분석 지원 시스템 및 네트워크 관리 시스템 도구.

시스템 아키텍처, 특히 클라우드 컴퓨팅 분산 컴퓨팅 레이어 3 계층, 데이터 마이닝 플랫폼 레이어 및 비즈니스 응용 프로그램 계층에 따라 병렬 데이터 마이닝 도구 플랫폼 측면에서

(1) 분산된 컴퓨팅 플랫폼 레이어: 함수의 세 부분을 포함 하 여:

L 분산 파일 시스템: 분산된 데이터 파일 저장 기능을 제공, 제공 하는 높은 신뢰성, 높은 안정성 스토리지 플랫폼;

L 병렬 프로그래밍 환경: MapReduce 모델, 작업 일정, 작업 실행, 결과 피드백, 및 제공 플랫폼; 작업 기능을 제출

분산 시스템 관리: 플랫폼의 분산 시스템 관리 실현.

(2) 데이터 마이닝 플랫폼 계층: 기능의 5 개 부분을 포함 하 여:

L 워크플로 모듈: 각 데이터 마이닝 단계 및 일정 기능; 모듈 일반 제어의 실현

L 데이터 로드 모듈: A DFS 시스템을 클라우드 컴퓨팅 플랫폼;에 다른 주변 기기에서 소스 데이터를 따른다

L 병렬 ETL 모듈: 원시 데이터 마이닝 데이터를 클라우드 컴퓨팅 클라우드 컴퓨팅 플랫폼 구현 및 피드백 결과, DSF;에 저장 하 여 ETL 작업을 수행 하려면 제출 플랫폼 병렬 데이터 마이닝 도구를 전처리

L 병렬 데이터 마이닝 알고리즘 모듈: 데이터 마이닝 알고리즘의 요구, 병렬 데이터 마이닝 도구 플랫폼 클라우드 클러스터링 알고리즘, 클라우드 컴퓨팅 플랫폼 및 피드백 결과, DFS;에 저장 하 여 구현 하는 작업을 수행 하기 위해 제출 하는 플랫폼을 달성 하기 위해

L 병렬 결과 디스플레이 모듈: 병렬 데이터 마이닝 알고리즘의 결과 사용자에 게 표시 되

(3) 비즈니스 응용 프로그램 계층: 마케팅 전략, 특정 비즈니스 응용 프로그램을과 같은 개발 시장 부서에 대 한 텔레콤 비즈니스 응용 프로그램을 실현: 고객 클러스터링, 사용자 경력 예측. 사용자는 병렬 데이터 마이닝 도구를 사용 하 여 두 가지 방법으로 수 있습니다.

사용자 GUI 인터페이스를 기반으로 하는 L: 사용자 데이터 로드를 수행할 수 있습니다, 필요한 응용 프로그램을 실현 하는 도구를 통해 표시 되는 ETL 작업, 데이터 마이닝 알고리즘 및 결과.

알고리즘 라이브러리 API 기반으로 하는 L: 사용자 응용 프로그램 기능을 구현 하는 알고리즘 라이브러리에서 API를 호출 하는 응용 프로그램 시스템을 쓸 수 있습니다.

관련 문서

연락처

이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이 페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.

커뮤니티에서 표절 사례를 발견한 경우 info-contact@alibabacloud.com 으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.