대용량 데이터 시대에 데이터 마이닝 처리

출처: 인터넷
작성자: 사용자
키워드: 큰 데이터 데이터 마이닝

최근 몇 년 동안, 새로운 형태의 정보, 소셜 네트워킹 사이트, 위치 기반 서비스와 클라우드 컴퓨팅, 모바일의 급속 한 발전에 의해 표시의 출현 및 IoT 기술, 유비쿼터스 모바일, 무선 센서 및 기타 장치는 데이터 생성 항상, 인터넷 서비스의 사용자의 수백만의 수백 항상 데이터 상호 작용을 생성 하는, 빅 데이터 시대 왔다. 현재, 큰 데이터 뜨겁다, 그것은 비즈니스 또는 개인에 대 한 이야기 인지 큰 데이터 관련 주제와 비즈니스에 종사, 우리 큰 만들 데이터도 빅 데이터 시대에 의해 둘러싸여. 대용량 데이터에 대 한 시장 전망은 희망, 일반인의 눈에는, 분석, 관리, 과제의 수는 여전히 고 TB, 이미 초과한 큰 데이터 등 대용량 데이터의 사용의 놀라운 성장 속도 높은 실시간.

현재, 거기 아니다 완전 한 일치 큰 데이터의 정의에. 큰 데이터의 위키백과 정의: 정보 관련된 금액은 너무 커서 현재 주류 소프트웨어 도구, 취득, 관리, 처리 및 도움 정보 비즈니스 의사 결정 더 긍정적인 목적을 정리 하는 시간이 합리적인 기간 내에 통과. 인터넷 데이터 센터 아키텍처와 기술 경제적으로 높은 주파수, 대용량, 다른 구조와 유형의 데이터에서 값을 얻기 위해 설계 된 차세대 대용량 데이터를 정의 합니다. 큰 데이터의 모든 정의 큰 데이터의 특성에 기초 하 고 정의 정교 하 고이 특성의 일반화를 통해 제공 됩니다. 이러한 정의에서 큰 데이터의 특성 합계 될 수 있다 다음과 같습니다: 규모 (양), 다양성 (다양 한), 고속 (속도) 및 값.

1. 시각화 데이터 분석의 큰

데이터의 최종 해석까지 데이터 분석, 초기 데이터 통합에서 데이터의 사용의 용이성은 데이터 분석의 전체 과정을 통해 실행 해야 합니다. 대용량 데이터 시대에 데이터 볼륨이 큰 데이터 구조는 다양 한 고 그 복잡성 이미 전통적인 관계형 데이터베이스를 능가 했다. 또한, 많은 사람들의 생활의 모든 영역을 관통 있다, 많은 산업 분야는 대용량 데이터에 대 한 수요가 증가 하기 시작 했습니다. 하지만 일반 사용자가 결과의 프레 젠 테이 션에 더 걱정 하는 경향이 하 고 데이터의 복잡도 큰 데이터에서 직접 지식 일반 사용자의 액세스를 제한 합니다. 따라서, 대용량 데이터의 분석에서 데이터의 시각화 연구원에 관심을 지불 하 고 더욱 향상 될 해야 합니다.

(1) 시각화 기술입니다. 시각화 기술은 많은 수의 데이터를 해석 하는 가장 효과적인 수단 중 하나입니다 결과 시각적으로 사용자에 게 표시 하 고 그래픽 방식으로 이해 하 고 전통적인 텍스트 표시 방법 보다 받을 쉽습니다. 데이터 시각화, 데이터 결과 분석 간단를 사용 하 여 사용자에 게 표시 됩니다, 기본 플랫폼에서 친절 하 고, 의료 그래픽 및 지능형 양식 처리 관계 또는 데이터 마이닝 결과에서 테이블 매핑 이미지를 보여줍니다. 현재, 대용량 데이터에 대 한 가장 일반적인 시각화 기술이 포함 태그 클라우드 (태그 구름), 역사적인 스트림 (역사 흐름), 공간 정보 흐름 (공간 정보), 등등. PB 또는 더 큰 대용량 데이터 시리즈에 대 한 전통적인 차트 방법은 그것의 시각화를 달성 하기 어렵다 되었습니다, 그리고 그것은 빠른 소개 하는 데 필요한 정확한 과학 계산 방법의 대규모 데이터의 처리. 과학적인 계산 데이터 산만 및 연구, 컴퓨터 그래픽, 이미지 처리, 컴퓨터 비전 및 그래픽 사용자 인터페이스 등 많은 분야를 포함 하는 보다 직관적인 표현 제공 하는 데이터의 시각화를 실현 하기 위해 2d, 3d 그래픽을 사용할 수 있습니다. 세계에서 가장 큰 상업용 웹사이트 ebay 선택한 tableau의 모든 직원 들이 시간,이 베이 비즈니스 통찰력을 데 려의 특정된 기간에 대 한 그래픽 검색 링크 및 모니터 고객 피드백 및 감정 분석을 볼 수 있도록 데이터 시각화 소프트웨어 중 하나는 데이터의 시각화.

(2) 웹 시각화입니다. 네트워크의 급속 한 발전 및 지속적인 네트워크 성능 향상, 웹 기반 데이터 시각화 기술 핫스팟 되고있다. 이미 많은 웹 차트 주식, 기상 데이터 등을 표시 하는 데 사용 되는 도구는 네트워크에 있다. 가장 널리 사용 되는 자바 스크립트, 플래시, 자바 애플릿, 등, 이러한 기술이 웹 그래픽에 구현 될 수 있습니다. 과학적인 계산 데이터에 데이터의 큰 금액 보다 더 많은 처리를 필요에 대 한 Ejschart를 사용할 수 있습니다. 또는 Jfreechart, 드로잉 속도, 호환성 및 좋은 상호 작용, 그리기 도구로 사용할 수 있습니다.; 그리기 도구 개발을 위한 자바 스크립트를 선택할 수 있습니다. 그리고 플래시, 2 개의 그림은 빠르게 덜 다양. 많은 브라우저가 HTML5, 휴대 전화 및 정제를 포함 하 여 지원 그리고 자바 그것은 더 나은 크로스-플랫폼 호환성을 필요로 하는 경우 좋은 선택입니다.

2. 데이터 마이닝의 일반적인 방법

데이터 마이닝은 큰 데이터 시대에 가장 중요 한 작업. 큰 데이터의 마이닝 소중 하 고 잠재적으로 유용한 정보 및 의사 결정 지원 프로세스는 또한 큰, 불완전, 시끄러운, 퍼지 및 무작위 대규모 데이터베이스에서 지식 발견의 과정 이다. 그것은 주로 인공 지능, 기계 학습, 학습, 통계 등 패턴에 기반. 대용량 데이터의 분석을 자동화 함으로써 귀납적 추론, 그것 기업, 상인 및 사용자 시장 정책 조정, 발생 위험을 줄이고, 합리적 시장 얼굴 올바른 결정을 내릴 수 있습니다. 현재, 데이터 마이닝 등 마케팅 전략, 배경 분석, 엔터프라이즈 관리 위기에 특히 비즈니스, 금융, 통신, 전기, 등의 분야에서에서 많은 분야에서 많은 문제를 해결할 수 있습니다. 대용량 데이터 마이닝의 일반적인 메서드는 분류, 회귀 분석, 클러스터링, 협회 규칙, 신경 네트워크 방법, 웹 데이터 마이닝, 등등. 이러한 메서드는 다른 각도에서 데이터를 발굴 하는 데 사용 됩니다.

(1) 분류입니다. 분류는 데이터베이스에서 데이터 개체의 집합의 공통 특징을 찾아서의 목적은 분류 모델을 통해 특정된 범주에는 데이터베이스에 있는 데이터 항목을 매핑할 분류 패턴에 따라 다른 종류로 그들을 분류 하는. 분류의 응용 프로그램에 적용할 수 있는, 상품, 상점 판매 증가의 관련된 카테고리를 추천 하는 상황에 따라 예측, 동향 Taobao 상점 구입 다른 종류로 분할 하는 기간에 사용자가 있을 것 이다와 같은.

(2) 회귀 분석입니다. 회귀 분석 데이터베이스에서 데이터의 특성 값을 반영 하 고 함수 식 데이터 매핑을 통해 특성 값 사이의 종속성 관계를 발견. 그것은 데이터 계열의 상관 관계와 예측 연구에 적용할 수 있습니다. 마케팅, 회귀 분석은 모든 측면에 적용할 수 있습니다. 이 분기의이 판매에 대 한 회귀 분석, 다음 분기의 판매 추세 예측을 확인 하는 경우 변경 마케팅 대상.

(3) 클러스터링. 클러스터링은 분류, 유사 하지만 데이터 집합이 데이터의 차이 유사성에 대 한 몇 가지 범주로 분류 하는 분류의 목적. 같은 범주에 속하는 데이터 사이의 유사성은 매우 큰, 하지만 다른 종류 사이의 유사성은 매우 작은, 그리고 클래스 간의 데이터 상관 관계 매우 낮습니다.

(4) 협회 규칙입니다. 협회 규칙은 협회 또는 숨겨진 데이터 항목 간의 상호 관계, 즉, 다른 데이터 항목의 모양을 데이터 항목의 모양을에서 추론 수 있습니다. 주로 두 개의 단을 포함 하는 연관 규칙 마이닝 과정: 첫 번째 단계는 거 대 한 원시 데이터에서 모든 높은-주파수 프로젝트 그룹을 찾는 것입니다; 그리고 이러한 높은 주파수 프로젝트 그룹에서 협회 규칙을 생성 하는 두 번째 극단. 협회 규칙 마이닝 기술을 널리 이용 되는 금융 업계의 기업에서 예측 번들 고객 자신의 ATM 기계에 은행 고객의 요구를 이해 하 고 그들의 마케팅을 개선 하기 위해 적절 한 정보를 얻을 사용자에 대 한 정보에 관심이 있을 수 있습니다.

(5) 신경 네트워크 방법입니다. 첨단된 인공 지능 기술의 일종으로 신경 네트워크는 비 선형 처리에 적합 하 고 퍼지, 불완전 하 고 부정확 한 정보 또는 데이터의 자체 처리 때문에 분산 저장 및 높은 결함 허용 특성은 데이터 마이닝 문제를 해결 하는 데 매우 적합 합니다. 전형적인 신경 네트워크 모델 세 가지 주요 범주로 나누어집니다: 첫 번째는 주로 기능 네트워크로 표시 되는 분류 예측 및 패턴 인식에 대 한 포워드 신경 네트워크 모델 및 계층 퍼셉트론. 두 번째 유형은 Hopfield 개별 모델 및 연속 모델에 의해 표시 되는 연관 메모리 및 최적화 알고리즘에 대 한 피드백 신경 네트워크 모델은. 세 번째 카테고리 예술 모델에 의해 표시 되는 클러스터링, 자기 조직 매핑 방법입니다. 비록 많은 모델과 신경망 알고리즘, 모델 및 특정 분야에서 데이터 마이닝에 사용 되는 알고리즘에 대 한 균일 한 규칙 그리고 네트워크의 학습과 의사 결정 과정을 이해 하기 어렵습니다.

(6) 웹 데이터 광업입니다. 웹 데이터 마이닝은 포괄적인 기술, 입력으로 C, p는 출력 다음 웹 마이닝 프로세스 매핑 출력 입력에서 볼 수 있습니다 처리 하는 경우 문서 구조와 C 발견 묵시적된 모드 p, 컬렉션의 사용에서 웹을 말합니다. 그것의 과정은 그림에 표시 됩니다.

그림 1 웹 데이터 마이닝 순서도

현재, 점점 더 많은 웹 데이터 되므로 데이터 스트림의 형태로 웹 데이터 스트림 마이닝을 위해 아주 중요 하다. 현재 일반적으로 사용 되는 웹 데이터 마이닝 알고리즘은: 페이지 랭크 알고리즘, 알고리즘 및 Logsom 알고리즘 안타. 이러한 세 가지 알고리즘은 사용자가 일반 사용자와 사용자를 구분 하지 않습니다를 참조 하십시오. 현재, 웹 데이터 마이닝 등, 몇 가지 문제 직면: 사용자의 분류 문제, 웹 사이트 콘텐츠, 페이지에서 사용자의 시간의 적시성, 페이지와 링크의 링크. 오늘, 웹 기술의 급속 한 발전으로 이러한 문제가 여전히 자격이 공부 하 고 해결 합니다.

3. 데이터 분석 기술

데이터의 분석은 대규모 데이터 처리의 핵심입니다. 전통적인 데이터 분석은 주로 구조적된 데이터를 겨냥 하 고 일반적인 프로세스는 다음과 같습니다: 첫째, 데이터베이스는 구조화 된 데이터를 저장 하는 데 사용 됩니다 데이터 웨어하우스 구성 및 다음 해당 큐브는 건설 그리고 온라인 분석 필요에 따라 처리 됩니다. 이 과정은 상대적으로 작은 구조적된 데이터를 다룰 때 매우 효율적. 그러나, 큰 데이터 분석 기술 3 직관적인 문제 직면: 대용량 데이터, 멀티 포맷 데이터 및 분석 속도, 표준 스토리지 기술을 저장할 수 없습니다 큰 데이터를 그래서 그것이 큰 데이터 분석에 대 한 더 합리적인 분석 플랫폼을 소개 하는 데 필요한. 현재, 오픈 소스 Hadoop은 널리 사용 되는 데이터 처리 기술, 그것은 또한 분석 하 고 큰 데이터를 다루는 핵심 기술.

Hadoop은 자바 기반 분산 데이터 처리 및 분석 소프트웨어 프레임 워크, 사용자 상황, 전체 활용 클러스터 고속 동작 및 스토리지의 전력 분산된 프로그램의 개발의 분산된 낮은 수준의 세부 정보를 이해할 수 없다. 그것의 기본적인 작동 원리는: 대규모 데이터 대량 데이터를 작은, 쉬운 접근으로 분해 하 고 분석 하는 여러 서버에 배포. 파일 시스템 (HDFS), 기능 모듈의 데이터 처리 (MapReduce) 두 부분 등 주로 하단 HDFS Hadoop 클러스터 파일에 모든 스토리지 노드를 저장 하는, HDFS 상위 레이어는 MapReduce 엔진, 엔진 작업 추적 및 작업 추적 구성입니다. 구조는 그림에서 보는 바와 같이:

  

그림 2 Hadoop 구성 아키텍처 다이어그램

상용 하드웨어 클러스터를 주어진. 소위 상용 하드웨어는 저가형 하드웨어, 그것의 고장율 저가형 하드웨어 보다 훨씬 낮습니다. Hadoop 필요 하지 않습니다 저렴 하 고 신뢰할 수 있는 하드웨어에 실행 노드 실패의 높은 확율을 가진 큰 클러스터 HDFs 계속이 디자인 유지 보수 시스템, 비용 감소, 오류가 발생할 경우 사용자에 게 눈에 띄는 중단 없이 실행 하는 경우에 특히 때 사용자 수백 또는 심지어 수천 기계 관리 합니다.

Hadoop은 하나의 쓰기 및 여러 읽기에 따라 효율적인 액세스 패턴으로 설계 되었습니다. 각 분석 데이터의 데이터는, 전체 데이터 집합을 포함 하 고 높은 데이터 처리량, 높은 대기 시간 만들고 hbase는 낮은 대기 시간 데이터 액세스에 대 한 더 나은 선택. HDFS는 HDFS 클러스터는 namenode (마스터) 및 여러 개의 Datanode (슬레이브)의 구성 된 마스터/슬레이브 아키텍처를 사용 합니다. Namenode는 중앙 서버 HDFS 네임 스페이스를 관리 하 고 유지 HDFS 파일 및 디렉터리에 대 한 책임입니다. 이 정보는 네임 스페이스 미러링 파일 및 편집 로그 파일의 형태로 로컬 디스크에 유지 됩니다. 그것은 또한 각 파일의 각 블록의 Datanode 정보를 기록 하지만 Datanode 다시 시스템 시작 시 새로운 위치 정보를 설정 합니다 때문에 블록의 위치 정보를 영구적으로 저장 하지 않습니다. 동시에 Namecode는 또한 외부 클라이언트 액세스를 제어 합니다.

Datanode는 HDFS 작업 노드를 일반적으로 컴퓨터 노드 클러스터, 노드 함께 제공 저장소 관리에 대 한 책임 이다. Namenode 각 Datanode를 얻을, 그들은 저장 고 Namenode 또는 고객 요구에 따라 데이터의 블록을 검색, 만들고, 삭제 하 고, 블록을 복사 하는 명령을 실행할 수 및 정기적으로 데이터 블록의 목록을 저장 하는 Namenode 동적 정보를 보내기 그에 따라 블록 매핑 및 파일 시스템 메타 데이터를 확인 합니다.

3.2 MapReduce

MapReduce는 대용량 데이터 처리를 위한 소프트웨어 프레임 워크입니다. 그것의 중 핵 디자인 아이디어 문제 데이터에 계산을 보다는 오히려 계산 데이터를 청크로 분할 하는 것입니다. 가장 간단한 MapReduce 응용 프로그램 적어도 3 부분으로 구성: 지도 기능, 감소 기능 및 그 모델은 비교적 간단 하 고, 주요 기능, 사용자의 원시 데이터를 차단 손과 다음 map 함수 출력 중간 결과 처리 하는 데 다른 맵 작업 영역을. Reduce 함수는 데이터의 목록을 읽어와 데이터를 정렬 하 고 최종 결과 출력. 그것의 과정은 그림에 표시 됩니다.

장점과 3.3 Hadoop의 문제

Hadoop은 많은 양의 데이터를 분산 처리 가능 소프트웨어 프레임 워크 그리고 신뢰할 수 있는 효율적이 고 확장 가능한 방식으로 처리 됩니다. 노드는 병렬, 병렬 처리를 통해 처리 속도에서 작동 하기 때문에 확장성은 PB 단위의 데이터를 처리할 수 있는 효율적인 실패 한 노드에 대 한 배포 될 수 있도록 작업 데이터의 여러 복사본을 유지 하는 그래서 그는 계산 요소와 저장소 실패 합니다, 가정 하기 때문에 안정적입니다.

하지만 다른 신흥 기술 처럼 Hadoop도 해결 되어야 할 문제에 직면. (1) 현재, Hadoop 부족 엔터프라이즈급 데이터 보호, 개발자 해야 합니다 수동으로 HDFS 데이터 복제 매개 변수를 설정 하 고 복제 매개 변수는 저장 공간의 낭비로 이어질 가능성이 결정 하는 개발자에 의존. (2) Hadoop 필요 하지만 일반적으로이 전용된 컴퓨팅 클러스터 구축에 투자를 격리 된 저장소, 전산 자원 및 스토리지 또는 CPU 사용률 문제, 귀착되 고이 스토리지 문제를 공유 하는 다른 프로그램과 호환성 문제가 있다.

4. 예측 분석 능력

데이터 마이닝을 사용 하면 데이터를 더 잘 이해 하 고 큰 데이터의 예측 분석 사용자가 시각적 분석 및 데이터 마이닝 결과에 따라 예측 판단을 내릴 수 있습니다.

전통적인 데이터 분석에 비해, 대용량 데이터 분석의 중요 한 목표 중 하나는 대규모의 데이터베이스에 데이터, 숨겨진된 규칙을 찾아서 최고의 가치를 재생 하는 데이터베이스를 만들 것입니다. 데이터의 값은 데이터 사이의 관계의 숨겨진된 지식 하지만 데이터 자체 보다 훨씬 더. 예, 기업과 고객은 지금도 인터페이스의 접촉은 점점 더 풍부 하 고 고객 및 기업 고객, 상품, 고객 및 브랜드 대화형 정보 및 데이터의 많은 수 사이 실행 하는 이러한 방법이. 이러한 데이터를 통합할 수 있는 조직 정확 하 게 기존 사용자를 이해 하 고 활용할 잠재적인 사용자 그룹에 더 많은 기회를 갖게 됩니다.

큰 데이터 값 사용을 위해 시각화 분석 및 데이터 마이닝 결과 전망. 대용량 데이터 시대에는 데이터의 예측 분석 보다 포괄적인 고객의 기회에 대 한 통찰력을 기업 하며 깊이 있는 이해와 고객의 요구 특성, 취미, 소비 성향, 소비자 심리학, 기업 운영 관리 기능 및 성능을 향상 시킬 수 있도록.

5입니다. 결론

데이터 폭발, 우리가 다양 한 데이터에 의해 포위 되 고 되었다. 큰 데이터의 올바른 사용, 사람들에 게 큰 편의 가져올 것 이다 하지만 전통적인 데이터를 동시에 분석 기술 도전을 제공 합니다. 본이 논문에서는 대용량 데이터 분석의 핵심 기술을 상세히에서 분석 하 고 시각화 기술, 채광 기술 및 대용량 데이터 분석의 분석 기술 주로 expounded. 전반적으로, 비록 우리가 빅 데이터 시대를 입력 하지만 "빅 데이터" 기술은 아직 초기 단계에에서, 더 큰 데이터 분석 기술 향상을 개발은 여전히 큰 데이터 연구의 뜨거운 주제.

관련 문서

연락처

이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이 페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.

커뮤니티에서 표절 사례를 발견한 경우 info-contact@alibabacloud.com 으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.