대규모 데이터 처리 및 분석 요구 사항
의 배경
센서, 모바일 장치, 네트워크, RF Id의 광범위 한 사용, 데이터 수집 더 자동화 되 고, 점점 빠르게 데이터 생성와 데이터 볼륨의 폭발적인 성장에 중요 한 데이터 문제가 포즈. 많은 해당 기술 수집, 전송, 처리 및 대용량 데이터의 응용 프로그램에 대 한 개발 되었습니다. 대용량 데이터 처리 기술을 사용 하 여 많은 수의 잠재적인 법률 및 가치 있는 비즈니스 예측 및 분석을 만들기 위하여 패턴 발굴을 구조화, 반 구조화 및 구조화 되지 않은 정보를 처리 하는 방법 특히 중요 하 고 긴급입니다.
IBM SPSS Modeler (모델러 칭함) 산업 소프트웨어, 데이터 마이닝의 작업을 표시 하려면 데이터 흐름의 사용의 데이터 마이닝 분석 이며 많은 수의 응용 프로그램 플랫폼의 데이터 마이닝 작업에 대 한 지원을 만드는 바삭바삭한 DM 산업 표준을 결합. IBM의 대형 데이터 전략적 방향, 데이터 처리 및 분석, 대 한 시장 수요를 수용에 적응 하려면 모델러 15.0 FP2 통합 최신 대형 데이터 처리 엔진 IBM SPSS 분석 서버 (이 하 분석 서버 라고도 함) 버전 1.0 IBM의 데이터 마이닝 기능 큰 데이터 영역을 확장.
맨위로 돌아가기
MapReduce와 Hadoop
소개
현재, MapReduce는 널리 사용 되는 병렬 컴퓨팅 프로그래밍 모델, 대규모 데이터 처리에 적용 될 수 있는 이다. MapReduce의 개념 Google 연구소, 구글, 지도에 큰 클러스터에서 실행 하 고 두 가지 기능을 감소 하는 복잡 한 병렬 컴퓨팅 프로세스를 추상화의 핵심 컴퓨팅 모델에서에서 비롯 됩니다. MapReduce를 적용 하 여 처리 하는 데이터 집합 각 작은 데이터 집합에 동시에 처리할 수 있는 작은 데이터 집합의 수로 분해 될 것 이다. MapReduce 계산 프로세스는 그림 1에 표시 됩니다.
그림 1입니다. MapReduce 계산 흐름
Hadoop은 오픈 소스 분산된 병렬 프로그래밍 프레임 워크 MapReduce 컴퓨팅 모델을 구현 하 고 그것은 MapReduce 모델으로는 Hadoop 분산 파일 시스템 (HDFS) 스토리지로 깨닫는다.
Hadoop은 다음과 같은 특징:
강한 수 용량: 신뢰할 수 있는 스토리지 및 데이터의 기가 바이트 (PB)의 처리. 저렴 한 비용: 데이터를 저장 하 고 저렴 한 스토리지 서버 클러스터를 통해 처리 될 수 있습니다. 서버 팜의 최대 수천의 노드를 포함합니다. 높은 효율성: 데이터를 배포 하 여 Hadoop 처리할 수 있는 노드에서 병렬로 데이터 있는 전체를 만드는 매우 빠른 처리. 신뢰성: Hadoop 자동으로 데이터의 여러 복사본을 유지 관리 하 고 매우 잘못 시스템 허용 하는 작업이 실패 한 후 자동으로 컴퓨팅 작업을 다시 배포할 수 있습니다.
맨위로 돌아가기
IBM SPSS 분석 서버에
소개 Hadoop 프레임 워크
에 따라
분석 서버는 분산된 파일 시스템에서 대용량 데이터 분석을 수행 하기 위한 프레임 워크를 구현 하기 쉽게 제공 하는 대용량 데이터 분석 솔루션입니다. 그것은 고도로 확장 가능한 방식으로 큰 데이터 기반 분석 문제를 해결 하기 위해 복잡 한 분석 알고리즘을 사용 하 여 사용자가 큰 데이터 기술로 IBM의 기존 비즈니스 분석 기술을 결합 합니다.
큰 데이터 분석
의 중요성
비즈니스 조직에 의해 수집 된 데이터의 볼륨은 빠르게 성장 하는, 예를 들어 금융에 그리고 소매 분야, 어디 모든 고객 거래는 1 년 또는 2 년 (10 년)에 개최 됩니다, 그리고 원거리 통신 공급자가 하는 호출 데이터 기록 (CDR) 및 장치 센서 수치. 그것은 중요 하 고 긴급 한 데이터를 효과적으로 성장이 고 유용한 비즈니스 가치를 발굴입니다. 예를 들어 금융에 기존 고객 그룹의 특성 및 소매 분야를 분석 하 여 관련 제품 및 서비스를 대상으로 고 부가 가치 서비스를 제공 하는 통신 공급자에 의해 소유 하는 데이터를 분석 하 여 고객 이탈을 방지 하기 위해 가능 하다.
이에서 우리 다음 조건이 존재 하는 경우 대용량 데이터 분석 필요 하다는 것을 볼 수 있습니다.
많은 양의 데이터 (바이트, 바이트, 바이트),
동시, 빠르게 변화 하 고 축적 데이터
에 존재 하는 데이터와 구조화 되지 않은 데이터는 경우에 특히
다음 조건이 존재 하는 경우 대용량 데이터 분석은 또한 유용한입니다.
는 많은 (수천) 구축 모델을 자주 빌드하고 모델 도전
새로 고침
많은 비즈니스 조직 대형 데이터 처리의 중요성을 인식 하는 동안 다음 문제가 자주 큰 데이터 처리 기술 사용에 발생:
제품 아키텍처의
전통적인 분석은 분산 컴퓨팅 적합 합니다. 기존 분석 알고리즘은 대용량 데이터를 사용 하기가 어렵습니다. 고급 대형 데이터의 분석이 새로운 기술 및 지식의 큰 데이터, 하지만 몇 분석가 들은 이러한 기술과 지식을. 메모리 솔루션만 중소 문제 해결에 사용할 수 있으며 큰 데이터 문제를 해결할 수 없습니다. 해결 케이스
분석 서버 제공 하는 대용량 데이터 분석을 위한 이상적인 솔루션입니다.
HDFS에 데이터 이동 줄이기 위해 Hadoop 지도 등 대용량 데이터 시스템의 데이터 중심 아키텍처를 활용 합니다. 인터페이스는 데이터 통계 방법에가 서 디자인을 결합 하 여 정의 되었다. 분석가 데이터 분석에 집중할 수 있도록 친숙 한 모델러 사용자 인터페이스 대형 데이터의 자세한 운영 정보를 숨깁니다. 어떤 크기 문제 솔루션입니다. 아키텍처
분석 서버 아키텍처 (그림 2)는 우리가 Hadoop을 기반으로 다른 응용 프로그램으로 작동 하는 분석 서버 아키텍처의 이미지를 제공 합니다. 분석 서버는 클라이언트 응용 프로그램 및 Hadoop 클라우드 사이 있습니다. 구름에 데이터 유지 가정, 작업 분석 서버를 사용 하 여 다음과 같이 수행 됩니다.
구름에 데이터에 대 한 분석 서버 데이터 소스를 정의합니다. 클라이언트 응용 프로그램에서 분석을 정의 합니다. 분석 서버에 대 한 클라이언트 응용 프로그램 모델러를 지원 하 고 IBM SPSS 분석 촉매. 클라이언트 응용 프로그램 전송 분석 서버 실행 요청 분석을 실행 합니다. 분석 서버 Hadoop 클라우드에서 실행 되는 작업을 조정 하 고 궁극적으로 클라이언트 응용 프로그램에 결과 보고 합니다. 결과 추가 분석을 반복 하는 과정으로 정의할 수 있습니다. 그림 2입니다. 분석 서버 아키텍처
맨위로 돌아가기
IBM SPSS Modeler와 IBM SPSS 분석 서버 통합
Modeler15.0 FP2 통합된 분석 서버 1.0来 통해 대형 데이터-지향 데이터 마이닝을 구현합니다. 이 섹션에는 환경 요구 사항, 설치, 및 분석 서버 1.0의 구성 및 분석 서버 1.0 및 모델러 15.0 FP2 및 그들의 보안 연결의 통합된 구성 설명합니다.
맨위로 돌아가기
IBM SPSS 분석 서버 설치 환경 및 구성 환경 요구 사항
분석 서버 리눅스 플랫폼만을 지원 하 고 지원 되는 플랫폼은 표 1에에서 표시 됩니다.
표 1입니다. 지원된 리눅스 플랫폼 제품 출시 프로세서 텍스트 크기 레드 레드햇 엔터 프 라이즈 linux6.xx6464 비트 Red Hat 엔터 프 라이즈 linux5.xx6464 비트 수 세 리눅스 엔터 프 라이즈 x6464 비트 수 세 리눅스 엔터 프 라이즈 server10x6464 비트
또한, 분석 서버 설치 다음 Hadoop 환경에 따라 해야 합니다.
아파치 Hadoop 0.20.2Apache hadoop 1.0.3IBM biginsights 2.0Cloudera cdh3cloudera CDH4 mrv1hortonworks
데이터 플랫폼 1. XIBM SPSS 분석 서버 설치 구성
분석 서버를 설치 하기 전에 먼저 Hadoop 환경 설치 또는 다음 구성 정보를 확인 하는 동안 사용 가능한 하 둡 환경을가지고 있는지 확인:
IBM SPSS 분석 서버 HDFS
directorynamenode servernamenode portjobtracker serverjobtracker 포트
루트
우리는 두 가지 방법으로이 정보를 얻을 수 있습니다.
모드 하나:
분석 서버 이전이 Hadoop 환경에 설치 된, 경우 기존 분석 서버 설치 경로 찾아서 구성 파일에서 필요한 정보를 얻을. 예를 들어 우리 수/qatest/애/dlg6140-9a9b/ae_wlpserver/usr/서버/aeserver/구성/아래 분석 서버 설치 경로 Config.properties 파일에는 다음 정보가 들어 있습니다.
Root.folder.path=/user/hduser/ae/analytic-rootroothdfs.namenode.url= hdfs://svs3aeqa20: 54310/사용자/hduser/ae mapred.job.tracker=svs3aeqa20:54311
그래서,
'IBM SPSS 분석 서버 HDFS 루트 디렉터리' = / 사용자/hduser/ae/분석-루트 'namenode 서버' Svs3aeqa20 = ' Namenode '54310' jobtracker 서버 'svs3aeqa20 =' jobtracker 포트 =' 포트 54300
=
모드 2:
Namenode 서버에서 구성 정보를 가져옵니다. Hadoop 사용자 이름은 HDUser 가정, 분석 서버 루트에 / 사용자/hduser/ae/분석-루트를 설정할 수 있습니다.
또한, "Namenode 포트" the/data/hadoop/hadoop-1.0.3/conf/core-site.xml 파일에 대 한 검색 in/data/hadoop/hadoop-1.0.3/conf/ Mapred-site.xml 파일에서 "Jobtracker 포트"에 대 한 검색. 예를 들어:
< 속성 >< 이름 > fs.default.name < / 이름 >< 값 > hdfs://svs3qa05:54310 < / 값 > < 설명 > < / 설명 >< / 속성 >< 속성 >< 이름 > mapred.job.tracker < / 이름 >< 값 > svs3qa05:54311 < / 값 >< 설명 & gt < / 설명 >< / 속성 >
그래서,
'Namenode '54310 =' jobtracker 포트' 54300
=
위의 구성 정보를 받은 후 분석 서버를 설치 하려면 다음이 단계를 수행:
분석 서버 프로그램 설치 파일 Install.bin를 실행 합니다. 사용권 계약을 검토 하 고 설치를 계속 하려면 계약에 동의 합니다. 사용자 인증입니다. 현재 사용자 Hadoop namenode 서버에 사용자와 일치 하는 경우 설치를 계속 합니다. 설치 경로 선택 하 고 요청 시스템에 파일을 설치 합니다. 분석 서버 옵션 구성: 관리자 계정 이름. 기본값은 관리자 콘솔의 분석 서버 응용 프로그램에 대 한 수퍼유저 관리자 권한이 있는 사용자 이름입니다. 키 저장 암호입니다. 키 저장 분석 서버 데이터베이스에 저장 된 데이터 소스를 암호화 하는 데 사용 되는 암호화 키를 저장 합니다. 자동으로 Hadoop 버전을 검색합니다. 그렇다면, Hadoop namenode 서버 컴퓨터 이름 또는 IP 주소를 지정 하 고 Hadoop 분석 서버가 설치 된 동일한 컴퓨터에 있으면 서버 이름으로 localhost를 사용. 설치 확인 합니다 Hadoop의 버전을 설치 하 고 Hadoop 자료에서 필요한 파일을 수집에 그림 3과 같이. 그림 3입니다. Hadoop 버전
를 자동으로 검색
분석 서버 설치 Hadoop namenode 서버에 연결할 수 없습니다 또는 단순히 아니요를 선택 하는 경우 목록에서 Hadoop 서버 버전을 선택, Hadoop 출시에 필요한 파일의 위치 지정 또는 수동으로 파일 복사 후, 그림 4와 같이 표시.
그림 4. Hadoop 연결 실패 Hadoop 매개 변수 구성 Hadoop 사용자 이름: 분석 서버를 실행 하는 UNIX 사용자 이름. 비밀 번호: Hadoop 사용자 이름 암호입니다. 분석 서버 루트:이 경로 분석 서버는 작업 영역을 설정 하 고 Hadoop 노드에 배포 되는 실행 파일을 저장 하는 위치입니다. Namenode 서버: hdfs namenode 서버 컴퓨터 이름 또는 IP 주소입니다. Namenode의 포트: namenode 서버 포트 번호. Jobtracker 서버: hadoop jobtracker 서버 컴퓨터 이름 또는 IP 주소입니다. Jobtracker 포트: jobtracker 프로그램의 포트 번호. 설치 완료 페이지에서 설치를 완료 한 후 우리는 분석 서버 설치 및 구성 단계를 모두 완료 여부를 얻을 수 있습니다: 분석 서버를 완전히 설치 하 고 모든 구성 단계를 완료 하는 경우 다음 hdfsupdate.sh 되었습니다 실행, 8 단계를 직접 진행할 수 있습니다. 구성 단계 중 일부를 하지 않은 경우, 그림 5와 같이 완료 되었습니다. 그림 5 설치 완료
우리는 다음 정보를 확인 해야 합니다.
하나를 확인 합니다.
오픈 / 다음 매개 변수 값이 올바른 경우 잘못 된, 확인 하는 < as_root > /ae_wlpserver/usr/servers/aeserver/configuration/config.properties 수동으로 수정 하 고 직접 저장 합니다. 어디, < as_root > 분석 서버를 배포 하는 폴더를 나타냅니다.
Root.folder.path;as.root.folder;hdfs.namenode.url;hdfs.user;hdfs.classpath.folder;mapred.job.tracker;
2 확인:
오픈 / < as_root > /ae_wlpserver/usr/servers/aeserver/apps/ae_boot.war/web-inf/lib 및 확인 모든 필요한 Hadoop 파일 올바르게 추가 됩니다. 누락 된 Hadoop 파일 경우 수동으로 위의 경로에 모든 누락 된 파일을 복사 합니다. 변경 내용을 마지막으로 확인 하는 검사 실행 위의 정보는 정확 하 고, 설치 파일을 업데이트 하는 < as_root > /bin/hdfsupdate.sh /.
실행/분석 서버 12 다음 페이지를 부팅 하는 < as_root > /bin/start.sh