왜 R 언어를 결합 하는 둡 게?
R 언어와 Hadoop 우리 모두 기술 각 분야에서 강력한 지를 실현 하자. 많은 http://www.aliyun.com/zixun/aggregation/7155.html "> 개발자 컴퓨터의 관점에서 다음과 같은 2 가지 질문을 물어볼 것입니다. 문제 1:hadoop 가족은 너무 강력 하다, 당신은 왜 R 언어를 결합 하 시겠습니까?
문제 2:mahout 수 있습니다 또한 데이터 마이닝 기계 학습, 그리고 R 언어 차이 무엇? 여기 내가 뭘 하려고 있다: 질문 1:hadoop의 가족은 너무 강력 하다, 당신은 왜 R 언어를 결합 하 시겠습니까?
A. Hadoop 가족의 힘은 그 대용량 데이터의 처리를 가능 하 게 원래 불가능 하 게 (TB, PB 데이터).
B. R 언어는 강력 하 고, 통계 분석, 우리 아무 hadoop를 하기 전에, 우리는 샘플, 가설 검증, 회귀 하 려 대형 데이터 처리, R 언어 통계학자의 독점적인 도구 오래 되었습니다.
C. A와 b 2에서 우리는 Hadoop에 초점을 맞추고 총 데이터 분석, R 언어 샘플 데이터 분석에 초점을 맞추고 있지만 볼 수 있습니다. 두 가지 기술을 함께, 그냥 긴 짧은!
D. 시뮬레이션 시나리오: 미래 트래픽 변화를 예측 하기 1PB 뉴스 웹 액세스 로그의 분석
D1: R 언어에서 작은 양의 데이터를 분석 하 여 회귀 모델은 비즈니스 목표에 대 한 고 d 2 인덱스 정의: Hadoop을 사용 하 여 대규모 로그 데이터 d 3에서 인덱스 데이터를 추출: R 언어 모델을 사용 하 여 테스트 하 고 조정 인덱스 데이터 d4: R 언어 모델을 다시 작성 Hadoop 단계별 알고리즘을 사용 하 여 온라인 시나리오, R와 Hadoop의 배포는 매우 중요 한 역할을 한다. 컴퓨터 개발자의 아이디어와 모든 것 들 데이터 모델링 및 증명, "예측의 결과" 문제가 여야 없이 hadoop, 완료 됩니다. 통계학자의 아이디어, 모든 것 들을 샘플링 하면 r, "예상 결과" 문제가 되어야 합니다. 따라서, 2의 조합 산업, 뿐만 아니라 무제한 상상력 공간을 제공 하는 학 제 재능에 대 한 뿐만 아니라 산업 및 학계의 교차로의 피할 수 없는 방향 이다. 문제 2:mahout 수 있습니다 또한 데이터 마이닝 기계 학습, 그리고 R 언어 차이 무엇?
A. mahout 데이터 마이닝 및 기계 학습 기반 Hadoop, 알고리즘 프레임 워크 이며 mahout의 초점은 큰 데이터를 계산의 문제를 해결 하기 위해.
B. Mahout 현재 지원 알고리즘 협업 필터링, 추천 알고리즘, 클러스터링 알고리즘, 분류 알고리즘, LDA, Naive Bayes, 임의의 숲 포함 됩니다. 위의 알고리즘에는 알고리즘의 대부분 거리 매트릭스에 의해 분해 될 수 있다, MapReduce 병렬 컴퓨팅 프레임 워크, 효율적인 준공 컴퓨팅 작업을 충분히 활용.
C. mahout 빈, 많은 데이터 마이닝 알고리즘에는, 그것은 mapreduce 병렬화를 달성 하기 어렵다입니다. Mahout의 기존 모델, 모두의 일반적인 모델은, 결과 무작위 결과 보다 약간 더만 프로젝트에 직접 사용 됩니다. Mahout 두 개발 필요는 깊은 자바와 Hadoop 기술 기반, 가령, "선형 대 수", "확률 통계", "알고리즘 소개" 및 다른 기본적인 지식. 그래서 그것 아니다 정말 놀 Mahout 쉬운 일.
D. R 언어 또한 약 (독점 알고리즘)를 제외 하 고 Mahout에 의해 지원 되는 알고리즘의 대부분을 제공 하 고 mahout에 지원 되지 않는 알고리즘의 많은 수를 또한 지원 그리고 알고리즘 mahout 보다 더 빠르게 성장. 그리고 간단 하 고 유연한 매개 변수 구성, 작은 데이터 집합 작업 속도의 개발은 매우 빠르다.
Mahout은 또한 데이터 마이닝을 할 수 있고 기계 학습, 비록 R 언어에서 전문 분야와 일치 하지 않습니다. 적절 한 기술을 선택 하는 적절 한 지역에는 긴 설정된 백 수 정말 "품질 및 수량" 할 소프트웨어.
Hadoop R 언어를 결합 하 여 어떻게 해야 합니까?
이전 섹션에서 우리는 Hadoop 및 R 언어, 서로 보완 수 하지만 설명한 시나리오 Hadoop 및 R 언어에 대 한 개별 데이터는 보았다. 일단 시장 수요에서, 기업 자연스럽 게이 공 허를 채울 것입니다.
1). Rhadoop
Rhadoop는 Hadoop 및 R Revolutionanalytics와 GitHub 커뮤니티를 오픈 소스 코드에 의해 개발 된 언어의 조합 이다. Rhadoop MapReduce와 HDFS, HBase 3 부품 Hadoop 시스템의 프레임 워크에서 각각 3 R 팩 (Rmr, rhdfs, rhbase)를 포함합니다.
2. Rhiverhive NEXR에서 한국 회사에 의해 개발 된 R 언어를 통해 하이브를 직접 액세스를 위한 도구 키트입니다.
3. 재작성 mahout R 언어 mahout을 재 작 성 하는 또한 아이디어의 조합, 관련된 시도 했.
4)입니다. Hadoop 호출 R
Hadoop, 호출 하는 방법에 대 한 모든 이며 물론 우리 역 작동 자바와 r 연결 채널 수와 Hadoop R의 함수를 호출 하 게 합니다. 그러나,이 부분은 형성 제품을 만드는 비즈니스는 없습니다.
5. 연구와 실제 사례에서 Hadoop
R와 Hadoop의 조합, 기술 임계값은 여전히 조금 높은입니다. 뿐만 아니라 한 사람, 마스터 리눅스, 자바, Hadoop, R 기술, 소프트웨어 개발, 알고리즘, 확률 통계, 선형 대 수, 데이터 시각화, 업계 배경, 기본 품질의 일부도 하지만. 회사에서이 환경 배포는 또한 다양을 한 부서, 다양 한 재능의 조화를 요구 한다. Hadoop 작업 Hadoop 알고리즘 개발, R 언어 모델링, R 언어 MapReduce, 소프트웨어 개발, 테스트, 등등. 그래서 하지 너무 많은 경우가 있습니다.
원본 링크: http://www.36dsj.com/archives/6468