Mahout 알고리즘 캐노피 소스 분석: 입력 데이터

출처: 인터넷
작성자: 사용자
키워드: nbsp 알고리즘 자바 얼굴
캐노피 입력된 데이터 키: 텍스트, 하면서 순차 파일의 형태에 있이 필요가 대 한 http://www.aliyun.com/zixun/aggregation/9541.html "> 값: vectorwritable입니다. 지난 밤 입력 데이터를 준비 하는 간단한 Java 프로그램을 사용 하 여 준비 하지만 항상 문제가 될 것입니다, 그리고 "찾을 수 없습니다 파일" 잠시 어젯밤의 문제 이유 찾지.

사실, 입력된 데이터를 얻을 하려는 경우 당신은 사용 복사할 수 있습니다 Mahout 공식 웹사이트에서 제공 하는 방법 Mahout-유통-0.7.zip 가상 컴퓨터에 직접 시퀀스의 *.txt 파일을 지 고 후 (/ 등 / 다음 hadoop_home 변수를 구성 하려면 프로필) Mahout_home/bin 디렉터리를 찾아 다음, chmod를 수행 + mahout, x 다음 각각 수행

[파이썬] 볼 plaincopy. / mahout seqdirectory-i < 입력 >-o < 출력 > [파이썬] 볼 plaincopy. / mahout SE Q2sparse-i < 출력 > / 청크-0-o < 출력->

위의 < 입력 >, < 출력 > 자체 입력 및 출력에 해당 하는, 내가 사용 하는 데이터는 로이터 데이터 집합 하지만 상위 3의 전체 데이터: REUT2 000.SGM, REUT2-001.SGM, REUT2-002.SGM, Extractreuters 3000 파일을 후 이러한 데이터 Seqdirectory 2.41 M 데이터 파일로 병합 후 다음. Seq2sparse 7 작업, 각 작업은 자체 콘텐츠,이 임시 분석에서 < 출력-> 최종 결과 대 한 책임/tfidf-벡터, 즉, 입력 데이터;

입력된 데이터와 함께 실행할 수 있습니다 프로그램을 먼저, 어떤 프로그램 같습니다 먼저 말을 하면 실행에:

[Java] 보기 plaincopy 패키지 mahout.test.canopy; 가져오기 java.io.ioexception; org.apache.hadoop.conf.configuration, org.apache.hadoop.fs.path 가져오기; 가져오기 가져오기 org.apache.mahout.clustering.canopy.CanopyDriver; 가져오기 org.apache.mahout.common.distance.distancemeasure; 가져오기 org.apache.mahout.common.distance.euclideandistancemeasure; 공용 클래스 canopytest 없음 공공 정적 무효 메인 (문자열 args) throw classnotfoundexception, ioexception, interruptedexception 없음 구성 conf = 새로운 구성 (); Conf.set (" Mapred.job.tracker "," 192.168.128.138:9001 "); 경로 입력 새로운 경로 (= "Hdfs://hadoop:9000/사용자/둡/출력/canopyvec/tfidf-벡터"); 개 경로넣어 = 새로운 경로 ("Hdfs://hadoop:9000/사용자/둡 / / 캐노피 출력"); Distancemeasure 측정 = 새로운 euclideandistancemeasure (); Canopydriver.buildclusters (conf, 입력, 출력, 측정, 33.1, 22.1, 3, False); SYSTEM.OUT.PRINTLN ("작업이 수행 됩니다."); }}

내 T1, T2 3.1, 설정의 시작 부분에서 결과에서 2.1 결과 지도 0 (이 무슨 뜻인지 알려져 있지 않다), 509 레코드의 지도 출력의 결과를 보고 후 변경 Reduece 출력 3 레코드 (매개 변수 Clusterfileter의 설정된 값: 3), 최종 출력: canopy-output/clusters-0-final/part-r-00000.

그래서 위의 데이터와 그들의 자신의 데이터를 사용 하 여 입력된 데이터의 형식을 알고 첫 번째 필요 하기 전에 데이터를 만드는 데 사용 하지 마십시오 다음의 관측을 촉진 하기 위하여 다음 입력된 데이터를 보기 위해 다음 코드를 사용.

[Java] 보기 plaincopy 패키지 mahout.test.utils;  가져오기 java.io.IOException;  가져오기 org.apache.hadoop.conf.Configuration;  가져오기 Org.apache.hadoop.fs.Path;  가져오기 Org.apache.hadoop.io.Text;  가져오기 Org.apache.hadoop.mapreduce.Job;  가져오기 Org.apache.hadoop.mapreduce.Mapper;  가져오기 Org.apache.hadoop.mapreduce.lib.input.SequenceFileInputFormat;  가져오기 Org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;  가져오기 Org.apache.hadoop.util.ToolRunner; 가져오기 Org.apache.mahout.common.AbstractJob;
관련 문서

연락처

이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이 페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.

커뮤니티에서 표절 사례를 발견한 경우 info-contact@alibabacloud.com 으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.