캐노피 입력된 데이터 키: 텍스트, 하면서 순차 파일의 형태에 있이 필요가 대 한 http://www.aliyun.com/zixun/aggregation/9541.html "> 값: vectorwritable입니다. 지난 밤 입력 데이터를 준비 하는 간단한 Java 프로그램을 사용 하 여 준비 하지만 항상 문제가 될 것입니다, 그리고 "찾을 수 없습니다 파일" 잠시 어젯밤의 문제 이유 찾지.
사실, 입력된 데이터를 얻을 하려는 경우 당신은 사용 복사할 수 있습니다 Mahout 공식 웹사이트에서 제공 하는 방법 Mahout-유통-0.7.zip 가상 컴퓨터에 직접 시퀀스의 *.txt 파일을 지 고 후 (/ 등 / 다음 hadoop_home 변수를 구성 하려면 프로필) Mahout_home/bin 디렉터리를 찾아 다음, chmod를 수행 + mahout, x 다음 각각 수행
[파이썬] 볼 plaincopy. / mahout seqdirectory-i < 입력 >-o < 출력 > [파이썬] 볼 plaincopy. / mahout SE Q2sparse-i < 출력 > / 청크-0-o < 출력->
위의 < 입력 >, < 출력 > 자체 입력 및 출력에 해당 하는, 내가 사용 하는 데이터는 로이터 데이터 집합 하지만 상위 3의 전체 데이터: REUT2 000.SGM, REUT2-001.SGM, REUT2-002.SGM, Extractreuters 3000 파일을 후 이러한 데이터 Seqdirectory 2.41 M 데이터 파일로 병합 후 다음. Seq2sparse 7 작업, 각 작업은 자체 콘텐츠,이 임시 분석에서 < 출력-> 최종 결과 대 한 책임/tfidf-벡터, 즉, 입력 데이터;
입력된 데이터와 함께 실행할 수 있습니다 프로그램을 먼저, 어떤 프로그램 같습니다 먼저 말을 하면 실행에:
[Java] 보기 plaincopy 패키지 mahout.test.canopy; 가져오기 java.io.ioexception; org.apache.hadoop.conf.configuration, org.apache.hadoop.fs.path 가져오기; 가져오기 가져오기 org.apache.mahout.clustering.canopy.CanopyDriver; 가져오기 org.apache.mahout.common.distance.distancemeasure; 가져오기 org.apache.mahout.common.distance.euclideandistancemeasure; 공용 클래스 canopytest 없음 공공 정적 무효 메인 (문자열 args) throw classnotfoundexception, ioexception, interruptedexception 없음 구성 conf = 새로운 구성 (); Conf.set (" Mapred.job.tracker "," 192.168.128.138:9001 "); 경로 입력 새로운 경로 (= "Hdfs://hadoop:9000/사용자/둡/출력/canopyvec/tfidf-벡터"); 개 경로넣어 = 새로운 경로 ("Hdfs://hadoop:9000/사용자/둡 / / 캐노피 출력"); Distancemeasure 측정 = 새로운 euclideandistancemeasure (); Canopydriver.buildclusters (conf, 입력, 출력, 측정, 33.1, 22.1, 3, False); SYSTEM.OUT.PRINTLN ("작업이 수행 됩니다."); }}
내 T1, T2 3.1, 설정의 시작 부분에서 결과에서 2.1 결과 지도 0 (이 무슨 뜻인지 알려져 있지 않다), 509 레코드의 지도 출력의 결과를 보고 후 변경 Reduece 출력 3 레코드 (매개 변수 Clusterfileter의 설정된 값: 3), 최종 출력: canopy-output/clusters-0-final/part-r-00000.
그래서 위의 데이터와 그들의 자신의 데이터를 사용 하 여 입력된 데이터의 형식을 알고 첫 번째 필요 하기 전에 데이터를 만드는 데 사용 하지 마십시오 다음의 관측을 촉진 하기 위하여 다음 입력된 데이터를 보기 위해 다음 코드를 사용.
[Java] 보기 plaincopy 패키지 mahout.test.utils; 가져오기 java.io.IOException; 가져오기 org.apache.hadoop.conf.Configuration; 가져오기 Org.apache.hadoop.fs.Path; 가져오기 Org.apache.hadoop.io.Text; 가져오기 Org.apache.hadoop.mapreduce.Job; 가져오기 Org.apache.hadoop.mapreduce.Mapper; 가져오기 Org.apache.hadoop.mapreduce.lib.input.SequenceFileInputFormat; 가져오기 Org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 가져오기 Org.apache.hadoop.util.ToolRunner; 가져오기 Org.apache.mahout.common.AbstractJob;