標籤:
將文本轉換到NumPy 數組中,做機器學習或其他任何任務,文本處理的技能必不可少。python 實現實現了很精簡強大的文本處理功能:
假設 檔案 traindata.csv 中有資料 1000行,3列特徵,第四列(最後一列)為類標籤
1. 基本方法:
def file2matrix(): dataMat = [] labelMat = [] fr = open(‘./traindata.csv‘,‘rb‘)
fr.readline() for line in fr.readlines(): #讀取每一行
curLine = line.strip().split(‘\t‘)
lineArr = []
for i in range(3):
lineArr.append(float(curLine[i])) # 讀取每個屬性
dataMat.append(lineArr)
labelMat.append(float(curLine[3]))
return dataMat,labelMat
2. 使用csv模組
import csvdef file2Matrix(): fr = open(‘./traindata‘,‘rb‘) lines = csv.reader(fr) lines.next() // 忽略第一行 for line in lines: ....
3. 使用pandas 模組
import pandas as pddef file2Matrix(): fr = open(‘./traindata.csv‘,‘rb‘) df = pd.read_csv(fr,header=0) dataMat = df[[‘feature1‘,‘feature2‘,‘feature3‘]] labelMat = df[‘label‘] return dataMat,labelMat
很明顯,如果熟練掌紋pandas 將會很簡單,so easy.
紙上得來終覺淺,絕知此事要躬行....
just do it!
python 讀取文本