python 讀取文本

來源:互聯網
上載者:User

標籤:

將文本轉換到NumPy 數組中,做機器學習或其他任何任務,文本處理的技能必不可少。python 實現實現了很精簡強大的文本處理功能:

假設 檔案 traindata.csv 中有資料 1000行,3列特徵,第四列(最後一列)為類標籤

1. 基本方法:

def file2matrix():    dataMat = []    labelMat = []    fr = open(‘./traindata.csv‘,‘rb‘)  
   fr.readline() for line in fr.readlines(): #讀取每一行
    curLine = line.strip().split(‘\t‘)
    lineArr = []
    for i in range(3):
      lineArr.append(float(curLine[i])) # 讀取每個屬性
    dataMat.append(lineArr)
    labelMat.append(float(curLine[3]))
  return dataMat,labelMat

2. 使用csv模組

import csvdef file2Matrix():     fr = open(‘./traindata‘,‘rb‘)     lines = csv.reader(fr)   lines.next()  // 忽略第一行     for line in lines:           ....

 

3. 使用pandas 模組

import pandas as pddef file2Matrix():    fr = open(‘./traindata.csv‘,‘rb‘)    df = pd.read_csv(fr,header=0)    dataMat = df[[‘feature1‘,‘feature2‘,‘feature3‘]]    labelMat = df[‘label‘]    return dataMat,labelMat

很明顯,如果熟練掌紋pandas 將會很簡單,so easy.

紙上得來終覺淺,絕知此事要躬行....

just do it!

 

python 讀取文本

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.