機器學習之路: python 決策樹分類 預測泰坦尼克號乘客是否倖存

來源:互聯網
上載者:User

標籤:決策   ica   pytho   cal   cto   特徵   read   平均數   action   

 

 

使用python3 學習了決策樹分類器的api

涉及到 特徵的提取,資料類型保留,分類類型抽取出來新的類型

需要網上下載資料集,我把他們下載到了本地,

可以到我的git下載代碼和資料集: https://github.com/linyi0604/MachineLearning

 

 1 import pandas as pd 2 from sklearn.cross_validation import train_test_split 3 from sklearn.feature_extraction import DictVectorizer 4 from sklearn.tree import DecisionTreeClassifier 5 from sklearn.metrics import classification_report 6  7 ‘‘‘ 8 決策樹 9 涉及多個特徵,沒有明顯的線性關係10 推斷邏輯非常直觀11 不需要對資料進行標準化12 ‘‘‘13 14 ‘‘‘15 1 準備資料16 ‘‘‘17 # 讀取泰坦尼克乘客資料,已經從互連網下載到本地18 titanic = pd.read_csv("./data/titanic/titanic.txt")19 # 觀察資料發現有缺失現象20 # print(titanic.head())21 22 # 提取關鍵特徵,sex, age, pclass都很有可能影響是否倖免23 x = titanic[[‘pclass‘, ‘age‘, ‘sex‘]]24 y = titanic[‘survived‘]25 # 查看當前選擇的特徵26 # print(x.info())27 ‘‘‘28 <class ‘pandas.core.frame.DataFrame‘>29 RangeIndex: 1313 entries, 0 to 131230 Data columns (total 3 columns):31 pclass    1313 non-null object32 age       633 non-null float6433 sex       1313 non-null object34 dtypes: float64(1), object(2)35 memory usage: 30.9+ KB36 None37 ‘‘‘38 # age資料列 只有633個,對於空缺的 採用平均數或者中位元進行補充 希望對模型影響小39 x[‘age‘].fillna(x[‘age‘].mean(), inplace=True)40 41 ‘‘‘42 2 資料分割43 ‘‘‘44 x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25, random_state=33)45 # 使用特徵轉換器進行特徵抽取46 vec = DictVectorizer()47 # 類型的資料會抽離出來 資料型的會保持不變48 x_train = vec.fit_transform(x_train.to_dict(orient="record"))49 # print(vec.feature_names_)   # [‘age‘, ‘pclass=1st‘, ‘pclass=2nd‘, ‘pclass=3rd‘, ‘sex=female‘, ‘sex=male‘]50 x_test = vec.transform(x_test.to_dict(orient="record"))51 52 ‘‘‘53 3 訓練模型 進行預測54 ‘‘‘55 # 初始化決策樹分類器56 dtc = DecisionTreeClassifier()57 # 訓練58 dtc.fit(x_train, y_train)59 # 預測 儲存結果60 y_predict = dtc.predict(x_test)61 62 ‘‘‘63 4 模型評估64 ‘‘‘65 print("準確度:", dtc.score(x_test, y_test))66 print("其他指標:\n", classification_report(y_predict, y_test, target_names=[‘died‘, ‘survived‘]))67 ‘‘‘68 準確度: 0.781155015197568469 其他指標:70               precision    recall  f1-score   support71 72        died       0.91      0.78      0.84       23673    survived       0.58      0.80      0.67        9374 75 avg / total       0.81      0.78      0.79       32976 ‘‘‘

 

機器學習之路: python 決策樹分類 預測泰坦尼克號乘客是否倖存

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.