Time of Update: 2018-07-24
梯度迭代樹迴歸 演算法簡介: 梯度提升樹是一種決策樹的整合演算法。它通過反覆迭代訓練決策樹來最小化損失函數。決策樹類似,梯度提升樹具有可處理類別特徵、易擴充到多分類問題、不需特徵縮放等性質。Spark.ml通過使用現有decision tree工具來實現。
Time of Update: 2018-07-24
隨機森林分類器: 演算法簡介: 隨機森林是決策樹的整合演算法。隨機森林包含多個決策樹來降低過擬合的風險。隨機森林同樣具有易解釋性、可處理類別特徵、易擴充到多分類問題、不需特徵縮放等性質。 隨機森林分別訓練一系列的決策樹,所以訓練過程是並行的。因演算法中加入隨機過程,所以每個決策樹又有少量區別。通過合并每個樹的預測結果來減少預測的方差,提高在測試集上的效能表現。
Time of Update: 2018-07-24
參考: http://blog.csdn.net/nieson2012/article/details/51279332 http://www.cnblogs.com/wentingtu/archive/2011/12/22/2297405.html http://www.cnblogs.com/pinard/p/6156009.html 演算法描述: 1、載入資料(訓練資料和測試資料),假設訓練集總數為N個。 2、去除掉資料集中的某些特徵項(無用的特徵)。
Time of Update: 2018-07-24
Python提供兩種格式化方法 % 和format。 1.通過%格式化字串 Python的%格式化字串方式類似於C語言中的printf()函數。 (1)格式化輸出一個Tuple。 (2)格式化輸出一個Dict。 2.通過format格式化字串 format通過{}和:來代替%。具體來說,分為通過映射(帶{})來格式化和通過格式限定符 ({}中帶:)格式化。 2.1 通過映射格式化
Time of Update: 2018-07-24
根據官方文檔(http://www.python-requests.org/en/master/)介紹,Requests允許自動發送HTTP請求,而不需要手動在URL地址中添加查詢字串或對要提交的資料手動編碼。Requests可以保持時刻線上和HTTP串連池自動化,最新版的Requests中已經內嵌urllib3,可以很方便地進行資料擷取和處理。 1.Requests基礎介紹 首先以github為例,簡單展示下怎麼通過Requests擷取使用者資訊
Time of Update: 2018-07-24
最近有頻繁用到python來處理資料和實現演算法,但遺憾的是自己的Python基礎還是不夠紮實,有不少知識點還需要臨時去查。今天花一晚上的時間來重新溫習下Python基礎,以供以後查閱。 1.Python資料類型: (1)元組(Tuple)&列表(List):元組和列表都是一系列Python資料類型按照順序組成的序列。如(1,‘abc’,0.5)是一個包含三個元素的元組。[1,’abc’,0.5]是一個典型的列表。可以通過索引的方式尋找元組或列表中的元素。
Time of Update: 2018-07-24
1.英文文檔詞頻統計 英文文檔詞頻以英文原著愛麗絲夢遊仙境為例,統計每個詞在整部小說中出現的頻率,並按詞頻從大到小進行排序。由於整本書所包含單詞較多,為了便於展示,只輸出詞頻大於10的單詞。 代碼如下所示: # -*- coding: utf-8 -*-"""Created on Thu Jun 15 21:13:17 2017@author: zch"""import string#讀取英文原著alicepath = 'E:
Time of Update: 2018-07-24
1.網路資料擷取是一種通過多種手段收集網路資料的方式。最常用的方法是寫一個自動化程式向網路伺服器請求資料(通常是用HTML表單或其他網頁檔案),然後是對資料進行解析,提取所需要的資訊。 2.網路爬蟲工作流程: (1)通過網站網域名稱擷取HTML資料; (2)根據目標資訊解析資料; (3)儲存目標資訊; (4)如有必要,轉到另一個頁面重複上述過程。 3.Regex: (1)正則字串:任意可以用一系列線性規則構成的字串。
Time of Update: 2018-07-24
Spark機器學習MLlib系列1(for python)--資料類型,向量,分布式矩陣,API 關鍵詞:Local vector,Labeled point,Local matrix,Distributed matrix,RowMatrix,IndexedRowMatrix,CoordinateMatrix,BlockMatrix。 前言:MLlib支援本地向量和儲存在單機上的矩陣,當然也支援被儲存為RDD的分布式矩陣。一個有監督的機器學習的例子在MLlib裡面叫做標籤點。 1.
Time of Update: 2018-07-24
今天碰到一個需求,要求讀取一個包含多行數位TXT文檔,對每行數字進行排序之後,再寫入到一個新的TXT文檔中。該需求雖然不難解決,但在實際處理過程中,碰到了不少坑,在這裡記錄一下,以供參考。 1.讀取文字文件: 如下圖所示: 2.實現代碼: # -*- coding: utf-8 -*-"""Created on Tue Mar 28 19:48:58 2017@author:
Time of Update: 2018-07-24
本文主要用BeautifulSoup來爬取豆瓣Top電影資訊。軟體環境基於Anaconda3+python3.5 具體代碼如下所示: # -*- coding: utf-8 -*-"""Created on Sun Mar 26 21:37:18 2017@author: zch"""import urllib.request import re from bs4 import BeautifulSoup import
Time of Update: 2018-07-24
交叉驗證 方法思想: CrossValidator將資料集劃分為若干子集分別地進行訓練和測試。如當k=3時,CrossValidator產生3個訓練資料與測試資料對,每個資料對使用2/3的資料來訓練,1/3的資料來測試。對於一組特定的參數表,CrossValidator計算基於三組不同訓練資料與測試資料對訓練得到的模型的評估準則的平均值。確定最佳參數表後,CrossValidator最後使用最佳參數表基於全部資料來重新擬合估計器。
Time of Update: 2018-07-24
1.Python網頁解析器 1.1網頁解析器簡介 網頁解析器是HTML網頁中提取出“有價值資料”或“新URL連結”的工具。 網頁解析流程如下圖所示: 1.2 Python網頁解析器 常見的Python網頁解析器主要有Regex(re)、Python內建的html.parser、第三方庫BeautifulSoup和lxml四種。
Time of Update: 2018-07-24
最近因為經常要爬取網站資料,需要頻繁用到BeautifulSoup,但自己現在掌握的並不是特別熟練,就在這裡梳理下BeautifulSoup的各項用法,以供以後參考。本文的測試資料來自BeautifulSoup的官方文檔:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html 1.BeautifulSoup基本用法 1.1 BeautifulSoup介紹
Time of Update: 2018-07-24
Scrapy是一個快速的螢幕抓取和web抓取架構,用於抓取web網站並從頁面中提取結構化的資料。Scrapy用途廣泛,可以用於資料採礦、輿情監測和自動化測試。 1. Scrapy簡介 1.1 Scrapy整體架構 1.2 Scrapy組成部分 (1)引擎(Scrapy Engine):用來處理整個系統的資料流處理,觸發事務。
Time of Update: 2018-07-24
Flask是一個使用Python編寫的輕量級Web應用程式框架。其 WSGI(Web Server Gateway Interface) 工具箱採用 Werkzeug ,模板引擎則使用 Jinja2 。其操作靈活、簡單易學的特性,尤其適合初學者快速瞭解Python web開發架構。本文主要以一個簡單案例來介紹Flask的特性。 1.安裝調試Flask 1.1 Flask的安裝 Windows
Time of Update: 2018-07-24
系列(二)中,對於SMO演算法中有一個重要的代碼:計算樣本的預測類別。如下: fXi = float(multiply(alphas,labelMat).T*(dataMatrix*dataMatrix[i,:].T)) + b # 第i樣本的預測類別 我們知道原始的預測類別計算公式是用決策面的參數w和b表示的,那麼為什麼這裡的貌似不一樣呢。 原始的預測類別計算公式為: 其中w可以表示為: 然後分類函數可以轉化為:
Time of Update: 2018-07-24
良/惡性腫瘤預測問題屬於典型的二分類問題,本文採用LR分類器來預測未知腫瘤患者的分類 import pandas as pd# 調用pandas工具包的read_csv函數模組,傳入訓練檔案地址參數,# 擷取返回資料並存在變數df_train、df_train = pd.read_csv('E:\JavaCode\machinelearn\Datasets\Breast-Cancer\\breast-cancer-train.csv')#
Time of Update: 2018-07-24
本人python編譯器用的3.4.3版本,奈何現有的代碼大都是基於2.X的,故在參考之前的代碼時經常會遇到相容性問題,此次就把平時遇到的問題記錄一下,權當總結。以後如再遇到新的問題,再一一添加: 1.print 和 print() 在python2.X中,想要輸出,可以直接使用print:如print 'hello,world!'而在python3.x中,print被當做一個函數,必須要這樣才行:![這裡寫圖片描述](https://img-blog.csdn.net/201512181
Time of Update: 2018-07-24
本文通過一種簡單的方式來抓取華為終端官方微博的內容資訊。首先抓取登入微博的cookie,然後使用cookie來登入微博。 具體的代碼如下所示: # -*- coding: utf-8 -*-"""Created on Sun Apr 16 14:16:32 2017@author: zch"""import requestsfrom bs4 import BeautifulSoupimport timeimport pandas