International - English

Topic Center

Contact Sales

Python

梯度迭代樹迴歸（GBDT）演算法原理及Spark MLlib調用執行個體（Scala/Java/python）__編碼

Time of Update: 2018-07-24

梯度迭代樹迴歸演算法簡介：梯度提升樹是一種決策樹的整合演算法。它通過反覆迭代訓練決策樹來最小化損失函數。決策樹類似，梯度提升樹具有可處理類別特徵、易擴充到多分類問題、不需特徵縮放等性質。Spark.ml通過使用現有decision tree工具來實現。

隨機森林（Random Forest）演算法原理及Spark MLlib調用執行個體（Scala/Java/python）__編碼

Time of Update: 2018-07-24

隨機森林分類器：演算法簡介：隨機森林是決策樹的整合演算法。隨機森林包含多個決策樹來降低過擬合的風險。隨機森林同樣具有易解釋性、可處理類別特徵、易擴充到多分類問題、不需特徵縮放等性質。隨機森林分別訓練一系列的決策樹，所以訓練過程是並行的。因演算法中加入隨機過程，所以每個決策樹又有少量區別。通過合并每個樹的預測結果來減少預測的方差，提高在測試集上的效能表現。

機器學習——隨機森林演算法randomForest——原理及python實現__演算法

Time of Update: 2018-07-24

參考： http://blog.csdn.net/nieson2012/article/details/51279332 http://www.cnblogs.com/wentingtu/archive/2011/12/22/2297405.html http://www.cnblogs.com/pinard/p/6156009.html 演算法描述： 1、載入資料（訓練資料和測試資料），假設訓練集總數為N個。 2、去除掉資料集中的某些特徵項（無用的特徵）。

Python基礎知識（2）——格式化字串__Python

Time of Update: 2018-07-24

Python提供兩種格式化方法 % 和format。 1.通過%格式化字串 Python的%格式化字串方式類似於C語言中的printf（）函數。（1）格式化輸出一個Tuple。（2）格式化輸出一個Dict。 2.通過format格式化字串 format通過{}和:來代替%。具體來說，分為通過映射（帶{}）來格式化和通過格式限定符（{}中帶:）格式化。 2.1 通過映射格式化

Python資料擷取之Requests__Python

Time of Update: 2018-07-24

根據官方文檔（http://www.python-requests.org/en/master/）介紹，Requests允許自動發送HTTP請求，而不需要手動在URL地址中添加查詢字串或對要提交的資料手動編碼。Requests可以保持時刻線上和HTTP串連池自動化，最新版的Requests中已經內嵌urllib3，可以很方便地進行資料擷取和處理。 1.Requests基礎介紹首先以github為例，簡單展示下怎麼通過Requests擷取使用者資訊

Python基礎知識總結(1)__Python

Time of Update: 2018-07-24

最近有頻繁用到python來處理資料和實現演算法，但遺憾的是自己的Python基礎還是不夠紮實，有不少知識點還需要臨時去查。今天花一晚上的時間來重新溫習下Python基礎，以供以後查閱。 1.Python資料類型：（1）元組（Tuple）&列表（List）：元組和列表都是一系列Python資料類型按照順序組成的序列。如（1，‘abc’，0.5）是一個包含三個元素的元組。[1,’abc’,0.5]是一個典型的列表。可以通過索引的方式尋找元組或列表中的元素。

Python基礎知識（3）——中英文文檔詞頻統計__Python

Time of Update: 2018-07-24

1.英文文檔詞頻統計英文文檔詞頻以英文原著愛麗絲夢遊仙境為例，統計每個詞在整部小說中出現的頻率，並按詞頻從大到小進行排序。由於整本書所包含單詞較多，為了便於展示，只輸出詞頻大於10的單詞。代碼如下所示： # -*- coding: utf-8 -*-"""Created on Thu Jun 15 21:13:17 2017@author: zch"""import string#讀取英文原著alicepath = 'E:

Python資料擷取1-BeautifulSoup__Python

Time of Update: 2018-07-24

1.網路資料擷取是一種通過多種手段收集網路資料的方式。最常用的方法是寫一個自動化程式向網路伺服器請求資料（通常是用HTML表單或其他網頁檔案），然後是對資料進行解析，提取所需要的資訊。 2.網路爬蟲工作流程：（1）通過網站網域名稱擷取HTML資料；（2）根據目標資訊解析資料；（3）儲存目標資訊；（4）如有必要，轉到另一個頁面重複上述過程。 3.Regex：（1）正則字串：任意可以用一系列線性規則構成的字串。

Spark機器學習MLlib系列１（for python）－－資料類型，向量，分布式矩陣，API

Time of Update: 2018-07-24

Spark機器學習MLlib系列１（for python）－－資料類型，向量，分布式矩陣，API 關鍵詞：Local vector，Labeled point，Local matrix，Distributed matrix，RowMatrix，IndexedRowMatrix，CoordinateMatrix，BlockMatrix。前言：MLlib支援本地向量和儲存在單機上的矩陣，當然也支援被儲存為RDD的分布式矩陣。一個有監督的機器學習的例子在MLlib裡面叫做標籤點。 1.

Python基礎之文本讀寫__Python

Time of Update: 2018-07-24

今天碰到一個需求，要求讀取一個包含多行數位TXT文檔，對每行數字進行排序之後，再寫入到一個新的TXT文檔中。該需求雖然不難解決，但在實際處理過程中，碰到了不少坑，在這裡記錄一下，以供參考。 1.讀取文字文件: 如下圖所示： 2.實現代碼: # -*- coding: utf-8 -*-"""Created on Tue Mar 28 19:48:58 2017@author:

Python爬蟲（1）——基於BeautifulSoup爬取豆瓣電影資訊__Python

Time of Update: 2018-07-24

本文主要用BeautifulSoup來爬取豆瓣Top電影資訊。軟體環境基於Anaconda3+python3.5 具體代碼如下所示： # -*- coding: utf-8 -*-"""Created on Sun Mar 26 21:37:18 2017@author: zch"""import urllib.request import re from bs4 import BeautifulSoup import

交叉驗證原理及Spark MLlib使用執行個體(Scala/Java/Python)

Time of Update: 2018-07-24

交叉驗證方法思想： CrossValidator將資料集劃分為若干子集分別地進行訓練和測試。如當k＝3時，CrossValidator產生3個訓練資料與測試資料對，每個資料對使用2/3的資料來訓練，1/3的資料來測試。對於一組特定的參數表，CrossValidator計算基於三組不同訓練資料與測試資料對訓練得到的模型的評估準則的平均值。確定最佳參數表後，CrossValidator最後使用最佳參數表基於全部資料來重新擬合估計器。

Python資料擷取之網頁解析器__Python

Time of Update: 2018-07-24

1.Python網頁解析器 1.1網頁解析器簡介網頁解析器是HTML網頁中提取出“有價值資料”或“新URL連結”的工具。網頁解析流程如下圖所示： 1.2 Python網頁解析器常見的Python網頁解析器主要有Regex（re）、Python內建的html.parser、第三方庫BeautifulSoup和lxml四種。

Python資料擷取之BeautifulSoup__Python

Time of Update: 2018-07-24

最近因為經常要爬取網站資料，需要頻繁用到BeautifulSoup，但自己現在掌握的並不是特別熟練，就在這裡梳理下BeautifulSoup的各項用法，以供以後參考。本文的測試資料來自BeautifulSoup的官方文檔：https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html 1.BeautifulSoup基本用法 1.1 BeautifulSoup介紹

Python資料擷取之Scrapy架構__Python

Time of Update: 2018-07-24

Scrapy是一個快速的螢幕抓取和web抓取架構，用於抓取web網站並從頁面中提取結構化的資料。Scrapy用途廣泛，可以用於資料採礦、輿情監測和自動化測試。 1. Scrapy簡介 1.1 Scrapy整體架構 1.2 Scrapy組成部分（1）引擎（Scrapy Engine）：用來處理整個系統的資料流處理，觸發事務。

Python Web架構之Flask（1）__Python

Time of Update: 2018-07-24

Flask是一個使用Python編寫的輕量級Web應用程式框架。其 WSGI（Web Server Gateway Interface）工具箱採用 Werkzeug ，模板引擎則使用 Jinja2 。其操作靈活、簡單易學的特性，尤其適合初學者快速瞭解Python web開發架構。本文主要以一個簡單案例來介紹Flask的特性。 1.安裝調試Flask 1.1 Flask的安裝 Windows

深入解析python版SVM源碼系列（三）——計算樣本的預測類別

Time of Update: 2018-07-24

系列（二）中，對於SMO演算法中有一個重要的代碼：計算樣本的預測類別。如下： fXi = float(multiply(alphas,labelMat).T*(dataMatrix*dataMatrix[i,:].T)) + b # 第i樣本的預測類別我們知道原始的預測類別計算公式是用決策面的參數w和b表示的，那麼為什麼這裡的貌似不一樣呢。原始的預測類別計算公式為：其中w可以表示為：然後分類函數可以轉化為：

Python機器學習-良/惡性腫瘤預測問題__Python

Time of Update: 2018-07-24

良/惡性腫瘤預測問題屬於典型的二分類問題，本文採用LR分類器來預測未知腫瘤患者的分類 import pandas as pd# 調用pandas工具包的read_csv函數模組，傳入訓練檔案地址參數，# 擷取返回資料並存在變數df_train、df_train = pd.read_csv('E:\JavaCode\machinelearn\Datasets\Breast-Cancer\\breast-cancer-train.csv')#

Python 2.X 和 3.X的區別__Python

Time of Update: 2018-07-24

本人python編譯器用的3.4.3版本，奈何現有的代碼大都是基於2.X的，故在參考之前的代碼時經常會遇到相容性問題，此次就把平時遇到的問題記錄一下，權當總結。以後如再遇到新的問題，再一一添加： 1.print 和 print（）在python2.X中，想要輸出，可以直接使用print：如print 'hello,world!'而在python3.x中，print被當做一個函數，必須要這樣才行：![這裡寫圖片描述](https://img-blog.csdn.net/201512181

Python爬蟲（2）——爬取微博內容__Python

Time of Update: 2018-07-24

本文通過一種簡單的方式來抓取華為終端官方微博的內容資訊。首先抓取登入微博的cookie，然後使用cookie來登入微博。具體的代碼如下所示： # -*- coding: utf-8 -*-"""Created on Sun Apr 16 14:16:32 2017@author: zch"""import requestsfrom bs4 import BeautifulSoupimport timeimport pandas

總頁數： 2974 1 .... 517 518 519 520 521 .... 2974 Go to: 前往

聯繫我們

該頁面正文內容均來源於網絡整理，並不代表阿里雲官方的觀點，該頁面所提到的產品和服務也與阿里云無關，如果該頁面內容對您造成了困擾，歡迎寫郵件給我們，收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容，歡迎發送郵件至： info-contact@alibabacloud.com 進行舉報並提供相關證據，工作人員會在 5 個工作天內聯絡您，一經查實，本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

Get Started for Free

Sales Support

1 on 1 presale consultation

Chat Contact Sales
After-Sales Support

24/7 Technical Support 6 Free Tickets per Quarter Faster Response

Open a Ticket
Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.

Learn More

Python

梯度迭代樹迴歸（GBDT）演算法原理及Spark MLlib調用執行個體（Scala/Java/python）__編碼

隨機森林（Random Forest）演算法原理及Spark MLlib調用執行個體（Scala/Java/python）__編碼

機器學習——隨機森林演算法randomForest——原理及python實現__演算法

Python基礎知識（2）——格式化字串__Python

Python資料擷取之Requests__Python

Python基礎知識總結(1)__Python

Python基礎知識（3）——中英文文檔詞頻統計__Python

Python資料擷取1-BeautifulSoup__Python

Spark機器學習MLlib系列１（for python）－－資料類型，向量，分布式矩陣，API

Python基礎之文本讀寫__Python

Python爬蟲（1）——基於BeautifulSoup爬取豆瓣電影資訊__Python

交叉驗證原理及Spark MLlib使用執行個體(Scala/Java/Python)

Python資料擷取之網頁解析器__Python

Python資料擷取之BeautifulSoup__Python

Python資料擷取之Scrapy架構__Python

Python Web架構之Flask（1）__Python

深入解析python版SVM源碼系列（三）——計算樣本的預測類別

Python機器學習-良/惡性腫瘤預測問題__Python

Python 2.X 和 3.X的區別__Python

Python爬蟲（2）——爬取微博內容__Python

聯繫我們

熱門內容

A Free Trial That Lets You Build Big!

Sales Support

After-Sales Support