標籤:地址 scrapy sts abi nes 單元測試 資訊 Proxy 伺服器 遍曆
:網盤下載
內容簡介 · · · · · ·
本書採用簡潔強大的Python語言,介紹了網路資料擷取,並為採集新式網路中的各種資料類型提供了全面的指導。第一部分重點介紹網路資料擷取的基本原理:如何用Python從網路伺服器請求資訊,如何對伺服器的響應進行基本處理,以及如何以自動化手段與網站進行互動。第二部分介紹如何用網路爬蟲測試網站,自動化處理,以及如何通過更多的方式接入網路。
作者簡介 · · · · · ·
Ryan Mitchell
資料科學家、軟體工程師,目前在波士頓LinkeDrive公司負責開發公司的API和資料分析工具。此前,曾在Abine公司構建網路爬蟲和網路機器人。她經常做網路資料擷取項目的諮詢工作,主要面向金融和零售業。另著有Instant Web Scraping with Java。
目錄 · · · · · ·譯者序 ix
前言 xi
第一部分 建立爬蟲
第1章 初見網路爬蟲 2
1.1 網路連接 2
1.2 BeautifulSoup簡介 4
1.2.1 安裝BeautifulSoup 5
1.2.2 運行BeautifulSoup 7
1.2.3 可靠的網路連接 8
第2章 複雜HTML解析 11
2.1 不是一直都要用鎚子 11
2.2 再端一碗BeautifulSoup 12
2.2.1 BeautifulSoup的find()和findAll() 13
2.2.2 其他BeautifulSoup對象 15
2.2.3 導航樹 16
2.3 Regex 19
2.4 Regex和BeautifulSoup 23
2.5 擷取屬性 24
2.6 Lambda運算式 24
2.7 超越BeautifulSoup 25
第3章 開始採集 26
3.1 遍曆單個網域名稱 26
3.2 採集整個網站 30
3.3 通過互連網採集 34
3.4 用Scrapy採集 38
第4章 使用API 42
4.1 API概述 43
4.2 API通用規則 43
4.2.1 方法 44
4.2.2 驗證 44
4.3 伺服器響應 45
4.4 Echo Nest 46
4.5 Twitter API 48
4.5.1 開始 48
4.5.2 幾個樣本 50
4.6 Google API 52
4.6.1 開始 52
4.6.2 幾個樣本 53
4.7 解析JSON資料 55
4.8 回到主題 56
4.9 再說一點API 60
第5章 儲存資料 61
5.1 媒體檔案 61
5.2 把資料存放區到CSV 64
5.3 MySQL 65
5.3.1 安裝MySQL 66
5.3.2 基本命令 68
5.3.3 與Python整合 71
5.3.4 資料庫技術與最佳實務 74
5.3.5 MySQL裡的“六度空間遊戲” 75
5.4 Email 77
第6章 讀取文檔 80
6.1 文檔編碼 80
6.2 純文字 81
6.3 CSV 85
6.4 PDF 87
6.5 微軟Word和.docx 88
第二部分 進階資料擷取
第7章 資料清洗 94
7.1 編寫代碼清洗資料 94
7.2 資料存放區後再清洗 98
第8章 自然語言處理 103
8.1 概括資料 104
8.2 馬爾可夫模型 106
8.3 自然語言工具包 112
8.3.1 安裝與設定 112
8.3.2 用NLTK做統計分析 113
8.3.3 用NLTK做詞性分析 115
8.4 其他資源 119
第9章 穿越網頁表單與登入視窗進行採集 120
9.1 Python Requests庫 120
9.2 提交一個基本表單 121
9.3 選項按鈕、複選框和其他輸入 123
9.4 提交檔案和映像 124
9.5 處理登入和cookie 125
9.6 其他表單問題 127
第10章 採集JavaScript 128
10.1 JavaScript簡介 128
10.2 Ajax和動態HTML 131
10.3 處理重新導向 137
第11章 Image Recognition與文文書處理 139
11.1 OCR庫概述 140
11.1.1 Pillow 140
11.1.2 Tesseract 140
11.1.3 NumPy 141
11.2 處理格式規範的文字 142
11.3 讀取驗證碼與訓練Tesseract 146
11.4 擷取驗證碼提交答案 151
第12章 避開採集陷阱 154
12.1 道德規範 154
12.2 讓網路機器人看起來像人類使用者 155
12.2.1 修改要求標頭 155
12.2.2 處理cookie 157
12.2.3 時間就是一切 159
12.3 常見表單安全措施 159
12.3.1 隱含輸入欄位值 159
12.3.2 避免蜜罐 160
12.4 問題檢查表 162
第13章 用爬蟲測試網站 164
13.1 測試簡介 164
13.2 Python單元測試 165
13.3 Selenium單元測試 168
13.4 Python單元測試與Selenium單元測試的選擇 172
第14章 遠程採集 174
14.1 為什麼要用遠程伺服器 174
14.1.1 避免IP地址被封殺 174
14.1.2 移植性與擴充性 175
14.2 TorProxy 伺服器 176
14.3 遠程主機 177
14.3.1 從網站主機運行 178
14.3.2 從雲主機運行 178
14.4 其他資源 179
14.5 勇往直前 180
附錄A Python簡介 181
附錄B 互連網簡介 184
附錄C 網路資料擷取的法律與道德約束 188
作者簡介 200
封面介紹 200
:網盤下載
Python網路資料擷取pdf