標籤:man multiple 匯出資料 cimage 匯入 follow 抓取 瀏覽器外掛程式 fan
本文標籤: WebScraper Chrome瀏覽器外掛程式 網頁資料的爬取
使用 Chrome 瀏覽器外掛程式 Web Scraper 可以輕鬆實現網頁資料的爬取,不寫代碼,滑鼠操作,點哪爬哪,還不用考慮爬蟲中的登陸、驗證碼、非同步載入等複雜問題。
Web Scraper外掛程式
Web Scraper 官網中的簡介:
Web Scraper Extension (Free!)
Using our extension you can create a plan (sitemap) how a web site should be traversed and what should be extracted. Using these sitemaps the Web Scraper will navigate the site accordingly and extract all data. Scraped data later can be exported as CSV.
先看一下,我用 web scaper 爬取到的資料:
1. 知乎輪子哥粉絲
輪子哥有 54 萬多粉絲,我只抓取了前 20 頁400條記錄
設定資料欄位
2.簡書七日熱門資料
運行爬蟲得到資料
匯出資料
Web Scraper 抓取流程及要點:
安裝Web Scraper外掛程式後,三步完成爬取操作
1、Create new sitemap(建立爬取項目)
2、選取爬取網頁中的內容,點~點~點,操作
3、開啟爬取,下載CSV資料
其中最關鍵的是第二步,兩個要點:
- 先選中資料區塊 Element,每塊資料我們在頁面上取,都是重複的,選中 Multiple
- 在資料區塊中再取需要的資料欄位(Excel中的列)
爬取大量資料的要點,在於掌握分頁的控制。
分頁分為3種情況:
URL 參數分頁(比較規整方式)
URL 中帶有分頁的 page 參數的,如:
https://www.zhihu.com/people/excited-vczh/followers?page=2
直接在建立sitemap時,Start URL中就可以帶上分頁參數,寫成這樣:
https://www.zhihu.com/people/excited-vczh/followers?page=[1-27388]
滾動式載入,點擊“載入更多” 載入頁面資料
點擊分頁數字標籤(包括“下一頁”標籤)
注意,這裡第2-3種可以歸為一類方式,是非同步載入的方式,大部分都可以轉為第1種的方式來處理。
這種方式分頁不太好控制。一般使用 Link 或 Element click 來實現分頁的操作。
圖示 Web Scraper 操作步驟:
第一步:建立sitemap
第二步:選取塊資料Element
第三步:選取抓取的欄位text
第四步:爬取
Web Scaper 使用體會:
1) 除了規整的分頁方式外,其他分頁方式不好控制,不同的網站受頁面標籤不同,操作也不一樣。
2) 因為直接抓取頁面顯示值,抓取資料規整度不太好,需要 EXCEL 函數處理。
如,簡書七日熱門中文章發表時間,格式有好幾種。
3) 有一點網頁代碼基礎的上手很快,代碼才是王道啊。
特別是有點Python爬蟲基礎的,在選取頁面資料中很容易操作、理解,發現操作中出現的問題。
4) 比起八爪魚、火車頭等資料擷取器,web scraper不需要下載軟體,免費,無需註冊,還很體會一點點代碼的操作。當然 web scraper 也有付費的雲爬蟲。
Web Scraper 還可以匯入sitemap,把下面的這段代碼匯入,你就可以抓取到知乎輪子哥前20頁的粉絲:
{"startUrl":"https://www.zhihu.com/people/excited-vczh/followers?page=[1-20]","selectors":[{"parentSelectors":["_root"],"type":"SelectorElement","multiple":true,"id":"items","selector":"div.List-item","delay":""},{"parentSelectors":["items"],"type":"SelectorText","multiple":false,"id":"name","selector":"div.UserItem-title a.UserLink-link","regex":"","delay":""},{"parentSelectors":["items"],"type":"SelectorText","multiple":false,"id":"desc","selector":"div.RichText","regex":"","delay":""},{"parentSelectors":["items"],"type":"SelectorText","multiple":false,"id":"answers","selector":"span.ContentItem-statusItem:nth-of-type(1)","regex":"","delay":""},{"parentSelectors":["items"],"type":"SelectorText","multiple":false,"id":"articles","selector":"span.ContentItem-statusItem:nth-of-type(2)","regex":"","delay":""},{"parentSelectors":["items"],"type":"SelectorText","multiple":false,"id":"fans","selector":"span.ContentItem-statusItem:nth-of-type(3)","regex":"","delay":""}],"_id":"zh_vczh"}
PS, Web Scraper 資料教程
官網中的視頻教程
http://webscraper.io/tutorials
知乎@陳大欣 的回答 中寫了詳細的步驟,並錄製了視頻教程。
這個問題來源 零基礎如何學爬蟲技術? @陳大欣 在文章中把 Excel 爬蟲,web scraper,代碼爬蟲做了比較分析。
寫在最後:FOR Freedom 看看外邊的世界,以及IT這一行,少不了去Google查資料,最後,安利一些速器代理。
| 加速器推薦 |
免費方案 |
付費方案 |
官方網站 |
| 一枝紅杏加速器 |
免費方案暫無,穩定高速 |
輸入8折優惠碼wh80,年付只需80元/年 |
官網直達http://whosmall.com/go/yzhx |
| 安雲加速器 |
最好用的外貿VPN |
最低¥30/月 |
官網直達http://whosmall.com/go/ay |
| LoCo加速器 |
每天免費2小時 |
最低¥15/月 |
官網直達http://whosmall.com/go/loco |
本文標籤: WebScraper Chrome瀏覽器外掛程式 網頁資料的爬取
轉自 SUN‘S BLOG - 專註互連網知識,分享互連網精神!
原文地址: 《使用 Chrome 瀏覽器外掛程式 Web Scraper 10分鐘輕鬆實現網頁資料的爬取》
相關閱讀:《MacOS 如何使用軟體包管理器 Homebrew-Cask 安裝軟體?》
相關閱讀:《Mac 系統上如何用 LaunchBar 一鍵下載網頁上的所有檔案?》
相關閱讀:《MacOS 如何用 LaunchBar 一鍵上傳檔案至 Google Drive?》
相關閱讀:《最好用的 Mac App 快速啟動及切換工具:Manico 2.0》
相關閱讀:《我為什麼選擇 Window Tidy 作為 MacOS 分屏工具?》
相關閱讀:《Chrome 擴充 Stylish :給不喜歡某個網站一鍵「換膚」》
相關閱讀:《將 QQ 音樂、網易雲音樂和蝦米音樂資源「整合」一起的Chrome 擴充Listen 1》
相關閱讀:《8 個「新標籤頁」Chrome 擴充: 教你把 New Tab 頁面玩的溜溜溜》
相關閱讀:《7 款實用 Chrome 擴充推薦:幫你提升 Chrome 使用體驗》
相關閱讀:《無擴充就不是 Chrome 了:15 款優質的Chrome 擴充推薦給大家》
相關閱讀:《12 款不能少的使網頁瀏覽獲得的最佳體驗Chrome 擴充》
相關閱讀:《5 款可以帶來幸福感的 Chrome 擴充》
相關閱讀: 對程式員有用:2017最新能上Google的hosts檔案下載及總結網友遇到的各種hosts問題解決方案及配置詳解
相關BLOG:SUN’S BLOG - 專註互連網知識,分享互連網精神!去看看:www.whosmall.com
原文地址:http://whosmall.com/?post=473
使用 Chrome 瀏覽器外掛程式 Web Scraper 10分鐘輕鬆實現網頁資料的爬取