標籤:
JAVA爬蟲 WebCollector
爬蟲簡介:
WebCollector是一個無須配置、便於二次開發的JAVA爬蟲架構(核心),它提供精簡的的API,只需少量代碼即可實現一個功能強大的爬蟲。
爬蟲核心:
WebCollector 致力於維護一個穩定、可擴的爬蟲核心,便於開發人員進行靈活的二次開發。核心具有很強的擴充性,使用者可以在核心基礎上開發自己想要的爬蟲。源碼中整合了 Jsoup,可進行精準的網頁解析。2.x版本中整合了selenium,可以處理javascript產生的資料。
網頁本文提取:
網頁本文提取項目ContentExtractor已併入WebCollector維護。
WebCollector的本文抽取API都被封裝為ContentExtractor類的靜態方法。 可以抽取結構化新聞,也可以只抽取網頁的本文(或本文所在Element)。
本文抽取效果指標 :
- 比賽資料集CleanEval P=93.79% R=86.02% F=86.72%
- 常見新聞網站資料集 P=97.87% R=94.26% F=95.33%
- 演算法無視語種,適用於各種語種的網頁
標題抽取和日期抽取使用簡單啟發學習法演算法,並沒有像本文抽取演算法一樣在標準資料集上測試,演算法仍在更新中。
1.x:
WebCollector 1.x版本現已轉移到http://git.oschina.net/webcollector/WebCollector-1.x維護,建議使用2.x版本。
2.x:
WebCollector 2.x版本特性:
1)自訂遍曆策略,可完成更為複雜的遍曆業務,例如分頁、AJAX
2)內建Berkeley DB管理URL,可以處理更大量級的網頁
3)整合selenium,可以對javascript產生資訊進行抽取
4)直接支援多代理隨機切換
5)整合spring jdbc和mysql connector,方便資料持久化
6)整合json解析器
7)使用slf4j作為日誌門面
8)修改http請求介面,使用者自訂http請求更加方便
WebCollector 2.x官網和鏡像:
WebCollector 2.x教程:
- WebCollector 2.x tutorial 2 (BreadthCrawler中文教程)
- WebCollector 2.x 新聞網頁本文自動提取演算法
- WebCollector 2.x 抽取器 (Extractor和MultiExtractorCrawler)
- WebCollector爬取JS產生資料
- WebCollector爬取搜狗搜尋(分頁)
- WebCollector爬取JSON資料
- 使用SoupLang指令碼同時管理多個頁面爬取 SoupLang指令碼
- 用WebCollector 2.x爬取新浪微博(無需手動擷取cookie)
WebCollector 2.x教程(鏡像):
- WebCollector 2.x tutorial 2 (BreadthCrawler中文教程)
- WebCollector 2.x 新聞網頁本文自動提取演算法
- WebCollector 2.x 抽取器 (Extractor和MultiExtractorCrawler)
- WebCollector爬取JS產生資料
- WebCollector爬取搜狗搜尋(分頁)
- WebCollector爬取JSON資料
- 使用SoupLang指令碼同時管理多個頁面爬取 SoupLang指令碼
- 用WebCollector 2.x爬取新浪微博(無需手動擷取cookie)
版本更新資訊:
WebCollector 2.10 發布,更新詳情如下:
WebCollector 2.09 發布,更新詳情如下:
CrawlScript / WebCollector Watch336 Fork332
WebCollector is an open source web crawler framework based on Java.It provides some simple interfaces for crawling the Web,you can setup a multi-threaded web crawler in less than 5 minutes. — More...
http://crawlscript.github.io/WebCollector/
| Issues |
| #10 |
請問如何不讓日誌輸出到控制台 |
by T0ky04cti0n 2015-08-03 |
| #9 |
請問WeiboHelper的源碼是否可以公開? |
by DongShuaike 2015-08-01 |
| #8 |
請問2.x的maven倉庫在哪兒? |
by fishtrees 2015-06-29 |
| #7 |
是否支援Proxy? 另外如果支援的話,是否支援動態輪換? |
by RangerWolf 2015-05-05 |
| #5 |
爬取ajax或者是js跳轉的頁面怎麼設定策略? |
by joe1100 2015-06-06 |
master分支代碼最新動向:2015-08-05
下載zip
JAVA爬蟲 WebCollector