JAVA爬蟲 WebCollector

最後更新：2015-08-11 來源：互聯網

上載者：User

創建阿里雲帳戶，並獲得超過 40 款產品的免費試用版；而企業帳戶則可以享有總值 $1200 的免費試用版。立即註冊！

標籤：

JAVA爬蟲 WebCollector

爬蟲簡介：

WebCollector是一個無須配置、便於二次開發的JAVA爬蟲架構（核心），它提供精簡的的API，只需少量代碼即可實現一個功能強大的爬蟲。

爬蟲核心：

WebCollector 致力於維護一個穩定、可擴的爬蟲核心，便於開發人員進行靈活的二次開發。核心具有很強的擴充性，使用者可以在核心基礎上開發自己想要的爬蟲。源碼中整合了 Jsoup，可進行精準的網頁解析。2.x版本中整合了selenium，可以處理javascript產生的資料。

網頁本文提取：

網頁本文提取項目ContentExtractor已併入WebCollector維護。
WebCollector的本文抽取API都被封裝為ContentExtractor類的靜態方法。可以抽取結構化新聞，也可以只抽取網頁的本文（或本文所在Element)。
本文抽取效果指標 :

比賽資料集CleanEval P=93.79% R=86.02% F=86.72%
常見新聞網站資料集 P=97.87% R=94.26% F=95.33%
演算法無視語種，適用於各種語種的網頁

標題抽取和日期抽取使用簡單啟發學習法演算法，並沒有像本文抽取演算法一樣在標準資料集上測試，演算法仍在更新中。

1.x：

WebCollector 1.x版本現已轉移到http://git.oschina.net/webcollector/WebCollector-1.x維護，建議使用2.x版本。

2.x：

WebCollector 2.x版本特性：

1）自訂遍曆策略，可完成更為複雜的遍曆業務，例如分頁、AJAX
2）內建Berkeley DB管理URL，可以處理更大量級的網頁
3）整合selenium，可以對javascript產生資訊進行抽取
4）直接支援多代理隨機切換
5）整合spring jdbc和mysql connector，方便資料持久化
6）整合json解析器
7）使用slf4j作為日誌門面
8）修改http請求介面，使用者自訂http請求更加方便

WebCollector 2.x官網和鏡像：

官網：https://github.com/CrawlScript/WebCollector
鏡像：http://git.oschina.net/webcollector/WebCollector

WebCollector 2.x教程：

WebCollector 2.x tutorial 2 (BreadthCrawler中文教程)
WebCollector 2.x 新聞網頁本文自動提取演算法
WebCollector 2.x 抽取器 (Extractor和MultiExtractorCrawler)
WebCollector爬取JS產生資料
WebCollector爬取搜狗搜尋（分頁）
WebCollector爬取JSON資料
使用SoupLang指令碼同時管理多個頁面爬取 SoupLang指令碼
用WebCollector 2.x爬取新浪微博（無需手動擷取cookie)

WebCollector 2.x教程(鏡像)：

WebCollector 2.x tutorial 2 (BreadthCrawler中文教程)
WebCollector 2.x 新聞網頁本文自動提取演算法
WebCollector 2.x 抽取器 (Extractor和MultiExtractorCrawler)
WebCollector爬取JS產生資料
WebCollector爬取搜狗搜尋（分頁）
WebCollector爬取JSON資料
使用SoupLang指令碼同時管理多個頁面爬取 SoupLang指令碼
用WebCollector 2.x爬取新浪微博（無需手動擷取cookie)

版本更新資訊：

WebCollector 2.10 發布，更新詳情如下：

1 ) 新增新聞網頁本文自動提取演算法，可自動抽取新聞網頁本文、標題和日期，可參照例子：WebCollector本文提取DEMO。

WebCollector 2.09 發布，更新詳情如下：

1 ) 新增抽取器Extractor和用於載入抽取器的爬蟲MultiExtractorCrawler，提供一種方便分工和維護的爬蟲開發方案。可參照例子： WebCollector抽取器DEMO。
2 ) 新增FileSystemOutput，可將網頁按照網站拓撲結構儲存到本地。
3 ) 修複https請求認證問題。

CrawlScript / WebCollector Watch336 Fork332

WebCollector is an open source web crawler framework based on Java.It provides some simple interfaces for crawling the Web,you can setup a multi-threaded web crawler in less than 5 minutes. — More...

http://crawlscript.github.io/WebCollector/

Issues
#10	請問如何不讓日誌輸出到控制台	by T0ky04cti0n 2015-08-03
#9	請問WeiboHelper的源碼是否可以公開？	by DongShuaike 2015-08-01
#8	請問2.x的maven倉庫在哪兒？	by fishtrees 2015-06-29
#7	是否支援Proxy？另外如果支援的話，是否支援動態輪換？	by RangerWolf 2015-05-05
#5	爬取ajax或者是js跳轉的頁面怎麼設定策略？	by joe1100 2015-06-06

master分支代碼最新動向：2015-08-05

下載zip

JAVA爬蟲 WebCollector

本文章原先以中文撰寫並發佈於 aliyun.com，亦設英文版本，僅作資訊用途。本網站不對文章的準確性，完整性或可靠性或其任何翻譯作出任何明示或暗示的陳述或保證。如對該文章有任何疑慮或投訴，請傳送電郵至 info-contact@alibabacloud.com 並提供相關疑慮或投訴的詳細說明。職員會於 5 個工作天內與您聯絡，一經驗證之後，即會刪除該侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

Get Started for Free

Sales Support

1 on 1 presale consultation

Chat Contact Sales
After-Sales Support

24/7 Technical Support 6 Free Tickets per Quarter Faster Response

Open a Ticket
Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.

Learn More

JAVA爬蟲 WebCollector

聯繫我們

A Free Trial That Lets You Build Big!

Sales Support

After-Sales Support