JAVA爬蟲 WebCollector

來源:互聯網
上載者:User

標籤:

JAVA爬蟲 WebCollector

爬蟲簡介:

WebCollector是一個無須配置、便於二次開發的JAVA爬蟲架構(核心),它提供精簡的的API,只需少量代碼即可實現一個功能強大的爬蟲。

爬蟲核心:

WebCollector 致力於維護一個穩定、可擴的爬蟲核心,便於開發人員進行靈活的二次開發。核心具有很強的擴充性,使用者可以在核心基礎上開發自己想要的爬蟲。源碼中整合了 Jsoup,可進行精準的網頁解析。2.x版本中整合了selenium,可以處理javascript產生的資料。

 

網頁本文提取:

網頁本文提取項目ContentExtractor已併入WebCollector維護。
WebCollector的本文抽取API都被封裝為ContentExtractor類的靜態方法。 可以抽取結構化新聞,也可以只抽取網頁的本文(或本文所在Element)。
本文抽取效果指標 :

  • 比賽資料集CleanEval P=93.79% R=86.02% F=86.72%
  • 常見新聞網站資料集 P=97.87% R=94.26% F=95.33%
  • 演算法無視語種,適用於各種語種的網頁

標題抽取和日期抽取使用簡單啟發學習法演算法,並沒有像本文抽取演算法一樣在標準資料集上測試,演算法仍在更新中。


1.x:

WebCollector 1.x版本現已轉移到http://git.oschina.net/webcollector/WebCollector-1.x維護,建議使用2.x版本。

2.x:

WebCollector 2.x版本特性:

  • 1)自訂遍曆策略,可完成更為複雜的遍曆業務,例如分頁、AJAX

  • 2)內建Berkeley DB管理URL,可以處理更大量級的網頁

  • 3)整合selenium,可以對javascript產生資訊進行抽取

  • 4)直接支援多代理隨機切換

  • 5)整合spring jdbc和mysql connector,方便資料持久化

  • 6)整合json解析器

  • 7)使用slf4j作為日誌門面

  • 8)修改http請求介面,使用者自訂http請求更加方便

WebCollector 2.x官網和鏡像:

  • 官網:https://github.com/CrawlScript/WebCollector

  • 鏡像:http://git.oschina.net/webcollector/WebCollector

 

WebCollector 2.x教程:

  • WebCollector 2.x tutorial 2 (BreadthCrawler中文教程)
  • WebCollector 2.x 新聞網頁本文自動提取演算法
  • WebCollector 2.x 抽取器 (Extractor和MultiExtractorCrawler)
  • WebCollector爬取JS產生資料
  • WebCollector爬取搜狗搜尋(分頁)
  • WebCollector爬取JSON資料
  • 使用SoupLang指令碼同時管理多個頁面爬取 SoupLang指令碼
  • 用WebCollector 2.x爬取新浪微博(無需手動擷取cookie)

WebCollector 2.x教程(鏡像):

  • WebCollector 2.x tutorial 2 (BreadthCrawler中文教程)
  • WebCollector 2.x 新聞網頁本文自動提取演算法
  • WebCollector 2.x 抽取器 (Extractor和MultiExtractorCrawler)
  • WebCollector爬取JS產生資料
  • WebCollector爬取搜狗搜尋(分頁)
  • WebCollector爬取JSON資料
  • 使用SoupLang指令碼同時管理多個頁面爬取 SoupLang指令碼
  • 用WebCollector 2.x爬取新浪微博(無需手動擷取cookie)

版本更新資訊:

    WebCollector 2.10 發布,更新詳情如下:

  • 1 ) 新增新聞網頁本文自動提取演算法,可自動抽取新聞網頁本文、標題和日期,可參照例子:WebCollector本文提取DEMO。

    WebCollector 2.09 發布,更新詳情如下:

  • 1 ) 新增抽取器Extractor和用於載入抽取器的爬蟲MultiExtractorCrawler,提供一種方便分工和維護的爬蟲開發方案。可參照例子: WebCollector抽取器DEMO。

  • 2 ) 新增FileSystemOutput,可將網頁按照網站拓撲結構儲存到本地。

  • 3 ) 修複https請求認證問題。



CrawlScript / WebCollector Watch336 Fork332

WebCollector is an open source web crawler framework based on Java.It provides some simple interfaces for crawling the Web,you can setup a multi-threaded web crawler in less than 5 minutes. — More...

http://crawlscript.github.io/WebCollector/

Issues
#10 請問如何不讓日誌輸出到控制台 by T0ky04cti0n  2015-08-03
#9 請問WeiboHelper的源碼是否可以公開? by DongShuaike  2015-08-01
#8 請問2.x的maven倉庫在哪兒? by fishtrees  2015-06-29
#7 是否支援Proxy? 另外如果支援的話,是否支援動態輪換? by RangerWolf  2015-05-05
#5 爬取ajax或者是js跳轉的頁面怎麼設定策略? by joe1100  2015-06-06

master分支代碼最新動向:2015-08-05

下載zip

JAVA爬蟲 WebCollector

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.