標籤:
Spiderman - 又一個Java網路蜘蛛/爬蟲
Spiderman 是一個基於微核心+外掛程式式架構的網路蜘蛛,它的目標是通過簡單的方法就能將複雜的目標網頁資訊抓取並解析為自己所需要的業務資料。
主要特點
* 靈活、可擴充性強,微核心+外掛程式式架構,Spiderman提供了多達 10 個擴充點。橫跨蜘蛛線程的整個生命週期。* 通過簡單的配置就可以將複雜的網頁內容解析為自己需要的業務資料,無需編寫一句代碼* 多線程
怎麼使用?
- 首先,確定好你的目標網站以及目標網頁(即某一類你想要擷取資料的網頁,例如網易新聞的新聞頁面)
- 然後,開啟目標頁面,分析頁面的HTML結構,得到你想要資料的XPath,具體XPath怎麼擷取請看下文。
- 最後,在一個xml設定檔裡填寫好參數,運行Spiderman吧!
這裡有個抓取案例
這裡有篇文章介紹樣本: http://my.oschina.net/laiweiwei/blog/100866
XPath擷取技巧?
這裡只說下Chrome瀏覽器,其他瀏覽器估計也差不多,只不過外掛程式不同而已。
- 首先,下載xpathonclick外掛程式,https://chrome.google.com/webstore/search/xpathonclick
- 安裝完畢之後,開啟Chrome瀏覽器,可以看到右上方有個“X Path” 表徵圖。
- 在瀏覽器開啟你的目標網頁,然後點擊右上方的那個圖片,然後點擊網標上你想要擷取XPath的地方,例如某個標題
- 這時候按住F12開啟JS控制台,拖到底部,可以看到一串XPath內容
- 記住,這個內容不是絕對OK的,你可能還需要做些修改,因此,你最好還是去學習下XPath文法
- 學習XPath文法的地方:http://www.w3school.com.cn/xpath/index.asp
自風/Spiderman star 628 | fork 375 強力 Java 爬蟲,列表分頁、詳細頁分頁、ajax、微核心高擴充、配置靈活
issues:
- #1 項目打包部署到tomcat上時,發生以下異常 芝麻穀 11個月前
最近提交:
- 736c2512d rm zweb dependency laiweiwei 11個月前
- 640423cbc rm file laiweiwei 11個月前
- 1ed69b7ec some update . laiweiwei 11個月前
下載zip
Java網路蜘蛛/網路爬蟲 Spiderman