Java網路蜘蛛/網路爬蟲 Spiderman

來源:互聯網
上載者:User

標籤:

Spiderman - 又一個Java網路蜘蛛/爬蟲

Spiderman 是一個基於微核心+外掛程式式架構的網路蜘蛛,它的目標是通過簡單的方法就能將複雜的目標網頁資訊抓取並解析為自己所需要的業務資料。

主要特點
* 靈活、可擴充性強,微核心+外掛程式式架構,Spiderman提供了多達 10 個擴充點。橫跨蜘蛛線程的整個生命週期。* 通過簡單的配置就可以將複雜的網頁內容解析為自己需要的業務資料,無需編寫一句代碼* 多線程
怎麼使用?
  • 首先,確定好你的目標網站以及目標網頁(即某一類你想要擷取資料的網頁,例如網易新聞的新聞頁面)
  • 然後,開啟目標頁面,分析頁面的HTML結構,得到你想要資料的XPath,具體XPath怎麼擷取請看下文。
  • 最後,在一個xml設定檔裡填寫好參數,運行Spiderman吧!
這裡有個抓取案例

這裡有篇文章介紹樣本: http://my.oschina.net/laiweiwei/blog/100866

XPath擷取技巧?

這裡只說下Chrome瀏覽器,其他瀏覽器估計也差不多,只不過外掛程式不同而已。

  • 首先,下載xpathonclick外掛程式,https://chrome.google.com/webstore/search/xpathonclick
  • 安裝完畢之後,開啟Chrome瀏覽器,可以看到右上方有個“X Path” 表徵圖。
  • 在瀏覽器開啟你的目標網頁,然後點擊右上方的那個圖片,然後點擊網標上你想要擷取XPath的地方,例如某個標題
  • 這時候按住F12開啟JS控制台,拖到底部,可以看到一串XPath內容
  • 記住,這個內容不是絕對OK的,你可能還需要做些修改,因此,你最好還是去學習下XPath文法
  • 學習XPath文法的地方:http://www.w3school.com.cn/xpath/index.asp
自風/Spiderman star 628 | fork 375 強力 Java 爬蟲,列表分頁、詳細頁分頁、ajax、微核心高擴充、配置靈活 issues:
  • #1 項目打包部署到tomcat上時,發生以下異常 芝麻穀 11個月前
最近提交:
  • 736c2512d   rm zweb dependency   laiweiwei 11個月前
  • 640423cbc   rm file   laiweiwei 11個月前
  • 1ed69b7ec   some update .   laiweiwei 11個月前

下載zip

Java網路蜘蛛/網路爬蟲 Spiderman

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.