WebCollector下載整站頁面(JAVA網路爬蟲)

最後更新：2015-06-25 來源：互聯網

上載者：User

創建阿里雲帳戶，並獲得超過 40 款產品的免費試用版；而企業帳戶則可以享有總值 $1200 的免費試用版。立即註冊！

標籤：webcollector 爬取整站網站爬取 java爬蟲開源爬蟲

很多業務需要下載整站頁面（有時為多個網站），將頁面按照網站拓撲結構存放。

下面給出用JAVA爬蟲WebCollector(2.09版本以上)爬取整站網頁並按照網頁拓撲結構儲存到本地的代碼。

代碼中的抽取器可以作為一個外掛程式複用。

WebCollector的jar包可到官網下載：WebCollector官網。進入官網後下載webcollector-版本號碼-bin.zip，解壓得到所需jar包。

import cn.edu.hfut.dmic.webcollector.crawler.MultiExtractorCrawler;import cn.edu.hfut.dmic.webcollector.extract.Extractor;import cn.edu.hfut.dmic.webcollector.extract.ExtractorParams;import cn.edu.hfut.dmic.webcollector.model.Page;import cn.edu.hfut.dmic.webcollector.util.FileSystemOutput;import cn.edu.hfut.dmic.webcollector.util.FileUtils;import java.io.File;/** * Created by hu on 2015/6/25. */public class HtmlExtractor extends Extractor{    FileSystemOutput fsOutput;    public HtmlExtractor(Page page, ExtractorParams params) {        super(page, params);        /*每次抽取都會執行個體化一個Extractor對象，為了讓所有Extractor對象共用一個FileSystemOutput對象，          在外部執行個體化一個FileSystemOutput對象fsOutput，以參數形式傳給每個Extractor對象，這裡是擷取          外部傳入的FileSystemOutput對象*/        fsOutput= (FileSystemOutput) params.get("fsOutput");    }    @Override    public boolean shouldExecute() {        //我們希望對所有網頁執行此抽取器        return true;    }    @Override    public void extract() throws Exception {        //本程式不需要進行網頁抽取，所以extract()方法中不需要插入代碼    }    @Override    public void output() throws Exception {        fsOutput.output(page);    }    public static void main(String[] args) throws Exception {        /*如果下載檔案夾存在，先刪除檔案夾*/        File downloadDir=new File("download");        if(downloadDir.exists()){            FileUtils.deleteDir(downloadDir);        }        FileSystemOutput fsOutput=new FileSystemOutput("download");        MultiExtractorCrawler crawler=new MultiExtractorCrawler("crawl",true);        crawler.addSeed("http://36kr.com/");        crawler.addRegex("http://36kr.com/.*");        crawler.addExtractor(".*", HtmlExtractor.class, new ExtractorParams("fsOutput",fsOutput));        crawler.start(100);    }}

程式執行後可到download檔案夾中查看儲存的網頁：

WebCollector下載整站頁面(JAVA網路爬蟲)

本文章原先以中文撰寫並發佈於 aliyun.com，亦設英文版本，僅作資訊用途。本網站不對文章的準確性，完整性或可靠性或其任何翻譯作出任何明示或暗示的陳述或保證。如對該文章有任何疑慮或投訴，請傳送電郵至 info-contact@alibabacloud.com 並提供相關疑慮或投訴的詳細說明。職員會於 5 個工作天內與您聯絡，一經驗證之後，即會刪除該侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

Get Started for Free

Sales Support

1 on 1 presale consultation

Chat Contact Sales
After-Sales Support

24/7 Technical Support 6 Free Tickets per Quarter Faster Response

Open a Ticket
Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.

Learn More

WebCollector下載整站頁面(JAVA網路爬蟲)

聯繫我們

A Free Trial That Lets You Build Big!

Sales Support

After-Sales Support