HtmlUnit入門一

來源:互聯網
上載者:User

標籤:ott   browser   轉換   瀏覽器   null   類比   開源   子類   software   

htmlunit 是一款開源的java 頁面分析工具,讀取頁面後,可以有效使用htmlunit分析頁面上的內容。

項目可以類比瀏覽器運行,被譽為java瀏覽器的開源實現。是一個沒有介面的瀏覽器。

採用的是Rhinojs引擎。類比js運行。

 

使用htmlunit抓取網頁大概可以分為以下幾個步驟:

1、定義一個WebClient用戶端。

  就相當於定義了一個沒有介面的瀏覽器。

2、使用WebClient用戶端從指定URL擷取HtmlPage。

  HtmlPage中包含目標URL頁面中的所有資訊。

3、從HtmlPage中擷取我們需要的指定元素。

 

下面就來看一個執行個體:

package com.fuwh;import com.gargoylesoftware.htmlunit.WebClient;import com.gargoylesoftware.htmlunit.html.HtmlPage;public class Demo01 {    public static void main(String[] args) {                WebClient webClient=null;        try {             webClient= new WebClient();    //定義一個預設的WebClient            HtmlPage page=webClient.getPage("https://www.cnblogs.com/");    //從指定URL擷取HtmlPage            System.out.println(page.asText());    //將HtmlPage轉換成字串列印出來        } catch (Exception e) {            // TODO: handle exception            e.printStackTrace();        }finally {            webClient.close();    //關閉用戶端        }    }}

 

上面的執行個體中,我們建立的是一個預設的WebClient執行個體,使WebClient#getBrowserVersion()方法,可以看到,

預設建立的是Chrome版本的瀏覽器。

當然,我們也可以在建立的時候指定瀏覽器的版本。

例子:

package com.fuwh;import com.gargoylesoftware.htmlunit.BrowserVersion;import com.gargoylesoftware.htmlunit.WebClient;import com.gargoylesoftware.htmlunit.html.HtmlPage;public class Demo01 {    public static void main(String[] args) {                WebClient webClient=null;        try {             webClient= new WebClient(BrowserVersion.FIREFOX_45);    //定義一個WebClient            HtmlPage page=webClient.getPage("https://www.cnblogs.com/");    //從指定URL擷取HtmlPage            System.out.println(page.asText());    //將HtmlPage轉換成字串列印出來        } catch (Exception e) {            // TODO: handle exception            e.printStackTrace();        }finally {            webClient.close();    //關閉用戶端        }    }}

在BrowserVersion中,定義了很多種瀏覽器的版本。

 

在獲得一個HtmlPage之後,相對於把整個頁面打出來,我們還是更希望能夠找出我們想要的元素。

HtmlUnit對於尋找指定元素也提供了豐富的支援。

支援使用DOM,CSS和XPath(推薦)的方式。

◇使用DOM方式:

package com.fuwh;import com.gargoylesoftware.htmlunit.BrowserVersion;import com.gargoylesoftware.htmlunit.WebClient;import com.gargoylesoftware.htmlunit.html.DomElement;import com.gargoylesoftware.htmlunit.html.DomNodeList;import com.gargoylesoftware.htmlunit.html.HtmlAnchor;import com.gargoylesoftware.htmlunit.html.HtmlDivision;import com.gargoylesoftware.htmlunit.html.HtmlPage;public class Demo01 {    public static void main(String[] args) {                WebClient webClient=null;        try {             webClient= new WebClient(BrowserVersion.FIREFOX_45);    //定義一個WebClient            final HtmlPage page=webClient.getPage("https://www.cnblogs.com/");    //從指定URL擷取HtmlPage                        /**             * DomElement 的子類:HtmlElement             * HtmlElemnt也有很多子類,基本上涵蓋了所有的Html元素             * 例如:HtmlDivision,HtmlInput             */            System.out.println("=============================================");            //通過id擷取指定DOM元素            HtmlDivision htmlDiv=(HtmlDivision) page.getElementById("header");            System.out.println(htmlDiv.asXml());            System.out.println("=============================================");            //通過tagName來擷取元素集合            DomNodeList<DomElement> nodeList=page.getElementsByTagName("a");            for (DomElement domElement : nodeList) {                HtmlAnchor htmlAnchor=(HtmlAnchor) domElement;                System.out.println("標題:"+htmlAnchor.asText()+"   -->   地址:"+htmlAnchor.getAttribute("href"));            }                    } catch (Exception e) {            // TODO: handle exception            e.printStackTrace();        }finally {            webClient.close();    //關閉用戶端        }    }}

 

◇使用CSS方式:

package com.fuwh;import com.gargoylesoftware.htmlunit.BrowserVersion;import com.gargoylesoftware.htmlunit.WebClient;import com.gargoylesoftware.htmlunit.html.DomElement;import com.gargoylesoftware.htmlunit.html.DomNodeList;import com.gargoylesoftware.htmlunit.html.HtmlAnchor;import com.gargoylesoftware.htmlunit.html.HtmlDivision;import com.gargoylesoftware.htmlunit.html.HtmlPage;public class Demo02 {    public static void main(String[] args) {                WebClient webClient=null;        try {             webClient= new WebClient(BrowserVersion.FIREFOX_45);    //定義一個WebClient            final HtmlPage page=webClient.getPage("https://www.cnblogs.com/");    //從指定URL擷取HtmlPage                        HtmlDivision htmlDiv =page.querySelector("div");//擷取第一個div            System.out.println(htmlDiv.asXml());                        System.out.println("====================================");                        HtmlDivision htmlDiv2=page.querySelector("div#footer_bottom");//也可以指定多個選取器,通過‘,’隔開            System.out.println(htmlDiv2.asXml());        } catch (Exception e) {            // TODO: handle exception            e.printStackTrace();        }finally {            webClient.close();    //關閉用戶端        }    }}

 

◇使用XPath方式:

package com.fuwh;import java.util.List;import com.gargoylesoftware.htmlunit.BrowserVersion;import com.gargoylesoftware.htmlunit.WebClient;import com.gargoylesoftware.htmlunit.html.HtmlDivision;import com.gargoylesoftware.htmlunit.html.HtmlPage;public class Demo03 {    public static void main(String[] args) {                WebClient webClient=null;        try {             webClient= new WebClient(BrowserVersion.FIREFOX_45);    //定義一個WebClient            final HtmlPage page=webClient.getPage("https://www.cnblogs.com/");    //從指定URL擷取HtmlPage                        List<HtmlDivision> divList=page.getByXPath("//div[@id=‘cnblogs_a1‘]");            for (HtmlDivision htmlDivision : divList) {                System.out.println("***********************************************8");                System.out.println(htmlDivision.asXml());            }                    } catch (Exception e) {            // TODO: handle exception            e.printStackTrace();        }finally {            webClient.close();    //關閉用戶端        }    }}

 

HtmlUnit入門一

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.