Java解析html之JSOUP(譯)-jsoup Cookbook(1)

來源:互聯網
上載者:User

標籤:

解析和遍曆文檔

解析HTML文檔:

String html = "<html><head><title>First parse</title></head>"

  + "<body><p>Parsed HTML into a doc.</p></body></html>";

Document doc = Jsoup.parse(html);


解析器儘可能的解析給出的HTML檔案,無論HTML檔案是否格式良好。它可以很好的處理:

    (1)未結束的標籤(例如:<p>Lorem<p>Ipsum  解析為  <p>Lorem</p> <p>Ipsum</p>)

    (2)未指明的標籤(例如:將<td>Table data</td> 封裝成 <table><tr><td>Table data </td></tr></tabel>)

    (3)可靠地建立文檔結構(包含一個head和一個body的html,在head中只有適當的元素)


文檔的物件模型

文檔包含Elements和TextNodes(以及其他幾個misc節點:見包樹的節點)。

繼承鏈是:文檔擴充元素擴充節點。TextNode擴充節點。

一個元素包含一系列的孩子節點,有一個父元素。他們也提供過濾的子項目列表。

原文:http://jsoup.org/cookbook/introduction/parsing-a-document

Java解析html之JSOUP(譯)-jsoup Cookbook(1)

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.