基於Java的HTML解析器

來源:互聯網
上載者:User

    最近要做網路資訊的採集,解析HTML是必不可少的,查了下這方面的工具還不少,但是不知道哪個好用,似乎HTMLParser是用的多點的,但是從06年開始就不再更新了,大概是已經滿足HTML 4的解析了吧,收集了幾個看起來不錯的,留著備用。

Java Mozilla Html Parser
能夠將html解析成Java Document對象。它是一個基於Mozilla Html解析器封裝的Html解析類庫。因此能夠為開發人員提供一個瀏覽器品質的HTML解析器。
地址:http://mozillaparser.sourceforge.net/

HtmlCleaner
是一個開源的Html文檔解析器。HtmlCleaner能夠重新排序每個元素然後產生結構良好(Well-Formed)的XML文檔。預設它遵循的規則是類似於大部份web瀏覽器為創文件物件模型所使用的規則。然而,使用者可以提供自訂tag和規則群組來進行過濾和匹配。
地址:http://htmlcleaner.sourceforge.net/

HTML Parser
地址:http://htmlparser.sourceforge.net/

Jsoup

是一款 Java 的HTML 解析器,可直接解析某個URL地址、HTML常值內容。比起之前用的HTMLParser方便很多,而且更輕便。
地址:http://jsoup.org/

-------------------------------------------------------------------------

另外可以從開源中國上找到諸如Jsoup的一些文章,如:http://www.oschina.net/p/jsoup

 本文用菊子曰發布

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.