標籤:parser 技術 素數 處理 pack 指令碼 style key tin
第一次接觸jsoup還是在處理收貨地址的時候,當時在寫一個下單流程,需要省市區id以及詳細門牌號等等,因此同事介紹了jsoup,閑來無事,在此閑扯一番!
1.我們來看下,什麼是jsoup,先來看看官方文檔是怎麼說的:
jsoup: Java HTML Parser,jsoup is a Java library for working with real-world HTML. It provides a very convenient API for extracting and manipulating data, using the best of DOM, CSS, and jquery-like methods.
簡單來說就是從HTML頁面擷取資料。
2.jsoup能處理什麼呢?
(1)沒有關閉的標籤 (比如: <p>Lorem <p>Ipsum parses to <p>Lorem</p> <p>Ipsum</p>)
(2)隱式標籤 (比如. 它可以自動將 <td>Table data</td>封裝成<table><tr><td>?)
(3)建立可靠的文檔結構(html標籤包含head 和 body,在head只出現恰當的元素)
3.先來看看實際操作吧
(1)從一個URL載入一個Document
首先我們建立一個java project,用jsoup擷取百度title,結構如所示,下載jsoup包,如:jsoup-1.10.2.jar,將包引入jsoupdemo工程中
(2)從檔案中載入HTML,並用jsoup解析
在該工程下建立一個package,名為resources,將百度首頁源碼儲存為一個HTML檔案,我們讀取該HTML檔案,並擷取輸入框的屬性為id的值kw.
(3)使用DOM方法來遍曆一個文檔,擷取name屬性和value值
在resources下建立input.html
通過以上操作,大家可能對jsoup有了初步的認識,我們來簡單總結下jsoup文法
<1>尋找元素
getElementById(String id)
getElementsByTag(String tag)
getElementsByClass(String className)
getElementsByAttribute(String key) (and related methods)
<2>元素資料
attr(String key)擷取屬性attr(String key, String value)設定屬性
attributes()擷取所有屬性
id(), className() and classNames()
text()擷取常值內容text(String value) 設定常值內容
html()擷取元素內HTMLhtml(String value)設定元素內的HTML內容
outerHtml()擷取元素外HTML內容
data()擷取資料內容(例如:script和style標籤)
tag() and tagName()
<3>操作HTML和文本
append(String html), prepend(String html)
appendText(String text), prependText(String text)
appendElement(String tagName), prependElement(String tagName)
html(String value)
以上就是jsoup簡單的操作,作者本身也是第一次接觸,歡迎大家指導學習。
介面測試指令碼之Jsoup解析HTML