一、基礎文法
1.直接以字串形式擷取nokogiri對象:
html_doc = Nokogiri::HTML("<html><body><h1>Mr. Belvedere Fan Club</h1></body></html>")xml_doc = Nokogiri::XML("<root><aliens><alien><name>Alf</name></alien></aliens></root>")
這裡的html_doc和xml_doc就是nokogiri檔案
2.也可以通過檔案控制代碼擷取nokogiri對象:
f = File.open("blossom.xml")doc = Nokogiri::XML(f)f.close
3.還可以直接從網站擷取:
require 'open-uri'doc = Nokogiri::HTML(open("http://www.xxx.com/"))
二、XML檔案解析執行個體
從XML/HTML檔案裡抓取欄位的常用方法:
現在有一個名為shows.xml的檔案,內容如下:
<root> <sitcoms> <sitcom> <name>Married with Children</name> <characters> <character>Al Bundy</character> <character>Bud Bundy</character> <character>Marcy Darcy</character> </characters> </sitcom> <sitcom> <name>Perfect Strangers</name> <characters> <character>Larry Appleton</character> <character>Balki Bartokomous</character> </characters> </sitcom> </sitcoms> <dramas> <drama> <name>The A-Team</name> <characters> <character>John "Hannibal" Smith</character> <character>Templeton "Face" Peck</character> <character>"B.A." Baracus</character> <character>"Howling Mad" Murdock</character> </characters> </drama> </dramas></root>
如果想把所有character標籤的內容尋找出來,可以這樣處理:
@doc = Nokogiri::XML(File.open("shows.xml"))@doc.xpath("//character")
xpath和css方法,返回的是一個結點列表,類似於一個數組,它的內容就是從檔案中尋找出來的符合匹配規則的結點.
把dramas結點裡的character結點列表查出來:
@doc.xpath("//dramas//character")
更有可讀性的css方法:
characters = @doc.css("sitcoms name")# => ["<name>Married with Children</name>", "<name>Perfect Strangers</name>"]
當已知查詢結果唯一時,如果想直接返回這個結果,而不是列表,可以直接使用at_xpath或at_css:
@doc.css("dramas name").first # => "<name>The A-Team</name>"@doc.at_css("dramas name") # => "<name>The A-Team</name>"
三、Namespaces
對於有多個標籤的情況,命名空間就起到非常大的作用了.
例如有這樣一個parts.xml檔案:
<parts> <!-- Alice's Auto Parts Store --> <inventory xmlns="http://alicesautoparts.com/"> <tire>all weather</tire> <tire>studded</tire> <tire>extra wide</tire> </inventory> <!-- Bob's Bike Shop --> <inventory xmlns="http://bobsbikes.com/"> <tire>street</tire> <tire>mountain</tire> </inventory></parts>
可以使用唯一的URL作為namespaces,以區分不同的tires標籤:
@doc = Nokogiri::XML(File.read("parts.xml"))car_tires = @doc.xpath('//car:tire', 'car' => 'http://alicesautoparts.com/')bike_tires = @doc.xpath('//bike:tire', 'bike' => 'http://bobsbikes.com/')
為了讓namespace的使用更方便,nokogiri會自動綁定在根結點上找到的合適的任何namespace.
nokogiri會自動關聯提供的URL,這個慣例可以減少代碼量.
例如有這樣一個atom.xml檔案:
<feed xmlns="http://www.w3.org/2005/Atom"> <title>Example Feed</title> <link href="http://example.org/"/> <updated>2003-12-13T18:30:02Z</updated> <author> <name>John Doe</name> </author> <id>urn:uuid:60a76c80-d399-11d9-b93C-0003939e0af6</id> <entry> <title>Atom-Powered Robots Run Amok</title> <link href="http://example.org/2003/12/13/atom03"/> <id>urn:uuid:1225c695-cfb8-4ebb-aaaa-80da344efa6a</id> <updated>2003-12-13T18:30:02Z</updated> <summary>Some text.</summary> </entry></feed>
遵循上面提到的慣例,xmlns已被自動綁定,不用再手動為xmlns賦值:
@doc.xpath('//xmlns:title')# => ["<title>Example Feed</title>", "<title>Atom-Powered Robots Run Amok</title>"]
同樣情況,css的用法:
並且在使用css方式時,如果namespaces名字是xmlns,那麼連這個詞本身都可以忽略掉: