標籤:png 執行個體 blank nod 標題 com xsl logs 樣本
一 、HtmlAgilityPack簡介
這是一個敏捷的HTML解析器,它構建了一個讀/寫DOM,並支援簡單的XPATH或XSLT(實際上,你實際上並不瞭解XPATH和XSLT來使用它,不必擔心)。它是一個.NET程式碼程式庫,可以讓您解析“出網”HTML檔案。解析器非常寬容“現實世界”畸形的HTML。物件模型與提出的System.Xml非常相似,但對於HTML文檔(或流)來說是非常相似的。
官網地址:http://html-agility-pack.net/
Git地址:https://github.com/zzzprojects/html-agility-pack
NuGet地址 :https://www.nuget.org/packages/HtmlAgilityPack/
命令:
Install-Package HtmlAgilityPack
二、HtmlWeb爬去網頁樣本:
1.使用Nuget包工具安裝
2.解析www.gongjuji.net首頁清單項目
//操作 邏輯 ://1.擷取col-md-4 的div 列表//2.遍曆col擷取標題和連結HtmlWeb web = new HtmlWeb();HtmlDocument doc = web.Load("http://www.gongjuji.net");string rowPath = "/html/body/div[2]/div[2]/div";HtmlNodeCollection cols = doc.DocumentNode.SelectNodes(rowPath);foreach (var item in cols){ //解析 內部的 .thumbnail內容 HtmlNode thumbnail = HtmlNode.CreateNode(item.InnerHtml); //擷取h3的內容和a標籤 的連結 HtmlNode h3 = thumbnail.SelectSingleNode("//h3"); Console.Write(h3.InnerText + ": "); HtmlNode a = thumbnail.SelectSingleNode("//a"); Console.WriteLine(a.Attributes["href"].Value);}
3.解析結果:
跟多使用相關:
C# HTML解析工具HtmlAgilityPack使用執行個體(二)--Web頁面
C# HTML解析工具HtmlAgilityPack使用執行個體(一)
C# HTML解析工具HtmlAgilityPack使用簡介
C# HTML解析工具HtmlAgilityPack XPath 模糊查詢not()函數和contains()函數
.Net Core HTML解析利器之HtmlAgilityPack