.Net Core HTML解析利器之HtmlAgilityPack

來源:互聯網
上載者:User

標籤:png   執行個體   blank   nod   標題   com   xsl   logs   樣本   

一 、HtmlAgilityPack簡介

這是一個敏捷的HTML解析器,它構建了一個讀/寫DOM,並支援簡單的XPATH或XSLT(實際上,你實際上並不瞭解XPATH和XSLT來使用它,不必擔心)。它是一個.NET程式碼程式庫,可以讓您解析“出網”HTML檔案。解析器非常寬容“現實世界”畸形的HTML。物件模型與提出的System.Xml非常相似,但對於HTML文檔(或流)來說是非常相似的。

官網地址:http://html-agility-pack.net/

Git地址:https://github.com/zzzprojects/html-agility-pack

NuGet地址 :https://www.nuget.org/packages/HtmlAgilityPack/

命令:

Install-Package HtmlAgilityPack

二、HtmlWeb爬去網頁樣本:

1.使用Nuget包工具安裝

2.解析www.gongjuji.net首頁清單項目

//操作 邏輯 ://1.擷取col-md-4 的div 列表//2.遍曆col擷取標題和連結HtmlWeb web = new HtmlWeb();HtmlDocument doc = web.Load("http://www.gongjuji.net");string rowPath = "/html/body/div[2]/div[2]/div";HtmlNodeCollection cols = doc.DocumentNode.SelectNodes(rowPath);foreach (var item in cols){    //解析 內部的 .thumbnail內容    HtmlNode thumbnail = HtmlNode.CreateNode(item.InnerHtml);    //擷取h3的內容和a標籤 的連結    HtmlNode h3 = thumbnail.SelectSingleNode("//h3");    Console.Write(h3.InnerText + ":     ");    HtmlNode a = thumbnail.SelectSingleNode("//a");    Console.WriteLine(a.Attributes["href"].Value);}

3.解析結果:

 

跟多使用相關:

C# HTML解析工具HtmlAgilityPack使用執行個體(二)--Web頁面 

C# HTML解析工具HtmlAgilityPack使用執行個體(一)

C# HTML解析工具HtmlAgilityPack使用簡介

C# HTML解析工具HtmlAgilityPack XPath 模糊查詢not()函數和contains()函數

.Net Core HTML解析利器之HtmlAgilityPack

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.