C#HTML解析利器HtmlAgilityPack

來源:互聯網
上載者:User

標籤:ade   ble   如何使用   mat   ati   stream   xpath   屬性   sep   

  HtmlAgilityPack是一個開源的解析HTML元素的類庫,最大的特點是可以通過XPath來解析HMTL,如果您以前用C#操作過XML,那麼使用起HtmlAgilityPack也會得心應手。目前最新版本為1.4.6,如下:http://htmlagilitypack.codeplex.com/ 目前穩定的版本是1.4.6,上一次更新還是2012年,所以很穩定,準系統全面,也沒必要更新了。 

  提到HtmlAgilityPack,就必須要介紹一個協助工具輔助,不知道其他人在使用的時候,是如何分析頁面結構的。反正我是使用官方提供的一個叫做HAPExplorer的工具。非常有用。下面我們在使用的時候會介紹如何使用。

 

還是以遼寧省為例:http://www.tianqihoubao.com/lishi/ln.htm ,開啟頁面,右鍵擷取網頁原始碼後,粘貼到 HAPExplorer 中,也可以直接在HAPExplorer 中開啟連結,如下面的動畫示範:

 

  我們可以看到,右側的XPath地址,div結束後,下面都是dl標籤,就是我們要採集的行了。下面我們用代碼來擷取上述結構。先看看擷取頁面原始碼的代碼:

12345678910 public static string GetWebClient(string url){    string strHTML = "";    WebClient myWebClient = new WebClient();                Stream myStream = myWebClient.OpenRead(url);    StreamReader sr = new StreamReader(myStream, Encoding.Default);//注意編碼    strHTML = sr.ReadToEnd();    myStream.Close();    return strHTML;}

 

public  static  void  ParsePageByArea(String cityCode) {      //更加連結格式和省份代碼構造URL      String url = String.Format( "http://www.tianqihoubao.com/lishi/{0}.htm" , cityCode);      //下載網頁原始碼       var  docText = HtmlHelper.GetWebClient(url);      //載入原始碼,擷取文檔對象      var  doc =  new  HtmlDocument(); doc.LoadHtml(docText);      //更加xpath擷取總的對象,如果不為空白,就繼續選擇dl標籤      var  res = doc.DocumentNode.SelectSingleNode( @"/html[1]/body[1]/div[1]/div[6]/div[1]/div[1]/div[3]" );      if  (res !=  null )      {          var  list = res.SelectNodes( @"dl" ); //選擇標籤數組          if  (list.Count < 1)  return ;          foreach  ( var  item  in  list)          {              var  dd = item.SelectSingleNode( @"dd" ).SelectNodes( "a" );              foreach  ( var  node  in  dd)              {                  var  text = node.InnerText.Trim();                  //拼音代碼要從href屬性中進行分割提取                  var  herf = node.Attributes[ "href" ].Value.Trim().Split( ‘/‘ ‘.‘ );                  Console.WriteLine( "{0}:{1}" , text, herf[herf.Length - 2]);              }          }      } }源地址:http://www.cnblogs.com/asxinyu/p/CSharp_HtmlAgilityPack_XPath_Weather_Data.html

C#HTML解析利器HtmlAgilityPack

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.