【源碼】初探C#爬蟲,持續更新中。。。

來源:互聯網
上載者:User

標籤:

   最近看到園子裡有人用python做的爬蟲軟體並且上傳的源碼,苦於不懂python,便想著用C#也實現一個簡易的爬蟲軟體。於是昨晚花了一個多小時的時間實現了一個簡單的爬蟲軟體,功能十分簡單,但是覺得還是想分享出來。。。後續樓主還會把功能繼續完善下去。。

   廢話不多說,直接上碼!

   

 

   

其實代碼很簡單:

  public string CreateWeb(string url)        {            StringBuilder sb = new StringBuilder();            //抓取網頁            WebRequest request = WebRequest.Create(url);            WebResponse response = request.GetResponse();            //讀取檔案流            StreamReader reader = new StreamReader(response.GetResponseStream(), Encoding.GetEncoding("utf-8")); //reader.ReadToEnd() 表示取得網頁的源碼            //FileStream fs = new FileStream("~/baidu.html", FileMode.OpenOrCreate);            string strhtml = reader.ReadToEnd();            //正則匹配網站的圖片標籤            string Rxg = @"<img\b[^<]*(?:(?!<\/img>)*)";            //匹配出圖片標籤的集合            MatchCollection mc = Regex.Matches(strhtml, Rxg);            for (int i = 0; i < mc.Count; i++)            {                sb.Append(mc[i]);                        }            //返回圖片標籤HTML輸出            return sb.ToString();        }

總結:其實爬蟲的話無非是抓取頁面,然後通過一些規則匹配到頁面裡面的元素。

源碼:SuperSearch.rar

 

 

 

 LiuHuaTao( LiuHuaTao‘s Blog on 部落格園) 
出處:http://www.cnblogs.com/Lhuatao/ 
本作品由 LiuHuaTao 創作,採用知識共用署名-非商業性使用-禁止演繹 2.5 中國大陸許可協議進行許可。 歡迎轉載,但任何轉載必須保留完整文章,在顯要地方顯示署名以及原文連結。如您有任何疑問或者授權方面的協商,請給我留言。

【源碼】初探C#爬蟲,持續更新中。。。

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.