C#使用Selenium+PhantomJS抓取資料詳解

來源:互聯網
上載者:User
手頭項目需要抓取一個用js渲染出來的網站中的資料。使用常用的httpclient抓回來的頁面是沒有資料。上網百度了一下,大家推薦的方案是使用PhantomJS。PhantomJS是一個沒有介面的webkit瀏覽器,能夠和瀏覽器效果一致的使用js渲染頁面。Selenium是一個web測試架構。使用Selenium來操作PhantomJS絕配。但是網上的例子多是Python的。無奈,下載了python按照教程搞了一下,卡在了Selenium的匯入問題上。遂放棄,還是用自己慣用的c#吧,就不信c#上沒有。經過半個小時的折騰,搞定(python折騰了一個小時)。記錄下這篇博文,讓我等搞c#的新手能用上PhantomJS。

第一步:開啟visual studio 2017 建立一個控制台項目,開啟nuget包管理器。

第二部:搜尋Selenium,安裝Selenium.WebDriver。注意:如果要使用代理的話最好安裝3.0.0版本。

第三步:寫下如所示的代碼。但是執行的時候會報錯。原因是找不到PhantomJS.exe。這時候可以去下載一個,也可以繼續看第四步。

using OpenQA.Selenium;using OpenQA.Selenium.PhantomJS;using System;namespace ConsoleApp1{    class Program    {        static void Main(string[] args)        {            var url = "http://www.baidu.com";            IWebDriver driver = new PhantomJSDriver(GetPhantomJSDriverService());            driver.Navigate().GoToUrl(url);            Console.WriteLine(driver.PageSource);            Console.Read();        }        private static PhantomJSDriverService GetPhantomJSDriverService()        {            PhantomJSDriverService pds = PhantomJSDriverService.CreateDefaultService();            //設定Proxy 伺服器地址            //pds.Proxy = $"{ip}:{port}";              //設定Proxy 伺服器認證資訊            //pds.ProxyAuthentication = GetProxyAuthorization();            return pds;        }    }}

第四步:開啟nuget安裝Selenium.PhantomJS.WebDriver包。

第五步:運行。可以看到phantomjs.exe被自動下載了。

好了,這樣就可以開始你的資料抓取大業了。

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.