這方面的文章多得很,我這裡把一些細節說一下。
1. 選用C#中的HttpWebRequest、HttpWebResponse和CookieContainer類。HttpWebRequest是用來提交web請求的,包括post和get;HttpWebResponse是用來接收伺服器對本次請求的回複;CookieContainer是用來存放Cookie的集合,有些頁面只有登入使用者才能查看。這個時候就需要儲存Cookie,以便使登入時建立的session儲存下來這樣伺服器就會認為我們一直是登入狀態了。
2. 在瀏覽器中正常登入一次,查看登入時的post資訊。我推薦使用FireFox瀏覽器+HttpFox外掛程式。主要是查看post字串和提交的URL。比如登入上交葡萄(http://pt.sjtu.edu.cn/login.php),post的字串為“username=test&password=123456”,對應的URL為“http://pt.sjtu.edu.cn/takelogin.php”。在HttpWebRequest中設定一些這些屬性即可實現登入功能,關鍵的代碼如下:
string data = "username=test&password=123456";
cookie = new CookieContainer();
byte[] byteArray = Encoding.UTF8.GetBytes(data);
request = (HttpWebRequest)HttpWebRequest.Create("http://pt.sjtu.edu.cn/takelogin.php");
request.CookieContainer = cookie;
request.Method = "POST";
request.ContentType = "application/x-www-form-urlencoded";
request.ContentLength = byteArray.Length;
Stream stream = request.GetRequestStream();
stream.Write(byteArray, 0, byteArray.Length);
stream.Close();
response = (HttpWebResponse)request.GetResponse();
StreamReader reader = new StreamReader(response.GetResponseStream(), Encoding.UTF8);
string resPage = reader.ReadToEnd();
3. 如果伺服器端設定了CAS伺服器,登入過程就會複雜一些。首先也是用HttpFox查看登入過程,會發現當post使用者名稱+密碼後,會得到CAS伺服器回送的一個轉移地址(臨時產生的URL)。訪問該URL,伺服器回送一個JSESSIONID,作為本次會話的憑據,也是唯一的。將該JSESSIONID加入到CookieContainer中:
cookie.Add(new Uri("http://passport.xjtuns.cn"), new Cookie("JSESSIONID", jsessionid));
這時就已經登入了,可以訪問登陸後才能訪問的頁面。
4. 最困難的情況,就是登陸頁面上面有圖片形式的驗證碼,我想到的解決方案有:人工參與、設定cookie和圖片識別。第一種方法,就是在試圖登入時,將頁面的驗證碼圖片下載到本地,人眼識別後由程式繼續進行下面的工作。第二種方法,首先在瀏覽器中登入一次,記錄下cookie中的資訊(一般是c_expiresintv、c_secure_uid、 c_secure_pass、 c_secure_ssl、c_secure_login等資訊,通過HttpFox都可以查看到),然後在程式中設定User-Agent和這些cookie資料,冒充瀏覽器。當然這個過程中,不要關閉瀏覽器。第三種方法比較困難,需要設計影像處理和模式識別的演算法,而且一旦一次提交錯誤,伺服器會更新驗證碼圖片。
如果驗證碼是純數位,我的下一篇文章(http://blog.csdn.net/zheng_ai/archive/2010/08/15/5813693.aspx)或許能有所協助。