使用 axWebBrowser 控制項
引用 mshtml
[1)去掉HTML標記及其標記中的屬性
[2)axWebBrower 開啟某個頁面
[3)取出HTML原始碼
1)去掉HTML標記及其標記中的屬性
private string getOneValue(string TempStr)
{
if(TempStr.Length >0)
{
TempStr = regularExpressionsOfHTML(TempStr);
TempStr = TempStr.Substring(0,TempStr.Length-1);
}
return TempStr;
}
public static string regularExpressionsOfHTML(string TempContent)
{
//TempContent = System.Text.RegularExpressions.Regex.Replace(TempContent,"<[^>]+>",""); //任意多個
TempContent = System.Text.RegularExpressions.Regex.Replace(TempContent,"<[^>]*>",""); //匹配一個
return TempContent;
}
2)axWebBrower 開啟某個頁面
string Url = "**********";
object Zero = 0;
object EmptyString = "";
axWebBrowser.Navigate(Url ,ref Zero, ref EmptyString, ref EmptyString, ref EmptyString);
3)取出HTML原始碼
在axWebBrower_DocumentComplete事件中比較好
引用:using mshtml;
IHTMLDocument2 HTMLDocument =(IHTMLDocument2) axWebBrowser1.Document;
string strHtml = HTMLDocument.body.innerHTML.ToString(); //Get HTML
string[] arHtml = strHtml.Split('\n');
此時arHtml中儲存了所有的HTML source.