先寫一個簡單的抓取頁面函數
複製代碼 代碼如下:
<?php
function GetSources($Url,$User_Agent='',$Referer_Url='') //抓取某個指定的頁面
{
//$Url 需要抓取的頁面地址
//$User_Agent 需要返回的user_agent資訊 如“baiduspider”或“googlebot”
$ch = curl_init();
curl_setopt ($ch, CURLOPT_URL, $Url);
curl_setopt ($ch, CURLOPT_USERAGENT, $User_Agent);
curl_setopt ($ch, CURLOPT_REFERER, $Referer_Url);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION,1);
curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1);
$MySources = curl_exec ($ch);
curl_close($ch);
return $MySources;
}
$Url = "http://www.jb51.net"; //要擷取內容的也沒
$User_Agent = "baiduspider+(+http://www.baidu.com/search/spider.htm)";
$Referer_Url = 'http://www.jb51.net/';
echo GetSources($Url,$User_Agent,$Referer_Url);
?>
PHP中的CURL函數庫(Client URL Library Function)
curl_close — 關閉一個curl會話;
curl_copy_handle — 拷貝一個curl串連資源的所有內容和參數;
curl_errno — 返回一個包含當前會話錯誤資訊的數字編號;
curl_error — 返回一個包含當前會話錯誤資訊的字串;
curl_exec — 執行一個curl會話;
curl_getinfo — 擷取一個curl串連資源控制代碼的資訊;
curl_init — 初始化一個curl會話;
curl_multi_add_handle — 向curl批處理會話中添加單獨的curl控制代碼資源;
curl_multi_close — 關閉一個批處理控制代碼資源;
curl_multi_exec — 解析一個curl批處理控制代碼;
curl_multi_getcontent — 返回擷取的輸出的文字資料流;
curl_multi_info_read — 擷取當前解析的curl的相關傳輸資訊;
curl_multi_init — 初始化一個curl批處理控制代碼資源;
curl_multi_remove_handle — 移除curl批處理控制代碼資源中的某個控制代碼資源;
curl_multi_select — Get all the sockets associated with the cURL extension, which can then be "selected";
curl_setopt_array — 以數組的形式為一個curl設定會話參數;
curl_setopt — 為一個curl設定會話參數;
curl_version — 擷取curl相關的版本資訊;
curl_init()函數的作用初始化一個curl會話,curl_init()函數唯一的一個參數是可選的,表示一個url地址;
curl_exec()函數的作用是執行一個curl會話,唯一的參數是curl_init()函數返回的控制代碼;
curl_close()函數的作用是關閉一個curl會話,唯一的參數是curl_init()函數返回的控制代碼;
PHP代碼
複製代碼 代碼如下:
<?php
$ch = curl_init("http://blog.huangchao.org/");
curl_exec($ch);
curl_close($ch);
?>
curl_version()函數的作用是擷取curl相關的版本資訊,curl_version()函數有一個參數,不清楚是做什麼的;
PHP代碼
<?php
print_r(curl_version())
?>
curl_getinfo()函數的作用是擷取一個curl串連資源控制代碼的資訊,curl_getinfo()函數有兩個參數,第一個參數是curl的資源控制代碼,第二個參數是下面一些常量:
PHP代碼
複製代碼 代碼如下:
<?php
$ch = curl_init("http://blog.huangchao.org/");
print_r(curl_getinfo($ch));
?>
可選的常量包括:
CURLINFO_EFFECTIVE_URL:最後一個有效url地址;
CURLINFO_HTTP_CODE:最後一個收到的HTTP代碼;
CURLINFO_FILETIME:遠程擷取文檔的時間,如果無法擷取,則傳回值為“-1”;
CURLINFO_TOTAL_TIME:最後一次傳輸所消耗的時間;
CURLINFO_NAMELOOKUP_TIME:名稱解析所消耗的時間;
CURLINFO_CONNECT_TIME:建立串連所消耗的時間;
CURLINFO_PRETRANSFER_TIME:從建立串連到準備傳輸所使用的時間;
CURLINFO_STARTTRANSFER_TIME:從建立串連到傳輸開始所使用的時間;
CURLINFO_REDIRECT_TIME:在事務傳輸開始前重新導向所使用的時間;
CURLINFO_SIZE_UPLOAD:上傳資料量的總值;
CURLINFO_SIZE_DOWNLOAD:下載資料量的總值;
CURLINFO_SPEED_DOWNLOAD:平均下載速度;
CURLINFO_SPEED_UPLOAD:平均上傳速度;
CURLINFO_HEADER_SIZE:header部分的大小;
CURLINFO_HEADER_OUT:發送請求的字串;
CURLINFO_REQUEST_SIZE:在HTTP請求中有問題的請求的大小;
CURLINFO_SSL_VERIFYRESULT:Result of SSL certification verification requested by setting CURLOPT_SSL_VERIFYPEER;
CURLINFO_CONTENT_LENGTH_DOWNLOAD:從Content-Length: field中讀取的下載內容長度;
CURLINFO_CONTENT_LENGTH_UPLOAD:上傳內容大小的說明;
CURLINFO_CONTENT_TYPE:下載內容的“Content-type”值,NULL表示伺服器沒有發送有效“Content-Type: header”;
curl_setopt()函數的作用是為一個curl設定會話參數。curl_setopt_array()函數的作用是以數組的形式為一個curl設定會話參數;
PHP代碼
複製代碼 代碼如下:
<?php
$ch = curl_init();
$fp = fopen("example_homepage.txt", "w");
curl_setopt($ch, CURLOPT_FILE, $fp);
$options = array(
CURLOPT_URL => 'http://www.baidu.com/',
CURLOPT_HEADER => false
);
curl_setopt_array($ch, $options);
curl_exec($ch);
curl_close($ch);
fclose($fp);
?>
可設定的參數有:
CURLOPT_AUTOREFERER:自動化佈建header中的referer資訊;
CURLOPT_BINARYTRANSFER:在啟用CURLOPT_RETURNTRANSFER時候將擷取資料返回;
CURLOPT_COOKIESESSION:啟用時curl會僅僅傳遞一個session cookie,忽略其他的cookie,預設狀況下curl會將所有的cookie返回給服務端。session cookie是指那些用來判斷伺服器端的session是否有效而存在的cookie;
CURLOPT_CRLF:啟用時將Unix的分行符號轉換成斷行符號分行符號;
CURLOPT_DNS_USE_GLOBAL_CACHE:啟用時會啟用一個全域的DNS緩衝,此項為安全執行緒的,並且預設為true;
CURLOPT_FAILONERROR:顯示HTTP狀態代碼,預設行為是忽略編號小於等於400的HTTP資訊;
CURLOPT_FILETIME:啟用時會嘗試修改遠程文檔中的資訊。結果資訊會通過curl_getinfo()函數的CURLINFO_FILETIME選項返回;
CURLOPT_FOLLOWLOCATION:啟用時會將伺服器伺服器返回的“Location:”放在header中遞迴的返回給伺服器,使用CURLOPT_MAXREDIRS可以限定遞迴返回的數量;
CURLOPT_FORBID_REUSE:在完成互動以後強迫中斷連線,不能重用;
CURLOPT_FRESH_CONNECT:強制擷取一個新的串連,替代緩衝中的串連;
CURLOPT_FTP_USE_EPRT:TRUE to use EPRT (and LPRT) when doing active FTP downloads. Use FALSE to disable EPRT and LPRT and use PORT only;Added in PHP 5.0.0.
CURLOPT_FTP_USE_EPSV:TRUE to first try an EPSV command for FTP transfers before reverting back to PASV. Set to FALSE to disable EPSV;
CURLOPT_FTPAPPEND:TRUE to append to the remote file instead of overwriting it;
CURLOPT_FTPASCII:An alias of CURLOPT_TRANSFERTEXT. Use that instead;
CURLOPT_FTPLISTONLY:TRUE to only list the names of an FTP directory;
CURLOPT_HEADER:啟用時會將標頭檔的資訊作為資料流輸出;
CURLOPT_HTTPGET:啟用時會設定HTTP的method為GET,因為GET是預設是,所以只在被修改的情況下使用;
CURLOPT_HTTPPROXYTUNNEL:啟用時會通過HTTP代理來傳輸;
CURLOPT_MUTE:講curl函數中所有修改過的參數恢複預設值;
CURLOPT_NETRC:在串連建立以後,訪問~/.netrc檔案擷取使用者名稱和密碼資訊串連遠端站台;
CURLOPT_NOBODY:啟用時將不對HTML中的body部分進行輸出;
CURLOPT_NOPROGRESS:啟用時關閉curl傳輸的進度條,此項的預設設定為true;
CURLOPT_NOSIGNAL:啟用時忽略所有的curl傳遞給php進行的訊號。在SAPI多線程傳輸時此項被預設開啟;
CURLOPT_POST:啟用時會發送一個常規的POST請求,類型為:application/x-www-form-urlencoded,就像表單提交的一樣;
CURLOPT_PUT:啟用時允許HTTP傳送檔案,必須同時設定CURLOPT_INFILE和CURLOPT_INFILESIZE
CURLOPT_RETURNTRANSFER:將curl_exec()擷取的資訊以檔案流的形式返回,而不是直接輸出;
CURLOPT_SSL_VERIFYPEER:FALSE to stop cURL from verifying the peer's certificate. Alternate certificates to verify against can be specified with the CURLOPT_CAINFO option or a certificate directory can be specified with the CURLOPT_CAPATH option. CURLOPT_SSL_VERIFYHOST may also need to be TRUE or FALSE if CURLOPT_SSL_VERIFYPEER is disabled (it defaults to 2). TRUE by default as of cURL 7.10. Default bundle installed as of cURL 7.10;
CURLOPT_TRANSFERTEXT:TRUE to use ASCII mode for FTP transfers. For LDAP, it retrieves data in plain text instead of HTML. On Windows systems, it will not set STDOUT to binary mode;
CURLOPT_UNRESTRICTED_AUTH:在使用CURLOPT_FOLLOWLOCATION產生的header中的多個locations中持續追加使用者名稱和密碼資訊,即使網域名稱已發生改變;
CURLOPT_UPLOAD:啟用時允許檔案傳輸;
CURLOPT_VERBOSE:啟用時會彙報所有的資訊,存放在STDERR或指定的CURLOPT_STDERR中;
CURLOPT_BUFFERSIZE:每次擷取的資料中讀入緩衝的大小,這個值每次都會被填滿;
CURLOPT_CLOSEPOLICY:不是CURLCLOSEPOLICY_LEAST_RECENTLY_USED就是CURLCLOSEPOLICY_OLDEST,還存在另外三個,但是curl暫時還不支援;
CURLOPT_CONNECTTIMEOUT:在發起串連前等待的時間,如果設定為0,則不等待;
CURLOPT_DNS_CACHE_TIMEOUT:設定在記憶體中儲存DNS資訊的時間,預設為120秒;
CURLOPT_FTPSSLAUTH:The FTP authentication method (when is activated): CURLFTPAUTH_SSL (try SSL first), CURLFTPAUTH_TLS (try TLS first), or CURLFTPAUTH_DEFAULT (let cURL decide);
CURLOPT_HTTP_VERSION:設定curl使用的HTTP協議,CURL_HTTP_VERSION_NONE(讓curl自己判斷),CURL_HTTP_VERSION_1_0(HTTP/1.0),CURL_HTTP_VERSION_1_1(HTTP/1.1);
CURLOPT_HTTPAUTH:使用的HTTP驗證方法,可選的值有:CURLAUTH_BASIC,CURLAUTH_DIGEST,CURLAUTH_GSSNEGOTIATE,CURLAUTH_NTLM,CURLAUTH_ANY,CURLAUTH_ANYSAFE,可以使用“|”操作符分隔多個值,curl讓伺服器選擇一個支援最好的值,CURLAUTH_ANY等價於CURLAUTH_BASIC | CURLAUTH_DIGEST | CURLAUTH_GSSNEGOTIATE | CURLAUTH_NTLM,CURLAUTH_ANYSAFE等價於CURLAUTH_DIGEST | CURLAUTH_GSSNEGOTIATE | CURLAUTH_NTLM
CURLOPT_INFILESIZE:設定上傳檔案的大小;
CURLOPT_LOW_SPEED_LIMIT:當傳輸速度小於CURLOPT_LOW_SPEED_LIMIT時,PHP會根CURLOPT_LOW_SPEED_TIME來判斷是否因太慢而取消傳輸;
CURLOPT_LOW_SPEED_TIME:The number of seconds the transfer should be below CURLOPT_LOW_SPEED_LIMIT for PHP to consider the transfer too slow and abort;
當傳輸速度小於CURLOPT_LOW_SPEED_LIMIT時,PHP會根據CURLOPT_LOW_SPEED_TIME來判斷是否因太慢而取消傳輸;
CURLOPT_MAXCONNECTS:允許的最大串連數量,超過是會通過CURLOPT_CLOSEPOLICY決定應該停止哪些串連;
CURLOPT_MAXREDIRS:指定最多的HTTP重新導向的數量,這個選項是和CURLOPT_FOLLOWLOCATION一起使用的;
CURLOPT_PORT:一個可選的用來指定串連連接埠的量;
CURLOPT_PROXYAUTH:The HTTP authentication method(s) to use for the proxy connection. Use the same bitmasks as described in CURLOPT_HTTPAUTH. For proxy authentication, only CURLAUTH_BASIC and CURLAUTH_NTLM are currently supported.
CURLOPT_PROXYPORT:The port number of the proxy to connect to. This port number can also be set in CURLOPT_PROXY.
CURLOPT_PROXYTYPE:Either CURLPROXY_HTTP (default) or CURLPROXY_SOCKS5.
CURLOPT_RESUME_FROM:在恢複傳輸時傳遞一個位元組位移量(用來斷點續傳)
CURLOPT_SSL_VERIFYHOST:
1 to check the existence of a common name in the SSL peer certificate.
2 to check the existence of a common name and also verify that it matches the hostname provided.
CURLOPT_SSLVERSION:The SSL version (2 or 3) to use. By default PHP will try to determine this itself, although in some cases this must be set manually.
CURLOPT_TIMECONDITION:如果在CURLOPT_TIMEVALUE指定的某個時間以後被編輯過,則使用CURL_TIMECOND_IFMODSINCE返回頁面,如果沒有被修改過,並且CURLOPT_HEADER為true,則返回一個"304 Not Modified"的header,CURLOPT_HEADER為false,則使用CURL_TIMECOND_ISUNMODSINCE,預設值為CURL_TIMECOND_IFMODSINCE
CURLOPT_TIMEOUT:設定curl允許執行的最長秒數
CURLOPT_TIMEVALUE:設定一個CURLOPT_TIMECONDITION使用的時間戳記,在預設狀態下使用的是CURL_TIMECOND_IFMODSINCE
CURLOPT_CAINFO:The name of a file holding one or more certificates to verify the peer with. This only makes sense when used in combination with CURLOPT_SSL_VERIFYPEER.
CURLOPT_CAPATH:A directory that holds multiple CA certificates. Use this option alongside CURLOPT_SSL_VERIFYPEER.
CURLOPT_COOKIE:設定HTTP請求中“Set-Cookie:”部分的內容。
CURLOPT_COOKIEFILE:包含cookie資訊的檔案名稱,這個cookie檔案可以是Netscape格式或者HTTP風格的header資訊。
CURLOPT_COOKIEJAR:串連關閉以後,存放cookie資訊的檔案名稱
CURLOPT_CUSTOMREQUEST:A custom request method to use instead of "GET" or "HEAD" when doing a HTTP request. This is useful for doing "DELETE" or other, more obscure HTTP requests. Valid values are things like "GET", "POST", "CONNECT" and so on; i.e. Do not enter a whole HTTP request line here. For instance, entering "GET /index.html HTTP/1.0\r\n\r\n" would be incorrect.
Note: Don't do this without making sure the server supports the custom request method first.
CURLOPT_EGBSOCKET:Like CURLOPT_RANDOM_FILE, except a filename to an Entropy Gathering Daemon socket.
CURLOPT_ENCODING:header中“Accept-Encoding: ”部分的內容,支援的編碼格式為:"identity","deflate","gzip"。如果設定為空白字串,則表示支援所有的編碼格式
CURLOPT_FTPPORT:The value which will be used to get the IP address to use for the FTP "POST" instruction. The "POST" instruction tells the remote server to connect to our specified IP address. The string may be a plain IP address, a hostname, a network interface name (under Unix), or just a plain '-' to use the systems default IP address.
CURLOPT_INTERFACE:在外部網路介面中使用的名稱,可以是一個介面名,IP或者主機名稱。
CURLOPT_KRB4LEVEL:KRB4(Kerberos 4)安全層級的設定,可以是一下幾個值之一:"clear","safe","confidential","private"。預設的值為"private",設定為null的時候表示禁用KRB4,現在KRB4安全僅能在FTP傳輸中使用。
CURLOPT_POSTFIELDS:在HTTP中的“POST”操作。如果要傳送一個檔案,需要一個@開頭的檔案名稱
CURLOPT_PROXY:設定通過的HTTPProxy 伺服器
CURLOPT_PROXYUSERPWD:串連到Proxy 伺服器的,格式為“[username]:[password]”的使用者名稱和密碼。
CURLOPT_RANDOM_FILE:設定存放SSL用到的隨機數種子的檔案名稱
CURLOPT_RANGE:設定HTTP傳輸範圍,可以用“X-Y”的形式設定一個傳輸區間,如果有多個HTTP傳輸,則使用逗號分隔多個值,形如:"X-Y,N-M"。
CURLOPT_REFERER:設定header中"Referer: " 部分的值。
CURLOPT_SSL_CIPHER_LIST:A list of ciphers to use for SSL. For example, RC4-SHA and TLSv1 are valid cipher lists.
CURLOPT_SSLCERT:傳遞一個包含PEM格式認證的字串。
CURLOPT_SSLCERTPASSWD:傳遞一個包含使用CURLOPT_SSLCERT認證必需的密碼。
CURLOPT_SSLCERTTYPE:The format of the certificate. Supported formats are "PEM" (default), "DER", and "ENG".
CURLOPT_SSLENGINE:The identifier for the crypto engine of the private SSL key specified in CURLOPT_SSLKEY.
CURLOPT_SSLENGINE_DEFAULT:The identifier for the crypto engine used for asymmetric crypto operations.
CURLOPT_SSLKEY:The name of a file containing a private SSL key.
CURLOPT_SSLKEYPASSWD:The secret password needed to use the private SSL key specified in CURLOPT_SSLKEY.
Note: Since this option contains a sensitive password, remember to keep the PHP script it is contained within safe.
CURLOPT_SSLKEYTYPE:The key type of the private SSL key specified in CURLOPT_SSLKEY. Supported key types are "PEM" (default), "DER", and "ENG".
CURLOPT_URL:需要擷取的URL地址,也可以在PHP的curl_init()函數中設定。
CURLOPT_USERAGENT:在HTTP請求中包含一個”user-agent”頭的字串。
CURLOPT_USERPWD:傳遞一個串連中需要的使用者名稱和密碼,格式為:“[username]:[password]”。
CURLOPT_HTTP200ALIASES:設定不再以error的形式來處理HTTP 200的響應,格式為一個數組。
CURLOPT_HTTPHEADER:設定一個header中傳輸內容的數組。
CURLOPT_POSTQUOTE:An array of FTP commands to execute on the server after the FTP request has been performed.
CURLOPT_QUOTE:An array of FTP commands to execute on the server prior to the FTP request.
CURLOPT_FILE:設定輸出檔案的位置,值是一個資源類型,預設為STDOUT (瀏覽器)。
CURLOPT_INFILE:在上傳檔案的時候需要讀取的檔案地址,值是一個資源類型。
CURLOPT_STDERR:設定一個錯誤輸出地址,值是一個資源類型,取代預設的STDERR。
CURLOPT_WRITEHEADER:設定header部分內容的寫入的檔案地址,值是一個資源類型。
CURLOPT_HEADERFUNCTION:設定一個回呼函數,這個函數有兩個參數,第一個是curl的資源控制代碼,第二個是輸出的header資料。header資料的輸出必須依賴這個函數,返回已寫入的資料大小。
CURLOPT_PASSWDFUNCTION:設定一個回呼函數,有三個參數,第一個是curl的資源控制代碼,第二個是一個密碼提示符,第三個參數是密碼長度允許的最大值。返回密碼的值。
CURLOPT_READFUNCTION:設定一個回呼函數,有兩個參數,第一個是curl的資源控制代碼,第二個是讀取到的資料。資料讀取必須依賴這個函數。返回讀取資料的大小,比如0或者EOF。
CURLOPT_WRITEFUNCTION:設定一個回呼函數,有兩個參數,第一個是curl的資源控制代碼,第二個是寫入的資料。資料寫入必須依賴這個函數。返回精確的已寫入資料的大小
curl_copy_handle()函數的作用是拷貝一個curl串連資源的所有內容和參數
PHP代碼
複製代碼 代碼如下:
<?php
$ch = curl_init("http://qzone.myqq.us/");
$another = curl_copy_handle($ch);
curl_exec($another);
curl_close($another);
?>
curl_error()函數的作用是返回一個包含當前會話錯誤資訊的字串。
curl_errno()函數的作用是返回一個包含當前會話錯誤資訊的數字編號。
curl_multi_init()函數的作用是初始化一個curl批處理控制代碼資源。
curl_multi_add_handle()函數的作用是向curl批處理會話中添加單獨的curl控制代碼資源。curl_multi_add_handle()函數有兩個參數,第一個參數表示一個curl批處理控制代碼資源,第二個參數表示一個單獨的curl控制代碼資源。
curl_multi_exec()函數的作用是解析一個curl批處理控制代碼,curl_multi_exec()函數有兩個參數,第一個參數表示一個批處理控制代碼資源,第二個參數是一個引用值的參數,表示剩餘需要處理的單個的curl控制代碼資源數量。
curl_multi_remove_handle()函數表示移除curl批處理控制代碼資源中的某個控制代碼資源,curl_multi_remove_handle()函數有兩個參數,第一個參數表示一個curl批處理控制代碼資源,第二個參數表示一個單獨的curl控制代碼資源。
curl_multi_close()函數的作用是關閉一個批處理控制代碼資源。
PHP代碼
複製代碼 代碼如下:
<?php
$ch1 = curl_init();
$ch2 = curl_init();
curl_setopt($ch1, CURLOPT_URL, "http://blog.huangchao.org/");
curl_setopt($ch1, CURLOPT_HEADER, 0);
curl_setopt($ch2, CURLOPT_URL, "http://test.huangchao.org/");
curl_setopt($ch2, CURLOPT_HEADER, 0);
$mh = curl_multi_init();
curl_multi_add_handle($mh,$ch1);
curl_multi_add_handle($mh,$ch2);
do {
curl_multi_exec($mh,$flag);
} while ($flag > 0);
curl_multi_remove_handle($mh,$ch1);
curl_multi_remove_handle($mh,$ch2);
curl_multi_close($mh);
?>
curl_multi_getcontent()函數的作用是在設定了CURLOPT_RETURNTRANSFER的情況下,返回擷取的輸出的文字資料流。
curl_multi_info_read()函數的作用是擷取當前解析的curl的相關傳輸資訊。
curl_multi_select():Get all the sockets associated with the cURL extension, which can then be "selected"