php curl抓取網頁的介紹和推廣及使用CURL抓取淘寶頁面整合方法_php執行個體

來源:互聯網
上載者:User

 php的curl可以用來實現抓取網頁,分析網頁資料用, 簡潔易用, 這裡介紹其函數等就不詳細描述, 放上代碼看看:

只保留了其中幾個主要的函數。 實現類比登陸, 其中可能涉及到session捕獲, 然後前後頁面涉及參數提供形式。

  libcurl主要功能就是用不同的協議串連和溝通不同的伺服器~也就是相當封裝了的sock

  PHP 支援libcurl(允許你用不同的協議串連和溝通不同的伺服器)。, libcurl當前支援http, https, ftp, gopher, telnet, dict, file, 和ldap 協議。libcurl同樣支援HTTPS認證授權,HTTP POST, HTTP PUT, FTP 上傳(當然你也可以使用PHP的ftp擴充), HTTP基本表單上傳,代理,cookies,和使用者認證。

  為了使用CURL函數你需要安裝CURL包。PHP 需要你使用CURL 7.0.2-beta或更高版。如果CURL的版本低於7.0.2-beta,PHP將不工作。

  要使用PHP的CURL支援,你必須用帶有--with-curl[=DIR]參數重新編譯PHP(DIR是包含庫和標頭檔的目錄)。

  這些函數是在PHP 4.0.2中新增得。

  一旦你編譯了帶有CURL支援的PHP,你可以使用curl函數。基本思路是:你使用curl_init()函數初始化 CURL會話,而後你可以設定你的所有選項,通過curl_exec()函數執行,最後你可以作用curl_close()函數來結束你的會話。以下是一個例子:是把PHP的首頁取回放到一個檔案中。

  例 1. 使用PHP的CURL模組取回PHP首頁

$ch = curl_init ("http://www.php.net/");  $fp = fopen ("php_homepage.txt", "w");  curl_setopt ($ch, CURLOPT_FILE, $fp);  curl_setopt ($ch, CURLOPT_HEADER, 0);  curl_exec ($ch);  curl_close ($ch);  fclose ($fp);  ?>

  目錄列表

  curl_init — 初始化一個CURL會話

  curl_setopt — 為CURL調用設定一個選項

  curl_exec — 執行一個CURL會話

  curl_close — 關閉一個CURL會話

  curl_version — 返回當前CURL版本

  * curl擴充的安裝

  PHP已經內建有php_curl.dll,在ext目錄下,此DLL用於支援SSL和zlib.

  在php.ini中找到有extension=php_curl.dll, 去掉前面的注釋.

  設定extension_dir=你的php的ext目錄(例如c:/php/ext)

  把ext目錄下的libeay32.dll, ssleay32.dll, php5ts.dll, php_curl.dll 都拷貝到system32目錄下,重啟apache即可。

  curl_init

  curl_init -- 初始化一個CURL會話

  描述

int curl_init ([string url])

  curl_init()函數將初始化一個新的會話,返回一個CURL控制代碼供curl_setopt(), curl_exec(),和 curl_close() 函數使用。如果選擇性參數被提供,那麼CURLOPT_URL選項將被設定成這個參數的值。你可以使用curl_setopt()函數人工設定。

  例 1. 初始化一個新的CURL會話,且取回一個網頁

$ch = curl_init();  curl_setopt ($ch, CURLOPT_URL, "http://www.zend.com/");  curl_setopt ($ch, CURLOPT_HEADER, 0);  curl_exec ($ch);  curl_close ($ch);  ?>

  參見:curl_close(), curl_setopt()

  * curl_setopt

  curl_setopt -- 為CURL調用設定一個選項

  描述 

 bool curl_setopt (int ch, string option, mixed value)

  curl_setopt()函數將為一個CURL會話設定選項。option參數是你想要的設定,value是這個選項給定的值。

  下列選項的值將被作為長整形使用(在option參數中指定):

  CURLOPT_INFILESIZE: 當你上傳一個檔案到遠端站台,這個選項告訴PHP你上傳檔案的大小。

  CURLOPT_VERBOSE: 如果你想CURL報告每一件意外的事情,設定這個選項為一個非零值。

  CURLOPT_HEADER: 如果你想把一個頭包含在輸出中,設定這個選項為一個非零值。

  CURLOPT_NOPROGRESS: 如果你不會PHP為CURL傳輸顯示一個進程條,設定這個選項為一個非零值。

  注意:PHP自動化佈建這個選項為非零值,你應該僅僅為了調試的目的來改變這個選項。

  CURLOPT_NOBODY: 如果你不想在輸出中包含body部分,設定這個選項為一個非零值。

  CURLOPT_FAILONERROR: 如果你想讓PHP在發生錯誤(HTTP代碼返回大於等於300)時,不顯示,設定這個選項為一人非零值。預設行為是返回一個正常頁,忽略代碼。

  CURLOPT_UPLOAD: 如果你想讓PHP為上傳做準備,設定這個選項為一個非零值。

  CURLOPT_POST: 如果你想PHP去做一個正規的HTTP POST,設定這個選項為一個非零值。這個POST是普通的 application/x-www-from-urlencoded 類型,多數被HTML表單使用。

  CURLOPT_FTPLISTONLY: 設定這個選項為非零值,PHP將列出FTP的目錄名列表。

  CURLOPT_FTPAPPEND: 設定這個選項為一個非零值,PHP將應用遠程檔案代替覆蓋它。

  CURLOPT_NETRC: 設定這個選項為一個非零值,PHP將在你的 ~./netrc 檔案中尋找你要建立串連的遠端站台的使用者名稱及密碼。

  CURLOPT_FOLLOWLOCATION: 設定這個選項為一個非零值(象 "Location: ")的頭,伺服器會把它當做HTTP頭的一部分發送(注意這是遞迴的,PHP將發送形如 "Location: "的頭)。

  CURLOPT_PUT: 設定這個選項為一個非零值去用HTTP上傳一個檔案。要上傳這個檔案必須設定CURLOPT_INFILE和CURLOPT_INFILESIZE選項.

  CURLOPT_MUTE: 設定這個選項為一個非零值,PHP對於CURL函數將完全沉默。

  CURLOPT_TIMEOUT: 設定一個長整形數,作為最大延續多少秒。

  CURLOPT_LOW_SPEED_LIMIT: 設定一個長整形數,控制傳送多少位元組。

  CURLOPT_LOW_SPEED_TIME: 設定一個長整形數,控制多少秒傳送CURLOPT_LOW_SPEED_LIMIT規定的位元組數。

  CURLOPT_RESUME_FROM: 傳遞一個包含位元組位移地址的長整形參數,(你想轉移到的開始表單)。

  CURLOPT_SSLVERSION: 傳遞一個包含SSL版本的長參數。預設PHP將被它自己努力的確定,在更多的安全中你必須手工設定。

  CURLOPT_TIMECONDITION: 傳遞一個長參數,指定怎麼處理CURLOPT_TIMEVALUE參數。你可以設定這個參數為TIMECOND_IFMODSINCE 或 TIMECOND_ISUNMODSINCE。這僅用於HTTP。

  CURLOPT_TIMEVALUE: 傳遞一個從1970-1-1開始到現在的秒數。這個時間將被CURLOPT_TIMEVALUE選項作為指定值使用,或被預設TIMECOND_IFMODSINCE使用。

  下列選項的值將被作為字串:

  CURLOPT_URL: 這是你想用PHP取回的URL地址。你也可以在用curl_init()函數初始化時設定這個選項。

  CURLOPT_USERPWD: 傳遞一個形如[username]:[password]風格的字串,作用PHP去串連。

  CURLOPT_PROXYUSERPWD: 傳遞一個形如[username]:[password] 格式的字串去串連HTTP代理。

  CURLOPT_RANGE: 傳遞一個你想指定的範圍。它應該是"X-Y"格式,X或Y是被除外的。HTTP傳送同樣支援幾個間隔,用逗句來分隔(X-Y,N-M)。

  CURLOPT_POSTFIELDS: 傳遞一個作為HTTP “POST”操作的所有資料的字串。

  CURLOPT_REFERER: 在HTTP請求中包含一個"referer"頭的字串。

  CURLOPT_USERAGENT: 在HTTP請求中包含一個"user-agent"頭的字串。

  CURLOPT_FTPPORT: 傳遞一個包含被ftp "POST"指令使用的IP地址。這個POST指令告訴遠程伺服器去串連我們指定的IP地址。 這個字串可以是一個IP地址,一個主機名稱,一個網路介面名(在UNIX下),或是'-'(使用系統預設IP地址)。

  CURLOPT_COOKIE: 傳遞一個包含HTTP cookie的頭串連。

  CURLOPT_SSLCERT: 傳遞一個包含PEM格式認證的字串。

  CURLOPT_SSLCERTPASSWD: 傳遞一個包含使用CURLOPT_SSLCERT認證必需的密碼。

  CURLOPT_COOKIEFILE: 傳遞一個包含cookie資料的檔案的名字的字串。這個cookie檔案可以是Netscape格式,或是堆存在檔案中的HTTP風格的頭。

  CURLOPT_CUSTOMREQUEST: 當進行HTTP請求時,傳遞一個字元被GET或HEAD使用。為進行DELETE或其它操作是有益的,更Pass a string to be used instead of GET or HEAD when doing an HTTP request. This is useful for doing or another, more obscure, HTTP request.

  注意: 在確認你的伺服器支援命令先不要去這樣做。

  下列的選項要求一個檔案描述(通過使用fopen()函數獲得):

  CURLOPT_FILE: 這個檔案將是你放置傳送的輸出檔案,預設是STDOUT.

  CURLOPT_INFILE: 這個檔案是你傳送過來的輸入檔案。

  CURLOPT_WRITEHEADER: 這個檔案寫有你輸出的頭部分。

  CURLOPT_STDERR: 這個檔案寫有錯誤而不是stderr。

  * curl_exec

  curl_exec -- 執行一個CURL會話

  描述

  bool curl_exec (int ch)

  在你初始化一個CURL會話,及為這個會話設定了所有的選項後,這個函數將被調用。它的目的僅僅是執行預先確定的CURL會話(通過給定的ch參數)。

  * curl_close

  curl_close -- 關閉一個CURL會話

  描述

  void curl_close (int ch)

  這個函數關閉一個CURL會話,並且釋放所有的資源。CURL控制代碼(ch參數)也被刪除。

  * curl_version

  curl_version -- 返回當前CURL版本

  描述

  string curl_version (void)

curl_version()函數返回一個包含CURL版本的字串。

<?php class MultiHttpRequest{   public $urls = array();   public $curlopt_header = 0;   public $cookie_file = '';   public $collect_save_file = '';   public $start_timestamp = '';   public $end_timestamp = '';   private $log_handle = '';   private $collect_save_handle = '';   private $db_conn = false;   private $pre_break_goods_id = ''; //上一次強制退出的id   private $per_break_brand_id = ''; //上一次更新到的brand_id   private $main_log_id = '';    //本次更新的主表日誌id   private $start_time = '';   public $login_session = '';   public $date_char = '';   private $mode = '';   private $sql_log_handle = '';   function __construct($upgrade_date='', $force_upt=false)   {      $this->mysql_init();        }     private function mysql_init(){     $db_name = 'dbname';     $db_user = 'name';     $db_pass = 'pass';     $db_host = 'localhost';     $db_conn = mysql_connect($db_host, $db_user, $db_pass) ;     if(!$db_conn){       echo '資料庫連接失敗!';       exit;     }     $this->db_conn = $db_conn;     mysql_select_db($db_name);   }   public function init_login(){     //第一步類比登陸     $target_url = 'http://www.test.com/login.jsp';     //post 提交的資料     $post_fields = array(     'username'  => '卓雅秀淘寶',     'password'  => 'joarshow.taobao.com',     't_url'    => '',     'Submit2'  => ' 登 錄 '     );     //儲存登陸的cookie     $cookie_file = dirname(__FILE__).'/cookie_'.time().'.txt';     $this->cookie_file = $cookie_file;     //存cookie     $ch = curl_init($target_url);     curl_setopt($ch, CURLOPT_HEADER, 1);     //   curl_setopt($ch, CURLOPT_COOKIESESSION, 1);     curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);     curl_setopt($ch, CURLOPT_POST, 1);     curl_setopt($ch, CURLOPT_POSTFIELDS, $post_fields);     curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie_file);     $login_contents = curl_exec($ch);     curl_close($ch);   }   /**    * 測試    *    * @param unknown_type $test_url    */   public function get_one_file($test_url){     $ch = curl_init($test_url);     curl_setopt($ch, CURLOPT_HEADER, 0);     curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);     curl_setopt($ch,CURLOPT_COOKIE, $this->login_session);     curl_setopt($ch, CURLOPT_REFERER, 'http://www.test.com/welcome.shtml');     curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729)');     $contents = curl_exec($ch);     curl_close($ch);     return $contents;   }   public function point_url_brand($url){     $ch = curl_init($url);     curl_setopt($ch, CURLOPT_HEADER, 0);     curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);     curl_setopt($ch,CURLOPT_COOKIE, $this->login_session);     curl_setopt($ch, CURLOPT_REFERER, 'http://www.test.com/product.shtml');     curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729)');     $contents = curl_exec($ch);     //   echo htmlspecialchars($contents);exit;     curl_close($ch);     return $contents;   } } 

使用CURL抓取淘寶頁面整合方法

代碼如下:

 /**   * 根據地址抓取淘寶頁面html代碼   * @param type $url 地址   * @return boolean   */  public function getTaoBaoHtml($url) {    if (empty($url)) {      return false;    }    $ch = curl_init();    // 設定 url    curl_setopt($ch, CURLOPT_URL, $url);    // 設定瀏覽器的特定header    curl_setopt($ch, CURLOPT_HTTPHEADER, array(      "User-Agent: {Mozilla/5.0 (Windows NT 6.1; WOW64; rv:26.0) Gecko/20100101 Firefox/26.0}",      "Accept: {text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8}",      "Accept-Language: {zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3}",      "Cookie:{cq=ccp%3D1; cna=a7suCzOmSTECAXgg9iCf4AtX; t=671b2069c7e8ac444da66d664a397a5f; tracknick=%5Cu4F0D%5Cu6653%5Cu8F8901; _tb_token_=nDiU1vCuzFd0; cookie2=c54709ffbe04a5ccb80283c34d6b00fa; pnm_cku822=128WsMPac%2FFS4KgNn%2BYfhzduo4U2NC0zh9cAS4%3D%7CWUCLjKhqr873bOIFQcMecSw%3D%7CWMEKRlV%2B3D9a6XWaidNWNQOSWXwaXugvQHzhxALh%7CX0YLbX78NUR2b2DHoxnIqZENQqR35TBZbfQ5vooI0b6GHZA3U1kr%7CXkdILogCr878ZK9I%2B%2FE3QjAD3lFJJaAZRA%3D%3D%7CXUeMwMR2s%2BTUQk8IPP5TNgWfUjQwonccMCxihTa0fRYgtjgfa4j6%7CXMYK7F8liOvH3hMUpzXkiaU%2FJw%3D%3D}",    ));    // 頁面內容我們並不需要    curl_setopt($ch, CURLOPT_NOBODY, 0);    // 只需返回HTTP header    curl_setopt($ch, CURLOPT_HEADER, 0);    // 返回結果,而不是輸出它    //curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);    ob_start();    curl_exec($ch);    $html = ob_get_contents();    ob_end_clean();    curl_close($ch);    return $html;  }

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.