PHP實現採集抓取淘寶網單個商品資訊_php技巧

來源:互聯網
上載者:User

調用淘寶的資料可以使用淘寶提供的api,如果只需調用淘寶商品圖片名稱等公開資訊在自己網站上,使用php中的 file_get_contents 函數實現即可。

思路:

file_get_contents(url) 該函數根據 url 如 http://www.baidu.com 將該網頁內容(源碼)以字串形式輸出(一個整字串),然後配合preg_match,preg_replace等這些Regex操作就可以實現擷取該url特定div,img等資訊了。當然前題是淘寶在單個商品頁面的結構是固定的,如500圖的img中id就是J_ImgBooth!

具體實現方法:(擷取500圖,名稱,價格,屬性及商品描述)

複製代碼 代碼如下:

$text=file_get_contents("http://item.taobao.com/item.htm?id=2380347279"); //將url地址上頁面內容儲存進$text

A.擷取500圖:

複製代碼 代碼如下:

preg_match('/<img[^>]*id="J_ImgBooth"[^r]*rc=\"([^"]*)\"[^>]*>/', $text, $img);
//運用正則抓取img標籤中id為J_ImgBooth的img,$img[0]為該500圖img標籤,$img[1]為500圖的圖片地址;

B. 擷取名稱:

複製代碼 代碼如下:

preg_match('/<title>([^<>]*)<\/title>/', $text, $title);
//因為本文中的商品名稱標籤沒有特殊class或id正則不好抓取,就抓<title>標籤中的內容了,一般來說title中內容就是商品名稱了(實際有些出入),$title[0]整個title標籤 $title[1]標籤中內容;
$title=iconv('GBK','UTF-8',$title);
//如果你的網站是utf8編碼,那麼需要進行一下轉碼(淘寶是gbk編碼)

C.擷取價格:

複製代碼 代碼如下:

preg_match('/<([a-z]+)[^i]*id=\"J_StrPrice\"[^>]*>([^<]*)<\/\\1>/is', $text, $price);
//同理擷取id為J_StrPrice的標籤內容$price[2], $price[0]是整個標籤, $price[1]為strong標籤名;
$price=floatval($price);//放入資料庫估計還有轉一下變數類型

D.擷取屬性:

這之前擷取的內容都是在單標籤中相對只需一個正則就可搞定,然而如果要擷取如

複製代碼 代碼如下:


 
<div id=”xxx”>
 

 
<ul>
 

 
</ul>
 
<div>…
 
<div>…
 
</div>
 
</div>
 
</div>
 

這樣特定div中有未知n個<>標籤,擷取該特定div將會非常的困難,搜了下網上,最接近的也只是”/<([a-z]+)[^>]*>([^<>]|(?R))*<\/\\1>/”這樣使用遞迴抓取標籤對,但是他不能抓特定標籤,所以想要輕鬆抓取class=”attributes”的div我是沒法辦到了。但是淘寶網頁有其特殊性,就是它的各個標籤結構基本是固定的…<div>…</div>標籤後面不是</div><div id=”description”>就是</div><div>,所以我們可以採用變通法達到擷取屬性標籤內容的目的。

複製代碼 代碼如下:

preg_match('/<(div)[^c]*class=\"attributes\"[^>]*>.*<\/\\1>/is', $text, $text0);
//這個正則會抓取<div開始到整個頁面最後一個</div>標籤,當然我們屬性標籤就在這個的前面部分。
 
$text1=preg_replace("/<\/div>[^<]*<(div)[^c]*id=\"description\"[^>]*>.*<\/\\1>/is","",$text0);
//匹配到</div ><div id=”description”>至最後</div>然後用””代替(就是把匹配的刪除了),所以如果attributes的div後面緊跟的是description那麼我們已經達到目的了。
 
$attributes=preg_replace("/<\/div>[^<]*<(div)[^c]*class=\"box J_TBox\"[^>]*>.*<\/\\1>/is","",$text1);
//如果attributes後面緊跟box J_Tbox標籤,那麼我們還需要使用以上這步來剔除box J_Tbox標籤,當然如果attributes的div後面緊跟的是description,這一步將不會匹配到任何即什麼都不會做。

E.擷取描述:

通過上面方法你肯定覺得淘寶頁面上任何標籤都可以很簡單擷取了吧(我之前也是這麼想的),但是使用這個方法擷取描述時得到的內容將會是“描述載入中”,是的,這個描述內容不是在源碼中的,它是開啟頁面載入進一大堆js後,不知道從淘寶的哪個角落中載入進來的。

好吧,那麼我們也可以模仿它放一些js進去。不知道哪些對載入描述有用?沒事,全載入進來肯定沒錯。不知道需要放那些特定div上去有作用?抓一個源碼,刪掉一些div一步步試試看,你會發現“<div id=”detail”> </div>

複製代碼 代碼如下:

<div id="description">
 
<div id="J_DivItemDesc">描述載入中</div>
 
</div>

這幾個div是載入描述所必須的,那麼下面就是寫代碼了:

複製代碼 代碼如下:

preg_match_all('/<script[^>]*>[^<]*<\/script>/is', $text, $content);//頁面js指令碼
 $content=$content[0];
 $description='<div id="detail"> </div>
  <div id="description">
   <div id="J_DivItemDesc">描述載入中</div>
  </div>';
foreach ($content as &$v){$description.=iconv('GBK','UTF-8',$v);};
//將這個$description放進頁面,描述就會自動的載入進來了,當然多個商品描述在同一個頁面也會只有一個描述會被載入的。

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.