PHP頁面爬蟲

來源:互聯網
上載者:User

標籤:資訊   return   瞭解   分享   html   圖片   turn   color   src   

爬蟲想必大家都很瞭解,通過指令碼對目標檔案進行抓取。

我想擷取每天菜市場菜價。

查看控制台,如果有相關資訊得介面自然方便不過了,直接請求介面擷取資料就可以了。

對於頁面資訊,需要過濾篩選。

圖中資訊很規律易於篩選。

首先擷取整個頁面,可以使用CURL方式請求頁面地址,CURL方式也便於需要驗證資訊的頁面傳遞參數。

過濾頁面資料可以使用Regex匹配替換。

<?php     header( "Content-type:text/html;Charset=utf-8" );     $ch = curl_init();    $url ="http://www.xinfadi.com.cn/marketanalysis/0/list/1.shtml";    curl_setopt ( $ch , CURLOPT_USERAGENT ,"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.75 Safari/537.36" );    curl_setopt($ch,CURLOPT_URL,$url);    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);    $content=curl_exec($ch);    preg_match_all("/<td style=\"text-align:left;padding-left:5px;\">(.*?)<\/td><td>(.*?)<\/td><td>(.*?)<\/td><td>(.*?)<\/td><td>(.*?)<\/td><td>(.*?)<\/td><td>(.*?)<\/td>/",$content,$matchs,PREG_SET_ORDER);    print_r($matchs);

 

這樣就完成了,主要就是使用Regex對頁面進行過濾篩選,爬取圖片也是一樣。

 

PHP頁面爬蟲

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.