標籤:資訊 return 瞭解 分享 html 圖片 turn color src
爬蟲想必大家都很瞭解,通過指令碼對目標檔案進行抓取。
我想擷取每天菜市場菜價。
查看控制台,如果有相關資訊得介面自然方便不過了,直接請求介面擷取資料就可以了。
對於頁面資訊,需要過濾篩選。
圖中資訊很規律易於篩選。
首先擷取整個頁面,可以使用CURL方式請求頁面地址,CURL方式也便於需要驗證資訊的頁面傳遞參數。
過濾頁面資料可以使用Regex匹配替換。
<?php header( "Content-type:text/html;Charset=utf-8" ); $ch = curl_init(); $url ="http://www.xinfadi.com.cn/marketanalysis/0/list/1.shtml"; curl_setopt ( $ch , CURLOPT_USERAGENT ,"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.75 Safari/537.36" ); curl_setopt($ch,CURLOPT_URL,$url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); $content=curl_exec($ch); preg_match_all("/<td style=\"text-align:left;padding-left:5px;\">(.*?)<\/td><td>(.*?)<\/td><td>(.*?)<\/td><td>(.*?)<\/td><td>(.*?)<\/td><td>(.*?)<\/td><td>(.*?)<\/td>/",$content,$matchs,PREG_SET_ORDER); print_r($matchs);
這樣就完成了,主要就是使用Regex對頁面進行過濾篩選,爬取圖片也是一樣。
PHP頁面爬蟲