php爬資料curl執行個體詳解

來源:互聯網
上載者:User
首先我們要知道頁面資料內容有兩種方式(待爬資料只有2種):一,直接渲染出來的(基於mvc模板賦值到模板頁面的)二,通過介面擷取然後JS渲染出來(介面返回的)

然後你要找資料的話:

就看直接存取的地址能不能拿到有你想要的那些內容的文本 (基於mvc模板賦值到模板頁面的)

如果沒有,就看看是通過哪些介面擷取到的

關於更進一步的連結,也是如此:

如果是直接渲染的可以通過xpath或csspath等第3方列庫來分離資料和標籤

如果不是直接渲染的話,JS 產生的連結你就要自己去根據他,需要拼湊的參數,拼湊好連結(帶上cookie)進行下一步的訪問

注意1:這樣如果你多次取不到值了,就應該去手工換一下cookie了

注意2:如果是介面的話,注意請求的url每天都要變,因為url上帶的參數都會變,不修改的話,爬不下來的(可以這樣將url入庫,爬的時候查出來,拼好參數,在丟給curl)

注意3:還有就是,不知道的限速問題,不是時效性高的話就10秒左右爬一輪就行了

最重要的是,有些東西,不是非要先類比登入才能爬去,登陸之後,直接找個介面在瀏覽器跑一下試試(如果有資料返回,那就證明只要帶cookie和請求需要帶的參數就可以了)就不用類比掃碼了。

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.