Python爬蟲為何可以這麼叼?爬取百度雲端硬碟資源!並儲存到自己雲端硬碟

來源:互聯網
上載者:User

標籤:除了   源碼   雙擊   要求標頭   inf   不同   技術分享   直接   sha   

 

 

點擊它,再點擊右邊的【Cookies】就可以看到要求標頭裡的 cookie 情況。

cookie分析

 

 

除了上面說到的兩個 cookie ,其他的要求標頭參數可以參照手動轉存時抓包的要求標頭。這兩個 cookie 預留出來做參數的原因是 cookie 都是有生存周期的,到期了需要更新,不同的帳號登入也有不同的 cookie 。

參數分析

接下來分析參數,點擊【Cookies】右邊的【Params】查看參數情況。如下:

 

 

 

爬取shareid、from、filelist,發送請求轉存到網盤

 

以上面這個資源連結為例(隨時可能被河蟹,但是沒關係,其他連結的結構也是一樣的),我們先用瀏覽器手動訪問,F12 開啟控制台先分析一下源碼,看看我們要的資源資訊在什麼地方。控制台有搜尋功能,直接搜 “shareid”。

定位到4個shareid,前三個與該資源無關,是其他分享資源,最後一個定位到該 html 檔案的最後一個標籤塊裡。雙擊後可以看到格式化後的 js 代碼,可以發現我們要的資訊全都在裡邊。如下節選:

 

 

可以看到這兩行

 

 

yunData.FILEINFO 結構如下,你可以將它複製粘貼到json.cn裡,可以看得更清晰。

 

清楚了這三個參數的位置,我們就可以用Regex進行提取了。代碼如下:

 

 

爬取到了這三個參數,就可以調用之前的 transfer 方法進行轉存了。.

進群:125240963即可擷取源碼哦!

Python爬蟲為何可以這麼叼?爬取百度雲端硬碟資源!並儲存到自己雲端硬碟

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.