連續的分頁採集問題

來源:互聯網
上載者:User
目標網站:http://news.xinhuanet.com/photo/2015-01/29/c_127433852.htm
擷取內容:本文圖片和文字說明;
本人實現方法:
因為分頁地址是連續的,我是在目標地址上做迴圈

http://news.xinhuanet.com/photo/2015-01/29/c_127433852_2.htm

get_headers訪問後 擷取返回是否為200,是的話進行內容抓取
1、curl擷取當前地址html後,截取所需內容
2、_2這個就是變數,自增後繼續判斷下一頁是否可以訪問,可以訪問就繼續採集

以上是可以實現採集抓取的,但是好像速度很慢,而且每次都是curl去抓取對伺服器貌似也有壓力

問題:如何改進,大家是如何用php做的抓取,求思路和方向

回複內容:

目標網站:http://news.xinhuanet.com/photo/2015-01/29/c_127433852.htm
擷取內容:本文圖片和文字說明;
本人實現方法:
因為分頁地址是連續的,我是在目標地址上做迴圈

http://news.xinhuanet.com/photo/2015-01/29/c_127433852_2.htm

get_headers訪問後 擷取返回是否為200,是的話進行內容抓取
1、curl擷取當前地址html後,截取所需內容
2、_2這個就是變數,自增後繼續判斷下一頁是否可以訪問,可以訪問就繼續採集

以上是可以實現採集抓取的,但是好像速度很慢,而且每次都是curl去抓取對伺服器貌似也有壓力

問題:如何改進,大家是如何用php做的抓取,求思路和方向

下面不是有分頁麼,直接擷取裡面的連結存到數組抓吧

  1. 直接抓取,抓取返回結果的時候就先判斷狀態代碼是否為200
  2. Curl並發
  • 聯繫我們

    該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

    如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

    A Free Trial That Lets You Build Big!

    Start building with 50+ products and up to 12 months usage for Elastic Compute Service

    • Sales Support

      1 on 1 presale consultation

    • After-Sales Support

      24/7 Technical Support 6 Free Tickets per Quarter Faster Response

    • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.