資料擷取 - PHP採集逾時如何解決

來源:互聯網
上載者:User
我需要採集某網站的內容頁。先採集到連結,再通過連結擷取內容頁。但是,連結太多,一擷取就逾時,不得不按分類小量的擷取。而分類有近300多個。手動去設定分類,也很慢。如何才能自動的去擷取我想要的資料,而不會逾時?請指個思路,謝謝!

不好意思,是我沒說清楚。逾時是504 Gateway timeout。
設定set_time_limit沒用

這個問題已被關閉,原因:

回複內容:

我需要採集某網站的內容頁。先採集到連結,再通過連結擷取內容頁。但是,連結太多,一擷取就逾時,不得不按分類小量的擷取。而分類有近300多個。手動去設定分類,也很慢。如何才能自動的去擷取我想要的資料,而不會逾時?請指個思路,謝謝!

不好意思,是我沒說清楚。逾時是504 Gateway timeout。
設定set_time_limit沒用

為何用php,可以嘗試scrapy,很好用

504是網關逾時啊,你的Web伺服器崩了吧,你可以直接命令列運行php指令碼應該就沒有問題吧。還有你的伺服器用的是Apache還是Nginx?

唔,逾時?set_time_limit(0);可以讓指令碼一直運行~

可以修改php.ini的max_execution_time數值,或者按樓上說的,用set_time_limit 函數

採集在命令列執行,不會逾時 :)

  • 聯繫我們

    該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

    如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

    A Free Trial That Lets You Build Big!

    Start building with 50+ products and up to 12 months usage for Elastic Compute Service

    • Sales Support

      1 on 1 presale consultation

    • After-Sales Support

      24/7 Technical Support 6 Free Tickets per Quarter Faster Response

    • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.