php中file_get_contents擷取網頁亂碼解決辦法_PHP教程

來源:互聯網
上載者:User
昨天我在做一個簡單採集功能時我直接使用了file_get_contents函數,但是採集有些網站沒問題,採集有些網籌碼了,後來分析出現亂碼是伺服器開啟了gzip壓縮功能哦。

我採集的一個頁面,如下gzip

知道原因了我們就好辦了,先百度了一下得出是可以改用curl操作。

curl解決

代碼如下 複製代碼

function curl_get($url, $gzip=false){
$curl = curl_init($url);
curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($curl, CURLOPT_CONNECTTIMEOUT, 10);
if($gzip) curl_setopt($curl, CURLOPT_ENCODING, "gzip"); // 關鍵在這裡
$content = curl_exec($curl);
curl_close($curl);
return $content;
}

採用gzip編碼格式

file_get_contents解決:

代碼如下 複製代碼

file_get_contents("compress.zlib://".$url);

無論頁面是否經過gzip壓縮,上述代碼都可以正常工作!

注意:CURL是需要開啟的哦。

curl安裝:

xp下面的安裝

:修改php.ini檔案的設定,找到

代碼如下 複製代碼
php_curl.dll

//取消下在的注釋extension=php_curl.dll

linux下面安裝:

代碼如下 複製代碼

# wget http://curl.haxx.se/download/curl-7.17.1.tar.gz

# tar zxvf curl-7.17.1.tar.gz //解壓

#cd curl-7.17.1

# ./configure –prefix=/usr/local/curl

# make

# make install

這是安裝php之前安裝的方法.

http://www.bkjia.com/PHPjc/632084.htmlwww.bkjia.comtruehttp://www.bkjia.com/PHPjc/632084.htmlTechArticle昨天我在做一個簡單採集功能時我直接使用了file_get_contents函數,但是採集有些網站沒問題,採集有些網籌碼了,後來分析出現亂碼是伺服器...

  • 聯繫我們

    該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

    如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

    A Free Trial That Lets You Build Big!

    Start building with 50+ products and up to 12 months usage for Elastic Compute Service

    • Sales Support

      1 on 1 presale consultation

    • After-Sales Support

      24/7 Technical Support 6 Free Tickets per Quarter Faster Response

    • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.