PHP中使用file_get_contents抓取網頁中文亂碼問題解決方案_PHP

來源:互聯網
上載者:User
關鍵字 PHP file_get_contents 抓取
本文執行個體講述了PHP中使用file_get_contents抓取網頁中文亂碼問題解決方案。分享給大家供大家參考。具體方法如下:

file_get_contents函數本來就是一個非常優秀的php內建本地與遠程檔案操作函數,它可以讓我們不花吹揮之力把遠端資料直接下載,但我在使用它讀取網頁時會碰到有些頁面是亂碼了,這裡就來給各位總結具體的解決辦法.

根據網上有朋友介紹說原因可能是伺服器開了GZIP壓縮,下面是用firebug查看我的網站的頭資訊,Gzip是開了的,要求標頭資訊原始頭資訊,代碼如下:

代碼如下:

Accept text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Encoding gzip, deflate
Accept-Language zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3
Connection keep-alive
Cookie __utma=225240837.787252530.1317310581.1335406161.1335411401.1537; __utmz=225240837.1326850415.887.3.utmcsr=google|utmccn=(organic)|utmcmd=organic|utmctr=%E4%BB%BB%E4%BD%95%E9%A1%B9%E7%9B%AE%E9%83%BD%E4%B8%8D%E4%BC%9A%E9%82%A3%E4%B9%88%E7%AE%80%E5%8D%95%20site%3Awww.nowamagic.net; PHPSESSID=888mj4425p8s0m7s0frre3ovc7; __utmc=225240837; __utmb=225240837.1.10.1335411401
Host www.bitsCN.com
User-Agent Mozilla/5.0 (Windows NT 5.1; rv:12.0) Gecko/20100101 Firefox/12.0


可以從header資訊中找到 Content-Encoding 項是 Gzip.

解決辦法比較簡單,就是用 curl 代替 file_get_contents 去擷取,然後在 curl 配置參數中加一條,代碼如下:

代碼如下:

curl_setopt($ch, CURLOPT_ENCODING, "gzip");

今天用 file_get_contents 抓圖片的時候,開始沒發現這個問題,廢了老大勁才找出來.

使用內建的zlib庫,如果伺服器已經裝了zlib庫,用下面的代碼可以輕易解決亂碼問題,代碼如下:

代碼如下:

$data = file_get_contents("compress.zlib://".$url);

希望本文所述對大家的PHP程式設計有所協助。

  • 相關文章

    聯繫我們

    該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

    如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

    A Free Trial That Lets You Build Big!

    Start building with 50+ products and up to 12 months usage for Elastic Compute Service

    • Sales Support

      1 on 1 presale consultation

    • After-Sales Support

      24/7 Technical Support 6 Free Tickets per Quarter Faster Response

    • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.