圖片抓取失敗問題
最近要抓取智庫百科中的詞條,但是詞條中的圖片抓取出現了問題,這是其中一個圖片連結。
http://wiki.mbalib.com/w/images/2/22/%E6%B3%9B%E6%88%90%E6%9C%AC%E7%9A%84%E7%89%B9%E5%BE%81.jpg
無論是用file_get_contents,還是ob_start後readfile,還是用curl,還是snoopy,抓取下來的圖片都是損壞的,抓下來的資料比原圖小,但我看了一下這個站的圖片貌似並沒有設定防盜鏈或cookie驗證之類的,求解決方案 抓取 圖片
分享到:
------解決方案--------------------
他傳送的圖片資料是 gzip 壓縮的,需要使用 gzdecode 函數解碼(php5>=5.4.0 已添加進 gzip 擴充了
$url = 'http://wiki.mbalib.com/w/images/2/22/%E6%B3%9B%E6%88%90%E6%9C%AC%E7%9A%84%E7%89%B9%E5%BE%81.jpg';
$s = file_get_contents($url);
echo gzdecode($s);
如果你的 php 版本還沒有那麼高,可以自己寫代碼。網上也可以搜尋到。
給一個老外的
function gzdecode($data) {
$len = strlen($data);
if ($len < 18
------解決方案--------------------
strcmp(substr($data,0,2),"\x1f\x8b")) {
return $data; // Not GZIP format (See RFC 1952)
}
$method = ord(substr($data,2,1)); // Compression method
$flags = ord(substr($data,3,1)); // Flags
if ($flags & 31 != $flags) {
// Reserved bits are set -- NOT ALLOWED by RFC 1952
return data;
}
// NOTE: $mtime may be negative (PHP integer limitations)
$mtime = unpack("V", substr($data,4,4));
$mtime = $mtime[1];
$xfl = substr($data,8,1);
$os = substr($data,8,1);
$headerlen = 10;
$extralen = 0;
$extra = "";
if ($flags & 4) {
// 2-byte length prefixed EXTRA data in header
if ($len - $headerlen - 2 < 8) {
return false; // Invalid format
}
$extralen = unpack("v",substr($data,8,2));
$extralen = $extralen[1];
if ($len - $headerlen - 2 - $extralen < 8) {
return false; // Invalid format
}
$extra = substr($data,10,$extralen);
$headerlen += 2 + $extralen;
}
$filenamelen = 0;
$filename = "";
if ($flags & 8) {
// C-style string file NAME data in header
if ($len - $headerlen - 1 < 8) {
return false; // Invalid format
}
$filenamelen = strpos(substr($data,8+$extralen),chr(0));
if ($filenamelen === false
------解決方案--------------------
$len - $headerlen - $filenamelen - 1 < 8) {
return false; // Invalid format
}
$filename = substr($data,$headerlen,$filenamelen);
$headerlen += $filenamelen + 1;
}
$commentlen = 0;
$comment = "";
if ($flags & 16) {
// C-style string COMMENT data in header
if ($len - $headerlen - 1 < 8) {
return false; // Invalid format
}
$commentlen = strpos(substr($data,8+$extralen+$filenamelen),chr(0));
if ($commentlen === false
------解決方案--------------------
$len - $headerlen - $commentlen - 1 < 8) {
return false; // Invalid header format