圖片抓取失敗有關問題

來源:互聯網
上載者:User
圖片抓取失敗問題
最近要抓取智庫百科中的詞條,但是詞條中的圖片抓取出現了問題,這是其中一個圖片連結。
http://wiki.mbalib.com/w/images/2/22/%E6%B3%9B%E6%88%90%E6%9C%AC%E7%9A%84%E7%89%B9%E5%BE%81.jpg

無論是用file_get_contents,還是ob_start後readfile,還是用curl,還是snoopy,抓取下來的圖片都是損壞的,抓下來的資料比原圖小,但我看了一下這個站的圖片貌似並沒有設定防盜鏈或cookie驗證之類的,求解決方案 抓取 圖片

分享到:


------解決方案--------------------
他傳送的圖片資料是 gzip 壓縮的,需要使用 gzdecode 函數解碼(php5>=5.4.0 已添加進 gzip 擴充了
$url = 'http://wiki.mbalib.com/w/images/2/22/%E6%B3%9B%E6%88%90%E6%9C%AC%E7%9A%84%E7%89%B9%E5%BE%81.jpg';
$s = file_get_contents($url);
echo gzdecode($s);
如果你的 php 版本還沒有那麼高,可以自己寫代碼。網上也可以搜尋到。
給一個老外的
function gzdecode($data) { 
$len = strlen($data);
if ($len < 18
------解決方案--------------------
strcmp(substr($data,0,2),"\x1f\x8b")) {
return $data; // Not GZIP format (See RFC 1952)
}

$method = ord(substr($data,2,1)); // Compression method
$flags = ord(substr($data,3,1)); // Flags
if ($flags & 31 != $flags) {
// Reserved bits are set -- NOT ALLOWED by RFC 1952
return data;
}

// NOTE: $mtime may be negative (PHP integer limitations)
$mtime = unpack("V", substr($data,4,4));
$mtime = $mtime[1];
$xfl = substr($data,8,1);
$os = substr($data,8,1);
$headerlen = 10;
$extralen = 0;
$extra = "";
if ($flags & 4) {
// 2-byte length prefixed EXTRA data in header
if ($len - $headerlen - 2 < 8) {
return false; // Invalid format
}
$extralen = unpack("v",substr($data,8,2));
$extralen = $extralen[1];
if ($len - $headerlen - 2 - $extralen < 8) {
return false; // Invalid format
}
$extra = substr($data,10,$extralen);
$headerlen += 2 + $extralen;
}
$filenamelen = 0;
$filename = "";
if ($flags & 8) {
// C-style string file NAME data in header
if ($len - $headerlen - 1 < 8) {
return false; // Invalid format
}
$filenamelen = strpos(substr($data,8+$extralen),chr(0));
if ($filenamelen === false
------解決方案--------------------
$len - $headerlen - $filenamelen - 1 < 8) {
return false; // Invalid format
}
$filename = substr($data,$headerlen,$filenamelen);
$headerlen += $filenamelen + 1;
}
$commentlen = 0;
$comment = "";
if ($flags & 16) {
// C-style string COMMENT data in header
if ($len - $headerlen - 1 < 8) {
return false; // Invalid format
}
$commentlen = strpos(substr($data,8+$extralen+$filenamelen),chr(0));
if ($commentlen === false
------解決方案--------------------
$len - $headerlen - $commentlen - 1 < 8) {
return false; // Invalid header format
  • 聯繫我們

    該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

    如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

    A Free Trial That Lets You Build Big!

    Start building with 50+ products and up to 12 months usage for Elastic Compute Service

    • Sales Support

      1 on 1 presale consultation

    • After-Sales Support

      24/7 Technical Support 6 Free Tickets per Quarter Faster Response

    • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.