php判斷搜尋引擎蜘蛛爬蟲的方法整理

來源:互聯網
上載者:User

先來看蜘蛛列表

 





















































搜尋引擎 user-agent(包含) 是否PTR 備忘
google Googlebot host ip  得到網域名稱:googlebot.com主網域名稱
baidu Baiduspider host ip  得到網域名稱:*.baidu.com 或 *.baidu.jp
yahoo Yahoo! host ip  得到網域名稱:inktomisearch.com主網域名稱
Sogou Sogou ×
*Sogou web spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07″)
*Sogou Push Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07″)
網易 YodaoBot × *Mozilla/5.0 (compatible; YodaoBot/1.0;http://www.yodao.com/help/webmaster/spider/”; )
MSN MSNBot host ip  得到網域名稱:live.com主網域名稱
360 360Spider × Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.8.0.11)  Firefox/1.5.0.11; 360Spider
soso Sosospider × Sosospider+(+http://help.soso.com/webspider.htm)
bing bingbot host ip  得到網域名稱:msn.com主網域名稱

 

再來看看例子

<?php
//php判斷搜尋引擎蜘蛛爬蟲的方法

function checkrobot($useragent='') {
    static $kw_spiders = array('bot', 'crawl', 'spider', 'slurp', 'sohu-search', 'lycos', 'robozilla');
    static $kw_browsers = array('msie', 'netscape', 'opera', 'konqueror', 'mozilla');

    $useragent = strtolower(empty($useragent) ? $_SERVER['HTTP_USER_AGENT'] : $useragent);
    if (strpos($useragent, 'http://') === false && dstrpos($useragent, $kw_browsers))
        return false;
    if (dstrpos($useragent, $kw_spiders))
        return true;
    return false;
}

function dstrpos($string, $arr, $returnvalue = false) {
    if (empty($string))
        return false;
    foreach ((array) $arr as $v) {
        if (strpos($string, $v) !== false) {
            $return = $returnvalue ? $v : true;
            return $return;
        }
    }
    return false;
}

if(checkrobot()){
    echo '蜘蛛';
}else{
    echo '人類';
}

?>

例子

PHP反解析IP方法
<?php
/**
 *檢查IP及蜘蛛真實性
 * (check_spider('66.249.74.44',$_SERVER['HTTP_USER_AGENT']));
 * @copyright  http://blog.chacuo.net
 * @author 8292669
 * @param string $ip IP地址
 * @param string $ua ua地址
 * @return false|spidername  false檢測失敗不在指定列表中
 */
function check_spider($ip,$ua)
{
 static $spider_list=array(
 'google'=>array('Googlebot','googlebot.com'),
 'baidu'=>array('Baiduspider','.baidu.'),
 'yahoo'=>array('Yahoo!','inktomisearch.com'),
 'msn'=>array('MSNBot','live.com'),
 'bing'=>array('bingbot','msn.com')
 );
 
 if(!preg_match('/^(\d{1,3}\.){3}\d{1,3}$/',$ip)) return false;
 if(empty($ua)) return false;
 
 foreach ($spider_list as $k=>$v)
 {
  ///如果找到了
  if(stripos($ua,$v[0])!==false)
  {
   $domain = gethostbyaddr($ip);

   if($domain && stripos($domain,$v[1])!==false)
   {
    return $k;
   }
  }
 }
 return false;
}
 

目前只加入幾個搜尋引擎檢測,這些是可以做反解析查詢的。不能做反解析查詢的,最好做速度限制,使用者會使用它們來偽造搜尋引擎來抓取你的資源

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.