Linux/Nginx如何查看搜尋引擎蜘蛛爬蟲的行為_linux shell

來源:互聯網
上載者:User

摘要

做好網站SEO最佳化的第一步就是首先讓蜘蛛爬蟲經常來你的網站進行光顧,下面的Linux命令可以讓你清楚的知道蜘蛛的爬行情況。下面我們針對nginx伺服器進行分析,記錄檔所在目錄:/usr/local/nginx/logs/access.log,access.log這個檔案記錄的應該是最近一天的日誌情況,首先請看看日誌大小,如果很大(超過50MB)建議別用這些命令分析,因為這些命令很消耗CPU,或者更新下來放到分析機上執行,以免影響網站的速度。

Linux shell命令

1. 百度蜘蛛爬行的次數

cat access.log | grep Baiduspider | wc

最左面的數值顯示的就是爬行次數。

2. 百度蜘蛛的詳細記錄(Ctrl C可以終止)

cat access.log | grep Baiduspider

也可以用下面的命令:

cat access.log | grep Baiduspider | tail -n 10
cat access.log | grep Baiduspider | head -n 10

只看最後10條或最前10條,這用就能知道這個記錄檔的開始記錄的時間和日期。

3. 百度蜘蛛抓取首頁的詳細記錄

cat access.log | grep Baiduspider | grep “GET / HTTP”

百度蜘蛛好像對首頁非常熱愛每個鐘頭都來光顧,而Google和雅虎蜘蛛更喜歡內頁。

4. 百度蜘蛛派性記錄時間點分布

cat access.log | grep “Baiduspider ” | awk ‘{print $4}'

5. 百度蜘蛛爬行頁面按次數降序列表

cat access.log | grep “Baiduspider ” | awk ‘{print $7}' | sort | uniq -c | sort -r

文中的Baiduspider 改成Googlebot都可以查看Google的資料,鑒於大陸的特殊性,大家應該對百度的log更為關注。

附:(Mediapartners-Google)Google adsense蜘蛛的詳細爬行記錄

cat access.log | grep Mediapartners

Mediapartners-Google是什麼呢?Google adsense廣告之所以能與內容相關,因為每個包含著adsense的廣告被訪問後,很快就有個Mediapartners-Google蜘蛛來到這個頁面,所以幾分鐘後再重新整理就能顯示相關性廣告了,真厲害啊!

ps:linux下nginx如何啟用網站日誌,查看蜘蛛爬蟲

預設的路徑是你安裝時候指定的

如果用的LNMP之類的安裝包

你可以在SHELL下

whereisnginx

找到相應的路徑之後

在NGINX下的CONF檔案夾裡看設定檔,記錄檔如果記錄了話

在設定檔裡有路徑的~

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.