不利於蜘蛛爬取的網頁-蜘蛛陷阱

來源:互聯網
上載者:User

  大家好,我是第一次在這上面發表文章,如有不好地方請高手多多指教。

  1、搜尋引擎能不能找到網頁。

  1要讓搜搜引擎發現網站首頁,就必須有良好的外部網站連結接到首頁,就找到了首頁,然後蜘蛛會沿著連結爬的更深。

  讓蜘蛛通過簡單的html頁面的連結到達,javascript連結,flash連結都是蜘蛛的陷阱。這點要注意。

  2找到網頁後能不能抓去內容。

  被發現的蜘蛛是可以被爬取的,資料庫動態產生,帶過很多的參數url、sessionID、整個頁面都是flash、架構結構、大量的轉向,和大量的複製內容都可能把蜘蛛攔截在門外。這也也是要注意的

  2、flash

  1在網頁某一個部分使用flash來增強視覺效果很正常,比如現在很多的flash廣告、表徵圖等。但是這是一個html頁面的一部分。不會有太大的影響

  2但是有的網站就是一個很大的flash檔案,這就構成了蜘蛛的陷阱,這時候蜘蛛爬取的只有一個flash連結,沒有其他的內容,所以這點盡量要避免。

  3、sessionID

  1有些網站使用sessionID(會話ID)跟蹤使用者的訪問,使用者的沒一次訪問都會產生一個獨立的ID,然後加在url裡,這是蜘蛛每一次抓取網站都會把蜘蛛當作一個新的使用者,造成蜘蛛不能正常爬取,這也是蜘蛛的一大陷阱。

  2通常建議跟蹤使用者訪問應該使用cookies而不要生存sessionID 。

  4、各種的跳轉

  1除了大家熟悉的301轉向之外,其他的轉向對搜尋蜘蛛都比較敏感的,比如302暫時轉向,javascript轉向,flash轉向,meta refresh跳轉,所以建議大家不要做其他不利於網頁的轉向,301也包括,不到萬不得已的時候也不要用301轉向。這是個建議。

  5、架構結構

  1如果你不知道架構結構的話,你就可以省略這一個步驟,因為你已經避免了這個蜘蛛陷阱。

  2使用架構設計頁面,在早期的時候有,不過現在的網站都很少用架構設計,所以這裡就不多說了,無論你是在用或者沒用,記住一句話:不要讓搜尋引擎去討好你。忘記架構這回事。

  6、動態url

  1動態url是指資料庫驅動的網站所產生的,帶有? =號的等參數的都是,一般來說要避免這種動態參數url、因為這樣不利於蜘蛛爬取。

  7、javascript連結

  1現在有很多的網站都喜歡用java指令碼產生導航系統,這是一個很嚴重的蜘蛛陷阱,就等於在蜘蛛還沒開始爬的時候你就已經把門關上了。所以要盡量避免

  2java連結在seo中也有一定的用途,站長可以讓一些不參與排名的網頁和重複的內容頁面,可以用java連結阻止蜘蛛爬取。

  8、要求登入

  1 有些網站的內容是需要使用者登入才能看到的會員地區,因為這部分蜘蛛爬取不到,因為蜘蛛不會註冊,也不會登入,也不會輸入帳號密碼。所以要修改掉。

  9、強制使用cookies

  1有些網站為了實現某種功能,如記住使用者資訊,跟蹤使用者訪問路徑等。強制使用者用cookies,如果使用者沒有用cookies,頁面就會現實不正常。所以強制使用cookies只能造成蜘蛛無法正常訪問。

  好了,謝謝大家能把我的文章看完,雖然不怎麼好,但也是我的一點心得,希望能放到首頁供更多的人蔘考 小弟謝謝。

  技術交流 83884473



相關文章

E-Commerce Solutions

Leverage the same tools powering the Alibaba Ecosystem

Learn more >

Apsara Conference 2019

The Rise of Data Intelligence, September 25th - 27th, Hangzhou, China

Learn more >

Alibaba Cloud Free Trial

Learn and experience the power of Alibaba Cloud with a free trial worth $300-1200 USD

Learn more >

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。