怎樣減少無效URL的爬行和索引 無完美解決方案

來源:互聯網
上載者:User

仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳

少年老成的雲晨守望同學(題外話:少年老成是好事哈。 我20多歲時人家說我像40歲,我40多歲時好多人說我像30多,男人20到50歲可以做到基本一個樣子)貼了個帖子:透過京東商城看國內一線B2C網站SEO通病。 建議先看那個帖子再回來看本帖,不然不容易明白下面在說什麼。

簡單說,帖子指出一個嚴重而且現實的SEO問題:很多網站,尤其是B2C,產品條件過濾系統(如選擇產品的品牌、價格、尺寸、性能、參數等)會產生大量無效URL,之所以稱為無效只是從SEO角度看的,這些URL並不能產生SEO作用 ,反倒有負面作用,所以這些URL不收錄為好,原因包括:

1.大量過濾條件頁面內容重複或極為類似(大量複製內容將使網站整體品質下降)

2.大量過濾條件頁面沒有對應產品,頁面無內容(如選擇「100元以下42寸LED電視」之類的)

3.絕大部分過濾條件頁面沒有排名能力(排名能力比分類頁面低得多)卻浪費一定權重

4.這些過濾條件頁面也不是產品頁面收錄的必要通道(產品頁面應該有其它內鏈説明爬行和收錄)

5.爬行大量過濾條件頁面極大浪費蜘蛛爬行時間,造成有用頁面收錄機會下降(過濾條件頁面組合起來是巨量的)

那麼怎樣儘量使這些URL不被爬行和索引、收錄呢?前幾天的一篇帖子如何隱藏內容也可能成為SEO問題討論的是類似問題,這種過濾頁面就是想隱藏的內容種類之一。 不過可惜,我目前想不出完美的解決方法。 雲晨守望提出兩個方法,我覺得都無法完美解決。

一是將不想收錄的URL保持為動態URL,甚至故意越動態越好,以阻止被爬行和收錄。 但是,搜尋引擎現在都能爬行、收錄動態URL,而且技術上越來越不是問題。 雖然參數多到一定程度確實不利於收錄,但4、5個參數通常還可以收錄。 我們無法確認需要多少參數才能阻止收錄,所以不能當作一個可靠的方法。 而且這些URL接收內鏈,又沒有什麼排名能力,還是會浪費一定權重。

第二個方法,robots禁止收錄。 同樣,URL接收了內鏈也就接收了權重,robots檔禁止爬行這些URL,所以接收的權重不能傳遞出去(搜尋引擎不爬行就不知道有什麼匯出連結),頁面成為權重只進不出的黑洞。

連向這些URL的連結配合nofollow也不完美,和robots禁止類似,nofollow在Google的效果是這些URL沒有接收權重,權重卻也沒有被分配到其它連結上,所以權重同樣浪費了。 百度據稱支援nofollow,但權重怎麼處理未知。

將這些URL連結放在Flash、JS裡也沒有用,搜尋引擎已經可以爬行Flash、JS裡的連結,而且估計以後越來越擅長爬。 很多SEO忽略了的一點是,JS中的連結不僅能被爬,也能傳遞權重,和正常連接一樣。

也可以將過濾條件連結做成AJAX形式,使用者點擊後不會訪問一個新的URL,還是在原來URL上,URL後面加了#,不會被當成不同URL。 和JS問題一樣,搜尋引擎正在積極嘗試爬行、抓取AJAX裡的內容,這個方法也不保險。

還一個方法是在頁面head部分加noindex+follow標籤,意即本頁面不要索引,但跟蹤頁面上的連結。 這樣可以解決複製內容問題,也解決了權重黑洞問題(權重是可以隨著匯出連結傳到其它頁面的),不能解決的是浪費蜘蛛爬行時間問題,這些頁面還是要被蜘蛛爬行抓取的(然後才能看到頁面html裡的noindex+follow標籤), 對某些網站來說,過濾頁面數量巨大,爬行了這些頁面,蜘蛛就沒足夠時間爬有用頁面了。

再一個可以考慮的方法是隱藏頁面(cloaking),也就是用程式檢測訪問者,是搜尋引擎蜘蛛的話返回的頁面拿掉這些過濾條件連結,是使用者的話才返回正常的有過濾條件的頁面。 這是一個比較理想的解決方法,唯一的問題是,可能被當作作弊。 搜尋引擎常跟SEO講的判斷是否作弊的最高原則是:如果沒有搜尋引擎,你會不會這麼做?或者說,某種方法是否只是為了搜尋引擎而採用?顯然,用cloaking隱藏不想被爬行的URL是為搜尋引擎做的,不是為使用者做的。 雖然這種情況下的cloaking目的是美好的,沒有惡意的,但風險是存在的,膽大的可試用。

還一個方法是使用canonical標籤,最大問題是百度是否支援未知,而且canonical標籤是對搜尋引擎的建議,不是指令,也就是說這個標籤搜尋引擎可能不遵守,等於沒用。 另外,canonical標籤的本意是指定正常化網址,過濾條件頁面是否適用有些存疑,畢竟,這些頁面上的內容經常是不同的。

目前比較好的方法之一是iframe+robots禁止。 將過濾部分代碼放進iframe,等於調用其它檔內容,對搜尋引擎來說,這部分內容不屬於當前頁面,也即隱藏了內容。 但不屬於當前頁面不等於不存在,搜尋引擎是可以發現iframe中的內容和連結的,還是可能爬行這些URL,所以加robots禁止爬行。 iframe中的內容還是會有一些權重流失,但因為iframe裡的連結不是從當前頁面分流權重,而只是從調用的那個檔分流,所以權重流失是比較少的。 除了排版、瀏覽器相容性之類的頭疼問題,iframe方法的一個潛在問題是被認為作弊的風險。 現在搜尋引擎一般不認為iframe是作弊,很多廣告就是放在iframe中,但隱藏一堆連結和隱藏廣告有些微妙的區別。 回到搜尋引擎判斷作弊的總原則上,很難說這不是專門為搜尋引擎做的。 記得Matt Cutts說過,Google以後可能改變處理iframe的方式,他們還是希望在同一個頁面上看到普通使用者能看到的所有內容。

總之,對這個現實、嚴重的問題,我目前沒有自己覺得完美的答案。 當然,不能完美解決不是就不能活了,不同網站SEO重點不同,具體問題具體分析,採用上述方法中的一種或幾種應該可以解決主要問題。

而最最最大的問題還不是上述這些,而是有時候你想讓這些過濾頁面被爬行和收錄,這才是杯具的開始。 以後再討論。

作者:Zac@SEO每天一貼

版權所有。 轉載時必須以連結形式注明作者和原始出處及本聲明。

原文:HTTP://www.seozac.com/seo-tips/duplicate-urls-content/

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.