仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳
注明:來之痞子瑞《SEO深度解析》書本知識,非常感謝作者給我們寫了這麼好SEO知識。
【導讀】在互聯網如此發達的今天,同一個資料會在多個網站發佈,同一新聞會被大部分媒體網站報導,再加上小站長和SEO人員孜孜不倦地網路採集,造成了網路上擁有大量的重複資訊。 然而當使用者搜索某個關鍵字時,搜尋引擎必定不想呈現給使用者的搜尋結果都是相同的內容。 抓取這些重複的網頁,在一定程度上就是對搜尋引擎自身資源的浪費,因此去除重複內容的網站也成為了搜尋引擎所面臨的一大問題。
在一般的搜尋引擎架構中,網頁去重一般在Spider抓取部分就存在了,「去重」步驟在整個搜尋引擎架構中實施得越早,越可以節約後續處理系統的資源使用。 搜尋引擎一般會對已經抓取過的重複頁面進行歸類處理,比如,判斷某個網站是否包含大量的重複頁面,或者該網站是否完全採集其他網站的內容等,以決定以後對該網站的抓取情況或是否直接遮罩抓取。
去重的工作一般會在分詞之後和索引之前進行(也有可能在分詞之前),搜尋引擎會在頁面已經分出的關鍵字中,提取部分具有代表性的關鍵字,然後計算這些關鍵字的「指紋」。 每一個網頁都會有個這樣的特徵指紋,當新抓取的網頁的關鍵字指紋和已索引網頁的關鍵字指紋有重合時,那麼該新網頁就可能會被搜尋引擎視為重複內容而放棄索引。
實際工作中的搜尋引擎,不僅僅使用分詞步驟所分出的有意義的關鍵字,還會使用連續切割的方式提取關鍵字,並進行指紋計算。 連續切割的方式提取關鍵字,並進行指紋計算,連切割就是以單個字向後移動的方式進行切割就是單個字向後移動的方式進行切詞,比如,「百度開始打擊買賣連結」會被切成「百度開」「度開始」「開始打」「始打擊」「打擊買」「擊買賣」「 買賣鏈」「賣連結」。 然後從這些詞中提取部分關鍵字進行指紋計算,參與是否重複內容的對比。 這只是搜尋引擎識別重複網頁的基本演算法,還有很多其他對付重複網頁的演算法。
因此網路上流行的大部分偽原創工具,不是不能欺騙搜尋引擎,就是把內容做的鬼都讀不通,所以理論上使用普通偽原創工具不能得到搜尋引擎的正常收錄和排名。 但是由於百度並不是對所有的重複頁面都直接拋棄不索引,而是會根據重複網頁所在網站的權重適當放寬索引標準,這樣使得部分作弊者有機可乘,利用網站的高權重,大量採集其他網站的內容獲取搜索流量。 不過自2012年6月份以來,百度搜索多次升級演算法,對採集重複資訊、垃圾頁面進行了多次重複級的打擊。 所以SEO在面對網站內容時,不應該再以偽原創的角度去建設,而需要以對使用者有用的角度去建設,雖然後者的內容不一定全部是原創,一般如果網站權重沒有大問題,都會得到健康的發展。 關於原創問題,本書後續會在第12章進行詳細討論。
另外,不僅僅是搜尋引擎需要「網頁去重」,自己做網站也需要對站內頁面進行去重。 比如分類資訊、B2B平臺等UGC類的網站,如果不加以限制,使用者所發佈的資訊必然會有大量的重複,這樣不僅在SEO方面表現不好,站內使用者體驗也會降低很多。 有如SEO人員在設計流量產品常見的一般為以「聚合」為基礎的索引頁、專題頁或目錄頁,「聚合」就必須有核心詞,不加以過濾,海量核心詞所擴展出來的頁面就可能會有大量重複,從而導致該產品效果不佳,甚至會因此被搜尋引擎降權。
「去重」演算法的大概原理一般就是如上所述,有興趣的朋友可以瞭解一下I-Match、Shingle、SimHash及余弦去重具體演算法。 搜尋引擎在做「網頁去重」工作之前首先要分析網頁,內容周圍的「雜訊」對去重結果多少會有影響,做這部分工作時只對內容部分操作就可以了,相對來說會簡單很多,並且可以很有效地輔助產出高品質的「SEO產品」。 作為SEO人員只要瞭解實現原理就可以了,具體在產品中的應用,需要技術人員來實現。 此外還涉及效率、資源需求等問題,並且根據實際情況「去重」工作也可以在多個環節進行(比如對核心詞的分詞環節),SEO人員只要稍微瞭解一些原理,能夠為技術人員建議幾個方向就很不錯了(技術人員並不是萬能的,也有不熟悉、 不擅長的領域,在特定時刻也需要別人提供思路)。 如果SEO人員能在這些方面和技術人員進行深入的交流,技術人員也會對SEO另眼相看,至少不會再認為「SEO人員就只會修改標題、改連結、改文字之類‘無聊’的需求」了。
總結:在次感謝痞子瑞的怎麼好的書本,妮子在SEO思維中,找到新的知識,去重,指紋原理。 希望兄弟姐妹們可以去看看這本書,今天給大家分享一部分吧!往後的日子,看到好的知識點,會繼續和大家分享了。
可參考已經進行過去重處理網站:HTTP://www.91suichediao.com/