仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳
對於搜尋引擎來說,重複的網頁內容是非常有害的。 重複網頁的存在意味著這些網頁就要被搜尋引擎多處理一次。 更有害的是搜尋引擎的索引製作中可能會在索引庫裡索引兩份相同的網頁。 當有人查詢時,在搜尋結果中就會出現重複的網頁連結。 所以無論是從搜索體驗還是系統效率檢索品質來說這些重負網頁都是有害處的。
網頁查重技術起源于複製檢測技術,即判斷一個檔內容是否存在抄襲、複製另外一個或多個檔的技術。
1993年Arizona大學的Manber(Google現副總裁、工程師)推出了一個sif工具,尋找相似檔。 1995年Stanford大學的Brin(Sergey Brin,Google創始人之一)和Garcia-Molina等人在「數位圖書觀」工程中首次提出文本複製檢測機制COPS(Copy Protection System) 系統與相應演算法[Sergey Brin et al 1995].之後這種檢測重複技術被應用到搜尋引擎中,基本的核心技術既比較相似。
網頁和簡單的文檔不同,網頁的特殊屬性具有內容和格式等標記,因此在內容和格式上的相同相似構成了4種網頁相似的類型。
1、兩個頁面內容格式完全相同。
2、兩個頁面內容相同,但格式不同。
3、兩個頁面部分內容相同並且格式相同。
4、兩個頁面部分重要相同但格式不同。
實現方法:
網頁查重,首先將網頁整理成為一個具有標題和正文的文檔,來方便查重。 所以網頁查重又叫「文檔查重」。 「文檔查重」一般被分為三個步驟,
一、特徵抽取。
二、相似度計算和評價。
三、消重。
1.特徵抽取
我們在判斷相似物的時候,一般是才能用不變的特徵進行對比,檔查重第一步也是進行特徵抽取。 也就是將文檔內容分解,由若干組成文檔的特徵集合表示,這一步是為了方面後面的特徵比較計算相似度。
特徵抽取有很多方法,我們這裡主要說兩種比較經典的演算法,「I-Match演算法」、「Shingle演算法」。
「I-Match演算法」是不依賴于完全的資訊分析,而是使用資料集合的統計特徵來抽取文檔的主要特徵,將非主要特徵拋棄。
「Shingle演算法」通過抽取多個特徵詞彙,比較兩個特徵集合的相似程度實現文檔查重。
2.相似度計算和評價
特徵抽取完畢後,就需要進行特徵對比,因網頁查重第二步就是相似度計算和評價。
I-Match演算法的特徵只有一個,當輸入一篇文檔,根據詞彙的IDF值(逆文本頻率指數,Inverse document frequency縮寫為IDF)過濾出一些關鍵特徵, 即一篇文章中特別高和特別低頻的詞彙往往不能反應這篇文章的本質。 因此通過文檔中去掉高頻和低頻詞彙,並且計算出這篇文檔的唯一的Hash值(Hash簡單的說就是把資料值對應為位址。 把資料值作為輸入,經計算後即可得到位址值。 ),那些Hash值相同的文檔就是重複的。
Shingle演算法是抽取多個特徵進行比較,所以處理起來比較複雜一些,比較的方法是完全一致的Shingle個數。 然後除以兩個文檔的Shingle總數減去一致的Shingle個數,這種方法計算出的數值為「Jaccard 係數」,它可以判斷集合的相似度。 Jaccard 係數的計算方法集合的交集除以集合的並集。
3.消重
對於刪除重複內容,搜尋引擎考慮到眾多收錄因素,所以使用了最簡單的最實用的方法。 先被爬蟲抓取的頁面同時很大程度也保證了優先保留原創網頁。
網頁查重工作是系統中不可缺少的,刪除了重複的頁面,所以搜尋引擎的其他環節也會減少很多不必要的麻煩,節省了索引存儲空間、減少了查詢成本、提高了PageRank計算效率。 方便了搜尋引擎使用者。