仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳
做站這麼久感觸最深的就是原創文章在搜尋引擎的眼裡越來越重要。 本人負責幾個企業站的seo日常優化工作,其中一個站本來日均ip都在兩三千,可由於某段時間網站內容品質不過關,導致網站被降權,長尾關鍵字的流量一下子去了一大半,網站流量也是差了近半。 隨著本人努力的原創,網站現在表現良好逐漸恢復穩定。 在這個「內容為王」的時代,想要網站在搜尋引擎中有好的表現,就必須在內容上苦下功夫。
可是眾多seo人員深有體會,持久保持原創內容的建設並不是一件容易的事。 於是偽原創、抄襲等各類招數就被站長們紛紛用上,這些方法真的有效還是自欺欺人?今天筆者就和大家一起分享搜尋引擎對於重複內容判定方面的知識。
一、搜尋引擎為何要積極處理重複內容?
1、節省爬取、索引、分析內容的空間和時間
用一句簡單的話來講就是,搜尋引擎的資源是有限的,而使用者的需求卻是無限的。 大量重複內容消耗著搜尋引擎的寶貴資源,因此從成本的角度考慮必須對重複內容進行處理。
2、有助於避免重複內容的反復收集
從已經識別和收集到的內容中匯總出最符合使用者查詢意圖的資訊,這既能提高效率,也能避免重複內容的反復收集。
3、重複的頻率可以作為優秀內容的評判標準
既然搜尋引擎能夠識別重複內容當然也就可以更有效的識別哪些內容是原創的、優質的,重複的頻率越低,文章內容的原創優質度就越高。
4、改善使用者體驗
其實這也是搜尋引擎最為看重的一點,只有處理好重複內容,把更多有用的資訊呈遞到使用者面前,使用者才能買帳。
二、搜尋引擎眼中重複內容都有哪些表現形式?
1、格式和內容都相似。 這種情況在電商網站上比較常見,盜圖現象比比皆是。
2、僅格式相似。
3、僅內容相似。
4、格式與內容各有部分相似。 這種情況通常比較常見,尤其是企業類型網站。
三、搜尋引擎如何判斷重複內容?
1、通用的基本判斷原理就是逐個對比每個頁面的數位指紋。 這種方法雖然能夠找出部分重複內容,但缺點在於需要消耗大量的資源,操作速度慢、效率低。
2、基於全域特徵的I-Match
這種演算法的原理是,將文本中出現的所有詞先排序再打分,目的在於刪除文本中無關的關鍵字,保留重要關鍵字。 這樣的方式去重效果效果高、效果明顯。 比如我們在偽原創時可能會把文章詞語、段落互換,這種方式根本欺騙不了I-Match演算法,它依然會判定重複。
3、基於停用詞的Spotsig
文檔中如過使用大量停用詞,如語氣助詞、副詞、介詞、連詞,這些對有效資訊會造成干擾效果,搜尋引擎在去重處理時都會對這些停用詞進行刪除,然後再進行文檔匹配。 因此,我們在做優化時不妨減少停用詞的使用頻率,增加頁面關鍵字密度,更有利於搜尋引擎抓取。
4、基於多重Hash的Simhash
這種演算法涉及到幾何原理,講解起來比較費勁,簡單說來就是,相似的文本具有相似的hash值,如果兩個文本的simhash越接近,也就是漢明距離越小,文本就越相似。 因此海量文本中查重的任務轉換為如何在海量simhash中快速確定是否存在漢明距離小的指紋。 我們只需要知道通過這種演算法,搜尋引擎能夠在極短的時間內對大規模的網頁進行近似查重。 目前來看,這種演算法在識別效果和查重效率上相得益彰。
本文由電信400電話HTTP://www.400kls.com原創,歡迎轉載。