仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳
搜尋引擎和搜尋引擎優化(SEO)一直是一對矛盾,合理的優化有助於搜尋引擎對網站內容的識別,有助於網站的推廣。 然而有正面,就有反面,一些SEOers通過各種欺騙手段來欺騙搜蘇引擎,以期達到增加頁面收錄數和頁面排名的目的。
早期的關鍵字堆砌SPAM作弊方式之一,是將中文詞庫中的單詞直接用軟體拼湊成文章,這樣的文章沒有實際的意義,只能給搜尋引擎看。 那麼對於這樣的文章,搜尋引擎是通過什麼方式來識別的呢?
我們知道,每個搜尋引擎都有網頁品質監控部門,對於百度等摻雜人工處理的搜尋引擎而言,使用者發現這樣的網站,投訴到百度,百度直接封了這個網站了事。 但對於Google這樣的封站也是自動處理的搜尋引擎而言,對關鍵字堆砌作弊的識別就顯得更為重要了。
對於關鍵字堆砌作弊方式的識別,搜尋引擎一般採用統計分析的方法進行。
搜尋引擎首先將網頁進行分詞,分詞完成後可以得到詞的數量N和文章長度L,從大量文章的統計中發現文章的長度L和詞的數量N兩個數字之間存在一定的分佈關係,一般而言L/N界于4至8之間,均值大約在5-6之間。 也就是說一篇長度為1000位元組的文章中,應該有125-250個分詞,由於中文和英文的詞的組成不一致,因此在英文和中文中這個比值的範圍會有所不同。 如果搜尋引擎發現L/N特別大,那麼這篇文章就存在就存在關鍵字堆砌現象了,如果L/N特別小,則可能是這篇文章是由一些詞所組成的沒有意義的文章。
進一步,通過大量正常文章統計發現,文章中密度最高的幾個關鍵字出現的次數之和與N/L存在一定的分佈關係,搜尋引擎就可以通過網頁中的分佈與統計結果的分布圖進行比較得出文章是否存在關鍵字堆砌的現象。
此外,搜尋引擎還將從停止字的比例來判定文章是否為自然文章。 停止字就是如「的」「我」「是」等在文章中普遍使用的字或詞,如果文章中停止字的比例在正常的比例範圍之外,這個網頁應提交到網頁品質監控部門審核。
當然,還有更多的演算法可以對網頁與自然語言的文章進行比較分析,以判別文章是否為自然文章。
所謂魔高一尺、道高一丈,有些作弊者已經放棄了單詞的組成文章的作弊方式,而改用句子組成文章的作弊方式,作弊者通過爬蟲或其它方式獲得網上文章的句子,並用軟體將數十篇文章的某幾句拼湊成一篇文章。 這就需要搜尋引擎做語義的分析來判斷是否作弊了,然而目前關於語義分析的研究還處於研究階段,這也是下一代智慧搜尋引擎的方向。
然而我們仍然不能將自動文章生成一棍子打死,基於人工智慧的文章生成仍然是人類研究自身語言以及自身智慧的一個重要方向。 作弊與反作弊,將能促使人類對人工智慧的研究。
如果到最後,軟體能生成人類能夠理解的文章,這是SPAM還是精華?你能肯定地說目前存在的智慧化程度還不夠高的RSS聚合文章一定是SPAM嗎?然而,如果這樣的文章海量的出現,我們又該如何去面對這個現象?
作者:泥人
來源:HTTP://www.nipei.com