分析google與百度是如何識別文章偽原創的

來源:互聯網
上載者:User

  首先石頭本人寫這篇文章完全源自個人長期對搜尋引擎的一個觀察和總結,大家覺得分析的不對或者不妥請指正,石頭願意交流和接受,畢竟石頭研究SEO也有一段時間,雖然說SEO的最高境界是忘記SEO,但是SEO技術也還是非常有趣的,石頭對研究SEO技術純粹是個人興趣,沒有其他的意思,寫這篇文章也是給各位新老站長做一個參考。

  第一點、關於哪些詞是蜘蛛不喜歡的呢?那麼我們來看一下:總的來講搜尋引擎會過濾“的,了,呢,啊”之類的重複率非常之高的詞,有人會問是為什麼呢?很簡單,因為這類詞是對排名無協助的無用詞語。

  第二點、在談到這裡要談偽原創百度與Google是怎麼演算法,和判定的?為什麼有時候轉換近義詞無效。那麼從這裡開始就算是小戴個人的一點經驗總結了。我們都知道目前在網路然市場上有一堆偽原創工具能夠將詞語偽原創比如將“電腦”偽原創為“電腦”等這樣的近義詞,那麼有什麼理由不相信強大的搜尋引擎不會偽原創?所以肯定的,搜尋引擎一定會近義詞偽原創,當搜尋引擎遇到“電腦”和“電腦”時,會將他們自動轉換這裡姑且假設為A,所以很多情況下的近義詞偽原創不收錄的原因就在這裡。

  第三點、重點談一下為什麼有時候不僅近義詞轉換了並且連打亂句子與段落依然無效果呢。當搜尋引擎過濾掉無用詞,並將各類近義詞轉化為A,B,C,D後開始提取出這個頁面最關鍵的幾個詞語A,C,E如果大家不太明白,那麼(這裡舉個例子,實際可能提取的關鍵字不是ACE三個而是1個到幾十個都是說不定的)。並且將這些詞進行指紋記錄。這樣也就是說,近義詞轉換過的並且段落打亂過的文章和原文對於搜尋引擎來說是會認為一模一樣的。如果你們不明白,那就好好的琢磨一下,小戴的語言功底不太好,希望大家能夠理解。

  第四點、這段更深層次解釋為什麼幾篇文章段落重組的文章依然可能會被搜尋引擎識別出。大家會可能覺得奇怪了?首先既然百度能夠產生指紋自然也能解碼指紋,段落重組的文章不過是重要關鍵字的增加或者減少,這樣比如有兩篇文章第一篇重要關鍵字是ABC,而第二篇是AB,那麼搜尋引擎就可能利用自己一個內部相似識別的演算法,如果相差的百分數在某個值以下就放出文章並且給予權重,如果相差的百分數高於某個值那麼就會判斷為重複文章從而不放出快照,也不給予權重。這也就是為什麼幾篇文章段落重組的文章依然可能會被搜尋引擎識別出的原因。

  第五點、我要解釋下為什麼有些偽原創文章仍然可以被收錄的很好。我上面的推理只是對於百度識別偽原創演算法的大致架構,實際上Google百度對於識別偽原創的工作要更加龐大並且複雜的多,Google一年就會改變兩百次演算法足以看出演算法的複雜性。為什麼某些偽原創的文章依然可以被收錄的很好。只有兩個原因:

  NO1.由於被收錄的網站自身權重相當高,比較那些大型的門戶網站,哪怕不為原創照搬別人的文章還是百分之百會被收錄給予權重。這沒什麼可商量的,你急也急不來的!

  NO2.搜尋引擎絕對不可能完美到過濾所有偽原創,這是不可能的,就好像人工智慧的圖靈永遠無法完美到擁有人類的情緒一樣。大家明白了嗎?對搜尋引擎是如何判斷偽原創有一定的瞭解了嗎?

  總結:以上是華美網(http://www.huamiweb.com/)石頭對百度與Google如何識別偽原創演算法心得,如果各位站長學得我寫的不靠譜,可以指正出來,畢竟大家是一起來探討SEO學習更高深的一層,相信每位站長對搜尋引擎都有過一定的研究,歡迎大家把自己的亮點與大家共用同一個SEO舞台。首發A5轉載請註明來源。



相關文章

E-Commerce Solutions

Leverage the same tools powering the Alibaba Ecosystem

Learn more >

Apsara Conference 2019

The Rise of Data Intelligence, September 25th - 27th, Hangzhou, China

Learn more >

Alibaba Cloud Free Trial

Learn and experience the power of Alibaba Cloud with a free trial worth $300-1200 USD

Learn more >

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。