搜尋引擎原創識別演算法的技術細則

來源:互聯網
上載者:User

仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳

前段時間參加武漢的一個seo圈子的小聚會,閒聊嗨皮之余,連同幾個百度的工程師一起,具體的分析了下有關百度原創識別演算法,在技術方面的一些細節,覺得蠻有意思的,就寫出來大家一起溝通下,求拍矮個芝麻磚.

搜尋引擎為什麼如此重視原創?

早期的搜尋引擎演算法中,其實並沒有原創這一項的判斷.但是隨著後來採集,轉載的大規範氾濫,導致了使用者很難搜索到自己真正想要的內容.大量的重複內容充斥在搜尋結果中,讓人眼花繚亂.

首先,由於後期採集技術的興起,大量的轉載內容充斥網路.轉載,必然會對原創產生一定的損傷,比如去掉圖片,刪掉一些重要的段落,或者充斥大量非原作者的注釋資訊.不管這麼做是為了什麼,但是都會降低內容的品質, 使得一個關鍵字搜索到的內容前十幾頁都是同樣的內容,也就使得搜索變的很無用.因此促使了搜尋引擎對於原創內容進行分級顯示.

由於後期採集技術的逐漸強大,可以自動將一些同義字進行替換和修改,也就造成了轉載文章的內容品質進一步下降.網路上充斥著大量的無法閱讀的文章.也就更加促使了搜尋引擎對於優質原創內容的篩選.

其實讓矮個芝麻最為糾結的一件事情就是,寫了一篇文章,被人轉走,改改頭部底部,就變成了一篇很是霸氣的文章.久而久之,很是打擊作者對於文章創新的積極性.這也是搜尋引擎費盡心機試圖尋找到原創文章的源頭, 予以優先顯示的最初原因.尊重作者的版權,否則一篇文章的被轉載,大量的流量被引流到其他的網站,將會直接影響到作者的收益.

搜尋引擎如何判斷一篇文章是否為原創?

1.1轉載的良心,轉載保留外連,作者名,聲明轉載等

個人覺得,這是一種純良心的做法.因為在轉載走的時候,刪掉你的資訊是很輕鬆的.當然,大量的採集可能不會刪掉原作者留下的版權聲明.這就給了搜尋引擎一個很好的識別方式.首先,一般的門戶在轉載文章後, 都會很禮貌的在標題後面留下一個[轉]字.比較厚道一點的,還會在文章的底部或者頭部留下轉載源的連結.

轉載源不一定是原創,但肯定更加有利於搜尋引擎尋找到這篇文章的最終源頭.目前已知的做法的,標題留 [轉] ,底部留原作者的文章連結,文章的資訊中顯示轉載于那個作者或者網站.這是目前最為主流的識別方式.

1.2技術層面的識別

當然,這麼有禮貌的轉載也只是轉載採集大軍中的一部分.還有相當大的一部分轉載,會掐頭去尾改標題,外連作者就更不要提了,直接在採集過程中遮罩替換掉.或許這是國人山寨採集的一種習慣吧,就像QQ的icq,百度的谷歌,支付寶的貝寶 ... 所以說對於這種行為,在這咱也不予評價.

搜尋引擎對於這類文章的識別方式就更多的是通過技術層面的東西.最為優先順序的就是,那篇文章優先被搜尋引擎蜘蛛抓到.同時,文章中留下的時間,對於百度蜘蛛來說是有迷惑性的.也就是說你轉載一篇5月18號發的帖子, 把時間改成5月16號,百度蜘蛛是有一定概率被欺騙的.

同時,對於改標題這方面,百度有一個很模糊的演算法.具體的做法就是對比標題和內容的關聯性.具體的判斷做法尚不清楚,但根據以往的經驗來看,如果標題和內容完全沒有關系, 這篇文章很容易被百度忽視掉.這就說明搜尋引擎對於這方面還是有一定的識別度的.同時,對於略有區別的兩篇文章,百度可以根據內容的通順程度,判斷出哪一篇的品質更高.

採集內容很難識別,搜尋引擎的演算法有待提高

到這,很多人可能覺得搜尋引擎的識別演算法已經很強大了.但是事實是,採集的文章還是很難被識別.

1.1採集工具的偽原創學習能力很強大

因為現在的採集工具對於同義字,語句是否通順的機器自我學習能力也是很強大的.現在採集的一篇文章經過採集工具的處理,即便是個人,也只是覺得語句略微僵硬,也很難感覺出這篇文章是出自軟體之手,所以這也是搜尋引擎目前很頭痛的一點, 因為這種文章的品質,畢竟要比原創差太多了.

1.2網頁結構過於複雜,html結構難以識別

雖然有很多的網站在做符合搜尋引擎優化方面的規範,但是內容區域和欄目,熱門主題的推薦,廣告等內容在html中的分離並不明顯.這也就增加了搜尋引擎對於內容的讀取後的識別分離.通過web手機版的優化閱讀就可以看出, 目前百度其實還是會經常會無法區分哪些是文章的標題,哪些是作者,內容,發佈時間等.這也就造成了最終對於原創內容的對比,存在一定的偏差.

1.3文章製造工具,直接生成原創文章

目前網路上流行著很多原創文章製造工具,比如直接從英文文章利用谷歌翻譯翻譯過來,利用語句的匹配自動匹配出一篇對於搜尋引擎的蜘蛛看來是一篇完美的文章,但是對於使用者來說,除了大量的關鍵字堆砌,毫無意義.

一系列的文章,最終決定了目前的搜尋引擎,矮個芝麻覺得搜尋引擎還是需要加大對於原創內容的識別投入,因為現如今的採集和偽原創技術,可以遠遠的走在前列哦~矮個芝麻博客HTTP://www.cl889.com.

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.