搜尋引擎是如何判斷頁面文章內容是否原創的

來源:互聯網
上載者:User

  本人最近在操作一個非主流站,內容是採集的,開始收錄還好,後來不久就被k了,幾萬資料的站百度收錄只剩幾十。當然,我也知道一直採集也不是辦法,可是人力有限,不可能去一條條加,也不現實。所以想搜尋一下搜尋引擎是怎麼判定原創與否的,但很可惜,這方面的內容實在不多。然後我去以搜尋工程師的角度去想了想,不禁一身冷汗啊,因為判定原創與否實在太簡單了。我就按我的思維順序分析一下,供參考。

  下面我以這個文章為例來講解。標題:南昊北京科技有限公司是專業的游標閱讀機生產商。內容:南昊科技研發的游標閱讀機讀卡快,品質優,服務好。我們的公司地址在北京市XXXX。蜘蛛通過超連結文本來到我們的網站,並通過站內連結來到此篇文章頁。搜尋引擎判斷分析開始。

  1.標題的分析。現在好多的網頁都有明顯的最佳化痕迹,帶有很多的長尾詞,但是這些在後邊位置的長尾詞應該只是告訴引擎本頁面這是關於什麼內容的,因為這樣的話引擎會認為有太多重複,顯然這是一個不正確的做法。實際應該為有一個截取函數,比如只截取前邊40個字元作為分析內容。最終,假設引擎截取的是:南昊北京科技有限公司是專業的游標閱讀機。

  首先要做的就是判斷這個標題是不是唯一,怎麼判斷呢,放心有辦法。我們都知道引擎分類是按詞條目來分的,那條目要怎麼來呢。簡單:相關搜尋字詞條目。如下圖:

  引擎會把截取到的標題按這個相關搜尋字詞去他的資料庫中逐一分析匹對。舉個例子吧,從標題中取到游標閱讀機這個詞,然後和相關搜尋字詞匹對,如果資料庫中已經存有了這個標題,就會認為此標題不唯一,待匹對文章內容。如果游標閱讀機這個詞匹對完畢,再會截取南昊北京,再會以此類推,進行匹對……直到分析完引擎認為標題所含全部的關鍵詞。

  最終標題的匹對結果有兩種:一,標題資料庫暫無此內容,待考察內容。二,標題資料庫中已存在此內容,待考察內容。

  2.內容的分析。基本思路應該和標題的分析是差不多的,但是也有差別,困為內容包含的資訊畢竟比標題要複雜,五花八門的多,也要有更複雜的演算法。

  前邊已經說了我們的內容是:南昊科技研發的游標閱讀機讀卡快,品質優,服務好。我們的公司地址在北京市XXXX。因為文章內容一般很長,所以不可能去對關鍵詞進行分析,他只好去對一句話或者一段話進行分析匹對。但是這個匹對範圍應該還是標題中有相關搜尋字詞的文章資料庫中進行分析匹對。

  先大體說一下他的分析方法:隨機截取隨機長的欄位,然後就行此欄位前後內容的分析,如果當前頁與引擎內容資料庫中有相同欄位的且前後段也相同的話,就會認為這個文章有抄襲,非原創的嫌疑。這個分析過程一般要重複幾次,假如分析了10次,有9次在截取欄位前後都能在已有內容資料庫中有相同內容,再加上標題又相同,這樣的話,你這篇文章就會被認定為非原創了。

  下面我們來類比一下。

  引擎第一次截取到了“游標閱讀機讀卡快,”,然後通過相關搜尋字詞來到文章資料庫,已有資料庫欄位前為“科技研發的”,欄位後為“品質優”,取出這兩個欄位與我們當前頁面進行匹對。若有相同內容,記為0,沒有相同內容,記為1。一次匹對完畢。

  然後再截取“公司地址”,進行操作,再次得到一個結果0或1,以此類推。直到完成引擎設定的匹對迴圈次數。如果匹對10次,有7次,或8次,或10次都能找到相同內容,那麼就會認為你的這篇不是原創了……

  再往遠了說,如果判定這是一篇原創,那麼引擎會在他的網域名稱權重資料庫中對該網域名稱進行+1操作,顯然,越來越多的原創,權重也就越來越高,排名也就越來越好了。如A5,chinaZ。

  我想通過標題與內容的這樣關鍵詞匹對,只要進行足夠次數的匹對,大膽擴充相關資料庫匹對範圍,一篇文章是不是原創就能分辨出來了。事實上,現在的處理器是越來越快又便宜,再加上搜尋引擎工程師都是高學曆的,演算法的提高改善,還有那經驗的積累。搜尋引擎對文章原創與否進行判斷,就像剁大白菜一樣簡單。

  不想還行,一想真是嚇一跳,得到的結論是採集站必死!原創吧還是,最不濟標題起碼也要改吧。看看吧,要是有時間了再分享一下如何做好引擎分析不出來的偽原創文章。

  以上只是小弟淺顯分析,實際演算法畢竟複雜得多,僅供參考!另AD一下:http://www.nanhaokeji.com,我操作的一個站誠招友情連結,企業站為佳,Pr剛更新為1了,QQ:419844484,加好友請註明友鏈。



相關文章

E-Commerce Solutions

Leverage the same tools powering the Alibaba Ecosystem

Learn more >

Apsara Conference 2019

The Rise of Data Intelligence, September 25th - 27th, Hangzhou, China

Learn more >

Alibaba Cloud Free Trial

Learn and experience the power of Alibaba Cloud with a free trial worth $300-1200 USD

Learn more >

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。