搜尋引擎是怎樣來判斷文章是否原創呢

來源:互聯網
上載者:User

  本人最近在操縱一個非主流站,內容是採集的,開始收錄還好,後來不久就被k了,幾萬資料的站百度收錄只剩幾十。當然,我也知道一直採集也不是辦法,可是人力有限,不可能去一條條加,也不現實。所以想搜尋一下搜尋引擎是怎麼判斷原創與否的,但很可惜,這方面的內容其實未幾。然後我去以搜尋工程師的角度去想了想,不禁一身冷汗啊,由於判斷原創與否其實太簡樸了。我就按我的思維順序分析一下,供參考。

  下面我以這個文章為例來講解。標題:南昊北京科技有限公司是專業的游標閱讀機出產商。內容:南昊科技研發的游標閱讀機讀卡快,品質優,服務好。我們的公司地址在北京市XXXX。蜘蛛通過超連結文本來到我們的網站,並通過站內連結來到此篇文章頁。搜尋引擎判定分析開始。

  1.標題的分析:

  現在好多的網頁都有顯著的最佳化痕迹,帶有良多的長尾詞,但是這些在後邊位置的長尾詞應該只是告訴引擎本頁面這是關於什麼內容的,由於這樣的話引擎會以為有太多重複,顯然這是一個不準確的做法。實際應該為有一個截取函數,好比只截取前邊40個字元作為分析內容。終極,假設引擎截取的是:南昊北京科技有限公司是專業的游標閱讀機。首先要做的就是判定這個標題是不是獨一,怎麼判定呢,放心有辦法。我們都知道引擎分類是按詞條目來分的,那條目要怎麼來呢。簡樸:相關搜尋字詞條目。引擎會把截取到的標題按這個相關搜尋字詞去他的資料庫中一一分析匹對。舉個例子吧,從標題中取到游標閱讀機這個詞,然後和相關搜尋字詞匹對,假如資料庫中已經存有了這個標題,就會以為此標題不獨一,待匹對文章內容。假如游標閱讀機這個詞匹對完畢,再會截取南昊北京,再會以此類推,進行匹對……直到分析完引擎以為標題所含全部的樞紐詞。終極標題的匹對結果有兩種:一,標題資料庫暫無此內容,待考察內容。二,標題資料庫中已存在此內容,待考察內容。

  2.內容的分析:

  基本思路應該和標題的分析是差未幾的,但是也有差別,困為內容包含的資訊究竟比標題要複雜,五花八門的多,也要有更複雜的演算法。前邊已經說了我們的內容是:南昊科技研發的游標閱讀機讀卡快,品質優,服務好。我們的公司地址在北京市XXXX。由於文章內容一般很長,所以不可能去對樞紐詞進行分析,他只好去對一句話或者一段話進行分析匹對。但是這個匹對範圍應該仍是標題中有相關搜尋字詞的文章資料庫中進行分析匹對。先大體說一下他的分析方法:隨機截取隨機長的欄位,然後就行此欄位前後內容的分析,假如當前頁與引擎內容資料庫中有相同欄位的且前後段也相同的話,就會以為這個文章有抄襲,非原創的嫌疑。這個分析過程一般要重複幾回,如果分析了10次,有9次在截取欄位前後都能在已有內容資料庫中有相同內容,再加上標題又相同,這樣的話,你這篇文章就會被認定為非原創了。

  下面我們來類比一下

  引擎第一次截取到了“游標閱讀機讀卡快,”,然後通過相關搜尋字詞來到文章資料庫,已有資料庫欄位前為“科技研發的”,欄位後為“品質優”,掏出這兩個欄位與我們當前頁面進行匹對。若有相同內容,記為0,沒有相同內容,記為1。一次匹對完畢。然後再截取“公司地址”,進行操縱,再次得到一個結果0或1,以此類推。直到完成引擎設定的匹對輪迴次數。假如匹對10次,有7次,或8次,或10次都能找到相同內容,那麼就會以為你的這篇不是原創了……再往遠了說,假如判斷這是一篇原創,那麼引擎會在他的網域名稱權重資料庫中對該網域名稱進行+1操縱,顯然,越來越多的原創,權重也就越來越高,排名也就越來越好了。我想通過標題與內容的這樣樞紐詞匹對,只要進行足夠次數的匹對,大膽勇敢擴充相關資料庫匹對範圍,一篇文章是不是原創就能分辨出來了。事實上,現在的處理器是越來越快又便宜,再加上搜尋引擎工程師都是高學曆的,演算法的進步改善,還有那經驗的積累。搜尋引擎對文章原創與否進行判定,就像剁大白菜一樣簡樸。不想還行,一想真是嚇一跳,得到的結論是採集站必死!原創吧仍是,最不濟標題最少也要改吧。看看吧,要是有時間了再分享一下如何做好引擎分析不出來的偽原創文章。本文由168網賺論壇 www.wz168.org 整理髮布。



相關文章

E-Commerce Solutions

Leverage the same tools powering the Alibaba Ecosystem

Learn more >

Apsara Conference 2019

The Rise of Data Intelligence, September 25th - 27th, Hangzhou, China

Learn more >

Alibaba Cloud Free Trial

Learn and experience the power of Alibaba Cloud with a free trial worth $300-1200 USD

Learn more >

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。