搜尋引擎判斷網站文章內容是否原創的原理

來源:互聯網
上載者:User

仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳

現在大多數網站訪問者都來自于搜尋引擎,要想訪問人數多、被更多的人認知,最主要的是要被各大搜尋引擎收錄更多的條目,並且排名盡可能的靠前。 那麼要怎麼做才能讓搜尋引擎快速收錄網站內容且排名靠前呢?小編之前已經講過企業網站建設完成後如何做好網站的搜尋引擎優化及推廣,那麼今天小編將跟大家探討一下原創內容。

首先需要明確一個概念:網路上的搜尋引擎判斷的原創可以理解為是第一次在網路上出現的內容,也就是網路上沒有出現過的內容即伺服器資料庫索引裡沒有的內容。

那麼搜尋引擎對於原創的判斷是如何進行的呢?搜尋引擎的蜘蛛索引程式通過超連結文本來到網站,並通過站內連結來到文章頁。

搜尋引擎判定開始分析:

首先,標題的分析:搜尋引擎一般是先截取前60個字元作為分析內容。 判定這個標題是不是獨一,我們都知道引擎分類是通過條目相關搜索詞來索引的。 引擎會把截取到的標題按這個相關搜索詞分組與已經收錄的條目資料庫進行匹對。 假如資料庫中已經存有了這個標題,就會認為此標題不獨一,待匹對文章內容。 假如一組詞匹對完畢,再會截取下面的詞,再會以此類推,進行匹對...... 直到前面60個字元匹配完畢,在對後面的詞進行統一處理,個人認為引擎很可能是把後邊的片語做一個字串處理。

終極標題的匹對結果有兩種:1. 標題資料庫暫無此內容;2. 標題資料庫中已存在此內容。 針對該兩種不同情況,引擎會在它的索引伺服器裡做一個標識。 作為網站權重的一個排名參數。

其次,內容的分析:基本思路應該和標題的分析類似,但是也有差別。 因為內容包含的資訊量比標題的資訊量大的多,所以需要有更複雜的演算法。 由於文章內容一般很長,所以不可能對關鍵字進行分析匹對,只能對一句話或者一段話進行分析匹對。 但是匹對範圍應該仍是針對標題中有相關搜索詞的文章資料庫。 內容的分析方法是截取隨機長的欄位,然後對此欄位前後內容進行分析。 假如當前頁與引擎內容資料庫中有相同欄位且前後段也相似,就認為這個文章有非原創的嫌疑。

這個分析過程一般要重複幾回。 如果分析十次,有七次在截取欄位前後都能在已有內容資料庫中匹對到相同內容,加上標題又相似,該篇文章就會被認定為非原創。

假如判斷這是一篇原創,那麼引擎會在它的網站權重索引資料庫中對該功能變數名稱進行加權,顯然,原創文章越多,權重越高,網站排名也就越來越好。

引擎通過標題、內容關鍵字與伺服器的內容進行匹對,只要進行足夠次數的匹對,擴展相關資料庫條目匹對範圍,一篇文章是不是原創就能分辨出來了。 隨著現在伺服器性能越來越強大,演算法越來越複雜,應該很容易判斷出來是不是原創文章。 故抄襲、複製,必死無疑。 原文連結轉載請保留原文連結。 個人觀點僅供參考,歡迎大家指正。

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.